Predicția precisă a legării factorilor de transcripție specifici tipului de celulă

În timpul provocării ENCODE-DREAM, un număr mare de abordări create de 40 de echipe internaționale au fost analizate comparativ pe 13 teste ChIP-seq specifice tipului de celulă pentru 12 TF-uri diferite la om (Fișier suplimentar 1: Figura S1). Un set de 109 seturi de date pentru aceleași TF-uri (și altele suplimentare) în alte tipuri de celule a fost furnizat pentru instruire. Datele de instruire au cuprins date DNase-seq specifice tipului de celulă, date RNA-seq specifice tipului de celulă, secvențe și adnotări genomice și predicții in silico ale formei ADN. În plus, datele ChIP-seq specifice tipului de celulă și specifice TF și etichetele derivate au fost furnizate pentru cromozomii de formare, în timp ce predicțiile au fost evaluate numai pe cromozomii rămași, reținuți, chr1, chr8 și chr21, care nu au fost furnizați cu niciunul dintre datele de formare ChIP-seq. Pentru regiunile de 200 de pb decalate cu 50 de pb, au fost solicitate echipelor participante predicții la nivelul întregului genom cu privire la probabilitatea ca o anumită regiune să se suprapună peste un vârf ChIP-seq. Predicțiile au fost evaluate prin (i) aria de sub curba ROC (AUC-ROC), (ii) aria de sub curba precizie-rechemare (AUC-PR), (iii) reamintire la 10% FDR și (iv) reamintire la 50% FDR pe fiecare dintre cele 13 seturi de date de testare. Acestea au fost agregate pentru fiecare set de date pe baza rangului mediu, normalizat, obținut pentru fiecare dintre aceste măsuri în 10 eșantioane bootstrap ale cromozomilor reținuți, iar un clasament final a fost obținut ca medie a acestor statistici de rang (cf. https://www.synapse.org/#!Synapse:syn6131484/wiki/405275).

Ca urmare a acestui clasament, abordarea prezentată în această lucrare (echipa „J-Team”) a obținut un prim rang comun împreună cu abordarea creată de echipa „Yuanfang Guan.”

În cele ce urmează, investigăm influența diferitelor aspecte ale abordării propuse asupra performanței finale de predicție. În primul rând, inspectăm impactul diferitelor seturi de caracteristici conexe (date DNase-seq, scoruri de motive, date RNA-seq, caracteristici bazate pe secvențe și caracteristici bazate pe adnotări) asupra performanței de predicție. În al doilea rând, studiem importanța abordării de instruire iterativă, spre deosebire de o instruire pe date inițiale de instruire. În al treilea rând, comparăm performanța predicțiilor obținute de clasificatorii instruiți pe date de instruire pentru tipuri de celule individuale cu performanța predicției agregate obținute prin calcularea mediei pentru aceste tipuri de celule. În cele din urmă, aplicăm metoda propusă pentru a prezice legarea TF specifică tipului de celulă pentru 31 de TF-uri în 22 de tipuri de celule primare suplimentare, obținând un total de 682 de piste de predicție.

Impact al seturilor de caracteristici asupra performanței de predicție

Utilizăm performanța de predicție obținută de abordarea propusă utilizând toate seturile de caracteristici (secțiunea „Features”), procedura de instruire iterativă (secțiunea „Iterative training”) și agregarea pe toate tipurile de celule de instruire (secțiunea „Prediction schema”) ca bază de referință pentru toate comparațiile ulterioare (Fig. 1; „all features”). De-a lungul acestui manuscris, considerăm AUC-PR ca fiind măsura principală de performanță, deoarece AUC-PR este mai informativă cu privire la performanța de clasificare pentru probleme de clasificare puternic dezechilibrate , iar reamintirea la diferite niveluri FDR este destul de instabilă, deoarece corespunde unor puncte unice pe curba precizie-recordare. Valorile AUC-PR sunt calculate cu ajutorul pachetului R PRROC , care a fost utilizat și în cadrul provocării ENCODE-DREAM.

Fig. 1
figure1

Performanța între tipurile de celule. Pentru fiecare dintre cele 13 combinații de TF și tip de celulă din cadrul datelor de testare, calculăm performanța de predicție (AUC-PR) pe cromozomii reținuți a clasificatorilor (i) care utilizează toate caracteristicile luate în considerare, (ii) care utilizează numai caracteristici bazate pe motive, (iii) care utilizează numai caracteristici bazate pe DNase-seq și (iv) care utilizează numai caracteristici bazate pe motive și DNase-seq. Performanța mediană a clasificatorilor care utilizează toate caracteristicile este indicată printr-o linie punctată

Am constatat că performanța de predicție, măsurată prin AUC-PR, variază foarte mult între diferiții factori de transcripție (Fig. 1), cu o valoare mediană AUC-PR de 0,4098. Cea mai bună performanță de predicție este obținută pentru CTCF, care are un motiv de legare lung și bogat în informații, în două tipuri de celule diferite (IPSC și PC-3). O performanță peste medie se obține, de asemenea, pentru FOXA1 și HNF4A în celulele hepatice. Pentru majoritatea celorlalte TF, găsim valori AUC-PR în jurul valorii de 0,4, în timp ce observăm o precizie de predicție destul de scăzută pentru NANOG și REST.

Pentru a analiza contribuția caracteristicilor selectate asupra performanței finale de predicție, excludem în mod sistematic seturi de caracteristici conexe din datele de intrare în formare și predicție. Ca bază de referință, măsurăm AUC-PR pentru clasificatorul care utilizează toate seturile de caracteristici. În plus, măsurăm AUC-PR atunci când excludem fiecare set de caracteristici individuale, unde diferența dintre aceste două valori AUC-PR cuantifică îmbunătățirea obținută prin includerea setului de caracteristici (Fig. 2a).

Fig. 2
figure2

Importanța seturilor de caracteristici. a Testăm importanța seturilor conexe de caracteristici prin excluderea unui set de caracteristici din datele de instruire, măsurarea performanței (AUC-PR) a clasificatorului rezultat și scăderea acestei valori AUC-PR din valoarea corespunzătoare obținută de clasificatorul care utilizează toate caracteristicile. Prin urmare, dacă Δ AUC-PR este mai mare de zero, setul de caracteristici excluse a îmbunătățit performanța finală de predicție, în timp ce valorile Δ AUC-PR sub zero indică un efect negativ asupra performanței de predicție. Colectăm valorile Δ AUC-PR pentru toate cele 13 seturi de date de testare și le vizualizăm sub formă de diagrame de vioară. b Evaluarea diferitelor grupuri de caracteristici bazate pe DNase-seq. În acest caz, comparăm performanța care include un grup specific de caracteristici bazate pe DNase-seq (cf. Fișier suplimentar 1: Text S2)) cu performanța fără caracteristici bazate pe DNase-seq (cf. vioara „DNase-seq” în panoul a). Am constatat că toate caracteristicile bazate pe DNase-seq contribuie în mod pozitiv la performanța de predicție

Observăm cel mai mare impact pentru setul de caracteristici derivate din datele DNase-seq. Îmbunătățirea AUC-PR obținută prin includerea datelor DNase-seq variază între 0,087 pentru E2F1 și 0,440 pentru HNF4A, cu o mediană de 0,252.

Caracteristicile bazate pe scorurile de motive (inclusiv motivele descoperite de novo și cele din bazele de date) contribuie, de asemenea, în mod substanțial la performanța finală de predicție. Aici, observăm îmbunătățiri mari pentru unele TF-uri, și anume 0,231 pentru CTCF în celulele IPSC, 0,175 pentru CTCF în celulele PC-3 și 0,167 pentru FOXA1. În schimb, observăm o scădere a performanței de predicție în cazul JUND (- 0,080) atunci când includem caracteristici bazate pe motive. Pentru restul TF-urilor, găsim îmbunătățiri ale AUC-PR între 0,008 și 0,079. În continuare, luăm în considerare două subseturi de motive, și anume toate motivele obținute prin descoperirea de novo a motivelor pe datele de provocare și toate modelele Slim/LSlim care captează dependențele intra-motive. Pentru motivele provenite din descoperirea de novo a motivelor, găsim o îmbunătățire pentru 9 din cele 13 seturi de date, iar pentru modelul Slim/LSlim, găsim o îmbunătățire pentru 10 din cele 13 seturi de date. Cu toate acestea, îmbunătățirile absolute (mediana de 0,011 și, respectiv, 0,006) sunt destul de mici, posibil deoarece (i) motivele obținute prin descoperirea de novo a motivelor ar putea fi redundante față de cele găsite în bazele de date și (ii) dependențele intra-motiv și eterogenitățile captate de modelele Slim/LSlim ar putea fi parțial acoperite de variațiile în motivele din diferite surse.

În mod special, caracteristicile bazate pe RNA-seq (mediana 0.001), caracteristicile bazate pe adnotări (0,000) și caracteristicile bazate pe secvențe (0,001) nu au aproape nicio influență asupra performanțelor de predicție.

Deoarece setul de caracteristici bazate pe DNase-seq este destul de divers, incluzând caracteristici derivate din pistele de îmbogățire a pliurilor, listele de vârfuri sau variații între tipurile de celule, ne propunem să disecăm în continuare influența grupurilor conexe ale acestor caracteristici. În acest scop, testăm în continuare modul în care performanța de predicție este afectată prin eliminarea unor grupuri specifice de caracteristici DNase-seq (cf. Fișier suplimentar 1: Text S2) din setul complet de caracteristici (Fișier suplimentar 1: Figura S2). În mod notabil, constatăm că niciunul dintre aceste grupuri de caracteristici nu are, de unul singur, un impact mare asupra performanței de predicție, deși pot fi observate diferențe graduale, deoarece includerea caracteristicilor bazate pe fold-enrichment și a celor bazate pe vârfuri are o contribuție în mare măsură pozitivă, în timp ce influența celorlalte grupuri de caracteristici este mai degrabă ambiguă. Acest lucru ar putea fi explicat prin redundanțele și corelațiile largi care încă există între aceste grupuri diferite, ceea ce permite o compensare mare pentru pierderea unui singur grup de caracteristici.

În consecință, testăm în plus un scenariu în care omiterea tuturor caracteristicilor bazate pe DNase-seq (adică datele din spatele graficului vioi „DNase-seq” din Fig. 2a) este considerată cazul de bază și doar unul dintre grupurile specifice este adăugat la acest set redus de caracteristici (Fig. 2b). În primul rând, observăm că toate grupurile de caracteristici contribuie în mod pozitiv la performanța totală de predicție. Cea mai mare contribuție poate fi observată pentru grupul „fold-enrichment”, dar și pentru grupuri conexe, cum ar fi „long range”, care face practic o medie pe ferestre mai largi ale traseului fold-enrichment, și „peak-based”, care utilizează vârfuri care au fost numite inițial pe baza acoperirii DNase-seq. Cea mai mică contribuție o găsim în grupul „variation”, care măsoară variația și, respectiv, conservarea semnalului DNase-seq între tipurile de celule. Deoarece contribuția fiecărui grup individual de caracteristici este pozitivă, considerăm în continuare setul complet de caracteristici bazate pe DNase-seq în cele ce urmează.

După ce am stabilit că caracteristicile bazate pe DNase-seq și cele bazate pe motive au un impact mare asupra performanței de predicție, am testat, de asemenea, performanța de predicție a abordării propuse utilizând doar caracteristici bazate pe date DNase-seq și, respectiv, motive TF. Toate celelalte caracteristici, și anume caracteristicile bazate pe ARN-seq, caracteristicile bazate pe adnotare și caracteristicile bazate pe secvența brută, sunt excluse. Am constatat (Fig. 1) că clasificatoarele care utilizează exclusiv caracteristici bazate pe motive oferă deja o performanță de predicție rezonabilă pentru unele TF (CTCF și, într-o anumită măsură, E2F1 și GABPA), în timp ce observăm valori AUC-PR sub 0,12 pentru restul TF-urilor. Acest lucru poate fi explicat prin numărul mare de predicții fals pozitive generate de obicei de abordările care utilizează exclusiv informații despre motive, care pot fi evitate doar în cazul unor motive lungi și specifice, așa cum este cazul CTCF.

Clasificatoarele care utilizează doar caracteristici bazate pe DNase-seq dau o performanță remarcabilă pentru multe dintre TF-urile studiate (Fig. 1), care este mai mică decât cea a clasificatorului bazat pe motive doar pentru cele două seturi de date CTCF. Pentru unele seturi de date (în special JUND, dar și EGR1, MAX), observăm chiar că un clasificator bazat doar pe datele DNase-seq depășește clasificatorul care utilizează toate caracteristicile.

În cazul JUND, creșterea performanței atunci când se neglijează toate caracteristicile non-DNase poate fi probabil atribuită unei adaptări puternice a parametrilor clasificatorului fie la motivele de legare specifice tipului celular, fie la colegarea specifică tipului celular cu alte TF-uri, deoarece JUND este singurul set de date cu o performanță îmbunătățită atunci când se exclud caracteristicile bazate pe motive, așa cum s-a discutat mai sus. Pentru toate cele trei TF-uri, constatăm o îmbunătățire a performanței de predicție dacă parametrii clasificatorului sunt antrenați pe cromozomii de antrenament ai tipului de celulă testată (cazul „în cadrul tipului de celulă”; Fișier suplimentar 1: Figura S3).

Din moment ce caracteristicile bazate pe DNase-seq și cele bazate pe motive par a fi principalele seturi de caracteristici care afectează performanța de predicție, studiem în final performanța de predicție a unui clasificator care utilizează doar aceste două seturi de caracteristici. Observăm că performanța de predicție utilizând doar caracteristicile bazate pe DNase-seq și cele bazate pe motive este în mare parte identică cu cea a clasificatorului care utilizează toate caracteristicile (Fig. 1), unde observăm cea mai mare pierdere în AUC-PR pentru TAF1 (0,017) și cel mai mare câștig în AUC-PR pentru NANOG (0,007). Observăm un comportament similar pentru cazul în interiorul tipului de celule (Fișier suplimentar 1: Figura S3). Având în vedere că seturile de caracteristici lăsate pe dinafară includ toate caracteristicile bazate pe RNA-seq, acest lucru are, de asemenea, consecința că un singur test specific tipului de celulă (și anume DNase-seq) este suficient pentru a prezice legarea TF, ceea ce lărgește domeniul de aplicare al tipurilor de celule cu date experimentale ușor disponibile la care se poate aplica abordarea propusă.

Învățarea iterativă îmbunătățește performanța de predicție

Ca un al doilea aspect cheie al abordării propuse, investigăm impactul procedurii de instruire iterativă asupra performanței finale de predicție. În acest scop, comparăm pentru fiecare TF valorile AUC-PR obținute prin medierea predicțiilor tuturor celor cinci clasificatori rezultați din procedura de instruire iterativă pentru toate tipurile de celule de instruire cu valorile AUC-PR obținute doar prin medierea clasificatorilor instruiți inițial pentru toate tipurile de celule de instruire, adică clasificatorii instruiți doar pe datele de instruire inițiale (secțiunea „Date de instruire inițiale”).

Pentru 11 din cele 13 seturi de date de testare, observăm o îmbunătățire a performanțelor de predicție prin procedura de instruire iterativă (Fig. 3). Cele mai mari îmbunătățiri sunt obținute pentru E2F1 (0,114), FOXA2 (0,085), NANOG (0,08), FOXA1 (0,063) și MAX (0,061). Printre acestea se numără TF-uri pentru care am observat o performanță bună utilizând doar caracteristici bazate pe DNase-seq (E2F1, MAX) și TF-uri pentru care combinația cu caracteristici bazate pe motive a fost benefică (FOXA1, FOXA2, NANOG), ceea ce indică faptul că regiunile negative suplimentare adăugate în iterațiile 2 – 5 nu induc o prejudecată în favoarea niciunuia dintre aceste două tipuri de caracteristici. Pentru patru dintre aceste cinci TF-uri, au fost furnizate doar unul (FOXA2, NANOG, FOXA1) sau două (E2F1) tipuri de celule de antrenament, iar variația dintre diferiții clasificatori rezultată din antrenamentul iterativ poate ajuta la evitarea supraajustării. În schimb, constatăm o scădere a performanței pentru JUND (0,041) și, de asemenea, pentru TAF1 (0,01), care ar putea fi cauzată de un accent mai puternic pe regiunile de legare specifice tipului celular în iterațiile ulterioare ale procedurii de formare iterativă. Această ipoteză este, de asemenea, susținută de observația conform căreia procedura de instruire iterativă conduce întotdeauna la o creștere a performanței de predicție dacă parametrii clasificatorului sunt instruiți pe cromozomii de instruire ai tipului de celulă testată (Fișier suplimentar 1: Figura S4).

Fig. 3
figure3

Relevanța procedurii de instruire iterativă. Pentru fiecare dintre cele 13 seturi de date de testare, comparăm performanța (AUC-PR) obținută de clasificatorul (setul de) clasificatori instruiți pe regiunile negative inițiale (abscisă) cu performanța obținută prin calcularea mediei tuturor clasificatorilor din procedura de instruire iterativă (ordonată)

Medierea predicțiilor se îmbunătățește față de selecția aleatorie a tipurilor de celule

Pentru 9 dintre cele 12 TF luate în considerare, datele pentru mai mult de un tip de celule de antrenament sunt furnizate împreună cu datele de provocare. Prin urmare, o întrebare centrală ar putea fi alegerea tipului de celulă utilizat pentru instruire și, ulterior, pentru realizarea predicțiilor pentru tipul de celulă de test. Cu toate acestea, singurele date experimentale specifice tipului de celule disponibile pentru a face această alegere sunt datele DNase-seq și RNA-seq, în timp ce similitudinea dintre tipurile de celule ar putea depinde de TF considerat. Într-adevăr, măsurile de similaritate derivate din datele DNase-seq (de exemplu, coeficienții Jaccard de suprapunere a vârfurilor DNase-seq, corelația profilelor) sau din datele RNA-seq (de ex, corelația valorilor TPM) s-au dovedit a fi neinformative în ceea ce privește similitudinea regiunilor de legare a TF în studiile preliminare privind tipurile de celule de antrenament.

În consecință, considerăm că alegerea tipului de celule de antrenament este o variabilă latentă și facem o medie a predicțiilor generate de clasificatorii respectivi (a se vedea secțiunea „Schema de predicție”). Deoarece etichetele tipurilor de celule de testare au fost puse la dispoziție după provocare, putem evalua acum impactul acestei alegeri asupra performanței de predicție și, de asemenea, putem testa performanța de predicție a clasificatorilor antrenați pe tipuri de celule individuale (Fig. 4).

Fig. 4
figure4

Performanța clasificatorilor de ansamblu. Pentru fiecare dintre cele 13 seturi de date de testare, comparăm performanța (AUC-PR) clasificatorilor individuali instruiți pe tipuri de celule individuale (cercuri deschise) cu cea a clasificatorului de ansamblu care face media tuturor clasificatorilor instruiți pe toate tipurile de celule de instruire (cercuri portocalii, umplute). Ca referință, reprezentăm, de asemenea, mediana clasificatorilor individuali ca o bară roșie

Pentru toate seturile de date de testare cu mai multe tipuri de celule de instruire disponibile, constatăm că predicția mediată produce valori AUC-PR peste mediana valorilor AUC-PR obținute pentru tipurile de celule de instruire individuale. Această îmbunătățire este deosebit de pronunțată pentru REST, GABPA și MAX.

Pentru a investiga în continuare dacă medierea clasificatorilor pentru tipuri de celule individuale favorizează regiunile de legare conservate (adică regiunile etichetate ca fiind „legate” în majoritatea tipurilor de celule) față de regiunile de legare specifice tipului de celule, evaluăm, de asemenea, performanța de predicție pe astfel de regiuni separat (Fișier suplimentar 1: Figura S5). Mai exact, considerăm că o regiune legată este conservată dacă este, de asemenea, etichetată ca fiind „legată” în cel puțin trei dintre cele patru tipuri de celule de instruire și considerăm că o regiune legată este specifică tipului de celulă dacă această regiune este etichetată ca fiind „legată” în cel mult unul dintre cele patru tipuri de celule de instruire. Primul lucru pe care îl observăm din fișierul suplimentar 1: Figura S5 este că valorile absolute AUC-PR sunt substanțial mai mici pentru regiunile specifice tipului de celule decât pentru regiunile conservate. O explicație ar putea fi o diferență în ceea ce privește (im-)echilibrul clasei din cauza subseturilor de regiuni selectate. Cu toate acestea, această tendință generală se menține atunci când se ia în considerare AUC-ROC (Fișier suplimentar 1: Figura S6). În al doilea rând, am constatat că variația dintre clasificatorii învățați din diferite tipuri de celule de formare este, în majoritatea cazurilor, mai mare pentru regiunile specifice tipului de celule decât pentru regiunile conservate. Comportamentul în ceea ce privește performanța absolută este similar pentru clasificatorii individuali, performanța mediană a acestora și performanța mediei clasificatorilor pentru tipurile de celule individuale. Observăm că AUC-PR obținută prin calcularea mediei este întotdeauna mai bună decât performanța mediană pentru tipurile de celule individuale pentru regiunile conservate, dar același lucru este valabil și atunci când se iau în considerare regiunile specifice tipului de celule pentru șapte dintre cele nouă seturi de date cu mai mult de un tip de celule de instruire.

În consecință, putem susține că calcularea mediei asupra clasificatorilor specifici tipului de celule produce, în general, predicții mai precise decât cele care ar fi obținute prin alegerea neinformată a unui singur tip de celule de instruire specifice.

Cu toate acestea, observăm, de asemenea, pentru aproape toate seturile de date de testare cu mai multe tipuri de celule de instruire (singura excepție fiind CTCF pentru tipul de celule PC-3), că cea mai bună performanță de predicție obținută pentru unul dintre tipurile de celule de instruire individuale ar fi obținut îmbunătățiri, în unele cazuri considerabile, față de procedura de calculare a mediei propusă. În special, variația AUC-PR între diferitele tipuri de celule de formare este deosebit de pronunțată pentru JUND, ceea ce susține ipoteza anterioară conform căreia unele caracteristici, de exemplu motivele de legare sau co-legerea TF-urilor, sunt foarte specifice tipului de celule pentru JUND. În general, derivarea unor măsuri informative ale similitudinii TF specifice tipului de celulă pe baza testelor specifice tipului de celulă și a predicțiilor preliminare ale situsului de legare ar conduce probabil la o creștere suplimentară a performanței abordărilor computaționale pentru predicția legării TF specifice tipului de celulă.

Crearea unei colecții de piste de legare a TF-urilor specifice tipului de celule

După ce am stabilit că un singur tip de test experimental, și anume DNase-seq, este suficient pentru a prezice legarea TF-urilor specifice tipului de celule cu o acuratețe de ultimă generație, putem acum să folosim clasificatorii obținuți pe tipurile de celule și TF-uri de antrenament pentru predicții pe alte tipuri de celule. În acest scop, folosim clasificatorii care iau în considerare doar caracteristicile bazate pe DNase-seq și pe motive, dar nu și caracteristicile bazate pe ARN-seq, caracteristicile bazate pe adnotări și nici caracteristicile bazate pe secvența brută, care au demonstrat că obțin o performanță de predicție comparabilă cu cea a modelului complet anterior (a se vedea Fig. 1, secțiunea „Impactul seturilor de caracteristici asupra performanței de predicție”). În acest scop, descărcăm date DNase-seq pentru o colecție de tipuri de celule și țesuturi primare (a se vedea secțiunea „Data”), le procesăm în același mod ca și datele originale de provocare și, ulterior, extragem caracteristicile dependente de DNase-seq (secțiunea „Features”). Am aplicat apoi clasificatorii instruiți pentru toate cele 31 de TF luate în considerare în provocare la aceste 22 de seturi de caracteristici DNase-seq pentru a obține un total de 682 de piste de predicție.

Pentru tipurile de celule selectate (Fișier suplimentar 1: Tabelul S5), sunt disponibile doar câteva date ChIP-seq specifice tipului de celulă și TF (Fișier suplimentar 1: Tabelul S6). Pe de o parte, acest lucru înseamnă că pistele de legare a TF prezise oferă informații noi și valoroase pentru colecția de 31 de TF-uri studiate. Pe de altă parte, acest lucru oferă oportunitatea de a efectua analize comparative și verificări de sanitate în ceea ce privește predicțiile pentru subsetul acestor TF-uri și tipuri de celule cu date ChIP-seq corespunzătoare disponibile. Pentru evaluarea comparativă, obținem în plus fișierele de vârfuri „relaxate” și (acolo unde sunt disponibile) „conservatoare” de la ENCODE și derivăm etichetele asociate („bound”, „unbound”, „ambiguous”) în conformitate cu procedura propusă pentru provocarea ENCODE-DREAM.

Pentru CTCF cu vârfuri ChIP-seq disponibile pentru mai multe tipuri de celule, găsim, în general, o performanță de predicție care este comparabilă cu performanța observată pe datele provocării (cf. Fișier suplimentar 1: Tabelul S4). Pentru aceste tipuri de celule, valorile AUC-PR (Fișier suplimentar 1: Tabelul S7) variază între 0,7720 și 0,8197 dacă sunt disponibile vârfuri conservatoare și relaxate și dacă donatorii se potrivesc între experimentele DNase-seq și ChIP-seq, în timp ce performanța este ușor mai scăzută pentru donatorii care nu se potrivesc (0,7322) și în cazul în care lipsesc vârfurile conservatoare (0,7270). Pentru JUN, MAX și MYC, doar vârfurile relaxate sunt disponibile din ENCODE din cauza replicilor lipsă. Aici, găsim valori AUC-PR de 0,6310 pentru JUN, care este substanțial mai mare decât pentru datele provocării; 0,4004 pentru MAX, care este ușor mai mică decât pentru datele provocării; și 0,1989 pentru MYC, care nu a fost printre TF-urile de testare în cadrul provocării, dar a obținut o performanță substanțial mai bună în runda de clasament.

Cele 682 de piste de predicție la nivelul întregului genom sunt încă destul de mari (aprox. 880 MB pe pistă) și, prin urmare, solicită un spațiu de stocare substanțial care ar putea să nu fie disponibil pentru utilizatorul tipic, în timp ce majoritatea regiunilor nu sunt probabil legate de TF de interes. Prin urmare, condensăm în continuare aceste predicții în liste de vârfuri prezise în format narrowPeak prin unirea tronsoanelor contigue cu probabilitate mare de legare și prin aplicarea unui prag de 0,6 (relaxat) și 0,8 (conservator) asupra probabilității maxime observate într-un „vârf” prezis. Punem la dispoziție aceste fișiere de vârfuri pentru descărcare la https://www.synapse.org/#!Synapse:syn11526239(doi:10.7303/syn11526239).

Pentru a ne face o impresie despre calitatea vârfurilor prezise, calculăm în continuare coeficienții Jaccard pe baza suprapunerilor de vârfuri (calculați cu ajutorul pachetului GenomicRanges R-package ) între fișierele de vârfuri prezise și cele din vârfurile ChIP-seq corespunzătoare, disponibile (Fișier suplimentar 1: Tabelul S9, S11), și constatăm că acestea sunt în mare măsură în concordanță cu evaluarea anterioară pe baza etichetelor derivate.

În cele din urmă, datele pentru CTCF permit compararea suprapunerii dintre listele de vârfuri prezise și listele de vârfuri determinate experimental cu suprapunerile observate pentru (i) replicile tehnice (Fișier suplimentar 1: Tabelul S12) și (ii) replicile biologice (Fișier suplimentar 1: Tabelul S10). Am constatat că suprapunerile dintre predicții și vârfurile cu prag IDR sunt mai mici decât cele dintre vârfurile cu prag IDR și/sau replicile tehnice. Pentru CTCF, sunt disponibile trei experimente independente pentru țesutul „fibroblast de prepuț” și folosim două probe independente de DNase-seq pentru acest țesut pentru predicția noastră. Comparând coeficienții Jaccard în aceste două situații (cf. Fișierul suplimentar 1: Tabelele S9, S10), constatăm că coeficienții Jaccard între predicții și vârfurile cu prag IDR variază între 0,568 și 0,693, în timp ce observăm coeficienți Jaccard între 0,658 și 0,72 pentru replicile biologice. Pe baza acestor date limitate, am putea concluziona că predicțiile computaționale sunt mai puțin consecvente decât replicile biologice doar cu o marjă mică, cel puțin pentru CTCF.

Pe baza listelor de vârfuri prezise, putem, de asemenea, să comparăm caracteristicile de legare prezise ale diferitelor TF-uri între tipurile de celule. În primul rând, inspectăm numărul de vârfuri prezise per TF și tip de celulă (Fișier suplimentar 1: Figura S7). Găsim un grup distinct de TF-uri foarte abundente (CTCF, GATA3, SPI1, CEBPB, FOXA1, FOXA2, MAX), care, de obicei, prezintă, de asemenea, un număr mare de vârfuri în datele de instruire. Printre acestea, găsim modele de specificitate a tipului de celule, de la CTCF, care este omniprezent, până la o abundență foarte variabilă pentru GATA3. Restul TF-urilor obține un număr substanțial mai mic de vârfuri previzionate cu modele similare, de exemplu, pentru ATF7/ARID3A/NANOG sau EP300/TEAD4/JUND, în cazul în care acest din urmă grup a fost raportat că se leagă în comun în potențiatori distali . În continuare, studiem stabilitatea predicțiilor de vârf, adică coeficienții Jaccard ai vârfurilor prezise pentru fiecare dintre TF-uri în diferite tipuri de celule (Fișier suplimentar 1: Figura S8). Din nou, găsim o variație substanțială între TF-uri, GABPA, CTCF și REST având coeficienți Jaccard medii de peste 0,7. În mod notabil, CTCF a fost unul dintre TF-urile cu cel mai mare număr de vârfuri prezise (mediana 37 455), în timp ce am observat un ordin de mărime mai mic de vârfuri prezise pentru REST (mediana 3 364) și GABPA (mediana 5 430). La celălalt capăt al scalei, găsim TF-uri care se leagă indirect, cum ar fi EP300, sau TF-uri care sunt foarte specifice pentru tipuri de celule subreprezentate în datele noastre, cum ar fi NANOG (celule stem) și HNF4A (ficat, rinichi, intestine). În cele din urmă, am investigat colegarea TF-urilor prin calcularea coeficientului Jaccard mediu între tipurile de celule pentru fiecare pereche de TF-uri (Fișier suplimentar 1: Figura S9). Aici, observăm grupuri distincte de TF-uri co-ocurrente, cum ar fi CTCF/ZNF143 sau FOXA1/FOXA2, despre care se știe că interacționează in vivo . În plus, găsim un grup mai mare de TF-uri cu suprapuneri substanțiale între vârfurile lor prezise, cuprinzând YY1, MAX, CREB1, MYC, E2F6, E2F1 și TAF1. Având în vedere că TAF1 (TATA-box binding protein associated factor 1) este asociat cu inițierea transcripțională la caseta TATA, o explicație ar putea fi faptul că situsurile de legare ale acestor TF-uri sunt îmbogățite la promotorii principali. Într-adevăr, legarea la promotori proximali a fost raportată pentru factorii MYC/MAX , CREB1 , YY1 și E2F .

Implementarea simplificată a Catchitt generează performanțe competitive

În cele din urmă, comparăm Catchitt, implementarea simplificată a abordării de instruire iterativă care combină scorurile de accesibilitate a cromatinei și a motivelor, cu implementarea provocatoare care utilizează caracteristici bazate pe DNase-seq și pe motive pentru cazul în interiorul tipului de celule. În acest scop, selectăm cinci combinații de tip de celulă și factor de transcripție care acoperă gama de valori de performanță observate în cadrul provocării. Mai exact, luăm în considerare NANOG și TAF1, care au obținut cele mai mici valori AUC-PR (cf. Fișierul suplimentar 1: Figura S3) pentru implementarea provocării; CTCF în celulele IPSC, care a obținut cea mai mare valoare AUC-PR; și FOXA1 și HNF4A, care au obținut valori AUC-PR medii, dar au profitat substanțial de formarea iterativă (cf. Fișierul suplimentar 1: Figura S4). Rezumăm rezultatele acestei comparații în Fișierul suplimentar 1: Tabelul S13. În ciuda reducerii de aproximativ zece ori a numărului de motive luate în considerare și a altor simplificări (secțiunea „Catchitt: a streamlined open-source implementation”), Catchitt obține în continuare valori AUC-PR competitive. Clasificând rezultatele Catchitt în cadrul rezultatelor originale ale provocării, constatăm că performanța obținută de scorurile Catchitt este cu doar două poziții mai mică decât implementarea provocării care utilizează caracteristici bazate pe DNase-seq și pe motive. Ca și înainte, constatăm o îmbunătățire substanțială a performanțelor de predicție datorită procedurii de instruire iterativă.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.