Fig. 3
Relevanța procedurii de instruire iterativă. Pentru fiecare dintre cele 13 seturi de date de testare, comparăm performanța (AUC-PR) obținută de clasificatorul (setul de) clasificatori instruiți pe regiunile negative inițiale (abscisă) cu performanța obținută prin calcularea mediei tuturor clasificatorilor din procedura de instruire iterativă (ordonată)
Medierea predicțiilor se îmbunătățește față de selecția aleatorie a tipurilor de celule
Pentru 9 dintre cele 12 TF luate în considerare, datele pentru mai mult de un tip de celule de antrenament sunt furnizate împreună cu datele de provocare. Prin urmare, o întrebare centrală ar putea fi alegerea tipului de celulă utilizat pentru instruire și, ulterior, pentru realizarea predicțiilor pentru tipul de celulă de test. Cu toate acestea, singurele date experimentale specifice tipului de celule disponibile pentru a face această alegere sunt datele DNase-seq și RNA-seq, în timp ce similitudinea dintre tipurile de celule ar putea depinde de TF considerat. Într-adevăr, măsurile de similaritate derivate din datele DNase-seq (de exemplu, coeficienții Jaccard de suprapunere a vârfurilor DNase-seq, corelația profilelor) sau din datele RNA-seq (de ex, corelația valorilor TPM) s-au dovedit a fi neinformative în ceea ce privește similitudinea regiunilor de legare a TF în studiile preliminare privind tipurile de celule de antrenament.
În consecință, considerăm că alegerea tipului de celule de antrenament este o variabilă latentă și facem o medie a predicțiilor generate de clasificatorii respectivi (a se vedea secțiunea „Schema de predicție”). Deoarece etichetele tipurilor de celule de testare au fost puse la dispoziție după provocare, putem evalua acum impactul acestei alegeri asupra performanței de predicție și, de asemenea, putem testa performanța de predicție a clasificatorilor antrenați pe tipuri de celule individuale (Fig. 4).
Fig. 4
Performanța clasificatorilor de ansamblu. Pentru fiecare dintre cele 13 seturi de date de testare, comparăm performanța (AUC-PR) clasificatorilor individuali instruiți pe tipuri de celule individuale (cercuri deschise) cu cea a clasificatorului de ansamblu care face media tuturor clasificatorilor instruiți pe toate tipurile de celule de instruire (cercuri portocalii, umplute). Ca referință, reprezentăm, de asemenea, mediana clasificatorilor individuali ca o bară roșie
Pentru toate seturile de date de testare cu mai multe tipuri de celule de instruire disponibile, constatăm că predicția mediată produce valori AUC-PR peste mediana valorilor AUC-PR obținute pentru tipurile de celule de instruire individuale. Această îmbunătățire este deosebit de pronunțată pentru REST, GABPA și MAX.
Pentru a investiga în continuare dacă medierea clasificatorilor pentru tipuri de celule individuale favorizează regiunile de legare conservate (adică regiunile etichetate ca fiind „legate” în majoritatea tipurilor de celule) față de regiunile de legare specifice tipului de celule, evaluăm, de asemenea, performanța de predicție pe astfel de regiuni separat (Fișier suplimentar 1: Figura S5). Mai exact, considerăm că o regiune legată este conservată dacă este, de asemenea, etichetată ca fiind „legată” în cel puțin trei dintre cele patru tipuri de celule de instruire și considerăm că o regiune legată este specifică tipului de celulă dacă această regiune este etichetată ca fiind „legată” în cel mult unul dintre cele patru tipuri de celule de instruire. Primul lucru pe care îl observăm din fișierul suplimentar 1: Figura S5 este că valorile absolute AUC-PR sunt substanțial mai mici pentru regiunile specifice tipului de celule decât pentru regiunile conservate. O explicație ar putea fi o diferență în ceea ce privește (im-)echilibrul clasei din cauza subseturilor de regiuni selectate. Cu toate acestea, această tendință generală se menține atunci când se ia în considerare AUC-ROC (Fișier suplimentar 1: Figura S6). În al doilea rând, am constatat că variația dintre clasificatorii învățați din diferite tipuri de celule de formare este, în majoritatea cazurilor, mai mare pentru regiunile specifice tipului de celule decât pentru regiunile conservate. Comportamentul în ceea ce privește performanța absolută este similar pentru clasificatorii individuali, performanța mediană a acestora și performanța mediei clasificatorilor pentru tipurile de celule individuale. Observăm că AUC-PR obținută prin calcularea mediei este întotdeauna mai bună decât performanța mediană pentru tipurile de celule individuale pentru regiunile conservate, dar același lucru este valabil și atunci când se iau în considerare regiunile specifice tipului de celule pentru șapte dintre cele nouă seturi de date cu mai mult de un tip de celule de instruire.
În consecință, putem susține că calcularea mediei asupra clasificatorilor specifici tipului de celule produce, în general, predicții mai precise decât cele care ar fi obținute prin alegerea neinformată a unui singur tip de celule de instruire specifice.
Cu toate acestea, observăm, de asemenea, pentru aproape toate seturile de date de testare cu mai multe tipuri de celule de instruire (singura excepție fiind CTCF pentru tipul de celule PC-3), că cea mai bună performanță de predicție obținută pentru unul dintre tipurile de celule de instruire individuale ar fi obținut îmbunătățiri, în unele cazuri considerabile, față de procedura de calculare a mediei propusă. În special, variația AUC-PR între diferitele tipuri de celule de formare este deosebit de pronunțată pentru JUND, ceea ce susține ipoteza anterioară conform căreia unele caracteristici, de exemplu motivele de legare sau co-legerea TF-urilor, sunt foarte specifice tipului de celule pentru JUND. În general, derivarea unor măsuri informative ale similitudinii TF specifice tipului de celulă pe baza testelor specifice tipului de celulă și a predicțiilor preliminare ale situsului de legare ar conduce probabil la o creștere suplimentară a performanței abordărilor computaționale pentru predicția legării TF specifice tipului de celulă.
Crearea unei colecții de piste de legare a TF-urilor specifice tipului de celule
După ce am stabilit că un singur tip de test experimental, și anume DNase-seq, este suficient pentru a prezice legarea TF-urilor specifice tipului de celule cu o acuratețe de ultimă generație, putem acum să folosim clasificatorii obținuți pe tipurile de celule și TF-uri de antrenament pentru predicții pe alte tipuri de celule. În acest scop, folosim clasificatorii care iau în considerare doar caracteristicile bazate pe DNase-seq și pe motive, dar nu și caracteristicile bazate pe ARN-seq, caracteristicile bazate pe adnotări și nici caracteristicile bazate pe secvența brută, care au demonstrat că obțin o performanță de predicție comparabilă cu cea a modelului complet anterior (a se vedea Fig. 1, secțiunea „Impactul seturilor de caracteristici asupra performanței de predicție”). În acest scop, descărcăm date DNase-seq pentru o colecție de tipuri de celule și țesuturi primare (a se vedea secțiunea „Data”), le procesăm în același mod ca și datele originale de provocare și, ulterior, extragem caracteristicile dependente de DNase-seq (secțiunea „Features”). Am aplicat apoi clasificatorii instruiți pentru toate cele 31 de TF luate în considerare în provocare la aceste 22 de seturi de caracteristici DNase-seq pentru a obține un total de 682 de piste de predicție.
Pentru tipurile de celule selectate (Fișier suplimentar 1: Tabelul S5), sunt disponibile doar câteva date ChIP-seq specifice tipului de celulă și TF (Fișier suplimentar 1: Tabelul S6). Pe de o parte, acest lucru înseamnă că pistele de legare a TF prezise oferă informații noi și valoroase pentru colecția de 31 de TF-uri studiate. Pe de altă parte, acest lucru oferă oportunitatea de a efectua analize comparative și verificări de sanitate în ceea ce privește predicțiile pentru subsetul acestor TF-uri și tipuri de celule cu date ChIP-seq corespunzătoare disponibile. Pentru evaluarea comparativă, obținem în plus fișierele de vârfuri „relaxate” și (acolo unde sunt disponibile) „conservatoare” de la ENCODE și derivăm etichetele asociate („bound”, „unbound”, „ambiguous”) în conformitate cu procedura propusă pentru provocarea ENCODE-DREAM.
Pentru CTCF cu vârfuri ChIP-seq disponibile pentru mai multe tipuri de celule, găsim, în general, o performanță de predicție care este comparabilă cu performanța observată pe datele provocării (cf. Fișier suplimentar 1: Tabelul S4). Pentru aceste tipuri de celule, valorile AUC-PR (Fișier suplimentar 1: Tabelul S7) variază între 0,7720 și 0,8197 dacă sunt disponibile vârfuri conservatoare și relaxate și dacă donatorii se potrivesc între experimentele DNase-seq și ChIP-seq, în timp ce performanța este ușor mai scăzută pentru donatorii care nu se potrivesc (0,7322) și în cazul în care lipsesc vârfurile conservatoare (0,7270). Pentru JUN, MAX și MYC, doar vârfurile relaxate sunt disponibile din ENCODE din cauza replicilor lipsă. Aici, găsim valori AUC-PR de 0,6310 pentru JUN, care este substanțial mai mare decât pentru datele provocării; 0,4004 pentru MAX, care este ușor mai mică decât pentru datele provocării; și 0,1989 pentru MYC, care nu a fost printre TF-urile de testare în cadrul provocării, dar a obținut o performanță substanțial mai bună în runda de clasament.
Cele 682 de piste de predicție la nivelul întregului genom sunt încă destul de mari (aprox. 880 MB pe pistă) și, prin urmare, solicită un spațiu de stocare substanțial care ar putea să nu fie disponibil pentru utilizatorul tipic, în timp ce majoritatea regiunilor nu sunt probabil legate de TF de interes. Prin urmare, condensăm în continuare aceste predicții în liste de vârfuri prezise în format narrowPeak prin unirea tronsoanelor contigue cu probabilitate mare de legare și prin aplicarea unui prag de 0,6 (relaxat) și 0,8 (conservator) asupra probabilității maxime observate într-un „vârf” prezis. Punem la dispoziție aceste fișiere de vârfuri pentru descărcare la https://www.synapse.org/#!Synapse:syn11526239(doi:10.7303/syn11526239).
Pentru a ne face o impresie despre calitatea vârfurilor prezise, calculăm în continuare coeficienții Jaccard pe baza suprapunerilor de vârfuri (calculați cu ajutorul pachetului GenomicRanges R-package ) între fișierele de vârfuri prezise și cele din vârfurile ChIP-seq corespunzătoare, disponibile (Fișier suplimentar 1: Tabelul S9, S11), și constatăm că acestea sunt în mare măsură în concordanță cu evaluarea anterioară pe baza etichetelor derivate.
În cele din urmă, datele pentru CTCF permit compararea suprapunerii dintre listele de vârfuri prezise și listele de vârfuri determinate experimental cu suprapunerile observate pentru (i) replicile tehnice (Fișier suplimentar 1: Tabelul S12) și (ii) replicile biologice (Fișier suplimentar 1: Tabelul S10). Am constatat că suprapunerile dintre predicții și vârfurile cu prag IDR sunt mai mici decât cele dintre vârfurile cu prag IDR și/sau replicile tehnice. Pentru CTCF, sunt disponibile trei experimente independente pentru țesutul „fibroblast de prepuț” și folosim două probe independente de DNase-seq pentru acest țesut pentru predicția noastră. Comparând coeficienții Jaccard în aceste două situații (cf. Fișierul suplimentar 1: Tabelele S9, S10), constatăm că coeficienții Jaccard între predicții și vârfurile cu prag IDR variază între 0,568 și 0,693, în timp ce observăm coeficienți Jaccard între 0,658 și 0,72 pentru replicile biologice. Pe baza acestor date limitate, am putea concluziona că predicțiile computaționale sunt mai puțin consecvente decât replicile biologice doar cu o marjă mică, cel puțin pentru CTCF.
Pe baza listelor de vârfuri prezise, putem, de asemenea, să comparăm caracteristicile de legare prezise ale diferitelor TF-uri între tipurile de celule. În primul rând, inspectăm numărul de vârfuri prezise per TF și tip de celulă (Fișier suplimentar 1: Figura S7). Găsim un grup distinct de TF-uri foarte abundente (CTCF, GATA3, SPI1, CEBPB, FOXA1, FOXA2, MAX), care, de obicei, prezintă, de asemenea, un număr mare de vârfuri în datele de instruire. Printre acestea, găsim modele de specificitate a tipului de celule, de la CTCF, care este omniprezent, până la o abundență foarte variabilă pentru GATA3. Restul TF-urilor obține un număr substanțial mai mic de vârfuri previzionate cu modele similare, de exemplu, pentru ATF7/ARID3A/NANOG sau EP300/TEAD4/JUND, în cazul în care acest din urmă grup a fost raportat că se leagă în comun în potențiatori distali . În continuare, studiem stabilitatea predicțiilor de vârf, adică coeficienții Jaccard ai vârfurilor prezise pentru fiecare dintre TF-uri în diferite tipuri de celule (Fișier suplimentar 1: Figura S8). Din nou, găsim o variație substanțială între TF-uri, GABPA, CTCF și REST având coeficienți Jaccard medii de peste 0,7. În mod notabil, CTCF a fost unul dintre TF-urile cu cel mai mare număr de vârfuri prezise (mediana 37 455), în timp ce am observat un ordin de mărime mai mic de vârfuri prezise pentru REST (mediana 3 364) și GABPA (mediana 5 430). La celălalt capăt al scalei, găsim TF-uri care se leagă indirect, cum ar fi EP300, sau TF-uri care sunt foarte specifice pentru tipuri de celule subreprezentate în datele noastre, cum ar fi NANOG (celule stem) și HNF4A (ficat, rinichi, intestine). În cele din urmă, am investigat colegarea TF-urilor prin calcularea coeficientului Jaccard mediu între tipurile de celule pentru fiecare pereche de TF-uri (Fișier suplimentar 1: Figura S9). Aici, observăm grupuri distincte de TF-uri co-ocurrente, cum ar fi CTCF/ZNF143 sau FOXA1/FOXA2, despre care se știe că interacționează in vivo . În plus, găsim un grup mai mare de TF-uri cu suprapuneri substanțiale între vârfurile lor prezise, cuprinzând YY1, MAX, CREB1, MYC, E2F6, E2F1 și TAF1. Având în vedere că TAF1 (TATA-box binding protein associated factor 1) este asociat cu inițierea transcripțională la caseta TATA, o explicație ar putea fi faptul că situsurile de legare ale acestor TF-uri sunt îmbogățite la promotorii principali. Într-adevăr, legarea la promotori proximali a fost raportată pentru factorii MYC/MAX , CREB1 , YY1 și E2F .
Implementarea simplificată a Catchitt generează performanțe competitive
În cele din urmă, comparăm Catchitt, implementarea simplificată a abordării de instruire iterativă care combină scorurile de accesibilitate a cromatinei și a motivelor, cu implementarea provocatoare care utilizează caracteristici bazate pe DNase-seq și pe motive pentru cazul în interiorul tipului de celule. În acest scop, selectăm cinci combinații de tip de celulă și factor de transcripție care acoperă gama de valori de performanță observate în cadrul provocării. Mai exact, luăm în considerare NANOG și TAF1, care au obținut cele mai mici valori AUC-PR (cf. Fișierul suplimentar 1: Figura S3) pentru implementarea provocării; CTCF în celulele IPSC, care a obținut cea mai mare valoare AUC-PR; și FOXA1 și HNF4A, care au obținut valori AUC-PR medii, dar au profitat substanțial de formarea iterativă (cf. Fișierul suplimentar 1: Figura S4). Rezumăm rezultatele acestei comparații în Fișierul suplimentar 1: Tabelul S13. În ciuda reducerii de aproximativ zece ori a numărului de motive luate în considerare și a altor simplificări (secțiunea „Catchitt: a streamlined open-source implementation”), Catchitt obține în continuare valori AUC-PR competitive. Clasificând rezultatele Catchitt în cadrul rezultatelor originale ale provocării, constatăm că performanța obținută de scorurile Catchitt este cu doar două poziții mai mică decât implementarea provocării care utilizează caracteristici bazate pe DNase-seq și pe motive. Ca și înainte, constatăm o îmbunătățire substanțială a performanțelor de predicție datorită procedurii de instruire iterativă.
.