Previsione accurata del legame tra fattori di trascrizione specifici del tipo di cellula

Durante la sfida ENCODE-DREAM, un gran numero di approcci creati da 40 team internazionali sono stati messi a confronto su 13 test ChIP-seq specifici del tipo di cellula per 12 diversi TF nell’uomo (file aggiuntivo 1: Figura S1). Un insieme di 109 set di dati per le stesse (e ulteriori) TF in altri tipi di cellule è stato fornito per la formazione. I dati di formazione comprendevano dati DNase-seq specifici del tipo di cellula, dati RNA-seq specifici del tipo di cellula, sequenza genomica e annotazioni, e previsioni in silico della forma del DNA. Inoltre, i dati ChIP-seq specifici per il tipo di cellula e TF e le etichette derivate sono stati forniti per i cromosomi di formazione, mentre le previsioni sono state valutate solo sui rimanenti cromosomi chr1, chr8 e chr21 che non sono stati forniti con nessuno dei dati di formazione ChIP-seq. Per le regioni di 200 bp spostate di 50 bp, le previsioni a livello genomico della probabilità che una regione specifica si sovrapponga a un picco ChIP-seq sono state richieste ai team partecipanti. Le previsioni sono state valutate da (i) l’area sotto la curva ROC (AUC-ROC), (ii) l’area sotto la curva precisione-richiamo (AUC-PR), (iii) richiamo al 10% FDR, e (iv) richiamo al 50% FDR su ciascuno dei 13 set di dati di test. Questi sono stati aggregati per set di dati in base alla media, al rango normalizzato guadagnato per ciascuna di queste misure in 10 campioni bootstrap dei cromosomi tenuti fuori, e una classifica finale è stata ottenuta come media di queste statistiche di rango (cfr. https://www.synapse.org/#!Synapse:syn6131484/wiki/405275).

Come risultato di questa classifica, l’approccio presentato in questo documento (team “J-Team”) ha guadagnato un primo posto condiviso insieme all’approccio creato dal team “Yuanfang Guan”. In primo luogo, esaminiamo l’impatto di diversi set di caratteristiche correlate (dati DNase-seq, punteggi di motivi, dati RNA-seq, caratteristiche basate sulla sequenza e sulle annotazioni) sulle prestazioni di predizione. In secondo luogo, studiamo l’importanza dell’approccio di addestramento iterativo rispetto all’addestramento sui dati di formazione iniziale. In terzo luogo, confrontiamo le prestazioni delle predizioni ottenute dai classificatori addestrati sui dati di addestramento per i singoli tipi di cellule con le prestazioni della predizione aggregata ottenuta facendo la media su questi tipi di cellule. Infine, applichiamo il metodo proposto per predire il legame TF specifico del tipo di cellula per 31 TF in 22 tipi di cellule primarie aggiuntive, ottenendo un totale di 682 tracce di predizione.

Impatto dei set di caratteristiche sulle prestazioni di predizione

Utilizziamo le prestazioni di predizione ottenute dall’approccio proposto utilizzando tutti i set di caratteristiche (sezione “Caratteristiche”), la procedura di formazione iterativa (sezione “Formazione iterativa”) e l’aggregazione su tutti i tipi di cellule di formazione (sezione “Schema di predizione”) come base per tutti gli ulteriori confronti (Fig. 1; “tutte le caratteristiche”). In tutto questo manoscritto, consideriamo AUC-PR come la misura primaria delle prestazioni, poiché AUC-PR è più informativo sulle prestazioni di classificazione per problemi di classificazione fortemente sbilanciati, e il richiamo ai diversi livelli FDR è piuttosto instabile poiché corrisponde a singoli punti sulla curva precisione-richiamo. I valori di AUC-PR sono calcolati utilizzando il pacchetto R PRROC, che è stato utilizzato anche nella sfida ENCODE-DREAM.

Fig. 1
figura1

Prestazioni trasversali al tipo di cella. Per ciascuna delle 13 combinazioni di TF e tipo di cellula all’interno dei dati di test, calcoliamo le prestazioni di predizione (AUC-PR) sui cromosomi trattenuti dei classificatori (i) che utilizzano tutte le caratteristiche considerate, (ii) che utilizzano solo caratteristiche basate sul motivo, (iii) che utilizzano solo caratteristiche basate sul DNase-seq, e (iv) che utilizzano solo caratteristiche basate sul motivo e sul DNase-seq. La performance mediana dei classificatori che utilizzano tutte le caratteristiche è indicata da una linea tratteggiata

Troviamo che la performance di predizione misurata dall’AUC-PR varia notevolmente tra i diversi fattori di trascrizione (Fig. 1) con un valore mediano AUC-PR di 0,4098. La migliore performance di predizione si ottiene per CTCF, che ha un motivo di legame lungo e ricco di informazioni, in due diversi tipi di cellule (IPSC e PC-3). Prestazioni superiori alla media si ottengono anche per FOXA1 e HNF4A in cellule epatiche. Per la maggior parte delle altre TF, troviamo valori AUC-PR intorno a 0,4, mentre osserviamo un’accuratezza di predizione piuttosto bassa per NANOG e REST.

Per analizzare il contributo delle caratteristiche selezionate sulla performance finale di predizione, escludiamo sistematicamente set di caratteristiche correlate dai dati di input in formazione e predizione. Come linea di base, misuriamo l’AUC-PR per il classificatore utilizzando tutti i set di caratteristiche. Inoltre, misuriamo l’AUC-PR quando escludiamo ogni singolo set di caratteristiche, dove la differenza di questi due valori AUC-PR quantifica il miglioramento ottenuto includendo il set di caratteristiche (Fig. 2a).

Fig. 2
figura2

Importanza dei set di caratteristiche. a Testiamo l’importanza di insiemi correlati di caratteristiche escludendo un insieme di caratteristiche dai dati di addestramento, misurando le prestazioni (AUC-PR) del classificatore risultante e sottraendo questo valore AUC-PR dal valore corrispondente raggiunto dal classificatore che utilizza tutte le caratteristiche. Quindi, se Δ AUC-PR è superiore a zero, il set di caratteristiche tralasciate ha migliorato la prestazione finale di predizione, mentre i valori di Δ AUC-PR inferiori a zero indicano un effetto negativo sulla prestazione di predizione. Raccogliamo i valori Δ AUC-PR per tutti i 13 set di dati di test e li visualizziamo come grafici a violino. b Valutazione di diversi gruppi di caratteristiche basate sul DNase-seq. In questo caso, confrontiamo le prestazioni che includono un gruppo specifico di caratteristiche basate su DNase-seq (cfr. Additional file 1: Text S2)) con le prestazioni senza alcuna caratteristica basata su DNase-seq (cfr. violino “DNase-seq” nel pannello a). Troviamo che tutte le caratteristiche basate sul DNase-seq contribuiscono positivamente alla performance di predizione

Osserviamo il maggiore impatto per il set di caratteristiche derivate dai dati DNase-seq. Il miglioramento dell’AUC-PR ottenuto includendo i dati DNase-seq varia tra 0,087 per E2F1 e 0,440 per HNF4A con una mediana di 0,252.

Anche le caratteristiche basate sui punteggi dei motivi (compresi i motivi scoperti de novo e quelli provenienti dai database) contribuiscono sostanzialmente alla performance finale della predizione. Qui, osserviamo grandi miglioramenti per alcuni TF, in particolare 0,231 per CTCF in cellule IPSC, 0,175 per CTCF in cellule PC-3, e 0,167 per FOXA1. Al contrario, osserviamo una diminuzione delle prestazioni di predizione nel caso di JUND (- 0,080) quando si includono caratteristiche basate su motivi. Per le altre TF, troviamo miglioramenti di AUC-PR tra 0,008 e 0,079. Consideriamo inoltre due sottoinsiemi di motivi, vale a dire tutti i motivi ottenuti dalla scoperta di motivi de novo sui dati di sfida e tutti i modelli Slim/LSlim che catturano le dipendenze intramotive. Per i motivi dalla scoperta di motivi de novo, troviamo un miglioramento per 9 dei 13 set di dati, e per il modello Slim/LSlim, troviamo un miglioramento per 10 dei 13 set di dati. Tuttavia, i miglioramenti assoluti (mediana di 0.011 e 0.006, rispettivamente) sono piuttosto piccoli, forse perché (i) i motivi ottenuti dalla scoperta di motivi de novo potrebbero essere ridondanti rispetto a quelli trovati nei database e (ii) le dipendenze e le eterogeneità intramotive catturate dai modelli Slim/LSlim potrebbero essere parzialmente coperte da variazioni nei motivi provenienti da fonti diverse.

In particolare, le caratteristiche basate su RNA-seq (mediana 0.001), le caratteristiche basate sulle annotazioni (0,000), e le caratteristiche basate sulla sequenza (0,001) non hanno quasi alcuna influenza sulle prestazioni di predizione.

Poiché l’insieme delle caratteristiche basate su DNase-seq è piuttosto vario, includendo caratteristiche derivate da tracce di arricchimento delle pieghe, liste di picchi, o variazioni tra tipi di cellule, miriamo a sezionare ulteriormente l’influenza di gruppi correlati di queste caratteristiche. A tal fine, testiamo ulteriormente come le prestazioni di predizione sono influenzate dalla rimozione di gruppi specifici di caratteristiche DNase-seq (cfr. file aggiuntivo 1: testo S2) dal set completo di caratteristiche (file aggiuntivo 1: figura S2). In particolare, troviamo che nessuno di questi gruppi di caratteristiche da solo ha un grande impatto sulle prestazioni di predizione, anche se si possono osservare differenze graduali come l’inclusione di caratteristiche basate sull’arricchimento delle pieghe e sui picchi hanno un contributo ampiamente positivo, mentre l’influenza degli altri gruppi di caratteristiche è piuttosto ambigua. Questo potrebbe essere spiegato da ampie ridondanze e correlazioni che ancora esistono tra questi diversi gruppi, il che permette una grande compensazione per la perdita di un singolo gruppo di caratteristiche.

Pertanto, testiamo ulteriormente uno scenario, dove lasciando fuori tutte le caratteristiche basate sul DNase-seq (cioè, i dati dietro la trama violino “DNase-seq” di Fig. 2a) è considerato il caso base, e solo uno dei gruppi specifici viene aggiunto a questo set di caratteristiche ridotto (Fig. 2b). Prima di tutto, osserviamo che tutti i gruppi di caratteristiche contribuiscono positivamente alla performance totale di predizione. Il contributo più grande può essere osservato per il gruppo “fold-enrichment”, ma anche gruppi correlati come “long range” fondamentalmente la media su finestre più ampie della traccia di fold-enrichment, e “peak-based” utilizzando i picchi che sono stati originariamente chiamati sulla base della copertura DNase-seq. Troviamo il contributo più basso per il gruppo “variazione”, che misura la variazione e la conservazione, rispettivamente, del segnale DNase-seq tra i tipi di cellule. Poiché il contributo di ogni singolo gruppo di caratteristiche è positivo, consideriamo ancora il set completo di caratteristiche basate sul DNase-seq nel seguito.

Avendo stabilito che le caratteristiche basate sul DNase-seq e sui motivi hanno un grande impatto sulle prestazioni di predizione, abbiamo anche testato le prestazioni di predizione dell’approccio proposto usando solo caratteristiche basate sui dati DNase-seq e sui motivi TF, rispettivamente. Tutte le altre caratteristiche, cioè le caratteristiche basate su RNA-seq, le caratteristiche basate sulle annotazioni e le caratteristiche basate sulla sequenza grezza, sono escluse. Troviamo (Fig. 1) che i classificatori che usano esclusivamente caratteristiche basate su motivi producono già una prestazione di predizione ragionevole per alcune TF (CTCF e, in una certa misura, E2F1 e GABPA), mentre osserviamo valori AUC-PR inferiori a 0,12 per il resto delle TF. Questo può essere spiegato dal gran numero di previsioni false positive generate tipicamente dagli approcci che utilizzano esclusivamente informazioni sul motivo, che possono essere evitate solo nel caso di motivi lunghi e specifici come nel caso di CTCF.

I classificatori che utilizzano solo caratteristiche basate sul DNase-seq forniscono una performance notevole per molte delle TF studiate (Fig. 1), che è inferiore a quella del classificatore basato sul motivo solo per i due dataset CTCF. Per alcuni set di dati (specialmente JUND ma anche EGR1, MAX), osserviamo addirittura che un classificatore basato solo sui dati DNase-seq supera il classificatore che utilizza tutte le caratteristiche.

Nel caso di JUND, l’aumento delle prestazioni quando si trascurano tutte le caratteristiche non-DNase può probabilmente essere attribuito a un forte adattamento dei parametri del classificatore ai motivi di legame specifici del tipo di cellula o al co-binding specifico del tipo di cellula con altre TF, perché JUND è l’unico set di dati con un miglioramento delle prestazioni quando si escludono le caratteristiche basate sui motivi come discusso sopra. Per tutte e tre le TF, troviamo un miglioramento delle prestazioni di previsione se i parametri del classificatore sono addestrati sui cromosomi di formazione del tipo di cellula di prova (caso “all’interno del tipo di cellula”; Additional file 1: Figura S3).

Siccome le caratteristiche basate sul DNase-seq e sui motivi sembrano essere i principali set di caratteristiche che influenzano le prestazioni di previsione, studiamo infine le prestazioni di previsione di un classificatore utilizzando solo questi due set di caratteristiche. Osserviamo che le prestazioni di predizione usando solo le caratteristiche basate sul DNase-seq e sul motivo sono in gran parte identiche a quelle del classificatore che usa tutte le caratteristiche (Fig. 1), dove osserviamo la più grande perdita di AUC-PR per TAF1 (0,017) e il più grande guadagno di AUC-PR per NANOG (0,007). Notiamo un comportamento simile per il caso all’interno del tipo di cellula (Additional file 1: Figura S3). Poiché gli insiemi di caratteristiche lasciati fuori includono tutte le caratteristiche basate su RNA-seq, questo ha anche la conseguenza che un test specifico per il tipo di cellula (cioè DNase-seq) è sufficiente per predire il legame di TF, il che amplia la portata dei tipi di cellule con dati sperimentali facilmente disponibili a cui l’approccio proposto può essere applicato.

L’allenamento iterativo migliora le prestazioni di predizione

Come secondo aspetto chiave dell’approccio proposto, indaghiamo l’impatto della procedura di allenamento iterativo sulle prestazioni finali di predizione. A tal fine, confrontiamo per ogni TF i valori AUC-PR ottenuti facendo la media delle previsioni di tutti e cinque i classificatori risultanti dalla procedura di formazione iterativa per tutti i tipi di cellule di formazione con i valori AUC-PR ottenuti facendo la media solo sui classificatori inizialmente addestrati per tutti i tipi di cellule di formazione, cioè i classificatori addestrati solo sui dati di formazione iniziale (sezione “Dati di formazione iniziale”).

Per 11 dei 13 set di dati di prova, osserviamo un miglioramento delle prestazioni di previsione mediante la procedura di formazione iterativa (Fig. 3). I miglioramenti maggiori si ottengono per E2F1 (0,114), FOXA2 (0,085), NANOG (0,08), FOXA1 (0,063), e MAX (0,061). Tra questi ci sono TF per i quali abbiamo osservato una buona performance usando solo le caratteristiche basate sul DNase-seq (E2F1, MAX) e TF per i quali la combinazione con le caratteristiche basate sui motivi era vantaggiosa (FOXA1, FOXA2, NANOG), il che indica che le regioni negative aggiuntive aggiunte nelle iterazioni da 2 a 5 non inducono un bias verso uno di questi due tipi di caratteristiche. Per quattro di queste cinque TF, sono stati forniti solo uno (FOXA2, NANOG, FOXA1) o due (E2F1) tipi di cellule di formazione, e la variazione tra i diversi classificatori dall’allenamento iterativo può aiutare a evitare l’overfitting. Al contrario, troviamo una diminuzione delle prestazioni per JUND (0,041) e anche per TAF1 (0,01), che potrebbe essere causata da una maggiore enfasi sulle regioni di legame specifiche del tipo cellulare nelle iterazioni successive della procedura di formazione iterativa. Questa ipotesi è supportata anche dall’osservazione che la procedura di addestramento iterativo porta sempre a un aumento delle prestazioni di previsione se i parametri del classificatore sono addestrati sui cromosomi di addestramento del tipo di cellula di prova (file aggiuntivo 1: Figura S4).

Fig. 3
figura3

Rilevanza della procedura di training iterativo. Per ciascuno dei 13 set di dati di test, confrontiamo la performance (AUC-PR) ottenuta dal (set di) classificatori addestrati sulle regioni negative iniziali (ascissa) con la performance ottenuta facendo la media di tutti i classificatori della procedura di addestramento iterativo (ordinata)

La media delle previsioni migliora rispetto alla selezione casuale dei tipi di cellule

Per 9 delle 12 TF considerate, i dati per più di un tipo di cellula di addestramento sono forniti con i dati di sfida. Quindi, una questione centrale potrebbe essere la scelta del tipo di cellula utilizzato per l’addestramento e, successivamente, per fare previsioni per il tipo di cellula di prova. Tuttavia, gli unici dati sperimentali specifici del tipo di cellula disponibili per fare questa scelta sono i dati DNase-seq e RNA-seq, mentre la similarità dei tipi di cellule potrebbe dipendere dalla TF considerata. Infatti, le misure di somiglianza derivate dai dati DNase-seq (ad esempio, i coefficienti Jaccard di sovrapposizione dei picchi DNase-seq, la correlazione dei profili) o dai dati RNA-seq (ad es, correlazione dei valori TPM) si sono rivelati non informativi per quanto riguarda la somiglianza delle regioni di legame delle TF in studi preliminari sui tipi di cellule di addestramento.

Pertanto, consideriamo la scelta del tipo di cellula di addestramento una variabile latente, e facciamo la media delle previsioni generate dai rispettivi classificatori (vedi la sezione “Schema di predizione”). Poiché le etichette dei tipi di cellule di prova sono state rese disponibili dopo la sfida, possiamo ora valutare l’impatto di questa scelta sulle prestazioni di predizione e anche testare le prestazioni di predizione dei classificatori addestrati sui singoli tipi di cellule (Fig. 4).

Fig. 4
figura4

Performance dei classificatori ensemble. Per ciascuno dei 13 set di dati di test, confrontiamo le prestazioni (AUC-PR) dei singoli classificatori addestrati su singoli tipi di cellule (cerchi aperti) con quelle del classificatore d’insieme che fa la media di tutti i classificatori addestrati su tutti i tipi di cellule di formazione (cerchi arancioni pieni). Come riferimento, tracciamo anche la mediana dei singoli classificatori come barra rossa

Per tutti i set di dati di test con più tipi di cellule di formazione disponibili, troviamo che la previsione media produce valori AUC-PR superiori alla mediana dei valori AUC-PR ottenuti per i singoli tipi di cellule di formazione. Questo miglioramento è particolarmente pronunciato per REST, GABPA e MAX.

Per indagare ulteriormente se la media dei classificatori per i singoli tipi di cellule favorisce le regioni di legame conservate (cioè le regioni etichettate come “legate” nella maggior parte dei tipi di cellule) rispetto alle regioni di legame specifiche del tipo di cellula, valutiamo anche le prestazioni di predizione su tali regioni separatamente (file aggiuntivo 1: Figura S5). In particolare, consideriamo una regione vincolata conservata se è anche etichettata come “vincolata” in almeno tre dei quattro tipi di cellule di formazione, e consideriamo una regione vincolata come specifica del tipo di cellula se questa regione è etichettata come “vincolata” in almeno uno dei quattro tipi di cellule di formazione. La prima cosa che notiamo dal file aggiuntivo 1: Figura S5 è che i valori assoluti di AUC-PR sono sostanzialmente più bassi per le regioni specifiche del tipo cellulare rispetto alle regioni conservate. Una spiegazione potrebbe essere una differenza nell’equilibrio di classe (im-)dovuto ai sottoinsiemi di regioni selezionati. Tuttavia, questa tendenza generale rimane quando si considera l’AUC-ROC (Additional file 1: Figura S6). In secondo luogo, troviamo che la variazione tra i classificatori appresi da diversi tipi di cellule di formazione è nella maggior parte dei casi più grande per le regioni specifiche del tipo di cellula che per le regioni conservate. Il comportamento per quanto riguarda le prestazioni assolute è simile per i singoli classificatori, le loro prestazioni mediane e le prestazioni della media dei classificatori per i singoli tipi di cellule. Notiamo che l’AUC-PR ottenuto con la media è sempre migliore della performance mediana per i singoli tipi di cellule per le regioni conservate, ma lo stesso vale quando si considerano le regioni specifiche del tipo di cellula per sette dei nove set di dati con più di un tipo di cellula di addestramento.

Quindi, possiamo sostenere che la media dei classificatori specifici del tipo di cellula generalmente produce previsioni più accurate di quelle che si otterrebbero con una scelta disinformata di uno specifico tipo di cellula di addestramento.

Tuttavia, notiamo anche per quasi tutti i set di dati di test con più tipi di cellule di addestramento (l’unica eccezione è CTCF per il tipo di cellule PC-3) che le migliori prestazioni di previsione ottenute per uno dei singoli tipi di cellule di addestramento avrebbero ottenuto, in alcuni casi, notevoli miglioramenti rispetto alla procedura di media proposta. In particolare, la varianza di AUC-PR tra i diversi tipi di cellule di formazione è particolarmente pronunciato per JUND, che supporta l’ipotesi precedente che alcune caratteristiche, per esempio motivi di legame o co-binding di TFs, sono altamente cell type-specific per JUND. In generale, la derivazione di misure informative della somiglianza del tipo di cellula TF-specifica basate su saggi specifici del tipo di cellula e previsioni preliminari del sito di legame, porterebbe probabilmente a un ulteriore aumento delle prestazioni degli approcci computazionali per la previsione del legame TF specifico del tipo di cellula.

Creazione di una collezione di tracce di legami TF specifici del tipo di cellula

Avendo stabilito che un singolo tipo di test sperimentale, cioè il DNase-seq, è sufficiente per predire i legami TF specifici del tipo di cellula con un’accuratezza allo stato dell’arte, possiamo ora utilizzare i classificatori ottenuti sui tipi di cellule e TF di allenamento per predizioni su ulteriori tipi di cellule. A questo scopo, usiamo i classificatori considerando solo le caratteristiche basate sul DNase-seq e sui motivi, ma non le caratteristiche basate sull’RNA-seq, le caratteristiche basate sulle annotazioni, né le caratteristiche basate sulla sequenza grezza, che hanno mostrato di ottenere una performance di predizione comparabile al modello completo di prima (cfr. Fig. 1, sezione “Impatto dei set di caratteristiche sulla performance di predizione”). A tal fine, abbiamo scaricato i dati DNase-seq per una collezione di tipi di cellule e tessuti primari (vedi sezione “Dati”), li abbiamo elaborati nello stesso modo dei dati originali e, successivamente, abbiamo estratto le caratteristiche dipendenti dal DNase-seq (sezione “Caratteristiche”). Abbiamo poi applicato i classificatori addestrati per tutte le 31 TF considerate nella sfida a questi 22 set di caratteristiche DNase-seq per produrre un totale di 682 tracce di predizione.

Per i tipi di cellule selezionati (Additional file 1: Tabella S5), solo pochi tipi di cellule e dati ChIP-seq specifici per TF sono disponibili (Additional file 1: Tabella S6). Da un lato, questo significa che le tracce di legame TF previste forniscono informazioni preziose e nuove per la collezione di 31 TF studiate. D’altra parte, questo fornisce l’opportunità di eseguire il benchmarking e i controlli di sanità mentale per quanto riguarda le previsioni per il sottoinsieme di questi TF e tipi di cellule con corrispondenti dati ChIP-seq disponibili. Per il benchmarking, otteniamo inoltre i file dei picchi “rilassati” e (se disponibili) “conservativi” da ENCODE e ricaviamo le etichette associate (“legato”, “non legato”, “ambiguo”) secondo la procedura proposta per la sfida ENCODE-DREAM.

Per le CTCF con picchi ChIP-seq disponibili per più tipi di cellule, troviamo generalmente una performance di predizione che è paragonabile a quella osservata sui dati della sfida (cfr. Additional file 1: Table S4). Per questi tipi di cellule, i valori AUC-PR (Additional file 1: Tabella S7) sono compresi tra 0,7720 e 0,8197 se sono disponibili picchi conservativi e rilassati e se i donatori corrispondono tra gli esperimenti DNase-seq e ChIP-seq, mentre le prestazioni sono leggermente inferiori per i donatori che non corrispondono (0,7322) e in caso di picchi conservativi mancanti (0,7270). Per JUN, MAX e MYC, solo i picchi rilassati sono disponibili da ENCODE a causa dei replicati mancanti. Qui, troviamo valori AUC-PR di 0,6310 per JUN, che è sostanzialmente più grande rispetto ai dati della sfida; 0,4004 per MAX, che è leggermente inferiore rispetto ai dati della sfida; e 0,1989 per MYC, che non è stato tra i TF di prova nella sfida ma ha ottenuto prestazioni sostanzialmente migliori nel round della classifica.

Le 682 tracce di predizione a livello di genoma sono ancora piuttosto grandi (circa 880 MB per traccia) e, quindi, richiedono un notevole spazio di archiviazione che potrebbe non essere disponibile per l’utente tipico, mentre la maggior parte delle regioni non sono probabilmente legate dalla TF di interesse. Quindi, condensiamo ulteriormente queste previsioni in elenchi di picchi previsti in formato narrowPeak unendo tratti contigui con alta probabilità di legame e applicando una soglia di 0,6 (rilassata) e 0,8 (conservativa) sulla probabilità massima osservata in un “picco” previsto. Forniamo questi file di picco per il download a https://www.synapse.org/#!Synapse:syn11526239 (doi:10.7303/syn11526239).

Per avere un’impressione della qualità dei picchi predetti, calcoliamo ulteriormente i coefficienti Jaccard basati sulle sovrapposizioni dei picchi (calcolati utilizzando il pacchetto R GenomicRanges) tra i file dei picchi predetti e quelli dei corrispondenti picchi ChIP-seq disponibili (file aggiuntivo 1: Tabella S9, S11), e li troviamo ampiamente concordanti con la valutazione precedente basata sulle etichette derivate.

Infine, i dati per CTCF permettono di confrontare la sovrapposizione tra gli elenchi di picchi previsti e gli elenchi di picchi determinati sperimentalmente con le sovrapposizioni osservate per (i) replicati tecnici (Additional file 1: Tabella S12) e (ii) replicati biologici (Additional file 1: Tabella S10). Troviamo che le sovrapposizioni tra le previsioni e IDR-soglia picchi sono inferiori a quelli tra IDR-soglia picchi e / o repliche tecniche. Per CTCF, sono disponibili tre esperimenti indipendenti per il tessuto “foreskin fibroblast”, e usiamo due campioni indipendenti DNase-seq per quel tessuto per la nostra previsione. Confrontando i coefficienti di Jaccard in queste due situazioni (cfr. file aggiuntivo 1: tabelle S9, S10), troviamo che i coefficienti di Jaccard tra le previsioni e IDR-soglia picchi variano tra 0,568 e 0,693, mentre si osserva coefficienti di Jaccard tra 0,658 e 0,72 per i replicati biologici. Sulla base di questi dati limitati, potremmo concludere che le previsioni computazionali sono meno coerenti dei replicati biologici solo con un piccolo margine, almeno per CTCF.

In base alle liste dei picchi predetti, possiamo anche confrontare le caratteristiche di legame previste delle diverse TF attraverso i tipi di cellule. In primo luogo, controlliamo il numero di picchi predetti per TF e per tipo di cellula (Additional file 1: Figura S7). Troviamo un gruppo distinto di TF molto abbondanti (CTCF, GATA3, SPI1, CEBPB, FOXA1, FOXA2, MAX), che tipicamente mostrano anche un gran numero di picchi nei dati di allenamento. Tra questi, troviamo modelli di specificità del tipo di cellula dal CTCF ubiquitariamente abbondante a un’abbondanza molto variabile per GATA3. Il resto delle TF ottiene un numero sostanzialmente inferiore di picchi predetti con modelli simili, ad esempio, per ATF7/ARID3A/NANOG o EP300/TEAD4/JUND, dove quest’ultimo gruppo è stato segnalato per co-bind in enhancer distali. Successivamente, studiamo la stabilità delle previsioni dei picchi, cioè i coefficienti Jaccard dei picchi previsti per ciascuno dei TF in diversi tipi di cellule (file aggiuntivo 1: Figura S8). Ancora una volta, troviamo una variazione sostanziale tra le TF con GABPA, CTCF e REST che hanno coefficienti Jaccard mediani superiori a 0,7. In particolare, CTCF è stato uno dei TF con il maggior numero di picchi previsti (mediana 37 455), mentre abbiamo osservato un ordine di grandezza meno picchi previsti per REST (mediana 3 364) e GABPA (mediana 5 430). All’altra estremità della scala, troviamo TFs indirettamente vincolanti come EP300, o TFs che sono altamente specifici per tipi di cellule sotto-rappresentati nei nostri dati come NANOG (cellule staminali) e HNF4A (fegato, rene, intestino). Infine, indaghiamo il co-binding di TFs calcolando il coefficiente Jaccard medio tra i tipi di cellule per ogni coppia di TFs (Additional file 1: Figura S9). Qui, osserviamo gruppi distinti di TF co-occorrenti come CTCF/ZNF143 o FOXA1/FOXA2, che sono noti per interagire in vivo. Inoltre, troviamo un gruppo più grande di TF con sovrapposizioni sostanziali tra i loro picchi previsti che comprendono YY1, MAX, CREB1, MYC, E2F6, E2F1, e TAF1. Poiché TAF1 (TATA-box binding protein associated factor 1) è associato con l’iniziazione trascrizionale alla casella TATA, una spiegazione potrebbe essere che i siti di legame di questi TF sono arricchiti ai promotori principali. Infatti, il legame a promotori prossimali è stato riportato per MYC/MAX, CREB1, YY1 e fattori E2F.

L’implementazione semplificata di Catchitt fornisce prestazioni competitive

Confrontiamo infine Catchitt, l’implementazione semplificata dell’approccio di formazione iterativa che combina l’accessibilità della cromatina e i punteggi dei motivi, con l’implementazione della sfida che utilizza le caratteristiche basate sul DNase-seq e sui motivi per il caso all’interno del tipo di cellula. A tal fine, selezioniamo cinque combinazioni di tipo di cellula e fattore di trascrizione che abbracciano la gamma di valori di performance osservati nella sfida. In particolare, consideriamo NANOG e TAF1, che hanno ottenuto i valori più bassi di AUC-PR (cfr. Additional file 1: Figura S3) per l’implementazione della sfida; CTCF in cellule IPSC, che ha ottenuto il più grande valore di AUC-PR; e FOXA1 e HNF4A, che hanno ottenuto valori medi di AUC-PR ma hanno beneficiato sostanzialmente dell’addestramento iterativo (cfr. Additional file 1: Figura S4). Riassumiamo i risultati di questo confronto nel file aggiuntivo 1: Tabella S13. Nonostante la riduzione di circa dieci volte del numero di motivi considerati e ulteriori semplificazioni (sezione “Catchitt: un’implementazione open-source semplificata”), Catchitt produce ancora valori AUC-PR competitivi. Classificando i risultati di Catchitt all’interno dei risultati della sfida originale, troviamo che le prestazioni ottenute dai punteggi di Catchitt sono solo due ranghi più bassi rispetto all’implementazione della sfida utilizzando caratteristiche basate sul DNase-seq e sui motivi. Come in precedenza, troviamo un sostanziale miglioramento delle prestazioni di predizione grazie alla procedura di addestramento iterativo.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.