Exakt förutsägelse av celltypspecifik bindning av transkriptionsfaktorer

Under ENCODE-DREAM-utmaningen har ett stort antal tillvägagångssätt som skapats av 40 internationella team benchmarkats på 13 celltypspecifika ChIP-seq-analyser för 12 olika TF:er hos människor (Additional file 1: Figur S1). En uppsättning med 109 dataset för samma (och ytterligare) TFs i andra celltyper tillhandahölls för träning. Träningsdata bestod av celltypspecifika DNase-seq-data, celltypspecifika RNA-seq-data, genomsekvens och annotationer samt in silico DNA-formförutsägelser. Dessutom tillhandahölls celltypspecifika och TF-specifika ChIP-seq-data och härledda etiketter för träningskromosomer, medan förutsägelser utvärderades endast på de återstående, utelämnade kromosomerna chr1, chr8 och chr21 som inte tillhandahölls med någon av ChIP-seq-träningsdata. För 200-bp-regioner som förskjutits med 50 bp begärdes från de deltagande grupperna förutsägelser för hela genomet av sannolikheten för att en viss region överlappar en ChIP-seq-topp. Förutsägelserna utvärderades genom i) arean under ROC-kurvan (AUC-ROC), ii) arean under precision-recall-kurvan (AUC-PR), iii) recall vid 10 % FDR och iv) recall vid 50 % FDR på var och en av de 13 testuppsättningarna. Dessa aggregerades per datamängd baserat på den genomsnittliga, normaliserade rangordningen för vart och ett av dessa mått i 10 bootstrap-prov av de utvalda kromosomerna, och en slutlig rangordning erhölls som genomsnittet av denna rangstatistik (jfr https://www.synapse.org/#!Synapse:syn6131484/wiki/405275).

Som ett resultat av denna rangordning fick det tillvägagångssätt som presenteras i detta dokument (team ”J-Team”) en delad första plats tillsammans med det tillvägagångssätt som skapats av team ”Yuanfang Guan.”

I det följande undersöker vi hur olika aspekter av det föreslagna tillvägagångssättet påverkar den slutliga prediktionsprestandan. Först inspekterar vi effekten av olika uppsättningar relaterade egenskaper (DNase-seq-data, motivpoäng, RNA-seq-data, sekvensbaserade och annotationsbaserade egenskaper) på förutsägelseprestandan. För det andra studerar vi betydelsen av den iterativa träningsmetoden i motsats till en träning på inledande träningsdata. För det tredje jämför vi prestandan hos de förutsägelser som erhålls av klassificerare som tränas på träningsdata för enskilda celltyper med prestandan hos den aggregerade förutsägelse som erhålls genom att ta fram ett medelvärde över dessa celltyper. Slutligen tillämpar vi den föreslagna metoden för att förutsäga celltypspecifik TF-bindning för 31 TF:er i ytterligare 22 primära celltyper, vilket ger totalt 682 förutsägelsespår.

Inverkan av funktionsuppsättningar på prediktionsprestanda

Vi använder den prediktionsprestanda som erhålls av den föreslagna metoden med hjälp av alla uppsättningar funktioner (avsnittet ”Funktioner”), det iterativa träningsförfarandet (avsnittet ”Iterativ träning”) och aggregeringen över alla träningscelltyper (avsnittet ”Prediktionsschema”) som en baslinje för alla ytterligare jämförelser (fig. 1; ”alla funktioner”). I hela detta manuskript betraktar vi AUC-PR som det primära prestandamåttet, eftersom AUC-PR är mer informativt om klassificeringsprestanda för starkt obalanserade klassificeringsproblem , och återkallandet på de olika FDR-nivåerna är ganska instabilt eftersom det motsvarar enskilda punkter på precision-recall-kurvan. AUC-PR-värden beräknas med hjälp av R-paketet PRROC , som också har använts i utmaningen ENCODE-DREAM.

Fig. 1
fig. 1

Prestanda på olika celltyper. För var och en av de 13 kombinationerna av TF och celltyp i testdata beräknar vi prediktionsprestanda (AUC-PR) på de utvalda kromosomerna för klassificerare (i) som använder alla egenskaper som beaktas, (ii) som endast använder motivbaserade egenskaper, (iii) som endast använder DNase-seq-baserade egenskaper och (iv) som endast använder motivbaserade och DNase-seq-baserade egenskaper. Medianprestanda för klassificerare som använder alla funktioner anges med en streckad linje

Vi finner att prediktionsprestanda, mätt med AUC-PR, varierar kraftigt mellan de olika transkriptionsfaktorerna (Fig. 1) med ett medianvärde för AUC-PR på 0,4098. Den bästa förutsägelseprestandan uppnås för CTCF, som har ett långt och informationsrikt bindningsmotiv, i två olika celltyper (IPSC och PC-3). Över genomsnittlig prestanda uppnås också för FOXA1 och HNF4A i leverceller. För de flesta andra TF:er finner vi AUC-PR-värden runt 0,4, medan vi observerar en ganska låg prediktionsnoggrannhet för NANOG och REST.

För att analysera de utvalda funktionernas bidrag till den slutliga prediktionsprestandan utesluter vi systematiskt uppsättningar av relaterade funktioner från indata vid träning och prediktion. Som utgångspunkt mäter vi AUC-PR för klassificeraren som använder alla funktionsuppsättningar. Dessutom mäter vi AUC-PR när vi utesluter varje enskild funktionsuppsättning, där skillnaden mellan dessa två AUC-PR-värden kvantifierar den förbättring som uppnås genom att inkludera funktionsuppsättningen (fig. 2a).

Fig. 2
figure2

Funktionssättningarnas betydelse. a Vi testar betydelsen av relaterade uppsättningar av funktioner genom att utesluta en uppsättning funktioner från träningsdata, mäta resultatet (AUC-PR) för den resulterande klassificeraren och subtrahera detta AUC-PR-värde från motsvarande värde som uppnås av klassificeraren som använder alla funktioner. Om Δ AUC-PR är över noll, förbättrade den utelämnade uppsättningen funktioner den slutliga prediktionsprestandan, medan Δ AUC-PR-värden under noll indikerar en negativ effekt på prediktionsprestandan. Vi samlar Δ AUC-PR-värdena för alla 13 testdatamängder och visualiserar dessa som violinplottar. b Bedömning av olika grupper av DNase-seq-baserade funktioner. I det här fallet jämför vi prestandan inklusive en specifik grupp av DNase-seq-baserade funktioner (jfr Additional file 1: Text S2)) med prestandan utan några DNase-seq-baserade funktioner (jfr violin ”DNase-seq” i panel a). Vi finner att alla DNase-seq-baserade funktioner bidrar positivt till prediktionsprestanda

Vi observerar störst påverkan för den uppsättning funktioner som härrör från DNase-seq-data. Den förbättring av AUC-PR som uppnås genom att inkludera DNase-seq-data varierar mellan 0,087 för E2F1 och 0,440 för HNF4A med en median på 0,252.

Funktioner baserade på motivpoäng (inklusive de novo-upptäckta motiv och motiv från databaser) bidrar också väsentligt till den slutliga prediktionsprestandan. Här observerar vi stora förbättringar för vissa TFs, nämligen 0,231 för CTCF i IPSC-celler, 0,175 för CTCF i PC-3-celler och 0,167 för FOXA1. Däremot observerar vi en minskning av prediktionsprestanda i fallet JUND (- 0,080) när motivbaserade funktioner inkluderas. För de återstående TF:erna finner vi förbättringar av AUC-PR mellan 0,008 och 0,079. Vi tar vidare hänsyn till två undergrupper av motiv, nämligen alla motiv som erhållits genom de novo-motivupptäckt på utmaningsdata och alla Slim/LSlim-modeller som fångar upp intra-motivberoenden. För motiv från de novo-motivupptäckt finner vi en förbättring för 9 av de 13 datamängderna, och för Slim/LSlim-modellen finner vi en förbättring för 10 av de 13 datamängderna. De absoluta förbättringarna (medianen 0,011 respektive 0,006) är dock ganska små, vilket kan bero på att i) motiv som erhålls genom de novo-motivupptäckt kan vara överflödiga i förhållande till dem som finns i databaser och att ii) intra-motivberoenden och heterogeniteter som fångas upp av Slim/LSlim-modellerna delvis kan täckas av variationer i motiven från olika källor.

Noterbart är att RNA-seq-baserade funktioner (medianen 0,011 och 0,006) är bättre än de som finns i databaser.001), annotationsbaserade funktioner (0,000) och sekvensbaserade funktioner (0,001) har nästan inget inflytande på prediktionsprestanda.

Då uppsättningen DNase-seq-baserade funktioner är ganska varierande, inklusive funktioner som härstammar från spår av fold-anrikning, topplistor eller variation mellan celltyper, syftar vi till att ytterligare dissekera inflytandet av relaterade grupper av dessa funktioner. I detta syfte testar vi ytterligare hur förutsägelseprestanda påverkas av att ta bort specifika grupper av DNase-seq-funktioner (se Additional file 1: Text S2) från den fullständiga funktionsuppsättningen (Additional file 1: Figur S2). Vi finner framför allt att ingen av dessa funktionsgrupper ensamma har en stor inverkan på prediktionsprestanda, även om gradvisa skillnader kan observeras eftersom inkluderandet av fold-anrikningsbaserade och peak-baserade funktioner har ett i stort sett positivt bidrag, medan inflytandet av de andra funktionsgrupperna är tämligen tvetydigt. Detta kan förklaras av att det fortfarande finns stora redundanser och korrelationer mellan de olika grupperna, vilket gör det möjligt att i stor utsträckning kompensera för förlusten av en enskild funktionsgrupp.

Därmed testar vi dessutom ett scenario där utelämnande av alla DNase-seq-baserade funktioner (dvs. data bakom violinplotten ”DNase-seq” i figur 2a) betraktas som grundfallet, och endast en av de specifika grupperna läggs till i denna reducerade funktionsuppsättning (figur 2b). Först och främst observerar vi att alla funktionsgrupper bidrar positivt till den totala prediktionsprestandan. Det största bidraget kan observeras för gruppen ”fold-enrichment”, men även relaterade grupper som ”long range” som i princip gör ett medelvärde över bredare fönster av fold-enrichment-spåret, och ”peak-based” som använder toppar som ursprungligen har kallats baserat på DNase-seq-täckning. Vi finner det lägsta bidraget för gruppen ”variation”, som mäter variationen respektive bevarandet av DNase-seq-signalen mellan celltyperna. Eftersom bidraget från varje enskild grupp av funktioner är positivt, tar vi fortfarande hänsyn till den fullständiga uppsättningen DNase-seq-baserade funktioner i det följande.

Med tanke på att vi har fastställt att DNase-seq-baserade och motivbaserade funktioner har en stor inverkan på förutsägelseprestanda testade vi också förutsägelseprestanda för det föreslagna tillvägagångssättet med hjälp av endast funktioner baserade på DNase-seq-data respektive TF-motiv. Alla andra funktioner, dvs. RNA-seq-baserade funktioner, annotationsbaserade funktioner och funktioner baserade på råsekvenser, har uteslutits. Vi finner (fig. 1) att klassificerare som enbart använder motivbaserade egenskaper redan ger en rimlig prediktionsprestanda för vissa TF (CTCF och, i viss mån, E2F1 och GABPA), medan vi observerar AUC-PR-värden under 0,12 för de återstående TF:erna. Detta kan förklaras av det stora antal falskt positiva förutsägelser som vanligtvis genereras av metoder som enbart använder motivinformation, vilket endast kan undvikas om det rör sig om långa, specifika motiv, vilket är fallet för CTCF.

Klassificerare som enbart använder DNase-seq-baserade egenskaper ger en anmärkningsvärd prestanda för många av de studerade TF:erna (fig. 1), som är lägre än för den motivbaserade klassificeraren enbart för de två CTCF-datasetterna. För vissa dataset (särskilt JUND men även EGR1, MAX) observerar vi till och med att en klassificerare baserad enbart på DNase-seq-data överträffar klassificeraren som utnyttjar alla funktioner.

För JUND kan ökningen av prestanda när man försummar alla icke-DNase-funktioner troligen tillskrivas en stark anpassning av klassificerarparametrarna till antingen celltypsspecifika bindningsmotiv eller celltypsspecifik sambindning med andra TF:er, eftersom JUND är det enda datasetetet som har förbättrad prestanda när man utesluter motivbaserade funktioner, som diskuterats ovan. För alla tre TF:erna finner vi en förbättring av prediktionsprestanda om klassificeringsparametrarna tränas på testcellstypens träningskromosomer (”within cell type”-fallet; Additional file 1: Figure S3).

Med tanke på att DNase-seq-baserade och motivbaserade funktioner tycks vara de primära funktionsuppsättningar som påverkar prediktionsprestanda, studerar vi slutligen prediktionsprestanda för en klassificerare som använder endast dessa två funktionsuppsättningar. Vi observerar att prediktionsprestanda med hjälp av endast DNase-seq-baserade och motivbaserade egenskaper i stort sett är identisk med den klassificerare som använder alla egenskaper (fig. 1), där vi observerar den största förlusten i AUC-PR för TAF1 (0,017) och den största vinsten i AUC-PR för NANOG (0,007). Vi noterar ett liknande beteende för fallet inom celltypen (Additional file 1: Figur S3). Eftersom de utelämnade funktionsuppsättningarna inkluderar alla RNA-seq-baserade funktioner har detta också konsekvensen att en celltypsspecifik analys (nämligen DNase-seq) är tillräcklig för att förutsäga TF-bindning, vilket breddar omfattningen av celltyper med lättillgängliga experimentella data som det föreslagna tillvägagångssättet kan tillämpas på.

Iterativ träning förbättrar förutsägelseprestanda

Som en andra nyckelaspekt av det föreslagna tillvägagångssättet undersöker vi effekten av det iterativa träningsförfarandet på den slutliga förutsägelseprestandan. För detta ändamål jämför vi för varje TF de AUC-PR-värden som erhålls genom att ta ett medelvärde av prediktionerna av alla fem klassificerare som är resultatet av det iterativa träningsförfarandet för alla träningscelltyper med de AUC-PR-värden som erhålls genom att endast ta ett medelvärde av de ursprungligen tränade klassificerarna för alla träningscelltyper, dvs. klassificerare som tränats endast på de initiala träningsdatamaterialet (avsnittet ”Initiala träningsdatamaterial”).

För 11 av de 13 testdatamaterialen observerar vi en förbättring av prediktionsprestanda med hjälp av det iterativa träningsförfarandet (fig. 3). De största förbättringarna uppnås för E2F1 (0,114), FOXA2 (0,085), NANOG (0,08), FOXA1 (0,063) och MAX (0,061). Bland dessa finns TF:er för vilka vi observerade goda resultat med hjälp av enbart DNase-seq-baserade egenskaper (E2F1, MAX) och TF:er för vilka kombinationen med motivbaserade egenskaper var fördelaktig (FOXA1, FOXA2, NANOG), vilket tyder på att de ytterligare negativa regioner som läggs till i iterationerna 2 till 5 inte ger upphov till en förskjutning till förmån för någon av dessa två typer av egenskaper. För fyra av dessa fem TF:er tillhandahölls endast en (FOXA2, NANOG, FOXA1) eller två (E2F1) träningscelltyper, och variationen mellan de olika klassificerarna från iterativ träning kan bidra till att undvika överanpassning. Däremot finner vi en minskning av prestanda för JUND (0,041) och även TAF1 (0,01), vilket kan orsakas av en starkare betoning på celltypsspecifika bindningsregioner i efterföljande iterationer av det iterativa träningsförfarandet. Denna hypotes stöds också av observationen att det iterativa träningsförfarandet alltid leder till en ökning av prediktionsprestanda om klassificeringsparametrarna tränas på testcellstypens träningskromosomer (Additional file 1: Figur S4).

Fig. 3
figure3

Relevans av det iterativa träningsförfarandet. För var och en av de 13 testuppsättningarna, jämför vi den prestanda (AUC-PR) som uppnåtts av den eller de klassificerare som tränats på de ursprungliga negativa regionerna (abscissa) med den prestanda som uppnåtts genom att beräkna medelvärdet av alla klassificerare från det iterativa träningsförfarandet (ordinat)

Medelvärdeberäkning av förutsägelser förbättrar jämfört med slumpmässigt urval av celltyper

För 9 av de 12 TF:erna som undersöktes, data för mer än en typ av träningsceller tillhandahålls tillsammans med utmaningsdata. En central fråga kan därför vara valet av den celltyp som används för träning och därefter för att göra förutsägelser för testcellstypen. De enda celltypspecifika experimentella data som finns tillgängliga för att göra detta val är dock DNase-seq- och RNA-seq-data, medan likheten mellan celltyperna kan bero på den TF som beaktas. Likhetsmått som härrör från DNase-seq-data (t.ex. Jaccard-koefficienter för överlappande DNase-seq-toppar, korrelation av profiler) eller från RNA-seq-data (t.ex, Korrelation av TPM-värden) visade sig vara icke-informativa när det gäller likheten mellan TF-bindningsregioner i preliminära studier av träningscelltyperna.

Därmed betraktar vi valet av träningscelltyp som en latent variabel och tar ett genomsnitt av de förutsägelser som genereras av respektive klassificerare (se avsnittet ”Prediktionsschema”). Eftersom etiketter för testcelltyperna har gjorts tillgängliga efter utmaningen kan vi nu utvärdera effekten av detta val på prediktionsprestanda och även testa prediktionsprestanda hos klassificerare som tränats på enskilda celltyper (Fig. 4).

Fig. 4
figure4

Prestanda för ensembleklassificatorer. För vart och ett av de 13 testuppsättningarna jämför vi prestandan (AUC-PR) för de enskilda klassificerarna som tränats på enstaka celltyper (öppna cirklar) med prestandan (AUC-PR) för ensembleklassificeraren som är ett medelvärde av alla klassificerare som tränats på alla träningscelltyper (fyllda, orange cirklar). Som en referens visar vi också medianen för de enskilda klassificerarna som ett rött streck

För alla testdatauppsättningar där flera olika typer av träningsceller finns tillgängliga finner vi att den genomsnittliga förutsägelsen ger AUC-PR-värden som är högre än medianen av AUC-PR-värdena som uppnåtts för enskilda träningscelltyper. Denna förbättring är särskilt uttalad för REST, GABPA och MAX.

För att ytterligare undersöka om medelvärdesbildning över klassificerare för enskilda celltyper gynnar bevarade bindningsregioner (dvs. regioner som märks som ”bundna” i majoriteten av celltyperna) framför celltypsspecifika bindningsregioner, utvärderar vi också förutsägelseprestanda för sådana regioner separat (Additional file 1: Figur S5). Vi anser att en bunden region är bevarad om den också är märkt som ”bunden” i minst tre av fyra träningscelltyper, och vi anser att en bunden region är celltypsspecifik om den är märkt som ”bunden” i högst en av fyra träningscelltyper. Det första vi lägger märke till från Additional file 1: Figur S5 är att de absoluta AUC-PR-värdena är betydligt lägre för celltypsspecifika regioner än för bevarade regioner. En förklaring skulle kunna vara en skillnad i klass(im-)balansen på grund av de valda delmängderna av regioner. Denna allmänna trend kvarstår dock när man tittar på AUC-ROC (Additional file 1: Figur S6). För det andra finner vi att variationen mellan klassificerare som lärt sig från olika träningscelltyper i de flesta fall är större för de celltypsspecifika regionerna än för de bevarade regionerna. Beteendet med avseende på den absoluta prestandan är likartat för de enskilda klassificerarna, deras medianprestanda och prestandan för medelvärdet av klassificerarna för enskilda celltyper. Vi noterar att AUC-PR som uppnås genom medelvärdesbildning alltid är bättre än medianprestanda för enskilda celltyper för bevarade regioner, men detsamma gäller när man beaktar celltypsspecifika regioner för sju av de nio datamängderna med mer än en träningscelltyp.

Därmed kan vi hävda att medelvärdesbildning över de celltypsspecifika klassificerarna generellt sett ger mer exakta förutsägelser än vad som skulle uppnås genom ett oinformerat val av en specifik träningscelltyp.

Hur som helst noterar vi också för nästan alla testdataset med flera träningscelltyper (det enda undantaget är CTCF för PC-3-celltypen) att den bästa prediktionsprestanda som uppnåtts för en av de enskilda träningscelltyperna skulle ha gett, i vissa fall avsevärda, förbättringar jämfört med det föreslagna medelvärdesbildningsförfarandet. Variansen i AUC-PR mellan de olika träningscelltyperna är särskilt uttalad för JUND, vilket stöder den tidigare hypotesen att vissa egenskaper, t.ex. bindningsmotiv eller sambindning av TFs, är mycket celltypspecifika för JUND. Generellt sett skulle det sannolikt leda till en ytterligare ökning av prestandan hos beräkningsmetoder för att förutsäga celltypsspecifik TF-bindning om man kunde härleda informativa mått på TF-specifik likhet mellan olika celltyper baserat på celltypsspecifika tester och preliminära förutsägelser av bindningsställen.

Skapande av en samling spår av celltypsspecifik TF-bindning

När vi har fastställt att en enda typ av experimentell analys, nämligen DNase-seq, är tillräcklig för att förutsäga celltypsspecifik TF-bindning med den senaste tidens noggrannhet kan vi nu använda de klassificerare som erhållits på de tränande celltyperna och TF:erna för förutsägelser på ytterligare celltyper. För detta ändamål använder vi klassificerare som endast tar hänsyn till DNase-seq-baserade och motivbaserade egenskaper, men varken RNA-seq-baserade egenskaper, annotationsbaserade egenskaper eller egenskaper baserade på råsekvens, vilket visade sig ge en prediktionsprestanda som är jämförbar med den fullständiga modellen tidigare (se fig. 1, avsnittet ”Impact of feature sets of prediction performance”). För detta ändamål laddar vi ner DNase-seq-data för en samling primära celltyper och vävnader (se avsnittet ”Data”), bearbetar dessa på samma sätt som de ursprungliga utmaningsdata och extraherar därefter DNase-seq-beroende funktioner (avsnittet ”Funktioner”). Vi tillämpade sedan de tränade klassificerarna för alla 31 TF:er som beaktades i utmaningen på dessa 22 DNase-seq-funktionsuppsättningar för att få fram totalt 682 prediktionsspår.

För de utvalda celltyperna (Additional file 1: Table S5) finns endast ett fåtal celltyp- och TF-specifika ChIP-seq-data tillgängliga (Additional file 1: Table S6). Å ena sidan innebär detta att de förutspådda spåren för TF-bindning ger värdefull, ny information för den samling av 31 studerade TF:er. Å andra sidan ger detta möjlighet att utföra benchmarking och sanitetskontroller med avseende på förutsägelserna för den delmängd av dessa TFs och celltyper med motsvarande ChIP-seq-data tillgängliga. För benchmarking erhåller vi dessutom ”avslappnade” och (där det finns tillgängligt) ”konservativa” toppfiler från ENCODE och härleder de tillhörande etiketterna (”bound”, ”unbound”, ”ambiguous”) i enlighet med det förfarande som föreslagits för ENCODE-DREAM challenge.

För CTCF med ChIP-seq-toppar som finns tillgängliga för flera celltyper finner vi generellt sett en förutsägelseprestanda som är jämförbar med den som observerats på utmaningsdatan (jfr. Additional file 1: Table S4). För dessa celltyper varierar AUC-PR-värdena (Additional file 1: Table S7) mellan 0,7720 och 0,8197 om konservativa och avslappnade toppar finns tillgängliga och om donatorerna matchar mellan DNase-seq- och ChIP-seq-experimenten, medan prestandan är något lägre för donatorer som inte matchar (0,7322) och i händelse av saknade konservativa toppar (0,7270). För JUN, MAX och MYC finns endast avslappnade toppar tillgängliga från ENCODE på grund av saknade replikat. Här finner vi AUC-PR-värden på 0,6310 för JUN, vilket är betydligt större än för utmaningsdata, 0,4004 för MAX, vilket är något lägre än för utmaningsdata, och 0,1989 för MYC, som inte har funnits med bland test-TF:erna i utmaningen men som fick betydligt bättre prestanda i leaderboardrundan.

De 682 förutsägelsespåren för hela genomet är fortfarande ganska stora (ca 880 MB per spår) och kräver därför betydande lagringsutrymme som kanske inte är tillgängligt för den typiska användaren, samtidigt som majoriteten av regionerna troligen inte är bundna av den intressanta TF:en. Därför kondenserar vi ytterligare dessa förutsägelser till förutspådda topplistor i narrowPeak-format genom att sammanfoga sammanhängande sträckor med hög bindningssannolikhet och tillämpa ett tröskelvärde på 0,6 (avslappnad) och 0,8 (konservativ) på den maximala sannolikhet som observerats i en förutspådd ”topp”. Vi tillhandahåller dessa toppfiler för nedladdning på https://www.synapse.org/#!Synapse:syn11526239(doi:10.7303/syn11526239).

För att få ett intryck av kvaliteten på de förutsagda topparna beräknar vi vidare Jaccard-koefficienter baserade på toppöverlappningar (beräknade med hjälp av GenomicRanges R-paketet ) mellan de förutsagda toppfilerna och de från motsvarande, tillgängliga ChIP-seq-toppar (Additional file 1: Table S9, S11), och finner att dessa i stor utsträckning överensstämmer med den tidigare bedömningen baserat på de härledda etiketterna.

Slutligt gör uppgifterna för CTCF det möjligt att jämföra överlappningen mellan de förutspådda topplistorna och de experimentellt bestämda topplistorna med de överlappningar som observerats för i) tekniska replikat (Additional file 1: Table S12) och ii) biologiska replikat (Additional file 1: Table S10). Vi finner att överlappningarna mellan förutsägelser och IDR-trösklade toppar är lägre än överlappningarna mellan IDR-trösklade toppar och/eller tekniska replikat. För CTCF finns tre oberoende experiment för ”foreskinfibroblast”-vävnad tillgängliga, och vi använder två oberoende DNase-seq-prover för den vävnaden för vår förutsägelse. Genom att jämföra Jaccard-koefficienterna i dessa två situationer (se Additional file 1: Tabellerna S9, S10) finner vi att Jaccard-koefficienterna mellan förutsägelser och IDR-trösklade toppar varierar mellan 0,568 och 0,693, medan vi observerar Jaccard-koefficienter mellan 0,658 och 0,72 för biologiska replikat. Baserat på dessa begränsade uppgifter kan vi dra slutsatsen att beräkningsmässiga förutsägelser är mindre konsekventa än biologiska replikat endast med en liten marginal, åtminstone för CTCF.

Baserat på de förutspådda topplistorna kan vi också jämföra de förutspådda bindningsegenskaperna för de olika TF:erna mellan olika celltyper. Först inspekterar vi antalet förutsagda toppar per TF och celltyp (Additional file 1: Figur S7). Vi finner en distinkt grupp av mycket vanliga TF:er (CTCF, GATA3, SPI1, CEBPB, FOXA1, FOXA2, MAX), som vanligtvis också uppvisar ett stort antal toppar i träningsdata. Bland dessa finner vi mönster av celltypsspecificitet från den allestädes närvarande CTCF till en mycket varierande förekomst av GATA3. Resten av TF:erna har betydligt färre antal förutsagda toppar med liknande mönster, t.ex. för ATF7/ARID3A/NANOG eller EP300/TEAD4/JUND, där den sistnämnda gruppen har rapporterats binda tillsammans i distala förstärkare . Därefter studerar vi stabiliteten hos toppförutsägelserna, dvs. Jaccardkoefficienterna för toppar som förutsägs för varje TF i olika celltyper (Additional file 1: Figur S8). Återigen finner vi en betydande variation mellan TF:erna där GABPA, CTCF och REST har median-Jaccardkoefficienter över 0,7. Särskilt CTCF har varit en av TF:erna med det största antalet predikterade toppar (median 37 455), medan vi observerade en storleksordning mindre predikterade toppar för REST (median 3 364) och GABPA (median 5 430). I andra änden av skalan hittar vi indirekt bindande TF:er som EP300, eller TF:er som är mycket specifika för celltyper som är underrepresenterade i våra data som NANOG (stamceller) och HNF4A (lever, njure, tarmar). Slutligen undersöker vi TF:s sambindning genom att beräkna den genomsnittliga Jaccard-koefficienten över olika celltyper för varje par TF:s (Additional file 1: Figur S9). Här observerar vi distinkta grupper av TF:er som samverkar, t.ex. CTCF/ZNF143 eller FOXA1/FOXA2, som är kända för att interagera in vivo . Dessutom finner vi ett större kluster av TFs med betydande överlappningar mellan deras förutspådda toppar som omfattar YY1, MAX, CREB1, MYC, E2F6, E2F1 och TAF1. Eftersom TAF1 (TATA-box binding protein associated factor 1) är förknippad med transkriptionsinitiering vid TATA-boxen kan en förklaring vara att bindningsställen för dessa TFs är anrikade vid kärnpromotorer. Bindning till proximala promotorer har faktiskt rapporterats för MYC/MAX , CREB1 , YY1 och E2F-faktorer.

Streamlined Catchitt implementation yields competitive performance

Vi jämför slutligen Catchitt, den förenklade implementeringen av den iterativa träningsmetoden som kombinerar kromatintillgänglighet och motivpoäng, med utmaningsimplementeringen som använder DNase-seq-baserade och motivbaserade funktioner för fallet inom celltyp. För detta ändamål väljer vi fem kombinationer av celltyp och transkriptionsfaktor som spänner över de olika prestandavärden som observerades i utmaningen. Vi tar särskilt hänsyn till NANOG och TAF1, som fick de lägsta AUC-PR-värdena (se tilläggsfil 1: figur S3) för genomförandet av utmaningen, CTCF i IPSC-celler, som fick det största AUC-PR-värdet, och FOXA1 och HNF4A, som fick medelhöga AUC-PR-värden, men som drog stor nytta av iterativ träning (se tilläggsfil 1: figur S4). Vi sammanfattar resultaten av denna jämförelse i Additional file 1: Table S13. Trots en ungefär tiofaldig minskning av antalet motiv som beaktas och ytterligare förenklingar (avsnittet ”Catchitt: a streamlined open-source implementation”) ger Catchitt fortfarande konkurrenskraftiga AUC-PR-värden. Genom att rangordna Catchitt-resultaten inom de ursprungliga utmaningsresultaten finner vi att den prestanda som uppnås med Catchitt-poäng endast är två grader lägre än utmaningsimplementationen med DNase-seq-baserade och motivbaserade funktioner. Liksom tidigare finner vi en väsentlig förbättring av prediktionsprestanda på grund av det iterativa träningsförfarandet.

Lämna ett svar

Din e-postadress kommer inte publiceras.