Accurate prediction of cell type-specific transcription factor binding

Tijdens de ENCODE-DREAM challenge is een groot aantal benaderingen, gemaakt door 40 internationale teams, gebenchmarkt op 13 celtype-specifieke ChIP-seq assays voor 12 verschillende TFs in de mens (Additional file 1: Figuur S1). Een set van 109 datasets voor dezelfde (en aanvullende) TFs in andere celtypen werd verstrekt voor training. De trainingsgegevens bestonden uit celtype-specifieke DNase-seq gegevens, celtype-specifieke RNA-seq gegevens, genomische sequentie en annotaties, en in silico DNA-vorm voorspellingen. Bovendien werden celtype-specifieke en TF-specifieke ChIP-seq gegevens en afgeleide labels verstrekt voor de training chromosomen, terwijl de voorspellingen werden alleen geëvalueerd op de resterende, aangehouden chromosomen chr1, chr8, en chr21 die niet werden voorzien van een van de ChIP-seq training data. Voor 200-bp regio’s verschoven met 50 bp, genoom-brede voorspellingen van de waarschijnlijkheid dat een specifieke regio een ChIP-seq piek overlapt werden gevraagd aan de deelnemende teams. De voorspellingen werden geëvalueerd aan de hand van (i) het gebied onder de ROC-curve (AUC-ROC), (ii) het gebied onder de precision-recall curve (AUC-PR), (iii) recall bij 10% FDR, en (iv) recall bij 50% FDR op elk van de 13 testdatasets. Deze werden geaggregeerd per dataset op basis van de gemiddelde, genormaliseerde rang verdiend voor elk van deze maatregelen in 10 bootstrap steekproeven van de aangehouden chromosomen, en een definitieve rangschikking werd verkregen als het gemiddelde van deze rangstatistieken (cf. https://www.synapse.org/#!Synapse:syn6131484/wiki/405275).

Als resultaat van deze rangschikking verdiende de in dit artikel gepresenteerde benadering (team “J-Team”) een gedeelde eerste rang samen met de benadering gemaakt door team “Yuanfang Guan.”

In het volgende onderzoeken we de invloed van verschillende aspecten van de voorgestelde benadering op de uiteindelijke voorspellingsprestaties. Ten eerste onderzoeken we de invloed van verschillende sets van gerelateerde kenmerken (DNase-seq gegevens, motief scores, RNA-seq gegevens, sequentie-gebaseerde en annotatie-gebaseerde kenmerken) op de voorspellingsprestaties. Ten tweede bestuderen we het belang van de iteratieve trainingsaanpak in tegenstelling tot een training op initiële trainingsdata. Ten derde vergelijken we de prestaties van de voorspellingen verkregen door classifiers getraind op trainingsdata voor individuele celtypes met de prestaties van de geaggregeerde voorspelling verkregen door het gemiddelde te nemen over deze celtypes. Ten slotte passen we de voorgestelde methode toe voor het voorspellen van celtype-specifieke TF-binding voor 31 TF’s in 22 extra primaire celtypen, wat een totaal van 682 voorspellingssporen oplevert.

Impact van feature sets op voorspellingsprestaties

We gebruiken de voorspellingsprestaties verkregen door de voorgestelde aanpak met behulp van alle sets features (“Features” sectie), de iteratieve trainingsprocedure (“Iterative training” sectie), en de aggregatie over alle training celtypen (“Prediction schema” sectie) als een basislijn voor alle verdere vergelijkingen (Fig. 1; “alle features”). In dit hele manuscript beschouwen we AUC-PR als de primaire prestatiemaat, omdat AUC-PR informatiever is over de classificatieprestaties voor sterk onevenwichtige classificatieproblemen, en recall op de verschillende FDR-niveaus nogal instabiel is omdat het overeenkomt met afzonderlijke punten op de precisie-recallcurve. AUC-PR-waarden worden berekend met het R-pakket PRROC , dat ook in de ENCODE-DREAM-uitdaging is gebruikt.

Fig. 1
figure1

Prestaties tussen celtypen. Voor elk van de 13 combinaties van TF en celtype binnen de testgegevens berekenen we de voorspellingsprestaties (AUC-PR) op de weggelaten chromosomen van classificeerders (i) die alle kenmerken gebruiken, (ii) die alleen op motieven gebaseerde kenmerken gebruiken, (iii) die alleen op DNase-seq gebaseerde kenmerken gebruiken, en (iv) die alleen op motieven en DNase-seq gebaseerde kenmerken gebruiken. De mediane prestaties van classificeerders die alle kenmerken gebruiken, worden aangegeven door een stippellijn

We vinden dat de voorspellingsprestaties zoals gemeten door AUC-PR sterk variëren tussen de verschillende transcriptiefactoren (Fig. 1) met een mediane AUC-PR-waarde van 0,4098. De beste voorspellingsprestatie wordt bereikt voor CTCF, dat een lang en informatierijk bindingsmotief heeft, in twee verschillende celtypes (IPSC en PC-3). Bovengemiddelde prestaties worden ook verkregen voor FOXA1 en HNF4A in levercellen. Voor de meeste andere TF’s vinden we AUC-PR waarden rond de 0,4, terwijl we een vrij lage voorspellingsnauwkeurigheid waarnemen voor NANOG en REST.

Om de bijdrage van geselecteerde kenmerken op de uiteindelijke voorspellingsprestatie te analyseren, sluiten we systematisch sets van gerelateerde kenmerken uit van de input data in training en voorspelling. Als basis meten we AUC-PR voor de classificator die alle kenmerkensets gebruikt. Daarnaast meten we AUC-PR bij het uitsluiten van elke afzonderlijke feature-set, waarbij het verschil van deze twee AUC-PR-waarden de verbetering kwantificeert die wordt verkregen door de feature-set op te nemen (fig. 2a).

Fig. 2
figure2

Belang van feature-sets. a We testen het belang van verwante kenmerkensets door één kenmerkenset uit de trainingsgegevens uit te sluiten, de prestaties (AUC-PR) van de resulterende classificator te meten en deze AUC-PR-waarde af te trekken van de overeenkomstige waarde die de classificator met alle kenmerken bereikt. Als Δ AUC-PR boven nul ligt, verbetert de weggelaten set kenmerken dus de uiteindelijke voorspellingsprestatie, terwijl Δ AUC-PR-waarden onder nul wijzen op een negatief effect op de voorspellingsprestatie. We verzamelen de Δ AUC-PR waarden voor alle 13 testdatasets en visualiseren deze als vioolplots. b Beoordeling van verschillende groepen van op DNase-seq gebaseerde kenmerken. In dit geval vergelijken we de prestatie inclusief één specifieke groep van DNase-seq-gebaseerde kenmerken (cf. Additional file 1: Text S2)) met de prestatie zonder enige DNase-seq-gebaseerde kenmerken (cf. viool “DNase-seq” in paneel a). We vinden dat alle DNase-seq-gebaseerde kenmerken positief bijdragen aan de voorspellingsprestaties

We observeren de grootste impact voor de set kenmerken die zijn afgeleid van DNase-seq-gegevens. De verbetering in AUC-PR door het opnemen van DNase-seq data varieert tussen 0.087 voor E2F1 en 0.440 voor HNF4A met een mediaan van 0.252.

Features gebaseerd op motief scores (inclusief de novo ontdekte motieven en die uit databases) dragen ook substantieel bij aan de uiteindelijke voorspellingsprestaties. Hier zien we grote verbeteringen voor sommige TFs, namelijk 0.231 voor CTCF in IPSC cellen, 0.175 voor CTCF in PC-3 cellen, en 0.167 voor FOXA1. Daarentegen zien we een afname in voorspellingsprestatie in het geval van JUND (- 0.080) wanneer op motieven gebaseerde kenmerken worden opgenomen. Voor de overige TF’s vinden we verbeteringen van de AUC-PR tussen 0,008 en 0,079. We beschouwen verder twee subsets van motieven, namelijk alle motieven verkregen door de novo motief ontdekking op de challenge data en alle Slim/LSlim modellen die intra-motief afhankelijkheden vastleggen. Voor motieven van de novo motief ontdekking vinden we een verbetering voor 9 van de 13 data sets, en voor Slim/LSlim model vinden we een verbetering voor 10 van de 13 data sets. De absolute verbeteringen (mediaan van respectievelijk 0,011 en 0,006) zijn echter vrij klein, mogelijk omdat (i) motieven verkregen door de novo motief ontdekking redundant kunnen zijn aan die gevonden in databases en (ii) intra-motief afhankelijkheden en heterogeniteiten vastgelegd door Slim/LSlim modellen gedeeltelijk kunnen worden gedekt door variaties in de motieven van verschillende bronnen.

Notably, RNA-seq-based features (mediaan 0.001), annotatie-gebaseerde kenmerken (0,000), en sequentie-gebaseerde kenmerken (0,001) hebben bijna geen invloed op de voorspellingsprestaties.

Aangezien de set van DNase-seq-gebaseerde kenmerken nogal divers is, met inbegrip van kenmerken die zijn afgeleid van vouw-verrijkingssporen, pieklijsten, of variatie tussen celtypen, streven we naar een verdere ontleding van de invloed van verwante groepen van deze kenmerken. Daartoe hebben we verder testen hoe voorspelling prestaties wordt beïnvloed door het verwijderen van specifieke groepen van DNase-seq kenmerken (cf. Additional file 1: Tekst S2) uit de volledige feature set (Additional file 1: Figuur S2). Met name vinden we dat geen van deze feature-groepen alleen een grote impact hebben op de voorspellingsprestaties, hoewel er geleidelijke verschillen kunnen worden waargenomen als de opname van vouw-verrijking-gebaseerde en piek-gebaseerde features hebben een grotendeels positieve bijdrage, terwijl de invloed van de andere feature-groepen is nogal dubbelzinnig. Dit kan worden verklaard door brede redundanties en correlaties die nog steeds bestaan tussen die verschillende groepen, die een grote compensatie voor het verlies van een enkele kenmerkgroep mogelijk maakt.

Hierom testen we aanvullend een scenario, waarbij het weglaten van alle DNase-seq-gebaseerde kenmerken (dat wil zeggen, de gegevens achter de viool plot “DNase-seq” van Fig. 2a) wordt beschouwd als de basislijn geval, en slechts een van de specifieke groepen wordt toegevoegd aan deze gereduceerde feature set (Fig. 2b). Eerst en vooral stellen we vast dat alle kenmerkgroepen positief bijdragen tot de totale voorspellingsprestatie. De grootste bijdrage kan worden waargenomen voor de “fold-enrichment” groep, maar ook verwante groepen zoals “long range” in principe het gemiddelde over bredere vensters van de fold-enrichment track, en “peak-based” met behulp van pieken die oorspronkelijk zijn genoemd op basis van DNase-seq dekking. We vinden de laagste bijdrage voor de “variatie” groep, die de variatie en het behoud, respectievelijk, van het DNase-seq signaal onder de celtypes meet. Aangezien de bijdrage van elke afzonderlijke groep kenmerken positief is, beschouwen we nog steeds de volledige set van DNase-seq-gebaseerde kenmerken in het volgende.

Nadat we hebben vastgesteld dat DNase-seq-gebaseerde en motief-gebaseerde kenmerken een grote impact hebben op de voorspellingsprestaties, hebben we ook de voorspellingsprestaties van de voorgestelde aanpak getest met alleen kenmerken op basis van DNase-seq-gegevens en TF-motieven, respectievelijk. Alle andere kenmerken, d.w.z. RNA-seq-gebaseerde kenmerken, annotatie-gebaseerde kenmerken, en kenmerken gebaseerd op ruwe sequentie, zijn uitgesloten. We vinden (Fig. 1) dat classificeerders die uitsluitend motief-gebaseerde kenmerken gebruiken al een redelijke voorspellingsprestatie leveren voor sommige TFs (CTCF en, tot op zekere hoogte, E2F1 en GABPA), terwijl we AUC-PR waarden onder 0,12 waarnemen voor de overige TFs. Dit kan worden verklaard door het grote aantal vals-positieve voorspellingen dat typisch wordt gegenereerd door benaderingen die uitsluitend gebruik maken van motiefinformatie, die alleen kan worden vermeden in het geval van lange, specifieke motieven, zoals het geval is voor CTCF.

Classifiers die alleen gebruik maken van op DNase-seq gebaseerde kenmerken leveren een opmerkelijke prestatie voor veel van de bestudeerde TF’s (Fig. 1), die lager is dan voor de op motief gebaseerde classifier alleen voor de twee CTCF datasets. Voor sommige datasets (vooral JUND, maar ook EGR1, MAX), zien we zelfs dat een classifier gebaseerd op DNase-seq data alleen beter presteert dan de classifier die alle features gebruikt.

In het geval van JUND, kan de toename in prestatie bij het verwaarlozen van alle niet-DNase features waarschijnlijk worden toegeschreven aan een sterke aanpassing van classifier parameters aan ofwel celtype-specifieke bindingsmotieven of celtype-specifieke co-binding met andere TFs, omdat JUND de enige dataset is met een verbeterde prestatie bij het uitsluiten van motief-gebaseerde features zoals hierboven besproken. Voor alle drie TF’s, vinden we een verbetering van de voorspelling prestaties als classifier parameters worden getraind op de training chromosomen van de test celtype (“binnen celtype” geval; Additional file 1: Figuur S3).

Since DNase-seq-gebaseerde en motief-gebaseerde functies lijken de primaire kenmerken sets van invloed op de voorspelling prestaties, we eindelijk bestuderen voorspelling prestaties van een classifier met behulp van alleen deze twee feature sets. We zien dat de voorspellingsprestaties met alleen DNase-seq- en motief-gebaseerde kenmerken grotendeels identiek zijn aan die van de classificator die alle kenmerken gebruikt (Fig. 1), waarbij we het grootste verlies in AUC-PR voor TAF1 (0,017) en de grootste winst in AUC-PR voor NANOG (0,007) waarnemen. We zien een soortgelijk gedrag voor het binnen celtype geval (Additional file 1: figuur S3). Aangezien de weggelaten feature sets alle RNA-seq-gebaseerde features omvatten, heeft dit ook tot gevolg dat één celtype-specifieke assay (namelijk DNase-seq) voldoende is voor het voorspellen van TF-binding, wat het bereik van celtypes met direct beschikbare experimentele data waarop de voorgestelde aanpak kan worden toegepast, verbreedt.

Iteratieve training verbetert voorspellingsprestaties

Als een tweede belangrijk aspect van de voorgestelde aanpak, onderzoeken we de impact van de iteratieve trainingsprocedure op de uiteindelijke voorspellingsprestaties. Daartoe vergelijken we voor elke TF de AUC-PR-waarden die worden verkregen door het gemiddelde te nemen van de voorspellingen van alle vijf classificeerders die het resultaat zijn van de iteratieve trainingsprocedure voor alle trainingsceltypen, met de AUC-PR-waarden die worden verkregen door alleen het gemiddelde te nemen van de initieel getrainde classificeerders voor alle trainingsceltypen, d.w.z. classificeerders die alleen zijn getraind op de initiële trainingsgegevens (“Initiële trainingsgegevens”).

Voor 11 van de 13 testdatasets zien we een verbetering van de voorspellingsprestaties door de iteratieve trainingsprocedure (Fig. 3). De grootste verbeteringen worden bereikt voor E2F1 (0.114), FOXA2 (0.085), NANOG (0.08), FOXA1 (0.063), en MAX (0.061). Daaronder zijn TFs waarvoor we een goede prestatie zagen met alleen DNase-seq-gebaseerde kenmerken (E2F1, MAX) en TFs waarvoor de combinatie met motief-gebaseerde kenmerken gunstig was (FOXA1, FOXA2, NANOG), wat aangeeft dat de extra negatieve regio’s die in iteraties 2 tot 5 zijn toegevoegd geen bias veroorzaken naar een van deze twee kenmerktypes. Voor vier van deze vijf TFs werden slechts één (FOXA2, NANOG, FOXA1) of twee (E2F1) training celtypes aangeboden, en de variatie tussen de verschillende classifiers uit iteratieve training kan helpen om overfitting te vermijden. Daarentegen vinden we een afname van de prestaties voor JUND (0,041) en ook TAF1 (0,01), wat veroorzaakt zou kunnen worden door een sterkere nadruk op celtype-specifieke bindingsregio’s in latere iteraties van de iteratieve trainingsprocedure. Deze hypothese wordt ook ondersteund door de waarneming dat de iteratieve training procedure altijd leidt tot een toename van de voorspelling prestaties als classificator parameters worden getraind op de opleiding chromosomen van de test celtype (Additional file 1: figuur S4).

Fig. 3
figure3

Relevantie van de iteratieve trainingsprocedure. Voor elk van de 13 test data sets, vergelijken we de prestaties (AUC-PR) van de classificator(en) die is (zijn) getraind op de initiële negatieve regio’s (abscis) met de prestaties die worden bereikt door het gemiddelde te nemen van alle classificatoren uit de iteratieve trainingsprocedure (ordinaat)

Vergemiddelde voorspellingen verbeteren ten opzichte van willekeurige selectie van celtypen

Voor 9 van de 12 beschouwde TF’s, gegevens voor meer dan één training celtype verstrekt met de uitdagingsgegevens. Een centrale vraag zou dus de keuze van het celtype kunnen zijn dat voor de training wordt gebruikt en vervolgens voor het doen van voorspellingen voor het testceltype. De enige celtypespecifieke experimentele gegevens die beschikbaar zijn om die keuze te maken zijn DNase-seq en RNA-seq gegevens, terwijl de overeenkomst tussen celtypes zou kunnen afhangen van de beschouwde TF. Inderdaad, similariteitsmetingen afgeleid van DNase-seq gegevens (b.v. Jaccard coëfficiënten van overlappende DNase-seq pieken, correlatie van profielen) of van RNA-seq gegevens (b.v., correlatie van TPM-waarden) bleken niet-informatief te zijn met betrekking tot de gelijkenis van TF-bindingsregio’s in voorbereidende studies op de trainingsceltypen.

Daarom beschouwen we de keuze van het trainingsceltype als een latente variabele, en middelen we de voorspellingen uit die door de respectieve classifiers zijn gegenereerd (zie de sectie “Voorspellingsschema”). Aangezien de labels van de test celtypes na de uitdaging beschikbaar zijn gesteld, kunnen we nu de invloed van deze keuze op de voorspellingsprestaties evalueren en ook de voorspellingsprestaties testen van classifiers die op individuele celtypes zijn getraind (Fig.

Fig. 4
figure4

Prestaties van ensemble-klassifiers. Voor elk van de 13 testdatasets vergelijken we de prestaties (AUC-PR) van de individuele classificeerders die op afzonderlijke celtypen zijn getraind (open cirkels) met die van de ensembleclassificeerder die het gemiddelde neemt van alle classificeerders die op alle trainingsceltypen zijn getraind (gevulde, oranje cirkels). Als referentie zetten we ook de mediaan van de individuele classifiers als rode balk

Voor alle testdatasets met meerdere beschikbare trainingsceltypen vinden we dat de gemiddelde voorspelling AUC-PR-waarden oplevert die hoger zijn dan de mediaan van de AUC-PR-waarden die voor individuele trainingsceltypen zijn bereikt. Deze verbetering is vooral uitgesproken voor REST, GABPA, en MAX.

Om verder te onderzoeken of het gemiddelde over classifiers voor individuele celtypen geconserveerde bindingsregio’s (dat wil zeggen, regio’s gelabeld als “gebonden” in de meerderheid van de celtypen) bevoordeelt boven celtype-specifieke bindingsregio’s, beoordelen we ook de voorspellingsprestaties op dergelijke regio’s afzonderlijk (Additional file 1: figuur S5). Specifiek beschouwen we een gebonden regio als geconserveerd als het ook gelabeld is als “gebonden” in ten minste drie van de vier training celtypes, en we beschouwen een gebonden regio als celtype-specifiek als deze regio gelabeld is als “gebonden” in ten hoogste één van de vier training celtypes. Het eerste wat ons opvalt uit Additional file 1: Figuur S5 is dat de absolute AUC-PR waarden aanzienlijk lager zijn voor celtype-specifieke regio’s dan voor geconserveerde regio’s. Een verklaring zou een verschil in klasse(on-)evenwicht kunnen zijn als gevolg van de geselecteerde subsets van regio’s. Deze algemene trend blijft echter bestaan wanneer we kijken naar AUC-ROC (Additional file 1: figuur S6). Ten tweede vinden we dat de variatie tussen classificeerders geleerd van verschillende training celtypes in de meeste gevallen groter is voor de celtype-specifieke regio’s dan voor de geconserveerde regio’s. Het gedrag met betrekking tot absolute prestaties is vergelijkbaar voor de individuele classifiers, hun mediane prestaties, en de prestaties van het gemiddelde over classifiers voor individuele celtypen. We zien dat de AUC-PR verkregen door middeling altijd beter is dan de mediane prestatie voor individuele celtypen voor geconserveerde regio’s, maar hetzelfde geldt wanneer rekening wordt gehouden met celtype-specifieke regio’s voor zeven van de negen datasets met meer dan één training celtype.

Daarom kunnen we stellen dat middeling over de celtype-specifieke classifiers over het algemeen nauwkeurigere voorspellingen oplevert dan zou worden bereikt door een ongeïnformeerde keuze van één specifiek training celtype.

Wij zien echter ook voor bijna alle testdatasets met meerdere trainingsceltypen (de enige uitzondering is CTCF voor het PC-3 celtype) dat de beste voorspellingsprestatie die voor een van de afzonderlijke trainingsceltypen wordt bereikt, in sommige gevallen aanzienlijke verbeteringen zou hebben opgeleverd ten opzichte van de voorgestelde middelingsprocedure. Met name de variantie van AUC-PR tussen de verschillende training celtypen is bijzonder uitgesproken voor JUND, hetgeen de eerdere hypothese ondersteunt dat sommige kenmerken, bijvoorbeeld bindingsmotieven of co-binding van TF’s, zeer celtype-specifiek zijn voor JUND. In het algemeen zou het afleiden van informatieve maten van TF-specifieke celtype overeenkomst op basis van celtype-specifieke testen en voorlopige bindingsplaats voorspellingen, waarschijnlijk leiden tot een verdere verbetering van de prestaties van computationele benaderingen voor het voorspellen van celtype-specifieke TF binding.

Een verzameling celtype-specifieke TF-bindingssporen samenstellen

Nadat we hebben vastgesteld dat één type experimentele assay, namelijk DNase-seq, voldoende is voor het voorspellen van celtype-specifieke TF-binding met state-of-the-art nauwkeurigheid, kunnen we nu de classifiers die zijn verkregen op de training celtypen en TF’s gebruiken voor voorspellingen op verdere celtypen. Voor dit doel gebruiken we de classifiers rekening houdend met alleen DNase-seq-gebaseerde en motief-gebaseerde kenmerken, maar noch RNA-seq-gebaseerde kenmerken, annotatie-gebaseerde kenmerken, noch kenmerken op basis van ruwe sequentie, die bleek te bereiken een voorspelling prestaties vergelijkbaar met het volledige model voor (cf. Fig. 1, sectie “Impact van feature sets van voorspelling prestaties”). Daartoe downloaden we DNase-seq-gegevens voor een verzameling primaire celtypen en weefsels (zie onderdeel “Gegevens”), verwerken deze op dezelfde manier als de oorspronkelijke challenge-gegevens en extraheren vervolgens DNase-seq-afhankelijke kenmerken ( onderdeel “Kenmerken”). Vervolgens hebben we de getrainde classifiers voor alle 31 TF’s in de uitdaging toegepast op deze 22 DNase-seq feature sets om een totaal van 682 voorspelling tracks.

Voor de geselecteerde celtypes (Additional file 1: Tabel S5), slechts enkele celtype en TF-specifieke ChIP-seq gegevens beschikbaar zijn (Additional file 1: Tabel S6). Enerzijds betekent dit dat de voorspelde TF-bindingssporen waardevolle, nieuwe informatie opleveren voor de verzameling van 31 bestudeerde TFs. Anderzijds biedt dit de mogelijkheid om benchmarking en sanity checks uit te voeren met betrekking tot de voorspellingen voor de subset van deze TFs en celtypes waarvoor overeenkomstige ChIP-seq data beschikbaar zijn. Voor benchmarking verkrijgen we bovendien de “ontspannen” en (indien beschikbaar) “conservatieve” piekbestanden van ENCODE en leiden we de bijbehorende labels (“gebonden”, “ongebonden”, “ambigu”) af volgens de procedure die is voorgesteld voor de ENCODE-DREAM challenge.

Voor CTCF met ChIP-seq pieken die beschikbaar zijn voor meerdere celtypen, vinden we over het algemeen een voorspellingsprestatie die vergelijkbaar is met de prestatie die is waargenomen op de challenge data (cf. Additional file 1: Tabel S4). Voor deze celtypes liggen de AUC-PR waarden (Additional file 1: Table S7) tussen 0.7720 en 0.8197 als conservatieve en relaxte pieken beschikbaar zijn en als de donors overeenkomen tussen de DNase-seq en ChIP-seq experimenten, terwijl de prestatie iets lager is voor niet-matchende donors (0.7322) en in het geval van ontbrekende conservatieve pieken (0.7270). Voor JUN, MAX, en MYC zijn alleen relaxte pieken beschikbaar uit ENCODE vanwege ontbrekende replicaten. Hier vinden we AUC-PR waarden van 0.6310 voor JUN, wat aanzienlijk groter is dan voor de challenge data; 0.4004 voor MAX, wat iets lager is dan voor de challenge data; en 0.1989 voor MYC, dat niet tot de test TFs in de challenge behoorde maar aanzienlijk betere prestaties behaalde in de leaderboard ronde.

De 682 genoombrede voorspellingstracks zijn nog steeds vrij groot (ca. 880 MB per track) en vragen dus om aanzienlijke opslagruimte die voor de typische gebruiker wellicht niet beschikbaar is, terwijl de meerderheid van de regio’s waarschijnlijk niet door de TF van belang wordt gebonden. Vandaar dat we deze voorspellingen verder condenseren in voorspelde pieklijsten in narrowPeak formaat door aaneengesloten stukken met hoge bindingswaarschijnlijkheid samen te voegen en een drempel van 0.6 (ontspannen) en 0.8 (conservatief) toe te passen op de maximumwaarschijnlijkheid waargenomen in een voorspelde “piek”. Wij bieden deze piek bestanden voor download op https://www.synapse.org/#!Synapse:syn11526239(doi:10.7303/syn11526239).

Om een indruk van de kwaliteit van de voorspelde pieken te krijgen, berekenen we verder Jaccard coëfficiënten op basis van piek overlappingen (berekend met behulp van de GenomicRanges R-pakket ) tussen de voorspelde piek bestanden en die van de overeenkomstige, beschikbare ChIP-seq pieken (Additional file 1: tabel S9, S11), en vinden die op grote schaal overeenkomen met de vorige beoordeling op basis van de afgeleide labels.

Finitief, de gegevens voor CTCF toestaan voor het vergelijken van de overlap tussen voorspelde piek lijsten en experimenteel bepaalde piek lijsten met de overlappingen waargenomen voor (i) technische replicaten (Additional file 1: Tabel S12) en (ii) biologische replicaten (Additional file 1: Tabel S10). We vinden dat de overlappingen tussen voorspellingen en IDR-gedrempelde pieken lager zijn dan die tussen IDR-gedrempelde pieken en/of technische replicaten. Voor CTCF zijn drie onafhankelijke experimenten voor “voorhuid fibroblast” weefsel beschikbaar, en we gebruiken twee onafhankelijke DNase-seq monsters voor dat weefsel voor onze voorspelling. Vergelijking van de Jaccard coëfficiënten in deze twee situaties (cf. Extra bestand 1: Tabellen S9, S10), vinden we dat Jaccard coëfficiënten tussen voorspellingen en IDR-gedrempelde pieken variëren tussen 0,568 en 0,693, terwijl we Jaccard coëfficiënten tussen 0,658 en 0,72 voor biologische replicaten waarnemen. Op basis van deze beperkte gegevens, kunnen we concluderen dat computationele voorspellingen zijn minder consistent dan biologische replicaten slechts met een kleine marge, althans voor CTCF.

Op basis van de voorspelde piek lijsten, kunnen we ook vergelijken de voorspelde binding kenmerken van de verschillende TFs over celtypes. Eerst inspecteren we het aantal voorspelde pieken per TF en celtype (Additional file 1: figuur S7). We vinden een duidelijke groep van zeer overvloedige TFs (CTCF, GATA3, SPI1, CEBPB, FOXA1, FOXA2, MAX), die typisch ook grote aantallen pieken vertonen in de training data. Onder deze vinden we patronen van celtype specificiteit van de alomtegenwoordige CTCF tot een sterk variërende overvloed voor GATA3. De rest van de TF’s krijgt aanzienlijk lagere aantallen voorspelde pieken met vergelijkbare patronen, b.v. voor ATF7/ARID3A/NANOG of EP300/TEAD4/JUND, waarbij van de laatste groep is gemeld dat ze co-binden in distale enhancers. Vervolgens bestuderen we de stabiliteit van de piekvoorspellingen, d.w.z. de Jaccard-coëfficiënten van de pieken die voor elk van de TF’s in verschillende celtypes worden voorspeld (Additional file 1: figuur S8). Opnieuw vinden we aanzienlijke variatie tussen de TFs met GABPA, CTCF, en REST met mediane Jaccard coëfficiënten boven 0,7. Met name CTCF is een van de TFs met het grootste aantal voorspelde pieken (mediaan 37 455), terwijl we een orde van grootte minder voorspelde pieken waarnamen voor REST (mediaan 3 364) en GABPA (mediaan 5 430). Aan de andere kant van de schaal vinden we indirect bindende TFs zoals EP300, of TFs die zeer specifiek zijn voor celtypes die ondervertegenwoordigd zijn in onze data zoals NANOG (stamcellen) en HNF4A (lever, nieren, darmen). Tenslotte onderzoeken we de co-binding van TF’s door de gemiddelde Jaccard coëfficiënt over celtypes te berekenen voor elk paar TF’s (Additional file 1: Figuur S9). Hier zien we verschillende groepen van samen voorkomende TFs zoals CTCF/ZNF143 of FOXA1/FOXA2, waarvan bekend is dat ze in vivo interageren. Bovendien vinden we een grotere cluster van TFs met aanzienlijke overlappingen tussen hun voorspelde pieken bestaande uit YY1, MAX, CREB1, MYC, E2F6, E2F1, en TAF1. Aangezien TAF1 (TATA-box binding protein associated factor 1) geassocieerd is met transcriptionele initiatie bij de TATA box, zou een verklaring kunnen zijn dat bindingsplaatsen van deze TFs verrijkt zijn bij kernpromotors. Inderdaad, binding aan proximale promotors is gemeld voor MYC/MAX , CREB1 , YY1 , en E2F factoren.

Stroomlijnde Catchitt implementatie levert concurrerende prestaties

Wij vergelijken tenslotte Catchitt, de vereenvoudigde implementatie van de iteratieve training aanpak die chromatine toegankelijkheid en motief scores combineert, met de uitdaging implementatie met behulp van DNase-seq-gebaseerde en motief-gebaseerde kenmerken voor het binnen celtype geval. Daartoe selecteren wij vijf combinaties van celtype en transcriptiefactor die het bereik van de in de uitdaging waargenomen prestatiewaarden bestrijken. Meer bepaald beschouwen we NANOG en TAF1, die de laagste AUC-PR waarden verkregen (cf. Additional file 1: Figuur S3) voor de challenge implementatie; CTCF in IPSC cellen, die de grootste AUC-PR waarde verkreeg; en FOXA1 en HNF4A, die middelmatige AUC-PR waarden verkreeg maar aanzienlijk profiteerde van iteratieve training (cf. Additional file 1: Figuur S4). Wij vatten de resultaten van deze vergelijking samen in Additional file 1: Tabel S13. Ondanks een ongeveer vertienvoudiging van het aantal in aanmerking genomen motieven en verdere vereenvoudigingen (“Catchitt: a streamlined open-source implementation” sectie), levert Catchitt nog steeds concurrerende AUC-PR waarden op. Als we de resultaten van Catchitt rangschikken binnen de oorspronkelijke resultaten van de uitdaging, vinden we dat de prestaties van de Catchitt-scores slechts twee rangen lager zijn dan die van de uitdaging-implementatie die gebruik maakt van op DNase-seq gebaseerde en op motieven gebaseerde kenmerken. Net als voorheen vinden we een aanzienlijke verbetering van de voorspellingsprestaties als gevolg van de iteratieve trainingsprocedure.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.