A sejttípus-specifikus transzkripciós faktorok kötődésének pontos előrejelzése

Az ENCODE-DREAM kihívás során 40 nemzetközi csapat által létrehozott számos megközelítést hasonlítottak össze 13 sejttípus-specifikus ChIP-seq vizsgálaton 12 különböző emberi TF-hez (Additional file 1: S1 ábra). A képzéshez 109 adatkészletet biztosítottak ugyanezekre (és további) TF-ekre más sejttípusokban. A képzési adatok sejttípus-specifikus DNase-seq adatokból, sejttípus-specifikus RNS-seq adatokból, genomszekvenciából és annotációkból, valamint in silico DNS-alak-előrejelzésekből álltak. Ezenkívül sejttípus-specifikus és TF-specifikus ChIP-seq adatokat és származtatott címkéket szolgáltattunk a képzési kromoszómákhoz, míg a predikciókat csak a fennmaradó, kimaradt chr1, chr8 és chr21 kromoszómákon értékeltük, amelyekhez nem szolgáltattunk ChIP-seq képzési adatokat. Az 50 bp-vel eltolt 200 bp-os régiók esetében a résztvevő csapatoktól genomszintű előrejelzéseket kértek annak valószínűségére vonatkozóan, hogy egy adott régió átfedésben van egy ChIP-seq-csúccsal. Az előrejelzéseket (i) a ROC-görbe alatti terület (AUC-ROC), (ii) a pontosság-visszahívás görbe alatti terület (AUC-PR), (iii) a visszahívás 10%-os FDR mellett és (iv) a visszahívás 50%-os FDR mellett értékelték mind a 13 tesztadathalmazon. Ezeket adatsoronként összesítettük az egyes mérőszámok 10 bootstrap-mintán a visszatartott kromoszómákból nyert átlagos, normalizált rangsor alapján, és a végső rangsort e rangstatisztikák átlagaként kaptuk meg (vö. https://www.synapse.org/#!Synapse:syn6131484/wiki/405275).

A rangsorolás eredményeként a jelen dolgozatban bemutatott megközelítés (a “J-Team” csapat) a “Yuanfang Guan” csapat által létrehozott megközelítéssel együtt megosztott első helyezést ért el.”

A következőkben azt vizsgáljuk, hogy a javasolt megközelítés különböző szempontjai milyen hatással vannak a végső előrejelzési teljesítményre. Először is megvizsgáljuk a kapcsolódó jellemzők különböző készleteinek (DNase-seq adatok, motívumpontszámok, RNA-seq adatok, szekvencia-alapú és annotáció-alapú jellemzők) hatását a predikciós teljesítményre. Másodszor, megvizsgáljuk az iteratív képzési megközelítés fontosságát a kezdeti képzési adatokon történő képzéssel szemben. Harmadszor, összehasonlítjuk az egyes sejttípusok képzési adatain képzett osztályozók által nyert előrejelzések teljesítményét az e sejttípusok átlagolásával kapott aggregált előrejelzés teljesítményével. Végül a javasolt módszert alkalmazzuk a sejttípus-specifikus TF-kötődés előrejelzésére 31 TF esetében 22 további primer sejttípusban, így összesen 682 előrejelzési pályát kapunk.

A jellemzőkészletek hatása az előrejelzési teljesítményre

A javasolt megközelítés által az összes jellemzőkészlet (“Jellemzők” szakasz), az iteratív képzési eljárás (“Iteratív képzés” szakasz) és az összes képzési sejttípus feletti összesítés (“Előrejelzési séma” szakasz) használatával kapott előrejelzési teljesítményt használjuk alapként minden további összehasonlításhoz (1. ábra; “összes jellemző”). A kéziratban végig az AUC-PR-t tekintjük elsődleges teljesítménymutatónak, mivel az AUC-PR sokkal informatívabb az osztályozási teljesítményről erősen kiegyensúlyozatlan osztályozási problémák esetén , és a visszahívás a különböző FDR-szinteken meglehetősen instabil, mivel a pontosság-visszahívás görbe egyetlen pontjának felel meg. Az AUC-PR értékek kiszámítása a PRROC R-csomag segítségével történik, amelyet az ENCODE-DREAM kihívás során is használtak.

Fig. 1
figure1

Across cell type performance. A tesztadatokon belül a TF és a sejttípus mind a 13 kombinációjára kiszámítjuk az osztályozók előrejelzési teljesítményét (AUC-PR) a visszatartott kromoszómákon (i) az összes figyelembe vett jellemzőt használó, (ii) csak motívumalapú jellemzőket használó, (iii) csak DNase-seq-alapú jellemzőket használó és (iv) csak motívumalapú és DNase-seq-alapú jellemzőket használó osztályozók esetében. Az összes jellemzőt használó osztályozók medián teljesítményét szaggatott vonal jelzi

Azt találtuk, hogy az AUC-PR-rel mért előrejelzési teljesítmény nagymértékben eltér a különböző transzkripciós faktorok között (1. ábra), az AUC-PR medián értéke 0,4098. A legjobb előrejelzési teljesítményt a hosszú és információban gazdag kötőmotívummal rendelkező CTCF esetében érjük el két különböző sejttípusban (IPSC és PC-3). Átlagon felüli teljesítményt értünk el a FOXA1 és a HNF4A esetében is májsejtekben. A legtöbb más TF esetében 0,4 körüli AUC-PR értékeket találunk, míg a NANOG és a REST esetében meglehetősen alacsony előrejelzési pontosságot tapasztalunk.

A kiválasztott jellemzőknek a végső előrejelzési teljesítményhez való hozzájárulásának elemzése érdekében a képzés és az előrejelzés során szisztematikusan kizárjuk a bemeneti adatokból a kapcsolódó jellemzők csoportjait. Alapként az összes jellemzőkészletet használó osztályozó AUC-PR értékét mérjük. Ezenkívül mérjük az AUC-PR-t az egyes jellemzőkészletek kizárásakor, ahol e két AUC-PR-érték különbsége számszerűsíti a jellemzőkészlet bevonásával elért javulást (2a. ábra).

2. ábra
2. ábra

A jellemzőkészletek jelentősége. a Összefüggő jellemzőkészletek fontosságát úgy teszteljük, hogy a képzési adatokból kizárunk egy jellemzőkészletet, megmérjük az így kapott osztályozó teljesítményét (AUC-PR), és ezt az AUC-PR értéket kivonjuk az összes jellemzőt használó osztályozó által elért megfelelő értékből. Ha tehát a Δ AUC-PR értéke nulla fölött van, akkor a kihagyott jellemzőkészlet javította a végső előrejelzési teljesítményt, míg a nulla alatti Δ AUC-PR értékek negatív hatást jeleznek az előrejelzési teljesítményre. Összegyűjtjük a Δ AUC-PR értékeket mind a 13 tesztadatkészletre, és ezeket hegedűdiagram formájában ábrázoljuk. b A DNase-seq-alapú jellemzők különböző csoportjainak értékelése. Ebben az esetben a DNase-seq-alapú jellemzők egy adott csoportját tartalmazó teljesítményt (vö. Additional file 1: Text S2)) hasonlítjuk össze a DNase-seq-alapú jellemzők nélküli teljesítményhez (vö. violin “DNase-seq” az a panelben). Azt találtuk, hogy minden DNase-seq-alapú jellemző pozitívan járul hozzá az előrejelzési teljesítményhez

A legnagyobb hatást a DNase-seq-adatokból származó jellemzők csoportjánál tapasztaljuk. A DNase-seq adatok bevonásával elért AUC-PR javulás az E2F1 esetében 0,087 és a HNF4A esetében 0,440 között változik, a medián pedig 0,252.

A motívumpontszámokon alapuló jellemzők (beleértve a de novo felfedezett és az adatbázisokból származó motívumokat) szintén jelentősen hozzájárulnak a végső előrejelzési teljesítményhez. Itt nagy javulást figyelhetünk meg néhány TF esetében, nevezetesen 0,231 a CTCF esetében az IPSC sejtekben, 0,175 a CTCF esetében a PC-3 sejtekben és 0,167 a FOXA1 esetében. Ezzel szemben a JUND esetében a motívumalapú jellemzők bevonásával a predikciós teljesítmény csökkenését tapasztaljuk (- 0,080). A többi TF esetében 0,008 és 0,079 közötti AUC-PR javulást találunk. A továbbiakban a motívumok két alcsoportját vizsgáljuk, nevezetesen a kihívás adatain de novo motívumfelfedezéssel nyert összes motívumot és az összes Slim/LSlim modellt, amelyek a motívumon belüli függőségeket rögzítik. A de novo motívumfelfedezésből származó motívumok esetében a 13 adathalmazból 9 esetében, a Slim/LSlim modell esetében pedig a 13 adathalmazból 10 esetében találunk javulást. Az abszolút javulás (mediánja 0,011, illetve 0,006) azonban meglehetősen kicsi, valószínűleg azért, mert (i) a de novo motívumfelfedezéssel nyert motívumok redundánsak lehetnek az adatbázisokban találtakhoz képest, és (ii) a Slim/LSlim modellek által megragadott motívumon belüli függőségeket és heterogenitásokat részben a különböző forrásokból származó motívumok eltérései fedhetik.

Az RNA-seq-alapú jellemzők (medián 0.001), az annotáció-alapú jellemzők (0,000) és a szekvencia-alapú jellemzők (0,001) szinte semmilyen hatással nincsenek az előrejelzési teljesítményre.

Mivel a DNase-seq-alapú jellemzők halmaza meglehetősen változatos, beleértve a fold-dúsulási nyomokból, csúcslistákból vagy a sejttípusok közötti eltérésekből származó jellemzőket, célunk e jellemzők kapcsolódó csoportjainak hatásának további feltárása. Ebből a célból tovább teszteljük, hogyan befolyásolja az előrejelzési teljesítményt, ha a DNase-seq jellemzők meghatározott csoportjait (vö. Additional file 1: Text S2) eltávolítjuk a teljes jellemzőkészletből (Additional file 1: Figure S2). Figyelemre méltó, hogy azt találjuk, hogy e jellemzőcsoportok egyike sincs önmagában nagy hatással a predikciós teljesítményre, bár fokozatos különbségek figyelhetők meg, mivel a fold-enrichment-alapú és a peak-alapú jellemzők bevonása nagyrészt pozitívan járul hozzá, míg a többi jellemzőcsoport hatása meglehetősen kétértelmű. Ez azzal magyarázható, hogy e különböző csoportok között még mindig széles redundanciák és korrelációk állnak fenn, ami lehetővé teszi egy-egy jellemzőcsoport elvesztésének nagymértékű kompenzálását.

Ezért ezen felül tesztelünk egy olyan forgatókönyvet is, amelyben az összes DNase-seq-alapú jellemző elhagyását (azaz a 2a. ábra “DNase-seq” hegedűs diagramja mögötti adatokat) tekintjük alapesetnek, és ehhez a csökkentett jellemzőkészlethez csak az egyik specifikus csoportot adjuk hozzá (2b. ábra). Először is megfigyelhetjük, hogy minden jellemzőcsoport pozitívan járul hozzá a teljes előrejelzési teljesítményhez. A legnagyobb hozzájárulás a “fold-dúsulás” csoport esetében figyelhető meg, de az olyan kapcsolódó csoportok is, mint a “long range”, amely alapvetően a fold-dúsulási pálya szélesebb ablakaira átlagol, és a “peak-based”, amely az eredetileg a DNase-seq lefedettség alapján megnevezett csúcsokat használja. A legalacsonyabb hozzájárulást a “variation” csoport esetében találjuk, amely a DNase-seq jel variációját, illetve konzerváltságát méri a sejttípusok között. Mivel a jellemzők egyes csoportjainak hozzájárulása pozitív, a következőkben továbbra is a DNase-seq-alapú jellemzők teljes készletét vesszük figyelembe.

Miután megállapítottuk, hogy a DNase-seq-alapú és a motívumalapú jellemzők nagy hatással vannak a predikciós teljesítményre, a javasolt megközelítés predikciós teljesítményét csak a DNase-seq-adatokon, illetve a TF-motívumokon alapuló jellemzők használatával is teszteltük. Minden más jellemzőt, azaz az RNS-seq-alapú jellemzőket, az annotáció-alapú jellemzőket és a nyers szekvencián alapuló jellemzőket kizártuk. Azt találjuk (1. ábra), hogy a kizárólag motívumalapú jellemzőket használó osztályozók néhány TF esetében (CTCF és bizonyos mértékben az E2F1 és a GABPA) már elfogadható előrejelzési teljesítményt nyújtanak, míg a többi TF esetében 0,12 alatti AUC-PR értékeket figyelhetünk meg. Ez azzal magyarázható, hogy a kizárólag motívuminformációt használó megközelítések jellemzően nagyszámú hamis pozitív előrejelzést generálnak, ami csak hosszú, specifikus motívumok esetén kerülhető el, mint a CTCF esetében.

A kizárólag DNase-seq-alapú jellemzőket használó osztályozók a vizsgált TF-ek közül sok TF esetében figyelemre méltó teljesítményt nyújtanak (1. ábra), ami a két CTCF-adatkészlet esetében alacsonyabb, mint a kizárólag motívumalapú osztályozó esetében. Néhány adatkészlet esetében (különösen a JUND, de az EGR1, MAX esetében is) még azt is megfigyelhetjük, hogy a csak DNase-seq adatokon alapuló osztályozó felülmúlja az összes jellemzőt használó osztályozót.

A JUND esetében a teljesítmény növekedése az összes nem DNase-alapú jellemző elhanyagolása esetén valószínűleg az osztályozó paramétereinek erős alkalmazkodásának tulajdonítható akár a sejttípus-specifikus kötődési motívumokhoz, akár a más TF-ekkel való sejttípus-specifikus együttkötődéshez, mivel a JUND az egyetlen adatkészlet, amely a fent tárgyalt motívumalapú jellemzők kizárásával javuló teljesítményt mutat. Mindhárom TF esetében javulást találunk az előrejelzési teljesítményben, ha az osztályozó paramétereit a teszt sejttípus képzési kromoszómáin képezzük ki (“sejttípuson belüli” eset; Additional file 1: S3 ábra).

Mivel úgy tűnik, hogy a DNase-seq-alapú és a motívumalapú jellemzők az elsődleges jellemzőkészletek, amelyek befolyásolják az előrejelzési teljesítményt, végül megvizsgáljuk a csak ezt a két jellemzőkészletet használó osztályozó előrejelzési teljesítményét. Megfigyeltük, hogy a csak DNase-seq-alapú és motívumalapú jellemzőket használó predikciós teljesítmény nagyrészt megegyezik az összes jellemzőt használó osztályozóéval (1. ábra), ahol a legnagyobb AUC-PR veszteséget a TAF1 esetében (0,017) és a legnagyobb AUC-PR nyereséget a NANOG esetében (0,007) figyeltük meg. Hasonló viselkedést észlelünk a sejttípuson belüli esetben is (Additional file 1: S3 ábra). Mivel a kihagyott jellemzőkészletek az összes RNS-seq-alapú jellemzőt tartalmazzák, ez azzal a következménnyel is jár, hogy egy sejttípus-specifikus vizsgálat (nevezetesen a DNase-seq) elegendő a TF-kötődés előrejelzéséhez, ami szélesíti a könnyen elérhető kísérleti adatokkal rendelkező sejttípusok körét, amelyekre a javasolt megközelítés alkalmazható.

Iteratív képzés javítja az előrejelzési teljesítményt

A javasolt megközelítés második kulcsfontosságú szempontjaként az iteratív képzési eljárás hatását vizsgáljuk a végső előrejelzési teljesítményre. Ebből a célból minden egyes TF esetében összehasonlítjuk az iteratív képzési eljárásból származó mind az öt osztályozó előrejelzéseinek átlagolásával kapott AUC-PR értékeket az összes képzési sejttípusra vonatkozóan az összes képzési sejttípusra vonatkozóan csak a kezdetben képzett osztályozók átlagolásával kapott AUC-PR értékekkel, azaz a csak a kezdeti képzési adatokon képzett osztályozókkal (“Kezdeti képzési adatok” fejezet).

A 13 tesztadatkészletből 11 esetében megfigyelhető az előrejelzési teljesítmény javítása az iteratív képzési eljárás által (3. ábra). A legnagyobb javulást az E2F1 (0,114), a FOXA2 (0,085), a NANOG (0,08), a FOXA1 (0,063) és a MAX (0,061) esetében értük el. Ezek között vannak olyan TF-ek, amelyeknél csak DNase-seq-alapú jellemzők használatával jó teljesítményt figyeltünk meg (E2F1, MAX), és olyan TF-ek, amelyeknél a motívumalapú jellemzőkkel való kombináció előnyös volt (FOXA1, FOXA2, NANOG), ami azt jelzi, hogy a 2-5. iterációban hozzáadott további negatív régiók nem indukálnak torzítást a két jellemzőtípus valamelyike felé. Az öt TF közül négy esetében csak egy (FOXA2, NANOG, FOXA1) vagy két (E2F1) tréningsejt-típus állt rendelkezésre, és az iteratív tréningből származó, a különböző osztályozók közötti eltérés segíthet elkerülni a túlillesztést. Ezzel szemben a JUND (0,041) és a TAF1 (0,01) esetében is teljesítménycsökkenést találtunk, amit az okozhat, hogy az iteratív tréning eljárás későbbi iterációiban a sejttípus-specifikus kötődési régiókra nagyobb hangsúlyt fektettünk. Ezt a hipotézist az a megfigyelés is alátámasztja, hogy az iteratív képzési eljárás mindig az előrejelzési teljesítmény növekedéséhez vezet, ha az osztályozó paramétereit a teszt sejttípus képzési kromoszómáin képezzük (Additional file 1: Figure S4).

3. ábra
3. ábra

Az iteratív képzési eljárás jelentősége. Mind a 13 tesztadathalmaz esetében, összehasonlítjuk a kezdeti negatív régiókon képzett osztályozó(k) által elért teljesítményt (AUC-PR) (abszcissza) és az iteratív képzési eljárás összes osztályozójának átlagolásával elért teljesítményt (ordináta)

A predikciók átlagolása javítja a sejttípusok véletlenszerű kiválasztását

A 12 vizsgált TF-ből 9 esetében, egynél több képzési sejttípusra vonatkozó adatot adunk meg a kihívási adatokkal együtt. Ezért az egyik központi kérdés az lehet, hogy milyen sejttípust válasszunk a képzéshez, majd a teszt sejttípusra vonatkozó előrejelzések készítéséhez. E választáshoz azonban csak a DNase-seq és az RNS-seq adatok állnak rendelkezésre sejttípus-specifikus kísérleti adatok, míg a sejttípusok hasonlósága függhet a figyelembe vett TF-től. A DNase-seq adatokból (pl. az átfedő DNase-seq csúcsok Jaccard-koefficiense, a profilok korrelációja) vagy az RNS-seq adatokból (pl, TPM-értékek korrelációja) nem bizonyultak informatívnak a TF-kötő régiók hasonlósága tekintetében a gyakorló sejttípusokon végzett előzetes vizsgálatok során.

Az edzősejttípus kiválasztását tehát látens változónak tekintjük, és a megfelelő osztályozók által generált előrejelzések átlagát vesszük (lásd a “Prediction schema” című szakaszt). Mivel a teszt sejttípusok címkéi a kihívás után rendelkezésre álltak, most már értékelhetjük ennek a választásnak az előrejelzési teljesítményre gyakorolt hatását, és tesztelhetjük az egyes sejttípusokon képzett osztályozók előrejelzési teljesítményét is (ábra. 4. ábra.

4. ábra
4. ábra

Az ensemble osztályozók teljesítménye. A 13 tesztadatsor mindegyike esetében összehasonlítjuk az egyes sejttípusokon képzett egyéni osztályozók (nyitott körök) teljesítményét (AUC-PR) az összes képzési sejttípuson képzett összes osztályozót átlagoló ensemble osztályozó teljesítményével (kitöltött, narancssárga körök). Referenciaként az egyes osztályozók mediánját is ábrázoljuk piros sávként

Minden olyan tesztadatkészlet esetében, ahol több gyakorló sejttípus áll rendelkezésre, azt találjuk, hogy az átlagolt előrejelzés az AUC-PR értékeket az egyes gyakorló sejttípusokon elért AUC-PR értékek mediánja felett adja. Ez a javulás különösen kifejezett a REST, a GABPA és a MAX esetében.

Annak további vizsgálatához, hogy az egyes sejttípusok osztályozóinak átlagolása előnyben részesíti-e a konzervált kötődési régiókat (azaz a sejttípusok többségében “kötöttként” megjelölt régiókat) a sejttípus-specifikus kötődési régiókkal szemben, az ilyen régiókra vonatkozó előrejelzési teljesítményt külön is értékeljük (Additional file 1: Figure S5). Pontosabban, egy kötött régiót akkor tekintünk konzerváltnak, ha a négy gyakorló sejttípusból legalább háromban “kötött”-ként van jelölve, és egy kötött régiót akkor tekintünk sejttípus-specifikusnak, ha ez a régió a négy gyakorló sejttípusból legfeljebb egyben “kötött”-ként van jelölve. Az első dolog, amit észreveszünk az 1. kiegészítő fájlból: S5 ábra, hogy az abszolút AUC-PR értékek lényegesen alacsonyabbak a sejttípus-specifikus régiók esetében, mint a konzervált régiók esetében. Ennek egyik magyarázata lehet a régiók kiválasztott részhalmazaiból adódó különbség az osztály(im-)egyensúlyban. Ez az általános tendencia azonban az AUC-ROC értékek vizsgálatakor is fennmarad (Additional file 1: S6 ábra). Másodszor, azt találtuk, hogy a különböző gyakorló sejttípusokból tanult osztályozók közötti eltérés a legtöbb esetben nagyobb a sejttípus-specifikus régiók esetében, mint a konzervált régiók esetében. Az abszolút teljesítmény tekintetében a viselkedés hasonló az egyes osztályozók, azok medián teljesítménye és az egyes sejttípusokra vonatkozó osztályozók átlagolásának teljesítménye tekintetében. Megfigyelhető, hogy az átlagolással nyert AUC-PR mindig jobb, mint az egyes sejttípusok medián teljesítménye a konzervált régiók esetében, de ugyanez igaz a sejttípus-specifikus régiók figyelembevételével a kilencből hét olyan adatkészlet esetében is, ahol egynél több gyakorló sejttípus van.

Ezért azt állíthatjuk, hogy a sejttípus-specifikus osztályozók átlagolása általában pontosabb előrejelzéseket eredményez, mint amit egy konkrét gyakorló sejttípus tájékozatlan kiválasztása eredményezne.

Mindemellett azt is észrevettük, hogy a több gyakorló sejttípust tartalmazó tesztadatkészletek szinte mindegyikénél (az egyetlen kivétel a PC-3 sejttípusra vonatkozó CTCF), hogy az egyes gyakorlósejttípusok valamelyikére elért legjobb előrejelzési teljesítmény a javasolt átlagolási eljáráshoz képest – egyes esetekben jelentős – javulást eredményezett volna. Figyelemre méltó, hogy az AUC-PR szórása a különböző tréning sejttípusok között a JUND esetében különösen hangsúlyos, ami alátámasztja azt a korábbi hipotézist, hogy egyes jellemzők, például a kötőmotívumok vagy a TF-ek társkötése, a JUND esetében erősen sejttípus-specifikusak. Általánosságban elmondható, hogy a sejttípus-specifikus TF-sejttípus-hasonlóság informatív mérőszámainak levezetése sejttípus-specifikus vizsgálatok és előzetes kötőhely-előrejelzések alapján valószínűleg a sejttípus-specifikus TF-kötődés előrejelzésére szolgáló számítógépes megközelítések teljesítményének további növeléséhez vezetne.

Sz sejttípus-specifikus TF-kötési nyomvonalak gyűjteményének létrehozása

Miután megállapítottuk, hogy egyetlen típusú kísérleti vizsgálat, nevezetesen a DNase-seq, elegendő a sejttípus-specifikus TF-kötés korszerű pontosságú előrejelzéséhez, most már felhasználhatjuk a gyakorló sejttípusokon és TF-eken kapott osztályozókat további sejttípusokra vonatkozó előrejelzésekhez. Ebből a célból csak a DNase-seq-alapú és motívumalapú jellemzőket figyelembe vevő osztályozókat használjuk, de sem az RNA-seq-alapú jellemzőket, sem az annotáció-alapú jellemzőket, sem a nyers szekvencián alapuló jellemzőket nem, amelyek a korábbi teljes modellhez hasonló előrejelzési teljesítményt mutattak (vö. 1. ábra, “A jellemzőkészletek hatása az előrejelzési teljesítményre” szakasz). E célból letöltjük a DNase-seq-adatokat primer sejttípusok és szövetek gyűjteményére (lásd az “Adatok” szakaszt), ezeket ugyanúgy feldolgozzuk, mint az eredeti kihívási adatokat, és ezt követően DNase-seq-függő jellemzőket vonunk ki (“Jellemzők” szakasz). Ezután a kihívásban figyelembe vett mind a 31 TF-re vonatkozó képzett osztályozókat alkalmaztuk erre a 22 DNase-seq jellemzőkészletre, így összesen 682 predikciós pályát kaptunk.

A kiválasztott sejttípusokra (Additional file 1: Table S5) csak kevés sejttípus- és TF-specifikus ChIP-seq adat áll rendelkezésre (Additional file 1: Table S6). Ez egyrészt azt jelenti, hogy a prediktált TF-kötődési nyomvonalak értékes, újszerű információkat szolgáltatnak a vizsgált 31 TF gyűjteményére vonatkozóan. Másrészt ez lehetőséget biztosít arra, hogy benchmarkingot és szanitási ellenőrzést végezzünk az előrejelzések tekintetében ezen TF-ek és sejttípusok azon részhalmazára vonatkozóan, amelyekhez megfelelő ChIP-seq-adatok állnak rendelkezésre. A benchmarkinghoz ezenfelül megkapjuk az ENCODE-tól a “relaxált” és (ahol rendelkezésre áll) a “konzervatív” csúcsfájlokat, és az ENCODE-DREAM kihíváshoz javasolt eljárásnak megfelelően levezetjük a kapcsolódó címkéket (“kötött”, “nem kötött”, “kétértelmű”).

A több sejttípusra rendelkezésre álló ChIP-seq csúcsokkal rendelkező CTCF-ek esetében általában a kihívás adatain megfigyelt teljesítményhez hasonló előrejelzési teljesítményt találtunk (vö. Additional file 1: Table S4). Ezekre a sejttípusokra az AUC-PR értékek (Additional file 1: Table S7) 0,7720 és 0,8197 között mozognak, ha konzervatív és relaxált csúcsok állnak rendelkezésre, és ha a donorok egyeznek a DNase-seq és a ChIP-seq kísérletek között, míg a teljesítmény nem egyező donorok esetén valamivel alacsonyabb (0,7322) és hiányzó konzervatív csúcsok esetén (0,7270). A JUN, MAX és MYC esetében a hiányzó replikátumok miatt csak laza csúcsok állnak rendelkezésre az ENCODE-ból. Itt a JUN esetében 0,6310 AUC-PR értékeket találunk, ami lényegesen nagyobb, mint a kihívás adatai; 0,4004 a MAX esetében, ami valamivel alacsonyabb, mint a kihívás adatai; és 0,1989 a MYC esetében, amely nem szerepelt a teszt TF-ek között a kihívásban, de lényegesen jobb teljesítményt ért el a ranglista fordulóban.

A 682 genomszintű predikciós pálya még mindig meglehetősen nagy (pályánként kb. 880 MB), és ezért jelentős tárhelyet igényel, amely nem feltétlenül áll a tipikus felhasználó rendelkezésére, miközben a régiók többsége valószínűleg nem kötődik az érdeklődésre számot tartó TF-hez. Ezért ezeket a predikciókat tovább sűrítjük narrowPeak formátumú prediktált csúcslistákba azáltal, hogy a nagy kötési valószínűségű összefüggő szakaszokat összekötjük, és 0,6-os (laza) és 0,8-as (konzervatív) küszöbértéket alkalmazunk a prediktált “csúcsban” megfigyelt maximális valószínűségre. Ezeket a csúcsfájlokat a https://www.synapse.org/#!Synapse:syn11526239(doi:10.7303/syn11526239) címen bocsátjuk rendelkezésre.

Hogy képet kapjunk a prediktált csúcsok minőségéről, a csúcsok átfedésein alapuló Jaccard-koefficienseket (a GenomicRanges R-csomag segítségével kiszámítva ) tovább számoljuk a prediktált csúcsfájlok és a megfelelő, rendelkezésre álló ChIP-seq-csúcsok között (Additional file 1: Table S9, S11), és úgy találjuk, hogy ezek nagymértékben egyeznek az előző értékeléssel a levezetett címkék alapján.

Végezetül a CTCF-re vonatkozó adatok lehetővé teszik a prediktált csúcslisták és a kísérletileg meghatározott csúcslisták közötti átfedések összehasonlítását a (i) technikai ismétlések (Additional file 1: Table S12) és (ii) biológiai ismétlések (Additional file 1: Table S10) esetében megfigyelt átfedésekkel. Azt találtuk, hogy a predikciók és az IDR-küszöbértékkel meghatározott csúcsok közötti átfedések kisebbek, mint az IDR-küszöbértékkel meghatározott csúcsok és/vagy a technikai replikák közötti átfedések. A CTCF esetében három független kísérlet áll rendelkezésre a “fityma fibroblaszt” szövetre vonatkozóan, és az előrejelzéshez két független DNase-seq mintát használunk erre a szövetre vonatkozóan. Összehasonlítva a Jaccard-koefficienseket ebben a két helyzetben (vö. Additional file 1: Tables S9, S10), azt találjuk, hogy a Jaccard-koefficiensek a predikciók és az IDR-küszöbértékű csúcsok között 0,568 és 0,693 között változnak, míg a biológiai replikák esetében 0,658 és 0,72 közötti Jaccard-koefficienseket figyelünk meg. Ezen korlátozott adatok alapján arra következtethetünk, hogy a számítógépes predikciók csak kis mértékben kevésbé konzisztensek, mint a biológiai replikák, legalábbis a CTCF esetében.

A prediktált csúcslisták alapján összehasonlíthatjuk a különböző TF-ek sejttípusonként előre jelzett kötődési jellemzőit is. Először is megvizsgáljuk az előre jelzett csúcsok számát TF-enként és sejttípusonként (Additional file 1: Figure S7). A nagy gyakoriságú TF-ek (CTCF, GATA3, SPI1, CEBPB, FOXA1, FOXA2, MAX) elkülönülő csoportját találjuk, amelyek jellemzően szintén nagy számú csúcsot mutatnak a tréningadatokban. Ezek között a sejttípus-specifikus mintázatokat találunk az ubiquitikusan gyakori CTCF-től a GATA3 nagyobb mértékben változó gyakoriságáig. A többi TF esetében lényegesen kisebb számú előrejelzett csúcsot kapunk hasonló mintázattal, pl. az ATF7/ARID3A/NANOG vagy az EP300/TEAD4/JUND esetében, ahol az utóbbi csoportról azt jelentették, hogy együtt kötődik a disztális enhancerekben . Ezután a csúcs-előrejelzések stabilitását, azaz a különböző sejttípusokban az egyes TF-ekre előre jelzett csúcsok Jaccard-koefficienseit vizsgáljuk (Additional file 1: S8 ábra). Ismét jelentős eltéréseket találunk a TF-ek között, a GABPA, a CTCF és a REST esetében a Jaccard-koefficiens mediánja 0,7 felett van. Figyelemre méltó, hogy a CTCF volt az egyik legnagyobb számú prediktált csúccsal rendelkező TF (medián 37 455), míg a REST (medián 3 364) és a GABPA (medián 5 430) esetében nagyságrenddel kevesebb prediktált csúcsot figyeltünk meg. A skála másik végén olyan közvetetten kötődő TF-eket találunk, mint az EP300, vagy olyan, az adatainkban alulreprezentált sejttípusokra erősen specifikus TF-eket, mint a NANOG (őssejtek) és a HNF4A (máj, vese, belek). Végül a TF-ek ko-kötődését vizsgáljuk azáltal, hogy kiszámítjuk az átlagos Jaccard-együtthatót a sejttípusok között minden egyes TF-párra (Additional file 1: S9 ábra). Itt megfigyeljük a ko-összekapcsolódó TF-ek elkülönülő csoportjait, mint például a CTCF/ZNF143 vagy a FOXA1/FOXA2, amelyekről ismert, hogy in vivo kölcsönhatásba lépnek . Ezen kívül találunk egy nagyobb TF-klasztert is, amelynek előrejelzett csúcsai között jelentős átfedések vannak, beleértve a YY1, MAX, CREB1, MYC, E2F6, E2F1 és TAF1 TF-eket. Mivel a TAF1 (TATA-box binding protein associated factor 1) a TATA-doboznál történő transzkripcióindításhoz kapcsolódik, az egyik magyarázat az lehet, hogy e TF-ek kötőhelyei a mag promótereknél gazdagodnak. A MYC/MAX , a CREB1 , a YY1 és az E2F faktorok esetében valóban jelentettek proximális promóterekhez való kötődést.

Streamlined Catchitt implementation yields competitive performance

Végezetül összehasonlítjuk a Catchitt, az iteratív képzési megközelítés egyszerűsített implementációját, amely a kromatin hozzáférhetőségét és a motívumpontszámokat kombinálja, a DNase-seq-alapú és motívumalapú jellemzőket használó challenge implementációval a sejttípuson belüli esetre. Ehhez a sejttípus és a transzkripciós faktor öt kombinációját választottuk ki, amelyek a kihívás során megfigyelt teljesítményértékek tartományát lefedik. Konkrétan a NANOG és a TAF1, amelyek a legalacsonyabb AUC-PR értékeket kapták (vö. Additional file 1: S3 ábra) a kihívás végrehajtásához; a CTCF az IPSC sejtekben, amely a legnagyobb AUC-PR értéket kapta; valamint a FOXA1 és HNF4A, amelyek közepes AUC-PR értékeket kaptak, de jelentősen profitáltak az iteratív képzésből (vö. Additional file 1: S4 ábra). Az összehasonlítás eredményeit az 1. kiegészítő fájl: S13. táblázatban foglaltuk össze. A figyelembe vett motívumok számának körülbelül tízszeres csökkentése és további egyszerűsítések (“Catchitt: egy egyszerűsített nyílt forráskódú implementáció” szakasz) ellenére a Catchitt még mindig versenyképes AUC-PR értékeket ad. A Catchitt eredményeit az eredeti kihívás eredményein belül rangsorolva azt találjuk, hogy a Catchitt-pontszámok által elért teljesítmény mindössze két hellyel alacsonyabb, mint a DNase-seq-alapú és motívumalapú jellemzőket használó kihívási implementációé. A korábbiakhoz hasonlóan az iteratív képzési eljárásnak köszönhetően jelentős javulást tapasztalunk az előrejelzési teljesítményben.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.