Přesná predikce vazby transkripčních faktorů specifických pro buněčný typ

Během výzvy ENCODE-DREAM bylo porovnáno velké množství přístupů vytvořených 40 mezinárodními týmy na 13 analýzách ChIP-seq specifických pro buněčný typ pro 12 různých TF u člověka (Additional file 1: Figure S1). Pro trénink byl poskytnut soubor 109 datových sad pro stejné (a další) TF v jiných buněčných typech. Tréninková data zahrnovala data DNase-seq specifická pro daný buněčný typ, data RNA-seq specifická pro daný buněčný typ, genomickou sekvenci a anotace a předpovědi tvaru DNA in silico. Kromě toho byla pro tréninkové chromozomy poskytnuta data ChIP-seq specifická pro daný buněčný typ a TF a z nich odvozená označení, zatímco predikce byly vyhodnoceny pouze na zbývajících, vyřazených chromozomech chr1, chr8 a chr21, ke kterým nebyla poskytnuta žádná tréninková data ChIP-seq. Pro 200bp oblasti posunuté o 50 bp byly od zúčastněných týmů vyžádány celogenomové předpovědi pravděpodobnosti, že se určitá oblast překrývá s píkem ChIP-seq. Předpovědi byly hodnoceny podle (i) plochy pod křivkou ROC (AUC-ROC), (ii) plochy pod křivkou přesnosti a odvolání (AUC-PR), (iii) odvolání při 10% FDR a (iv) odvolání při 50% FDR na každé ze 13 testovacích datových sad. Ty byly agregovány pro každou datovou sadu na základě průměrného, normalizovaného pořadí získaného pro každou z těchto měr v 10 bootstrapových vzorcích zadržených chromozomů a konečné pořadí bylo získáno jako průměr těchto statistik pořadí (viz https://www.synapse.org/#!Synapse:syn6131484/wiki/405275).

Výsledkem tohoto pořadí je, že přístup představený v tomto článku (tým „J-Team“) získal společné první místo společně s přístupem vytvořeným týmem „Yuanfang Guan“

V následujícím textu zkoumáme vliv různých aspektů navrhovaného přístupu na konečnou výkonnost předpovědi. Nejprve prověříme vliv různých sad souvisejících rysů (data DNase-seq, skóre motivů, data RNA-seq, rysy založené na sekvenci a anotaci) na výkonnost predikce. Za druhé zkoumáme význam iterativního tréninkového přístupu na rozdíl od trénování na počátečních tréninkových datech. Zatřetí porovnáváme výkonnost předpovědí získaných klasifikátory vycvičenými na trénovacích datech pro jednotlivé typy buněk s výkonností agregované předpovědi získané zprůměrováním těchto typů buněk. Nakonec navrhovanou metodu použijeme pro predikci vazby TF specifické pro buněčný typ u 31 TF v dalších 22 primárních buněčných typech, čímž získáme celkem 682 predikčních stop.

Vliv sad rysů na výkonnost predikce

Výkonnost predikce získanou navrhovaným přístupem s použitím všech sad rysů (oddíl „Rysy“), iterativního tréninkového postupu (oddíl „Iterativní trénink“) a agregace nad všemi tréninkovými typy buněk (oddíl „Schéma predikce“) použijeme jako základní hodnotu pro všechna další srovnání (obr. 1; „všechny rysy“). V celém rukopise považujeme AUC-PR za primární míru výkonnosti, protože AUC-PR má větší vypovídací schopnost o výkonnosti klasifikace u silně nevyvážených klasifikačních problémů , a odvolání při různých úrovních FDR je poměrně nestabilní, protože odpovídá jednotlivým bodům na křivce přesnost-odvolání. Hodnoty AUC-PR jsou vypočteny pomocí balíčku R PRROC , který byl rovněž použit v soutěži ENCODE-DREAM.

Obrázek 1
obrázek1

Výkonnost napříč typy buněk. Pro každou ze 13 kombinací TF a typu buňky v rámci testovacích dat vypočítáme predikční výkonnost (AUC-PR) na zadržených chromozomech klasifikátorů (i) používajících všechny uvažované funkce, (ii) používajících pouze funkce založené na motivech, (iii) používajících pouze funkce založené na DNase-seq a (iv) používajících pouze funkce založené na motivech a DNase-seq. Medián výkonnosti klasifikátorů využívajících všechny rysy je vyznačen přerušovanou čarou

Zjistili jsme, že výkonnost predikce měřená pomocí AUC-PR se mezi jednotlivými transkripčními faktory značně liší (obr. 1) s mediánem hodnoty AUC-PR 0,4098. Nejlepšího predikčního výkonu je dosaženo u CTCF, který má dlouhý a informačně bohatý vazebný motiv, ve dvou různých typech buněk (IPSC a PC-3). Nadprůměrného výkonu bylo dosaženo také pro FOXA1 a HNF4A v jaterních buňkách. U většiny ostatních TF nacházíme hodnoty AUC-PR kolem 0,4, zatímco u NANOG a REST pozorujeme poměrně nízkou přesnost predikce.

Abychom analyzovali příspěvek vybraných rysů ke konečnému výkonu predikce, systematicky vyřazujeme ze vstupních dat při trénování a predikci sady souvisejících rysů. Jako základní hodnotu měříme AUC-PR pro klasifikátor používající všechny sady rysů. Dále měříme AUC-PR při vyloučení každé jednotlivé sady prvků, přičemž rozdíl těchto dvou hodnot AUC-PR vyčísluje zlepšení získané zahrnutím sady prvků (obr. 2a).

Obr. 2
obr. 2

Význam sad prvků. a Důležitost souvisejících sad prvků testujeme tak, že z trénovacích dat vyloučíme jednu sadu prvků, změříme výkonnost (AUC-PR) výsledného klasifikátoru a tuto hodnotu AUC-PR odečteme od odpovídající hodnoty dosažené klasifikátorem využívajícím všechny prvky. Pokud je tedy Δ AUC-PR vyšší než nula, vynechaná sada prvků zlepšila výsledný výkon predikce, zatímco hodnoty Δ AUC-PR nižší než nula znamenají negativní vliv na výkon predikce. Shromáždíme hodnoty Δ AUC-PR pro všech 13 testovacích datových sad a vizualizujeme je jako houslové grafy. b Hodnocení různých skupin rysů založených na DNase-seq. V tomto případě porovnáváme výkonnost zahrnující jednu konkrétní skupinu rysů založených na DNase-seq (viz Doplňkový soubor 1: Text S2)) s výkonností bez jakýchkoli rysů založených na DNase-seq (viz skřipec „DNase-seq“ v panelu a). Zjistili jsme, že všechny rysy založené na DNase-seq pozitivně přispívají k výkonu predikce

Největší vliv pozorujeme u sady rysů odvozených z dat DNase-seq. Zlepšení AUC-PR získané zahrnutím dat DNase-seq se pohybuje mezi 0,087 pro E2F1 a 0,440 pro HNF4A s mediánem 0,252.

Funkce založené na skóre motivů (včetně de novo objevených motivů a motivů z databází) také významně přispívají ke konečnému výkonu predikce. Zde pozorujeme velké zlepšení u některých TF, konkrétně 0,231 u CTCF v buňkách IPSC, 0,175 u CTCF v buňkách PC-3 a 0,167 u FOXA1. Naopak pokles predikčního výkonu pozorujeme v případě JUND (- 0,080) při zahrnutí rysů založených na motivech. U zbývajících TF jsme zjistili zlepšení AUC-PR mezi 0,008 a 0,079. Dále uvažujeme dvě podmnožiny motivů, a to všechny motivy získané objevením motivů de novo na datech výzvy a všechny modely Slim/LSlim zachycující závislosti uvnitř motivů. U motivů z de novo objevení motivů nacházíme zlepšení u 9 ze 13 datových sad a u modelu Slim/LSlim nacházíme zlepšení u 10 ze 13 datových sad. Absolutní zlepšení (medián 0,011, resp. 0,006) jsou však poměrně malá, pravděpodobně proto, že (i) motivy získané objevením motivů de novo mohou být nadbytečné oproti motivům nalezeným v databázích a (ii) závislosti uvnitř motivu a heterogenity zachycené modely Slim/LSlim mohou být částečně pokryty odchylkami v motivech z různých zdrojů.

Zejména rysy založené na RNA-seq (medián 0.001), rysy založené na anotaci (0,000) a rysy založené na sekvenci (0,001) nemají téměř žádný vliv na výkonnost predikce.

Jelikož je soubor rysů založených na DNase-seq poměrně různorodý, včetně rysů odvozených ze stop obohacení záhybů, seznamů píků nebo variací mezi typy buněk, snažíme se dále rozčlenit vliv příbuzných skupin těchto rysů. Za tímto účelem dále testujeme, jak je predikční výkonnost ovlivněna odstraněním specifických skupin rysů DNase-seq (viz Doplňkový soubor 1: Text S2) z kompletní sady rysů (Doplňkový soubor 1: Obrázek S2). Pozoruhodné je, že jsme zjistili, že žádná z těchto skupin rysů nemá sama o sobě velký vliv na výkonnost predikce, ačkoli lze pozorovat postupné rozdíly, neboť zahrnutí rysů založených na obohacení záhybů a rysů založených na vrcholech má do značné míry pozitivní příspěvek, zatímco vliv ostatních skupin rysů je spíše nejednoznačný. To lze vysvětlit rozsáhlými redundancemi a korelacemi, které mezi těmito různými skupinami stále existují, což umožňuje velkou kompenzaci ztráty jedné skupiny rysů.

Proto dodatečně testujeme scénář, kdy se za základní případ považuje vynechání všech rysů založených na DNase-seq (tj. data za skřipcem „DNase-seq“ na obr. 2a) a do této redukované sady rysů se přidá pouze jedna ze specifických skupin (obr. 2b). Především pozorujeme, že všechny skupiny příznaků pozitivně přispívají k celkovému výkonu predikce. Největší příspěvek lze pozorovat u skupiny „fold-enrichment“, ale také u příbuzných skupin, jako je „long range“, která v podstatě průměruje širší okna stopy fold-enrichmentu, a „peak-based“ využívající vrcholy, které byly původně vyvolány na základě pokrytí DNase-seq. Nejnižší příspěvek jsme zjistili u skupiny „variation“, která měří variabilitu, respektive zachování signálu DNase-seq mezi jednotlivými typy buněk. Vzhledem k tomu, že příspěvek každé jednotlivé skupiny rysů je kladný, v dalším textu stále uvažujeme kompletní sadu rysů založených na DNase-seq.

Po zjištění, že rysy založené na DNase-seq a na motivech mají velký vliv na výkonnost predikce, jsme také testovali výkonnost predikce navrhovaného přístupu s použitím pouze rysů založených na datech DNase-seq, resp. motivů TF. Všechny ostatní rysy, tj. rysy založené na RNA-seq, rysy založené na anotacích a rysy založené na surové sekvenci, jsou vyloučeny. Zjistili jsme (obr. 1), že klasifikátory využívající výhradně rysy založené na motivech již poskytují u některých TF (CTCF a do jisté míry E2F1 a GABPA) přiměřenou predikční výkonnost, zatímco u zbývajících TF pozorujeme hodnoty AUC-PR nižší než 0,12. To lze vysvětlit velkým počtem falešně pozitivních předpovědí, které obvykle generují přístupy využívající výhradně informace o motivech, čemuž se lze vyhnout pouze v případě dlouhých, specifických motivů, jako je tomu v případě CTCF.

Klasifikátory využívající pouze rysy založené na DNase-seq poskytují u mnoha studovaných TF pozoruhodnou výkonnost (obr. 1), která je nižší než u klasifikátoru založeného pouze na motivech pro obě sady dat CTCF. U některých datových sad (zejména JUND, ale také EGR1, MAX) dokonce pozorujeme, že klasifikátor založený pouze na datech DNase-seq překonává klasifikátor využívající všechny rysy.

V případě JUND lze zvýšení výkonnosti při zanedbání všech rysů jiných než DNase pravděpodobně přičíst silnému přizpůsobení parametrů klasifikátoru buď vazebným motivům specifickým pro daný buněčný typ, nebo společné vazbě s jinými TF, protože JUND je jedinou datovou sadou se zlepšenou výkonností při vyloučení rysů založených na motivech, jak bylo uvedeno výše. U všech tří TF jsme zjistili zlepšení predikční výkonnosti, pokud jsou parametry klasifikátoru natrénovány na tréninkových chromozomech testovaného buněčného typu (případ „v rámci buněčného typu“; Doplňkový soubor 1: Obrázek S3).

Protože se zdá, že vlastnosti založené na DNase-seq a na motivech jsou hlavními sadami vlastností ovlivňujícími predikční výkonnost, studujeme nakonec predikční výkonnost klasifikátoru používajícího pouze tyto dvě sady vlastností. Pozorujeme, že predikční výkonnost při použití pouze rysů založených na DNase-seq a motivech je do značné míry shodná s výkonností klasifikátoru používajícího všechny rysy (obr. 1), přičemž největší ztrátu v AUC-PR pozorujeme u TAF1 (0,017) a největší zisk v AUC-PR u NANOG (0,007). Podobného chování si všímáme i pro případ v rámci typu buňky (Additional file 1: Figure S3). Vzhledem k tomu, že vynechané sady příznaků zahrnují všechny příznaky založené na RNA-seq, má to také za následek, že k predikci vazby TF stačí jeden test specifický pro daný buněčný typ (konkrétně DNase-seq), což rozšiřuje rozsah buněčných typů se snadno dostupnými experimentálními daty, na které lze navrhovaný přístup aplikovat.

Iterativní trénink zlepšuje výkonnost predikce

Jako druhý klíčový aspekt navrhovaného přístupu zkoumáme dopad iterativního tréninkového postupu na konečnou výkonnost predikce. Za tímto účelem porovnáváme pro každou TF hodnoty AUC-PR získané zprůměrováním předpovědí všech pěti klasifikátorů, které jsou výsledkem iterativního tréninkového postupu pro všechny typy tréninkových buněk, s hodnotami AUC-PR získanými pouze zprůměrováním původně natrénovaných klasifikátorů pro všechny typy tréninkových buněk, tj. klasifikátorů natrénovaných pouze na počátečních tréninkových datech (oddíl „Počáteční tréninková data“).

U 11 ze 13 testovacích datových sad pozorujeme zlepšení predikčního výkonu iterativním tréninkovým postupem (obr. 3). Největšího zlepšení bylo dosaženo u E2F1 (0,114), FOXA2 (0,085), NANOG (0,08), FOXA1 (0,063) a MAX (0,061). Mezi nimi jsou TF, u nichž jsme pozorovali dobrý výkon při použití pouze rysů založených na DNase-seq (E2F1, MAX), a TF, u nichž byla výhodná kombinace s rysy založenými na motivech (FOXA1, FOXA2, NANOG), což naznačuje, že další negativní oblasti přidané v iteracích 2 až 5 nevyvolávají zkreslení ve prospěch některého z těchto dvou typů rysů. U čtyř z těchto pěti TF byl k dispozici pouze jeden (FOXA2, NANOG, FOXA1) nebo dva (E2F1) typy tréninkových buněk a rozdíly mezi různými klasifikátory z iteračního tréninku mohou pomoci zabránit nadměrnému přizpůsobení. Naopak pokles výkonu jsme zjistili u JUND (0,041) a také u TAF1 (0,01), což může být způsobeno větším důrazem na vazebné oblasti specifické pro daný buněčný typ v dalších iteracích iteračního tréninkového postupu. Tuto hypotézu podporuje také pozorování, že iterativní tréninkový postup vede vždy ke zvýšení predikčního výkonu, pokud jsou parametry klasifikátoru trénovány na tréninkových chromozomech testovaného typu buněk (Additional file 1: Figure S4).

Obrázek 3
obrázek3

Význam iteračního tréninkového postupu. Pro každou ze 13 sad testovacích dat, porovnáváme výkonnost (AUC-PR) dosaženou klasifikátorem(y) natrénovaným(i) na počátečních negativních oblastech (abscisa) s výkonností dosaženou zprůměrováním všech klasifikátorů z iteračního tréninkového postupu (ordináta)

Zprůměrování předpovědí zlepšuje oproti náhodnému výběru typů buněk

Pro 9 z 12 uvažovaných TF, jsou spolu s daty výzvy poskytnuta data pro více než jeden typ trénovacích buněk. Proto může být jednou z ústředních otázek volba typu buněk použitého pro trénování a následně pro vytváření předpovědí pro testovací typ buněk. Pro tuto volbu jsou však k dispozici pouze experimentální údaje specifické pro daný buněčný typ, a to údaje DNase-seq a RNA-seq, zatímco podobnost buněčných typů může záviset na uvažovaném TF. Míry podobnosti odvozené z dat DNase-seq (např. Jaccardovy koeficienty překrývajících se vrcholů DNase-seq, korelace profilů) nebo z dat RNA-seq (např, korelace hodnot TPM) se v předběžných studiích na tréninkových typech buněk ukázaly jako neinformativní s ohledem na podobnost vazebných oblastí TF.

Proto považujeme výběr tréninkového typu buněk za latentní proměnnou a zprůměrujeme předpovědi vygenerované příslušnými klasifikátory (viz část „Schéma předpovědí“). Vzhledem k tomu, že po výzvě byly k dispozici štítky testovacích typů buněk, můžeme nyní vyhodnotit vliv této volby na výkonnost předpovědí a také otestovat výkonnost předpovědí klasifikátorů natrénovaných na jednotlivých typech buněk (obr. 4).

Obr. 4
obr. 4

Výkonnost klasifikátorů souboru. Pro každou ze 13 sad testovacích dat porovnáváme výkonnost (AUC-PR) jednotlivých klasifikátorů natrénovaných na jednotlivých typech buněk (otevřené kruhy) s výkonností klasifikátoru souboru zprůměrovaného přes všechny klasifikátory natrénované na všech typech tréninkových buněk (vyplněné, oranžové kruhy). Pro srovnání vykreslujeme také medián jednotlivých klasifikátorů jako červený sloupec

U všech testovacích datových sad s více dostupnými typy tréninkových buněk jsme zjistili, že zprůměrovaná předpověď poskytuje hodnoty AUC-PR vyšší než medián hodnot AUC-PR dosažených pro jednotlivé typy tréninkových buněk. Toto zlepšení je zvláště výrazné pro REST, GABPA a MAX.

Abychom dále prozkoumali, zda zprůměrování klasifikátorů pro jednotlivé typy buněk upřednostňuje konzervované vazebné oblasti (tj. oblasti označené jako „vázané“ ve většině typů buněk) před vazebnými oblastmi specifickými pro jednotlivé typy buněk, hodnotíme také výkonnost predikce pro tyto oblasti samostatně (Additional file 1: Figure S5). Konkrétně považujeme vázanou oblast za konzervovanou, pokud je také označena jako „vázaná“ alespoň ve třech ze čtyř trénovacích buněčných typů, a považujeme vázanou oblast za specifickou pro buněčný typ, pokud je tato oblast označena jako „vázaná“ nejvýše v jednom ze čtyř trénovacích buněčných typů. První věc, které si všimneme z doplňkového souboru 1: S5 je, že absolutní hodnoty AUC-PR jsou podstatně nižší pro oblasti specifické pro buněčný typ než pro konzervované oblasti. Jedním z vysvětlení by mohl být rozdíl v (im-)vyváženosti tříd v důsledku vybraných podskupin regionů. Tento obecný trend však zůstává zachován i při zohlednění AUC-ROC (Additional file 1: Figure S6). Za druhé jsme zjistili, že odchylka mezi klasifikátory naučenými z různých typů tréninkových buněk je ve většině případů větší pro oblasti specifické pro daný typ buněk než pro konzervované oblasti. Chování s ohledem na absolutní výkonnost je podobné pro jednotlivé klasifikátory, jejich mediánovou výkonnost i výkonnost zprůměrovanou přes klasifikátory pro jednotlivé typy buněk. Všimneme si, že AUC-PR získaná zprůměrováním je vždy lepší než medián výkonu pro jednotlivé typy buněk pro konzervované oblasti, ale totéž platí i při zohlednění oblastí specifických pro jednotlivé typy buněk pro sedm z devíti datových sad s více než jedním tréninkovým typem buněk.

Můžeme tedy tvrdit, že zprůměrování přes klasifikátory specifické pro jednotlivé typy buněk obecně přináší přesnější předpovědi, než by bylo dosaženo neinformovaným výběrem jednoho konkrétního tréninkového typu buněk.

Téměř u všech testovacích datových sad s více typy tréninkových buněk (jedinou výjimkou je CTCF pro typ buněk PC-3) jsme si však také všimli, že nejlepší předpovědní výkon dosažený pro jeden z jednotlivých typů tréninkových buněk by oproti navrhovanému postupu průměrování získal v některých případech značné zlepšení. Pozoruhodné je, že rozptyl AUC-PR mezi různými tréninkovými buněčnými typy je zvláště výrazný u JUND, což podporuje předchozí hypotézu, že některé rysy, například vazebné motivy nebo společné vazby TF, jsou u JUND vysoce specifické pro buněčný typ. Obecně by odvození informativních měr podobnosti TF specifických pro daný buněčný typ na základě testů specifických pro daný buněčný typ a předběžných předpovědí vazebných míst pravděpodobně vedlo k dalšímu zvýšení výkonnosti výpočetních přístupů pro předpovídání vazby TF specifických pro daný buněčný typ.

Vytvoření sbírky stop vazeb TF specifických pro daný buněčný typ

Po zjištění, že k předpovídání vazeb TF specifických pro daný buněčný typ s nejmodernější přesností postačuje jeden typ experimentálního testu, konkrétně DNase-seq, můžeme nyní použít klasifikátory získané na tréninkových typech buněk a TF pro předpovědi na dalších typech buněk. K tomuto účelu používáme klasifikátory zohledňující pouze rysy založené na DNase-seq a na motivech, nikoli však rysy založené na RNA-seq, rysy založené na anotaci ani rysy založené na surové sekvenci, u nichž se ukázalo, že dosahují predikční výkonnosti srovnatelné s předchozím úplným modelem (viz obr. 1, oddíl „Vliv sad rysů na predikční výkonnost“). Za tímto účelem jsme stáhli data DNase-seq pro soubor primárních typů buněk a tkání (viz oddíl „Data“), zpracovali je stejným způsobem jako původní data výzvy a následně extrahovali rysy závislé na DNase-seq (oddíl „Rysy“). Na těchto 22 sad DNase-seq rysů jsme pak aplikovali natrénované klasifikátory pro všech 31 TF uvažovaných v rámci výzvy, čímž jsme získali celkem 682 predikčních stop

Pro vybrané buněčné typy (doplňkový soubor 1: tabulka S5) je k dispozici pouze několik buněčných typů a dat ChIP-seq specifických pro TF (doplňkový soubor 1: tabulka S6). To na jedné straně znamená, že predikované vazebné stopy TF poskytují cenné, nové informace pro soubor 31 studovaných TF. Na druhé straně to poskytuje příležitost provést srovnávací testy a kontroly správnosti s ohledem na předpovědi pro podskupinu těchto TF a buněčných typů s odpovídajícími dostupnými daty ChIP-seq. Pro účely srovnávacího testování jsme navíc získali „uvolněné“ a (pokud jsou k dispozici) „konzervativní“ soubory píků z ENCODE a odvodili související štítky („vázaný“, „nevázaný“, „nejednoznačný“) podle postupu navrženého pro výzvu ENCODE-DREAM.

Pro CTCF s dostupnými píky ChIP-seq pro více typů buněk jsme obecně zjistili výkonnost předpovědí, která je srovnatelná s výkonností pozorovanou na datech výzvy (srov. Doplňkový soubor 1: tabulka S4). U těchto buněčných typů se hodnoty AUC-PR (Additional file 1: Table S7) pohybují mezi 0,7720 a 0,8197, pokud jsou k dispozici konzervativní a uvolněné píky a pokud se dárci shodují mezi experimenty DNase-seq a ChIP-seq, zatímco výkonnost je o něco nižší u neshodujících se dárců (0,7322) a v případě chybějících konzervativních píků (0,7270). Pro JUN, MAX a MYC jsou z ENCODE k dispozici pouze uvolněné píky kvůli chybějícím replikátům. Zde nacházíme hodnoty AUC-PR 0,6310 pro JUN, což je podstatně více než u údajů z výzvy; 0,4004 pro MAX, což je o něco méně než u údajů z výzvy; a 0,1989 pro MYC, který nebyl mezi testovanými TF ve výzvě, ale dosáhl podstatně lepšího výkonu v kole hodnocení.

Celkových 682 stop předpovědí pro celý genom je stále poměrně velkých (přibližně 880 MB na stopu), a tudíž vyžadují značný úložný prostor, který běžný uživatel nemusí mít k dispozici, přičemž většina oblastí pravděpodobně není vázána na TF, která ho zajímá. Proto tyto předpovědi dále zhušťujeme do seznamů předpovězených vrcholů ve formátu narrowPeak spojením sousedících úseků s vysokou pravděpodobností vazby a použitím prahu 0,6 (uvolněný) a 0,8 (konzervativní) na maximální pravděpodobnost pozorovanou v předpovězeném „vrcholu“. Tyto soubory s píky poskytujeme ke stažení na adrese https://www.synapse.org/#!Synapse:syn11526239(doi:10.7303/syn11526239).

Abychom si udělali představu o kvalitě předpovězených píků, vypočítali jsme dále Jaccardovy koeficienty založené na překryvech píků (vypočtené pomocí balíčku GenomicRanges R ) mezi soubory předpovězených píků a píků z odpovídajících, dostupných píků ChIP-seq (Additional file 1: Table S9, S11) a zjistili jsme, že tyto se do značné míry shodují s předchozím hodnocením na základě odvozených značek.

Nakonec údaje pro CTCF umožňují porovnat překryv mezi predikovanými seznamy píků a experimentálně určenými seznamy píků s překryvy pozorovanými u (i) technických replikátů (Additional file 1: Table S12) a (ii) biologických replikátů (Additional file 1: Table S10). Zjistili jsme, že překryvy mezi predikcemi a IDR-prahovými píky jsou nižší než překryvy mezi IDR-prahovými píky a/nebo technickými replikáty. Pro CTCF jsou k dispozici tři nezávislé experimenty pro tkáň „předkožkového fibroblastu“ a pro naši predikci používáme dva nezávislé vzorky DNase-seq pro tuto tkáň. Porovnáme-li Jaccardovy koeficienty v těchto dvou situacích (viz Doplňkový soubor 1: Tabulky S9, S10), zjistíme, že Jaccardovy koeficienty mezi predikcemi a IDR-prahovými píky se pohybují mezi 0,568 a 0,693, zatímco u biologických replikátů pozorujeme Jaccardovy koeficienty mezi 0,658 a 0,72. Na základě těchto omezených údajů můžeme dojít k závěru, že počítačové predikce jsou méně konzistentní než biologické repliky pouze s malým rozdílem, přinejmenším pro CTCF.

Na základě seznamů predikovaných píků můžeme také porovnat predikované vazebné charakteristiky různých TF napříč buněčnými typy. Nejprve zkontrolujeme počet předpovězených píků pro jednotlivé TF a typy buněk (Additional file 1: Figure S7). Nalezneme výraznou skupinu vysoce početných TF (CTCF, GATA3, SPI1, CEBPB, FOXA1, FOXA2, MAX), které v trénovacích datech obvykle vykazují také velký počet vrcholů. Mezi nimi nacházíme vzorce specifičnosti buněčného typu od všudypřítomně hojného CTCF až po více se lišící hojnost GATA3. Zbytek TF získává podstatně nižší počty předpovídaných píků s podobnými vzorci, např. pro ATF7/ARID3A/NANOG nebo EP300/TEAD4/JUND, kde bylo zjištěno, že druhá skupina se společně váže v distálních enhancerech . Dále studujeme stabilitu předpovědí píků, tj. koeficienty Jaccard píků předpovězených pro jednotlivé TF v různých typech buněk (Additional file 1: Figure S8). Opět jsme zjistili značné rozdíly mezi jednotlivými TF, přičemž GABPA, CTCF a REST mají medián Jaccardových koeficientů vyšší než 0,7 . Pozoruhodné je, že CTCF patřil k TF s největším počtem předpovězených vrcholů (medián 37 455), zatímco u REST (medián 3 364) a GABPA (medián 5 430) jsme pozorovali řádově méně předpovězených vrcholů. Na druhém konci škály se nacházejí nepřímo se vážící TF, jako je EP300, nebo TF, které jsou vysoce specifické pro typy buněk nedostatečně zastoupené v našich datech, jako je NANOG (kmenové buňky) a HNF4A (játra, ledviny, střeva). Nakonec zkoumáme společnou vazbu TF výpočtem průměrného Jaccardova koeficientu napříč buněčnými typy pro každou dvojici TF (doplňkový soubor 1: obrázek S9). Zde pozorujeme odlišné skupiny společně se vyskytujících TF, jako je CTCF/ZNF143 nebo FOXA1/FOXA2, o nichž je známo, že spolu interagují in vivo . Kromě toho nacházíme větší shluk TF se značnými překryvy mezi jejich předpokládanými vrcholy, který zahrnuje YY1, MAX, CREB1, MYC, E2F6, E2F1 a TAF1. Vzhledem k tomu, že TAF1 (TATA-box binding protein associated factor 1) je spojen s iniciací transkripce v TATA boxu, jedním z vysvětlení by mohlo být, že vazebná místa těchto TF jsou obohacena v jádru promotorů. Vazba na proximální promotory byla skutečně zaznamenána u faktorů MYC/MAX , CREB1 , YY1 a E2F .

Streamlined Catchitt implementation yields competitive performance

Nakonec porovnáváme Catchitt, zjednodušenou implementaci iterativního tréninkového přístupu kombinujícího přístupnost chromatinu a skóre motivů, s náročnou implementací využívající funkce založené na DNase-seq a motivy pro případ v rámci typu buňky. Za tímto účelem vybíráme pět kombinací buněčného typu a transkripčního faktoru, které pokrývají rozsah hodnot výkonnosti pozorovaných v soutěži. Konkrétně uvažujeme NANOG a TAF1, které dosáhly nejnižších hodnot AUC-PR (viz Doplňkový soubor 1: Obrázek S3) pro implementaci výzvy; CTCF v buňkách IPSC, který dosáhl největší hodnoty AUC-PR; a FOXA1 a HNF4A, které dosáhly středních hodnot AUC-PR, ale výrazně profitovaly z iteračního tréninku (viz Doplňkový soubor 1: Obrázek S4). Výsledky tohoto srovnání shrnujeme v Doplňkovém souboru 1: Tabulka S13. Navzdory přibližně desetinásobnému snížení počtu uvažovaných motivů a dalším zjednodušením (oddíl „Catchitt: zjednodušená open-source implementace“) poskytuje Catchitt stále konkurenceschopné hodnoty AUC-PR. Při řazení výsledků Catchitt v rámci výsledků původní výzvy jsme zjistili, že výkonnost dosažená pomocí skóre Catchitt je pouze o dvě příčky nižší než u implementace výzvy využívající funkce založené na DNase-seq a motivy. Stejně jako dříve jsme zjistili podstatné zlepšení predikčního výkonu díky iterativnímu tréninkovému postupu.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.