Accurate prediction of cell type-specific transcription factor binding

Podczas wyzwania ENCODE-DREAM, duża liczba podejść stworzonych przez 40 międzynarodowych zespołów została przetestowana na 13 specyficznych dla typu komórki próbach ChIP-seq dla 12 różnych TF u człowieka (Dodatkowy plik 1: Rysunek S1). Do treningu dostarczono zestaw 109 zestawów danych dla tych samych (i dodatkowych) TF w innych typach komórek. Dane szkoleniowe obejmowały specyficzne dla typu komórki dane DNase-seq, specyficzne dla typu komórki dane RNA-seq, sekwencję genomową i adnotacje oraz przewidywania kształtu DNA in silico. Dodatkowo, dane ChIP-seq specyficzne dla typu komórki i TF oraz pochodne etykiety zostały dostarczone dla chromosomów treningowych, podczas gdy przewidywania były oceniane tylko na pozostałych, niewykorzystanych chromosomach chr1, chr8 i chr21, które nie zostały dostarczone z żadnymi danymi treningowymi ChIP-seq. Dla regionów 200-bp przesuniętych o 50 bp, prognozy prawdopodobieństwa, że dany region nakłada się na pik ChIP-seq były wymagane od uczestniczących zespołów. Przewidywania były oceniane przez (i) obszar pod krzywą ROC (AUC-ROC), (ii) obszar pod krzywą precyzja-recall (AUC-PR), (iii) wycofanie przy 10% FDR, oraz (iv) wycofanie przy 50% FDR na każdym z 13 zestawów danych testowych. Zostały one zagregowane dla każdego zestawu danych w oparciu o średnią, znormalizowaną rangę uzyskaną dla każdej z tych miar w 10 próbach bootstrapowych zatrzymanych chromosomów, a ostateczny ranking został uzyskany jako średnia tych statystyk rang (por. https://www.synapse.org/#!Synapse:syn6131484/wiki/405275).

W wyniku tego rankingu, podejście przedstawione w niniejszej pracy (zespół „J-Team”) uzyskało wspólną pierwszą pozycję wraz z podejściem stworzonym przez zespół „Yuanfang Guan.”

W dalszej części pracy badamy wpływ różnych aspektów proponowanego podejścia na ostateczną wydajność predykcji. Po pierwsze, badamy wpływ różnych zestawów powiązanych cech (dane DNase-seq, wyniki motywów, dane RNA-seq, cechy oparte na sekwencji i anotacji) na wydajność predykcji. Po drugie, badamy znaczenie iteracyjnego podejścia do treningu w przeciwieństwie do treningu na początkowych danych treningowych. Po trzecie, porównujemy wydajność predykcji uzyskanych przez klasyfikatory trenowane na danych treningowych dla poszczególnych typów komórek z wydajnością zagregowanej predykcji uzyskanej poprzez uśrednienie dla tych typów komórek. Wreszcie, zastosowaliśmy proponowaną metodę do przewidywania specyficznego dla typu komórki wiązania TF dla 31 TF w 22 dodatkowych typach komórek pierwotnych, uzyskując w sumie 682 ścieżki predykcji.

Wpływ zestawów cech na wydajność predykcji

Używamy wydajności predykcji uzyskanej przez proponowane podejście przy użyciu wszystkich zestawów cech (sekcja „Cechy”), iteracyjnej procedury treningowej (sekcja „Trening iteracyjny”), oraz agregacji nad wszystkimi typami komórek treningowych (sekcja „Schemat predykcji”) jako linii bazowej dla wszystkich dalszych porównań (Rys. 1; „wszystkie cechy”). W całym manuskrypcie, AUC-PR traktujemy jako podstawową miarę wydajności, ponieważ AUC-PR lepiej informuje o wydajności klasyfikacji dla silnie niezrównoważonych problemów klasyfikacyjnych, a recall na różnych poziomach FDR jest raczej niestabilny, ponieważ odpowiada pojedynczym punktom na krzywej precyzja-recall. Wartości AUC-PR są obliczane przy użyciu pakietu R PRROC , który był również używany w wyzwaniu ENCODE-DREAM.

Fig. 1
figure1

Wyniki dla różnych typów komórek. Dla każdej z 13 kombinacji TF i typu komórki w ramach danych testowych, obliczamy wydajność predykcji (AUC-PR) na zatrzymanych chromosomach klasyfikatorów (i) wykorzystujących wszystkie rozważane cechy, (ii) wykorzystujących tylko cechy oparte na motywach, (iii) wykorzystujących tylko cechy oparte na DNase-seq oraz (iv) wykorzystujących tylko cechy oparte na motywach i DNase-seq. Mediana wydajności klasyfikatorów wykorzystujących wszystkie cechy jest oznaczona linią przerywaną

Odkryliśmy, że wydajność predykcji mierzona przez AUC-PR różni się znacznie wśród różnych czynników transkrypcyjnych (Rys. 1) z medianą wartości AUC-PR wynoszącą 0,4098. Najlepszą wydajność predykcji uzyskano dla CTCF, który posiada długi i bogaty w informacje motyw wiążący, w dwóch różnych typach komórek (IPSC i PC-3). Ponadprzeciętną wydajność uzyskano również dla FOXA1 i HNF4A w komórkach wątroby. Dla większości pozostałych TFs, znajdujemy wartości AUC-PR w okolicach 0.4, podczas gdy obserwujemy raczej niską dokładność predykcji dla NANOG i REST.

Aby przeanalizować wpływ wybranych cech na ostateczną wydajność predykcji, systematycznie wykluczamy zestawy powiązanych cech z danych wejściowych w treningu i predykcji. Jako punkt odniesienia, mierzymy AUC-PR dla klasyfikatora używającego wszystkich zestawów cech. Dodatkowo, mierzymy AUC-PR przy wyłączeniu każdego indywidualnego zestawu cech, gdzie różnica tych dwóch wartości AUC-PR określa ilościowo poprawę uzyskaną przez włączenie zestawu cech (Rys. 2a).

Fig. 2
figure2

Ważność zestawów cech. a Testujemy znaczenie powiązanych zestawów cech, wyłączając jeden zestaw cech z danych treningowych, mierząc wydajność (AUC-PR) wynikowego klasyfikatora i odejmując tę wartość AUC-PR od odpowiedniej wartości uzyskanej przez klasyfikator wykorzystujący wszystkie cechy. W związku z tym, jeżeli Δ AUC-PR jest powyżej zera, pominięty zestaw cech poprawił ostateczną wydajność predykcji, podczas gdy wartości Δ AUC-PR poniżej zera wskazują na negatywny wpływ na wydajność predykcji. Zbieramy wartości Δ AUC-PR dla wszystkich 13 zestawów danych testowych i wizualizujemy je jako wykresy skrzypiec. b Ocena różnych grup cech opartych na DNase-seq. W tym przypadku, porównujemy wydajność z uwzględnieniem jednej specyficznej grupy cech opartych na DNase-seq (por. plik dodatkowy 1: Text S2)) z wydajnością bez żadnych cech opartych na DNase-seq (por. violin „DNase-seq” w panelu a). Stwierdzamy, że wszystkie cechy oparte na DNase-seq przyczyniają się pozytywnie do wydajności predykcji

Obserwujemy największy wpływ dla zestawu cech pochodzących z danych DNase-seq. Poprawa AUC-PR uzyskana dzięki włączeniu danych DNase-seq waha się od 0,087 dla E2F1 do 0,440 dla HNF4A z medianą 0,252.

Cechy oparte na punktacji motywów (włączając motywy odkryte de novo i te z baz danych) również znacząco przyczyniają się do ostatecznej wydajności predykcji. Tutaj obserwujemy dużą poprawę dla niektórych TF, mianowicie 0,231 dla CTCF w komórkach IPSC, 0,175 dla CTCF w komórkach PC-3 i 0,167 dla FOXA1. Z kolei w przypadku JUND obserwujemy spadek wydajności predykcji (-0.080) przy uwzględnieniu cech opartych na motywach. Dla pozostałych TF-ów stwierdzamy poprawę AUC-PR pomiędzy 0,008 a 0,079. Dalej rozważamy dwa podzbiory motywów, mianowicie wszystkie motywy uzyskane w wyniku odkrycia motywów de novo na danych z wyzwania oraz wszystkie modele Slim/LSlim wychwytujące zależności wewnątrzmotywowe. Dla motywów uzyskanych w wyniku odkrycia motywów de novo, stwierdzamy poprawę dla 9 z 13 zestawów danych, a dla modelu Slim/LSlim, stwierdzamy poprawę dla 10 z 13 zestawów danych. Jednakże, bezwzględna poprawa (mediany odpowiednio 0.011 i 0.006) jest raczej niewielka, prawdopodobnie dlatego, że (i) motywy uzyskane przez de novo mogą być nadmiarowe w stosunku do tych znalezionych w bazach danych oraz (ii) zależności wewnątrzmotywowe i heterogeniczność uchwycone przez modele Slim/LSlim mogą być częściowo pokryte przez różnice w motywach pochodzących z różnych źródeł.

W szczególności, cechy oparte na RNA-seq (mediana 0.001), cechy oparte na anotacji (0.000) i cechy oparte na sekwencji (0.001) nie mają prawie żadnego wpływu na wydajność predykcji.

Jako że zestaw cech opartych na DNase-seq jest dość zróżnicowany, włączając w to cechy pochodzące ze ścieżek wzbogacania fałdowego, list szczytów lub zmienności między typami komórek, naszym celem jest dalsze rozróżnienie wpływu powiązanych grup tych cech. W tym celu sprawdzamy, jak na wydajność predykcji wpływa usunięcie określonych grup cech DNase-seq (por. plik dodatkowy 1: Tekst S2) z pełnego zestawu cech (plik dodatkowy 1: Rysunek S2). Zauważamy, że żadna z tych grup cech nie ma dużego wpływu na wydajność predykcji, chociaż można zaobserwować stopniowe różnice, jako że włączenie cech opartych na wzbogaceniu fałdowym i cech opartych na szczytach ma w dużej mierze pozytywny wkład, podczas gdy wpływ innych grup cech jest raczej niejednoznaczny. Można to tłumaczyć dużą redundancją i korelacjami, które nadal istnieją pomiędzy tymi różnymi grupami, co pozwala na dużą kompensację utraty pojedynczej grupy cech.

W związku z tym, dodatkowo testujemy scenariusz, w którym pominięcie wszystkich cech opartych na DNase-seq (tj. dane za wykresem skrzypiec „DNase-seq” z Rys. 2a) jest uważane za przypadek bazowy, a tylko jedna z określonych grup jest dodawana do tego zredukowanego zestawu cech (Rys. 2b). Po pierwsze, obserwujemy, że wszystkie grupy cech wnoszą pozytywny wkład do całkowitej wydajności predykcji. Największy wkład można zaobserwować dla grupy „fold-enrichment”, ale także dla grup pokrewnych, takich jak „long range” w zasadzie uśredniającej dla szerszych okien ścieżki fold-enrichment, oraz „peak-based” wykorzystującej szczyty, które pierwotnie zostały nazwane w oparciu o pokrycie DNase-seq. Odnajdujemy najniższy wkład dla grupy „variation”, która mierzy odpowiednio zmienność i konserwację sygnału DNase-seq pomiędzy typami komórek. Ponieważ wkład każdej pojedynczej grupy cech jest pozytywny, w dalszej części rozważamy kompletny zestaw cech opartych na DNase-seq.

Po ustaleniu, że cechy oparte na DNase-seq i motywach mają duży wpływ na wydajność predykcji, przetestowaliśmy również wydajność predykcji proponowanego podejścia używając tylko cech opartych odpowiednio na danych DNase-seq i motywach TF. Wszystkie inne cechy, tj. cechy oparte na RNA-seq, cechy oparte na anotacji oraz cechy oparte na surowej sekwencji, zostały wykluczone. Stwierdzamy (Rys. 1), że klasyfikatory wykorzystujące wyłącznie cechy oparte na motywach dają już rozsądną wydajność predykcji dla niektórych TF (CTCF oraz, w pewnym stopniu, E2F1 i GABPA), natomiast dla pozostałych TF obserwujemy wartości AUC-PR poniżej 0,12. Można to wytłumaczyć dużą liczbą fałszywie pozytywnych predykcji generowanych przez podejścia wykorzystujące wyłącznie informacje o motywach, których można uniknąć jedynie w przypadku długich, specyficznych motywów, jak to ma miejsce w przypadku CTCF.

Klasyfikatory wykorzystujące wyłącznie cechy oparte na DNase-seq uzyskują znakomitą wydajność dla wielu badanych TF (Rys. 1), która jest niższa niż dla klasyfikatora opartego na motywach tylko dla dwóch zbiorów danych CTCF. W przypadku niektórych zbiorów danych (szczególnie JUND, ale także EGR1, MAX), obserwujemy nawet, że klasyfikator oparty wyłącznie na danych DNase-seq przewyższa klasyfikator wykorzystujący wszystkie cechy.

W przypadku JUND, wzrost wydajności przy pominięciu wszystkich cech innych niż DNase może być prawdopodobnie przypisany silnej adaptacji parametrów klasyfikatora do motywów wiążących specyficznych dla danego typu komórki lub specyficznego dla danego typu komórki współwiązania z innymi TF, ponieważ JUND jest jedynym zbiorem danych z poprawioną wydajnością przy wykluczeniu cech opartych na motywach, jak omówiono powyżej. Dla wszystkich trzech TF stwierdzamy poprawę wydajności predykcji, jeśli parametry klasyfikatora są trenowane na chromosomach treningowych testowanego typu komórki (przypadek „within cell type”; plik dodatkowy 1: Rysunek S3).

Ponieważ cechy DNase-seq-based i motif-based wydają się być głównymi zestawami cech wpływającymi na wydajność predykcji, ostatecznie badamy wydajność predykcji klasyfikatora wykorzystującego tylko te dwa zestawy cech. Obserwujemy, że wydajność predykcji przy użyciu tylko cech DNase-seq-based i motif-based jest w dużej mierze identyczna z wydajnością klasyfikatora wykorzystującego wszystkie cechy (Rys. 1), gdzie obserwujemy największą stratę w AUC-PR dla TAF1 (0.017) i największy zysk w AUC-PR dla NANOG (0.007). Podobne zachowanie obserwujemy w przypadku typu komórki (plik dodatkowy 1: Rysunek S3). Ponieważ pominięte zestawy cech obejmują wszystkie cechy oparte na RNA-seq, konsekwencją tego jest również to, że jedno badanie specyficzne dla danego typu komórki (mianowicie DNase-seq) jest wystarczające do przewidywania wiązania TF, co poszerza zakres typów komórek z łatwo dostępnymi danymi eksperymentalnymi, do których proponowane podejście może być zastosowane.

Iteracyjne szkolenie poprawia wydajność przewidywania

Jako drugi kluczowy aspekt proponowanego podejścia, badamy wpływ iteracyjnej procedury szkolenia na ostateczną wydajność przewidywania. W tym celu dla każdego TF porównujemy wartości AUC-PR uzyskane przez uśrednienie przewidywań wszystkich pięciu klasyfikatorów wynikających z iteracyjnej procedury szkoleniowej dla wszystkich typów komórek treningowych z wartościami AUC-PR uzyskanymi przez uśrednienie przewidywań tylko początkowo wytrenowanych klasyfikatorów dla wszystkich typów komórek treningowych, tj. klasyfikatorów wytrenowanych tylko na początkowych danych treningowych (sekcja „Początkowe dane treningowe”).

Dla 11 z 13 zestawów danych testowych obserwujemy poprawę wydajności przewidywań dzięki iteracyjnej procedurze szkoleniowej (Rys. 3). Największą poprawę uzyskujemy dla E2F1 (0.114), FOXA2 (0.085), NANOG (0.08), FOXA1 (0.063) oraz MAX (0.061). Wśród nich są TF, dla których zaobserwowaliśmy dobre wyniki przy użyciu tylko cech opartych na DNase-seq (E2F1, MAX) oraz TF, dla których połączenie z cechami opartymi na motywach było korzystne (FOXA1, FOXA2, NANOG), co wskazuje, że dodatkowe negatywne regiony dodane w iteracjach od 2 do 5 nie indukują tendencyjności w kierunku żadnego z tych dwóch typów cech. Dla czterech z tych pięciu TF-ów, tylko jeden (FOXA2, NANOG, FOXA1) lub dwa (E2F1) typy komórek treningowych zostały dostarczone, a zróżnicowanie pomiędzy różnymi klasyfikatorami z iteracyjnego treningu może pomóc uniknąć przepasowania. Natomiast w przypadku JUND (0,041), a także TAF1 (0,01) obserwujemy spadek wydajności, co może być spowodowane silniejszym naciskiem na regiony wiążące specyficzne dla danego typu komórki w kolejnych iteracjach iteracyjnej procedury treningowej. Hipotezę tę potwierdza również obserwacja, że iteracyjna procedura treningowa zawsze prowadzi do wzrostu wydajności predykcji, jeśli parametry klasyfikatora są trenowane na chromosomach treningowych badanego typu komórek (plik dodatkowy 1: Rysunek S4).

Fig. 3
figure3

Relewantność iteracyjnej procedury treningowej. Dla każdego z 13 zestawów danych testowych, porównujemy wydajność (AUC-PR) uzyskaną przez (zestaw) klasyfikatora(ów) wyszkolonego(ych) na początkowych regionach negatywnych (odcięta) z wydajnością uzyskaną przez uśrednienie po wszystkich klasyfikatorach z iteracyjnej procedury szkoleniowej (rzędna)

Uśrednianie przewidywań poprawia w stosunku do losowego wyboru typów komórek

Dla 9 z 12 rozważanych TF, dane dla więcej niż jednego typu komórek treningowych są dostarczane wraz z danymi wyzwania. Stąd, jednym z centralnych pytań może być wybór typu komórki użytej do treningu, a następnie do tworzenia przewidywań dla testowego typu komórki. Jednakże, jedynymi danymi doświadczalnymi specyficznymi dla danego typu komórki, dostępnymi dla dokonania tego wyboru, są dane DNase-seq i RNA-seq, podczas gdy podobieństwo typów komórek może zależeć od rozważanego TF. Istotnie, miary podobieństwa uzyskane z danych DNase-seq (np. współczynniki Jaccarda nakładających się pików DNase-seq, korelacja profili) lub z danych RNA-seq (np, korelacja wartości TPM) okazały się nieinformatywne w odniesieniu do podobieństwa regionów wiążących TF we wstępnych badaniach na typach komórek treningowych.

W związku z tym, wybór typu komórek treningowych traktujemy jako zmienną ukrytą i uśredniamy przewidywania wygenerowane przez odpowiednie klasyfikatory (patrz sekcja „Schemat przewidywania”). Ponieważ etykiety testowych typów komórek zostały udostępnione po zakończeniu wyzwania, możemy teraz ocenić wpływ tego wyboru na wydajność predykcji, a także przetestować wydajność predykcji klasyfikatorów wytrenowanych na poszczególnych typach komórek (Rys. 4). 4).

Fig. 4
figure4

Wydajność klasyfikatorów zespołowych. Dla każdego z 13 zestawów danych testowych porównujemy wydajność (AUC-PR) indywidualnych klasyfikatorów wytrenowanych na pojedynczych typach komórek (otwarte okręgi) do wydajności klasyfikatora ensemble uśredniającego wszystkie klasyfikatory wytrenowane na wszystkich typach komórek treningowych (wypełnione, pomarańczowe okręgi). Jako odniesienie, wykreślamy również medianę poszczególnych klasyfikatorów jako czerwony pasek

Dla wszystkich zestawów danych testowych z wieloma dostępnymi typami komórek treningowych, stwierdzamy, że uśredniona predykcja daje wartości AUC-PR powyżej mediany wartości AUC-PR uzyskanych dla poszczególnych typów komórek treningowych. Poprawa ta jest szczególnie wyraźna dla REST, GABPA i MAX.

Aby dokładniej zbadać, czy uśrednianie klasyfikatorów dla poszczególnych typów komórek faworyzuje konserwatywne regiony wiążące (tj. regiony oznaczone jako „związane” w większości typów komórek) w stosunku do regionów wiążących specyficznych dla danego typu komórek, oceniamy również wydajność przewidywania dla takich regionów oddzielnie (plik dodatkowy 1: Rysunek S5). W szczególności, uznajemy region związany za konserwatywny, jeśli jest on również oznaczony jako „związany” w co najmniej trzech z czterech trenujących typów komórek, a region związany za specyficzny dla danego typu komórki, jeśli jest on oznaczony jako „związany” w co najwyżej jednym z czterech trenujących typów komórek. Pierwszą rzeczą, którą zauważamy z pliku dodatkowego 1: Rysunek S5 jest to, że bezwzględne wartości AUC-PR są znacznie niższe dla regionów specyficznych dla typu komórki niż dla regionów konserwatywnych. Jednym z wyjaśnień może być różnica w (im-)równowadze klas ze względu na wybrane podzbiory regionów. Jednakże ta ogólna tendencja utrzymuje się, gdy weźmiemy pod uwagę AUC-ROC (plik dodatkowy 1: Rysunek S6). Po drugie, stwierdzamy, że zróżnicowanie pomiędzy klasyfikatorami nauczonymi z różnych typów komórek treningowych jest w większości przypadków większe dla regionów specyficznych dla danego typu komórek niż dla regionów konserwatywnych. Zachowanie w odniesieniu do bezwzględnej wydajności jest podobne dla poszczególnych klasyfikatorów, ich mediany wydajności oraz wydajności uśredniania klasyfikatorów dla poszczególnych typów komórek. Zauważamy, że AUC-PR uzyskany dzięki uśrednianiu jest zawsze lepszy niż mediana wydajności dla poszczególnych typów komórek dla regionów konserwatywnych, ale to samo dotyczy regionów specyficznych dla typów komórek dla siedmiu z dziewięciu zestawów danych z więcej niż jednym typem komórek treningowych.

Więc możemy twierdzić, że uśrednianie klasyfikatorów specyficznych dla typów komórek generalnie daje dokładniejsze przewidywania, niż byłoby to osiągnięte przez nieświadomy wybór jednego konkretnego typu komórek treningowych.

Jednakże dla prawie wszystkich zestawów danych testowych z wieloma typami komórek szkoleniowych (jedynym wyjątkiem jest CTCF dla typu komórek PC-3) zauważamy również, że najlepsza wydajność przewidywania uzyskana dla jednego z poszczególnych typów komórek szkoleniowych przyniosłaby, w niektórych przypadkach znaczną, poprawę w stosunku do proponowanej procedury uśredniania. W szczególności, wariancja AUC-PR pomiędzy różnymi typami komórek treningowych jest szczególnie wyraźna dla JUND, co potwierdza wcześniejszą hipotezę, że niektóre cechy, na przykład motywy wiążące lub współwiązanie TF, są wysoce specyficzne dla typów komórek w przypadku JUND. Ogólnie rzecz biorąc, wyprowadzenie informacyjnych miar podobieństwa TF specyficznych dla danego typu komórki na podstawie testów specyficznych dla danego typu komórki i wstępnych przewidywań miejsc wiązania, prawdopodobnie doprowadziłoby do dalszego zwiększenia wydajności metod obliczeniowych do przewidywania wiązania TF specyficznych dla danego typu komórki.

Tworzenie kolekcji specyficznych dla typu komórki ścieżek wiązania TF

Po ustaleniu, że pojedynczy typ badania eksperymentalnego, mianowicie DNase-seq, jest wystarczający do przewidywania specyficznego dla typu komórki wiązania TF z dokładnością state-of-the-art, możemy teraz wykorzystać klasyfikatory uzyskane na trenowanych typach komórek i TF do przewidywania kolejnych typów komórek. W tym celu wykorzystujemy klasyfikatory uwzględniające jedynie cechy oparte na DNase-seq i motywach, ale nie uwzględniające cech opartych na RNA-seq, cech opartych na anotacjach, ani cech opartych na surowej sekwencji, co pozwoliło na uzyskanie wydajności predykcji porównywalnej z wcześniejszym modelem pełnym (por. Rys. 1, sekcja „Wpływ zestawów cech na wydajność predykcji”). W tym celu, pobraliśmy dane DNase-seq dla kolekcji pierwotnych typów komórek i tkanek (patrz sekcja „Dane”), przetworzyliśmy je w taki sam sposób jak oryginalne dane z wyzwania, a następnie wyodrębniliśmy cechy zależne od DNase-seq (sekcja „Cechy”). Następnie zastosowaliśmy wyszkolone klasyfikatory dla wszystkich 31 TF rozważanych w wyzwaniu do tych 22 zestawów cech DNase-seq, aby uzyskać w sumie 682 ścieżki predykcji.

Dla wybranych typów komórek (plik dodatkowy 1: Tabela S5), tylko kilka danych ChIP-seq specyficznych dla danego typu komórki i TF jest dostępnych (plik dodatkowy 1: Tabela S6). Z jednej strony oznacza to, że przewidywane ścieżki wiązania TF dostarczają cennych, nowych informacji dla badanej kolekcji 31 TF. Z drugiej strony, daje to możliwość przeprowadzenia analizy porównawczej i kontroli poprawności przewidywań dla podzbioru tych TF i typów komórek, dla których dostępne są odpowiednie dane ChIP-seq. Dla benchmarkingu, dodatkowo otrzymujemy „zrelaksowane” i (tam gdzie dostępne) „konserwatywne” pliki pików z ENCODE i uzyskujemy powiązane etykiety („bound”, „unbound”, „ambiguous”) zgodnie z procedurą zaproponowaną dla wyzwania ENCODE-DREAM.

Dla CTCF z dostępnymi pikami ChIP-seq dla wielu typów komórek, generalnie znajdujemy wydajność predykcji, która jest porównywalna z wydajnością obserwowaną na danych wyzwania (por. plik dodatkowy 1: Tabela S4). Dla tych typów komórek, wartości AUC-PR (Dodatkowy plik 1: Tabela S7) wahają się między 0,7720 a 0,8197, jeśli dostępne są konserwatywne i zrelaksowane szczyty oraz jeśli dawcy pasują do siebie pomiędzy eksperymentami DNase-seq i ChIP-seq, podczas gdy wydajność jest nieco niższa dla niepasujących dawców (0,7322) i w przypadku brakujących konserwatywnych pików (0,7270). W przypadku JUN, MAX i MYC, z ENCODE dostępne są tylko piki rozluźnione z powodu brakujących replik. Znajdujemy tu wartości AUC-PR wynoszące 0,6310 dla JUN, co jest znacznie większe niż dla danych z wyzwania; 0,4004 dla MAX, co jest nieco niższe niż dla danych z wyzwania; oraz 0,1989 dla MYC, który nie był wśród testowanych TF-ów w wyzwaniu, ale uzyskał znacznie lepsze wyniki w rundzie leaderboard.

682 ścieżki predykcji dla całego genomu są nadal dość duże (około 880 MB na ścieżkę) i w związku z tym wymagają znacznej przestrzeni dyskowej, która może być niedostępna dla typowego użytkownika, podczas gdy większość regionów prawdopodobnie nie jest związana przez interesujący nas TF. Dlatego też, dalej zagęszczamy te przewidywania w przewidywane listy szczytów w formacie narrowPeak, łącząc sąsiadujące odcinki o wysokim prawdopodobieństwie wiązania i stosując próg 0.6 (zrelaksowany) i 0.8 (konserwatywny) na maksymalnym prawdopodobieństwie obserwowanym w przewidywanym „piku”. Zapewniamy te pliki szczytowe do pobrania na stronie https://www.synapse.org/#!Synapse:syn11526239(doi:10.7303/syn11526239).

Aby uzyskać wrażenie jakości przewidywanych szczytów, dalej obliczamy współczynniki Jaccarda oparte na nakładaniu się szczytów (obliczone przy użyciu pakietu GenomicRanges R) między przewidywanymi plikami szczytów a tymi z odpowiednich, dostępnych szczytów ChIP-seq (plik dodatkowy 1: Tabela S9, S11), i stwierdzamy, że są one szeroko zgodne z poprzednią oceną opartą na etykietach pochodnych.

Wreszcie, dane dla CTCF pozwalają na porównanie nakładania się przewidywanych list pików i eksperymentalnie wyznaczonych list pików do nakładania się obserwowanego dla (i) replik technicznych (plik dodatkowy 1: Tabela S12) i (ii) replik biologicznych (plik dodatkowy 1: Tabela S10). Stwierdziliśmy, że nakładanie się przewidywań i pików o progach IDR jest mniejsze niż nakładanie się pików o progach IDR i/lub replik technicznych. Dla CTCF, dostępne są trzy niezależne eksperymenty dla tkanki „foreskin fibroblast”, a my używamy dwóch niezależnych próbek DNase-seq dla tej tkanki do naszych przewidywań. Porównując współczynniki Jaccarda w tych dwóch sytuacjach (por. plik dodatkowy 1: tabele S9, S10), stwierdzamy, że współczynniki Jaccarda między predykcjami a szczytami progowanymi przez IDR wahają się między 0,568 a 0,693, podczas gdy dla replik biologicznych obserwujemy współczynniki Jaccarda między 0,658 a 0,72. Na podstawie tych ograniczonych danych możemy stwierdzić, że przewidywania obliczeniowe są mniej spójne niż repliki biologiczne tylko z niewielkim marginesem, przynajmniej dla CTCF.

Na podstawie przewidywanych list pików możemy również porównać przewidywane charakterystyki wiązania różnych TF w różnych typach komórek. Po pierwsze, sprawdzamy liczbę przewidywanych pików dla poszczególnych TF i typów komórek (plik dodatkowy 1: Rysunek S7). Odnajdujemy wyraźną grupę wysoce obfitych TF (CTCF, GATA3, SPI1, CEBPB, FOXA1, FOXA2, MAX), które typowo wykazują również dużą liczbę pików w danych treningowych. Wśród nich, znajdujemy wzorce specyficzności dla typów komórek, od wszechobecnego CTCF do bardziej zróżnicowanej obfitości dla GATA3. Pozostała część TF uzyskuje znacznie niższą liczbę przewidywanych pików z podobnymi wzorcami, np. dla ATF7/ARID3A/NANOG lub EP300/TEAD4/JUND, gdzie ta ostatnia grupa została zgłoszona jako współwiążąca się w dystalnych enhancerach. Następnie badamy stabilność przewidywań szczytów, tj. współczynniki Jaccarda szczytów przewidywanych dla każdego z TF w różnych typach komórek (plik dodatkowy 1: Rysunek S8). Ponownie, stwierdzamy znaczne zróżnicowanie pomiędzy TFs, przy czym GABPA, CTCF i REST mają medianę współczynników Jaccarda powyżej 0,7. Warto zauważyć, że CTCF był jednym z TF o największej liczbie przewidywanych pików (mediana 37 455), podczas gdy zaobserwowaliśmy o rząd wielkości mniej przewidywanych pików dla REST (mediana 3 364) i GABPA (mediana 5 430). Na drugim końcu skali znajdujemy pośrednio wiążące TF, takie jak EP300, lub TF, które są wysoce specyficzne dla typów komórek niereprezentowanych w naszych danych, takich jak NANOG (komórki macierzyste) i HNF4A (wątroba, nerki, jelita). Wreszcie, badamy współwiązanie TFs poprzez obliczenie średniego współczynnika Jaccarda w typach komórek dla każdej pary TFs (plik dodatkowy 1: Rysunek S9). Tutaj obserwujemy wyraźne grupy współwystępujących TF, takich jak CTCF/ZNF143 lub FOXA1/FOXA2, które są znane z interakcji in vivo. Ponadto, znajdujemy większe skupisko TF o znacznych nakładkach pomiędzy ich przewidywanymi szczytami, obejmujące YY1, MAX, CREB1, MYC, E2F6, E2F1 i TAF1. Ponieważ TAF1 (TATA-box binding protein associated factor 1) jest związany z inicjacją transkrypcji w polu TATA, jednym z wyjaśnień może być fakt, że miejsca wiązania tych TF są wzbogacone przy rdzeniowych promotorach. Rzeczywiście, wiązanie do proksymalnych promotorów zostało odnotowane dla czynników MYC/MAX , CREB1 , YY1 i E2F .

Uproszczona implementacja Catchitt daje konkurencyjną wydajność

W końcu porównujemy Catchitt, uproszczoną implementację iteracyjnego podejścia szkoleniowego łączącego dostępność chromatyny i wyniki motywów, z implementacją wyzwania wykorzystującą cechy oparte na DNase-seq i motywach dla przypadku typu komórki. W tym celu wybieramy pięć kombinacji typu komórki i czynnika transkrypcyjnego, które obejmują zakres wartości wydajności zaobserwowanych w wyzwaniu. W szczególności, rozważamy NANOG i TAF1, które uzyskały najniższe wartości AUC-PR (por. plik dodatkowy 1: Rysunek S3) dla implementacji wyzwania; CTCF w komórkach IPSC, który uzyskał największą wartość AUC-PR; oraz FOXA1 i HNF4A, które uzyskały średnie wartości AUC-PR, ale znacząco skorzystały z iteracyjnego treningu (por. plik dodatkowy 1: Rysunek S4). Wyniki tego porównania podsumowujemy w pliku dodatkowym 1: Tabela S13. Pomimo około dziesięciokrotnego zmniejszenia liczby rozważanych motywów i dalszych uproszczeń (sekcja „Catchitt: a streamlined open-source implementation”), Catchitt wciąż daje konkurencyjne wartości AUC-PR. Uszeregowując wyniki Catchitta w ramach oryginalnych wyników wyzwania, stwierdzamy, że wydajność osiągnięta przez wyniki Catchitta jest tylko o dwie rangi niższa niż implementacja wyzwania wykorzystująca cechy oparte na DNase-seq i motywach. Tak jak poprzednio, stwierdzamy znaczną poprawę wydajności predykcji dzięki iteracyjnej procedurze treningowej.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.