Previsão precisa da ligação do factor de transcrição específico do tipo de célula

Durante o desafio ENCODE-DREAM, um grande número de abordagens criadas por 40 equipas internacionais foram referenciadas em 13 ensaios ChIP-seq específicos do tipo de célula para 12 TFs diferentes em humanos (Ficheiro adicional 1: Figura S1). Um conjunto de 109 conjuntos de dados para os mesmos (e adicionais) TFs em outros tipos de células foi fornecido para treinamento. Os dados de treinamento incluíram dados DNase-seq específicos do tipo de célula, dados RNA-seq específicos do tipo de célula, seqüência genômica e anotações, e em previsões de forma de DNA silico. Além disso, foram fornecidos dados ChIP-seq específicos de tipo de célula e TF e etiquetas derivadas para cromossomos de treinamento, enquanto as previsões foram avaliadas apenas nos cromossomos restantes, hold-out chr1, chr8, e chr21 que não foram fornecidos com nenhum dos dados de treinamento ChIP-seq. Para regiões de 200 bp deslocadas por 50 bp, foram solicitadas às equipas participantes previsões de genoma da probabilidade de uma região específica se sobrepor a um pico ChIP-seq. As previsões foram avaliadas (i) pela área sob a curva ROC (AUC-ROC), (ii) pela área sob a curva de chamada de precisão (AUC-PR), (iii) recall a 10% FDR, e (iv) recall a 50% FDR em cada um dos 13 conjuntos de dados de teste. Estes foram agregados por conjunto de dados com base na média da classificação normalizada obtida para cada uma destas medidas em 10 amostras de “bootstrap” dos cromossomas “hold-out”, e uma classificação final foi obtida como a média destas estatísticas de classificação (cf. https://www.synapse.org/#!Synapse:syn6131484/wiki/405275).

Como resultado desta classificação, a abordagem apresentada neste artigo (equipa “J-Team”) obteve uma primeira classificação partilhada juntamente com a abordagem criada pela equipa “Yuanfang Guan”

A seguir, investigamos a influência de diferentes aspectos da abordagem proposta no desempenho da previsão final. Primeiro, inspecionamos o impacto de diferentes conjuntos de características relacionadas (dados DNase-seq, pontuação de motivos, dados RNA-seq, características baseadas em seqüência e anotação) no desempenho da previsão. Em segundo lugar, estudamos a importância da abordagem de treinamento iterativo, em oposição a um treinamento sobre dados de treinamento inicial. Terceiro, comparamos o desempenho das previsões obtidas pelos classificadores treinados em dados de treinamento para tipos de células individuais com o desempenho da previsão agregada obtida através da média sobre esses tipos de células. Finalmente, aplicamos o método proposto para prever a ligação de TFs específicas para 31 TFs em 22 tipos de células primárias adicionais, resultando num total de 682 pistas de previsão.

Impacto dos conjuntos de características no desempenho da previsão

Usamos o desempenho da previsão obtido pela abordagem proposta usando todos os conjuntos de características (seção “Características”), o procedimento de treinamento iterativo (seção “Treinamento iterativo”), e a agregação sobre todos os tipos de células de treinamento (seção “Esquema de previsão”) como uma linha de base para todas as outras comparações (Fig. 1; “todas as características”). Ao longo deste manuscrito, consideramos a AUC-PR como a medida primária de desempenho, uma vez que a AUC-PR é mais informativa sobre o desempenho da classificação para problemas de classificação fortemente desequilibrados, e a recordação nos diferentes níveis de FDR é bastante instável, uma vez que corresponde a pontos únicos na curva de precisão-recalque. Os valores da AUC-PR são calculados usando o PRROC do pacote R, que também foi usado no desafio ENCODE-DREAM.

Fig. 1
figure1

desempenho do tipo de célula cruzada. Para cada uma das 13 combinações de TF e tipo de célula dentro dos dados do teste, calculamos o desempenho da previsão (AUC-PR) nos cromossomas dos classificadores (i) usando todas as características consideradas, (ii) usando apenas características baseadas em motivo, (iii) usando apenas características baseadas em DNase-seq, e (iv) usando apenas características baseadas em motivo e DNase-seq. O desempenho mediano dos classificadores usando todas as características é indicado por uma linha tracejada

Verificamos que o desempenho de previsão medido pela AUC-PR varia muito entre os diferentes fatores de transcrição (Fig. 1) com um valor mediano da AUC-PR de 0,4098. O melhor desempenho de previsão é obtido para o CTCF, que tem um motivo de ligação longo e rico em informação, em dois tipos diferentes de células (IPSC e PC-3). O desempenho acima da média também é obtido para FOXA1 e HNF4A em células hepáticas. Para a maioria das outras TFs, encontramos valores AUC-PR em torno de 0,4, enquanto observamos uma precisão de predição bastante baixa para NANOG e REST.

Para analisar a contribuição de características selecionadas no desempenho de predição final, sistematicamente excluímos conjuntos de características relacionadas dos dados de entrada no treinamento e predição. Como linha de base, medimos a AUC-PR para o classificador usando todos os conjuntos de características. Além disso, medimos a AUC-PR ao excluir cada conjunto de características individuais, onde a diferença destes dois valores de AUC-PR quantifica a melhoria obtida pela inclusão do conjunto de características (Fig. 2a).

Fig. 2
figure2

Importance of feature sets. a Testamos a importância de conjuntos de características relacionadas excluindo um conjunto de características dos dados de treinamento, medindo o desempenho (AUC-PR) do classificador resultante, e subtraindo este valor AUC-PR do valor correspondente alcançado pelo classificador usando todas as características. Assim, se Δ AUC-PR estiver acima de zero, o conjunto de características à esquerda melhorou o desempenho da previsão final, enquanto que Δ valores AUC-PR abaixo de zero indicam um efeito negativo no desempenho da previsão. Nós coletamos os valores de Δ AUC-PR para todos os 13 conjuntos de dados de teste e os visualizamos como gráficos de violino. b Avaliação de diferentes grupos de características baseadas em DNase-seq. Neste caso, comparamos o desempenho incluindo um grupo específico de características baseadas em DNase-seq (cf. arquivo adicional 1: Texto S2)) com o desempenho sem nenhuma característica baseada em DNase-seq (cf. violino “DNase-seq” no painel a). Verificamos que todas as características baseadas em DNase-seq contribuem positivamente para a previsão do desempenho

Observamos o maior impacto para o conjunto de características derivadas dos dados DNase-seq. A melhoria na AUC-PR obtida ao incluir dados DNase-seq varia entre 0,087 para E2F1 e 0,440 para HNF4A com uma mediana de 0,252.

As características baseadas nas pontuações dos motivos (incluindo os novos motivos descobertos e os das bases de dados) também contribuem substancialmente para o desempenho da previsão final. Aqui, observamos grandes melhorias para algumas TFs, nomeadamente 0,231 para CTCF em células IPSC, 0,175 para CTCF em células PC-3, e 0,167 para FOXA1. Em contraste, observamos uma diminuição no desempenho de previsão no caso do JUND (- 0,080) ao incluir características baseadas no motivo. Para os TFs restantes, encontramos melhorias da AUC-PR entre 0,008 e 0,079. Consideramos ainda dois subconjuntos de motivos, nomeadamente todos os motivos obtidos pela descoberta de novo motivo nos dados do desafio e todos os modelos Slim/LSlim que capturam dependências intra-motif. Para os motivos da descoberta de novo motivo, encontramos uma melhoria para 9 dos 13 conjuntos de dados, e para o modelo Slim/LSlim, encontramos uma melhoria para 10 dos 13 conjuntos de dados. Contudo, as melhorias absolutas (mediana de 0,011 e 0,006, respectivamente) são bastante pequenas, possivelmente porque (i) os motivos obtidos pela descoberta de novo motivo podem ser redundantes para aqueles encontrados em bancos de dados e (ii) as dependências e heterogeneidades intra-motivo capturadas pelos modelos Slim/LSlim podem ser parcialmente cobertas por variações nos motivos de diferentes fontes.

Notably, características baseadas em RNA-seq (mediana 0.001), características baseadas em anotação (0.000) e características baseadas em sequência (0.001) quase não têm influência no desempenho da previsão.

Como o conjunto de características baseadas em DNase-seq é bastante diversificado, incluindo características derivadas de faixas de enriquecimento dobráveis, listas de picos, ou variação entre tipos de células, o nosso objetivo é dissecar ainda mais a influência de grupos relacionados dessas características. Para isso, testamos ainda mais como o desempenho da previsão é afetado pela remoção de grupos específicos de características DNase-seq (cf. arquivo adicional 1: Texto S2) do conjunto completo de características (arquivo adicional 1: Figura S2). Isto pode ser explicado por amplas redundâncias e correlações que ainda existem entre esses diferentes grupos, o que permite uma grande compensação pela perda de um único grupo de características.

Hence, nós adicionalmente testamos um cenário, onde deixando de fora todas as características baseadas em DNase-seq (ou seja, os dados por trás do enredo de violino “DNase-seq” da Fig. 2a) é considerado o caso base, e apenas um dos grupos específicos é adicionado a este conjunto reduzido de características (Fig. 2b). Em primeiro lugar, observamos que todos os grupos de características contribuem positivamente para o desempenho total da previsão. A maior contribuição pode ser observada para o grupo “fold-enrichment”, mas também grupos relacionados como “longo alcance” basicamente calculando a média em janelas mais amplas da pista de “fold-enrichment”, e “baseado em picos” usando picos que foram originalmente chamados com base na cobertura DNase-seq. Nós encontramos a menor contribuição para o grupo de “variação”, que mede a variação e conservação, respectivamente, do sinal DNase-seq entre os tipos de células. Como a contribuição de cada grupo individual de características é positiva, ainda consideramos o conjunto completo de características baseadas em DNase-seq no seguinte.

Having estabeleceu que as características baseadas em DNase-seq e em motivos têm um grande impacto no desempenho da previsão, também testamos o desempenho da previsão da abordagem proposta usando apenas características baseadas em dados DNase-seq e motivos TF, respectivamente. Todas as outras características, ou seja, características baseadas em RNA-seq, características baseadas em anotação e características baseadas em sequência bruta, estão excluídas. Descobrimos (Fig. 1) que os classificadores que usam exclusivamente características baseadas em motivos já produzem um desempenho de previsão razoável para algumas TFs (CTCF e, até certo ponto, E2F1 e GABPA), enquanto observamos valores AUC-PR abaixo de 0,12 para o restante das TFs. Isto pode ser explicado pelo grande número de previsões falsas positivas normalmente geradas por abordagens que utilizam exclusivamente informação de motivos, que só podem ser evitadas no caso de motivos longos e específicos, como é o caso de CTCF.

Classificadores que utilizam apenas características baseadas em DNase-seq produzem um desempenho notável para muitas das TFs estudadas (Fig. 1), que é inferior ao do classificador baseado em motivos apenas para os dois conjuntos de dados do CTCF. Para alguns conjuntos de dados (especialmente JUND, mas também EGR1, MAX), observamos até mesmo que um classificador baseado apenas em dados DNase-seq supera o classificador utilizando todas as características.

No caso de JUND, o aumento no desempenho quando negligenciamos todas as características não baseadas em Nase pode provavelmente ser atribuído a uma forte adaptação dos parâmetros do classificador a motivos de ligação específicos do tipo de célula ou à co-ligação específica do tipo de célula com outras TFs, porque JUND é o único conjunto de dados com um desempenho melhorado quando se excluem as características baseadas em motivo, como discutido acima. Para todas as três TFs, encontramos uma melhoria do desempenho da previsão se os parâmetros do classificador forem treinados nos cromossomas de treinamento do tipo de célula de teste (caso “dentro do tipo de célula”; arquivo adicional 1: Figura S3).

Desde que as características baseadas em DNase-seq e as baseadas em motivo parecem ser os conjuntos de características principais que afetam o desempenho da previsão, finalmente estudamos o desempenho da previsão de um classificador usando apenas estes dois conjuntos de características. Observamos que o desempenho de previsão usando apenas características baseadas em DNase-seq e baseadas em motivo é largamente idêntico ao do classificador usando todas as características (Fig. 1), onde observamos a maior perda em AUC-PR para TAF1 (0,017) e o maior ganho em AUC-PR para NANOG (0,007). Observamos um comportamento semelhante para o caso do tipo de célula dentro (arquivo adicional 1: Figura S3). Como os conjuntos de características deixadas de lado incluem todas as características baseadas em RNA-seq, isto também tem como consequência que um ensaio de tipo específico de célula (nomeadamente DNase-seq) é suficiente para prever a ligação TF, o que amplia o escopo dos tipos de células com dados experimentais prontamente disponíveis que a abordagem proposta pode ser aplicada a.

O treinamento iterativo melhora o desempenho da previsão

Como um segundo aspecto chave da abordagem proposta, investigamos o impacto do procedimento de treinamento iterativo sobre o desempenho da previsão final. Para tanto, comparamos para cada TF os valores de AUC-PR obtidos pela média sobre as previsões dos cinco classificadores resultantes do procedimento de treinamento iterativo para todos os tipos de células de treinamento com os valores de AUC-PR obtidos pela média apenas sobre os classificadores inicialmente treinados para todos os tipos de células de treinamento, ou seja, classificadores treinados apenas sobre os dados de treinamento inicial (seção “Dados de treinamento inicial”).

Para 11 dos 13 conjuntos de dados de teste, observamos uma melhora no desempenho da previsão pelo procedimento de treinamento iterativo (Fig. 3). As maiores melhorias são alcançadas para E2F1 (0,114), FOXA2 (0,085), NANOG (0,08), FOXA1 (0,063), e MAX (0,061). Entre eles estão os TFs para os quais observamos um bom desempenho usando apenas características baseadas em DNase-seq (E2F1, MAX) e TFs para os quais a combinação com características baseadas em motivos foi benéfica (FOXA1, FOXA2, NANOG), o que indica que as regiões negativas adicionais adicionadas nas iterações 2 a 5 não induzem um viés em relação a nenhum destes dois tipos de características. Para quatro destes cinco TFs, apenas um (FOXA2, NANOG, FOXA1) ou dois (E2F1) tipos de células de treinamento foram fornecidos, e a variação entre os diferentes classificadores do treinamento iterativo pode ajudar a evitar o ajuste excessivo. Em contraste, encontramos uma diminuição no desempenho do JUND (0,041) e também do TAF1 (0,01), que pode ser causada por uma maior ênfase nas regiões de ligação específica do tipo de célula nas iterações subsequentes do procedimento de treinamento iterativo. Esta hipótese também é apoiada pela observação de que o procedimento de treinamento iterativo sempre leva a um aumento no desempenho da previsão se os parâmetros classificadores forem treinados nos cromossomos de treinamento do tipo de célula de teste (arquivo adicional 1: Figura S4).

Fig. 3
figure3

Relevantamento do procedimento de treinamento iterativo. Para cada um dos 13 conjuntos de dados de teste, comparamos o desempenho (AUC-PR) alcançado pelo (conjunto de) classificador(es) treinado(s) nas regiões negativas iniciais (abcissas) com o desempenho alcançado pela média sobre todos os classificadores do procedimento de treinamento iterativo (ordenadas)

Previsões médias melhoram sobre a seleção aleatória de tipos de células

Para 9 dos 12 TFs considerados, Os dados para mais de um tipo de célula de treinamento são fornecidos com os dados do desafio. Portanto, uma questão central pode ser a escolha do tipo de célula usada para treinamento e, posteriormente, para fazer previsões para o tipo de célula de teste. Entretanto, os únicos dados experimentais disponíveis para fazer essa escolha são dados DNase-seq e RNA-seq, enquanto a similaridade dos tipos de células pode depender da TF considerada. De fato, medidas de similaridade derivadas de dados DNase-seq (por exemplo, coeficientes Jaccard de picos DNase-seq sobrepostos, correlação de perfis) ou de dados RNA-seq (por exemplo correlação dos valores de TPM) mostraram ser não-informativas em relação à similaridade das regiões de ligação TF em estudos preliminares sobre os tipos de células de treinamento.

Hence, consideramos a escolha do tipo de célula de treinamento uma variável latente, e a média sobre as previsões geradas pelos respectivos classificadores (ver a seção “Esquema de previsão”). Como os rótulos dos tipos de células de teste foram disponibilizados após o desafio, podemos agora avaliar o impacto desta escolha no desempenho da previsão e também testar o desempenho da previsão de classificadores treinados em tipos de células individuais (Fig. 4).

Fig. 4
figure4

Desempenho dos classificadores de conjuntos. Para cada um dos 13 conjuntos de dados de teste, comparamos o desempenho (AUC-PR) dos classificadores individuais treinados em tipos de células individuais (círculos abertos) com o do classificador de conjunto, calculando a média de todos os classificadores treinados em todos os tipos de células de treinamento (círculos preenchidos, laranja). Como referência, também plotamos a mediana dos classificadores individuais como uma barra vermelha

Para todos os conjuntos de dados de teste com múltiplos tipos de células de treinamento disponíveis, verificamos que a previsão média produz valores AUC-PR acima da mediana dos valores AUC-PR alcançados para os tipos de células de treinamento individuais. Esta melhora é especialmente pronunciada para REST, GABPA e MAX.

Para investigar melhor se a média sobre os classificadores de tipos de células individuais favorece regiões de ligação conservadas (ou seja, regiões rotuladas como “vinculadas” na maioria dos tipos de células) sobre regiões de ligação específicas do tipo de célula, também avaliamos o desempenho da previsão em tais regiões separadamente (arquivo adicional 1: Figura S5). Especificamente, consideramos uma região vinculada conservada se também for rotulada como “vinculada” em pelo menos três dos quatro tipos de células de treinamento, e consideramos uma região vinculada como específica do tipo de célula se essa região for rotulada como “vinculada” em no máximo um dos quatro tipos de células de treinamento. A primeira coisa que notamos no arquivo adicional 1: A Figura S5 é que os valores absolutos da AUC-PR são substancialmente mais baixos para regiões específicas de tipo de célula do que para regiões conservadas. Uma explicação pode ser uma diferença no equilíbrio da classe (im-)devido aos subconjuntos selecionados de regiões. Entretanto, esta tendência geral permanece quando se considera a AUC-ROC (arquivo adicional 1: Figura S6). Em segundo lugar, verificamos que a variação entre os classificadores aprendidos de diferentes tipos de células de treinamento é, na maioria dos casos, maior para as regiões específicas do tipo de célula do que para as regiões conservadas. O comportamento em relação ao desempenho absoluto é semelhante para os classificadores individuais, sua mediana de desempenho e o desempenho da média sobre os classificadores para os tipos de células individuais. Observamos que a AUC-PR obtida pela média é sempre melhor do que a mediana do desempenho dos tipos de células individuais para regiões conservadas, mas o mesmo se aplica quando consideramos regiões específicas de tipo de célula para sete dos nove conjuntos de dados com mais de um tipo de célula de treinamento.

Hence, podemos argumentar que a média sobre os classificadores específicos de tipo de célula geralmente produz previsões mais precisas do que seria obtido por uma escolha desinformada de um tipo específico de célula de treinamento.

No entanto, também observamos para quase todos os conjuntos de dados de teste com múltiplos tipos de células de treinamento (a única exceção é CTCF para o tipo de célula PC-3) que o melhor desempenho de previsão alcançado para um dos tipos de células de treinamento individuais teria obtido, em alguns casos, melhorias consideráveis em relação ao procedimento de média proposto. Notavelmente, a variação da AUC-PR entre os diferentes tipos de células de treinamento é especialmente pronunciada para JUND, o que suporta a hipótese anterior de que algumas características, por exemplo, motivos de ligação ou co-ligação de TFs, são altamente específicas para o tipo de célula de treinamento JUND. Em geral, a derivação de medidas informativas de similaridade de tipo de célula específica de TF com base em ensaios de tipo de célula específica e previsões preliminares do local de ligação, provavelmente levaria a um aumento adicional do desempenho das abordagens computacionais para a previsão de ligação de TF específica de tipo de célula.

Criando uma coleção de pistas de ligação TF específica do tipo de célula

Having estabeleceu que um único tipo de ensaio experimental, nomeadamente DNase-seq, é suficiente para prever a ligação TF específica do tipo de célula com precisão de última geração, nós podemos agora usar os classificadores obtidos nos tipos de células de treinamento e TFs para previsões em outros tipos de células. Para este fim, utilizamos os classificadores considerando apenas as características baseadas em DNase-seq e em motivos, mas nem as características baseadas em RNA-seq, nem as características baseadas em anotações, nem as características baseadas em seqüência bruta, que mostraram alcançar um desempenho de previsão comparável ao modelo completo antes (cf. Fig. 1, seção “Impacto de conjuntos de características de desempenho de previsão”). Para este fim, nós descarregamos dados DNase-seq para uma coleção de tipos de células e tecidos primários (ver seção “Dados”), processamos estes da mesma forma que os dados originais do desafio, e, subsequentemente, extraímos características dependentes do DNase-seq (seção “Características”). Em seguida, aplicamos os classificadores treinados para todos os 31 TFs considerados no desafio a esses 22 conjuntos de características DNase-seq para produzir um total de 682 pistas de previsão.

Para os tipos de células selecionados (Arquivo adicional 1: Tabela S5), apenas alguns tipos de células e dados ChIP-seq específicos de TF estão disponíveis (Arquivo adicional 1: Tabela S6). Por um lado, isto significa que as faixas de ligação de TF previstas fornecem informações novas e valiosas para a coleção de 31 TFs estudadas. Por outro lado, isto fornece a oportunidade de realizar benchmarking e verificações de sanidade em relação às previsões para o subconjunto destas TFs e tipos de células com os dados ChIP-seq correspondentes disponíveis. Para o benchmarking, obtemos adicionalmente os arquivos de pico “relaxados” e (quando disponíveis) “conservadores” do ENCODE e derivamos as etiquetas associadas (“bound”, “unbound”, “ambíguo”) de acordo com o procedimento proposto para o desafio ENCODE-DREAM.

Para o CTCF com picos ChIP-seq disponíveis para vários tipos de células, geralmente encontramos um desempenho de previsão comparável ao desempenho observado nos dados do desafio (cf. arquivo adicional 1: Tabela S4). Para esses tipos de células, os valores AUC-PR (arquivo adicional 1: Tabela S7) variam entre 0,7720 e 0,8197 se picos conservadores e relaxados estiverem disponíveis e se os doadores corresponderem entre os experimentos DNase-seq e ChIP-seq, enquanto o desempenho é ligeiramente menor para doadores não correspondentes (0,7322) e no caso de picos conservadores ausentes (0,7270). Para JUN, MAX e MYC, apenas picos relaxados estão disponíveis no ENCODE devido à falta de réplicas. Aqui, encontramos valores AUC-PR de 0,6310 para JUN, que é substancialmente maior do que para os dados do desafio; 0,4004 para MAX, que é ligeiramente menor do que para os dados do desafio; e 0,1989 para MYC, que não está entre os TFs de teste no desafio, mas obteve um desempenho substancialmente melhor na ronda do quadro de líderes.

As 682 faixas de previsão do genoma ainda são bastante grandes (aproximadamente 880 MB por faixa) e, portanto, a demanda por espaço de armazenamento substancial que pode não estar disponível para o usuário típico, enquanto a maioria das regiões provavelmente não estão ligadas pela TF de interesse. Assim, condensamos ainda mais estas previsões em listas de picos previstos no formato narrowPeak, unindo trechos contíguos com alta probabilidade de ligação e aplicando um limiar de 0,6 (relaxado) e 0,8 (conservador) sobre a probabilidade máxima observada em um “pico” previsto. Nós fornecemos esses arquivos de pico para download em https://www.synapse.org/#!Synapse:syn11526239(doi:10.7303/syn11526239).

Para obter uma impressão da qualidade dos picos previstos, calculamos ainda coeficientes Jaccard baseados em sobreposições de picos (calculados usando o pacote GenomicRanges R-package ) entre os arquivos de picos previstos e aqueles dos correspondentes picos ChIP-seq disponíveis (arquivo adicional 1: Tabela S9, S11), e encontramos aqueles que são amplamente concordantes com a avaliação anterior baseada nas etiquetas derivadas.

Finalmente, os dados para CTCF permitem comparar a sobreposição entre listas de picos previstos e listas de picos determinados experimentalmente com as sobreposições observadas para (i) réplicas técnicas (Arquivo adicional 1: Tabela S12) e (ii) réplicas biológicas (Arquivo adicional 1: Tabela S10). Descobrimos que as sobreposições entre as previsões e os picos de limiar IDR são menores que as entre os picos de limiar IDR e/ou réplicas técnicas. Para o CTCF, estão disponíveis três experimentos independentes para o tecido “prepúcio fibroblasto”, e usamos duas amostras DNase-seq independentes para esse tecido para a nossa previsão. Comparando os coeficientes Jaccard nessas duas situações (cf. arquivo adicional 1: Tabelas S9, S10), verificamos que os coeficientes Jaccard entre as previsões e os picos de limiar IDR variam entre 0,568 e 0,693, enquanto observamos coeficientes Jaccard entre 0,658 e 0,72 para réplicas biológicas. Com base nesses dados limitados, podemos concluir que as previsões computacionais são menos consistentes que as réplicas biológicas apenas por uma pequena margem, pelo menos para CTCF.

Baseado nas listas de picos previstos, podemos também comparar as características de ligação previstas das diferentes TFs entre os tipos de células. Primeiro, nós inspecionamos o número de picos previstos por TF e tipo de célula (arquivo adicional 1: Figura S7). Encontramos um grupo distinto de TFs altamente abundantes (CTCF, GATA3, SPI1, CEBPB, FOXA1, FOXA2, MAX), que tipicamente também mostram um grande número de picos nos dados de treinamento. Entre estes, encontramos padrões de especificidade do tipo de célula desde o CTCF onipresentemente abundante até uma maior variação da abundância para o GATA3. O restante das TFs obtém números substancialmente menores de picos previstos com padrões semelhantes, por exemplo, para ATF7/ARID3A/NANOG ou EP300/TEAD4/JUND, onde este último grupo tem sido reportado como co-ligado em realçadores distais . Em seguida, estudamos a estabilidade das previsões de pico, ou seja, os coeficientes Jaccard dos picos previstos para cada um dos TFs em diferentes tipos de células (arquivo adicional 1: Figura S8). Novamente, encontramos variação substancial entre as TFs com GABPA, CTCF, e REST com coeficientes Jaccard medianos acima de 0,7. Notavelmente, CTCF tem sido uma das TFs com maior número de picos previstos (mediana 37 455), enquanto observamos uma ordem de magnitude menos picos previstos para REST (mediana 3 364) e GABPA (mediana 5 430). No outro extremo da escala, encontramos TFs de ligação indirecta como EP300, ou TFs que são altamente específicos para tipos de células subrepresentadas nos nossos dados como NANOG (células estaminais) e HNF4A (fígado, rim, intestinos). Finalmente, investigamos a co-ligação de TFs através do cálculo do coeficiente médio de Jaccard entre os tipos de células para cada par de TFs (arquivo adicional 1: Figura S9). Aqui, observamos grupos distintos de TFs co-ocorrentes como CTCF/ZNF143 ou FOXA1/FOXA2, que são conhecidos por interagir in vivo . Além disso, encontramos um grupo maior de TFs com sobreposições substanciais entre os seus picos previstos, incluindo YY1, MAX, CREB1, MYC, E2F6, E2F1, e TAF1. Como o TAF1 (TATA-box binding protein associated factor 1) está associado à iniciação transcripcional na caixa TATA, uma explicação pode ser que os sítios de ligação destas TFs são enriquecidos nos promotores do núcleo. De facto, a ligação a promotores proximais foi reportada para MYC/MAX , CREB1 , YY1 , e factores E2F .

A implementação simplificada de Catchitt produz um desempenho competitivo

Comparamos finalmente Catchitt, a implementação simplificada da abordagem de treino iterativo combinando acessibilidade à cromatina e pontuação do motivo, com a implementação do desafio usando características baseadas em DNase-seq e baseadas no motivo para o caso do tipo de célula dentro. Para isso, selecionamos cinco combinações de tipo de célula e fator de transcrição, abrangendo o intervalo de valores de desempenho observados no desafio. Especificamente, consideramos NANOG e TAF1, que obtiveram os menores valores de AUC-PR (cf. arquivo adicional 1: Figura S3) para a implementação do desafio; CTCF em células IPSC, que obtiveram o maior valor de AUC-PR; e FOXA1 e HNF4A, que obtiveram valores médios de AUC-PR mas lucraram substancialmente com o treinamento iterativo (cf. arquivo adicional 1: Figura S4). Resumimos os resultados desta comparação no arquivo Adicional 1: Tabela S13. Apesar da redução de aproximadamente dez vezes no número de motivos considerados e de outras simplificações (seção “Catchitt: uma implementação simplificada de código aberto”), Catchitt ainda produz valores competitivos de AUC-PR. Classificando os resultados do Catchitt dentro dos resultados do desafio original, verificamos que o desempenho alcançado pelo Catchitt é apenas dois níveis inferior ao da implementação do desafio, usando características baseadas em DNase-seq e em motivos. Como antes, encontramos uma melhoria substancial do desempenho da previsão devido ao procedimento de treinamento iterativo.

Deixe uma resposta

O seu endereço de email não será publicado.