Durante o desafio ENCODE-DREAM, um grande número de abordagens criadas por 40 equipas internacionais foram referenciadas em 13 ensaios ChIP-seq específicos do tipo de célula para 12 TFs diferentes em humanos (Ficheiro adicional 1: Figura S1). Um conjunto de 109 conjuntos de dados para os mesmos (e adicionais) TFs em outros tipos de células foi fornecido para treinamento. Os dados de treinamento incluíram dados DNase-seq específicos do tipo de célula, dados RNA-seq específicos do tipo de célula, seqüência genômica e anotações, e em previsões de forma de DNA silico. Além disso, foram fornecidos dados ChIP-seq específicos de tipo de célula e TF e etiquetas derivadas para cromossomos de treinamento, enquanto as previsões foram avaliadas apenas nos cromossomos restantes, hold-out chr1, chr8, e chr21 que não foram fornecidos com nenhum dos dados de treinamento ChIP-seq. Para regiões de 200 bp deslocadas por 50 bp, foram solicitadas às equipas participantes previsões de genoma da probabilidade de uma região específica se sobrepor a um pico ChIP-seq. As previsões foram avaliadas (i) pela área sob a curva ROC (AUC-ROC), (ii) pela área sob a curva de chamada de precisão (AUC-PR), (iii) recall a 10% FDR, e (iv) recall a 50% FDR em cada um dos 13 conjuntos de dados de teste. Estes foram agregados por conjunto de dados com base na média da classificação normalizada obtida para cada uma destas medidas em 10 amostras de “bootstrap” dos cromossomas “hold-out”, e uma classificação final foi obtida como a média destas estatísticas de classificação (cf. https://www.synapse.org/#!Synapse:syn6131484/wiki/405275).
Como resultado desta classificação, a abordagem apresentada neste artigo (equipa “J-Team”) obteve uma primeira classificação partilhada juntamente com a abordagem criada pela equipa “Yuanfang Guan”
A seguir, investigamos a influência de diferentes aspectos da abordagem proposta no desempenho da previsão final. Primeiro, inspecionamos o impacto de diferentes conjuntos de características relacionadas (dados DNase-seq, pontuação de motivos, dados RNA-seq, características baseadas em seqüência e anotação) no desempenho da previsão. Em segundo lugar, estudamos a importância da abordagem de treinamento iterativo, em oposição a um treinamento sobre dados de treinamento inicial. Terceiro, comparamos o desempenho das previsões obtidas pelos classificadores treinados em dados de treinamento para tipos de células individuais com o desempenho da previsão agregada obtida através da média sobre esses tipos de células. Finalmente, aplicamos o método proposto para prever a ligação de TFs específicas para 31 TFs em 22 tipos de células primárias adicionais, resultando num total de 682 pistas de previsão.
- Impacto dos conjuntos de características no desempenho da previsão
- O treinamento iterativo melhora o desempenho da previsão
- Previsões médias melhoram sobre a seleção aleatória de tipos de células
- Criando uma coleção de pistas de ligação TF específica do tipo de célula
- A implementação simplificada de Catchitt produz um desempenho competitivo
Impacto dos conjuntos de características no desempenho da previsão
Usamos o desempenho da previsão obtido pela abordagem proposta usando todos os conjuntos de características (seção “Características”), o procedimento de treinamento iterativo (seção “Treinamento iterativo”), e a agregação sobre todos os tipos de células de treinamento (seção “Esquema de previsão”) como uma linha de base para todas as outras comparações (Fig. 1; “todas as características”). Ao longo deste manuscrito, consideramos a AUC-PR como a medida primária de desempenho, uma vez que a AUC-PR é mais informativa sobre o desempenho da classificação para problemas de classificação fortemente desequilibrados, e a recordação nos diferentes níveis de FDR é bastante instável, uma vez que corresponde a pontos únicos na curva de precisão-recalque. Os valores da AUC-PR são calculados usando o PRROC do pacote R, que também foi usado no desafio ENCODE-DREAM.
Verificamos que o desempenho de previsão medido pela AUC-PR varia muito entre os diferentes fatores de transcrição (Fig. 1) com um valor mediano da AUC-PR de 0,4098. O melhor desempenho de previsão é obtido para o CTCF, que tem um motivo de ligação longo e rico em informação, em dois tipos diferentes de células (IPSC e PC-3). O desempenho acima da média também é obtido para FOXA1 e HNF4A em células hepáticas. Para a maioria das outras TFs, encontramos valores AUC-PR em torno de 0,4, enquanto observamos uma precisão de predição bastante baixa para NANOG e REST.
Para analisar a contribuição de características selecionadas no desempenho de predição final, sistematicamente excluímos conjuntos de características relacionadas dos dados de entrada no treinamento e predição. Como linha de base, medimos a AUC-PR para o classificador usando todos os conjuntos de características. Além disso, medimos a AUC-PR ao excluir cada conjunto de características individuais, onde a diferença destes dois valores de AUC-PR quantifica a melhoria obtida pela inclusão do conjunto de características (Fig. 2a).
Observamos o maior impacto para o conjunto de características derivadas dos dados DNase-seq. A melhoria na AUC-PR obtida ao incluir dados DNase-seq varia entre 0,087 para E2F1 e 0,440 para HNF4A com uma mediana de 0,252.
As características baseadas nas pontuações dos motivos (incluindo os novos motivos descobertos e os das bases de dados) também contribuem substancialmente para o desempenho da previsão final. Aqui, observamos grandes melhorias para algumas TFs, nomeadamente 0,231 para CTCF em células IPSC, 0,175 para CTCF em células PC-3, e 0,167 para FOXA1. Em contraste, observamos uma diminuição no desempenho de previsão no caso do JUND (- 0,080) ao incluir características baseadas no motivo. Para os TFs restantes, encontramos melhorias da AUC-PR entre 0,008 e 0,079. Consideramos ainda dois subconjuntos de motivos, nomeadamente todos os motivos obtidos pela descoberta de novo motivo nos dados do desafio e todos os modelos Slim/LSlim que capturam dependências intra-motif. Para os motivos da descoberta de novo motivo, encontramos uma melhoria para 9 dos 13 conjuntos de dados, e para o modelo Slim/LSlim, encontramos uma melhoria para 10 dos 13 conjuntos de dados. Contudo, as melhorias absolutas (mediana de 0,011 e 0,006, respectivamente) são bastante pequenas, possivelmente porque (i) os motivos obtidos pela descoberta de novo motivo podem ser redundantes para aqueles encontrados em bancos de dados e (ii) as dependências e heterogeneidades intra-motivo capturadas pelos modelos Slim/LSlim podem ser parcialmente cobertas por variações nos motivos de diferentes fontes.
Notably, características baseadas em RNA-seq (mediana 0.001), características baseadas em anotação (0.000) e características baseadas em sequência (0.001) quase não têm influência no desempenho da previsão.
Como o conjunto de características baseadas em DNase-seq é bastante diversificado, incluindo características derivadas de faixas de enriquecimento dobráveis, listas de picos, ou variação entre tipos de células, o nosso objetivo é dissecar ainda mais a influência de grupos relacionados dessas características. Para isso, testamos ainda mais como o desempenho da previsão é afetado pela remoção de grupos específicos de características DNase-seq (cf. arquivo adicional 1: Texto S2) do conjunto completo de características (arquivo adicional 1: Figura S2). Isto pode ser explicado por amplas redundâncias e correlações que ainda existem entre esses diferentes grupos, o que permite uma grande compensação pela perda de um único grupo de características.
Hence, nós adicionalmente testamos um cenário, onde deixando de fora todas as características baseadas em DNase-seq (ou seja, os dados por trás do enredo de violino “DNase-seq” da Fig. 2a) é considerado o caso base, e apenas um dos grupos específicos é adicionado a este conjunto reduzido de características (Fig. 2b). Em primeiro lugar, observamos que todos os grupos de características contribuem positivamente para o desempenho total da previsão. A maior contribuição pode ser observada para o grupo “fold-enrichment”, mas também grupos relacionados como “longo alcance” basicamente calculando a média em janelas mais amplas da pista de “fold-enrichment”, e “baseado em picos” usando picos que foram originalmente chamados com base na cobertura DNase-seq. Nós encontramos a menor contribuição para o grupo de “variação”, que mede a variação e conservação, respectivamente, do sinal DNase-seq entre os tipos de células. Como a contribuição de cada grupo individual de características é positiva, ainda consideramos o conjunto completo de características baseadas em DNase-seq no seguinte.
Having estabeleceu que as características baseadas em DNase-seq e em motivos têm um grande impacto no desempenho da previsão, também testamos o desempenho da previsão da abordagem proposta usando apenas características baseadas em dados DNase-seq e motivos TF, respectivamente. Todas as outras características, ou seja, características baseadas em RNA-seq, características baseadas em anotação e características baseadas em sequência bruta, estão excluídas. Descobrimos (Fig. 1) que os classificadores que usam exclusivamente características baseadas em motivos já produzem um desempenho de previsão razoável para algumas TFs (CTCF e, até certo ponto, E2F1 e GABPA), enquanto observamos valores AUC-PR abaixo de 0,12 para o restante das TFs. Isto pode ser explicado pelo grande número de previsões falsas positivas normalmente geradas por abordagens que utilizam exclusivamente informação de motivos, que só podem ser evitadas no caso de motivos longos e específicos, como é o caso de CTCF.
Classificadores que utilizam apenas características baseadas em DNase-seq produzem um desempenho notável para muitas das TFs estudadas (Fig. 1), que é inferior ao do classificador baseado em motivos apenas para os dois conjuntos de dados do CTCF. Para alguns conjuntos de dados (especialmente JUND, mas também EGR1, MAX), observamos até mesmo que um classificador baseado apenas em dados DNase-seq supera o classificador utilizando todas as características.
No caso de JUND, o aumento no desempenho quando negligenciamos todas as características não baseadas em Nase pode provavelmente ser atribuído a uma forte adaptação dos parâmetros do classificador a motivos de ligação específicos do tipo de célula ou à co-ligação específica do tipo de célula com outras TFs, porque JUND é o único conjunto de dados com um desempenho melhorado quando se excluem as características baseadas em motivo, como discutido acima. Para todas as três TFs, encontramos uma melhoria do desempenho da previsão se os parâmetros do classificador forem treinados nos cromossomas de treinamento do tipo de célula de teste (caso “dentro do tipo de célula”; arquivo adicional 1: Figura S3).
Desde que as características baseadas em DNase-seq e as baseadas em motivo parecem ser os conjuntos de características principais que afetam o desempenho da previsão, finalmente estudamos o desempenho da previsão de um classificador usando apenas estes dois conjuntos de características. Observamos que o desempenho de previsão usando apenas características baseadas em DNase-seq e baseadas em motivo é largamente idêntico ao do classificador usando todas as características (Fig. 1), onde observamos a maior perda em AUC-PR para TAF1 (0,017) e o maior ganho em AUC-PR para NANOG (0,007). Observamos um comportamento semelhante para o caso do tipo de célula dentro (arquivo adicional 1: Figura S3). Como os conjuntos de características deixadas de lado incluem todas as características baseadas em RNA-seq, isto também tem como consequência que um ensaio de tipo específico de célula (nomeadamente DNase-seq) é suficiente para prever a ligação TF, o que amplia o escopo dos tipos de células com dados experimentais prontamente disponíveis que a abordagem proposta pode ser aplicada a.
O treinamento iterativo melhora o desempenho da previsão
Como um segundo aspecto chave da abordagem proposta, investigamos o impacto do procedimento de treinamento iterativo sobre o desempenho da previsão final. Para tanto, comparamos para cada TF os valores de AUC-PR obtidos pela média sobre as previsões dos cinco classificadores resultantes do procedimento de treinamento iterativo para todos os tipos de células de treinamento com os valores de AUC-PR obtidos pela média apenas sobre os classificadores inicialmente treinados para todos os tipos de células de treinamento, ou seja, classificadores treinados apenas sobre os dados de treinamento inicial (seção “Dados de treinamento inicial”).
Para 11 dos 13 conjuntos de dados de teste, observamos uma melhora no desempenho da previsão pelo procedimento de treinamento iterativo (Fig. 3). As maiores melhorias são alcançadas para E2F1 (0,114), FOXA2 (0,085), NANOG (0,08), FOXA1 (0,063), e MAX (0,061). Entre eles estão os TFs para os quais observamos um bom desempenho usando apenas características baseadas em DNase-seq (E2F1, MAX) e TFs para os quais a combinação com características baseadas em motivos foi benéfica (FOXA1, FOXA2, NANOG), o que indica que as regiões negativas adicionais adicionadas nas iterações 2 a 5 não induzem um viés em relação a nenhum destes dois tipos de características. Para quatro destes cinco TFs, apenas um (FOXA2, NANOG, FOXA1) ou dois (E2F1) tipos de células de treinamento foram fornecidos, e a variação entre os diferentes classificadores do treinamento iterativo pode ajudar a evitar o ajuste excessivo. Em contraste, encontramos uma diminuição no desempenho do JUND (0,041) e também do TAF1 (0,01), que pode ser causada por uma maior ênfase nas regiões de ligação específica do tipo de célula nas iterações subsequentes do procedimento de treinamento iterativo. Esta hipótese também é apoiada pela observação de que o procedimento de treinamento iterativo sempre leva a um aumento no desempenho da previsão se os parâmetros classificadores forem treinados nos cromossomos de treinamento do tipo de célula de teste (arquivo adicional 1: Figura S4).