Durante el reto ENCODE-DREAM, un gran número de enfoques creados por 40 equipos internacionales han sido evaluados en 13 ensayos ChIP-seq específicos del tipo celular para 12 TFs diferentes en humanos (Archivo adicional 1: Figura S1). Se proporcionó un conjunto de 109 conjuntos de datos para los mismos (y adicionales) TFs en otros tipos de células para el entrenamiento. Los datos de entrenamiento incluían datos de DNasa-seq específicos del tipo de célula, datos de RNA-seq específicos del tipo de célula, secuencia genómica y anotaciones, y predicciones in silico de la forma del ADN. Además, se proporcionaron datos ChIP-seq específicos del tipo de célula y TF y etiquetas derivadas para los cromosomas de entrenamiento, mientras que las predicciones se evaluaron sólo en los cromosomas restantes, chr1, chr8 y chr21 que no se proporcionaron con ninguno de los datos de entrenamiento ChIP-seq. Para las regiones de 200 pb desplazadas 50 pb, se solicitaron a los equipos participantes predicciones de todo el genoma sobre la probabilidad de que una región específica se superponga a un pico de ChIP-seq. Las predicciones se evaluaron mediante (i) el área bajo la curva ROC (AUC-ROC), (ii) el área bajo la curva de precisión-recuerdo (AUC-PR), (iii) el recuerdo al 10% de FDR, y (iv) el recuerdo al 50% de FDR en cada uno de los 13 conjuntos de datos de prueba. Estos se agregaron por conjunto de datos basándose en el rango promedio normalizado obtenido para cada una de estas medidas en 10 muestras bootstrap de los cromosomas retenidos, y se obtuvo una clasificación final como el promedio de estas estadísticas de rango (cf. https://www.synapse.org/#!Synapse:syn6131484/wiki/405275).
Como resultado de esta clasificación, el enfoque presentado en este trabajo (equipo «J-Team») obtuvo un primer puesto compartido con el enfoque creado por el equipo «Yuanfang Guan».
A continuación, investigamos la influencia de diferentes aspectos del enfoque propuesto en el rendimiento final de la predicción. En primer lugar, inspeccionamos el impacto de diferentes conjuntos de características relacionadas (datos de DNasa-seq, puntuaciones de motivos, datos de RNA-seq, características basadas en la secuencia y en la anotación) en el rendimiento de la predicción. En segundo lugar, estudiamos la importancia del enfoque de entrenamiento iterativo en contraposición a un entrenamiento sobre los datos de entrenamiento iniciales. En tercer lugar, comparamos el rendimiento de las predicciones obtenidas por los clasificadores entrenados en los datos de entrenamiento para los tipos de células individuales con el rendimiento de la predicción agregada obtenida mediante el promedio de estos tipos de células. Por último, aplicamos el método propuesto para predecir la unión de TFs específicos de cada tipo celular para 31 TFs en 22 tipos celulares primarios adicionales, obteniendo un total de 682 pistas de predicción.
Impacto de los conjuntos de características en el rendimiento de la predicción
Utilizamos el rendimiento de la predicción obtenido por el enfoque propuesto utilizando todos los conjuntos de características (sección «Características»), el procedimiento de entrenamiento iterativo (sección «Entrenamiento iterativo») y la agregación sobre todos los tipos de células de entrenamiento (sección «Esquema de predicción») como línea de base para todas las comparaciones posteriores (Fig. 1; «todas las características»). A lo largo de este manuscrito, consideramos el AUC-PR como la principal medida de rendimiento, ya que el AUC-PR es más informativo sobre el rendimiento de la clasificación para problemas de clasificación muy desequilibrados, y el recuerdo en los diferentes niveles de FDR es bastante inestable, ya que corresponde a puntos únicos en la curva de precisión-recuerdo. Los valores de AUC-PR se calculan utilizando el paquete R PRROC , que también se ha utilizado en el desafío ENCODE-DREAM.
Encontramos que el rendimiento de la predicción, medido por el AUC-PR, varía mucho entre los diferentes factores de transcripción (Fig. 1), con un valor mediano de AUC-PR de 0,4098. El mejor rendimiento de predicción se consigue para CTCF, que tiene un motivo de unión largo y rico en información, en dos tipos de células diferentes (IPSC y PC-3). También se obtiene un rendimiento superior a la media para FOXA1 y HNF4A en células hepáticas. Para la mayoría de los demás TFs, encontramos valores de AUC-PR en torno a 0,4, mientras que observamos una precisión de predicción bastante baja para NANOG y REST.
Para analizar la contribución de las características seleccionadas en el rendimiento final de la predicción, excluimos sistemáticamente conjuntos de características relacionadas de los datos de entrada en el entrenamiento y la predicción. Como línea de base, medimos el AUC-PR para el clasificador utilizando todos los conjuntos de características. Además, medimos el AUC-PR al excluir cada conjunto de características individual, donde la diferencia de estos dos valores de AUC-PR cuantifica la mejora obtenida al incluir el conjunto de características (Fig. 2a).
Observamos el mayor impacto para el conjunto de características derivadas de los datos de DNase-seq. La mejora en el AUC-PR obtenida al incluir los datos de DNasa-seq varía entre 0,087 para E2F1 y 0,440 para HNF4A con una mediana de 0,252.
Las características basadas en las puntuaciones de los motivos (incluyendo los motivos descubiertos de novo y los de las bases de datos) también contribuyen sustancialmente al rendimiento final de la predicción. Aquí, observamos grandes mejoras para algunos TFs, concretamente 0,231 para CTCF en células IPSC, 0,175 para CTCF en células PC-3, y 0,167 para FOXA1. Por el contrario, observamos una disminución del rendimiento de la predicción en el caso de JUND (- 0,080) al incluir características basadas en motivos. Para el resto de TFs, encontramos mejoras de AUC-PR entre 0,008 y 0,079. Además, consideramos dos subconjuntos de motivos, a saber, todos los motivos obtenidos mediante el descubrimiento de motivos de novo en los datos del desafío y todos los modelos Slim/LSlim que capturan las dependencias intra-motivo. En el caso de los motivos descubiertos de novo, encontramos una mejora en 9 de los 13 conjuntos de datos, y en el caso del modelo Slim/LSlim, encontramos una mejora en 10 de los 13 conjuntos de datos. Sin embargo, las mejoras absolutas (mediana de 0,011 y 0,006, respectivamente) son bastante pequeñas, posiblemente porque (i) los motivos obtenidos por el descubrimiento de motivos de novo podrían ser redundantes con respecto a los encontrados en las bases de datos y (ii) las dependencias y heterogeneidades intra-motivo capturadas por los modelos Slim/LSlim podrían estar parcialmente cubiertas por variaciones en los motivos de diferentes fuentes.
En particular, las características basadas en RNA-seq (mediana de 0.001), las características basadas en la anotación (0,000) y las características basadas en la secuencia (0,001) no tienen casi ninguna influencia en el rendimiento de la predicción.
Como el conjunto de características basadas en la DNasa-seq es bastante diverso, incluyendo características derivadas de pistas de enriquecimiento de pliegues, listas de picos o variación entre tipos de células, nuestro objetivo es diseccionar aún más la influencia de grupos relacionados de esas características. Para ello, probamos cómo se ve afectado el rendimiento de la predicción al eliminar grupos específicos de características de DNasa-seq (cf. Archivo adicional 1: Texto S2) del conjunto completo de características (Archivo adicional 1: Figura S2). En particular, encontramos que ninguno de estos grupos de características por sí solo tiene un gran impacto en el rendimiento de la predicción, aunque se pueden observar diferencias graduales, ya que la inclusión de características basadas en el enriquecimiento de pliegues y en los picos tiene una contribución muy positiva, mientras que la influencia de los otros grupos de características es bastante ambigua. Esto podría explicarse por las amplias redundancias y correlaciones que siguen existiendo entre esos diferentes grupos, lo que permite una gran compensación por la pérdida de un solo grupo de características.
Por lo tanto, probamos adicionalmente un escenario, en el que dejar de lado todas las características basadas en la DNasa-seq (es decir, los datos detrás del gráfico de violín «DNasa-seq» de la Fig. 2a) se considera el caso de referencia, y sólo uno de los grupos específicos se añade a este conjunto de características reducido (Fig. 2b). En primer lugar, observamos que todos los grupos de características contribuyen positivamente al rendimiento total de la predicción. La mayor contribución puede observarse para el grupo «fold-enrichment», pero también grupos relacionados como «long range» básicamente promediando sobre ventanas más amplias de la pista de fold-enrichment, y «peak-based» usando picos que han sido originalmente llamados basados en la cobertura DNase-seq. Encontramos la contribución más baja para el grupo «variación», que mide la variación y la conservación, respectivamente, de la señal de DNasa-seq entre los tipos de células. Como la contribución de cada grupo individual de características es positiva, seguimos considerando el conjunto completo de características basadas en la DNasa-seq en lo siguiente.
Habiendo establecido que las características basadas en la DNasa-seq y en los motivos tienen un gran impacto en el rendimiento de la predicción, también probamos el rendimiento de la predicción del enfoque propuesto utilizando sólo las características basadas en los datos de la DNasa-seq y los motivos de TF, respectivamente. Todas las demás características, es decir, las basadas en RNA-seq, las basadas en anotaciones y las basadas en la secuencia bruta, se excluyen. Encontramos (Fig. 1) que los clasificadores que utilizan exclusivamente características basadas en motivos ya producen un rendimiento de predicción razonable para algunos TFs (CTCF y, en cierta medida, E2F1 y GABPA), mientras que observamos valores AUC-PR por debajo de 0,12 para el resto de TFs. Esto puede explicarse por el gran número de predicciones falsas positivas generadas típicamente por los enfoques que utilizan exclusivamente información de motivos, que sólo pueden evitarse en el caso de motivos largos y específicos como es el caso de CTCF.
Los clasificadores que utilizan sólo características basadas en la DNasa-seq producen un rendimiento notable para muchos de los TFs estudiados (Fig. 1), que es menor que para el clasificador basado en motivos sólo para los dos conjuntos de datos de CTCF. Para algunos conjuntos de datos (especialmente JUND, pero también EGR1, MAX), incluso observamos que un clasificador basado en los datos de DNasa-seq solo supera al clasificador que utiliza todas las características.
En el caso de JUND, el aumento del rendimiento cuando se descuidan todas las características que no son de DNasa puede atribuirse probablemente a una fuerte adaptación de los parámetros del clasificador a los motivos de unión específicos del tipo de célula o a la unión conjunta específica del tipo de célula con otros TF, porque JUND es el único conjunto de datos con un rendimiento mejorado cuando se excluyen las características basadas en motivos, como se discutió anteriormente. Para los tres TFs, encontramos una mejora en el rendimiento de la predicción si los parámetros del clasificador se entrenan en los cromosomas de entrenamiento del tipo de célula de prueba (caso «dentro del tipo de célula»; Archivo adicional 1: Figura S3).
Dado que las características basadas en la DNasa-seq y en los motivos parecen ser los principales conjuntos de características que afectan al rendimiento de la predicción, finalmente estudiamos el rendimiento de la predicción de un clasificador utilizando sólo estos dos conjuntos de características. Observamos que el rendimiento de la predicción utilizando sólo las características basadas en DNase-seq y en los motivos es prácticamente idéntico al del clasificador que utiliza todas las características (Fig. 1), donde observamos la mayor pérdida de AUC-PR para TAF1 (0,017) y la mayor ganancia de AUC-PR para NANOG (0,007). Observamos un comportamiento similar para el caso dentro del tipo de célula (Archivo adicional 1: Figura S3). Como los conjuntos de características excluidos incluyen todas las características basadas en RNA-seq, esto también tiene la consecuencia de que un ensayo específico del tipo de célula (a saber, DNasa-seq) es suficiente para predecir la unión de TF, lo que amplía el alcance de los tipos de células con datos experimentales fácilmente disponibles a los que se puede aplicar el enfoque propuesto.
El entrenamiento iterativo mejora el rendimiento de la predicción
Como segundo aspecto clave del enfoque propuesto, investigamos el impacto del procedimiento de entrenamiento iterativo en el rendimiento final de la predicción. Para ello, comparamos para cada TF los valores de AUC-PR obtenidos promediando sobre las predicciones los cinco clasificadores resultantes del procedimiento de entrenamiento iterativo para todos los tipos de células de entrenamiento con los valores de AUC-PR obtenidos promediando únicamente sobre los clasificadores inicialmente entrenados para todos los tipos de células de entrenamiento, es decir, clasificadores entrenados sólo con los datos de entrenamiento iniciales (sección «Datos de entrenamiento iniciales»).
Para 11 de los 13 conjuntos de datos de prueba, observamos una mejora del rendimiento de la predicción mediante el procedimiento de entrenamiento iterativo (Fig. 3). Las mayores mejoras se consiguen para E2F1 (0,114), FOXA2 (0,085), NANOG (0,08), FOXA1 (0,063) y MAX (0,061). Entre estos se encuentran TFs para los que observamos un buen rendimiento utilizando sólo características basadas en DNasa-seq (E2F1, MAX) y TFs para los que la combinación con características basadas en motivos fue beneficiosa (FOXA1, FOXA2, NANOG), lo que indica que las regiones negativas adicionales añadidas en las iteraciones 2 a 5 no inducen un sesgo hacia ninguno de estos dos tipos de características. Para cuatro de estos cinco TFs, sólo se proporcionaron uno (FOXA2, NANOG, FOXA1) o dos (E2F1) tipos de células de entrenamiento, y la variación entre los diferentes clasificadores del entrenamiento iterativo puede ayudar a evitar el sobreajuste. Por el contrario, encontramos una disminución del rendimiento para JUND (0,041) y también para TAF1 (0,01), lo que podría deberse a un mayor énfasis en las regiones de unión específicas del tipo celular en las siguientes iteraciones del procedimiento de entrenamiento iterativo. Esta hipótesis también está respaldada por la observación de que el procedimiento de entrenamiento iterativo siempre conduce a un aumento del rendimiento de la predicción si los parámetros del clasificador se entrenan en los cromosomas de entrenamiento del tipo de célula de prueba (archivo adicional 1: Figura S4).