Predicción precisa de la unión de factores de transcripción específicos del tipo celular

Durante el reto ENCODE-DREAM, un gran número de enfoques creados por 40 equipos internacionales han sido evaluados en 13 ensayos ChIP-seq específicos del tipo celular para 12 TFs diferentes en humanos (Archivo adicional 1: Figura S1). Se proporcionó un conjunto de 109 conjuntos de datos para los mismos (y adicionales) TFs en otros tipos de células para el entrenamiento. Los datos de entrenamiento incluían datos de DNasa-seq específicos del tipo de célula, datos de RNA-seq específicos del tipo de célula, secuencia genómica y anotaciones, y predicciones in silico de la forma del ADN. Además, se proporcionaron datos ChIP-seq específicos del tipo de célula y TF y etiquetas derivadas para los cromosomas de entrenamiento, mientras que las predicciones se evaluaron sólo en los cromosomas restantes, chr1, chr8 y chr21 que no se proporcionaron con ninguno de los datos de entrenamiento ChIP-seq. Para las regiones de 200 pb desplazadas 50 pb, se solicitaron a los equipos participantes predicciones de todo el genoma sobre la probabilidad de que una región específica se superponga a un pico de ChIP-seq. Las predicciones se evaluaron mediante (i) el área bajo la curva ROC (AUC-ROC), (ii) el área bajo la curva de precisión-recuerdo (AUC-PR), (iii) el recuerdo al 10% de FDR, y (iv) el recuerdo al 50% de FDR en cada uno de los 13 conjuntos de datos de prueba. Estos se agregaron por conjunto de datos basándose en el rango promedio normalizado obtenido para cada una de estas medidas en 10 muestras bootstrap de los cromosomas retenidos, y se obtuvo una clasificación final como el promedio de estas estadísticas de rango (cf. https://www.synapse.org/#!Synapse:syn6131484/wiki/405275).

Como resultado de esta clasificación, el enfoque presentado en este trabajo (equipo «J-Team») obtuvo un primer puesto compartido con el enfoque creado por el equipo «Yuanfang Guan».

A continuación, investigamos la influencia de diferentes aspectos del enfoque propuesto en el rendimiento final de la predicción. En primer lugar, inspeccionamos el impacto de diferentes conjuntos de características relacionadas (datos de DNasa-seq, puntuaciones de motivos, datos de RNA-seq, características basadas en la secuencia y en la anotación) en el rendimiento de la predicción. En segundo lugar, estudiamos la importancia del enfoque de entrenamiento iterativo en contraposición a un entrenamiento sobre los datos de entrenamiento iniciales. En tercer lugar, comparamos el rendimiento de las predicciones obtenidas por los clasificadores entrenados en los datos de entrenamiento para los tipos de células individuales con el rendimiento de la predicción agregada obtenida mediante el promedio de estos tipos de células. Por último, aplicamos el método propuesto para predecir la unión de TFs específicos de cada tipo celular para 31 TFs en 22 tipos celulares primarios adicionales, obteniendo un total de 682 pistas de predicción.

Impacto de los conjuntos de características en el rendimiento de la predicción

Utilizamos el rendimiento de la predicción obtenido por el enfoque propuesto utilizando todos los conjuntos de características (sección «Características»), el procedimiento de entrenamiento iterativo (sección «Entrenamiento iterativo») y la agregación sobre todos los tipos de células de entrenamiento (sección «Esquema de predicción») como línea de base para todas las comparaciones posteriores (Fig. 1; «todas las características»). A lo largo de este manuscrito, consideramos el AUC-PR como la principal medida de rendimiento, ya que el AUC-PR es más informativo sobre el rendimiento de la clasificación para problemas de clasificación muy desequilibrados, y el recuerdo en los diferentes niveles de FDR es bastante inestable, ya que corresponde a puntos únicos en la curva de precisión-recuerdo. Los valores de AUC-PR se calculan utilizando el paquete R PRROC , que también se ha utilizado en el desafío ENCODE-DREAM.

Fig. 1
figure1

Rendimiento entre tipos de células. Para cada una de las 13 combinaciones de TF y tipo de célula dentro de los datos de prueba, calculamos el rendimiento de la predicción (AUC-PR) en los cromosomas retenidos de los clasificadores (i) utilizando todas las características consideradas, (ii) utilizando sólo características basadas en motivos, (iii) utilizando sólo características basadas en DNasa-seq, y (iv) utilizando sólo características basadas en motivos y en DNasa-seq. La mediana del rendimiento de los clasificadores que utilizan todas las características se indica con una línea discontinua

Encontramos que el rendimiento de la predicción, medido por el AUC-PR, varía mucho entre los diferentes factores de transcripción (Fig. 1), con un valor mediano de AUC-PR de 0,4098. El mejor rendimiento de predicción se consigue para CTCF, que tiene un motivo de unión largo y rico en información, en dos tipos de células diferentes (IPSC y PC-3). También se obtiene un rendimiento superior a la media para FOXA1 y HNF4A en células hepáticas. Para la mayoría de los demás TFs, encontramos valores de AUC-PR en torno a 0,4, mientras que observamos una precisión de predicción bastante baja para NANOG y REST.

Para analizar la contribución de las características seleccionadas en el rendimiento final de la predicción, excluimos sistemáticamente conjuntos de características relacionadas de los datos de entrada en el entrenamiento y la predicción. Como línea de base, medimos el AUC-PR para el clasificador utilizando todos los conjuntos de características. Además, medimos el AUC-PR al excluir cada conjunto de características individual, donde la diferencia de estos dos valores de AUC-PR cuantifica la mejora obtenida al incluir el conjunto de características (Fig. 2a).

Fig. 2
figure2

Importancia de los conjuntos de características. a Comprobamos la importancia de conjuntos de características relacionados excluyendo un conjunto de características de los datos de entrenamiento, midiendo el rendimiento (AUC-PR) del clasificador resultante, y restando este valor AUC-PR del valor correspondiente alcanzado por el clasificador utilizando todas las características. Por lo tanto, si el AUC-PR de Δ es superior a cero, el conjunto de características excluidas mejoró el rendimiento final de la predicción, mientras que los valores de AUC-PR de Δ inferiores a cero indican un efecto negativo en el rendimiento de la predicción. Recogemos los valores de Δ AUC-PR para los 13 conjuntos de datos de prueba y los visualizamos como gráficos de violín. b Evaluación de diferentes grupos de características basadas en la DNasa-seq. En este caso, comparamos el rendimiento incluyendo un grupo específico de características basadas en la DNasa-seq (cf. Archivo adicional 1: Texto S2)) con el rendimiento sin ninguna característica basada en la DNasa-seq (cf. violín «DNase-seq» en el panel a). Encontramos que todas las características basadas en DNase-seq contribuyen positivamente al rendimiento de la predicción

Observamos el mayor impacto para el conjunto de características derivadas de los datos de DNase-seq. La mejora en el AUC-PR obtenida al incluir los datos de DNasa-seq varía entre 0,087 para E2F1 y 0,440 para HNF4A con una mediana de 0,252.

Las características basadas en las puntuaciones de los motivos (incluyendo los motivos descubiertos de novo y los de las bases de datos) también contribuyen sustancialmente al rendimiento final de la predicción. Aquí, observamos grandes mejoras para algunos TFs, concretamente 0,231 para CTCF en células IPSC, 0,175 para CTCF en células PC-3, y 0,167 para FOXA1. Por el contrario, observamos una disminución del rendimiento de la predicción en el caso de JUND (- 0,080) al incluir características basadas en motivos. Para el resto de TFs, encontramos mejoras de AUC-PR entre 0,008 y 0,079. Además, consideramos dos subconjuntos de motivos, a saber, todos los motivos obtenidos mediante el descubrimiento de motivos de novo en los datos del desafío y todos los modelos Slim/LSlim que capturan las dependencias intra-motivo. En el caso de los motivos descubiertos de novo, encontramos una mejora en 9 de los 13 conjuntos de datos, y en el caso del modelo Slim/LSlim, encontramos una mejora en 10 de los 13 conjuntos de datos. Sin embargo, las mejoras absolutas (mediana de 0,011 y 0,006, respectivamente) son bastante pequeñas, posiblemente porque (i) los motivos obtenidos por el descubrimiento de motivos de novo podrían ser redundantes con respecto a los encontrados en las bases de datos y (ii) las dependencias y heterogeneidades intra-motivo capturadas por los modelos Slim/LSlim podrían estar parcialmente cubiertas por variaciones en los motivos de diferentes fuentes.

En particular, las características basadas en RNA-seq (mediana de 0.001), las características basadas en la anotación (0,000) y las características basadas en la secuencia (0,001) no tienen casi ninguna influencia en el rendimiento de la predicción.

Como el conjunto de características basadas en la DNasa-seq es bastante diverso, incluyendo características derivadas de pistas de enriquecimiento de pliegues, listas de picos o variación entre tipos de células, nuestro objetivo es diseccionar aún más la influencia de grupos relacionados de esas características. Para ello, probamos cómo se ve afectado el rendimiento de la predicción al eliminar grupos específicos de características de DNasa-seq (cf. Archivo adicional 1: Texto S2) del conjunto completo de características (Archivo adicional 1: Figura S2). En particular, encontramos que ninguno de estos grupos de características por sí solo tiene un gran impacto en el rendimiento de la predicción, aunque se pueden observar diferencias graduales, ya que la inclusión de características basadas en el enriquecimiento de pliegues y en los picos tiene una contribución muy positiva, mientras que la influencia de los otros grupos de características es bastante ambigua. Esto podría explicarse por las amplias redundancias y correlaciones que siguen existiendo entre esos diferentes grupos, lo que permite una gran compensación por la pérdida de un solo grupo de características.

Por lo tanto, probamos adicionalmente un escenario, en el que dejar de lado todas las características basadas en la DNasa-seq (es decir, los datos detrás del gráfico de violín «DNasa-seq» de la Fig. 2a) se considera el caso de referencia, y sólo uno de los grupos específicos se añade a este conjunto de características reducido (Fig. 2b). En primer lugar, observamos que todos los grupos de características contribuyen positivamente al rendimiento total de la predicción. La mayor contribución puede observarse para el grupo «fold-enrichment», pero también grupos relacionados como «long range» básicamente promediando sobre ventanas más amplias de la pista de fold-enrichment, y «peak-based» usando picos que han sido originalmente llamados basados en la cobertura DNase-seq. Encontramos la contribución más baja para el grupo «variación», que mide la variación y la conservación, respectivamente, de la señal de DNasa-seq entre los tipos de células. Como la contribución de cada grupo individual de características es positiva, seguimos considerando el conjunto completo de características basadas en la DNasa-seq en lo siguiente.

Habiendo establecido que las características basadas en la DNasa-seq y en los motivos tienen un gran impacto en el rendimiento de la predicción, también probamos el rendimiento de la predicción del enfoque propuesto utilizando sólo las características basadas en los datos de la DNasa-seq y los motivos de TF, respectivamente. Todas las demás características, es decir, las basadas en RNA-seq, las basadas en anotaciones y las basadas en la secuencia bruta, se excluyen. Encontramos (Fig. 1) que los clasificadores que utilizan exclusivamente características basadas en motivos ya producen un rendimiento de predicción razonable para algunos TFs (CTCF y, en cierta medida, E2F1 y GABPA), mientras que observamos valores AUC-PR por debajo de 0,12 para el resto de TFs. Esto puede explicarse por el gran número de predicciones falsas positivas generadas típicamente por los enfoques que utilizan exclusivamente información de motivos, que sólo pueden evitarse en el caso de motivos largos y específicos como es el caso de CTCF.

Los clasificadores que utilizan sólo características basadas en la DNasa-seq producen un rendimiento notable para muchos de los TFs estudiados (Fig. 1), que es menor que para el clasificador basado en motivos sólo para los dos conjuntos de datos de CTCF. Para algunos conjuntos de datos (especialmente JUND, pero también EGR1, MAX), incluso observamos que un clasificador basado en los datos de DNasa-seq solo supera al clasificador que utiliza todas las características.

En el caso de JUND, el aumento del rendimiento cuando se descuidan todas las características que no son de DNasa puede atribuirse probablemente a una fuerte adaptación de los parámetros del clasificador a los motivos de unión específicos del tipo de célula o a la unión conjunta específica del tipo de célula con otros TF, porque JUND es el único conjunto de datos con un rendimiento mejorado cuando se excluyen las características basadas en motivos, como se discutió anteriormente. Para los tres TFs, encontramos una mejora en el rendimiento de la predicción si los parámetros del clasificador se entrenan en los cromosomas de entrenamiento del tipo de célula de prueba (caso «dentro del tipo de célula»; Archivo adicional 1: Figura S3).

Dado que las características basadas en la DNasa-seq y en los motivos parecen ser los principales conjuntos de características que afectan al rendimiento de la predicción, finalmente estudiamos el rendimiento de la predicción de un clasificador utilizando sólo estos dos conjuntos de características. Observamos que el rendimiento de la predicción utilizando sólo las características basadas en DNase-seq y en los motivos es prácticamente idéntico al del clasificador que utiliza todas las características (Fig. 1), donde observamos la mayor pérdida de AUC-PR para TAF1 (0,017) y la mayor ganancia de AUC-PR para NANOG (0,007). Observamos un comportamiento similar para el caso dentro del tipo de célula (Archivo adicional 1: Figura S3). Como los conjuntos de características excluidos incluyen todas las características basadas en RNA-seq, esto también tiene la consecuencia de que un ensayo específico del tipo de célula (a saber, DNasa-seq) es suficiente para predecir la unión de TF, lo que amplía el alcance de los tipos de células con datos experimentales fácilmente disponibles a los que se puede aplicar el enfoque propuesto.

El entrenamiento iterativo mejora el rendimiento de la predicción

Como segundo aspecto clave del enfoque propuesto, investigamos el impacto del procedimiento de entrenamiento iterativo en el rendimiento final de la predicción. Para ello, comparamos para cada TF los valores de AUC-PR obtenidos promediando sobre las predicciones los cinco clasificadores resultantes del procedimiento de entrenamiento iterativo para todos los tipos de células de entrenamiento con los valores de AUC-PR obtenidos promediando únicamente sobre los clasificadores inicialmente entrenados para todos los tipos de células de entrenamiento, es decir, clasificadores entrenados sólo con los datos de entrenamiento iniciales (sección «Datos de entrenamiento iniciales»).

Para 11 de los 13 conjuntos de datos de prueba, observamos una mejora del rendimiento de la predicción mediante el procedimiento de entrenamiento iterativo (Fig. 3). Las mayores mejoras se consiguen para E2F1 (0,114), FOXA2 (0,085), NANOG (0,08), FOXA1 (0,063) y MAX (0,061). Entre estos se encuentran TFs para los que observamos un buen rendimiento utilizando sólo características basadas en DNasa-seq (E2F1, MAX) y TFs para los que la combinación con características basadas en motivos fue beneficiosa (FOXA1, FOXA2, NANOG), lo que indica que las regiones negativas adicionales añadidas en las iteraciones 2 a 5 no inducen un sesgo hacia ninguno de estos dos tipos de características. Para cuatro de estos cinco TFs, sólo se proporcionaron uno (FOXA2, NANOG, FOXA1) o dos (E2F1) tipos de células de entrenamiento, y la variación entre los diferentes clasificadores del entrenamiento iterativo puede ayudar a evitar el sobreajuste. Por el contrario, encontramos una disminución del rendimiento para JUND (0,041) y también para TAF1 (0,01), lo que podría deberse a un mayor énfasis en las regiones de unión específicas del tipo celular en las siguientes iteraciones del procedimiento de entrenamiento iterativo. Esta hipótesis también está respaldada por la observación de que el procedimiento de entrenamiento iterativo siempre conduce a un aumento del rendimiento de la predicción si los parámetros del clasificador se entrenan en los cromosomas de entrenamiento del tipo de célula de prueba (archivo adicional 1: Figura S4).

Fig. 3
figure3

Relevancia del procedimiento de entrenamiento iterativo. Para cada uno de los 13 conjuntos de datos de prueba comparamos el rendimiento (AUC-PR) logrado por el (conjunto de) clasificador(es) entrenado(s) en las regiones negativas iniciales (abscisa) con el rendimiento logrado promediando sobre todos los clasificadores del procedimiento de entrenamiento iterativo (ordenada)

Promediar las predicciones mejora sobre la selección aleatoria de tipos de células

Para 9 de los 12 TFs considerados, los datos para más de un tipo de célula de entrenamiento se proporcionan con los datos del desafío. Por lo tanto, una cuestión central podría ser la elección del tipo de célula utilizado para el entrenamiento y, posteriormente, para hacer predicciones para el tipo de célula de prueba. Sin embargo, los únicos datos experimentales específicos del tipo de célula disponibles para hacer esa elección son los datos de DNasa-seq y RNA-seq, mientras que la similitud de los tipos de células podría depender del TF considerado. De hecho, las medidas de similitud derivadas de los datos de DNasa-seq (por ejemplo, los coeficientes de Jaccard de los picos de DNasa-seq superpuestos, la correlación de los perfiles) o de los datos de RNA-seq (por ejemplo, correlación de los valores de TPM) mostraron ser no informativos con respecto a la similitud de las regiones de unión de TF en estudios preliminares sobre los tipos de células de entrenamiento.

Por lo tanto, consideramos la elección del tipo de célula de entrenamiento como una variable latente, y promediamos sobre las predicciones generadas por los respectivos clasificadores (véase la sección «Esquema de predicción»). Como las etiquetas de los tipos de células de prueba se han puesto a disposición después del desafío, ahora podemos evaluar el impacto de esta elección en el rendimiento de la predicción y también probar el rendimiento de la predicción de los clasificadores entrenados en tipos de células individuales (Fig. 4).

Fig. 4
figure4

Desempeño de los clasificadores de conjunto. Para cada uno de los 13 conjuntos de datos de prueba, comparamos el rendimiento (AUC-PR) de los clasificadores individuales entrenados en tipos de células individuales (círculos abiertos) con el del clasificador conjunto que promedia todos los clasificadores entrenados en todos los tipos de células de entrenamiento (círculos naranjas rellenos). Como referencia, también trazamos la mediana de los clasificadores individuales como una barra roja

Para todos los conjuntos de datos de prueba con múltiples tipos de células de entrenamiento disponibles, encontramos que la predicción promediada produce valores AUC-PR por encima de la mediana de los valores AUC-PR logrados para los tipos de células de entrenamiento individuales. Esta mejora es especialmente pronunciada para REST, GABPA y MAX.

Para investigar más a fondo si el promedio de los clasificadores para los tipos de células individuales favorece las regiones de unión conservadas (es decir, las regiones etiquetadas como «unidas» en la mayoría de los tipos de células) sobre las regiones de unión específicas del tipo de célula, también evaluamos el rendimiento de la predicción en tales regiones por separado (archivo adicional 1: Figura S5). En concreto, consideramos que una región de unión está conservada si también está etiquetada como «unida» en al menos tres de los cuatro tipos de células de entrenamiento, y consideramos que una región de unión es específica del tipo de célula si esta región está etiquetada como «unida» en al menos uno de los cuatro tipos de células de entrenamiento. Lo primero que observamos en el archivo adicional 1: Figura S5 es que los valores absolutos de AUC-PR son sustancialmente más bajos para las regiones específicas del tipo celular que para las regiones conservadas. Una explicación podría ser una diferencia en el (im)equilibrio de clases debido a los subconjuntos de regiones seleccionados. Sin embargo, esta tendencia general se mantiene al considerar el AUC-ROC (archivo adicional 1: Figura S6). En segundo lugar, encontramos que la variación entre los clasificadores aprendidos a partir de diferentes tipos de células de entrenamiento es en la mayoría de los casos mayor para las regiones específicas del tipo de célula que para las regiones conservadas. El comportamiento con respecto al rendimiento absoluto es similar para los clasificadores individuales, su rendimiento medio y el rendimiento del promedio de los clasificadores para los tipos celulares individuales. Observamos que el AUC-PR obtenido al promediar es siempre mejor que el rendimiento medio de los tipos de células individuales para las regiones conservadas, pero lo mismo ocurre cuando se consideran las regiones específicas del tipo de célula para siete de los nueve conjuntos de datos con más de un tipo de célula de entrenamiento.

Por lo tanto, podemos argumentar que promediar sobre los clasificadores específicos del tipo de célula generalmente produce predicciones más precisas que las que se lograrían con una elección desinformada de un tipo de célula de entrenamiento específico.

Sin embargo, también observamos para casi todos los conjuntos de datos de prueba con múltiples tipos de células de entrenamiento (la única excepción es CTCF para el tipo de célula PC-3) que el mejor rendimiento de predicción logrado para uno de los tipos de células de entrenamiento individuales habría obtenido, en algunos casos, mejoras considerables sobre el procedimiento de promedio propuesto. En particular, la varianza de AUC-PR entre los diferentes tipos de células de entrenamiento es especialmente pronunciada para JUND, lo que apoya la hipótesis anterior de que algunas características, por ejemplo, los motivos de unión o la co-unión de TFs, son altamente específicas del tipo de célula para JUND. En general, la derivación de medidas informativas de la similitud del tipo de célula específica del TF basadas en ensayos específicos del tipo de célula y predicciones preliminares del sitio de unión, probablemente conduciría a un mayor impulso del rendimiento de los enfoques computacionales para predecir la unión del TF específica del tipo de célula.

Creación de una colección de pistas de unión a TFs específicos de cada tipo celular

Habiendo establecido que un único tipo de ensayo experimental, concretamente la DNasa-seq, es suficiente para predecir la unión a TFs específicos de cada tipo celular con una precisión de última generación, podemos ahora utilizar los clasificadores obtenidos en los tipos celulares y TFs de entrenamiento para predicciones en otros tipos celulares. Para ello, utilizamos los clasificadores teniendo en cuenta sólo las características basadas en la DNasa-seq y en los motivos, pero no las características basadas en el ARN-seq, ni las características basadas en la anotación, ni las características basadas en la secuencia bruta, que demostraron alcanzar un rendimiento de predicción comparable al del modelo completo anterior (cf. Fig. 1, sección «Impacto de los conjuntos de características en el rendimiento de la predicción»). Para ello, descargamos datos de DNasa-seq para una colección de tipos de células y tejidos primarios (véase la sección «Datos»), los procesamos de la misma manera que los datos originales del reto y, posteriormente, extrajimos características dependientes de la DNasa-seq (sección «Características»). A continuación, aplicamos los clasificadores entrenados para los 31 TFs considerados en el desafío a estos 22 conjuntos de características DNasa-seq para obtener un total de 682 pistas de predicción.

Para los tipos de células seleccionados (archivo adicional 1: Tabla S5), sólo se dispone de pocos datos ChIP-seq específicos del tipo de célula y del TF (archivo adicional 1: Tabla S6). Por un lado, esto significa que las pistas de unión a TFs predichas proporcionan información valiosa y novedosa para la colección de 31 TFs estudiados. Por otro lado, esto ofrece la oportunidad de realizar evaluaciones comparativas y comprobaciones de cordura con respecto a las predicciones para el subconjunto de estos TFs y tipos celulares con los correspondientes datos ChIP-seq disponibles. Para la evaluación comparativa, obtenemos adicionalmente los archivos de picos «relajados» y (cuando están disponibles) «conservadores» de ENCODE y derivamos las etiquetas asociadas («ligado», «no ligado», «ambiguo») de acuerdo con el procedimiento propuesto para el desafío ENCODE-DREAM.

Para los CTCF con picos ChIP-seq disponibles para múltiples tipos de células, generalmente encontramos un rendimiento de predicción que es comparable al rendimiento observado en los datos del desafío (cf. Archivo adicional 1: Tabla S4). Para estos tipos celulares, los valores de AUC-PR (archivo adicional 1: tabla S7) oscilan entre 0,7720 y 0,8197 si se dispone de picos conservadores y relajados y si los donantes coinciden entre los experimentos de DNasa-seq y ChIP-seq, mientras que el rendimiento es ligeramente inferior para los donantes que no coinciden (0,7322) y en caso de que falten picos conservadores (0,7270). Para JUN, MAX y MYC, sólo se dispone de picos relajados de ENCODE debido a las réplicas que faltan. Aquí, encontramos valores de AUC-PR de 0,6310 para JUN, que es sustancialmente mayor que para los datos del desafío; 0,4004 para MAX, que es ligeramente inferior a los datos del desafío; y 0,1989 para MYC, que no ha estado entre los TFs de prueba en el desafío pero obtuvo un rendimiento sustancialmente mejor en la ronda de clasificación.

Las 682 pistas de predicción de todo el genoma siguen siendo bastante grandes (aproximadamente 880 MB por pista) y, por lo tanto, exigen un espacio de almacenamiento sustancial que podría no estar disponible para el usuario típico, mientras que la mayoría de las regiones probablemente no están vinculadas al TF de interés. Por lo tanto, condensamos estas predicciones en listas de picos predichos en formato narrowPeak uniendo tramos contiguos con alta probabilidad de unión y aplicando un umbral de 0,6 (relajado) y 0,8 (conservador) en la probabilidad máxima observada en un «pico» predicho. Proporcionamos estos archivos de picos para su descarga en https://www.synapse.org/#!Synapse:syn11526239(doi:10.7303/syn11526239).

Para obtener una impresión de la calidad de los picos predichos, calculamos además los coeficientes de Jaccard basados en los solapamientos de los picos (calculados con el paquete R GenomicRanges ) entre los archivos de picos predichos y los de los correspondientes picos ChIP-seq disponibles (Archivo adicional 1: Tabla S9, S11), y descubrimos que son ampliamente concordantes con la evaluación anterior basada en las etiquetas derivadas.

Por último, los datos para CTCF permiten comparar el solapamiento entre las listas de picos predichas y las listas de picos determinadas experimentalmente con los solapamientos observados para (i) réplicas técnicas (Archivo adicional 1: Tabla S12) y (ii) réplicas biológicas (Archivo adicional 1: Tabla S10). Encontramos que los solapamientos entre las predicciones y los picos con umbral IDR son menores que aquellos entre los picos con umbral IDR y/o las réplicas técnicas. En el caso de CTCF, se dispone de tres experimentos independientes para el tejido de «fibroblastos de prepucio», y utilizamos dos muestras independientes de DNasa-seq para ese tejido para nuestra predicción. Comparando los coeficientes de Jaccard en esas dos situaciones (cf. Archivo adicional 1: Tablas S9, S10), encontramos que los coeficientes de Jaccard entre las predicciones y los picos con umbral IDR varían entre 0,568 y 0,693, mientras que observamos coeficientes de Jaccard entre 0,658 y 0,72 para las réplicas biológicas. Basándonos en estos datos limitados, podríamos concluir que las predicciones computacionales son menos consistentes que las réplicas biológicas sólo por un pequeño margen, al menos para CTCF.

Basándonos en las listas de picos predichos, también podemos comparar las características de unión predichas de los diferentes TFs a través de los tipos de células. En primer lugar, inspeccionamos el número de picos predichos por TF y tipo de célula (archivo adicional 1: Figura S7). Encontramos un grupo distinto de TFs muy abundantes (CTCF, GATA3, SPI1, CEBPB, FOXA1, FOXA2, MAX), que normalmente también muestran un gran número de picos en los datos de entrenamiento. Entre ellos, encontramos patrones de especificidad por tipo de célula, desde el omnipresente CTCF hasta una abundancia muy variable para GATA3. El resto de los TFs obtienen un número sustancialmente menor de picos predichos con patrones similares, por ejemplo, para ATF7/ARID3A/NANOG o EP300/TEAD4/JUND, donde se ha reportado que este último grupo se cohesiona en potenciadores distales . A continuación, estudiamos la estabilidad de las predicciones de los picos, es decir, los coeficientes de Jaccard de los picos predichos para cada uno de los TF en diferentes tipos de células (archivo adicional 1: Figura S8). Una vez más, encontramos una variación sustancial entre los TFs con GABPA, CTCF y REST que tienen una mediana de coeficientes de Jaccard por encima de 0,7. En particular, CTCF ha sido uno de los TFs con el mayor número de picos predichos (mediana 37 455), mientras que observamos un orden de magnitud menos de picos predichos para REST (mediana 3 364) y GABPA (mediana 5 430). En el otro extremo de la escala, encontramos TFs de unión indirecta como EP300, o TFs que son altamente específicos de tipos celulares poco representados en nuestros datos como NANOG (células madre) y HNF4A (hígado, riñón, intestinos). Por último, investigamos la cohesión de los TFs calculando el coeficiente de Jaccard medio entre los tipos celulares para cada par de TFs (archivo adicional 1: figura S9). Aquí, observamos distintos grupos de TFs co-ocurrentes como CTCF/ZNF143 o FOXA1/FOXA2, que se sabe que interactúan in vivo. Además, encontramos un grupo mayor de TFs con solapamientos sustanciales entre sus picos predichos que comprenden YY1, MAX, CREB1, MYC, E2F6, E2F1 y TAF1. Dado que TAF1 (TATA-box binding protein associated factor 1) está asociado a la iniciación transcripcional en la caja TATA, una explicación podría ser que los sitios de unión de estos TFs están enriquecidos en los promotores centrales. De hecho, se ha informado de la unión a promotores proximales para los factores MYC/MAX , CREB1 , YY1 , y E2F .

La implementación simplificada de Catchitt produce un rendimiento competitivo

Por último, comparamos Catchitt, la implementación simplificada del enfoque de entrenamiento iterativo que combina la accesibilidad de la cromatina y las puntuaciones de los motivos, con la implementación del desafío que utiliza características basadas en DNasa-seq y en motivos para el caso dentro del tipo celular. Para ello, seleccionamos cinco combinaciones de tipo celular y factor de transcripción que abarcan el rango de valores de rendimiento observados en el desafío. En concreto, consideramos NANOG y TAF1, que obtuvieron los valores más bajos de AUC-PR (cf. archivo adicional 1: Figura S3) para la implementación del reto; CTCF en células IPSC, que obtuvo el mayor valor de AUC-PR; y FOXA1 y HNF4A, que obtuvieron valores medios de AUC-PR pero se beneficiaron sustancialmente del entrenamiento iterativo (cf. archivo adicional 1: Figura S4). Resumimos los resultados de esta comparación en el archivo adicional 1: Tabla S13. A pesar de la reducción de aproximadamente diez veces en el número de motivos considerados y de otras simplificaciones (sección «Catchitt: una implementación racionalizada de código abierto»), Catchitt sigue produciendo valores AUC-PR competitivos. Clasificando los resultados de Catchitt dentro de los resultados del reto original, encontramos que el rendimiento alcanzado por las puntuaciones de Catchitt es sólo dos rangos más bajo que la implementación del reto utilizando características basadas en DNasa-seq y en motivos. Como antes, encontramos una mejora sustancial del rendimiento de la predicción debido al procedimiento de entrenamiento iterativo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.