Durant le défi ENCODE-DREAM, un grand nombre d’approches créées par 40 équipes internationales ont été évaluées sur 13 essais ChIP-seq spécifiques à un type de cellule pour 12 TF différents chez l’homme (fichier supplémentaire 1 : figure S1). Un ensemble de 109 ensembles de données pour les mêmes TF (et d’autres) dans d’autres types de cellules a été fourni pour l’entraînement. Les données d’entraînement comprenaient des données DNase-seq spécifiques au type de cellule, des données RNA-seq spécifiques au type de cellule, des séquences et annotations génomiques, et des prédictions in silico de la forme de l’ADN. En outre, les données ChIP-seq spécifiques du type de cellule et de la TF et les étiquettes dérivées ont été fournies pour les chromosomes d’entraînement, tandis que les prédictions ont été évaluées uniquement sur les chromosomes restants, chr1, chr8 et chr21, qui n’ont reçu aucune donnée d’entraînement ChIP-seq. Pour les régions de 200 pb décalées de 50 pb, des prédictions à l’échelle du génome de la probabilité qu’une région spécifique chevauche un pic ChIP-seq ont été demandées aux équipes participantes. Les prédictions ont été évaluées par (i) l’aire sous la courbe ROC (AUC-ROC), (ii) l’aire sous la courbe précision-rappel (AUC-PR), (iii) le rappel à 10% FDR, et (iv) le rappel à 50% FDR sur chacun des 13 ensembles de données de test. Celles-ci ont été agrégées par ensemble de données sur la base du rang moyen et normalisé obtenu pour chacune de ces mesures dans 10 échantillons bootstrap des chromosomes retenus, et un classement final a été obtenu comme la moyenne de ces statistiques de rang (cf. https://www.synapse.org/#!Synapse:syn6131484/wiki/405275).
A la suite de ce classement, l’approche présentée dans cet article (équipe « J-Team ») a gagné un premier rang partagé avec l’approche créée par l’équipe « Yuanfang Guan. »
Dans ce qui suit, nous étudions l’influence de différents aspects de l’approche proposée sur la performance de prédiction finale. Premièrement, nous inspectons l’impact de différents ensembles de caractéristiques connexes (données DNase-seq, scores de motifs, données RNA-seq, caractéristiques basées sur les séquences et les annotations) sur la performance de prédiction. Deuxièmement, nous étudions l’importance de l’approche de formation itérative par rapport à une formation sur les données de formation initiales. Troisièmement, nous comparons la performance des prédictions obtenues par des classificateurs formés sur des données d’entraînement pour des types de cellules individuels avec la performance de la prédiction agrégée obtenue en faisant la moyenne de ces types de cellules. Enfin, nous appliquons la méthode proposée pour prédire la liaison TF spécifique au type cellulaire pour 31 TF dans 22 types de cellules primaires supplémentaires, ce qui donne un total de 682 pistes de prédiction.
- Impact des ensembles de caractéristiques sur la performance de prédiction
- L’entraînement itératif améliore la performance de prédiction
- La moyenne des prédictions s’améliore par rapport à la sélection aléatoire des types de cellules
- Création d’une collection de pistes de liaison TF spécifique au type cellulaire
- L’implémentation simplifiée de Catchitt donne des performances compétitives
Impact des ensembles de caractéristiques sur la performance de prédiction
Nous utilisons la performance de prédiction obtenue par l’approche proposée en utilisant tous les ensembles de caractéristiques (section « Caractéristiques »), la procédure de formation itérative (section « Formation itérative ») et l’agrégation sur tous les types de cellules de formation (section « Schéma de prédiction ») comme ligne de base pour toutes les comparaisons ultérieures (Fig. 1 ; « toutes les caractéristiques »). Tout au long de ce manuscrit, nous considérons l’AUC-PR comme la principale mesure de performance, car l’AUC-PR est plus informatif sur la performance de classification pour les problèmes de classification fortement déséquilibrés, et le rappel aux différents niveaux FDR est plutôt instable car il correspond à des points uniques sur la courbe précision-rappel. Les valeurs AUC-PR sont calculées à l’aide du paquetage R PRROC , qui a également été utilisé dans le cadre du défi ENCODE-DREAM.
Nous constatons que la performance de prédiction mesurée par l’AUC-PR varie fortement entre les différents facteurs de transcription (Fig. 1) avec une valeur médiane d’AUC-PR de 0,4098. La meilleure performance de prédiction est obtenue pour CTCF, qui possède un motif de liaison long et riche en informations, dans deux types de cellules différents (IPSC et PC-3). Des performances supérieures à la moyenne sont également obtenues pour FOXA1 et HNF4A dans les cellules du foie. Pour la plupart des autres TF, nous trouvons des valeurs AUC-PR autour de 0,4, alors que nous observons une précision de prédiction plutôt faible pour NANOG et REST.
Pour analyser la contribution des caractéristiques sélectionnées sur la performance de prédiction finale, nous excluons systématiquement des ensembles de caractéristiques connexes des données d’entrée dans la formation et la prédiction. Comme base de référence, nous mesurons l’AUC-PR pour le classificateur utilisant tous les ensembles de caractéristiques. En outre, nous mesurons l’AUC-PR lors de l’exclusion de chaque ensemble de caractéristiques individuelles, où la différence de ces deux valeurs d’AUC-PR quantifie l’amélioration obtenue en incluant l’ensemble de caractéristiques (Fig. 2a).
Nous observons le plus grand impact pour l’ensemble des caractéristiques dérivées des données DNase-seq. L’amélioration de l’AUC-PR obtenue en incluant les données DNase-seq varie entre 0,087 pour E2F1 et 0,440 pour HNF4A avec une médiane de 0,252.
Les caractéristiques basées sur les scores de motifs (y compris les motifs découverts de novo et ceux provenant des bases de données) contribuent également de manière substantielle à la performance de prédiction finale. Ici, nous observons de grandes améliorations pour certaines TF, à savoir 0,231 pour CTCF dans les cellules IPSC, 0,175 pour CTCF dans les cellules PC-3 et 0,167 pour FOXA1. En revanche, nous observons une diminution de la performance de prédiction dans le cas de JUND (- 0,080) lors de l’inclusion de caractéristiques basées sur les motifs. Pour les autres TF, nous trouvons des améliorations de l’AUC-PR entre 0,008 et 0,079. Nous considérons ensuite deux sous-ensembles de motifs, à savoir tous les motifs obtenus par découverte de novo de motifs sur les données du défi et tous les modèles Slim/LSlim capturant les dépendances intra-motif. Pour les motifs issus de la découverte de novo de motifs, nous trouvons une amélioration pour 9 des 13 ensembles de données, et pour le modèle Slim/LSlim, nous trouvons une amélioration pour 10 des 13 ensembles de données. Cependant, les améliorations absolues (médiane de 0,011 et 0,006, respectivement) sont plutôt faibles, peut-être parce que (i) les motifs obtenus par la découverte de motifs de novo pourraient être redondants par rapport à ceux trouvés dans les bases de données et (ii) les dépendances et hétérogénéités intra-motif capturées par les modèles Slim/LSlim pourraient être partiellement couvertes par les variations des motifs provenant de différentes sources.
Notamment, les caractéristiques basées sur l’ARN-seq (médiane de 0.001), les caractéristiques basées sur les annotations (0,000) et les caractéristiques basées sur les séquences (0,001) n’ont presque aucune influence sur les performances de prédiction.
Comme l’ensemble des caractéristiques basées sur la DNase-seq est assez diversifié, y compris les caractéristiques dérivées des pistes d’enrichissement en plis, des listes de pics ou des variations entre les types de cellules, nous visons à disséquer davantage l’influence des groupes apparentés de ces caractéristiques. À cette fin, nous testons de nouveau comment la performance de prédiction est affectée par la suppression de groupes spécifiques de caractéristiques DNase-seq (cf. fichier supplémentaire 1 : texte S2) de l’ensemble complet de caractéristiques (fichier supplémentaire 1 : figure S2). Nous constatons notamment qu’aucun de ces groupes de caractéristiques n’a à lui seul un impact important sur les performances de prédiction, bien que des différences progressives puissent être observées, l’inclusion de caractéristiques basées sur l’enrichissement en plis et sur les pics ayant une contribution largement positive, alors que l’influence des autres groupes de caractéristiques est plutôt ambiguë. Cela pourrait s’expliquer par de larges redondances et corrélations qui existent encore entre ces différents groupes, ce qui permet de compenser largement la perte d’un seul groupe de caractéristiques.
Par conséquent, nous testons en plus un scénario, où le fait de laisser de côté toutes les caractéristiques basées sur la DNase-seq (c’est-à-dire les données derrière le tracé en violon « DNase-seq » de la Fig. 2a) est considéré comme le cas de base, et où un seul des groupes spécifiques est ajouté à cet ensemble de caractéristiques réduit (Fig. 2b). Tout d’abord, nous observons que tous les groupes de caractéristiques contribuent positivement à la performance de prédiction totale. La contribution la plus importante peut être observée pour le groupe « fold-enrichment », mais aussi pour des groupes apparentés comme « long range », qui consiste à faire la moyenne sur des fenêtres plus larges de la piste fold-enrichment, et « peak-based », qui utilise des pics qui ont été initialement appelés sur la base de la couverture DNase-seq. Nous trouvons la contribution la plus faible pour le groupe « variation », qui mesure la variation et la conservation, respectivement, du signal DNase-seq parmi les types de cellules. Comme la contribution de chaque groupe individuel de caractéristiques est positive, nous considérons toujours l’ensemble complet de caractéristiques basées sur la DNase-seq dans la suite.
Ayant établi que les caractéristiques basées sur la DNase-seq et les motifs ont un grand impact sur la performance de prédiction, nous avons également testé la performance de prédiction de l’approche proposée en utilisant uniquement les caractéristiques basées sur les données DNase-seq et les motifs TF, respectivement. Toutes les autres caractéristiques, c’est-à-dire les caractéristiques basées sur l’ARN-seq, les caractéristiques basées sur l’annotation et les caractéristiques basées sur la séquence brute, sont exclues. Nous constatons (Fig. 1) que les classificateurs utilisant exclusivement des caractéristiques basées sur les motifs donnent déjà une performance de prédiction raisonnable pour certaines TFs (CTCF et, dans une certaine mesure, E2F1 et GABPA), alors que nous observons des valeurs AUC-PR inférieures à 0,12 pour le reste des TFs. Cela peut s’expliquer par le grand nombre de prédictions faussement positives généralement générées par les approches utilisant exclusivement des informations sur les motifs, ce qui ne peut être évité que dans le cas de motifs longs et spécifiques comme c’est le cas pour CTCF.
Les classificateurs utilisant uniquement des caractéristiques basées sur la DNase-seq donnent une performance remarquable pour un grand nombre des TF étudiés (Fig. 1), qui est inférieure à celle du classificateur basé sur les motifs uniquement pour les deux jeux de données CTCF. Pour certains jeux de données (en particulier JUND mais aussi EGR1, MAX), nous observons même qu’un classificateur basé sur les données DNase-seq seules surpasse le classificateur utilisant toutes les caractéristiques.
Dans le cas de JUND, l’augmentation de la performance en négligeant toutes les caractéristiques non DNase peut probablement être attribuée à une forte adaptation des paramètres du classificateur soit aux motifs de liaison spécifiques au type cellulaire, soit à la co-liaison spécifique au type cellulaire avec d’autres TFs, car JUND est le seul jeu de données avec une performance améliorée en excluant les caractéristiques basées sur les motifs, comme discuté ci-dessus. Pour les trois TF, nous trouvons effectivement une amélioration de la performance de prédiction si les paramètres du classificateur sont entraînés sur les chromosomes d’entraînement du type de cellule testé (cas « within cell type » ; Additional file 1 : Figure S3).
Puisque les caractéristiques basées sur la DNase-seq et les motifs semblent être les principaux ensembles de caractéristiques affectant la performance de prédiction, nous étudions finalement la performance de prédiction d’un classificateur utilisant uniquement ces deux ensembles de caractéristiques. Nous observons que la performance de prédiction utilisant uniquement les caractéristiques basées sur la séquence DNase et les motifs est largement identique à celle du classificateur utilisant toutes les caractéristiques (Fig. 1), où nous observons la plus grande perte de l’AUC-PR pour TAF1 (0,017) et le plus grand gain de l’AUC-PR pour NANOG (0,007). Nous observons un comportement similaire pour le cas du type de cellule (fichier supplémentaire 1 : figure S3). Comme les ensembles de caractéristiques laissés de côté comprennent toutes les caractéristiques basées sur l’ARN-seq, cela a également pour conséquence qu’un essai spécifique au type de cellule (à savoir DNase-seq) est suffisant pour prédire la liaison TF, ce qui élargit le champ des types de cellules avec des données expérimentales facilement disponibles auxquelles l’approche proposée peut être appliquée.
L’entraînement itératif améliore la performance de prédiction
Comme deuxième aspect clé de l’approche proposée, nous étudions l’impact de la procédure d’entraînement itératif sur la performance de prédiction finale. À cette fin, nous comparons pour chaque TF les valeurs AUC-PR obtenues en faisant la moyenne des prédictions des cinq classificateurs résultant de la procédure d’entraînement itérative pour tous les types de cellules d’entraînement avec les valeurs AUC-PR obtenues en faisant uniquement la moyenne des classificateurs initialement entraînés pour tous les types de cellules d’entraînement, c’est-à-dire les classificateurs entraînés uniquement sur les données d’entraînement initiales (section « Données d’entraînement initiales »).
Pour 11 des 13 ensembles de données de test, nous observons une amélioration des performances de prédiction par la procédure d’entraînement itérative (figure 3). Les améliorations les plus importantes sont obtenues pour E2F1 (0,114), FOXA2 (0,085), NANOG (0,08), FOXA1 (0,063) et MAX (0,061). Parmi celles-ci, on trouve des TF pour lesquelles nous avons observé une bonne performance en utilisant uniquement les caractéristiques basées sur la DNase-seq (E2F1, MAX) et des TF pour lesquelles la combinaison avec les caractéristiques basées sur les motifs était bénéfique (FOXA1, FOXA2, NANOG), ce qui indique que les régions négatives supplémentaires ajoutées dans les itérations 2 à 5 n’induisent pas de biais vers l’un ou l’autre de ces deux types de caractéristiques. Pour quatre de ces cinq TF, un seul (FOXA2, NANOG, FOXA1) ou deux (E2F1) types de cellules d’entraînement ont été fournis, et la variation entre les différents classificateurs provenant de l’entraînement itératif peut aider à éviter le surajustement. En revanche, nous constatons une diminution des performances pour JUND (0,041) et également TAF1 (0,01), qui pourrait être due à une plus grande importance accordée aux régions de liaison spécifiques au type cellulaire dans les itérations ultérieures de la procédure d’apprentissage itérative. Cette hypothèse est également soutenue par l’observation que la procédure d’entraînement itérative conduit toujours à une augmentation des performances de prédiction si les paramètres du classificateur sont entraînés sur les chromosomes d’entraînement du type de cellule testé (fichier supplémentaire 1 : figure S4).
La moyenne des prédictions s’améliore par rapport à la sélection aléatoire des types de cellules
Pour 9 des 12 TFs considérés, les données pour plus d’un type de cellule d’entraînement sont fournies avec les données du défi. Par conséquent, une question centrale pourrait être le choix du type de cellule utilisé pour la formation et, par la suite, pour faire des prédictions pour le type de cellule de test. Cependant, les seules données expérimentales spécifiques au type de cellule disponibles pour faire ce choix sont les données DNase-seq et RNA-seq, alors que la similarité des types de cellules pourrait dépendre de la TF considérée. En effet, les mesures de similarité dérivées des données DNase-seq (par exemple, les coefficients de Jaccard des pics DNase-seq qui se chevauchent, la corrélation des profils) ou des données RNA-seq (par exemple, corrélation des valeurs TPM) se sont révélées non informatives en ce qui concerne la similarité des régions de liaison TF dans les études préliminaires sur les types de cellules d’entraînement.
Par conséquent, nous considérons le choix du type de cellule d’entraînement comme une variable latente, et faisons la moyenne des prédictions générées par les classificateurs respectifs (voir la section « Schéma de prédiction »). Comme les étiquettes des types de cellules de test ont été mises à disposition après le défi, nous pouvons maintenant évaluer l’impact de ce choix sur la performance de prédiction et également tester la performance de prédiction des classificateurs formés sur des types de cellules individuels (Fig. 4).
Pour tous les ensembles de données de test avec plusieurs types de cellules d’entraînement disponibles, nous constatons que la prédiction moyenne donne des valeurs AUC-PR supérieures à la médiane des valeurs AUC-PR obtenues pour les types de cellules d’entraînement individuels. Cette amélioration est particulièrement prononcée pour REST, GABPA et MAX.
Pour étudier plus avant si le calcul de la moyenne sur les classificateurs pour les types cellulaires individuels favorise les régions de liaison conservées (c’est-à-dire les régions étiquetées comme » liées » dans la majorité des types cellulaires) par rapport aux régions de liaison spécifiques au type cellulaire, nous évaluons également les performances de prédiction sur ces régions séparément (fichier supplémentaire 1 : figure S5). Plus précisément, nous considérons qu’une région liée est conservée si elle est également étiquetée comme « liée » dans au moins trois des quatre types de cellules d’entraînement, et nous considérons qu’une région liée est spécifique au type de cellule si cette région est étiquetée comme « liée » dans au plus un des quatre types de cellules d’entraînement. La première chose que nous remarquons dans le fichier supplémentaire 1 : Figure S5 est que les valeurs absolues de l’AUC-PR sont sensiblement plus faibles pour les régions spécifiques à un type de cellule que pour les régions conservées. Une explication pourrait être une différence dans l'(im-)équilibre des classes due aux sous-ensembles de régions sélectionnés. Cependant, cette tendance générale demeure lorsque l’on considère l’AUC-ROC (fichier supplémentaire 1 : figure S6). Deuxièmement, nous constatons que la variation entre les classificateurs appris à partir de différents types de cellules d’entraînement est dans la plupart des cas plus importante pour les régions spécifiques au type de cellule que pour les régions conservées. Le comportement en ce qui concerne la performance absolue est similaire pour les classificateurs individuels, leur performance médiane, et la performance de la moyenne des classificateurs pour les types de cellules individuels. Nous remarquons que l’AUC-PR gagné par le calcul de la moyenne est toujours meilleur que la performance médiane des types de cellules individuels pour les régions conservées, mais il en va de même lorsque l’on considère les régions spécifiques au type de cellule pour sept des neuf ensembles de données avec plus d’un type de cellule d’entraînement.
Donc, nous pouvons affirmer que le calcul de la moyenne sur les classificateurs spécifiques au type de cellule produit généralement des prédictions plus précises que celles qui seraient obtenues par un choix non informé d’un type de cellule d’entraînement spécifique.
Cependant, nous remarquons également pour presque tous les ensembles de données de test avec plusieurs types de cellules d’entraînement (la seule exception étant CTCF pour le type de cellule PC-3) que la meilleure performance de prédiction obtenue pour l’un des types de cellules d’entraînement individuels aurait obtenu des améliorations, dans certains cas considérables, par rapport à la procédure de calcul de la moyenne proposée. Il est à noter que la variance de l’AUC-PR entre les différents types de cellules d’entraînement est particulièrement prononcée pour la JUND, ce qui confirme l’hypothèse précédente selon laquelle certaines caractéristiques, par exemple les motifs de liaison ou la co-liaison des TF, sont hautement spécifiques au type de cellule pour la JUND. En général, le fait de dériver des mesures informatives de la similarité de type cellulaire spécifique à la TF, sur la base d’essais spécifiques au type cellulaire et de prédictions préliminaires de sites de liaison, conduirait probablement à une augmentation supplémentaire de la performance des approches computationnelles pour prédire la liaison de TF spécifique au type cellulaire.
Création d’une collection de pistes de liaison TF spécifique au type cellulaire
Ayant établi qu’un seul type de test expérimental, à savoir DNase-seq, est suffisant pour prédire la liaison TF spécifique au type cellulaire avec une précision de pointe, nous pouvons maintenant utiliser les classificateurs obtenus sur les types cellulaires et TF d’entraînement pour des prédictions sur d’autres types cellulaires. À cette fin, nous utilisons les classificateurs qui ne prennent en compte que les caractéristiques basées sur la DNase-seq et les motifs, mais pas les caractéristiques basées sur l’ARN-seq, les caractéristiques basées sur l’annotation, ni les caractéristiques basées sur la séquence brute, ce qui a permis d’atteindre une performance de prédiction comparable à celle du modèle complet (cf. Fig. 1, section « Impact des ensembles de caractéristiques sur la performance de prédiction »). À cette fin, nous avons téléchargé des données DNase-seq pour une collection de types de cellules et de tissus primaires (voir la section « Données »), nous les avons traitées de la même manière que les données originales du défi et, par la suite, nous avons extrait des caractéristiques dépendant de la DNase-seq (section « Caractéristiques »). Nous avons ensuite appliqué les classificateurs formés pour les 31 TF considérés dans le défi à ces 22 ensembles de caractéristiques DNase-seq pour obtenir un total de 682 pistes de prédiction.
Pour les types de cellules sélectionnés (fichier supplémentaire 1 : tableau S5), seules quelques données ChIP-seq spécifiques aux types de cellules et aux TF sont disponibles (fichier supplémentaire 1 : tableau S6). D’une part, cela signifie que les pistes de liaison prédites des TF fournissent des informations précieuses et nouvelles pour la collection de 31 TF étudiées. D’autre part, cela nous donne l’occasion d’effectuer des analyses comparatives et des vérifications de bon sens concernant les prédictions pour le sous-ensemble de ces TF et types de cellules pour lesquels des données ChIP-seq correspondantes sont disponibles. Pour le benchmarking, nous obtenons en outre les fichiers de pics » relaxés » et (lorsqu’ils sont disponibles) » conservateurs » d’ENCODE et dérivons les étiquettes associées ( » lié « , » non lié « , » ambigu « ) selon la procédure proposée pour le défi ENCODE-DREAM.
Pour les CTCF avec des pics ChIP-seq disponibles pour plusieurs types de cellules, nous trouvons généralement une performance de prédiction comparable à celle observée sur les données du défi (cf. fichier additionnel 1 : tableau S4). Pour ces types de cellules, les valeurs AUC-PR (Additional file 1 : Table S7) sont comprises entre 0,7720 et 0,8197 si des pics conservateurs et relaxés sont disponibles et si les donneurs correspondent entre les expériences de DNase-seq et de ChIP-seq, tandis que les performances sont légèrement inférieures pour les donneurs ne correspondant pas (0,7322) et en cas de pics conservateurs manquants (0,7270). Pour JUN, MAX et MYC, seuls les pics relaxés sont disponibles à partir d’ENCODE en raison de réplicats manquants. Ici, nous trouvons des valeurs d’AUC-PR de 0,6310 pour JUN, ce qui est sensiblement plus important que pour les données du challenge ; 0,4004 pour MAX, ce qui est légèrement inférieur aux données du challenge ; et 0,1989 pour MYC, qui n’a pas fait partie des TFs de test dans le challenge mais a obtenu des performances sensiblement meilleures dans le tour du leaderboard.
Les 682 pistes de prédiction à l’échelle du génome sont encore assez grandes (environ 880 Mo par piste) et, par conséquent, demandent un espace de stockage important qui pourrait ne pas être disponible pour l’utilisateur typique, tandis que la majorité des régions ne sont probablement pas liées par la TF d’intérêt. Par conséquent, nous condensons ces prédictions dans des listes de pics prédits au format narrowPeak en joignant des tronçons contigus avec une forte probabilité de liaison et en appliquant un seuil de 0,6 (relaxé) et 0,8 (conservateur) sur la probabilité maximale observée dans un « pic » prédit. Nous fournissons ces fichiers de pics à télécharger à https://www.synapse.org/#!Synapse:syn11526239(doi:10.7303/syn11526239).
Pour avoir une impression de la qualité des pics prédits, nous calculons en outre des coefficients de Jaccard basés sur les chevauchements de pics (calculés à l’aide du paquet R GenomicRanges ) entre les fichiers de pics prédits et ceux des pics ChIP-seq correspondants et disponibles (fichier additionnel 1 : tableau S9, S11), et nous constatons que ceux-ci sont largement concordants avec l’évaluation précédente sur la base des étiquettes dérivées.
Enfin, les données pour CTCF permettent de comparer le chevauchement entre les listes de pics prédites et les listes de pics déterminées expérimentalement aux chevauchements observés pour (i) les réplicats techniques (fichier supplémentaire 1 : tableau S12) et (ii) les réplicats biologiques (fichier supplémentaire 1 : tableau S10). Nous constatons que les chevauchements entre les prédictions et les pics seuillés par l’IDR sont plus faibles que ceux entre les pics seuillés par l’IDR et/ou les réplicats techniques. Pour CTCF, trois expériences indépendantes pour le tissu « fibroblaste de prépuce » sont disponibles, et nous utilisons deux échantillons indépendants de DNase-seq pour ce tissu pour notre prédiction. En comparant les coefficients de Jaccard dans ces deux situations (cf. fichier supplémentaire 1 : tableaux S9, S10), nous constatons que les coefficients de Jaccard entre les prédictions et les pics seuillés par l’IDR varient entre 0,568 et 0,693, alors que nous observons des coefficients de Jaccard entre 0,658 et 0,72 pour les réplicats biologiques. Sur la base de ces données limitées, nous pourrions conclure que les prédictions computationnelles sont moins cohérentes que les réplicats biologiques seulement par une petite marge, au moins pour CTCF.
Sur la base des listes de pics prédits, nous pouvons également comparer les caractéristiques de liaison prédites des différents TF entre les types de cellules. Tout d’abord, nous inspectons le nombre de pics prédits par TF et par type de cellule (fichier supplémentaire 1 : figure S7). Nous trouvons un groupe distinct de TFs très abondants (CTCF, GATA3, SPI1, CEBPB, FOXA1, FOXA2, MAX), qui montrent généralement aussi un grand nombre de pics dans les données d’entraînement. Parmi ceux-ci, nous trouvons des modèles de spécificité de type cellulaire allant de l’abondance ubiquitaire de CTCF à une abondance très variable pour GATA3. Les autres TF obtiennent un nombre sensiblement plus faible de pics prédits avec des schémas similaires, par exemple pour ATF7/ARID3A/NANOG ou EP300/TEAD4/JUND, où ce dernier groupe a été signalé comme se liant à des exhausteurs distaux. Ensuite, nous étudions la stabilité des prédictions de pics, c’est-à-dire les coefficients de Jaccard des pics prédits pour chacune des TF dans différents types de cellules (fichier supplémentaire 1 : figure S8). Là encore, nous constatons une variation importante entre les TF, GABPA, CTCF et REST ayant des coefficients de Jaccard médians supérieurs à 0,7. Notamment, CTCF a été l’une des TF avec le plus grand nombre de pics prédits (médiane 37 455), alors que nous avons observé un ordre de grandeur de moins de pics prédits pour REST (médiane 3 364) et GABPA (médiane 5 430). À l’autre extrémité de l’échelle, nous trouvons des TFs se liant indirectement comme EP300, ou des TFs qui sont hautement spécifiques à des types cellulaires sous-représentés dans nos données comme NANOG (cellules souches) et HNF4A (foie, rein, intestins). Enfin, nous avons étudié la co-liaison des TF en calculant le coefficient de Jaccard moyen à travers les types de cellules pour chaque paire de TF (Fichier additionnel 1 : Figure S9). Ici, nous observons des groupes distincts de TFs co-occurrents comme CTCF/ZNF143 ou FOXA1/FOXA2, qui sont connus pour interagir in vivo. En outre, nous trouvons un groupe plus important de TFs avec des chevauchements substantiels entre leurs pics prédits comprenant YY1, MAX, CREB1, MYC, E2F6, E2F1, et TAF1. Comme le TAF1 (TATA-box binding protein associated factor 1) est associé à l’initiation transcriptionnelle au niveau de la boîte TATA, une explication pourrait être que les sites de liaison de ces TF sont enrichis au niveau des promoteurs centraux. En effet, la liaison aux promoteurs proximaux a été rapportée pour les facteurs MYC/MAX , CREB1 , YY1 , et E2F .
L’implémentation simplifiée de Catchitt donne des performances compétitives
Nous comparons finalement Catchitt, l’implémentation simplifiée de l’approche d’entraînement itérative combinant l’accessibilité de la chromatine et les scores de motifs, à l’implémentation du défi utilisant les caractéristiques basées sur la DNase-seq et les motifs pour le cas intra-cellulaire. À cette fin, nous avons sélectionné cinq combinaisons de type de cellule et de facteur de transcription couvrant la gamme des valeurs de performance observées dans le défi. Plus précisément, nous considérons NANOG et TAF1, qui ont obtenu les valeurs AUC-PR les plus faibles (cf. fichier additionnel 1 : figure S3) pour la mise en œuvre du défi ; CTCF dans les cellules IPSC, qui a obtenu la valeur AUC-PR la plus élevée ; et FOXA1 et HNF4A, qui ont obtenu des valeurs AUC-PR moyennes mais ont bénéficié considérablement de l’entraînement itératif (cf. fichier additionnel 1 : figure S4). Nous résumons les résultats de cette comparaison dans le fichier supplémentaire 1 : tableau S13. Malgré une réduction d’environ dix fois du nombre de motifs considérés et d’autres simplifications (section « Catchitt : a streamlined open-source implementation »), Catchitt donne toujours des valeurs AUC-PR compétitives. En classant les résultats de Catchitt parmi les résultats du défi original, nous constatons que les performances obtenues par les scores de Catchitt ne sont inférieures que de deux rangs à celles de l’implémentation du défi utilisant des caractéristiques basées sur la DNase-seq et sur les motifs. Comme précédemment, nous constatons une amélioration substantielle des performances de prédiction grâce à la procédure d’entraînement itérative.