Accurate prediction of cell type-specific transcription factor binding

During ENCODE-DREAM challenge, 40 international teams created by large many approaches has been benchmarked on 13 cell type-specific ChIP-seq assays for 12 different TFs in human (additional file 1: Figure S1). 他の細胞種における同じ(および追加の)TFに関する109のデータセットがトレーニング用に提供されました。 トレーニングデータは、細胞種特異的DNase-seqデータ、細胞種特異的RNA-seqデータ、ゲノム配列とアノテーション、in silico DNA形状予測から構成されている。 さらに、細胞種特異的およびTF特異的なChIP-seqデータおよび派生ラベルがトレーニング染色体に提供され、予測はChIP-seqトレーニングデータのいずれもが提供されていない残りの保留染色体chr1、chr8、chr21についてのみ評価された。 50bpシフトした200bp領域について、特定の領域がChIP-seqピークと重なる確率をゲノム規模で予測することを参加チームに依頼した。 予測値は、13のテストデータセットそれぞれについて、(i) ROC曲線下面積 (AUC-ROC), (ii) 精度-再現曲線下面積 (AUC-PR), (iii) FDR10%時の再現性、および (iv) FDR50%時の再現性で評価された。 これらは、ホールドアウトした染色体の10ブートストラップサンプルにおいて、これらの指標のそれぞれについて得られた平均、正規化ランクに基づいてデータセットごとに集計され、これらのランク統計量の平均値として最終ランキングが得られた(参照:https://www.synapse.org/#!Synapse:syn6131484/wiki/405275 )。

このランキングの結果、本論文のアプローチ(チーム「J-Team」)はチーム「Yuanfang Guan」が作成したアプローチと共同で1位を獲得した。

以下では、提案するアプローチの様々な側面が最終予測性能に与える影響について調査する。 まず、関連する特徴の異なるセット(DNase-seqデータ、モチーフスコア、RNA-seqデータ、配列ベースおよびアノテーションベースの特徴)が予測性能に与える影響を調査する。 第二に、初期学習データに対する学習ではなく、反復学習アプローチの重要性を検討する。 第三に、個々の細胞種の学習データで学習させた分類器の予測性能と、これらの細胞種を平均して得られる集約予測性能の比較を行う。 最後に、提案した方法を、さらに22の初代細胞型における31のTFの細胞型特異的結合予測に適用し、合計682の予測トラックを得ることができた。

予測性能に対する特徴量の影響

全ての特徴量(「特徴量」の項)、反復学習方法(「反復学習」の項)、全ての学習細胞型に対する集約(「予測スキーマ」の項)を用いた提案手法によって得られた予測性能を、以降の比較の基準として用いる(図1;「全ての特徴量」)。 この原稿では、AUC-PRを主要な性能指標とする。なぜなら、AUC-PRは大きく不均衡な分類問題に対する分類性能についてより多くの情報を提供し、異なるFDRレベルにおけるリコールは精度-リコール曲線の単一点に対応するため、むしろ不安定であるためである。 AUC-PR 値は、ENCODE-DREAM 課題でも使用された R パッケージ PRROC を使用して計算されます。

Fig.1
figure1

Across cell type performance. テストデータ中の13種類のTFと細胞型の組み合わせそれぞれについて、(i)全ての特徴を考慮した場合、(ii)モチーフベースの特徴のみを用いた場合、(iii)DNase-seqベースの特徴のみを用いた場合、(iv)モチーフベースとDNase-seqベースの特徴を用いた場合の分類法の保留染色体上の予測性能(AUC-PR)を計算する。 すべての特徴を用いた分類器の性能の中央値は破線で示されている

AUC-PRで測定した予測性能が異なる転写因子間で大きく異なることが分かり(図1)、AUC-PR値の中央値は0.4098であることが判明した。 最も予測性能が高いのは、長くて情報量の多い結合モチーフを持つCTCFで、2つの異なる細胞型(IPSCとPC-3)で達成されている。 また、肝細胞のFOXA1やHNF4Aでも平均以上の性能が得られている。

最終的な予測性能に対する選択された特徴の寄与を分析するために、学習と予測において入力データから関連する特徴のセットを系統的に除外した。

最終的な予測性能に対する選択された特徴の寄与を分析するために,学習と予測において入力データから関連する特徴を除外することを系統的に行った.

Fig.2
figure2

Importance of Feature Set.P>

特徴セットの影響。 a 学習データから1つの特徴セットを除外し、得られた分類器の性能(AUC-PR)を測定し、このAUC-PR値を、全ての特徴を用いた分類器が達成した対応する値から差し引くことで、関連する特徴セットの重要性を検証する。 したがって、ΔAUC-PRが0以上の場合は、残した特徴量が最終的な予測性能を向上させたことを示し、ΔAUC-PRが0以下の場合は、予測性能に負の影響を与えたことを示す。 13のテストデータセットすべてについてΔAUC-PR値を収集し、バイオリンプロットとして可視化した。 b DNase-seqベースの特徴量の異なるグループの評価。 この場合、DNase-seqベースの特徴の1つの特定のグループを含む性能(cf. Additional file 1: Text S2))とDNase-seqベースの特徴を含まない性能(cf. violin “DNase-seq” in panel a)を比較します。 我々は、すべてのDNase-seqベースの特徴が予測性能に正に寄与していることを見出した

我々は、DNase-seqデータから得られる特徴のセットについて最大の影響を観察する。

モチーフスコアに基づく特徴(de novo discovered motifsとデータベースからのものを含む)も、最終的な予測性能に大きく寄与している。 ここで、いくつかのTF、すなわちIPSC細胞のCTCFで0.231、PC-3細胞のCTCFで0.175、FOXA1で0.167という大きな改善を観察することができた。 一方、JUNDの場合は、モチーフベースの特徴を含めると予測性能が低下することが確認された(-0.080)。 残りのTFについては、AUC-PRが0.008から0.079の間で改善されることが確認された。 さらに、モチーフの2つのサブセット、すなわち、チャレンジデータ上でde novoモチーフ発見によって得られた全てのモチーフと、モチーフ内の依存性を捉えた全てのSlim/LSlimモデルについて検討した。 デノボ・モチーフ発見によるモチーフでは、13 個のデータセットのうち 9 個で改善が見られ、Slim/LSlim モデルでは、13 個のデータセットのうち 10 個で改善が見られました。 しかし、絶対的な改善度(中央値0.011と0.006、それぞれ)はかなり小さい。おそらく、(i)de novoモチーフ発見によって得られたモチーフは、データベースで見つかったものと冗長であるかもしれない、(ii)Slim/LSlimモデルによって捉えられたモチーフ内の依存性と不均一性は、異なるソースからのモチーフの変動によって一部カバーされているかもしれない。

特に、RNA-seqベースの特徴(中央値0.

DNase-seqベースの特徴セットは、フォールドエンリッチメントトラック、ピークリスト、または細胞タイプ間の変動に由来する特徴を含む、かなり多様であるため、これらの特徴の関連グループの影響をさらに解明することを目的としています。 この目的のために、我々はさらに、完全な特徴セットからDNase-seq特徴の特定のグループ(参照:追加ファイル1:テキストS2)を削除することによって予測性能がどのように影響されるかをテストした(追加ファイル1:図S2)。 しかし、フォールドエンリッチメントに基づく特徴量とピークに基づく特徴量は大きく寄与し、他の特徴量の影響は曖昧であるため、緩やかな違いが観察されます。

そこで、DNase-seqベースの特徴(図2aのバイオリンプロット「DNase-seq」の後ろのデータ)をすべて除外した場合をベースラインとし、この削減した特徴セットに特定のグループを1つだけ追加したシナリオを追加テストしました(図2b)。 まず、すべての特徴量が予測性能にプラスに寄与していることがわかる。 最も貢献度が高いのは、fold-enrichmentグループであるが、基本的にfold-enrichmentトラックの広いウィンドウを平均化したlong rangeグループや、もともとDNase-seqカバレッジに基づいてコールされたピークを用いたpeak-basedグループも関連していることが観察される。 このグループは、細胞タイプ間のDNase-seqシグナルのばらつきと保存性をそれぞれ測定するもので、最も貢献度の低いグループである。

DNase-seqに基づく特徴とモチーフに基づく特徴が予測性能に大きな影響を与えることがわかったので、DNase-seqデータとTFモチーフに基づく特徴のみを用いて提案手法の予測性能も検証してみた。 その他の特徴、すなわちRNA-seqに基づく特徴、アノテーションに基づく特徴、生配列に基づく特徴はすべて除外した。 その結果(図1)、一部のTF(CTCF、E2F1、GABPA)については、モチーフに基づく特徴のみを用いた分類器でも十分な予測性能が得られたが、残りのTFについてはAUC-PR値が0.12未満であることが確認された。

DNase-seqベースの特徴のみを用いた分類器は、研究された多くのTFに対して顕著な性能を示したが(図1)、これは2つのCTCFデータセットに対してのみモチーフベースの分類器よりも低い値であった。

JUNDの場合、すべての非DNase特徴を無視した場合の性能の向上は、おそらく細胞型特異的結合モチーフまたは他のTFとの細胞型特異的共結合のいずれかに分類器パラメータが強く適応したことに起因していると考えられる。

DNase-seqベースの特徴とモチーフベースの特徴が予測性能に影響を与える主要な特徴セットであると思われるので、最後にこの2つの特徴セットのみを用いた分類器の予測性能について検討した。 その結果、DNase-seqベースの特徴とモチーフベースの特徴のみを用いた予測性能は、全ての特徴を用いた分類器の予測性能とほぼ同じであり(図1)、TAF1のAUC-PRにおける最大の損失(0.017)、NANOGのAUC-PRにおける最大の利益(0.007)が観察された。 また、細胞種内でも同様の挙動が観察された(Additional file 1: Figure S3)。

反復学習による予測性能の向上

提案するアプローチの第二の重要な側面として、最終的な予測性能に対する反復学習手順の影響を調査する。

13のテストデータセットのうち11のテストデータセットにおいて、反復学習により予測性能が向上していることが確認された(図3)。 特に、E2F1(0.114)、FOXA2(0.08)、NANOG(0.08)、FOXA1(0.063)、MAX(0.061)に対して大きな向上が見られる。 この中には、DNase-seqベースの特徴量のみで良い結果が得られたTF(E2F1、MAX)と、モチーフベースの特徴量との組み合わせが有効なTF(FOXA1、FOXA2、NANOG)があり、反復2〜5で追加した負の領域が、これら2種類の特徴のいずれに対しても偏りをもたらさないことが示された。 これら5つのTFのうち4つについては、1つ(FOXA2、NANOG、FOXA1)または2つ(E2F1)のみの学習細胞タイプが提供されており、反復学習による異なる分類器間の変動がオーバーフィッティングの回避に役立つと考えられます。 一方、JUND(0.041)、さらにTAF1(0.01)では性能の低下が見られたが、これは反復学習手順のその後の繰り返しにおいて、細胞型固有の結合領域がより強調されたことが原因であると思われる。 この仮説は、分類器のパラメータをテスト細胞型の訓練染色体で訓練した場合、反復訓練手順が常に予測性能の上昇をもたらすという観察からも支持される(Additional file 1: Figure S4)。

Fig.3
figure3

Relevance of the iterative training procedure.それは反復訓練手順の妥当性である。 13のテストデータセットそれぞれについて。 最初の負の領域 (横軸) で学習した (複数の) 分類器によって達成されたパフォーマンス (AUC-PR) を、反復学習手順からすべての分類器を平均することによって達成されたパフォーマンス (縦軸)

Averaging predictions has improve over random selection of cell types

検討した 12 の TFs 中 9 について、このようにしました。 チャレンジデータには、2種類以上のトレーニング用細胞データが含まれています。 したがって、トレーニングに使用する細胞種の選択と、それに続くテスト細胞種の予測に使用する細胞種の選択は、一つの中心的な問題であるかもしれない。 しかし、その選択に利用できる細胞種固有の実験データはDNase-seqとRNA-seqデータだけであり、細胞種の類似性は考慮するTFに依存する可能性がある。 実際、DNase-seqデータ(例:重複するDNase-seqピークのJaccard係数、プロファイルの相関)またはRNA-seqデータ(例:…)から得られる類似性指標は、TFに依存する可能性がある。

したがって、我々はトレーニング細胞タイプの選択を潜在変数とみなし、それぞれの分類器によって生成された予測を平均化する(「予測スキーマ」セクションを参照)。 チャレンジの後、テスト細胞のラベルが利用可能になったので、この選択が予測性能に与える影響を評価し、個々の細胞タイプで学習した分類法の予測性能をテストすることができます(Fig.

Fig.4
figure4

Ensemble classifierの性能です。 13個のテストデータセットそれぞれについて、単一の細胞型で学習した個々の分類器(開丸)の性能(AUC-PR)と、全ての学習細胞型で学習した全ての分類器を平均化したアンサンブル分類器(塗りつぶし、オレンジ丸)の性能を比較します。 参考として、個々の分類器の中央値を赤いバーとしてプロットします

複数のトレーニング細胞タイプが利用できるすべてのテストデータセットについて、平均化した予測は個々のトレーニング細胞タイプで達成したAUC-PR値の中央値よりも高いAUC-PR値をもたらすことがわかります。 この改善は、REST、GABPA、およびMAXについて特に顕著である。

個々の細胞型について分類器を平均化することが、細胞型特有の結合領域よりも保存された結合領域(すなわち、大部分の細胞型において「結合」とラベル付けされた領域)を好むかどうかをさらに調べるために、我々はまたそのような領域について個別に予測性能を評価した(追加ファイル1:図S5)。 具体的には、結合領域が4つのトレーニング細胞型のうち少なくとも3つで「bound」とラベル付けされていれば保存されているとみなし、結合領域が4つのトレーニング細胞型のうち少なくとも1つで「bound」とラベル付けされていれば細胞型特異的であるとみなした。 まず、Additional file 1: 図S5は、細胞型特異的な領域のAUC-PRの絶対値が保存領域よりも大幅に低いということである。 これは、選択された領域のサブセットによるクラスの(im-)balanceの違いである可能性があります。 しかし、この一般的な傾向は、AUC-ROCを考慮しても変わりません(Additional file 1: Figure S6)。 次に、異なる細胞種から学習した分類器間の変動は、ほとんどの場合、保存領域よりも細胞種特異的な領域で大きいことがわかりました。 絶対性能に関する挙動は、個々の分類器、その中央値性能、および個々の細胞型に対する分類器を平均した性能について同様である。

したがって、細胞型固有の分類器を平均化することは、一般に、1つの特定の訓練細胞型の情報に基づかない選択によって達成されるよりも、より正確な予測をもたらすと主張することができる。

しかし、複数の訓練用細胞型を持つほぼすべてのテストデータセット(唯一の例外はPC-3細胞型のCTCF)において、個々の訓練用細胞型の1つに対して達成された最高の予測性能は、場合によっては、提案した平均化手順よりもかなりの改善を得たであろうことにも気づきます。 このことは、例えば結合モチーフやTFの共結合など、いくつかの特徴はJUNDにとって非常に細胞種特異的であるという、これまでの仮説を支持するものである。 一般に、細胞種特異的なアッセイと予備的な結合部位予測に基づいて、細胞種特異的なTFの類似性の情報を導き出すことは、細胞種特異的なTF結合を予測するための計算機アプローチの性能をさらに高めることにつながると思われる。

細胞型特異的TF結合トラックのコレクションの作成

1種類の実験アッセイ、すなわちDNase-seqが、最先端の精度で細胞型特異的TF結合を予測するには十分であることを確立したので、今度はトレーニング細胞型とTFで得られた分類子を、さらなる細胞型に関する予測に使用できるかもしれない。 そこで、RNA-seqに基づく特徴、アノテーションに基づく特徴、生配列に基づく特徴を用いず、DNase-seqに基づく特徴とモチーフに基づく特徴のみを考慮した分類器を用いて、以前のフルモデルと同等の予測性能を達成することを示した(図1、「予測性能における特徴セットの影響」項参照)。 このため、一次細胞や組織のDNase-seqデータをダウンロードし(「データ」セクション参照)、オリジナルのチャレンジデータと同じ方法で処理し、その後、DNase-seq依存の特徴を抽出しました(「特徴」セクション)。

選択された細胞種(追加ファイル1:表S5)については、わずかな細胞種とTF固有のChIP-seqデータしか利用できません(追加ファイル1:表S6)。 一方、これは、予測されたTF結合トラックが、研究された31のTFのコレクションに貴重で新しい情報を提供することを意味する。 一方、これは、対応するChIP-seqデータが利用可能なこれらのTFsと細胞タイプのサブセットに関する予測に関して、ベンチマークとサニティチェックを実行する機会を提供するものである。

複数の細胞型のChIP-seqピークが利用可能なCTCFについては、一般的に、チャレンジデータで観察された性能に匹敵する予測性能を見つけることができます(参照:追加ファイル1:表S4)。 これらの細胞種について、AUC-PR値(Additional file 1: Table S7)は、conservativeおよびrelaxedピークが利用可能で、ドナーがDNase-seqとChIP-seq実験の間で一致する場合、0.7720から0.8197の範囲であり、一致しないドナーではパフォーマンスがわずかに低くなり(0.7322)、保守的ピークが見つからない場合(0.7270)となっています。 JUN、MAX、MYCについては、レプリカが欠損しているため、ENCODEからはrelaxed peaksのみが利用可能である。 JUNのAUC-PR値は0.6310で、チャレンジデータより大幅に大きく、MAXは0.4004でチャレンジデータより若干小さく、MYCはチャレンジではテストTFに含まれなかったが、リーダーボードでは大幅に良い結果を得ていることがわかった。

682のゲノムワイドな予測トラックはまだかなり大きく(トラックあたり約880MB)、したがって、典型的なユーザーには利用できないかもしれないかなりのストレージスペースを要求しており、一方、大部分の領域は関心のあるTFによって結合されていないと思われます。 そこで、結合確率の高い連続した領域を結合し、予測される「ピーク」の最大確率に0.6(緩和)または0.8(保守)の閾値を適用することにより、これらの予測をnarrowPeak形式の予測ピークリストにさらに凝縮しています。 これらのピークファイルはhttps://www.synapse.org/#!Synapse:syn11526239(doi:10.7303/syn11526239) でダウンロードできるようにしています。

予測されたピークの質の印象を得るために、さらに、予測されたピークファイルと対応する、利用可能なChIP-seqピークからのピークとの間のピーク重複に基づくJaccard係数(GenomicRanges R-パッケージを使用して計算されます)(追加ファイル1:表S9、S11)を計算し、これらは、導かれたラベルに基づく以前の評価に広く一致することが判明しました。

最後に、CTCFのデータにより、予測されたピークリストと実験的に決定されたピークリスト間の重複を、(i)技術的複製(追加ファイル1:表S12)および(ii)生物的複製(追加ファイル1:表S10)で観察された重複と比較することができます。 予測値とIDR-thresholdedピーク間のオーバーラップは、IDR-thresholdedピーク間および/または技術的複製品間のオーバーラップより低いことがわかります。 CTCFについては、「包皮線維芽細胞」組織について3つの独立した実験が可能であり、その組織について2つの独立したDNase-seqサンプルを使って予測を行っています。 これらの2つの状況におけるJaccard係数を比較すると(参照:Additional file 1: Tables S9, S10)、予測値とIDR-thresholdedピーク間のJaccard係数は0.568から0.693の間で変化しており、生体レプリカのJaccard係数は0.658から0.72で観測されています。

予測されたピークリストに基づき、異なるTFの予測された結合特性を細胞タイプ間で比較することもできる。 まず、TFと細胞の種類ごとに予測されたピークの数を調べてみる(追加ファイル1:図S7)。 その結果、非常に豊富なTF(CTCF、GATA3、SPI1、CEBPB、FOXA1、FOXA2、MAX)があり、これらはトレーニングデータでも多数のピークを示すことが分かりました。 これらのうち、ユビキタスに存在するCTCFから、GATA3の存在量に大きな差がある細胞型特異性のパターンが見出された。 例えば、ATF7/ARID3A/NANOGやEP300/TEAD4/JUNDは、遠位エンハンサーに結合することが報告されている。 次に、予測されたピークの安定性、すなわち、異なる細胞型においてそれぞれのTFについて予測されたピークのJaccard係数を調べた(Additional file 1: Figure S8)。 ここでも、GABPA、CTCF、RESTはJaccard係数の中央値が0.7を超えており、TF間でかなりのばらつきがあることが分かった。 特にCTCFは予測されるピークの数が最も多いTFの一つであり(中央値37 455)、REST(中央値3 364)およびGABPA(中央値5 430)では予測されるピークが一桁少なくなっていることが確認されました。 一方、EP300のように間接的に結合するTFや、NANOG(幹細胞)やHNF4A(肝臓、腎臓、腸)のように我々のデータにはあまり含まれていない細胞種に特異的に結合するTFも見いだされた。 最後に、各TFのペアについて、細胞種を超えた平均Jaccard係数を計算することによって、TFの共結合について調べた(Additional file 1: Figure S9)。 ここでは、CTCF/ZNF143やFOXA1/FOXA2のように、生体内で相互作用することが知られているTFの共起群が明瞭に観察された。 さらに、YY1、MAX、CREB1、MYC、E2F6、E2F1、TAF1からなる、予測されるピークが大きく重なるTFの大きなクラスタも見いだされた。 TAF1(TATA-box binding protein associated factor 1)はTATAボックスでの転写開始に関連していることから、これらのTFの結合部位がコアプロモーターに濃縮されていることが一つの説明となるかもしれない。 実際、近接プロモーターへの結合は、MYC/MAX、CREB1、YY1、およびE2F因子について報告されている。

合理的なCatchitt実装により、競争力が生まれる

我々は最後に、細胞タイプ内のケースについて、DNase-seqベースおよびモチーフベースの特徴を使用したチャレンジ実装と、クロマチンアクセス性およびモチーフスコアを組み合わせた反復学習アプローチの簡易実装であるCatchittを比較する。 この目的のために、我々はチャレンジで観測された性能値の範囲にまたがる5つの細胞種と転写因子の組み合わせを選択した。 具体的には、チャレンジ実施で最も低いAUC-PR値を得たNANOGとTAF1(参照:追加ファイル1:図S3)、最大のAUC-PR値を得たIPSC細胞のCTCF、中程度のAUC-PR値を得たが反復学習から大きな利益を得たFOXA1とHNF4A(参照:追加ファイル1:図S4)を検討した。 この比較の結果をAdditional file 1: Table S13にまとめました。 モチーフの数を約10倍に減らし、さらに単純化したにもかかわらず(「Catchitt: a streamlined open-source implementation」のセクション)、Catchittは依然として競争力のあるAUC-PR値を得ています。 Catchittの結果を元のチャレンジ結果の中でランキングすると、Catchittのスコアによって達成された性能は、DNase-seqベースとモチーフベースの特徴を使用したチャレンジ実装よりも2ランク低いだけであることがわかります。 前回と同様に、反復学習手順による予測性能の大幅な向上が見受けられます。

コメントを残す

メールアドレスが公開されることはありません。