方法
Human genome length and weight calculations
ヒト24染色体およびmtDNA配列すべての長さをセンチメートル(cm)で、重さをピコグラム(pg)として追加ファイル1:追加方法にて詳細に計算しました。
GC含有量解析
ゲノムGC含有量は、24本の染色体およびmtDNAについて、Additional file 1: Additional Methodsに詳述されているように、ある塩基間での含有量を算出しました。
Transcriptomic GC Analysis(TGCA)ソフトウェアは、全トランスクリプトームの発現におけるGC含量の可能な変動を研究するためにここで開発されました。
ヒト定量トランスクリプトーム地図は、以前に説明したようにTRAM(Transcriptome Mapper)ソフトウェアを通して分析した公開マイクロアレイデータセットから得られました。 遺伝子発現の定量的な値は、与えられたヒトの組織に最も影響を与えるであろう変異の影響を予測することができるので、我々は、病理細胞型とその正常な対応物、および全臓器とそのサブ領域の一つを比較した(追加ファイル1:追加メソッド)。 各解析では、両方の生物学的条件下で発現値が得られる遺伝子のみを使用した。 各遺伝子について、最長のヒトmRNA配列をヒト5′_ORF_Extenderソフトウェアの最新版から取得した(Additional file 1: Additional Methods)。
TRAMと5′_ORF_Extenderは他の生物に対して実装されているので、TGCAソフトウェア自体は、あらゆる生物の配列と発現データセットに対して簡単に使用できる目的で実装されています。 そこで、他の代表的な生物種ゲノムに対してGC計算を行った。
結果
ヒト核ゲノム長および重量
個々の染色体長(bpおよびcm)を表2に示す。 各染色体の重さは、Additional file 2: Table S1に示した塩基数および不確かな塩基組成の推定値を用いて計算し、表2に示した結果を得た。 24本の染色体(常染色体22本、X・Y染色体)の長さと重さの和を用いることで、配置されていない塩基の長さと重さを比例して推定し、全ゲノム計算精度を向上させた(Table 2)。 以前のアセンブリ(GRCh37.p13)のデータもAdditional file 3: Table S2およびAdditional file 4: Table S3に示している。 2つのアセンブリバージョンで大きく異なるのは、9番とY番(GRCh38はGRCh37よりそれぞれ2.8Mbと2.1Mb少ない)、17番と18番(GRCh38はGRCh37よりそれぞれ2.1Mbと2.3 Mb多い)です。
2 型細胞の平均長は 206.5Mb であることからすると、その長さは1型細胞で2型であると考えられます。62 cm、そして、基準となる人間の核細胞の平均が 3 × 1012 という最新の推定を考慮すると、1 人の人間に存在するすべての核 DNA 分子の長さの合計は、約 62 億 km (6.20 × 1012 m) で、地球と太陽の距離 (https://cneos.jpl.nasa.gov/glossary/au.html) を 41 倍以上カバーするのに十分です。 2倍体細胞の平均重量を 6.46 pg と考えると、有核ヒト細胞全体で合計したゲノム重量は約 19.39 g となり、ほぼ 100 カラットの重さになります (https://sizes.com/units/carat.htm)。
ミトコンドリアゲノム
核ゲノムについて以前に行ったすべての計算を適用して、ヒト mtDNA 長、重量および GC 含量を推定しました (表 2)。
平均して、ヒトの細胞は、細胞あたりのDNA分子の数の不確実性に応じて、最小で2,845,394 ± 204,296 bp, 0.09 ± 0.0067 cm および 0.0029 ± 0.00021 pg から最大で 110,742,060 ± 4,568,736.06 bp, 3.62 ± 0.15 cm および 0.11 ± 0.0047 pgの mtDNA全体を含み得る(付加ファイル1:付加メソッド参照)。 したがって、mtDNAは、核DNAに比べてサイズが大幅に小さくなっているにもかかわらず(ハプロイド核ゲノムと比較して1/195,663)、ヒト細胞の全DNAのかなりの割合を占めています:約0.90〜1.21%(2倍体細胞)、少なくとも52.0%を占めることが可能です。
GC含有量解析
ヒトの24本の染色体中の特定の塩基(A、T、W、G、C、S)のうち、1億5630万700個の不明塩基を除いて算出したGC含有量を表2に示す(GRCh37.p13については追加ファイル4、表S3)。 他の調査対象種では、算出された染色体数、全ゲノムbp長、ゲノムGC内容(表3)は既報と同様である(Additional file 5: Table S4)。
ヒトダウン症候群(DS)急性巨核芽球白血病(AMKL)芽細胞と2倍体巨核芽球(MK)トランスクリプトームマップに、16547遺伝子のために利用できるmRNA配列とともに両方の状態で発現値があります。 ヒトの海馬と全脳のトランスクリプトームマップでは、この値は17,579遺伝子のものである。 他の生物種では、D. rerio 脳で 6642 遺伝子、C. elegans で 19,281 遺伝子、S. cerevisiae で 4673 遺伝子、E. coli で 2426 遺伝子であった。 これらのサブセットについて、TGCA ソフトウェアを用いて算出した mRNA GC content を表 3 に示す。 各生物学的条件について、各 mRNA GC 絶対数 に対応する発現値を乗じた。 DS-AMKL および MK 条件における各染色体の mRNA およびトランスクリプトーム GC 含有量を、 追加ファイル 6: 表 S5 に示す。 DS-AMKL 条件では、転写産物の GC 含有率が全 mRNA GC % である 48.80 よりも高い染色体が 7 本(9, 11, 20, 17, 16, 22, 19)あり(最大値は chr19 の 56.26%)、 MK 条件ではその値より高い転写産物の GC 含有率が 9 本(7, 15, 9, 11, 20, 17, 22, 16, 19)あり(最大値は chr19の 59.02% で、非常に 高い)、この染色体では、mRNA GC の値が高くなることが示されました。
考察
この研究では、正常なヒトの基準ゲノムを記述する基本的なパラメータを、我々の知る限りにおいて決定しました。すなわち、ヒト核ゲノム全体、各染色体、mtDNAについて、bpと長さの単位(cm、m)、重量(質量単位、pg)、パーセントで表した相対GC含量の両方で表現された長さ、です。
私たちは、GRCh38アセンブリに基づいて計算を行いました。これは、以前の参照アセンブリバージョンよりも長く、連続性があり、セントロメアやテロメアなどのゲノム特徴について初めて配列ベースの表現を提供したもので、細胞の種類や年齢によって異なるものの、この推定値にわずかながら影響を及ぼすと考えられます。 しかし、ヒトの遺伝的多様性は、1塩基の変異から大規模な染色体イベントに至るまで、多岐にわたっている。 1000個のヒトゲノムの配列決定後、最近の解析では、典型的な2倍体ゲノムの配列変異は2000万塩基程度と推定された。
私たちの結果は、これまでの概算値(表1)から大きく外れてはいませんが、ヒトゲノムの長さと重さをより正確に決定することは、興味深い可能性を提供するかもしれません。 原核生物から霊長類までの70のゲノムの最近の解析では、ゲノム構造の複雑さに関する5つの情報法則が発見された可能性があり、k = lg2(n) という値に基づく指標によって示唆されている。ここでkはゲノムに現れる文字列の長さで、nはゲノムの長さである。 この解析結果を他のゲノムに適用することで、これらの指標を更新することができるだろう。 ヒト核ゲノムの長さを知ることによって得られるもう一つの興味深い可能性は、データ保存におけるDNAの効率を推定するために、ヒトの総DNA量を導き出すことです。その結果、現在の最新のハードディスクと比較して、104倍のオーダーで優れていることがわかりました(追加ファイル7:議論)。
ゲノムレベルのGC含有量解析に関しては、最近の研究と一致しています。 また、TGCAソフトウェアの導入により、我々は初めてmRNAおよびトランスクリプトームレベルでのGC含量を決定した。これは、組織内で実際に発現しているmRNA量に対するGCの割合を算出するという、我々がここで提案する新しい概念である。 ヒトゲノムのGC含量はmRNAのGC含量よりもはるかに低いという結果が得られた。mRNAのGC含量は転写体のGC含量とほぼ同じである。 このことは、D. rerioやC. elegansでも確認されており、S. cerevisiaeやE. coliでは、より低い程度です。
異なる生物学的条件を比較すると、異数性と白血病の条件(DS-AMKL)では、mRNAのGC含量から最も大きな乖離が見られた。 興味深いことに、AMKLの転写産物のGC含量は、健常な2倍体細胞であるMK細胞の転写産物のGC含量から大きく偏っているのである。 最近の研究により、DSの被験者にはメタボロームと全トランスクリプトームの典型的な変化が見られた。 21番染色体のGC含量は、平均的なゲノムGC含量に最も近いものの1つであり、したがって、21番染色体の3番目のコピーが存在しても、ゲノムレベルのGC組成に大きな変化は生じないと考えられます。 ヒトの21番染色体の少なくとも限られた領域の重複は、DSと関連しているので、この逸脱パターンが21番染色体領域の重複や白血病の状態に起因しているのかどうか、さらなる研究が必要である。 例えば、最近の研究では、乾癬病変のトランスクリプトームにおいて、高GC含有量のmRNAが高発現している一方で、治癒性病変ではこれらのmRNAの発現は低いことが示された。
ゲノム、mRNA、トランスクリプトームのGC含量の決定は、DNAおよびRNAシーケンス解析において有用であり、イルミナシーケンス技術のGC含量の偏りは、ライブラリ調製段階で導入され、DNAコピー数研究および発現フォールドチェンジ推定を混乱させる可能性があると記録されている …。
結論として、我々は、基本的なヒトゲノムパラメータに関する最新情報と、mRNAおよびトランスクリプトームのGC含有量の最初の特徴付けを提供するものである。 この結果は、ヒトの構造的・機能的ゲノムに関するさらなる研究の確かな基礎となるとともに、他のゲノムとの比較解析のためのフレームワークとなる。