Methoden
Berechnungen der Länge und des Gewichts des menschlichen Genoms
Die Länge in Zentimetern (cm) und das Gewicht in Pikogramm (pg) aller 24 menschlichen Chromosomen- und mtDNA-Sequenzen wurden wie in Additional file 1: Additional Methods beschrieben berechnet.
Analyse des GC-Gehalts
Der genomische GC-Gehalt wurde für die 24 Chromosomen und für die mtDNA unter bestimmten Basen berechnet, wie in Zusatzdatei 1: Zusätzliche Methoden beschrieben.
Die Software „Transcriptomic GC Analysis“ (TGCA) wurde hier entwickelt, um die mögliche Variation des GC-Gehalts in der Expression ganzer Transkriptome zu untersuchen.
Die quantitativen Transkriptomkarten des Menschen wurden zuvor aus öffentlich zugänglichen Microarray-Datensätzen gewonnen, die mit der TRAM-Software (Transcriptome Mapper) wie beschrieben analysiert wurden. Da quantitative Genexpressionswerte Mutationseffekte vorwegnehmen können, die sich höchstwahrscheinlich auf ein bestimmtes menschliches Gewebe auswirken, verglichen wir einen pathologischen Zelltyp mit seinem normalen Gegenstück und ein ganzes Organ mit einer seiner Unterregionen (Additional file 1: Additional Methods). Für jede Analyse wurden nur Gene verwendet, für die ein Expressionswert in beiden biologischen Bedingungen verfügbar ist. Für jedes Gen wurde die längste humane mRNA-Sequenz aus der neuesten Version der humanen 5′_ORF_Extender-Software (Additional file 1: Additional Methods) entnommen.
Da TRAM und 5′_ORF_Extender für andere Organismen implementiert wurden, wurde die TGCA-Software selbst mit dem Ziel implementiert, leicht mit jedem Sequenz- und Expressionsdatensatz eines beliebigen Organismus verwendet werden zu können. Daher haben wir GC-Berechnungen an Genomen anderer repräsentativer Arten durchgeführt: Danio rerio, Caenorhabditis elegans, Saccharomyces cerevisiae und Escherichia coli (Additional file 1: Additional Methods).
Ergebnisse
Länge und Gewicht des menschlichen Kerngenoms
Einzelne Chromosomenlängen in bp und cm sind in Tabelle 2 angegeben. Bestimmte Basenzahlen und unsichere Schätzungen der Basenzusammensetzung, die in Additional file 2: Table S1 angegeben sind, wurden zur Berechnung des Gewichts der einzelnen Chromosomen verwendet, was zu den in Tabelle 2 aufgeführten Ergebnissen führte. Die Längen- und Gewichtssummen der 24 Chromosomen (22 Autosomen sowie X- und Y-Chromosomen) wurden verwendet, um die Länge und das Gewicht der nicht platzierten Basen proportional zu schätzen und so die Genauigkeit der Berechnung des gesamten Genoms zu verbessern (Tabelle 2). Die Daten für die vorherige Zusammenstellung (GRCh37.p13) sind auch in Zusatzdatei 3: Tabelle S2 und Zusatzdatei 4: Tabelle S3 enthalten. Die Chromosomen, die sich zwischen den beiden Assembly-Versionen stärker unterscheiden, sind die Chromosomen 9 und Y (GRCh38 hat 2,8 Mb bzw. 2,1 Mb weniger als GRCh37) und die Chromosomen 17 und 18 (GRCh38 hat 2,1 Mb bzw. 2,3 Mb mehr als GRCh37).
Angesichts einer mittleren Länge in einer diploiden Zelle von 206.62 cm und der neuesten Schätzung von durchschnittlich 3 × 1012 kernhaltigen Zellen für einen Referenzmenschen beträgt die Gesamtausdehnung aller Kern-DNA-Moleküle in einem einzigen menschlichen Individuum etwa 6,20 Milliarden km (6,20 × 1012 m) und reicht aus, um die Entfernung Erde-Sonne (https://cneos.jpl.nasa.gov/glossary/au.html) mehr als 41 Mal zurückzulegen. Bei einem mittleren Gewicht einer diploiden Zelle von 6,46 pg würde das Genomgewicht über alle kernhaltigen menschlichen Zellen summiert etwa 19,39 g betragen, was fast dem Gewicht von 100 Karat entspricht (https://sizes.com/units/carat.htm).
Das mitochondriale Genom
Anhand aller zuvor für das Kerngenom durchgeführten Berechnungen wurden Länge, Gewicht und GC-Gehalt der menschlichen mtDNA geschätzt (Tabelle 2).
Im Durchschnitt könnte eine menschliche Zelle zwischen einem Minimum von 2.845.394 ± 204.296 bp, 0,09 ± 0,0067 cm und 0,0029 ± 0,00021 pg und einem Maximum von 110.742.060 ± 4.568.736,06 bp, 3,62 ± 0,15 cm und 0,11 ± 0,0047 pg mtDNA enthalten, abhängig von der Unsicherheit der Anzahl der DNA-Moleküle pro Zelle (Additional file 1: Additional Methods). Daher macht die mtDNA trotz ihrer im Vergleich zur Kern-DNA stark reduzierten Größe (1/195.663 im Vergleich zum haploiden Kerngenom) einen beträchtlichen Anteil der Gesamt-DNA einer menschlichen Zelle aus: etwa 0,90-1,21% (diploide Zelle), wobei sie mindestens 52.
Analyse des GC-Gehalts
Die menschlichen GC-Gehalte, die unter den bestimmten Basen (A, T, W, G, C und S) berechnet wurden, die in den 24 menschlichen Chromosomen gezählt wurden, mit Ausnahme der 150.630.700 unsicheren Basen, sind in Tabelle 2 dargestellt (Additional file 4: Tabelle S3 für GRCh37.p13). Bei den anderen untersuchten Arten stimmen die berechneten Chromosomenzahlen, die Gesamtlänge des Genoms in bp und der genomische GC-Gehalt (Tabelle 3) mit früheren Berichten überein (Additional file 5: Tabelle S4).
Die Transkriptomkarten für menschliche Down-Syndrom (DS) akute megakaryoblastische Leukämie (AMKL) Blasten und euploide Megakaryoblasten (MK) haben einen Expressionswert in beiden Zuständen zusammen mit mRNA-Sequenzen für 16.547 Gene. Bei den Transkriptomkarten für den gesamten menschlichen Hippocampus und das gesamte Gehirn liegt dieser Wert bei 17.579 Genen. Bei den anderen untersuchten Arten beträgt dieser Wert 6642 Gene für das Gehirn von D. rerio, 19 281 für C. elegans, 4673 für S. cerevisiae und 2426 für E. coli. Die mit der TGCA-Software berechneten mRNA-GC-Gehalte in diesen Teilmengen sind in Tabelle 3 aufgeführt. Für jede biologische Bedingung wurde dann jede absolute mRNA-GC-Zahl mit dem entsprechenden Expressionswert multipliziert. Die Summe dieser Werte in Bezug auf jede Transkriptomkarte ergibt den transkriptomischen GC-Gehalt (Tabelle 3). Die mRNA- und transkriptomischen GC-Gehalte für jedes Chromosom unter DS-AMKL- und MK-Bedingungen sind in Zusatzdatei 6: Tabelle S5 angegeben. Die DS-AMKL-Bedingung hat 7 Chromosomen (9, 11, 20, 17, 16, 22, 19) mit einem transkriptomischen GC-Gehalt von mehr als 48,80, was dem gesamten mRNA-GC-Gehalt entspricht (das Maximum liegt bei 56,26 % von chr19), während die MK-Bedingung 9 Chromosomen (7, 15, 9, 11, 20, 17, 22, 16, 19) mit einem transkriptomischen GC-Gehalt von mehr als diesem Wert aufweist (das Maximum liegt bei 59,02 % von chr19, was ein sehr hoher Wert ist).
Diskussion
In dieser Arbeit haben wir nach bestem Wissen und Gewissen grundlegende Parameter bestimmt, die das normale menschliche Referenzgenom beschreiben: die Länge, ausgedrückt sowohl in bp als auch in Längeneinheiten (cm, m), das Gewicht (in Masseneinheiten, pg) und den relativen GC-Gehalt, ausgedrückt in Prozent, für das gesamte menschliche Kerngenom, für jedes Chromosom und für die mtDNA.
Wir haben uns bei unseren Berechnungen auf die GRCh38-Assembly gestützt, die länger und zusammenhängender ist als frühere Referenz-Assembly-Versionen und zum ersten Mal eine sequenzbasierte Darstellung für genomische Merkmale wie Zentromere und Telomere liefert, die, obwohl sie je nach Zelltyp und Alter variieren, unsere Schätzungen in geringem Maße beeinflussen würden. Die genetische Vielfalt des Menschen reicht jedoch von der Einzel-Nukleotid-Variation bis hin zu großen chromosomalen Ereignissen. Nach der Sequenzierung von 1000 menschlichen Genomen wurde in einer neueren Analyse die Sequenzvariation in einem typischen diploiden Genom auf ~ 20 Millionen Basen geschätzt. Wendet man diese Größenordnung der Variation auf unsere Schätzungen an, kann eine proportionale Variabilität zwischen Individuen von ± 0,65 cm und 0,02 pg für die Länge und das Gewicht eines durchschnittlichen diploiden menschlichen Genoms angenommen werden.
Unsere Ergebnisse liegen nicht weit von früheren groben Schätzungen entfernt (Tabelle 1), jedoch könnte die genauere Bestimmung der Länge und des Gewichts des menschlichen Genoms interessante Möglichkeiten bieten. Eine kürzlich durchgeführte Analyse von 70 Genomen, von Prokaryonten bis zu Primaten, hat gezeigt, dass fünf Informationsgesetze über die Komplexität der Genomstruktur gefunden wurden, die auf Indizes basieren, die auf dem Wert k = lg2(n) basieren, wobei k die Länge einer im Genom vorkommenden Zeichenfolge und n die Genomlänge ist. Die Anwendung unserer Analyse auf andere Genome wäre nützlich, um diese Indizes zu aktualisieren. Eine weitere interessante Möglichkeit, die sich aus der Kenntnis der Länge des menschlichen Kerngenoms ergibt, ist die Ableitung des Gesamtvolumens der menschlichen DNA, um die Effizienz der DNA bei der Datenspeicherung abzuschätzen, die im Vergleich zu den modernsten Festplatten um das 104-fache höher liegt (Zusatzdatei 7: Diskussion). Das Genomgewicht ist ein Parameter, der für die Korrelation mit den Ausbeuten der DNA-Extraktion durch verschiedene Methoden nützlich ist.
In Bezug auf die Analyse des GC-Gehalts auf genomischer Ebene stimmen unsere Ergebnisse mit einer kürzlich durchgeführten Studie überein. Durch die Implementierung der TGCA-Software haben wir zum ersten Mal auch den GC-Gehalt auf mRNA- und Transkriptom-Ebene bestimmt, ein neuartiges Konzept, das wir hier vorschlagen, nämlich die Berechnung des GC-Anteils an der tatsächlich in einem Gewebe exprimierten mRNA-Menge. Der humane genomische GC-Gehalt ist viel niedriger als der mRNA-GC-Gehalt. Der mRNA-GC-Gehalt ist wiederum ähnlich wie der transkriptomische GC-Gehalt. Dies wurde auch in D. rerio und C. elegans und in geringerem Maße in S. cerevisiae und in E. coli bestätigt. Insgesamt scheint es, dass die GC-Zusammensetzung von hoch und schlecht exprimierten Genen in bestimmten Geweben den mRNA-GC-Gehalt in geringem Maße beeinflusst und ein globaler Ausgleich zwischen ihnen bestehen könnte.
Im Vergleich verschiedener biologischer Bedingungen wurde die größte Abweichung vom mRNA-GC-Gehalt in einem Zustand der Aneuploidie und Leukämie (DS-AMKL) festgestellt. Interessanterweise weicht der transkriptomische GC-Gehalt von DS-AMKL stärker vom transkriptomischen GC-Gehalt des gesunden euploiden Gegenstücks der MK-Zellen ab. Jüngste Arbeiten an DS-Patienten zeigten typische Veränderungen des Metaboloms und des gesamten Transkriptoms. Der GC-Gehalt von Chromosom 21 kommt dem mittleren genomischen GC-Gehalt am nächsten, so dass das Vorhandensein einer dritten Kopie von Chromosom 21 keine große Veränderung der GC-Zusammensetzung auf genomischer Ebene verursachen würde. Da die Duplikation zumindest einer begrenzten Region des menschlichen Chromosoms 21 mit DS in Verbindung gebracht wird, sind weitere Studien erforderlich, um festzustellen, ob die Duplikation dieser Region des Chromosoms 21 und/oder die Leukämieerkrankung für dieses Abweichungsmuster verantwortlich ist. Eine kürzlich durchgeführte Arbeit zeigte beispielsweise eine hohe Expression von mRNAs mit hohem GC-Gehalt im Transkriptom von Psoriasis-Läsionen, während die sich auflösenden Läsionen eine geringe Expression dieser mRNAs aufwiesen.
Die Bestimmung des GC-Gehalts im Genom, in der mRNA und im Transkriptom kann bei DNA- und RNA-Sequenzierungsanalysen nützlich sein, da eine Verzerrung des GC-Gehalts bei der Illumina-Sequenzierungstechnologie nachweislich bei der Bibliotheksvorbereitung eingeführt wird, was zu einer Beeinträchtigung von DNA-Kopienzahlstudien und Schätzungen von Expressionsveränderungen führt.
Zusammenfassend lässt sich sagen, dass wir einen aktuellen Überblick über die grundlegenden Parameter des menschlichen Genoms und eine erste Charakterisierung des GC-Gehalts der mRNA und des Transkriptoms liefern. Unsere Ergebnisse können eine solide Grundlage für weitere Untersuchungen zur strukturellen und funktionellen Genomik des Menschen bilden und gleichzeitig einen Rahmen für die vergleichende Analyse anderer Genome bieten.