Op de lengte, het gewicht en het GC-gehalte van het menselijk genoom

Methods

Human genome length and weight calculations

Lengten in centimeters (cm) en gewicht in picograms (pg) van alle 24 menselijke chromosoom- en mtDNA-sequenties werden berekend zoals gedetailleerd in Additional file 1: Additional Methods.

GC-gehalte analyse

Het genomische GC-gehalte werd berekend onder de bepaalde basen voor de 24 chromosomen en voor mtDNA zoals gedetailleerd in Additional file 1: Additional Methods.

De “Transcriptomic GC Analysis” (TGCA) software werd hier ontwikkeld om de mogelijke variatie van GC-gehalte in de expressie van hele transcriptomen te bestuderen.

Menselijke kwantitatieve transcriptoom kaarten werden eerder verkregen uit publiek beschikbare microarray datasets geanalyseerd door TRAM (Transcriptome Mapper) software zoals beschreven . Aangezien kwantitatieve genexpressie waarden kunnen anticiperen op mutatie-effecten die het meest waarschijnlijk een bepaald menselijk weefsel zal beïnvloeden , vergeleken we een pathologisch celtype met zijn normale tegenhanger en een heel orgaan met een van de subregio’s (Additional file 1: Additional Methods). Voor elke analyse werden alleen genen gebruikt waarvoor een expressiewaarde beschikbaar is in beide biologische condities. Voor elk gen werd de langste menselijke mRNA-sequentie verkregen uit de nieuwste versie van de menselijke 5′_ORF_Extender software (Additional file 1: Additional Methods).

Sinds TRAM en 5′_ORF_Extender werden geïmplementeerd voor andere organismen , TGCA software zelf werd geïmplementeerd met het doel om gemakkelijk te worden gebruikt met elke sequentie en expressie dataset van een organisme. Zo hebben we GC-berekeningen uitgevoerd op andere representatieve genomen van soorten: Danio rerio, Caenorhabditis elegans, Saccharomyces cerevisiae en Escherichia coli (Additional file 1: Additional Methods).

Resultaten

Humane nucleaire genoom lengte en gewicht

Individuele chromosoom lengtes in bp en cm worden gegeven in tabel 2. Bepaalde base telt en onzekere base samenstelling schattingen gegeven in Additional file 2: Tabel S1 werden gebruikt om elk chromosoom gewicht te berekenen, het verkrijgen van de resultaten in tabel 2. De lengte en gewicht sommen van de 24 chromosomen (22 autosomen en X-en Y-chromosomen) werden gebruikt om evenredig de lengte en het gewicht van de niet geplaatste basen schatten, het verbeteren van het hele genoom berekening nauwkeurigheid (tabel 2). Gegevens voor de vorige assemblage (GRCh37.p13) worden ook gegeven in Additional file 3: Tabel S2 en Additional file 4: Tabel S3. De chromosomen die variëren in grotere mate tussen de twee montage versies zijn chromosomen 9 en Y (GRCh38 heeft 2,8 Mb en 2,1 Mb minder dan GRCh37, respectievelijk) en chromosomen 17 en 18 (GRCh38 heeft 2,1 Mb en 2,3 Mb meer dan GRCh37, respectievelijk).

Tabel 2 Lengte, gewicht en GC-gehalte van menselijke chromosomen, genoom en mitochondriaal DNA

Gezien een gemiddelde lengte in een diploïde cel van 206.62 cm en de meest recente schatting van een gemiddelde van 3 × 1012 kerncellen voor een referentiemens, bedraagt de totale lengte-uitbreiding van alle nucleaire DNA-moleculen die in één enkel menselijk individu aanwezig zijn ongeveer 6,20 miljard km (6,20 × 1012 m) en is dit voldoende om de afstand Aarde-Zon (https://cneos.jpl.nasa.gov/glossary/au.html) meer dan 41 keer te overbruggen. Uitgaande van een gemiddeld gewicht in een diploïde cel van 6,46 pg, zou het genoomgewicht gesommeerd over alle gekernde menselijke cellen ongeveer 19,39 g bedragen, bijna het gewicht van 100 karaat (https://sizes.com/units/carat.htm).

Het mitochondriale genoom

Aan de hand van alle berekeningen die eerder voor het nucleaire genoom zijn uitgevoerd, zijn de lengte, het gewicht en het GC-gehalte van het menselijke mtDNA geschat (tabel 2).

Middeld kan een menselijke cel bevatten van een minimum van 2.845.394 ± 204.296 bp, 0,09 ± 0,0067 cm en 0,0029 ± 0,00021 pg tot een maximum van 110.742.060 ± 4.568.736,06 bp, 3,62 ± 0,15 cm en 0,11 ± 0,0047 pg van mtDNA in totaal, afhankelijk van de onzekerheid van het aantal DNA-moleculen per cel (Additional file 1: Additional Methods). Het mtDNA vormt dus, ondanks zijn sterk gereduceerde omvang in vergelijking met die van het kern-DNA (1/195.663 vergeleken met het haploïde kerngenoom), een aanzienlijk deel van het totale DNA van een menselijke cel: ongeveer 0,90-1,21% (diploïde cel), en kan ten minste 52.03% van het DNA in het geval van een rijpe eicel.

GC-gehalte analyse

De menselijke GC-gehalten berekend onder de bepaalde basen (A, T, W, G, C, en S) geteld in de 24 menselijke chromosomen met uitzondering van de 150.630.700 onzekere basen worden weergegeven in tabel 2 (Additional file 4: tabel S3 voor GRCh37.p13). Onder de andere onderzochte soorten, de berekende chromosoom nummers, totale genoom bp lengtes en genomische GC inhoud (tabel 3) zijn in overeenstemming met eerdere rapporten (Additional file 5: tabel S4).

Tabel 3 Genomische, mRNA en transcriptomic GC inhoud in de onderzochte menselijke aandoeningen en andere soorten

Het menselijke Down Syndroom (DS) Acute Megakaryoblastaire Leukemie (AMKL) blasten en euploïde megakaryoblasten (MK) transcriptoomkaarten hebben een expressiewaarde in beide aandoeningen samen met mRNA sequenties beschikbaar voor 16.547 genen. Deze waarde voor de gehele menselijke hippocampus en de gehele hersenen transcriptoomkaarten is van 17.579 genen. Bij de andere onderzochte soorten bedraagt deze waarde 6642 genen voor de hersenen van D. rerio, 19.281 voor C. elegans, 4673 voor S. cerevisiae en 2426 voor E. coli. De mRNA GC inhoud berekend in deze subsets met TGCA software worden gegeven in tabel 3. Voor elke biologische conditie, elke mRNA GC absolute telling werd vervolgens vermenigvuldigd met de bijbehorende expressie waarde. De som van deze waarden met betrekking tot elk transcriptoom kaart geeft de transcriptomic GC inhoud (tabel 3). mRNA en transcriptomic GC inhoud voor elk chromosoom in DS-AMKL en MK voorwaarden worden gegeven in Additional file 6: Tabel S5. DS-AMKL voorwaarde heeft 7 chromosomen (9, 11, 20, 17, 16, 22, 19) met een transcriptomic GC-gehalte hoger dan 48,80 dat is de totale mRNA GC % (het maximum is 56,26% van chr19), terwijl MK voorwaarde heeft 9 chromosomen (7, 15, 9, 11, 20, 17, 22, 16, 19) met een transcriptomic GC-gehalte hoger dan die waarde (het maximum is 59,02% van chr19, dat is een zeer hoge waarde).

Discussie

In dit werk hebben wij, voor zover wij weten, de basisparameters bepaald die het normale menselijke referentiegenoom beschrijven: de lengte, uitgedrukt in zowel bp als lengte-eenheid (cm, m), het gewicht (in eenheid van massa, pg) en het relatieve GC-gehalte, uitgedrukt in percentages, voor het gehele menselijke kerngenoom, voor elk chromosoom en voor mtDNA.

Wij hebben onze berekeningen gebaseerd op de GRCh38-assemblage, die langer en meer aaneengesloten is dan eerdere referentie-assemblageversies en voor het eerst een op sequentie gebaseerde representatie biedt voor genomische kenmerken zoals centromeren en telomeren, die, hoewel ze per celtype en leeftijd variëren, onze schattingen slechts in geringe mate zouden beïnvloeden. De menselijke genetische diversiteit varieert echter van de single-nucleotide variatie tot grote chromosomale gebeurtenissen . Na de sequentiebepaling van 1000 menselijke genomen schatte een recente analyse de sequentievariatie in een typisch diploïd genoom op ~ 20 miljoen basen. Toepassing van deze orde van grootte van variatie op onze schattingen, kan een proportionele variabiliteit tussen individuen van ± 0,65 cm en 0,02 pg voor de lengte en het gewicht van een menselijke gemiddelde diploïde genoom worden verondersteld.

Onze resultaten zijn niet ver van eerdere ruwe schattingen (tabel 1), maar de meer nauwkeurige bepaling van het menselijk genoom lengte en gewicht zou kunnen bieden interessante mogelijkheden. Een recente analyse van 70 genomen van prokaryoten tot primaten heeft uitgewezen dat er vijf informatiewetten over de complexiteit van de genoomstructuur kunnen zijn gevonden , voorgesteld door indexen gebaseerd op de waarde k = lg2(n), waarbij k de lengte is van een in het genoom voorkomende string en n de genoomlengte . Toepassing van onze analyse op andere genomen zou nuttig zijn om deze indexen bij te werken. Een andere interessante mogelijkheid die de kennis van de lengte van het menselijk kerngenoom biedt, is de afleiding van het totale menselijke DNA-volume, om de efficiëntie van DNA in de gegevensopslag te schatten, die in de orde van 104 maal superieur blijkt te zijn in vergelijking met de meest geavanceerde harde schijven van dit moment (Additional file 7: Discussion). Het genoom gewicht is een parameter nuttig voor de correlatie met de DNA-extractie rendementen door middel van verschillende methoden.

Regarding GC-gehalte analyse op genoom-niveau, onze resultaten zijn in overeenstemming met een recente studie . Door de implementatie van TGCA software hebben we ook bepaald de GC-gehalte op mRNA en transcriptomic niveaus voor de eerste keer, een nieuw concept dat we hier voorstellen, dat is het GC-percentage berekend in de mRNA hoeveelheid daadwerkelijk uitgedrukt in een weefsel. Het humane genomische GC-gehalte blijkt veel lager te zijn dan het mRNA GC-gehalte. Het mRNA GC-gehalte is op zijn beurt vergelijkbaar met het transcriptomische GC-gehalte. Dit is ook bevestigd in D. rerio en C. elegans en in mindere mate in S. cerevisiae en in E. coli. In het algemeen lijkt het erop dat de GC samenstelling van hoog en laag tot expressie komende genen in specifieke weefsels het mRNA GC gehalte in geringe mate beïnvloedt en dat er een globale compensatie tussen hen kan bestaan.

Bij vergelijking van verschillende biologische condities werd de grootste afwijking van het mRNA GC gehalte gevonden in een conditie van aneuploïdie en leukemie (DS-AMKL). Interessant is dat het transcriptomische GC-gehalte van DS-AMKL in grotere mate afwijkt van het transcriptomische GC-gehalte van de gezonde euploïde tegenhanger van MK-cellen. Recente studies van personen met het syndroom van Down toonden typische veranderingen aan van het metaboloom en het hele transcriptoom. Het GC-gehalte van chromosoom 21 ligt het dichtst bij het gemiddelde genomische GC-gehalte, zodat de aanwezigheid van een derde kopie van chromosoom 21 geen grote verandering in de GC-samenstelling op genomisch niveau zou veroorzaken. Aangezien de verdubbeling van ten minste een beperkte regio van menselijk chromosoom 21 met het syndroom van Down in verband wordt gebracht, zijn verdere studies nodig om te bepalen of de verdubbeling van deze chromosoom 21-regio en/of de leukemie-aandoening voor dit afwijkende patroon verantwoordelijk is. Bijvoorbeeld, een recent werk toonde een hoge expressie van hoge-GC-content mRNAs in psoriasis laesie transcriptoom, terwijl oplossende laesies een lage expressie van deze mRNAs hadden . Meer diepgaande analyse zal nodig zijn om het gebruik van deze indexen te valideren als indicatoren in de vergelijking van de ziekte versus normale omstandigheden.

Genomic, mRNA en transcriptomic GC-gehalte bepaling kan nuttig zijn in DNA en RNA sequencing analyses waar GC-gehalte bias voor de Illumina sequencing technologie is gedocumenteerd als waarschijnlijk geïntroduceerd bij de bibliotheek voorbereiding stap, wat resulteert in verwarrende DNA-kopie-aantal studies en expressie fold-change schattingen .

Tot besluit geven wij een update van fundamentele parameters van het menselijk genoom en een eerste karakterisering van het mRNA en transcriptoom GC-gehalte. Onze resultaten kunnen een solide basis vormen voor verder onderzoek naar de menselijke structurele en functionele genomics, terwijl ook het verstrekken van een kader voor de vergelijkende analyse van andere genomen.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.