Om det mänskliga genomets längd, vikt och GC-innehåll

Metoder

Beräkningar av det mänskliga genomets längd och vikt

Längder i centimeter (cm) och vikter i picogram (pg) för alla 24 sekvenser av kromosom- och mtDNA-sekvenser från människan beräknades i enlighet med Additional file 1: Additional Methods.

GC-innehållsanalys

Det genomiska GC-innehållet beräknades bland vissa baser för de 24 kromosomerna och för mtDNA enligt detaljerna i Additional file 1: Additional Methods.

Mjukvaran ”Transcriptomic GC Analysis” (TGCA) utvecklades här för att studera den eventuella variationen av GC-innehållet i uttrycket av hela transkriptom.

Mänskliga kvantitativa transkriptomkartor har tidigare erhållits från offentligt tillgängliga mikroarray-datasatser som analyserats med hjälp av mjukvaran TRAM (Transcriptome Mapper) enligt beskrivning . Eftersom kvantitativa genuttrycksvärden kan föregripa mutationseffekter som med största sannolikhet kommer att påverka en viss mänsklig vävnad jämförde vi en patologisk celltyp med dess normala motsvarighet och ett helt organ med en av dess delregioner (Additional file 1: Additional Methods). För varje analys användes endast gener för vilka ett uttrycksvärde finns tillgängligt i båda de biologiska förhållandena. För varje gen erhölls den längsta mänskliga mRNA-sekvensen från den senaste versionen av programvaran human 5′_ORF_Extender (Additional file 1: Additional Methods).

Då TRAM och 5′_ORF_Extender har införts för andra organismer, infördes TGCA-programvaran i sig självt för att lätt kunna användas med alla sekvens- och uttrycksdataset från alla organismer. Vi utförde därför GC-beräkningar på andra representativa arters genomer: Danio rerio, Caenorhabditis elegans, Saccharomyces cerevisiae och Escherichia coli (Additional file 1: Additional Methods).

Resultat

Längd och vikt av människans kärngenom

Individuella kromosomlängder i bp och cm visas i tabell 2. Vissa basräkningar och osäkra uppskattningar av baskompositionen som anges i Additional file 2: Table S1 användes för att beräkna varje kromosoms vikt, vilket gav de resultat som visas i tabell 2. Längd- och viktsummorna för de 24 kromosomerna (22 autosomer och X- och Y-kromosomer) användes för att proportionellt uppskatta längden och vikten av de oplacerade baserna, vilket förbättrade noggrannheten i beräkningen av hela genomet (tabell 2). Data för den tidigare sammansättningen (GRCh37.p13) finns också i Additional file 3: Table S2 och Additional file 4: Table S3. De kromosomer som varierar i större utsträckning mellan de två sammansättningsversionerna är kromosomerna 9 och Y (GRCh38 har 2,8 Mb respektive 2,1 Mb mindre än GRCh37) och kromosomerna 17 och 18 (GRCh38 har 2,1 Mb respektive 2,3 Mb mer än GRCh37).

Tabell 2 Längd, vikt och GC-innehåll i mänskliga kromosomer, arvsmassa och mitokondrie-DNA

Med tanke på att medellängden i en diploid cell är 206.62 cm och den senaste uppskattningen av en genomsnittlig längd på 3 × 1012 cellkärnor för en referensmänniska är den totala längden på alla kärn-DNA-molekyler som finns i en enskild människa cirka 6,20 miljarder km (6,20 × 1012 m), vilket är tillräckligt för att täcka avståndet mellan jorden och solen (https://cneos.jpl.nasa.gov/glossary/au.html) mer än 41 gånger. Med tanke på att medelvikten i en diploid cell är 6,46 pg skulle arvsmassans vikt summerad i alla nukleerade mänskliga celler vara cirka 19,39 g, vilket nästan motsvarar vikten av 100 karat (https://sizes.com/units/carat.htm).

Det mitokondriella arvsmassan

Med hjälp av alla de beräkningar som tidigare utförts för kärngenomet uppskattades längden, vikten och GC-innehållet i det mänskliga mtDNA:t (tabell 2).

I genomsnitt kan en mänsklig cell innehålla från minst 2 845 394 ± 204 296 bp, 0,09 ± 0,0067 cm och 0,0029 ± 0,00021 pg till högst 110 742 060 ± 4 568 736,06 bp, 3,62 ± 0,15 cm och 0,11 ± 0,0047 pg mtDNA totalt, beroende på osäkerheten i antalet DNA-molekyler per cell (Additional file 1: Additional Methods). Trots att mtDNA är mycket mindre än kärn-DNA (1/195 663 jämfört med haploid kärngenom) utgör mtDNA därför en betydande del av det totala DNA:t i en mänsklig cell: ca 0,90-1,21 % (diploid cell), och kan representera minst 52.

GC-innehållsanalys

Den mänskliga GC-innehållet beräknat bland vissa baser (A, T, W, G, C och S) som räknats i de 24 mänskliga kromosomerna exklusive de 150 630 700 osäkra baserna visas i tabell 2 (Additional file 4: Table S3 for GRCh37.p13). Bland de andra undersökta arterna stämmer de beräknade kromosomnumren, den totala genomets bp-längd och det genomiska GC-innehållet (tabell 3) överens med tidigare rapporter (Additional file 5: tabell S4).

Tabell 3 Genomisk, mRNA- och transkriptomiska GC-innehåll i de undersökta mänskliga tillstånden och andra arter

Den humana Down Syndrome (DS) Acute Megakaryoblastic Leukemia (AMKL) blasts och euploida megakaryoblasts (MK) transkriptomkartor har ett uttrycksvärde i båda tillstånden tillsammans med mRNA-sekvenser som finns för 16 547 gener. Detta värde för hela människans hippocampus och hela hjärnans transkriptomkartor är på 17 579 gener. Bland de andra undersökta arterna är detta värde 6642 gener för D. rerios hjärna, 19 281 för C. elegans, 4673 för S. cerevisiae och 2426 för E. coli. De mRNA GC-innehåll som beräknats i dessa delmängder med hjälp av TGCA-programvaran anges i tabell 3. För varje biologiskt tillstånd multiplicerades sedan varje mRNA GC absolut antal med motsvarande uttrycksvärde. Summan av dessa värden relaterade till varje transkriptomkarta ger det transkriptomiska GC-innehållet (tabell 3). mRNA- och transkriptomiska GC-innehåll för varje kromosom i DS-AMKL- och MK-förhållanden ges i tilläggsfil 6: tabell S5. DS-AMKL-tillståndet har 7 kromosomer (9, 11, 20, 17, 16, 22, 19) med ett transkriptomiskt GC-innehåll som är högre än 48,80, vilket är den totala GC-procenten för mRNA (det maximala värdet är 56,26 % av chr19), medan MK-tillståndet har 9 kromosomer (7, 15, 9, 11, 20, 17, 22, 16, 19) med ett transkriptomiskt GC-innehåll som är högre än det värdet (det maximala värdet är 59,02 % av chr19, vilket är ett mycket högt värde).

Diskussion

I detta arbete har vi, såvitt vi vet, fastställt grundläggande parametrar som beskriver det normala mänskliga referensgenomet: längden, uttryckt i både bp och längdenhet (cm, m), vikten (i viktenhet, pg) och det relativa GC-innehållet uttryckt i procent, för hela människans nukleära arvsmassa, för varje kromosom och för mtDNA.

Vi har baserat våra beräkningar på GRCh38-samlingen, som är längre och mer sammanhängande än tidigare versioner av referenssamlingen och som för första gången ger en sekvensbaserad representation för genomiska egenskaper som centromerer och telomerer , vilka, även om de varierar mellan olika celltyper och åldrar, skulle påverka våra uppskattningar i liten utsträckning. Den mänskliga genetiska mångfalden sträcker sig dock från variation av en enda nukleotid till stora kromosomala händelser . Efter sekvenseringen av 1 000 mänskliga genomer uppskattades i en nyligen genomförd analys att det finns en sekvensvariation på ~ 20 miljoner baser i ett typiskt diploidgenom . Om man tillämpar denna storleksordning på våra uppskattningar kan man anta en proportionell variation mellan individer på ± 0,65 cm och 0,02 pg för längden och vikten av ett mänskligt genomsnittligt diploid genom.

Våra resultat ligger inte långt ifrån tidigare grova uppskattningar (tabell 1), men en noggrannare bestämning av längden och vikten av det mänskliga genomet kan erbjuda intressanta möjligheter. En nyligen genomförd analys av 70 genomer från prokaryoter till primater visade att fem informationslagar om genomstrukturens komplexitet kan ha hittats , föreslagna av index baserade på värdet k = lg2(n), där k är längden på en sträng som förekommer i genomet och n är genomets längd . Det skulle vara värdefullt att tillämpa vår analys på andra genomer för att uppdatera dessa index. En annan intressant möjlighet som kunskapen om längden på människans kärngenom ger är att ta fram den totala mänskliga DNA-volymen för att uppskatta DNA:s effektivitet vid datalagring, som visade sig vara i storleksordningen 104 gånger bättre än de mest avancerade hårddiskarna (Additional file 7: Discussion). Genomvikten är en parameter som är användbar för att korrelera med avkastningen av DNA-extraktion genom olika metoder.

Vid analys av GC-innehållet på genomisk nivå stämmer våra resultat överens med en nyligen genomförd studie . Genom implementeringen av TGCA-programvaran har vi också för första gången bestämt GC-innehållet på mRNA- och transkriptomisk nivå, ett nytt koncept som vi föreslår här, vilket är GC-procenten beräknad i den mRNA-mängd som faktiskt uttrycks i en vävnad. Den mänskliga genomiska GC-innehållet visar sig vara mycket lägre än mRNA GC-innehållet. mRNA GC-innehållet liknar i sin tur det transkriptomiska GC-innehållet. Detta har bekräftats även i D. rerio och C. elegans och i mindre utsträckning i S. cerevisiae och E. coli. Sammantaget verkar det som om GC-sammansättningen av högt och lågt uttryckta gener i specifika vävnader påverkar mRNA GC-innehållet i liten utsträckning och att det kan finnas en global kompensation mellan dem.

Vid jämförelse av olika biologiska förhållanden konstaterades den största avvikelsen från mRNA GC-innehållet i ett tillstånd med aneuploidi och leukemi (DS-AMKL). Intressant nog avviker DS-AMKL:s transkriptomiska GC-innehåll i större utsträckning från det transkriptomiska GC-innehållet i den friska euploida motsvarigheten till MK-celler. Nyligen utförda arbeten på personer med DS visade på typiska förändringar av metabolomet och hela transkriptomet . Kromosom 21:s GC-innehåll är ett av de som ligger närmast det genomsnittliga genomiska GC-innehållet, vilket innebär att närvaron av en tredje kopia av kromosom 21 inte skulle leda till någon större förändring av GC-sammansättningen på genomisk nivå. Eftersom duplicering av åtminstone en begränsad region av människans kromosom 21 är förknippad med DS , krävs ytterligare studier för att fastställa om dupliceringen av denna kromosom 21-region och/eller leukemitillståndet är orsaken till detta avvikelsemönster. Ett nyligen utfört arbete visade t.ex. ett högt uttryck av mRNA med högt GC-innehåll i psoriasislesionernas transkriptom, medan de som är i upplösning hade ett lågt uttryck av dessa mRNA. Mer djupgående analyser kommer att behövas för att validera användningen av dessa index som indikatorer i jämförelsen mellan sjukdom och normala förhållanden.

Genomisk, mRNA och transkriptomisk GC-innehållsbestämning kan vara användbar i DNA- och RNA-sekvensanalyser där GC-innehållsbias för Illumina-sekvenseringstekniken har dokumenterats som sannolikt införd i biblioteksförberedelsestrappan, vilket resulterar i förvirrande DNA-kopieringsantalstudier och uppskattningar av uttrycksvecklingsförändringar .

Slutningsvis ger vi en uppdatering av grundläggande parametrar för det mänskliga genomet och en första karakterisering av GC-innehållet i mRNA och transkriptom. Våra resultat kan utgöra en solid grund för ytterligare undersökningar av människans strukturella och funktionella genomik, samtidigt som de utgör en ram för jämförande analyser av andra genom.

Lämna ett svar

Din e-postadress kommer inte publiceras.