O délce, hmotnosti a obsahu GC lidského genomu

Metody

Výpočty délky a hmotnosti lidského genomu

Délka v centimetrech (cm) a hmotnost v pikogramech (pg) všech 24 sekvencí lidských chromozomů a mtDNA byly vypočteny podle podrobností v Dodatkovém souboru 1: Další metody.

Analýza obsahu GC

Obsah genomových GC byl vypočítán mezi určitými bázemi pro 24 chromozomů a pro mtDNA, jak je podrobně popsáno v Doplňkovém souboru 1: Doplňkové metody.

Pro studium možných variací obsahu GC v expresi celých transkriptomů zde byl vyvinut software „Transcriptomic GC Analysis“ (TGCA).

Kvantitativní mapy lidských transkriptomů byly dříve získány z veřejně dostupných souborů dat z mikročipů analyzovaných pomocí softwaru TRAM (Transcriptome Mapper), jak je popsáno . Vzhledem k tomu, že kvantitativní hodnoty genové exprese mohou předjímat mutační účinky, které s největší pravděpodobností ovlivní danou lidskou tkáň , porovnávali jsme patologický typ buňky s jeho normálním protějškem a celý orgán s jednou z jeho podoblastí (Additional file 1: Additional Methods). Pro každou analýzu byly použity pouze geny, pro které je k dispozici hodnota exprese v obou biologických podmínkách. Pro každý gen byla získána nejdelší sekvence lidské mRNA z nejnovější verze softwaru Human 5′_ORF_Extender (Additional file 1: Additional Methods).

Protože programy TRAM a 5′_ORF_Extender byly implementovány pro jiné organismy , samotný software TGCA byl implementován s cílem snadného použití s jakýmkoli souborem dat o sekvenci a expresi jakéhokoli organismu. Proto jsme provedli výpočty GC na genomech dalších reprezentativních druhů: Danio rerio, Caenorhabditis elegans, Saccharomyces cerevisiae a Escherichia coli (Additional file 1: Additional Methods).

Výsledky

Délka a hmotnost lidského jaderného genomu

Délky jednotlivých chromozomů v bp a cm jsou uvedeny v tabulce 2. K výpočtu hmotnosti jednotlivých chromozomů byly použity určité počty bází a nejisté odhady složení bází uvedené v Doplňkovém souboru 2: Tabulka S1, čímž byly získány výsledky uvedené v tabulce 2. Pro proporcionální odhad délky a hmotnosti neumístěných bází byly použity součty délek a hmotností 24 chromozomů (22 autozomů a chromozomů X a Y), což zlepšilo přesnost výpočtu celého genomu (tabulka 2). Údaje pro předchozí sestavu (GRCh37.p13) jsou rovněž uvedeny v doplňkovém souboru 3: tabulce S2 a doplňkovém souboru 4: tabulce S3. Chromozomy, které se mezi oběma verzemi sestavy liší ve větší míře, jsou chromozomy 9 a Y (GRCh38 má o 2,8 Mb a 2,1 Mb méně než GRCh37) a chromozomy 17 a 18 (GRCh38 má o 2,1 Mb a 2,3 Mb více než GRCh37).

Tabulka 2 Délka, hmotnost a obsah GC lidských chromozomů, genomu a mitochondriální DNA

Vezmeme-li v úvahu průměrnou délku v diploidní buňce 206.62 cm a nejnovějším odhadu průměrného počtu 3 × 1012 jaderných buněk u referenční lidské bytosti , je celkové prodloužení délky všech jaderných molekul DNA přítomných v jediném lidském jedinci přibližně 6,20 miliard km (6,20 × 1012 m) a stačí k překonání vzdálenosti Země-Slunce (https://cneos.jpl.nasa.gov/glossary/au.html) více než 41krát. Uvážíme-li průměrnou hmotnost diploidní buňky 6,46 pg, činila by hmotnost genomu sečtená napříč nukleovanými lidskými buňkami přibližně 19,39 g, což je téměř hmotnost 100 karátů (https://sizes.com/units/carat.htm).

Mitochondriální genom

Při použití všech výpočtů dříve provedených pro jaderný genom byla odhadnuta délka, hmotnost a obsah GC lidské mtDNA (tabulka 2).

V průměru mohla lidská buňka obsahovat od minima 2 845 394 ± 204 296 bp, 0,09 ± 0,0067 cm a 0,0029 ± 0,00021 pg až po maximum 110 742 060 ± 4 568 736,06 bp, 3,62 ± 0,15 cm a 0,11 ± 0,0047 pg mtDNA celkem, v závislosti na nejistotě počtu molekul DNA na buňku (Additional file 1: Additional Methods). Proto mtDNA, přestože je její velikost ve srovnání s velikostí jaderné DNA značně zmenšená (1/195 663 ve srovnání s haploidním jaderným genomem), tvoří významný podíl celkové DNA lidské buňky: přibližně 0,90-1,21 % (diploidní buňka), přičemž je schopna představovat nejméně 52 %.03 % DNA v případě zralého oocytu.

Analýza obsahu GC

Obsah GC u člověka vypočtený mezi určitými bázemi (A, T, W, G, C a S) započítanými ve 24 lidských chromozomech s výjimkou 150 630 700 nejistých bází je uveden v tabulce 2 (doplňkový soubor 4: tabulka S3 pro GRCh37.p13). U ostatních zkoumaných druhů jsou vypočtené počty chromozomů, celkové délky genomových bp a obsahy genomových GC (tabulka 3) v souladu s předchozími zprávami (Additional file 5: Table S4).

Tabulka 3 Genomické, mRNA a transkriptomické obsahy GC u zkoumaných lidských stavů a jiných druhů

Mapy transkriptomu akutní megakaryoblastické leukemie (AMKL) u lidí s Downovým syndromem (DS) a euploidních megakaryoblastů (MK) mají hodnotu exprese u obou stavů spolu s dostupnými sekvencemi mRNA pro 16 547 genů. Pro celý lidský hipokampus a transkriptomové mapy celého mozku je tato hodnota 17 579 genů. Mezi ostatními zkoumanými druhy je tato hodnota 6642 genů pro mozek D. rerio, 19 281 pro C. elegans, 4673 pro S. cerevisiae a 2426 pro E. coli. Obsahy GC mRNA vypočtené v těchto podskupinách pomocí softwaru TGCA jsou uvedeny v tabulce 3. Pro každou biologickou podmínku byl pak každý absolutní počet GC mRNA vynásoben odpovídající hodnotou exprese. Součet těchto hodnot vztažených ke každé transkriptomové mapě dává transkriptomový GC obsah (tabulka 3). mRNA a transkriptomové GC obsahy pro každý chromozom v podmínkách DS-AMKL a MK jsou uvedeny v doplňkovém souboru 6: tabulka S5. Podmínka DS-AMKL má 7 chromozomů (9, 11, 20, 17, 16, 22, 19) s transkriptomickým obsahem GC vyšším než 48,80, což je celkové mRNA GC % (maximum je 56,26 % chr19), zatímco podmínka MK má 9 chromozomů (7, 15, 9, 11, 20, 17, 22, 16, 19) s transkriptomickým obsahem GC vyšším než tato hodnota (maximum je 59,02 % chr19, což je velmi vysoká hodnota).

Diskuse

V této práci jsme podle našich nejlepších znalostí stanovili základní parametry popisující normální lidský referenční genom: délku vyjádřenou jak v bp, tak v jednotkách délky (cm, m), hmotnost (v jednotkách hmotnosti, pg) a relativní obsah GC vyjádřený v procentech, a to pro celý lidský jaderný genom, pro každý chromozom a pro mtDNA.

Naše výpočty jsme založili na sestavě GRCh38, která je delší a souvislejší než předchozí verze referenčních sestav a poprvé poskytuje sekvenční reprezentaci pro genomické prvky, jako jsou centromery a telomery , které, ačkoli se u různých typů buněk a věkových kategorií liší, by naše odhady ovlivnily jen v malé míře. Lidská genetická diverzita však sahá od jednonukleotidových variací až po velké chromozomální události . Po sekvenování 1000 lidských genomů odhadla nedávná analýza ~ 20 milionů bází sekvenční variability v typickém diploidním genomu . Při aplikaci tohoto řádu variability na naše odhady lze předpokládat poměrnou variabilitu mezi jedinci ± 0,65 cm a 0,02 pg pro délku a hmotnost průměrného lidského diploidního genomu.

Naše výsledky nejsou daleko od předchozích hrubých odhadů (tabulka 1), nicméně přesnější určení délky a hmotnosti lidského genomu může nabídnout zajímavé možnosti. Nedávná analýza 70 genomů od prokaryot po primáty ukázala, že mohlo být nalezeno pět informačních zákonů o složitosti struktury genomu , naznačených indexy založenými na hodnotě k = lg2(n), kde k je délka řetězce vyskytujícího se v genomu a n je délka genomu. Pro aktualizaci těchto indexů by bylo užitečné aplikovat naši analýzu na další genomy. Další zajímavou možností, kterou nabízí znalost délky lidského jaderného genomu, je odvození celkového objemu lidské DNA, aby bylo možné odhadnout účinnost DNA při ukládání dat, která se ukázala být řádově 104krát vyšší ve srovnání s nejmodernějšími pevnými disky současnosti (Additional file 7: Discussion). Hmotnost genomu je parametr užitečný pro korelaci s výtěžností extrakce DNA pomocí různých metod .

Co se týče analýzy obsahu GC na genomické úrovni, naše výsledky jsou ve shodě s nedávnou studií . Prostřednictvím implementace softwaru TGCA jsme také poprvé stanovili obsah GC na úrovni mRNA a transkriptomu, což je nový koncept, který zde navrhujeme a který představuje procento GC vypočtené v množství mRNA skutečně exprimované v dané tkáni. Výsledkem je, že lidský genomický obsah GC je mnohem nižší než obsah GC v mRNA. mRNA obsah GC je zase podobný transkriptomickému obsahu GC. To bylo potvrzeno také u D. rerio a C. elegans a v menší míře u S. cerevisiae a E. coli. Celkově se zdá, že složení GC vysoce a slabě exprimovaných genů v konkrétních tkáních ovlivňuje obsah GC v mRNA v malé míře a může mezi nimi existovat globální kompenzace.

Při porovnání různých biologických podmínek byla největší odchylka od obsahu GC v mRNA zjištěna ve stavu aneuploidie a leukémie (DS-AMKL). Je zajímavé, že transkriptomický obsah GC u DS-AMKL se ve větší míře odchyluje od transkriptomického obsahu GC zdravého euploidního protějšku buněk MK. Nedávné práce provedené na subjektech s DS ukázaly typické změny metabolomu a celého transkriptomu . Obsah GC chromozomu 21 je jedním z nejbližších průměrnému genomickému obsahu GC, a proto by přítomnost třetí kopie chromozomu 21 nezpůsobila velkou změnu ve složení GC na genomické úrovni. Vzhledem k tomu, že duplikace přinejmenším omezené oblasti lidského chromozomu 21 je spojena s DS , je nutné provést další studie, aby se zjistilo, zda je za tento vzorec odchylek zodpovědná duplikace této oblasti chromozomu 21 a/nebo stav leukémie. Například nedávná práce ukázala vysokou expresi mRNA s vysokým obsahem GC v transkriptomu lézí psoriázy, zatímco rezolventní léze měly expresi těchto mRNA nízkou . K ověření použití těchto indexů jako indikátorů při porovnávání chorobných a normálních stavů bude zapotřebí hlubší analýzy.

Stanovení obsahu GC v genomu, mRNA a transkriptomu může být užitečné při analýzách sekvenování DNA a RNA, kde bylo zdokumentováno, že zkreslení obsahu GC u technologie sekvenování Illumina bylo pravděpodobně zavedeno v kroku přípravy knihovny, což vede ke zmatení studií počtu kopií DNA a odhadů změn exprese (fold-change) .

Na závěr předkládáme aktualizované informace o základních parametrech lidského genomu a první charakterizaci obsahu GC v mRNA a transkriptomu. Naše výsledky mohou představovat pevný základ pro další výzkum strukturální a funkční genomiky člověka a zároveň poskytnout rámec pro srovnávací analýzu jiných genomů.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.