Métodos
Cálculos do comprimento e peso do genoma humano
Comprimento em centímetros (cm) e peso em picogramas (pg) de todas as 24 sequências de cromossomas e mtDNA humanos foram calculados conforme detalhado no arquivo Adicional 1: Métodos Adicionais.
Análise de conteúdo GC
O conteúdo genômico GC foi calculado entre as bases certas para os 24 cromossomos e para mtDNA como detalhado no arquivo Adicional 1: Métodos Adicionais.
O software “Transcriptomic GC Analysis” (TGCA) foi desenvolvido aqui para estudar a possível variação do conteúdo de GC na expressão de transcriptomas inteiros.
Mapas quantitativas de transcriptomas humanos foram previamente obtidas de conjuntos de dados de microarranjo disponíveis publicamente analisados através do software TRAM (Transcriptome Mapper) conforme descrito . Como os valores quantitativos de expressão gênica podem antecipar efeitos mutacionais que afetarão muito provavelmente um dado tecido humano, comparamos um tipo de célula patológica com sua contraparte normal e um órgão inteiro com uma de suas sub-regiões (Arquivo adicional 1: Métodos adicionais). Para cada análise, foram utilizados apenas genes para os quais há um valor de expressão disponível em ambas as condições biológicas. Para cada gene, a seqüência mais longa de mRNA humano foi obtida da última versão do software humano 5′_ORF_Extender (Arquivo adicional 1: Métodos Adicionais).
Since TRAM e 5′_ORF_Extender foram implementados para outros organismos , o próprio software TGCA foi implementado com a finalidade de ser facilmente utilizado com qualquer conjunto de dados de seqüência e expressão de qualquer organismo. Assim, realizamos cálculos de GC em genomas de outras espécies representativas: Danio rerio, Caenorhabditis elegans, Saccharomyces cerevisiae e Escherichia coli (Arquivo adicional 1: Métodos adicionais).
Resultados
Comprimento e peso do genoma nuclear humano
Comprimento dos cromossomos individuais em bp e cm são dados na Tabela 2. Determinadas contagens de base e estimativas incertas da composição da base fornecidas no arquivo adicional 2: Tabela S1 foram usadas para calcular cada peso cromossômico, obtendo-se os resultados mostrados na Tabela 2. As somas de comprimento e peso dos 24 cromossomas (22 autossomas e cromossomas X e Y) foram usadas para estimar proporcionalmente o comprimento e peso das bases não colocadas, melhorando a precisão do cálculo do genoma inteiro (Tabela 2). Os dados para a montagem anterior (GRCh37.p13) também são fornecidos no arquivo adicional 3: Tabela S2 e arquivo adicional 4: Tabela S3. Os cromossomas que variam mais entre as duas versões de montagem são os cromossomas 9 e Y (GRCh38 tem 2.8 Mb e 2.1 Mb a menos que GRCh37, respectivamente) e os cromossomas 17 e 18 (GRCh38 tem 2.1 Mb e 2.3 Mb a mais que GRCh37, respectivamente).
Considerando um comprimento médio em uma célula diplóide de 206.62 cm e a última estimativa de uma média de 3 × 1012 células nucleadas para um ser humano de referência , a extensão total em comprimento de todas as moléculas de DNA nuclear presentes em um único indivíduo humano é de cerca de 6,20 bilhões de km (6,20 × 1012 m) e é suficiente para cobrir a distância Terra-Sol (https://cneos.jpl.nasa.gov/glossary/au.html) mais de 41 vezes. Considerando um peso médio em uma célula diplóide de 6,46 pg, o peso do genoma somado em células humanas nucleadas seria de cerca de 19,39 g, quase o peso de 100 quilates ().
O genoma mitocondrial
Aplicando todos os cálculos previamente realizados para o genoma nuclear, foram estimados o comprimento, peso e conteúdo de GC do mtDNA humano (Tabela 2).
Em média, uma célula humana poderia conter desde um mínimo de 2.845.394 ± 204.296 bp, 0,09 ± 0,0067 cm e 0,0029 ± 0,00021 pg até um máximo de 110.742.060 ± 4.568.736,06 bp, 3,62 ± 0,15 cm e 0,11 ± 0,0047 pg de mtDNA no total, dependendo da incerteza do número de moléculas de DNA por célula (Arquivo adicional 1: Métodos adicionais). Portanto, o mtDNA, apesar de seu tamanho ser muito reduzido em comparação com o do DNA nuclear (1/195.663 comparado ao genoma nuclear haplóide), constitui uma parte significativa do DNA total de uma célula humana: cerca de 0,90-1,21% (célula diplóide), sendo capaz de representar pelo menos 52.03% do DNA no caso de um oócito maduro.
Análise de conteúdo GC
O conteúdo de GC humano calculado entre as bases certas (A, T, W, G, C e S) contadas nos 24 cromossomos humanos excluindo as 150.630.700 bases incertas são mostradas na Tabela 2 (Arquivo adicional 4: Tabela S3 para GRCh37.p13). Entre as outras espécies investigadas, os números dos cromossomas calculados, o comprimento total do genoma bp e o conteúdo genómico do GC (Tabela 3) estão de acordo com relatórios anteriores (Ficheiro Adicional 5: Tabela S4).
Síndrome de Down Human Down (DS) Leucemia Megacaracteriana Aguda (AMKL) e megacarioblastos de eupoplóide (MK) os mapas transcriptômicos têm um valor de expressão em ambas as condições juntamente com sequências de mRNA disponíveis para 16.547 genes. Este valor para hipocampo humano inteiro e mapas de transcriptoma do cérebro inteiro é de 17.579 genes. Entre as outras espécies investigadas, este valor é de 6642 genes para D. rerio brain, 19.281 para C. elegans, 4673 para S. cerevisiae e 2426 para E. coli. O conteúdo do mRNA GC calculado nestes subconjuntos usando o software TGCA é dado na Tabela 3. Para cada condição biológica, cada contagem absoluta de mRNA GC foi então multiplicada pelo valor da expressão correspondente. A soma desses valores relacionados a cada mapa transcriptométrico dá o conteúdo transcriptômico da GC (Tabela 3). O mRNA e o conteúdo transcriptômico da GC para cada cromossomo nas condições DS-AMKL e MK são fornecidos no arquivo adicional 6: Tabela S5. A condição DS-AMKL tem 7 cromossomos (9, 11, 20, 17, 16, 22, 19) com um conteúdo transcriptômico de GC maior que 48,80 que é o total de mRNA GC % (o máximo é 56,26% de chr19), enquanto a condição MK tem 9 cromossomos (7, 15, 9, 11, 20, 17, 22, 16, 19) com um conteúdo transcriptômico de GC maior que esse valor (o máximo é 59,02% de chr19, que é um valor muito alto).
Discussão
Neste trabalho, determinamos, tanto quanto sabemos, parâmetros básicos descrevendo o genoma de referência humano normal: o comprimento, expresso em termos de bp e unidade de comprimento (cm, m), peso (em unidade de massa, pg) e conteúdo relativo de GC expresso em porcentagem, para todo o genoma nuclear humano, para cada cromossomo e para mtDNA.
Baseamos nossos cálculos no conjunto GRCh38 , que é mais longo e contíguo que as versões anteriores do conjunto de referência e fornece uma representação baseada em seqüência para características genômicas como centrômeros e telômeros pela primeira vez, o que, embora variável entre tipos e idades celulares, afetaria nossas estimativas em pequena medida. No entanto, a diversidade genética humana varia desde a variação de um nucleotídeo até grandes eventos cromossômicos. Após o sequenciamento de 1000 genomas humanos , uma análise recente estimou ~ 20 milhões de bases de variação de seqüência em um genoma diploide típico . Aplicando esta ordem de magnitude de variação às nossas estimativas, uma variabilidade proporcional entre indivíduos de ± 0,65 cm e 0,02 pg para o comprimento e peso de um genoma diplóide médio humano pode ser assumida.
Nossos resultados não estão longe das estimativas aproximadas anteriores (Tabela 1), entretanto a determinação mais precisa do comprimento e peso do genoma humano pode oferecer possibilidades interessantes. Uma análise recente de 70 genomas de procariotas a primatas mostrou que cinco leis informativas sobre a complexidade da estrutura do genoma podem ter sido encontradas , sugeridas por índices baseados no valor k = lg2(n), onde k é o comprimento de uma cadeia que ocorre no genoma e n é o comprimento do genoma. A aplicação de nossa análise a outros genomas seria útil para atualizar esses índices. Outra possibilidade interessante oferecida pelo conhecimento do comprimento do genoma nuclear humano é a derivação do volume total de DNA humano, a fim de estimar a eficiência do DNA no armazenamento de dados, resultou na ordem de 104 vezes superior em comparação com os discos rígidos mais avançados atualmente (arquivo adicional 7: Discussão). O peso do genoma é um parâmetro útil para a correlação com os rendimentos da extração de DNA através de diferentes métodos .
Considerando a análise do conteúdo de GC a nível genômico, nossos resultados estão de acordo com um estudo recente . Através da implementação do software TGCA também determinamos pela primeira vez o conteúdo de GC a nível de mRNA e transcriptômico, um conceito novo que propomos aqui, que é a porcentagem de GC calculada na quantidade de mRNA realmente expressa em um tecido. O conteúdo de GC genômico humano resulta muito menor que o conteúdo de GC do mRNA. O conteúdo de GC do mRNA é, por sua vez, semelhante ao conteúdo de GC transcriptômico. Isto foi confirmado também em D. rerio e C. elegans e, em menor grau, em S. cerevisiae e em E. coli. Em geral, parece que a composição de GC de genes altamente e mal expressos em tecidos específicos afeta o conteúdo de mRNA GC em pequena medida e uma compensação global entre eles pode existir.
Comparando diferentes condições biológicas, o maior desvio do conteúdo de mRNA GC foi encontrado em uma condição de aneuploidia e leucemia (DS-AMKL). Curiosamente, o conteúdo transcriptômico de DS-AMKL se desviou em maior extensão do conteúdo transcriptômico de GC da contraparte saudável da eutópide das células MK. Trabalhos recentes realizados em indivíduos com DS mostraram alterações típicas do metaboloma e do transcriptoma inteiro. O conteúdo do cromossomo 21 GC é um dos mais próximos do conteúdo genômico médio do GC, portanto a presença de uma terceira cópia do cromossomo 21 não causaria uma grande mudança na composição do GC em nível genômico. Como a duplicação de pelo menos uma região restrita do cromossomo 21 humano está associada à DS, estudos adicionais são necessários para determinar se a duplicação dessa região do cromossomo 21 e/ou a condição de leucemia é responsável por esse padrão de desvio. Por exemplo, um trabalho recente mostrou uma alta expressão de mRNAs de alto conteúdo de GC na transcrição da lesão psoriática, enquanto a resolução das lesões teve uma baixa expressão desses mRNAs. Uma análise mais profunda será necessária para validar o uso desses índices como indicadores na comparação de doenças versus condições normais.
A determinação do conteúdo de GC genômico, mRNA e transcriptômico pode ser útil em análises de seqüenciamento de DNA e RNA onde o viés de conteúdo de GC para a tecnologia de seqüenciamento de Illumina foi documentado como provavelmente introduzido na etapa de preparação da biblioteca, resultando em estudos de números de cópias de DNA confusos e estimativas de mudança de expressão.
Em conclusão, fornecemos uma atualização dos parâmetros fundamentais do genoma humano e uma primeira caracterização do conteúdo do mRNA e transcriptoma GC. Nossos resultados podem representar uma base sólida para futuras investigações sobre a genômica estrutural e funcional humana e, ao mesmo tempo, fornecer uma estrutura para a análise comparativa de outros genomas.