Histogramas são gráficos que mostram a distribuição de seus dados contínuos. Eles são ferramentas exploratórias fantásticas porque revelam propriedades sobre seus dados de amostra de maneiras que as estatísticas resumidas não podem. Por exemplo, enquanto a média e o desvio padrão podem resumir numericamente seus dados, os histogramas dão vida à sua amostra de dados.
Neste post de blog, vou mostrar como os histogramas revelam a forma da distribuição, sua tendência central e a dispersão de valores em sua amostra de dados. Você também aprenderá como identificar outliers, como os histogramas se relacionam com as funções de distribuição de probabilidade e porque você pode precisar usar testes de hipóteses com eles.
- Histogramas, Tendência Central e Variabilidade
- Histogramas e a Tendência Central
- Histogramas e Variabilidade
- Histogramas e Distribuições distorcidas
- Histograma que exibe uma distribuição enviesada para a esquerda
- Histograma que exibe uma distribuição enviesada para a esquerda.Histograma que exibe uma distribuição enviesada para a esquerda. Em um instante, você verá se há algum valor incomum. Se você identificar possíveis outliers, investigue-os. Esses erros de entrada de dados são erros ou representam observações que ocorreram sob condições incomuns? Ou, talvez sejam observações legítimas que descrevem precisamente a variabilidade na área de estudo.
- Identificando Distribuições Multimodais com Histogramas
- Usar Histogramas para Identificar Subpopulações
- Usar Histogramas para Avaliar o Ajuste de uma Função de Distribuição de Probabilidade
- Usando Histogramas para Comparar Distribuições entre Grupos
- Histogramas e Tamanho da Amostra
- Usando Testes de Hipóteses em Conjunção com Histogramas
Histogramas, Tendência Central e Variabilidade
Utilize histogramas quando você tiver medições contínuas e quiser entender a distribuição de valores e procurar por outliers. Estes gráficos tomam suas medições contínuas e as colocam em intervalos de valores conhecidos como silos. Cada caixa tem uma barra que representa a contagem ou percentagem de observações que caem dentro dessa caixa.
Download do ficheiro de dados CSV para fazer a maioria dos histogramas neste post do blog: Histograms.
No campo de estatísticas, muitas vezes usamos estatísticas resumidas para descrever um conjunto de dados completo. Estas estatísticas usam um único número para quantificar uma característica da amostra. Por exemplo, uma medida de tendência central é um único valor que representa o ponto central ou valor típico de um conjunto de dados, como a média. Uma medida de variabilidade é outro tipo de estatística resumida que descreve como os valores estão espalhados no conjunto de dados. O desvio padrão é uma medida convencional de dispersão.
Estas estatísticas resumidas são cruciais. Com que frequência você já ouviu dizer que a média de um grupo é um determinado valor? Ele fornece informações significativas. No entanto, estas medidas são simplificações do conjunto de dados. A representação gráfica dos dados dá vida aos mesmos. Geralmente, eu acho que usar gráficos em conjunto com estatísticas fornece o melhor dos dois mundos!
Vejamos isto em ação.
: Medidas de Tendência Central e Medidas de Variabilidade
Histogramas e a Tendência Central
Utilizar histogramas para entender o centro dos dados. No histograma abaixo, você pode ver que o centro está próximo a 50. A maioria dos valores no conjunto de dados estará perto de 50, e os valores mais distantes são mais raros. A distribuição é aproximadamente simétrica e os valores caem entre aproximadamente 40 e 64.
Uma diferença de meios desloca as distribuições horizontalmente ao longo do eixo X (a menos que o histograma seja girado). Nos histogramas abaixo, um grupo tem uma média de 50 enquanto o outro tem uma média de 65.
Adicionalmente, os histogramas ajudam a perceber o grau de sobreposição entre os grupos. Nos histogramas acima, há uma quantidade relativamente pequena de sobreposição.
Histogramas e Variabilidade
Suponha que você ouça que dois grupos têm a mesma média de 50. Parece que eles são praticamente equivalentes. No entanto, depois que você grafa os dados, as diferenças se tornam aparentes, como mostrado abaixo.
Os histogramas centram-se no mesmo valor de 50, mas a dispersão dos valores é notavelmente diferente. Os valores para o grupo A caem principalmente entre 40 – 60, enquanto para o grupo B essa variação é de 20 – 90. A média não conta a história toda! Num relance, a diferença é evidente nos histogramas.
Em resumo, os histogramas mostram quais os valores mais e menos comuns juntamente com a sua dispersão. Você não pode ganhar esse entendimento a partir da lista crua de valores. Estatísticas resumidas, tais como a média e o desvio padrão, o levarão a uma parte do caminho. Mas os histogramas fazem os dados pop!
Histogramas e Distribuições distorcidas
Histogramas são uma excelente ferramenta para identificar a forma da sua distribuição. Até agora, temos olhado para distribuições simétricas, como a distribuição normal. Entretanto, nem todas as distribuições são simétricas. Você pode ter dados não normais que são enviesados.
A forma da distribuição é uma característica fundamental da sua amostra que pode determinar qual medida de tendência central reflete melhor o centro dos seus dados. Relativamente, a forma também impacta a sua escolha entre usar um teste de hipótese paramétrico ou não paramétrico. Desta forma, os histogramas são informativos sobre as estatísticas sumárias e testes de hipóteses que são apropriados para seus dados.
Para distribuições enviesadas, a direção do enviesado indica de que forma a cauda mais longa se estende.
Para distribuições enviesadas para a direita, a cauda longa se estende para a direita enquanto a maioria dos valores se agrupam à esquerda, como mostrado abaixo. Estes são dados reais de um estudo I realizado.
Conversamente, para distribuições enviesadas para a esquerda, a cauda longa se estende para a esquerda enquanto que a maioria dos valores se agrupam à direita.
: A Distribuição Normal em Estatística e Testes Paramétricos vs. Hipóteses Não Paramétricas
Histograma que exibe uma distribuição enviesada para a esquerda
Histograma que exibe uma distribuição enviesada para a esquerda.
: A Distribuição Normal em Estatística e Testes Paramétricos vs. Hipóteses Não Paramétricas
Histograma que exibe uma distribuição enviesada para a esquerda.Histograma que exibe uma distribuição enviesada para a esquerda. Em um instante, você verá se há algum valor incomum. Se você identificar possíveis outliers, investigue-os. Esses erros de entrada de dados são erros ou representam observações que ocorreram sob condições incomuns? Ou, talvez sejam observações legítimas que descrevem precisamente a variabilidade na área de estudo.
Num histograma, os outliers aparecem como uma barra isolada.
Identificando Distribuições Multimodais com Histogramas
Uma distribuição multimodal tem mais de um pico. É fácil perder distribuições multimodais quando você se concentra em estatísticas resumidas, tais como a média e os desvios padrão. Consequentemente, os histogramas são o melhor método para detectar distribuições multimodais.
Imagine que seu conjunto de dados tem as propriedades mostradas abaixo.
Isso parece relativamente simples, mas quando você grafa, você vê o histograma abaixo.
Que a distribuição bimodal não é bem o que você estava esperando! Este histograma ilustra porque você deve sempre graficar seus dados em vez de apenas calcular estatísticas resumidas!
Usar Histogramas para Identificar Subpopulações
Por vezes estas distribuições multimodais refletem a distribuição real do fenômeno que você está estudando. Em outras palavras, existem valores de pico genuinamente diferentes na distribuição de uma população. No entanto, em outros casos, as distribuições multimodais indicam que você está combinando subpopulações que têm características diferentes. Histogramas podem ajudar a confirmar a presença dessas subpopulações e ilustrar como elas são diferentes umas das outras.
Ponhamos que estamos estudando as alturas dos cidadãos americanos. Eles têm uma altura média de 168 centímetros com um desvio padrão de 9,8 CM. O histograma está abaixo. Parece haver um pico anormalmente largo no centro – não é bem bimodal.
Quando dividimos a amostra por sexo, a razão para isso se torna clara.
Notem como duas distribuições mais estreitas substituíram a distribuição única ampla? Os histogramas nos ajudam a aprender que o gênero é uma variável categórica essencial em estudos que envolvem altura. Os gráficos mostram que a média fornece estimativas mais precisas quando avaliamos as alturas por gênero. Na verdade, a média para toda a população não é igual à média para nenhuma das subpopulações. É enganoso!
Usar Histogramas para Avaliar o Ajuste de uma Função de Distribuição de Probabilidade
Analistas podem sobrepor uma linha ajustada para uma função de distribuição de probabilidade em seu histograma. Aqui está uma rápida distinção entre os dois:
- Histograma: Exibe a distribuição de valores na amostra.
- Linha de distribuição ajustada: Exibe a função de distribuição de probabilidade para uma determinada distribuição (por exemplo, normal, Weibull, etc.) que melhor se adapta aos seus dados.
Um histograma grava os dados da sua amostra. Por outro lado, uma linha de distribuição ajustada tenta encontrar a função de distribuição de probabilidade para uma população que tem a máxima probabilidade de produzir a distribuição que existe na sua amostra.
Enquanto você pode usar histogramas para avaliar o quão bem a curva de distribuição se encaixa na sua amostra, eu NÃO recomendo isso! Se você insistir em usar um histograma, avalie até que ponto as barras seguem a forma da linha ajustada. No gráfico abaixo, a linha ajustada para a distribuição normal parece seguir adequadamente as barras do histograma. A legenda mostra os valores estimados dos parâmetros da distribuição ajustada.
Em vez de usar histogramas para determinar o quão bem uma distribuição se ajusta aos seus dados, eu recomendo usar uma combinação de testes de distribuição e gráficos de probabilidade. Os gráficos de probabilidade são gráficos especiais que são projetados especificamente para exibir o quão bem a distribuição de probabilidade se encaixa nas amostras. Para saber mais sobre essas outras abordagens, leia meus posts sobre Identificação da Distribuição dos seus Dados e Histogramas vs. Gráficos de Probabilidade.
P>Posto relacionado: Entendendo Distribuições de Probabilidade
Usando Histogramas para Comparar Distribuições entre Grupos
Para comparar distribuições entre grupos usando histogramas, você precisará tanto de uma variável contínua quanto de uma variável de agrupamento categórico. Há duas formas comuns de exibir grupos em histogramas. Você pode tanto sobrepor os grupos ou gráficá-los em diferentes painéis, como mostrado abaixo.
Pode ser mais fácil comparar distribuições quando elas estão sobrepostas, mas às vezes elas ficam confusas. Histogramas em painéis separados exibem cada distribuição mais claramente, mas as comparações e o grau de sobreposição não são tão claros. Nos exemplos acima, as distribuições em painéis são claramente mais legíveis. No entanto, histogramas sobrepostos podem funcionar bem em outros casos, como você já viu neste post do blog. Experimente encontrar a melhor abordagem para seus dados!
Embora eu ache que os histogramas sejam o melhor gráfico para entender a distribuição de valores para um único grupo, eles podem ficar confusos com vários grupos. Os histogramas são normalmente muito bons para exibir dois grupos, e até quatro grupos se você exibi-los em painéis separados. Se o seu objetivo principal é comparar distribuições e seus histogramas são difíceis de interpretar, considere o uso de boxplots ou gráficos individuais. Na minha opinião, esses outros gráficos são melhores para comparar distribuições quando você tem mais grupos. Mas eles não fornecem tantos detalhes para cada distribuição quanto os histogramas.
Ganhar, experimentar e determinar qual gráfico funciona melhor para os seus dados e objetivos!
Posto relacionado: Boxplots vs. Gráficos de Valor Individual: Gráficos de Dados Contínuos por Grupos
Histogramas e Tamanho da Amostra
Como os histogramas são fantásticos para explorar seus dados, esteja ciente de que o tamanho da amostra é uma consideração significativa quando você precisa da forma do histograma para se assemelhar à distribuição da população. Normalmente, eu recomendo que você tenha um tamanho de amostra de pelo menos 20 por grupo para os histogramas. Com menos de 20 observações, você tem muito poucos dados para representar a distribuição da população de forma precisa.
Both histogramas abaixo usam amostras retiradas de uma população que tem uma média de 100 e um desvio padrão de 15. Estas características descrevem a distribuição das pontuações de QI. No entanto, um histograma utiliza um tamanho de amostra de 20, enquanto o outro utiliza um tamanho de amostra de 100. Note que estou a utilizar a percentagem no eixo Y para comparar as barras de histograma entre diferentes tamanhos de amostra.
Essa é uma diferença bastante grande! É necessário um tamanho de amostra surpreendentemente grande para obter uma boa representação de uma distribuição inteira. Quando o tamanho da sua amostra for inferior a 20, considere o uso de um gráfico de valores individuais.
Usando Testes de Hipóteses em Conjunção com Histogramas
Como você viu neste post, os histogramas podem ilustrar a distribuição dos grupos, assim como as diferenças entre os grupos. No entanto, se você quiser usar seus dados de amostra para tirar conclusões sobre populações, você precisará usar testes de hipóteses. Além disso, certifique-se de usar um método de amostragem, como amostragem aleatória, para obter uma amostra que reflita a população.