Los histogramas son gráficos que muestran la distribución de sus datos continuos. Son fantásticas herramientas de exploración porque revelan propiedades sobre sus datos de muestra de maneras que las estadísticas de resumen no pueden. Por ejemplo, mientras que la media y la desviación estándar pueden resumir numéricamente sus datos, los histogramas dan vida a sus datos de muestra.
En esta entrada del blog, le mostraré cómo los histogramas revelan la forma de la distribución, su tendencia central y la dispersión de los valores en sus datos de muestra. También aprenderá a identificar los valores atípicos, cómo se relacionan los histogramas con las funciones de distribución de probabilidad y por qué podría necesitar utilizar pruebas de hipótesis con ellos.
- Histogramas, tendencia central y variabilidad
- Histogramas y la tendencia central
- Histogramas y variabilidad
- Histogramas y distribuciones sesgadas
- Uso de histogramas para identificar valores atípicos
- Identificación de distribuciones multimodales con histogramas
- Uso de histogramas para identificar subpoblaciones
- Uso de histogramas para evaluar el ajuste de una función de distribución de probabilidad
- Usando Histogramas para Comparar Distribuciones entre Grupos
- Histogramas y tamaño de la muestra
- Utilización de pruebas de hipótesis en conjunción con histogramas
Histogramas, tendencia central y variabilidad
Utilice los histogramas cuando tenga mediciones continuas y quiera entender la distribución de los valores y buscar valores atípicos. Estos gráficos toman sus mediciones continuas y las colocan en rangos de valores conocidos como intervalos. Cada intervalo tiene una barra que representa el recuento o el porcentaje de observaciones que caen dentro de ese intervalo.
Descargue el archivo de datos CSV para hacer la mayoría de los histogramas en esta entrada del blog: Histogramas.
En el campo de la estadística, a menudo utilizamos estadísticas de resumen para describir un conjunto de datos completo. Estas estadísticas utilizan un único número para cuantificar una característica de la muestra. Por ejemplo, una medida de tendencia central es un único valor que representa el punto central o el valor típico de un conjunto de datos, como la media. Una medida de variabilidad es otro tipo de estadística de resumen que describe la dispersión de los valores en el conjunto de datos. La desviación estándar es una medida convencional de dispersión.
Estas estadísticas de resumen son cruciales. Cuántas veces ha escuchado que la media de un grupo es un valor determinado? Proporciona información significativa. Sin embargo, estas medidas son simplificaciones del conjunto de datos. Los gráficos de los datos les dan vida. En general, encuentro que el uso de gráficos junto con la estadística proporciona lo mejor de ambos mundos.
Veamos esto en acción.
: Medidas de tendencia central y medidas de variabilidad
Histogramas y la tendencia central
Utilice los histogramas para entender el centro de los datos. En el histograma de abajo, puedes ver que el centro está cerca de 50. La mayoría de los valores del conjunto de datos estarán cerca de 50, y los valores más alejados son más raros. La distribución es aproximadamente simétrica y los valores caen entre aproximadamente 40 y 64.
Una diferencia en las medias desplaza las distribuciones horizontalmente a lo largo del eje X (a menos que se rote el histograma). En los histogramas de abajo, un grupo tiene una media de 50 mientras que el otro tiene una media de 65.
Además, los histogramas ayudan a comprender el grado de superposición entre los grupos. En los histogramas anteriores, hay una cantidad relativamente pequeña de superposición.
Histogramas y variabilidad
Suponga que escucha que dos grupos tienen la misma media de 50. Parece que son prácticamente equivalentes. Sin embargo, después de graficar los datos, las diferencias se hacen evidentes, como se muestra a continuación.
Los histogramas se centran en el mismo valor de 50, pero la dispersión de los valores es notablemente diferente. Los valores del grupo A se sitúan mayoritariamente entre 40 y 60, mientras que los del grupo B se sitúan entre 20 y 90. La media no lo dice todo. A simple vista, la diferencia es evidente en los histogramas.
En resumen, los histogramas le muestran qué valores son más y menos comunes junto con su dispersión. Usted no puede obtener esta comprensión de la lista cruda de valores. Los estadísticos de resumen, como la media y la desviación estándar, le permitirán avanzar en parte. Pero los histogramas hacen que los datos se destaquen
Histogramas y distribuciones sesgadas
Los histogramas son una excelente herramienta para identificar la forma de su distribución. Hasta ahora, hemos estado viendo las distribuciones simétricas, como la distribución normal. Sin embargo, no todas las distribuciones son simétricas. Usted podría tener datos no normales que están sesgados.
La forma de la distribución es una característica fundamental de su muestra que puede determinar qué medida de tendencia central refleja mejor el centro de sus datos. En relación con esto, la forma también influye en su elección entre utilizar una prueba de hipótesis paramétrica o no paramétrica. De esta manera, los histogramas son informativos sobre las estadísticas de resumen y las pruebas de hipótesis que son apropiadas para sus datos.
Para las distribuciones sesgadas, la dirección del sesgo indica hacia dónde se extiende la cola más larga.
Para las distribuciones sesgadas a la derecha, la cola larga se extiende a la derecha mientras que la mayoría de los valores se agrupan a la izquierda, como se muestra a continuación. Estos son datos reales de un estudio que realicé.
Por el contrario, para las distribuciones sesgadas a la izquierda, la cola larga se extiende hacia la izquierda mientras la mayoría de los valores se agrupan a la derecha.
: La distribución normal en estadística y las pruebas de hipótesis paramétricas frente a las no paramétricas
Uso de histogramas para identificar valores atípicos
Los histogramas son una forma práctica de identificar valores atípicos. En un instante, verá si hay valores inusuales. Si identifica posibles valores atípicos, investíguelos. ¿Son errores de introducción de datos o representan observaciones que se produjeron en condiciones inusuales? O quizás sean observaciones legítimas que describen con precisión la variabilidad en el área de estudio.
En un histograma, los valores atípicos aparecen como una barra aislada.
Identificación de distribuciones multimodales con histogramas
Una distribución multimodal tiene más de un pico. Es fácil pasar por alto las distribuciones multimodales cuando uno se centra en las estadísticas de resumen, como la media y las desviaciones estándar. En consecuencia, los histogramas son el mejor método para detectar distribuciones multimodales.
Imagine que su conjunto de datos tiene las propiedades que se muestran a continuación.
Eso parece relativamente sencillo, pero cuando lo graficas, ves el histograma de abajo.
¡Esa distribución bimodal no es exactamente lo que esperabas! Este histograma ilustra por qué siempre debe representar gráficamente sus datos en lugar de limitarse a calcular los estadísticos de resumen
Uso de histogramas para identificar subpoblaciones
A veces estas distribuciones multimodales reflejan la distribución real del fenómeno que está estudiando. En otras palabras, hay valores máximos realmente diferentes en la distribución de una población. Sin embargo, en otros casos, las distribuciones multimodales indican que se están combinando subpoblaciones que tienen características diferentes. Los histogramas pueden ayudar a confirmar la presencia de estas subpoblaciones e ilustrar cómo son diferentes entre sí.
Supongamos que estamos estudiando las alturas de los ciudadanos estadounidenses. Tienen una altura media de 168 centímetros con una desviación estándar de 9,8 CM. El histograma está abajo. Parece haber un pico inusualmente amplio en el centro: no es del todo bimodal.
Cuando dividimos la muestra por sexos, la razón queda clara.
¿Notas cómo dos distribuciones más estrechas han sustituido a la única distribución amplia? Los histogramas nos ayudan a aprender que el género es una variable categórica esencial en los estudios que involucran la altura. Los gráficos muestran que la media proporciona estimaciones más precisas cuando evaluamos las alturas por género. De hecho, la media de toda la población no es igual a la media de ninguna de las dos subpoblaciones. Es engañoso!
Uso de histogramas para evaluar el ajuste de una función de distribución de probabilidad
Los analistas pueden superponer una línea ajustada para una función de distribución de probabilidad en su histograma. He aquí una rápida distinción entre ambos:
- Histograma: Muestra la distribución de valores en la muestra.
- Línea de distribución ajustada: Muestra la función de distribución de probabilidad para una distribución particular (por ejemplo, normal, Weibull, etc.) que mejor se ajusta a sus datos.
Un histograma grafica sus datos de la muestra. Por otro lado, una línea de distribución ajustada intenta encontrar la función de distribución de probabilidad para una población que tiene la máxima probabilidad de producir la distribución que existe en su muestra.
Aunque puede usar histogramas para evaluar qué tan bien se ajusta la curva de distribución a su muestra, ¡NO lo recomiendo! Si insiste en usar un histograma, evalúe qué tan cerca siguen las barras la forma de la línea ajustada. En el gráfico siguiente, la línea ajustada para la distribución normal parece seguir adecuadamente las barras del histograma. La leyenda muestra los valores de los parámetros estimados de la distribución ajustada.
En lugar de usar histogramas para determinar qué tan bien se ajusta una distribución a sus datos, recomiendo usar una combinación de pruebas de distribución y gráficos de probabilidad. Los gráficos de probabilidad son gráficos especiales que están diseñados específicamente para mostrar lo bien que las funciones de distribución de probabilidad se ajustan a las muestras. Para aprender más sobre estos otros enfoques, lea mis posts sobre Identificación de la distribución de sus datos e Histogramas frente a gráficos de probabilidad.
Post relacionado: Entendiendo las Distribuciones de Probabilidad
Usando Histogramas para Comparar Distribuciones entre Grupos
Para comparar distribuciones entre grupos usando histogramas, necesitará tanto una variable continua como una variable categórica de agrupación. Hay dos formas comunes de mostrar los grupos en los histogramas. Puede superponer los grupos o graficarlos en diferentes paneles, como se muestra a continuación.
Puede ser más fácil comparar las distribuciones cuando están superpuestas, pero a veces se desordenan. Los histogramas en paneles separados muestran cada distribución más claramente, pero las comparaciones y el grado de superposición no son tan claros. En los ejemplos anteriores, las distribuciones en paneles son claramente más legibles. Sin embargo, los histogramas superpuestos pueden funcionar bien en otros casos, como has visto en esta entrada del blog. Experimente para encontrar el mejor enfoque para sus datos!
Aunque creo que los histogramas son el mejor gráfico para entender la distribución de valores para un solo grupo, pueden confundirse con múltiples grupos. Los histogramas suelen ser bastante buenos para mostrar dos grupos, y hasta cuatro grupos si los muestra en paneles separados. Si su objetivo principal es comparar distribuciones y sus histogramas son difíciles de interpretar, considere el uso de boxplots o gráficos individuales. En mi opinión, esos otros gráficos son mejores para comparar distribuciones cuando se tienen más grupos. Pero no proporcionan tanto detalle para cada distribución como los histogramas.
De nuevo, experimente y determine qué gráfico funciona mejor para sus datos y objetivos!
Publicación relacionada: Boxplots vs. Gráficos de valores individuales: Graphing Continuous Data by Groups
Histogramas y tamaño de la muestra
Aunque los histogramas son fantásticos para explorar sus datos, tenga en cuenta que el tamaño de la muestra es una consideración importante cuando necesita que la forma del histograma se parezca a la distribución de la población. Normalmente, recomiendo que tenga un tamaño de muestra de al menos 20 por grupo para los histogramas. Con menos de 20 observaciones, tienes muy pocos datos para representar la distribución de la población con precisión.
Los dos histogramas que aparecen a continuación utilizan muestras extraídas de una población que tiene una media de 100 y una desviación estándar de 15. Estas características describen la distribución de las puntuaciones de CI. Sin embargo, un histograma utiliza un tamaño de muestra de 20 mientras que el otro utiliza un tamaño de muestra de 100. Observa que estoy utilizando el porcentaje en el eje Y para comparar las barras del histograma entre diferentes tamaños de muestra.
¡Esa es una diferencia bastante grande! Se necesita un tamaño de muestra sorprendentemente grande para obtener una buena representación de una distribución completa. Cuando el tamaño de su muestra sea inferior a 20, considere la posibilidad de utilizar un gráfico de valores individuales.
Utilización de pruebas de hipótesis en conjunción con histogramas
Como ha visto en este post, los histogramas pueden ilustrar la distribución de los grupos, así como las diferencias entre ellos. Sin embargo, si desea utilizar sus datos de la muestra para sacar conclusiones sobre las poblaciones, tendrá que utilizar pruebas de hipótesis. Además, asegúrese de utilizar un método de muestreo, como el muestreo aleatorio, para obtener una muestra que refleje la población.