ヒストグラムを使用してデータを理解する

ヒストグラムは、連続データの分布を表示するグラフです。 要約統計ができない方法でサンプル データに関する特性を明らかにするため、素晴らしい探索ツールです。

このブログの記事では、ヒストグラムが、サンプル データにおける分布の形状、中心傾向、および値の広がりをどのように明らかにするかについて説明します。 また、外れ値を識別する方法、ヒストグラムが確率分布関数とどのように関連するか、そして、なぜヒストグラムで仮説検定を使用する必要があるのかについても学びます。 これらのグラフは、連続的な測定を行い、それらをビンとして知られる値の範囲に配置します。

このブログ投稿のヒストグラムの大部分を作成するために、CSV データ ファイルをダウンロードします。

統計の分野では、データセット全体を記述するために、しばしば要約統計量を使用します。 これらの統計は、サンプルの特性を定量化するために単一の数値を使用します。 たとえば、中心傾向の測定は、平均値のようなデータセットの中心点または典型的な値を表す単一の値です。 変動性の尺度は、データセット内の値がどの程度広がっているかを表す、別のタイプの要約統計量である。

これらの要約統計は非常に重要です。 グループの平均が特定の値であることを、何度聞いたことがありますか? これは、意味のある情報を提供します。 しかし、これらの指標は、データセットを単純化したものです。 データをグラフ化することで、データに命が吹き込まれます。 一般に、統計と組み合わせてグラフを使用すると、両方の長所が得られると思います!

これを実際に見てみましょう。 中心傾向の測定とばらつきの測定

ヒストグラムと中心傾向

データの中心を理解するために、ヒストグラムを使用します。 下のヒストグラムでは、中心が 50 の近くにあることがわかります。 データセット内のほとんどの値は 50 に近く、それ以上の値は稀です。

単一のグループの分布を表示するヒストグラムの例

単一のグループの分布を表示するヒストグラムの例

平均の差は X 軸に沿って水平に分布をシフトします(ヒストグラムが回転されていない場合)。

平均が異なる 2 つのグループを重ねて表示するヒストグラム

平均が異なる 2 つのグループを重ねて表示するヒストグラム

さらに、ヒストグラムではグループ間の重なりの度合いを把握することも可能です。

ヒストグラムとばらつき

たとえば、2 つのグループの平均が同じ 50 であると聞いたとしましょう。 それは、実質的に同等であるように聞こえます。

同じ平均値を持つがばらつきのある 2 つのグループを表示した、別パネルのヒストグラムです。

平均は同じだがばらつきが異なる 2 つのグループを別々のパネルに表示したヒストグラム

ヒストグラムは同じ 50 という値を中心としていますが、値の広がりが著しく異なっています。 グループ A の値はほとんどが 40 ~ 60 であるのに対し、グループ B ではその範囲は 20 ~ 90 です。 平均値だけではわからない

要するに、ヒストグラムは、どの値がより一般的で、どの値がより少ないかを、その分散とともに示してくれます。 この理解は、生の値のリストからは得られません。 平均や標準偏差のような要約統計は、その一端を示すものです。 しかし、ヒストグラムはデータをポップにします!

ヒストグラムと歪んだ分布

ヒストグラムは、分布の形状を特定するための優れたツールです。 これまで、私たちは正規分布のような対称分布を見てきました。 しかし、すべての分布が対称であるわけではありません。

分布の形状は、サンプルの基本的な特性であり、どの中心傾向の測定値がデータの中心を最もよく反映するかを決定することができます。 関連して、形状は、パラメトリックまたはノンパラメトリックの仮説検定を使用するかどうかの選択にも影響します。

歪んだ分布の場合、歪みの方向は、長い尾がどちらに伸びるかを示します。

右側の歪んだ分布の場合、長い尾は右に伸び、ほとんどの値は以下に示すように左側に集まります。

逆に、左寄りの分布では、ほとんどの値が右側に集まり、ロングテールは左側に広がっています。

左寄りの分布が表示されるヒストグラム。

左巻き分布を示すヒストグラム

:統計学における正規分布とパラメトリック仮説検定とノンパラメトリック仮説検定

異常値を識別するためのヒストグラムの使用

異常値を識別するのにヒストグラムは手軽な方法です。 異常な値があるかどうか、一瞬でわかります。 外れ値の可能性を特定したら、それを調査してください。 これらはデータ入力エラーなのか、異常な条件下で発生した観察結果を表しているのか。

異常値を表示するヒストグラム

異常値を表示するヒストグラム

ヒストグラムでは、異常値は孤立したバーとして表示されます。

ヒストグラムによる多峰性分布の識別

多峰性分布には、1 つ以上のピークがあります。 平均や標準偏差などの要約統計に注目すると、多峰性の分布を見逃しがちです。

データセットが以下に示す特性を持っていると想像してください。

記述統計の表

記述統計の表です。

これは比較的簡単そうに見えますが、グラフにすると、下のようなヒストグラムになります。

Histogram that displays a multimodal distribution.

Histogram that displays a multiple modal distribution.

この二元分布はあなたが予想していたものでは全くありません! このヒストグラムは、要約統計量を計算するだけでなく、データを常にグラフ化すべき理由を示しています!

ヒストグラムを使用して下位集団を識別する

これらの多峰性の分布が、研究している現象の実際の分布を反映していることがあります。 つまり、1 つの集団の分布に、純粋に異なるピーク値が存在します。 しかし、他のケースでは、多峰性の分布は、異なる特性を持つ下位集団を組み合わせていることを示します。

アメリカ市民の身長を研究しているとします。 彼らの平均身長は168センチメートルで、標準偏差は9.8センチメートルです。 ヒストグラムは以下のとおりです。

身長のヒストグラム

身長のヒストグラム

サンプルを性別で分割すると、その理由は明らかになります。

男女別の身長を表示したヒストグラム

男女別の身長を表示したヒストグラム

単一の広い分布に代わって、2つの狭い分布になっていることに気がつきませんか? ヒストグラムは、性別が、身長を含む研究における重要なカテゴリ変数であることを知るのに役立ちます。 グラフは、性別によって身長を評価する場合、平均がより正確な推定値を提供することを示しています。 実際、母集団全体の平均は、いずれの部分母集団の平均とも一致しません。 これは誤解を招きます!

ヒストグラムを使用して確率分布関数の適合性を評価する

アナリストは、確率分布関数の適合線をヒストグラムに重ねることができます。 以下は、この 2 つの簡単な違いです:

  • ヒストグラム。 サンプル内の値の分布を表示します。
  • 適合分布線。
  • 適合分布線
  • :データに最もよく適合する特定の分布 (正規、ワイブルなど) の確率分布関数が表示されます。

    分布曲線がサンプルにどれだけフィットしているかを評価するためにヒストグラムを使用することはできますが、お勧めしません! ヒストグラムをどうしても使いたい場合は、適合した直線の形状に棒グラフがどれだけ忠実に沿っているかを評価します。 下のグラフでは、正規分布の適合線がヒストグラムの棒に十分に追従しているように見えます。

    正規分布の適合分布線を含むヒストグラム

    正規分布の適合分布線を含むヒストグラム

    Industration Testと確率プロットを組み合わせて使用して、データがどの程度適合しているかを判断することをお勧めします。 確率プロットは、確率分布関数がサンプルにどれだけうまく適合するかを表示するために特別に設計されたグラフです。 これらの他のアプローチについて詳しく知るには、「データの分布を特定する」および「ヒストグラムと確率プロットの比較」の投稿をご覧ください。 確率分布を理解する

    グループ間の分布を比較するためにヒストグラムを使用する

    ヒストグラムを使用してグループ間の分布を比較するには、連続変数とカテゴリカル グループ化変数の両方が必要になります。 ヒストグラムでグループを表示するには、2 つの一般的な方法があります。

    4つの分布を重ね合わせて表示するヒストグラム

    4つの分布を重ね合わせて表示するヒストグラム

    4つの分布を別々のパネルで表示するヒストグラム

    4つの分布を別々のパネルで表示するヒストグラム

    彼らが重ねているときに分布を比較することが簡単になりますが、時々それらが面倒になっています。 別々のパネルのヒストグラムは、各分布をより明確に表示しますが、比較と重なりの程度はそれほど明確ではありません。 上記の例では、パネル化された分布は明らかにより読みやすくなっています。 しかし、このブログ記事でご覧いただいたように、重ね合わせたヒストグラムは他のケースでもうまく機能することがあります。

    ヒストグラムは、単一グループの値の分布を理解するには最適なグラフだと思いますが、複数のグループの場合は混乱することがあります。 ヒストグラムは通常、2 つのグループを表示するのに非常に適しており、別々のパネルに表示する場合は最大 4 つのグループを表示できます。 分布を比較することが主な目的で、ヒストグラムの解釈が難しい場合は、箱ひげ図または個別プロットの使用を検討してください。 私の意見では、これらのプロットは、より多くのグループがあるときに、分布を比較するのに適しています。

    再度、実験して、データと目標に最適なグラフを決定してください!

    関連記事。 箱ひげ図 vs 個々の値のプロット。

    ヒストグラムとサンプル サイズ

    データを調べるのにヒストグラムが素晴らしいように、ヒストグラムの形状を集団分布に類似させる必要がある場合、サンプル サイズは重要な検討事項となることに注意します。 通常、ヒストグラムでは、グループごとに少なくとも 20 のサンプル サイズを用意することをお勧めします。

    以下の両方のヒストグラムは、平均が 100、標準偏差が 15 の母集団から抽出したサンプルを使用しています。 これらの特性は、IQ スコアの分布を記述しています。 ただし、一方のヒストグラムはサンプルサイズ20を使用し、もう一方はサンプルサイズ100を使用しています。

    異なるサンプル サイズを使用して IQ スコアの分布を表示するヒストグラム

    異なるサンプル サイズを使用して IQ スコアの分布を表示するヒストグラム

    これはかなり大きな違いです! 分布全体をうまく表現するためには、驚くほど大きなサンプル サイズが必要です。

    ヒストグラムと組み合わせて仮説検定を使用する

    この投稿で見てきたように、ヒストグラムはグループの分布とグループ間の差を説明することができます。 しかし、サンプル データを使用して集団についての結論を導き出したい場合は、仮説検定を使用する必要があります。 また、母集団を反映したサンプルを得るために、ランダムサンプリングなどのサンプリング方法を使用するようにしてください

コメントを残す

メールアドレスが公開されることはありません。