データ分布は正規分布にしたがっているか

データ分布が正規分布に従っているかどうかは、グラフ(例えば度数分布表)により確認するのが基本ですが、歪度(わいど)と尖度(せんど)を一定の指標として、検討することができます。
歪度・尖度ともに0に近いときには、そのデータは正規分布に従っている可能性が高くなります(正規分布は歪度・尖度ともに0ですが、歪度・尖度0だからといって、必ずしも正規分布に従っているわけではないので、必ず、グラフで確認して下さい)。
歪度
歪度と分布の形状には以下の関係があります。
歪度>0のとき 山が左より
歪度<0のとき 山が右より
例えば、 歪度<0であると、分布は下のグラフのようになります。
歪度は次の式で求めます。
個別データを X1,X2,…,XN とし、これらの平均をμ、標準偏差をσとするとき、
γ1=Σ(Xi-μ)~3/(Nσ~3)
※ Σはiについて1からNまで合計する意味。
尖度
尖度は山のとがり具合を表す指標ですが、外れ値の検出に利用されます。外れ値があると大きな値を示します。5以上で要注意、10以上になると確実に外れ値があることが、経験的に知られています。
尖度は次の式で求めます。
個別データを X1,X2,…,XN とし、これらの平均をμ、標準偏差をσとするとき、
γ2=Σ(Xi-μ)~4/(Nσ~4)-3
※ Σはiについて1からNまで合計する意味。
歪度、尖度はエクセルでも関数が用意されています。
歪度は=SKEW()、尖度は=KURT()を使います(注)。
例えば、「エクセルで「利益⇔売上・販管費」の相関分析をする」で使った サンプルデータ の雑収入を見てみましょう。

データを縦に並べて、C2に=SKEW(A2:A25)、C3に=KURT(A2:A25)を入力します。
結果は、歪度2.79645、尖度9.962743となります。この結果からグラフは山が左に偏っていて、右側に長く伸びているか、外れ値が存在することが予想できます。度数分布表を作ってみます。

予想通り、山の頂上が左にあり、外れ値のあるグラフとなりました。
データの半分以上が、250,000万円以下で、外れ値は1,618,880円が相当しています。
言うまでも無く、正規分布に近いとは言えません。
また、KURT関数によって外れ値を見つけることを利用して、「異常値」 を見つけることができるということも、これでお分かりいただけたのではないかと思います。
続いて、同じ サンプルデータの「売上高1」の歪度、尖度をみてみましょう。
計算すると、歪度0.07611、尖度-0.07516となります。
だいぶ正規分布に近い分布となっていることが予想されます。同じく、度数分布表を見てみましょう。

データ数が少ないので、正規分布とは言いがたいのですが、かなり近い形であることがお分かり頂けると思います。
この様に、目視と数値を組み合わせて分布形を確認することで、より客観的にデータを分析することができるようになります。なお、今回、計算に使ったエクセルシートはこちらになります。
(注)正確には、エクセルの関数で用意された、歪度・尖度は「与えられた大きさ Nの集団の歪度ではなく、この集団を等確率、独立な1群の標本とする母集団の歪度・尖度の推定量」を表しています。

ありがとうございます。
大変参考になります。
教育統計に利用します。
投稿者: NPOアイ教育研究所 | 2009年06月26日 11:16