HOME >> 数字にこだわる >> データ分布は正規分布にしたがっているか

2009年04月21日

データ分布は正規分布にしたがっているか

seikibunpu.jpg

データ分布が正規分布に従っているかどうかは、グラフ(例えば度数分布表)により確認するのが基本ですが、歪度(わいど)と尖度(せんど)を一定の指標として、検討することができます。

歪度・尖度ともに0に近いときには、そのデータは正規分布に従っている可能性が高くなります(正規分布は歪度・尖度ともに0ですが、歪度・尖度0だからといって、必ずしも正規分布に従っているわけではないので、必ず、グラフで確認して下さい)。

 

歪度

歪度と分布の形状には以下の関係があります。

歪度>0のとき 山が左より
歪度<0のとき 山が右より

例えば、 歪度<0であると、分布は下のグラフのようになります。
sendo0ika.jpg
歪度は次の式で求めます。

個別データを X1,X2,…,XN とし、これらの平均をμ、標準偏差をσとするとき、
γ1=Σ(Xi-μ)~3/(Nσ~3)
 ※ Σはiについて1からNまで合計する意味。

 

尖度

尖度は山のとがり具合を表す指標ですが、外れ値の検出に利用されます。外れ値があると大きな値を示します。5以上で要注意、10以上になると確実に外れ値があることが、経験的に知られています。

尖度は次の式で求めます。

個別データを X1,X2,…,XN とし、これらの平均をμ、標準偏差をσとするとき、
γ2=Σ(Xi-μ)~4/(Nσ~4)-3
 ※ Σはiについて1からNまで合計する意味。

 

 

歪度、尖度はエクセルでも関数が用意されています。

歪度は=SKEW()、尖度は=KURT()を使います(注)。

例えば、「エクセルで「利益⇔売上・販管費」の相関分析をする」で使った サンプルデータ の雑収入を見てみましょう。

zazshunyu_1.jpg

データを縦に並べて、C2に=SKEW(A2:A25)、C3に=KURT(A2:A25)を入力します。

結果は、歪度2.79645、尖度9.962743となります。この結果からグラフは山が左に偏っていて、右側に長く伸びているか、外れ値が存在することが予想できます。度数分布表を作ってみます。

zazshunyu_2.jpg

予想通り、山の頂上が左にあり、外れ値のあるグラフとなりました。

データの半分以上が、250,000万円以下で、外れ値は1,618,880円が相当しています。

言うまでも無く、正規分布に近いとは言えません。

また、KURT関数によって外れ値を見つけることを利用して、「異常値」 を見つけることができるということも、これでお分かりいただけたのではないかと思います。

 

続いて、同じ サンプルデータの「売上高1」の歪度、尖度をみてみましょう。

計算すると、歪度0.07611、尖度-0.07516となります。

だいぶ正規分布に近い分布となっていることが予想されます。同じく、度数分布表を見てみましょう。

uriage_210420.jpg

データ数が少ないので、正規分布とは言いがたいのですが、かなり近い形であることがお分かり頂けると思います。

 

この様に、目視と数値を組み合わせて分布形を確認することで、より客観的にデータを分析することができるようになります。なお、今回、計算に使ったエクセルシートはこちらになります。

 

(注)正確には、エクセルの関数で用意された、歪度・尖度は「与えられた大きさ Nの集団の歪度ではなく、この集団を等確率、独立な1群の標本とする母集団の歪度・尖度の推定量」を表しています。

 

 

arrow_tenmetsu_d_r.gifをクリックするとtwitterでこの記事をつぶやくことができます!
Twitterに投稿♪

ブログランキングに参加しています。
この記事はお役に立ちましたでしょうか?
arrow_tenmetsu_d_r.gifをクリックして下さるとランクアップ!
いつも応援ありがとうございます。

banner_13.gif

投稿者 松波 竜太 on 2009年04月21日 00:50

トラックバック

このエントリーのトラックバックURL:
http://maznami.biz/mt-tb.cgi/254

この記事へのコメント

ありがとうございます。
大変参考になります。
教育統計に利用します。

投稿者: NPOアイ教育研究所 | 2009年06月26日 11:16

http://www.saturingi.gr.jp/seminar/statistical/vol2.pdf#search='正規分布 尖度 KURT 検定法'
この方法を見ると、
------------
Jarque-Bera 検定統計量 = n/6*(s^2+(k-3)^2/4) の必要数値をまず求める。nは標本数なので28、sが歪度で=SKEW( データ範囲) から0.0785。kが尖度で=KURT( データ範囲) から-0.4183 となり、これらを代入すると13.6609 となる。この統計量は6 よりも大きいので正規分布と見なして良い。
------------
とありますが、これで計算すると、
雑収入のほうが79.8、売上高のほうが9.4となってしまいました。
どう解釈すればよいのでしょうか。
ご教示いただければ幸いです。

投稿者: NPOアイ教育研究所 | 2009年06月26日 12:18

> NPOアイ教育研究所 様

ご覧頂き、ありがとうございます。
http://www.saturingi.gr.jp/seminar/statistical/vol2.pdf の仰っている部分が誤っている可能性があります。

「6より小さい場合には、有意水準5%で正規分布に従っていないとは言えない。」と、するのが正しいのではないでしょうか(つまり反対)?

この場合の検定は、雑収入を例に取ると、
H0:雑収入の分布は正規分布に従う
H1:H0ではない
と、置くことを前提に考えるべきだと思います。

従って、Jarque-Bera 検定統計量が130.53。検定統計量は5.911(自由度2、有意水準5%のχ~2値)より大きいので、棄却域に含まれる為、帰無仮説H0は帰却されます。
従って、雑収入の分布は、「正規分布に従っているとはいえない」という結論が導き出せます。

逆に、売上高はJarque-Bera 検定統計量が0.028となり、5.911より小さいので、棄却域には含まれず、帰無仮説H0は帰却されず、「正規分布に従っていないとはいえない」ということになります。

Jarque-Bera 検定量の算式からも、歪度と尖度の絶対値を加えて求める以上、歪度・尖度が大きくなれば、値が大きくなることは明らかです。これは、0に近づく方が、正規分布に近づくということに反しています。

ところで、私が計算した、尖度は既に-3してありますので、Jarque-Bera 検定統計量を計算する上では、もう引かなくても結構です。Jarque-Bera 検定統計量は雑収入130、売上高0.03となります。

私も勉強になりました。
ありがとうございました。

投稿者: 松波 | 2009年06月26日 16:19

> NPOアイ教育研究所 様

ホームページ拝見いたしました。
面白い取組みですね。

税理士試験も「ミス取り」試験なので、非常に参考になりましたし、色々と思い起こしました。

今後ともよろしくお願いいたします。

投稿者: 松波 | 2009年06月27日 08:22

まずは、ご回答ありがとうございます。

>(つまり反対)?

やはり逆でしたか。
すっきりしました。
ありがとうございます。

>尖度は既に-3してあります

エクセルのヘルプにある尖度KURTの数式に、n≫4で-3となる項があるため
JB=n/6*(SKEW^2+KURT^2/4)
でいいのですね。
おっしゃる値が出ました。

>ホームページ拝見いたしました。

ご訪問ありがとうございます。
「根本理解が重要」とHPのなかで言っておきながら、自分のこととなるとなかなかままなりませんで、お恥ずかしい限りです。
今後もご指導いただけるよう、よろしくお願い致します。
また勉強させてください。

               松居

投稿者: NPOアイ教育研究所 | 2009年06月28日 03:25

コメントを投稿

【数字にこだわるカテゴリーの関連記事】

データ分布は正規分布にしたがっているか
決算月の決め方
経営に関する真実
異常値と変化点の整理
収支分岐点(3)
収支分岐点(2)
経営の偏差値を知る
収支分岐点
平均の使い方を誤っていませんか?
【雑誌連載】 第6回 売上予測シミュレーションと業務適用時の注意点
【雑誌連載】 第5回 季節調整値を求める・異常値を論理的に効率的に見つける
【雑誌連載】 第4回 重回帰分析を使って次の一手を見つける
【雑誌連載】 第3回 標準偏差・相関係数の実務への応用と回帰分析
【雑誌連載】 第2回 これだけは押さえておきたい統計の基礎
【雑誌連載】会計データの分析は『統計解析』の視点から!
中途社員の給与の決め方
広告宣伝や接待の効果を知るには(先行指標を探す)
今後30年以内に震度6以上の揺れをもたらす地震の確率
12ヶ月サイクルの変動と考えてよいか調べる
先月よりも業績は良かったのか ( 季節調整値を求める )
生命保険を利用すべきか再投資すべきか
交通事故の確率
評論家になってはいまいか!
(過去の実績)お客様と一緒に考える
人間社会には物理の法則とは違う部分がある
中小企業のシェア
世帯貯蓄額(家計調査)で気になったこと
手許現金の設定
業績予測をする場合の注意点

サンプル数がいくつあれば正確なデータとなるのか
税務職員1人当たり法人数(東京都)
税務職員1人当たり個人数(埼玉県)
税務職員1人当たり法人数(埼玉県)
パートさんの手取りが逆転するポイント・復活するポイント
首都圏郊外の人口動態予測
重回帰分析がうまくいかない場合
失敗事例
どの得意先に売ったら儲かるのか
売上増加の秘密を探る
計算結果から因果関係を推測する
期待する分析結果が出ない場合もある
エクセルで「売上や販管費」の相関分析をする際の会計ソフトの設定上の注意点
エクセルで「利益⇔売上・販管費」の相関分析をする
エクセル「分析ツール」を準備する
会計ソフトから月次推移データをエクスポートする
データ分析を意識した会計データ入力のコツ
販売ソフトから導入しましょう
会計ソフト初期設定のコツ
月次推移を出力するのに適した会計ソフト
大切なのは仮説を立てて実地検証してみることです
中小企業に役立つ経営分析とは?
財務分析の限界
日別 家計支出 3年平均
<数字にこだわる>カテゴリの説明

« 一つ前のエントリーへ | メイン

このエントリーを友達に紹介する!

友達のメールアドレス:

あなたのメールアドレス:

メッセージ(オプション):