サンプル数がいくつあれば正確なデータとなるのか
先日たまたまTBSの「どうぶつ奇想天外」という番組を見ていたら、「利き手・利き足」について統計をとるという内容があったので、検討してみたいと思います。
内容はワンちゃんやおサルさんに利き手・利き足があるのか?というものでした。
この内の問題は、ワンちゃんの利き手・利き足についての実験です。
実験はワンちゃん100匹をあつめて、お座りの状態から最初に踏み出した足を「利き足」としようというのものでした。
結果は左利き46対右利き54というものでした。
さて、ここで問題です。
この結果から、ワンちゃん全体を考えた場合、左利きが多いと結論付けることができるでしょうか?
結論からするとNOです。
実験結果は左利き46%の右利き54%ということでした。アナウンサーも「100匹を集めると統計学的には95%の確率で全体を現しているのです。」と言っていました。
ここでいう95%の確率とは統計学で言う「信頼率」で20回実験を行った場合、19回は正しい結果を示し、1回は結果が間違うということを示しています。
アナウンサーの言ったことは間違っていません。しかし、じつは要素が1つ欠落していました。
「精度」です。
実は統計上サンプル数が100のときの精度は±9.2%となります。
したがって、左利きの確率が36.8%~55.2%あり、右利きの確率が63.2%~44.8%の範囲で考え得るのです。
つまり、左・右が逆転してしまっている可能性が十分あるのです。
逆に46:54という結果を証明するだけのサンプル数としては、信頼率95%の場合600程度となります。
このブログでは企業の時系列データに関して、1ヶ月のデータを1つのサンプルとして考えた上で、売上や利益との相関関係を分析するという試みを行っています。
一経営者が30年トップを務めるとして360ヶ月ヶ月がその経営者のデータ全体となります。
その経営者に関するデータについて、1ヶ月のデータを1つのサンプルとして考えた場合、信頼率95%で精度±5%の結果を得ようとした場合には、実に292ヶ月分(約24年分)のデータが必要になってしまいます。
したがって、このブログにある分析結果においては、データの速報値としての意味が重要で、これを元に「仮説・検証」を実地で行うことが重要だということがいえます。実態をつかむ頃には、経営者の「旬」が過ぎてしまっている可能性もありますから・・・
