Irohabook
0
2346

分散と標準偏差の公式と求め方(正規分布に従わないラーメン屋の客数から標準偏差を計算してみよう)

あるラーメン屋の来客数を例に分散と標準偏差を考える。

曜日 客数
20
15
18
19
27
7
6

パッと見て「平日は多く、休日は少ない」と感じたと思う。その感覚を数値化したものが分散・標準偏差である。まずは平均を求めよう。

\[ Mean = \dfrac{20 + 15 + 18 + 19 + 27 + 7 + 6}{7} = 16 \]

平均は $16$ 人である。土曜日の $7$ 人という数は平均と比べてかなり少ない。つまり土日は平均よりもかなりずれた値といえる。分散もその分だけ大きくなる。

分散とは? 分散の公式

分散とはデータの散らばり具合である。分散の公式は次のとおり。

\[ Var = \dfrac{1}{n} \sum_{1}^{n} (x_i - x)^2 \]

ここでデータは $x_i \ \ (i=1,\ 2,\ 3,\ \cdots)$ で $x$ はその平均とする。

分散は、各データと平均の差を $2$ 乗して、それを個数で平均した値である。

  1. データと平均の差を求める
  2. それを 2 乗する
  3. それらの平均を求める

分散の計算例

ラーメン屋の客数の分散を求めてみよう。分散を求めるには、表に「差」という項目を追加すればよい。平均は $16$ 人であった。

曜日 客数 平均との差
20 4
15 1
18 2
19 1
27 11
7 9
6 10

平均との差がわかったら、それを $2$ 乗しよう。

曜日 客数 平均との差 2 乗
20 4 16
15 1 1
18 2 4
19 1 1
27 11 121
7 9 81
6 10 100

やっと分散を求める土台が整った。分散 $Var$ は

\[ Var = \dfrac{16 + 1 + 4 + 1 + 121 + 81 + 100}{7} = 46.285 \]

だいたい $46.285$ とわかった。ところでこの値になんの意味があるだろう? その疑問は標準偏差のアイデアにつながる。ちなみに上の分散が本当に正しい値かは下の記事で確かめられる。

分散・標準偏差電卓

すべての曜日で同じ人数だった場合の分散

もし毎日 $16$ 人きたらどうなるか? 分散を求めてみよう。

曜日 客数
16
16
16
16
16
16
16

奇跡のようなデータだ。おそらくこんなラーメン屋はほとんどない。

曜日 客数 平均との差
16 0
16 0
16 0
16 0
16 0
16 0
16 0

平均との差はもちろんすべて $0$ になる。よってそれらを $2$ 乗した値も $0$ であり、それらの平均も $0$ である。つまり分散は $0$ となり、分散していないとわかる。

分散 0 → 分散していない

分散という言葉が妥当な日本語だということがわかっただろうか。分散とは、そのままの意味だったのだ。

ところで分散していない状態はめったにない。つまり確率的にかなり低い。データがランダムに散らばるとき、その分散はある確率分布にしたがうことがなんとなくわかる。

標準偏差とは? 標準偏差の公式

標準偏差とは分散の平方根である。

\[ Std = \sqrt{Var} \]

数学を勉強した人は一回くらい「分散を使えばいいじゃないか、なぜわざわざその平方根をとるのか?」と考える。「分散という値になんの意味があるのか?」という疑問は妥当である。平方根をとる理由は、分散ともとのデータは次元(単位)が異なるため、分散とデータを比較することはできないからだ。

ラーメン屋の標準偏差を求めてみよう。

\[ Std = \sqrt{46.285} = 6.88 \]

だいたい $7$ 人である。そう、 $7$ 人である。標準偏差はもとのデータと同じ単位をもつ。分散の $46$ という数は人数でない。公式をもう一度見てほしい。カッコの中で $2$ 乗している。 $2$ 乗しているため、分散の単位は「人×人」になっている。

単位
もとのデータの単位
分散 人×人
標準偏差

標準偏差とは、「だいたいのデータが平均とどれだけずれているか」を示す値である。つまりラーメン屋の客数はだいたい平均と $7$ 人ずれている。本当にそうだろうか?

曜日 客数 平均との差
20 4
15 1
18 2
19 1
27 11
7 9
6 10

金曜日、土曜日、日曜日ともに $7$ 人を超えているが、それ以外はだいたい $7$ 人を下回っている。どことなく $7$ 人あたりが「差の平均」のような気がする。

標準偏差を超えて現実を考える

ここからは正規分布などの統計にくわしい人に向けた内容になる。

このデータを例にしたのには理由がある。正規分布に従ったデータは確かに、だいたいのデータが標準偏差の範囲内に収まる。そうしたデータを扱うのは面白いし、自分の考えどおりに世界が動いているように見える。

しかし小売や会社の生産額などは正規分布に従わないことがある。パレートの法則で説明したとおり、金回りは正規分布でなくべき分布に従い、いわゆる勝者総取りになる。

標準偏差は「個別的な引力が働かず、物事がランダムに動く」という理想状態で威力を発揮する、理想気体の定数のようなものだ。

ラーメン屋でもデータが $7$ 人の偏差におさまっているような錯覚を受けるが、本当にそうだろうか。もう一度見てほしい。

曜日 客数 平均との差
20 4
15 1
18 2
19 1
27 11
7 9
6 10

無理に平均をとれば $7$ 人に見えなくもないが、実際は金曜日、土曜日、日曜日に大きなズレがある。正規分布というなめらかな分布は理想的で美しいが、実際はこのように大きな不連続がある。標準偏差だけを見るかぎり、この「崖」の性質を知ることはできない。

むしろ次のように考えたほうがいい。標準偏差が無意味になっているブレークポイントはどこか? それはなぜ無意味か? なにが標準偏差を無意味にさせているか?

次の記事

統計