共分散と相関係数の公式と意味(エクセルを使って求める例つき)

$2$ つの $n$ 個のデータ

\[ x=(x_{1},\ x_{2},\ \cdots,\ x_{n})\\ y=(y_{1},\ y_{2},\ \cdots,\ y_{n}) \]

を考える。

\[ \overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i} \]

\[ \overline{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i} \]

とする(すなわち $\overline{x}$ はデータ $x$ の平均値、 $\overline{y}$ はデータ $y$ の平均値)。このとき分散(VAR)と共分散(COV)と相関係数(COR)を次のように定義する。

\[ (\mathrm{VAR})\ \ \sigma_{x}^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})^{2} \]

\[ (\mathrm{VAR})\ \ \sigma_{y}^{2}=\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\overline{y})^{2} \]

\[ (\mathrm{COV})\ \ \sigma_{xy}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y}) \]

\[ (\mathrm{COR})\ \ \rho_{xy}=\frac{\sigma_{xy}}{\sigma_{x}\sigma_{y}} \]

共分散の求め方(エクセルの例)

生徒 $1$ から $10$ までの英数理の点数の共分散をエクセルで求めてみよう。以下、エクセルのスクリーンショットとコマンドは「Office365」である。

covar

英語と数学の共分散を調べる。英語はB列、数学はC列。共分散のコマンドは「COVAR」で、変数は「◯:◯,◯:◯」とする。カンマの前は英語データ、カンマの後は数学データであり、コロンで列の最初と最後を区切る。つまり

=COVAR(B2:B11,C2:C11)

で英語と数学の共分散が求まる。同様に英語と理科、数学と理科の共分散は次の式で求まる。

英語と数学=COVAR(B2:B11,C2:C11)
英語と理科=COVAR(B2:B11,D2:D11)
数学と理科=COVAR(C2:C11,D2:D11)

エクセルの計算によって英語と数学、英語と理科の共分散は $0$ に近く、数学と理科の共分散はかなり大きいことがわかった。

相関係数の求め方(エクセルの例)

上の英数理の点数データを使って、今度は相関係数をエクセルで求めてみよう。

correl

相関係数のコマンドは「CORREL」で、変数は共分散と同様に「◯:◯,◯:◯」とする。カンマの前は英語データ、カンマの後は数学データであり、コロンで列の最初と最後を区切る。つまり

=CORREL(B2:B11,C2:C11)

で英語と数学の共分散が求まる。同様に英語と理科、数学と理科の共分散は次の式で求まる。

英語と数学=CORREL(B2:B11,C2:C11)
英語と理科=CORREL(B2:B11,D2:D11)
数学と理科=CORREL(C2:C11,D2:D11)

エクセルの計算によって英語と数学、英語と理科の共分散は $0$ に近く、数学と理科の共分散は $1$ に近いことがわかった。

共分散と相関係数の意味

共分散が正または負に大きい ↔ 二つのデータに関係がある
共分散が $0$ に近い ↔ 二つのデータはあまり関係がない

相関係数が $1$ に近い ↔ 二つのデータに関係がある
相関係数が $0$ に近い ↔ 二つのデータはあまり関係がない

共分散と相関係数の意味は上の通りである。どちらも $0$ に近ければ近いほどデータ間の関係が薄くなるということ。共分散と相関係数はどちらもデータ間の関係性を示す。

上のエクセルのデータ、英数理の点数を見ればわかるように、明らかに英語と数学に関係がない。英語で高得点だから数学でも高得点かというとそうでもない。逆に英語で赤点をとっている人が数学でいい点をとっている。

一方、数学と理科は明らかに関係している。数学で点をとっている人は理科でも点をとっており、理科で点をとっている人は数学でも点をとっている。

この「見た目の関係性」がきちんと共分散と相関係数という数学的な値に反映されていることに注目しよう。

共分散の公式の変形

最初にあげた共分散と相関係数の公式は実用上使いにくい。そのため次のように変形する。

\begin{equation*} \begin{split} \sigma_{xy}&=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})\\ &=\frac{1}{n}\sum_{i=1}^{n}(x_{i}y_{i}-\overline{x}y_{i}-\overline{y}x_{i}+\overline{x}\overline{y})\\ &=\frac{1}{n}\sum_{i=1}^{n}x_{i}y_{i}-\frac{1}{n}\sum_{i=1}^{n}\overline{x}y_{i}\\ &\quad-\frac{1}{n}\sum_{i=1}^{n}\overline{y}x_{i}+\frac{1}{n}\sum_{i=1}^{n}\overline{x}\overline{y} \end{split} \end{equation*}

ここで $\overline{x},\ \overline{y}$ は定数である(それぞれデータの平均値であることを思い出そう)から、上の式の第 $2$ 項、第 $3$ 項、第 $4$ 項は

\begin{equation*} \begin{split} \frac{1}{n}\sum_{i=1}^{n}\overline{x}y_{i}&=\overline{x}\cdot\frac{1}{n}\sum_{i=1}^{n}y_{i}\\ &=\overline{x}\overline{y} \end{split} \end{equation*} \begin{equation*} \begin{split} \frac{1}{n}\sum_{i=1}^{n}\overline{y}x_{i}&=\overline{y}\cdot\frac{1}{n}\sum_{i=1}^{n}x_{i}\\ &=\overline{y}\overline{x} \end{split} \end{equation*} \begin{equation*} \begin{split} \frac{1}{n}\sum_{i=1}^{n}\overline{x}\overline{y}&=\overline{x}\overline{y}\cdot\frac{1}{n}\sum_{i=1}^{n}1\\ &=\overline{x}\overline{y}\cdot\frac{1}{n}\cdot{n}\\ &=\overline{x}\overline{y} \end{split} \end{equation*}

となる。したがって

\begin{equation*} \begin{split} \sigma_{xy}&=\frac{1}{n}\sum_{i=1}^{n}x_{i}y_{i}-\frac{1}{n}\sum_{i=1}^{n}\overline{x}y_{i}\\ &\quad-\frac{1}{n}\sum_{i=1}^{n}\overline{y}x_{i}+\frac{1}{n}\sum_{i=1}^{n}\overline{x}\overline{y}\\ &=\frac{1}{n}\sum_{i=1}^{n}x_{i}y_{i}-\overline{x}\overline{y}-\overline{x}\overline{y}+\overline{x}\overline{y}\\ &=\frac{1}{n}\sum_{i=1}^{n}x_{i}y_{i}-\overline{x}\overline{y} \end{split} \end{equation*}

となる。

\[ \sigma_{xy}=\frac{1}{n}\sum_{i=1}^{n}x_{i}y_{i}-\overline{x}\overline{y} \]

この式は非常に重要であり、実用的である。

もう少し詳しい相関(正の相関と負の相関)

相関は正の相関と負の相関がある。例えば英語と数学の点数の相関についてもう一度考える。

例えば英語の点数が高くなるほど、数学の点数が高くなるとする。このとき英語と数学の点数は正の相関にあるという。

逆に英語の点数が高くなるほど、数学の点数が低くなるとする。このとき英語と数学の点数は負の相関にあるという。

正の相関
英語↑ ⇒ 数学↑
英語↓ ⇒ 数学↓

負の相関
英語↑ ⇒ 数学↓
英語↓ ⇒ 数学↑

データ間の関係が正の相関にあるか、負の相関にあるかは相関係数で判断できる。

・相関係数が $1$ に近いほど、正の相関が強い。
・相関係数が $-1$ に近いほど、負の相関が強い。

ここで相関係数についてもう一つの数学的な性質が重要になる。

\[ -1\leqq\rho_{xy}\leqq{1} \]

実は相関係数は $-1$ 未満にならず、また $1$ より大きくもならない。現実問題としてデータとデータが完全に相関するということはないが、数学と物理の点数の相関係数はかなり $1$ に近いかもしれない…。

数学用語の英訳

分散   … variance
共分散  … covariance
相関係数 … correlation coefficient

エクセルの関数名はこれらのスペルからとっている。