トップページ > 数学 > 確率変数の期待値と分散

確率変数の期待値と分散

ある確率分布にしたがう母集団の確率変数 \(X\) について、平均して出現する値を期待値と呼びます。

また記述統計によって平均からの散らばりを分散として定義したように、確率変数 \(X\) に対する分散も定められます。

当ページでは、確率変数の期待値および分散それぞれの定義と性質について詳しく解説をしていきます。

確率変数には離散型確率変数と連続型確率変数と種類があるので、それぞれ分けて紹介します。

離散型および連続型の確率変数の違いについて詳細は下記の関連コンテンツから御覧ください。

確率変数の期待値

ある確率分布にしたがう母集団から標本を抽出したとき、その標本は確率的に決定されるために確率変数として扱われます。

母集団の確率分布が分かっていることの優れた点は、これからどのような値が出現しやすいかを事前に予測できることです。

そして、出現が期待される数値という意味から確率変数の平均を期待値と呼び、英語で Expectation であることから確率変数 \(X\) における期待値を \(E(X)\) と表現します。

以下、離散型確率変数および連続型確率変数の場合に分けて、期待値の計算方法について理解するために定義を示していきます。

離散型確率変数の期待値

確率分布 \(\{p_i ~ | ~ 1 \leq i \leq n\}\) にしたがう離散型確率変数 \(X = \{x_i ~ | ~ 1 \leq i \leq n\}\) について期待値 \(E(X)\) は次式で定義されます。

式(1)

\[ E(X) \equiv \sum_{i = 1}^n x_i p_i \]

確率変数 \(x_i\) に対応する確率 \(p_i\) との積について、全ての場合の和を計算すれば期待値を求めることができます。

また式(1)から期待値は定数であることが分かります。

例えば、サイコロを投げて出現する目とそれらの出現確率を表した確率分布は以下のとおり。

サイコロの目 \(x_i\) \(1\) \(2\) \(3\) \(4\) \(5\) \(6\)
出現確率 \(p_i\) \(\frac{1}{6}\) \(\frac{1}{6}\) \(\frac{1}{6}\) \(\frac{1}{6}\) \(\frac{1}{6}\) \(\frac{1}{6}\)

確率分布表から式(1)にしたがって出現するサイコロの目の期待値を計算すると

\[ E(X) = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + 3 \cdot \frac{1}{6} + 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6} = 3.5 \]

となります。

期待値は確率変数の平均であると述べましたが、その理由をサイコロの例を用いて示します。

6面サイコロの出現する目の平均を計算すると

\[ \frac{1 + 2 + 3 + 4 + 5 + 6}{6} = 3.5 \]

となって、結果は先に得られた期待値を一致します。

ただこの例だと少し都合が良すぎて実は理解しにくいので…例えば次のような奇数の目だけ2面あるような特殊なサイコロの場合を考えてみます。

\[ \textcolor{red}{1}, ~ \textcolor{red}{1}, ~ 2, ~ \textcolor{red}{3}, ~ \textcolor{red}{3}, ~ 4, ~ \textcolor{red}{5}, ~ \textcolor{red}{5}, ~ 6 \]

確率分布表は次のようになります。

サイコロの目 \(x_i\) \(1\) \(2\) \(3\) \(4\) \(5\) \(6\)
出現確率 \(p_i\) \(\textcolor{red}{\frac{2}{9}}\) \(\frac{1}{9}\) \(\textcolor{red}{\frac{2}{9}}\) \(\frac{1}{9}\) \(\textcolor{red}{\frac{2}{9}}\) \(\frac{1}{9}\)

式(1)を用いて期待値を求めると次の計算結果を得ます。

\[ 1 \cdot \frac{2}{9} + 2 \cdot \frac{1}{9} + 3 \cdot \frac{2}{9} + 4 \cdot \frac{1}{9} + 5 \cdot \frac{2}{9} + 6 \cdot \frac{1}{9} = \frac{10}{3} ~~~ ( ~ = 3.3 \cdots ~ ) \]

一方、出現するサイコロの目の平均を計算すると…期待値と一致することが分かります。

式(2)

\[ \begin{align*} \text{eq(2.1) : } ~~~~~ &\frac{1 + 1 + 2 + 3 + 3 + 4 + 5 + 5 + 6}{9} \\[15pt] \text{eq(2.2) : } ~~~~~ &= 1 \cdot \frac{2}{9} + 2 \cdot \frac{1}{9} + 3 \cdot \frac{2}{9} + 4 \cdot \frac{1}{9} + 5 \cdot \frac{2}{9} + 6 \cdot \frac{1}{9} \\[15pt] \text{eq(2.3) : } ~~~~~ &= \frac{10}{3} \end{align*} \]

上記の式(2.2)で出現頻度と全場合の数を分数にまとめていますが、まったく期待値の計算と同じであることに気が付きます。

つまりサイコロの目に対して重複分をまとめた出現頻度を \(f_i\) とすると次の式が成立します。

式(3)

\[ \sum_{i = 1}^6 \left( x_i \cdot \textcolor{red}{\frac{f_i}{\sum_{j = 1}^6 f_j}} \right) = \sum_{i = 1}^6 x_i \textcolor{red}{p_i} \]

サイコロの目 \(x_i\) \(1\) \(2\) \(3\) \(4\) \(5\) \(6\)
出現確率 \(p_i\) \(\frac{2}{9}\) \(\frac{1}{9}\) \(\frac{2}{9}\) \(\frac{1}{9}\) \(\frac{2}{9}\) \(\frac{1}{9}\)
出現頻度 \(f_i\) \(2\) \(1\) \(2\) \(1\) \(2\) \(1\)

至って当然のことではありますが、期待値が平均を意味することを理解するために順を追うとこの様になります。

もしかすると平均の計算方法として違和感を覚えるかもしれませんが、それは出現し得るサイコロの目に出現頻度が掛かっているからではないでしょうか。このような計算を重み付き平均と呼ばれたりもします。

こうして期待値と平均が同じであることを具体例を用いて説明しましたが、前述の通り期待値とは「これから確率的に出現する確率変数 \(X\)」が平均して取り得る値を表すように単なる平均ではないことに注意です。

当ページを最後までご覧いただけると、期待値の解像度を上げていただくことが可能です。

連続型確率変数の期待値

確率密度関数 \(f(x)\) にしたがう連続型確率変数 \(X = \{x ~ | ~ x \in [a, ~ b] \}\) について期待値 \(E(X)\) は次式で定義されます。

式(4)

\[ E(X) = \int_a^b xf(x)dx \]

離散型確率変数の場合で紹介した期待値の定義と比較すると分かりやすいです。

式(1)

\[ E(X) = \sum_{i = 1}^n x_i p_i \]

期待値は確率変数と確率の積を全ての場合について和を計算すれば得られます。

式(4)に戻ると…確率密度関数 \(f(x)\) はそれ自体は確率を与えず区間を掛ける必要があり、すなわち ある \(x\) 付近の微小区間 \(dx\) における確率は \(f(x) dx\) であることに注意して、

期待値は確率変数と確率の積 \(x f(x)dx\) を取り得る全ての範囲 \([a, ~ b]\) で積分すれば得られると理解できるでしょう。

確率変数の期待値の性質

期待値の性質を理解していると計算が容易になります。

確率変数が次のような場合

  • 確率変数の定数倍 : \(aX\)
  • 確率変数の平行移動 : \(aX + b\)

このとき期待値はどのように変化するか考えます。

定数倍された確率変数の期待値

確率変数 \(X\) に実数 \(a\) を掛けて変数変換した \(aX\) の期待値 \(E(aX)\) の性質を明らかにします。

離散型確率変数 \(X = \{x_i ~ | ~ 1 \leq i \leq n\}\) の場合、式(1)から

式(5)

\[ \begin{align*} E(aX) &= \sum_{i = 1}^n (ax_i) p_i \\[15pt] &= a \sum_{i = 1}^n x_i p_i \\[15pt] &= aE(X) \end{align*} \]

となります。直感的にも理解しやすい関係で、定数倍はカッコの外に出てくるだけです。

また、確率変数を変換しても確率分布には影響が現れないことも重要です。

実際に確率分布表を用いて確認してみると…

確率変数 \(x_1\) \(x_2\) \(\cdots\) \(x_n\)
定数倍 \(ax_1\) \(ax_2\) \(\cdots\) \(ax_n\)
確率 \(p_1\) \(p_2\) \(\cdots\) \(p_n\)

このように確率変数を定数倍しても、それぞれの出現確率は変化しません。

冷静に考えれば当たり前かもしれませんが、この注意は次に示す連続型確率変数の場合に活きてきます。

連続型確率変数 \(X = \{x ~ | ~ x \in \mathbb{R}\}\) を定数倍して変数変換した \(aX\) の期待値を明らかにします。

結論、確率変数が離散型であろうと連続型であろうと \(E(aX) = aE(X)\) の関係は常に成立します。

念のため計算しておきましょう。

式(6)

\[ \begin{align*} E(aX) &= \int_{-\infty}^{\infty} (ax) f(x)dx \\[15pt] &= a \int_{-\infty}^{\infty} x f(x)dx \\[15pt] &= a E(X) \end{align*} \]

このようになります。ここで注意しなければならないのは、やっぱり確率変数を定数倍したとしても出現確率には依存しないことです。

これは次のようなミスをしてはなりません、という念押しです。

誤り

\[ E(aX) = \int_{-\infty}^{\infty} (ax) f(ax)d(ax) \]

確率変数 \(X\) を \(aX\) に変数変換したからと言って、\(f(x) \rightarrow f(ax)\) になるとは限らないし、\(dx \rightarrow d(ax) = adx\) になるという事ではありません。

平行移動された確率変数の期待値

平行移動された確率変数とは \(aX + b\) のような定数 \(b\) によって取り得る値の範囲を移したものを指しています。

さて、注意しなければならないのは何度も言うように変数変換したときに、新たな変数に対応する出現確率が変化するか否かですが、\(aX + b\) ではもともと取り得る範囲が平行移動されただけなので、出現確率には影響しません。

したがって、定義式(1)に沿って期待値を計算すると

式(7)

\[ \begin{align*} E(aX + b) &= \sum_{i = 1}^n (ax_i + b) p_i \\[15pt] &= a \sum_{i = 1}^n x_i p_i + b \sum_{i = 1}^n p_i \\[15pt] &= a E(X) + b ~~~ \left( ~ \because \sum_{i = 1}^n p_i = 1 ~ \right) \end{align*} \]

となります。

このように定数 \(b\) だけ平行移動された確率変数の期待値は、変換前の確率変数の期待値に \(b\) だけ加えたものに等しい関係にあります。要するに確率変数に依らない項はそのままカッコの外に出されるということです。

一方、離散型確率変数の定義式(4)でも同様に成立するか確認すると

式(8)

\[ \begin{align*} E(aX + b) &= \int_{-\infty}^{\infty} (ax + b) f(x)dx \\[15pt] &= a \int_{-\infty}^{\infty} xf(x)dx + b \int_{-\infty}^{\infty} f(x)dx \\[15pt] &= aE(X) + b ~~~ \left( ~ \because \int_{-\infty}^{\infty} f(x)dx = 1 ~ \right) \end{align*} \]

となって、結果 確率変数が離散型であるか連続型であるかに関わらず \(E(aX + b) = aE(X) + b\) の関係が成立することが分かります。

確率変数の分散

母集団から抽出した標本によって計算される分散と同様に、確率変数における分散を定義することが可能です。

ある確率分布にしたがう母集団について確率変数の分散を事前に知っておくことで、期待値からどの程度ばらついた標本が得られるかを予測できます。

離散型確率変数の分散

確率分布 \(\{p_i ~ | ~ 1 \leq i \leq n\}\) にしたがう離散型確率変数 \(X = \{x_i ~ | ~ 1 \leq i \leq n\}\) について分散は次式で定義されます。

式(9)

\[ V(X) \equiv E[(X - E(X))^2] \]

分散は英語で Variance であることから確率変数の分散を \(V(X)\) と表現します。

そして驚くことに、確率変数の分散の定義式(9)には期待値が含まれることが分かります。一見複雑に思えますが内容はカンタン。

というのも、標本分散の定義の類推として式(9)を導くことが可能です。

標本分散 \(s^2\) は、母集団から抽出した標本について標本平均からのばらつきを表す統計量であり、その定義は次式のとおり。

式(10)

\[ s^2 = \frac{1}{n} \sum_{i = 1}^n (x_i - \bar{x})^2 \]

式中の \(\bar{x}\) は \(n\) 個の標本 \(x_i\) についての標本平均を表しています。

ここで次の式を見ていただきます。

式(11)

\[ \begin{align*} \text{eq(11.1) : } ~~~~~ &\bar{\textcolor{red}{x}} = \frac{1}{n} \sum_{i = 1}^n \textcolor{red}{x_i} && \rightarrow E(\textcolor{red}{X}) \\[30pt] \text{eq(11.2) : } ~~~~~ &\overline{\textcolor{red}{(x - \bar{x})^2}} = \frac{1}{n} \sum_{i = 1}^n \textcolor{red}{(x_i - \bar{x})^2} && \rightarrow E[\textcolor{red}{(X - E(X))^2}] \end{align*} \]

式(11.1) \(\bar{x}\) は標本平均の式を表しています。期待値 \(E(X)\) は平均を意味するので、\(\bar{x}\) を \(E(X)\) に置き換えてしまいます。

また式(11.2) は標本分散の式ですが、標本平均の式(11.1)と比較して新たに \(\overline{(x - \bar{x})^2}\) という記号を導入しました。要するに、標本分散とは標本平均 \(\bar{x}\) を基準とした標本 \(x_i\) についての2乗平均と呼ぶこともできるわけです。

そして期待値の表式で置き換えたものが まさに \(E[(X - E(X))^2]\) であり、式(9)に示した確率変数の分散の定義と等しいことを確認できます。

再度、上記の内容はあくまでも類推であり数学的に正確ではないことに注意して下さい。

確率変数の分散の具体的な計算方法の説明に戻ります。

式(9)から確率変数の分散 \(V(x)\) は変数変換された確率変数 \((X - E(X))^2\) における期待値を表しています。

期待値の定義式(1) \(E(\textcolor{red}{X}) = \sum_{i = 1}^n \textcolor{red}{x_i} p_i\) を元に、確率変数の分散 \(V(X)\) を確率分布 \(\{p_i ~ | ~ 1 \leq i \leq n\}\) を用いて表現したものが次式になります。

式(12)

\[ \begin{align*} \text{eq(12.1) : } ~~~~~ &V(X) &&= E[\textcolor{red}{(X - E(X))^2}] \\[15pt] \text{eq(12.1) : } ~~~~~ & &&= \sum_{i = 1}^n \textcolor{red}{(x_i - E(X))^2} p_i \end{align*} \]

式(12)から、ある試行における確率分布が分かっていれば、確率変数の分散 \(V(X)\) を求めることができます。

6面サイコロの例について確率変数の分散を計算してみましょう。

期待値は \(E(X) = 3.5\) でしたので

\[ V(X) = (1 - 3.5)^2 \cdot \frac{1}{6} + (2 - 3.5)^2 \cdot \frac{1}{6} + (3 - 3.5)^2 \cdot \frac{1}{6} + (4 - 3.5)^2 \cdot \frac{1}{6} + (5 - 3.5)^2 \cdot \frac{1}{6} + (6 - 3.5)^2 \cdot \frac{1}{6} = \frac{35}{12} \]

となります。

連続型確率変数の分散

確率密度関数 \(f(x)\) にしたがう連続型確率変数 \(X = \{x ~ | ~ x \in [a, ~ b]\}\) について分散 \(V(X)\) は次式で定義されます。

式(13)

\[ V(X) = E[(X - E(X))^2] \equiv \int_a^b (x - E(X))^2 f(x) dx \]

式(12.2)と比較すれば、式(13)の表式の理解は難しくないでしょう。

繰り返しになりますが、確率密度関数 \(f(x)\) はそれ自体は確率を与えず、確率は区間 \(dx\) を掛けた \(f(x)dx\) で表現されることに注意してください。

確率変数の分散の公式

確率変数の分散の定義式 \(V(X) = E[(X - E(X))^2]\) を変形することで異なる表式の分散が導かれます。

はじめに変数変換された確率変数 \((X - E(X))^2\) を展開して

式(14)

\[ \begin{align*} V(X) &= E[(X - E(X))^2] \\[15pt] &= E[X^2 - 2XE(X) + E^2(X)] \end{align*} \]

続いて、式(7)から期待値の性質 \(E(aX + b) = aE(X) + b\) を用いて整理していきます。ただし期待値 \(E(X)\) は定数であることに注意してください。すると…

式(15)

\[ \begin{align*} \text{eq(15.1) : } ~~~~~ &E[X^2 - 2XE(X) + E^2(X)] \\[15pt] \text{eq(15.2) : } ~~~~~ &= E(X^2) - 2E(X) \cdot E(X) + E^2(X) \cdot E(1) \\[15pt] \text{eq(15.3) : } ~~~~~ &= E(X^2) - 2E^2(X) + E^2(X) ~~~ \left( ~ \because E(1) = 1 ~ \right) \\[15pt] \text{eq(15.4) : } ~~~~~ &= E(X^2) - E^2(X) \end{align*} \]

このようになります。

式(15.4)は標本分散 \(s^2\) で成立する公式に似ており、実際に「2乗の平均マイナス平均の2乗」 \(s^2 = \bar{x^2} - \bar{x}^2\) で与えられました。

確率変数の分散も、同様に「2乗の平均マイナス平均の2乗」の形式で公式として利用できます。

確率変数の分散の性質

期待値の性質同様に確率変数の分散の性質も理解しておくと計算が容易になる場合があります。

確率変数が次のような場合

  • 確率変数の定数倍 : \(aX\)
  • 確率変数の平行移動 : \(aX + b\)

このとき分散はどのように変化するか考えます。

また確率変数の分散は期待値を用いて定義されることから、その性質を上手く利用すれば確率変数が離散的か連続的かという論を介すことなく上記の計算結果を一気に導くことができます。

定数倍された確率変数の分散

確率変数 \(X\) に実数 \(a\) を掛けて変数変換した \(aX\) の分散 \(V(aX)\) の性質を明らかにしてきます。

確率変数の分散の定義式(9)をもとに \(X \rightarrow aX\) とすれば良いので

式(16)

\[ V(aX) = E[(aX - E(aX))^2] \]

となります。ただし期待値も \(E(X) \rightarrow E(aX)\) としていることに注意してください。当然のことですが、確率変数を変換しているので期待値も変化します。

一方で、変数変換による確率分布の変化はなく、念のため式(16)を確率を用いて書き換えたとき次式になることを示しておきます。

式(17)

\[ \begin{align*} &V(aX) = \sum_{i = 1}^n (ax_i - E(aX))^2 \textcolor{red}{p_i} \\[15pt] \text{or} ~~~ &V(aX) = \int_{-\infty}^{\infty} (ax - E(aX))^2 \textcolor{red}{f(x)dx} \end{align*} \]

既に述べたように、分散の性質は期待値の性質を利用すれば導くことができるために、以降 式(17)は利用しません。

式(16)に続く式変形により、確率変数の分散は次のように整理できます。

式(18)

\[ \begin{align*} \text{eq(18.1) : } ~~~~~ &V(aX) = E[(aX - E(aX))^2] ~~~ \left( ~ = \text{eq(16)} ~ \right)\\[15pt] \text{eq(18.2) : } ~~~~~ &= E[(aX - aE(X))^2] \\[15pt] \text{eq(18.3) : } ~~~~~ &= E[a^2 (X - E(X))^2] \\[15pt] \text{eq(18.4) : } ~~~~~ &= a^2 E[(X - E(X))^2] \\[15pt] \text{eq(18.5) : } ~~~~~ &= a^2 V(X) \end{align*} \]

このように定数倍された確率変数の分散は、変数変換する前の分散に定数の2乗を掛けたものに等しい関係が得られます。

分散とは2乗平均であるということからも、定数の2乗が現れることも無理なく理解はできるでしょう。

平行移動された確率変数の分散

確率変数 \(X\) に定数を加えて平行移動させた確率変数 \(aX + b\) の分散の性質を明らかにします。

確率変数の分散の定義式をもとに \(X \rightarrow aX + b\) の変換を施して式を整理したものが次式です。

式(19)

\[ \begin{align*} \text{eq(19.1) : } ~~~~~ &V(X + b) = E[(aX + b - E(aX + b))^2] \\[15pt] \text{eq(19.2) : } ~~~~~ &= E[(aX + b - aE(X) - b)^2] \\[15pt] \text{eq(19.3) : } ~~~~~ &= E[(aX - aE(X))^2] \\[15pt] \text{eq(19.4) : } ~~~~~ &= E[a^2 (X - E(X))^2] \\[15pt] \text{eq(19.5) : } ~~~~~ &= a^2 E[(X - E(X))^2] \\[15pt] \text{eq(19.6) : } ~~~~~ &= a^2 V(X) \end{align*} \]

式(19.6)から、確率変数を定数 \(b\) だけ平行移動させたとしても分散の値に影響しない事が分かります。

というのも、分散は期待値を中心としたばらつきを表す量なので、確率変数の平行移動によるばらつきの変化はないと考えるのが妥当でしょう。

確率変数の期待値・分散と母数の関係

確率変数の期待値および分散について、標本平均と標本分散の類推として具体的な表式について理解することは可能ですが、これらの明確な違いとは一体何でしょうか。

1つは、母集団から標本を抽出する前後で呼び方が異なるという理解です。

  • 確率変数の期待値と分散 : 母集団から標本を抽出するにあたって事前に予測する
  • 標本平均と標本分散 : 母集団から抽出した標本について計算して求められる

また標本平均と標本分散は標本さえあれば計算できますが、確率変数の期待値と分散を求めるには母集団の確率分布を知っておく必要があります。

次の内容は重要です。

確率変数の期待値と分散は、母集団における平均と分散に等しい値を与えるように定義します。

それぞれ母平均 \(\mu\) および母分散 \(\sigma^2\) と言って

式(20) : 母平均

\[ \mu \equiv E(X) \]

式(21) : 母分散

\[ \sigma^2 \equiv V(X) \]

とします。これら母平均と母分散はまとめて母数とも呼ばれています。

確率変数の期待値を例にとって、なぜ母平均と等しいと言えるのかを説明しましょう。

次のグラフを見てください。

標本平均が母平均へ漸近する様子

横軸は試行回数、縦軸は標本平均をとっており、6面サイコロを投げて都度 標本平均を記録したものです。

グラフ中央の横線は期待値を表していますが、試行回数を増やせば増やすほど標本平均は期待値に漸近している様子が伺えます。

つまり数学的に示すと次のような関係があると言えます。

式(22)

\[ E(X) = \lim_{n \rightarrow \infty} \frac{1}{n} \sum_{i = 1}^n x_i \]

また無限回試行する事の重要な解釈は、無限個標本を収集すれば母集団全体を把握したも同然ということです。

式(23)

\[ \mu = \lim_{n \rightarrow \infty} \frac{1}{n} \sum_{i = 1}^n x_i \]

したがって、式(22)および式(23)から直ちに式(20)が導けます。

同様の論理で母分散と確率変数の分散が等しいことも納得できるはずです。

【サイト運営 : だいご】

今年で物理化学歴11年目になります。

大学入試2次数学でたった3割しか得点できなかったいわゆる数弱落ちこぼれ。それでも好きこそものの上手なれと言ったところか、学会で最優秀賞受賞したり首席卒業できてしまったので、役に立つ知識を当サイトに全て惜しみなく公開しようと思います。ブックマークをオススメ。