トップページ > 数学 > 確率変数と確率分布

確率変数と確率分布

母集団から標本を抽出するとき、母集団の状態に応じて得られる標本が変化していきます。

それは要するに抽出される標本が確率的に決まることを指します。

当ページでは、統計データを確率的に扱う準備として確率変数確率分布の概念を解説していきます。

確率変数

確率変数とは、ある試行の結果 出現し得る値を指します。

その試行で、\(x_1\), \(x_2\), \(\cdots\), \(x_n\) という事象を取り得るとき、一般的に確率変数を \(X = \{x_1, ~ x_2, ~ \cdots, ~ x_n\} = \{x_i ~ | ~ 1 \leq i \leq n\}\) と表現します。

例えば、表と裏があるコインを投げて落ちたときに上側が表になるか、あるいは裏になるかという確率的に生じる事象は確率変数 \(X = \{\text{表}, ~ \text{裏}\}\) として扱います。

その他、6面サイコロを投げて出る目についても同様に確率変数は \(X = \{1, ~ 2, ~ 3, ~ 4, ~ 5, ~ 6\}\) となります。

※後ほど触れますが、実はコインの場合で取り得る確率変数を \(X = \{\text{表}, ~ \text{裏}, ~ \text{立つ}\}\) としても構いません。同じく、サイコロの場合で取り得る確率変数を \(X = \{0, ~ 1, ~ 2, ~ 3, ~ 4, ~ 5, ~ 6, ~ 7\}\) のようにしても良いです。理由は次の章で明らかとなります。

確率変数には種類があり、離散型確率変数連続型確率変数に区別されます。

それぞれの詳細は以下に続く内容で解説を行います。

離散型確率変数

離散型確率変数は離散的、不連続的な値をとる変数で、すでに紹介したようなコインやサイコロの目がそれに相当します。

その他、実用面では顧客の購入品数や製品の不良品数などの調査で利用されています。

この様に離散型確率変数は、取り得る値が有限個であったり、無限に続く場合でも数えられる値、また特定の値しか持たないものが対象となります。

記号では既に示した通り次のように記述します。

式(1)

\[ X = \{x_i ~ | ~ 1 \leq i \leq n\} ~~~ \left( ~ i \in \mathbb{N} ~ \right) \]

左辺は確率変数の集合 \(X\)、右辺は集合の要素を \(x_i\) と表し、\(i\) の条件として \(1 \leq i \leq n\) を添えています。

式中の \(i \in \mathbb{N}\) は \(i\) が整数 ( Natural number ) であることを明示するものですが以下に続く内容では省略します。

連続型確率変数

一方で…連続型確率変数は、連続的な値をとる変数であり、例えば身長や体重、温度などがその対象として扱われます。

連続的であるとは確率変数が実数の範囲で値をもつ事と理解しておけば問題ないでしょう。

実際に、身長は 150 \([\text{cm}]\), 160 \([\text{cm}]\), 170 \(\text{cm}\) の様な離散的な値以外にも、155 \([\text{cm}]\), 155.5 \([\text{cm}]\), 155.55 \([\text{cm}] ~ \cdots\) といったように整数値の間を埋めている無数の値の内のいずれかを取り得ます。

連続型確率変数を記号で表しておきましょう。

式(2)

\[ X = \{x ~ | ~ x \in [a, ~ b]\} ~~~ \left( ~ x \in \mathbb{R} ~ \right) \]

式中の \(x \in \mathbb{R}\) は \(x\) が実数 ( Real number ) であることを示しています。また \(x \in [a, ~ b]\) は \(x\) が \(a\) 以上 \(b\) 以下の間を取ることを表します。

確率分布

ある試行において出現し得るすべての確率変数 \(X = \{x_i ~ | ~ 1 \leq i \leq n\}\) について、それぞれ \(p_i\) の確率で出現するとき、\(\{p_1, ~ p_2, ~ \cdots, ~ p_n\}\) を確率分布と呼びます。

また、確率 \(p_i\) はすべての \(i\) について和を計算すると 1 となる必要があります。

式(3)

\[ \sum_{i = 1}^n p_i = 1 \]

前節で示した例を用いて説明すると、表と裏がそれぞれ等確率で出現するコインの確率分布は次のとおり。

コイン \(x_i\)
出現確率 \(p_i\) \(\frac{1}{2}\) \(\frac{1}{2}\)

このような表を確率分布表と呼びます。

確率分布を考えるとき出現し得るすべての場合を扱いますが、例えば上記で示したコインの場合で「表」と「裏」以外に実際「コインが立つ」場合も考えられなくはありません。

しかしながら、コインが立つ状況は現実として限りなく 0 に近いため、ここでは確率 0 として扱っています。

そのため先の確率分布表をより正確に作成すると、次のようになりますが…

コイン \(x_i\) 立つ
出現確率 \(p_i\) \(\frac{1}{2}\) \(\frac{1}{2}\) \(0\)

\(p_3 = 0\) とすることによって、全確率の和を計算しても 1 を満たすようにします。

同様に、それぞれの目が等確率で出現するサイコロの確率分布表も示します。

サイコロの目 \(x_i\) \(1\) \(2\) \(3\) \(4\) \(5\) \(6\)
出現確率 \(p_i\) \(\frac{1}{6}\) \(\frac{1}{6}\) \(\frac{1}{6}\) \(\frac{1}{6}\) \(\frac{1}{6}\) \(\frac{1}{6}\)

全確率の和は 1 を満たしていることを確認して下さい。

そしてサイコロの場合も上記の確率分布表で示す事象以外の状況も考えることができ、「サイコロの角を底にして立つ」場合や、更に「 0 や 7 の目が出る」といった仮想的な状況までも…。

しかしながら、言うまでもなく上記の確率分布表で示す事象以外は確率として 0 に近い、あるいは完全に 0 と言えますので実際は考える必要ありません。

ここでの主張は、確率が 0 であればどのような事象でも考えることで支障はないということで、それを逆手に取り得る確率変数を補完することにも利用可能であると言えます。

確率分布関数

確率変数 \(X = \{x_i ~ | ~ 1 \leq i \leq n\}\) ごとに割り振られた確率 \(p_i\) を返す関数を考えましょう。これを確率分布関数と呼びます。

前節では、確率変数それぞれが出現する確率を表で表した確率分布表を作成しましたが、今度はそれを関数として扱っていきます。

更に、確率分布関数は確率変数が離散型であるか、あるいは連続型であるかによって名称が分けられており、それぞれ確率質量関数と、確率密度関数と呼ばれます。

  • 確率質量関数 : 離散型確率変数を変数にもつ確率分布関数
  • 確率密度関数 : 連続型確率変数を変数にもつ確率分布関数

ただし後ほど示しますが、厳密には確率密度関数では確率変数に対して純粋な意味での確率が定義されている訳でないことに注意してください。

確率質量関数

確率質量関数は、離散型確率変数 \(X = \{x_i ~ | ~ 1 \leq i \leq n\}\) を変数に持つ確率分布関数であり、これは前節で作成した確率分布表をそのまま関数として表したものになります。

一般には次のように記述されます。

式(4) : 確率質量関数

\[ \begin{align*} f(x_i) &= P\left( X = x_i \right) \\[15pt] &= p_i \end{align*} \]

ここで、確率変数を変数に持つ \(P\) は確率を生成する関数という意味で利用しています。

コインやサイコロの例では、確率質量関数は簡単な記述が可能です。

コインの表もしくは裏が出る確率はそれぞれ \(\frac{1}{2}\) で等しいので、確率質量関数は次式で与えられます。

式(5) : コイン投げ

\[ f(x_i) = \frac{1}{2} ~~~ \left( i = 1, ~ 2 \right) \]

確率分布関数は通常ヒストグラムを用いて図示されます。式(5)の確率質量関数をヒストグラムで表したものが次です。

コイン投げによる確率質量関数のグラフ

横軸に離散型確率変数、縦軸に確率を取っています。

同様にサイコロを投げる試行について、それぞれの目が出る確率はすべて \(\frac{1}{6}\) なので、確率質量関数は次式となります。

式(6) : サイコロ投げ

\[ f(x_i) = \frac{1}{6} ~~~ \left( 1 \leq i \leq 6 \right) \]

式(6)をグラフで表すと次のとおりです。

サイコロ投げによる確率質量関数のグラフ

確率密度関数

連続型確率変数を変数にもつ確率分布関数を確率密度関数と呼びます。

前述したように連続型確率変数は、身長や質量など連続的な値をもつ変数を指します。

後で数学的に明確にしますが、連続型確率変数が特定の値をもって出現する確率は 0 であることが示されます。

たとえば身長が 160 \(\cdots [\text{cm}]\) ぴったりである可能性を考えると、計測の精度を上げるほどその確率は限りなく 0 に近づきますが、実際には 160 \(\cdots [\text{cm}]\) 近くの値を取ることはあっても完全にその値になることはありません。

測定精度にも限界がある以上、その確率を厳密に求められない、ないしは意味が無いわけです。

そこで、特定の値における確率を求めるのではなく、特定の区間に属する確率を考えることにします。

具体的には、

・身長 145 \([\text{cm}]\) 以上 155 \([\text{cm}]\) 未満
・身長 155 \([\text{cm}]\) 以上 165 \([\text{cm}]\) 未満
・身長 165 \([\text{cm}]\) 以上 175 \([\text{cm}]\) 未満

…といった具合に区間を設けて、確率変数がそれらのどれかに属する確率を扱っていきます。

確率変数が取り得る値を区間で考えることによるメリットは、連続的であるために生じる扱いづらさを解消し、いわば離散的に扱えるようになることです。

例えば、身長 145 \([\text{cm}]\) 以上 155 \([\text{cm}]\) 未満を満たす要素は全て 150 \([\text{cm}]\) であると見なしてしまいます。

これは度数分布表から代表値を計算する際に、階級値を利用すれば簡単に求められる事と同じです。以下、文脈に応じて、「階級」や「区間」という用語を使い分けますが、指し示すものは同じと理解してもらって構いません。

各階級に相当する確率、すなわち母集団を構成する全要素に対して着目する階級に属する要素数の比をヒストグラムによって表したものが次の図です。

各身長グループの存在割合を示すグラフ

横軸は連続型確率変数、縦軸は確率密度を表しています。

確率密度は、純粋な確率ではなく確率に比例する量であることに注意してください。

この確率密度を理解するためにはヒストグラムの定義から見直す必要があり、日本工業規格 JIS によるとヒストグラムは次のよう規定されています。

ヒストグラム ひすとぐらむ(histogram)
底辺の長さが級の幅(1.58)に等しく、その面積が級の度数に比例する近接する長方形からなる度数分布(1.60)のグラフ表現。
注記1 級の幅が不均一な場合には、注意が必要である。級の幅が不均一な場合には、級の面積を級の度数に比例させるとよい。
注記2 全ての級の幅を等しくし、長方形の高さを級の度数に比例させるのが一般的である。

日本工業規格

上記では度数を例に説明されていますが、確率に置き換えることもできます。

この定義に則って考えれば、確率密度とは各階級の出現確率を階級幅で割った量であることが分かるでしょう。

出現する確率変数 \(X\) が区間 \(\left[x, ~ x + \Delta x\right)\) に属する確率を \(P(x \leq X \leq x + \Delta x)\) と表すこととし、階級幅 \(\Delta x\) を限りなく小さくした極限を確率密度関数 \(f(x)\) として定義します。

式(7) : 確率密度関数

\[ f(x) \equiv \lim_{\Delta x \rightarrow 0} \frac{P(x \leq X \leq x + \Delta x)}{\Delta x} \]

ここまでの内容を図解したものが次であり、区間幅を細かくしていくことでヒストグラムの概形はある曲線に近づいていくことが分かります。

ヒストグラムの極限による連続化
ヒストグラムの極限による連続化
ヒストグラムの極限による連続化

このとき現れる曲線が確率密度関数 \(f(x)\) に当たります。

また繰り返しになりますが、確率は面積によって表されるので確率変数が任意の区間 \([c, ~ d]\) に属する確率 \(P(c \leq X \leq d)\) は次の積分によって計算できます。

式(8)

\[ P(c \leq X \leq d) = \int_c^d f(x) dx \]

ここで、確率変数 \(X\) が \(c\) となる確率 \(P(X = c)\) を求めると、式(8)の積分区間は \([c, ~ c]\) となり式(8)による計算結果は 0 となります。

前述した通り、連続型確率変数を扱う場合では確率変数が特定の値ぴったりとなる確率は 0 になります。確率を範囲で表すことによって数学的にも上手く説明できることが分かるでしょう。

また、連続型確率変数が変化する全範囲で積分すれば、全確率を表すことになり 1 である必要があります。したがって連続型確率変数が区間 \([a, ~ b]\) の間を変化できるとき次の関係が満たされなければなりません。

式(9)

\[ \int_a^b f(x) dx = 1 \]

※確率密度関数 \(f(x)\) から確率 \(p\) を求めるためには区間幅 \(\Delta x\) を掛ける必要があり、これは自然科学で扱う密度 \(\rho ~ [\text{kg/m}^3]\) から質量を求めるためには物体の体積を欠けなければならないのと似ています。そのため確率密度関数の次元 ( 単位 ) は確率変数がもつ次元の逆数になります。当ページで扱った身長を例にすると、確率密度関数の次元は \([\text{cm}^{-1}]\) です。

【サイト運営 : だいご】

今年で物理化学歴11年目になります。

大学入試2次数学でたった3割しか得点できなかったいわゆる数弱落ちこぼれ。それでも好きこそものの上手なれと言ったところか、学会で最優秀賞受賞したり首席卒業できてしまったので、役に立つ知識を当サイトに全て惜しみなく公開しようと思います。ブックマークをオススメ。