母集団から抽出した標本を統計学的に扱うために利用される量として標本平均と標本分散があります。
当ページでは 標本平均と標本分散の求め方について示し、これらを求める意味について合わせて解説をしていきます。
その他標準偏差についても偏差値の例を交えて理解を深めていきます。
■このページで分かる内容のまとめ■
母集団から抽出した標本を扱っていく上で重要となる標本平均および標本分散は、それぞれ次式で定義されます。
\[ \bar{x} = \frac{1}{n} \sum_{i = 1}^n x_i \]
\[ s^2 = \frac{1}{n} \sum_{i = 1}^n (x_i - \bar{x})^2 \]
ここで \(n\) は標本の数、\(x_i\) は \(i\) 番目の標本、\(\bar{x}\) は標本平均、\(s^2\) は標本分散を表しています。
標本平均
標本平均の定義
標本平均とは、母集団から抽出した標本から計算される量です。
\(n\) 個の標本 \(x_i ~ ( ~ 1 \leq i \leq n ~ )\) について、標本平均 \(\bar{x}\) を次式で定義します。
\[ \bar{x} \equiv \frac{1}{n} \sum_{i = 1}^n x_i \]
平均は字の如く「平ら」・「均一」である事を示しており、式(1)を用いて計算すると標本のちょうど中間的な値が得られます。
例えば、Aさん、Bさん、Cさんの身長がそれぞれ下記の表のとおりだったとき…
身長の平均は式(1)から \(\frac{165 + 170 + 145}{3} = 160 ~ [\text{cm}]\) となります。
Aさん | Bさん | Cさん | |
---|---|---|---|
身長 | 165 \([\text{cm}]\) | 170 \([\text{cm}]\) | 145 \([\text{cm}]\) |
また、標本平均を求めることで標本が多くなったとしても1つの量で管理しやすくなる点も計算するメリットとなります。
標本分散
標本分散の定義
標本分散も、標本平均と同様に母集団から抽出した標本を用いて算出される量です。
\(n\) 個の標本 \(x_i ~ ( ~ 1 \leq i \leq n ~ )\) について、標本分散 \(s^2\) を次式で定義します。
\[ s^2 \equiv \frac{1}{n} \sum_{i = 1}^n (x_i - \bar{x})^2 \]
式(2)に示す通り、標本分散は標本平均が分かっていて初めて求まります。
標本分散は、抽出した標本 \(x_i\) がそれらから求まる標本平均 \(\bar{x}\) からどの程度のばらつきがあるかを表現します。
例えば、次に示す2つの身長データの組を考えます。
\(x_1 ~ [\text{cm}]\) | \(x_2 ~ [\text{cm}]\) | \(x_3 ~ [\text{cm}]\) | \(x_4 ~ [\text{cm}]\) | \(\bar{x} ~ [\text{cm}]\) | \(s^2\) | |
---|---|---|---|---|---|---|
標本群(A) | 149 | 151 | 152 | 148 | 150 | 10 |
標本群(B) | 135 | 160 | 180 | 125 | 150 | 1850 |
標本群(A), (B)ともに標本平均は 50 です。しかしながら、それぞれの標本を具体的に見ると標本群(A)は各標本が標本平均に近しい値で構成されているのに対し、標本群(B)は標本平均から大きく差の開いた標本から構成されています。
実際に標本から算出される標本分散の値も、標本群(A)は小さく、対して標本群(B)では大きいことが分かるでしょう。
また標本分散を計算する際、標本と標本平均との差の2乗を全標本の数 \(n\) で割っている点にも注意してください。
単に標本 \(x_i\) と、それらから求められる標本平均 \(\bar{x}\) との差を考えて、全標本についての和を計算したとしても意味のない結果を与えてしまうからです。
実際に…
\[ \begin{align*} \frac{1}{n} \sum_{i = 1}^n (x_i - \bar{x}) &= \frac{1}{n} \sum_{i = 1}^n x_i - \frac{1}{n} \sum_{i = 1}^n \bar{x} \\[15pt] &= \bar{x} - \frac{1}{n} \cdot n \bar{x} \\[15pt] &= 0 \end{align*} \]
といった具合で計算結果は 0 になってしまいます。
これは \((x_i - \bar{x})\) が正負両方の符号を取ることが原因で、問題を回避するには2乗して \((x_i - \bar{x})^2 \geq 0\) とすることで計算結果も必ず 0 以上の値となるようにする必要があります。
標本分散の公式
標本分散を求める際にしばしば利用する公式があり、次式で与えられます。
\[ s^2 = \bar{x^2} - \bar{x}^2 \]
「2乗の平均マイナス平均の2乗」です。
大切なことなのでもう一度…「2乗の平均マイナス平均の2乗」です。
累乗分の「2」がついている場所に注意をしてください。
式(3)は式(2)を変形することで導けます。誘導の過程を示すと… まずは式を展開して
\[ \begin{align*} \text{eq(2) : } ~~~~~ s^2 &= \frac{1}{n} \sum_{i = 1}^n (x_i - \bar{x})^2 \\[15pt] \text{eq(4.1) : } ~~~~~ &= \frac{1}{n} \sum_{i = 1}^n (x_i^2 - 2 x_i \bar{x} + \bar{x}^2) \\[15pt] \text{eq(4.2) : } ~~~~~ &= \frac{1}{n} \sum_{i = 1}^n x_i^2 - 2 \bar{x} \cdot \frac{1}{n} \sum_{i = 1}^n x_i + \bar{x}^2 \end{align*} \]
となります。
式(4.2)の第1項は、標本 \(x_i\) の2乗をすべての \(i\) について和を計算し、標本の数 \(n\) で割った量であり、これは2乗平均と呼ばれ \(\bar{x^2}\) で表現します。
\[ \bar{x^2} \equiv \frac{1}{n} \sum_{i = 1}^n x_i^2 \]
更に式(4.2)の第2項の \(\frac{1}{n} \sum_{i = 1}^n x_i\) は標本平均 \(\bar{x}\) に等しく、
\[ \begin{align*} \text{eq(4.2) : } ~~~~~ &\frac{1}{n} \sum_{i = 1}^n x_i^2 - 2 \bar{x} \cdot \frac{1}{n} \sum_{i = 1}^n x_i + \bar{x}^2 \\[20pt] &= \bar{x^2} - 2 \bar{x} \cdot \bar{x} + \bar{x}^2 \\[15pt] &= \bar{x^2} - \bar{x}^2 \end{align*} \]
というように、標本分散 \(s^2\) が \(\bar{x^2} - \bar{x}^2\) に等しいことを導けます。
標本平均・標本分散を求める意味
前節では、標本平均および標本分散の定義とそれらが表す内容を述べました。
標本平均と標本分散は、いま手元にある標本の情報を端的にまとめただけの物に思えますが、これらは統計学的重要性を持っています。
統計学の目的は一般的に未知である母集団の情報 ( 母平均 \(\mu\)、母分散 \(\sigma^2\) ) を把握する事にあり、その際 標本平均と標本分散が利用されます。
この手法は標本調査と呼ばれますが、母集団の全要素を調査する全数調査と対局するもので、母集団から抽出した少ない標本を用いて母集団の情報を明らかにすることが可能です。
ただし、全数調査と比較して標本調査から分かることはあくまでも推定に過ぎないことに注意してください。
標準偏差
母集団の情報を推測するために求める標本平均および標本分散と並んで、別に標準偏差と呼ばれる量があります。
標準偏差は次の式で定義されます。
\[ s \equiv \sqrt{\frac{1}{n}\sum_{i = 1}^n(x_i - \bar{x})^2} \]
ここで式(2)で定義した標本分散と比較すると、標準偏差はその2乗が標本分散と等しい関係にあります。標本分散を \(s\) の2乗として表現していたのにはこういった理由があったわけです。
また標本分散が標本のばらつきの大きさを表したように、標準偏差もばらつきの大きさを表します。
しかし根号を付けたことによって次元 ( 単位 ) が変化しています。
どういうことか身長を例に考えると… まず標本分散 \(s^2\) は標本を2乗しているため \([\text{cm}^2]\) の次元を持つと言えます。であれば、標準偏差 \(s\) は \([\text{cm}]\) の次元をもつはず…といった具合です。
偏差値と標準偏差の意味
標準偏差は、試験などの結果開示の際に偏差値の計算に利用されます。
50を全体の中央として、偏差値がそれ以上あるいはそれ以下かを見ることで自分が全体のどこに位置するかを把握することが一目でわかります。
偏差値 (Standard score : S.S.) の計算式は以下の通り。
\[ \text{S.S.} = 10 \times \left( \frac{\text{Point} - \bar{x}}{s} \right) + 50 \]
Point に得点を代入すれば自分の偏差値が計算でき、中央である偏差値 50 と自身の偏差値とを比較することで平均以上か或いは平均以下かを判断できます。
例えば平均 \(\bar{x}\) が56点、標準偏差 \(s\) が8点の試験で自身の得点が64点であるとしたとき、式(8)から自身の偏差値は 60 となります。
さて、標準偏差の役割についてもう少し掘り下げて考えてみましょう。
先の計算例で偏差値が 60 となったのは式(8)右辺の括弧部分が 1 となったためで、この事はちょうど自身の得点が平均から標準偏差と同じ大きさだけ高いことを意味します。
実際に式(8)右辺の括弧部分を抽出して確認してみると、自身の得点を \(x_0\) として
\[ \begin{align*} \frac{x_0 - \bar{x}}{s} = 1 \\[15pt] \therefore ~ x_0 = \bar{x} + s \end{align*} \]
と、この通りです。
逆に偏差値が 40 と小さい場合は、得点が平均よりも標準偏差と同じ大きさだけ小さい 48点 であることになります。
念のため… 偏差値が 70 である場合は、得点が平均よりも \(2s\) だけ大きい 72点 となります。
要するに偏差値とは、標準偏差を単位として平均からどのくらい離れているかを表すことが分かるでしょう。
【サイト運営 : だいご】
今年で物理化学歴12年目になります。
大学入試2次数学でたった3割しか得点できなかったいわゆる数弱落ちこぼれ。それでも好きこそものの上手なれと言ったところか、学会で最優秀賞受賞したり首席卒業できてしまったので、役に立つ知識を当サイトに全て惜しみなく公開しようと思います。ブックマークをオススメ。