統計データの整理方法として度数分布表にまとめる方法、ヒストグラムとしてまとめる方法があります。
当ページでは、度数分布表とヒストグラムについて、それぞれが指す内容とまとめ方の手順を解説します。
また作成した度数分布表とヒストグラムから、中央値や最頻値などの統計量を求める方法にも触れます。
■目次■
度数分布表とヒストグラム
ある程度の数の標本を母集団から抽出したとき、標本データの概要を把握するために度数分布表とヒストグラムを用いたデータ整理の方法がよく利用されます。
度数分布表は表でまとめたもの、ヒストグラムはグラフで図示したものという明確な違いがありますが、これらは多くの場合セットで扱われ、一方が作成できれば他方も作成できます。
それぞれには長所と短所があり、度数分布表は詳細なデータを把握するのに適しており、ヒストグラムは概要を把握するのに適しています。
度数分布表もしくはヒストグラムを利用するかは、状況に応じて判断する必要があるでしょう。
度数分布表とヒストグラムの作り方
度数分布表とヒストグラムの作り方を解説していきます。たくさんの似た用語が飛び交うので最初は混乱するかもしれませんが、整理してついてきて下さい。
度数分布表の作り方 : 表でまとめる
度数分布表は統計データを表でまとめるときに利用します。
例として、ある商品を購入している利用者について35名の標本を抽出して年齢を調査する状況を考えます。
得られた利用者の年齢データは次のとおりであったとしましょう。
\[ \begin{align*} &43, ~ 29, ~ 20, ~ 23, ~ 29, ~ 20, ~ 34, \\[10pt] &16, ~ 18, ~ 49, ~ 37, ~ 24, ~ 39, ~ 28, \\[10pt] &36, ~ 34, ~ 54, ~ 25, ~ 26, ~ 42, ~ 38, \\[10pt] &24, ~ 48, ~ 37, ~ 46, ~ 11, ~ 24, ~ 38, \\[10pt] &37, ~ 25, ~ 18, ~ 40, ~ 18, ~ 20, ~ 27 \end{align*} \]
上記のデータを年代別に分けると…10代は6名、20代は9名、30代は10名、40代は4名、50代は1名となります。
そして振り分けしたデータを表として整理したものが以下です。
階級 | 度数 |
---|---|
10代 ( 10 ~ 19 ) | 6 |
20代 ( 20 ~ 29 ) | 9 |
30代 ( 30 ~ 39 ) | 10 |
40代 ( 40 ~ 49 ) | 4 |
50代 ( 50 ~ 59 ) | 1 |
これが度数分布表であり、ここでは年代というグループごとに何名が属するかを表しています。
度数分布表を作成するにあたり、いくつか用語が登場します。
- 階級 : データを振り分けるためのグループ
- 階級幅 : 階級の上端と下端の差
- 度数 : 各階級に振り分けられたデータ数
上記の例の場合、年代が階級、各年代に属する利用者数が度数になります。
階級幅は10代について考えると、階級の上端と下端の差なので \(20 - 10 = 10\) となります。ただし10代とは 10歳以上20歳未満 \((10 \leq x < 20)\) であることに注意して下さい。同様にその他の年代についても階級幅は同様に 10 です。
度数分布表の作り方の手順をまとめます。
- STEP 1 : 階級を決定する
- STEP 2 : 階級ごとにデータを振り分ける
- STEP 3 : その他の指標を加える
度数分布表は、最低でも上記の STEP 2 まで完了していれば形式上問題ありません。
しかし STEP 3 に示すように、その他にも算出しておく方が良い指標がいくつかあります。
詳細は以降の章で紹介することにします。
ヒストグラム : グラフでまとめる
ヒストグラムは各階級に存在する度数をグラフを用いて可視化したもので、度数分布表から簡単に作成できます。
もちろんヒストグラムから度数分布表を作成することも可能ですが、表からグラフ化するのが一般的です。
ヒストグラムは、横軸に階級、縦軸に度数をとって、階級ごとの度数を短冊状のグラフを用いて表します。先で作成した度数分布表から得られるヒストグラムは次のとおりです。
ヒストグラムによってデータを可視化することで、標本データの分布具合が一目で分かります。
再度、度数分布表とヒストグラムの特徴をまとめると次のとおりです。
度数分布表 | ヒストグラム | |
---|---|---|
表現方法 | 表 | グラフ |
情報 | 数値データの把握 | 概要・外形の把握 |
それぞれ場面に応じて適切に利用できるようになると良いでしょう。
度数分布表に含めると良い指標
度数分布表は、階級とその階級に属するデータの度数さえ分かれば最低限の情報を示すことができていると前節で述べました。
しかし度数分布表の作成手順 STEP 3 に示すように、その他に追加しておくと解析が行いやすくなる指標があります。
例えば 階級値、累積度数、相対度数、累積相対度数 があり、それぞれ意味は以下のとおりです。
- 階級値 : 各階級の上端と下端の真ん中の値
- 累積度数 : 最も小さい階級から順に度数を足し合わせたもの
- 相対度数 : 全体を100%としたときの、各階級の度数の割合
- 累積相対度数 : 最も小さい階級から順に相対度数を足し合わせたもの
先の例に対して 階級値、累積度数、相対度数、累積相対度数を追加した度数分布表を示します。
階級 | 階級値 | 度数 | 累積度数 | 相対度数 | 累積相対度数 |
---|---|---|---|---|---|
10代 ( 10 ~ 19 ) | 15 | 5 | 5 | 14.29% | 14.29% |
20代 ( 20 ~ 29 ) | 25 | 14 | 19 | 40.00% | 54.29% |
30代 ( 30 ~ 39 ) | 35 | 9 | 28 | 25.71% | 80.00% |
40代 ( 40 ~ 49 ) | 45 | 6 | 34 | 17.14% | 97.14% |
50代 ( 50 ~ 59 ) | 55 | 1 | 35 | 2.86% | 100.00% |
階級値は、先ほど階級幅を求めるのに利用した上端と下端のちょうど真ん中の値になります。10代の場合は \(\frac{10 + 20}{2} = 15\) といった具合です。
累積度数は若い年代から順に度数を足し合わせたもので、例えば30代の累積度数はそれ以前の階級に属する10代、20代、30代の度数の和として与えられます。
相対度数は各、階級の度数を標本数である 35 で割れば得られます。
累積相対度数は、累積度数の考え方を相対度数に当てはめたもので、小さい階級から順に相対度数を足し合わせたものです。
これらの指標がどのように役に立つのかは次の節で解説していきます。
中央値・最頻値・平均値
度数分布表とヒストグラムを作成する目的は、単にデータを整理するためだけではありません。整理して得られた表やグラフから、抽出した標本の情報を簡単に把握することできるようになります。
ここでは代表的な 中央値、最頻値、平均値 についての説明とそれらの求め方を見ていきます。
当然これらの値は抽出した標本データから得られます。しかし以下で分かるように、これらを見つける作業は実に骨の折れる作業です。
度数分布表やヒストグラムから、簡単に標本の情報を得る方法は必須で理解しておきましょう。
中央値
中央値とは、母集団から抽出した \(n\) 個の標本データを小さい順に並べて、前から数えて \(\frac{n}{2}\) 番目にある標本データの値のことです。またメディアンとも呼ばれます。
ただしこれは正確ではありません!!イメージ先行。
厳密には中央値は次のように定義されます。
- 標本の数 \(n\) が奇数のとき : \(\frac{n + 1}{2}\) 番目の標本データの値
- 標本の数 \(n\) が偶数のとき : \(\frac{n}{2}\) 番目と \(\frac{n}{2} + 1\) 番目の標本データの値を足して2で割った値
標本の数 \(n\) が奇数のときは \(n = 2k + 1\) を満たす整数 \(k\) を考えて \(k + 1\) 番目を求めれば \(\frac{n + 1}{2}\) が得られます。
\[ \underbrace{x_1, ~~ x_2 ~~ \cdots ~~ x_k}_k, ~~ \textcolor{red}{x_{k + 1}}, ~~ \underbrace{x_{k + 2}, ~~ x_{k + 3} ~~ \cdots ~~ x_n}_k \]
一方で、標本の数 \(n\) が偶数のときはちょうど真ん中に位置するデータが存在しないため、両隣の2つの標本データを用いて算出することになります。
\[ \underbrace{x_1, ~~ x_2 ~~ \cdots \textcolor{red}{x_k}}_k, ~~ \underbrace{\textcolor{red}{x_{k + 1}}, ~~ x_{k + 2} ~~ \cdots ~~ x_n}_k \]
また中央値は抽出した標本について与えられる統計量のため、標本の組が異なる場合はそれに伴って中央値も異なる値をとることに注意して下さい。
先の例について中央値を探してみましょう。
まずは年齢データを小さい順に並べ直して置く必要があります。
\[ \begin{align*} &11, ~ 16, ~ 18, ~ 18, ~ 18, ~ 20, ~ 20, \\[10pt] &20, ~ 23, ~ 24, ~ 24, ~ 24, ~ 25, ~ 25, \\[10pt] &26, ~ 27, ~ 28, ~ 29, ~ 29, ~ 34, ~ 34, \\[10pt] &36, ~ 37, ~ 37, ~ 37, ~ 38, ~ 38, ~ 39, \\[10pt] &40, ~ 42, ~ 43, ~ 46, ~ 48, ~ 49, ~ 54 \end{align*} \]
抽出した標本の数は35なので、17番目の標本データ「28」が中央値となります。
この様にして中央値を探すことができるのですが、標本の数が大きい場合 手作業で数え上げるのは非常に困難ではないでしょうか。
実は度数分布表を用いることで、厳密さは欠くものの簡単に中央値を求められる方法があるのですが…👇
改めて、中央値とは抽出して小さい順に並べた標本データのちょうど真ん中の値でしたが、これはちょうど累積度数が標本の数の半分になる箇所と理解できます。
また更に累積相対度数が50%になる箇所と言い換えることも可能です。
要するに、度数分布表に累積度数あるいは累積相対度数の列を設けていれば直ちに中央値が存在する階級を知ることができます。
階級には階級幅があるため、厳密な中央値を知ることができません。そこで対象の階級の階級値を中央値とみなします。
先の例で作成した度数分布表では、累積相対度数が50%を超えるのが20代の階級であるから、中央値は「25」であると判断します。
厳密に探し出した中央値は「28」でしたが、誤差の範囲で正しい結論が導き出せていると言えるでしょう。
最頻値
最頻値とは、母集団から抽出した \(n\) 個の標本データの中で最も多く出現した値を指します。またモードとも呼ばれます。
例に沿って探し出すと、「24」がその他の値よりも最も多く3回出現しており最頻値であることが分かります。 ( 「37」も3回出現しており同様に最頻値です。複数ある場合もあります。 )
\[ \begin{align*} &11, ~ 16, ~ 18, ~ 18, ~ 18, ~ 20, ~ 20, \\[10pt] &20, ~ 23, ~ 24, ~ 24, ~ 24, ~ 25, ~ 25, \\[10pt] &26, ~ 27, ~ 28, ~ 29, ~ 29, ~ 34, ~ 34, \\[10pt] &36, ~ 37, ~ 37, ~ 37, ~ 38, ~ 38, ~ 39, \\[10pt] &40, ~ 42, ~ 43, ~ 46, ~ 48, ~ 49, ~ 54 \end{align*} \]
中央値を探し出すときに発生し得る問題とおなじく、最頻値を探すときにも標本の数が多い場合 非常に大変になります。
そこで役に立つのは、やっぱり度数分布表。
度数分布表から最頻値を求めるときは、相対度数が最も大きい階級に着目すると良いです。
度数分布表から相対度数が最も大きい 40.00% が指す階級は20代です。
そして厳密性は欠いてしまいますが、その階級の階級値である「25」を最頻値とみなします。
厳密に探し出した「24」と比較しても、良い近似値を与えてくれることが分かります。
最頻値は度数分布表よりも、ヒストグラムを用いて探すほうが簡単です。
上記で説明したように、最も大きい度数の階級値を最頻値とみなすわけですから、グラフから探し出す方が簡単です。
平均値
標本平均について説明した以下の公式を利用して、平均値を求められます。
\[ \bar{x} = \frac{1}{n} \sum_{i = 1}^n x_i \]
標本平均 \(\bar{x}\) は、\(i\) 番目の標本データの値 \(x_i\) の総和から標本数 \(n\) で割った値として与えられます。
先の例について、年齢データの標本平均を式(1)から計算すると「30.8」となります。
この例では標本の数が \(n = 35\) であるために、なんとか電卓から計算することも可能ではあります。しかし標本の数 \(n\) がある程度の大きさをもつ場合は計算量が非常に多くなってしまいます。
そこで度数分布表を上手く用いた簡単な平均値の計算方法を考えます。
次に示すのは、一般化した度数分布表で、\(m\) 個の階級から構成されています。
階級 | 階級値 | 度数 |
---|---|---|
\(\left[ c_1 - \frac{\Delta c}{2}, ~ c_1 + \frac{\Delta c}{2} \right)\) | \(c_1\) | \(f_1\) |
\(\left[ c_2 - \frac{\Delta c}{2}, ~ c_2 + \frac{\Delta c}{2} \right)\) | \(c_2\) | \(f_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) |
\(\left[ c_m - \frac{\Delta c}{2}, ~ c_m + \frac{\Delta c}{2} \right)\) | \(c_m\) | \(f_m\) |
階級と度数の英語 class , frequency の頭文字を用いて、\(j\) 番目の階級値と度数をそれぞれ \(c_j\), \(f_j\) と表します。
階級は全て等間隔 \(\Delta c\) で与えており、階級値 \(c_j\) を中心に \(\frac{\Delta c}{2}\) の幅を持たせています。
平均値は、式(1)に示す通り標本 \(x_i\) をすべて足し合わせて標本の数で割ることで得られます。
しかし度数分布表からは標本データの真の値を読み取ることはできません。
ですが、標本 \(x_i\) の代わりに階級値 \(c_j\) に置き換えて それが \(f_j\) 個あると考えれば、\(j\) 番目の階級 \(\left[ c_j - \frac{\Delta c}{2}, ~ c_j + \frac{\Delta c}{2} \right)\) に含まれる標本の総和を概算でき、階級値と度数の積 \(c_j f_j\) で与えられます。
そして全ての階級 \((1 \leq j \leq m)\) について \(c_j f_j\) を足し合わせたものは標本 \(x_i\) の総和とみなせるはずです。
\[ \sum_{i = 1}^n x_i \simeq \sum_{j = 1}^m c_j f_j \]
したがって、式(2)を両辺 標本の数 \(n\) で割れば、度数分布表から平均値を求める公式が得られます。
\[ \bar{x} = \frac{1}{n} \sum_{i = 1}^n x_i \simeq \frac{1}{n} \sum_{j = 1}^m c_j f_j \]
先の例について、式(3)を用いて得られる平均値は「30.4」となります。初めに標本平均の式(1)から求めた「30.8」と比較しても大差ないことも分かります。
標準偏差
ヒストグラムから標準偏差を求めることも可能です。
まず標準偏差 \(s\) は次式から計算されます。
\[ s^2 = \frac{1}{n} \sum_{i = 1}^n (x_i - \bar{x})^2 \]
式(4)を階級値 \(c_j\) と度数 \(f_j\) を用いて書き換えていきます。
階級 \(\left[ c_j - \frac{\Delta c}{2}, ~ c_j + \frac{\Delta c}{2} \right)\) に含まれる標本 \(x_i ~ \left(1 \leq i \leq n\right)\) の個数は \(f_j\) であり、\(x_i\) は階級値 \(c_i\) に置き換えれば良いので
\[ s^2 \simeq \frac{1}{n} \sum_{j = 1}^m f_j (c_j - \bar{x})^2 \]
と記述できます。
先の例について、式(3)を用いて得られる標準偏差は「10.2」となります。式(4)から実測値を用いて求めた標準偏差は「10.5」となり、誤差の範囲一致していると言えます。
【サイト運営 : だいご】
今年で物理化学歴11年目になります。
大学入試2次数学でたった3割しか得点できなかったいわゆる数弱落ちこぼれ。それでも好きこそものの上手なれと言ったところか、学会で最優秀賞受賞したり首席卒業できてしまったので、役に立つ知識を当サイトに全て惜しみなく公開しようと思います。ブックマークをオススメ。