第3回 度数分布表とヒストグラム - So-net

統計学
第3回:度数分布表とヒストグラム
今日の授業
 アナウンス
 前回の小テストの解説
 度数分布表
 ヒストグラム
アナウンス
 以下のWebサイトに過去の授業資料をアップ
ロードしていきます
◦ http://www006.upp.so-net.ne.jp/ito_h/material.html
◦ ファイルのパスワード:statistics
前回の小テストの解説
前回の小テスト
 以下の変数の尺度水準とその理由について説
明せよ。
1.
2.
3.
4.
5.
足のサイズ
職業
西暦年
速度
大学の各科目の成績
模範解答例
 足のサイズ
◦ 比率尺度
◦ 22センチと23センチの差も、23センチと24センチの差も
同じ1センチであり、等間隔性が保たれている
◦ 原点(0センチ)が「大きさがない」という明確な意味を
持っており、30センチは15センチの2倍の大きさであると
言えるため
模範解答例
 職業
◦ 名義尺度
◦ 職業の間に大小関係は存在せず、単に種類を分けただ
けの変数であるため
模範解答例
 西暦年
◦ 間隔尺度
◦ 西暦1990年と1991年の差も、1991年と1992年の差も、
同じ1年であり、等間隔性が保たれている
◦ 原点(西暦0年)はキリストが誕生した(とされる)年にす
ぎず、「何もない」ことを表していない
◦ 西暦2000年が西暦1000年の2倍であるという表現が意
味を持たない
模範解答例
 速度
◦ 比率尺度
◦ 時速30キロと40キロの差も、40キロと50キロの差も、同
じ10キロであり、等間隔性が保たれている
◦ 原点は「速さがない=物体が停止している」という明確
な意味を持っており、時速40キロは20キロの2倍の速さ
であると言えるため
模範解答例
 大学の各科目の成績
◦ 順序尺度
◦ 成績の良好さという一種の大小関係(程度)を表してい
る
◦ B(良)とC(可)、C(可)とD(不可)の間の間隔は、必ずし
も等間隔であるとは言えない
◦ (したがって、本来、合計や平均値を算出することはでき
ないが、GPAなどの成績評価方式では便宜的に平均値
を算出することがある)
尺度水準判断のポイント
 人間の主観的な判断をともなう変数は、厳密な
意味での等間隔性が保たれない
◦ アンケート項目、成績判定など
 単位がついている変数は、基本的に等間隔性
が保たれている
◦ kg、cm、km/h、℃など
尺度水準判断のポイント
 比率尺度の条件である「絶対的な原点」とは、
「何もない」ことを表すもの
◦ 0kgは重さがない、0cmは大きさがない、0km/hは速さが
ないことを意味するが、0℃は温度がないことを意味しな
い(現にマイナスの温度が存在する)
度数分布表
データ
 小学6年生男子80名の身長
151
147
145
147
140
143
147
130
151
164
154
152
156
133
139
140
139
160
140
148
149
136
153
140
132
156
155
162
150
138
151
135
135
140
154
137
149
164
148
153
150
139
137
140
140
134
152
146
145
145
147
155
136
149
155
165
146
139
137
144
141
147
154
143
154
156
155
142
134
151
151
148
139
158
147
138
140
139
154
158
記述統計の手法
変数の種類
図表
度数分布表
単一の変数
ヒストグラム
質的×質的 クロス集計表
質的×量的
棒グラフ
量的×量的
散布図
統計量
代表値(平均値など)
散布度(標準偏差など)
連関係数
効果量d
点双列相関係数
相関係数
度数分布表
身長
130~134
135~139
140~144
145~149
150~154
155~159
160~164
合計
度数
5
15
13
17
16
9
5
80
相対度数
6.3%
18.8%
16.3%
21.3%
20.0%
11.3%
6.3%
100.0%
度数分布表
 作成の手順
1. 最小値と最大値を求める
◦
データの中で最も小さい値と大きい値を探す
2. 1をもとに階級の幅を決める
◦
階級の数が5~10程度になるように
3. 各階級の度数をカウントする
◦
データを一つずつたどりながら、「正」の字を書いて数える
4. 度数の合計を算出する
5. 相対度数を算出する
◦
度数を合計で割って100をかける
データ
 小学6年生男子80名の体重
43
43
46
34
34
31
37
29
43
51
43
51
48
28
33
30
28
52
31
37
35
29
50
46
26
45
41
43
37
30
42
28
33
27
45
28
48
52
40
37
30
30
31
37
35
28
40
30
29
33
39
73
36
47
39
57
36
30
29
35
32
41
40
30
40
49
55
37
28
38
39
37
30
51
41
35
35
35
59
54
ヒストグラム
ヒストグラム
20
15
度 10
数
5
0
身長
ヒストグラム
 作成の手順
1. 横軸に各階級の範囲を等間隔に並べて記載
2. その上に、各階級の度数を縦軸とする棒グラフを描く
◦ 連続量を便宜的に複数の階級に分けているだけなので、棒グラ
フは間隔を空けずに配置
図表にまとめることの意味
 データを図表にまとめることで、一定の情報が失
われる
◦ 各階級に属する個人の具体的な身長の数値はわから
ない
 一方で、データ全体の特徴をとらえやすくなって
いる
◦ 身長は130~165cmの範囲にある
◦ のっぺりと均等に分布しているのではなく、中央付近
(135~154あたり)に集中している
◦ 分布はおおむね左右対称の形状をしている
まとめ
 生のデータは情報量が多すぎるために、そのま
までは全体的な特徴を把握することが難しい
 データを要約する記述統計には、図表を作成す
る方法と統計量を求める方法の2種類がある
 度数分布表やヒストグラムは単一の変数の分布
を把握するために使用される
 データを縮約することで、細部の情報が失われ
るが、全体的な特徴がとらえやすくなる
データ
 中学1年生男子60名の身長
159
154
143
163
141
146
155
160
150
140
160
153
162
130
160
147
158
145
155
142
164
158
150
159
162
148
176
149
145
161
173
142
170
170
155
147
153
160
160
160
160
150
146
158
144
165
150
160
155
160
139
144
153
150
156
138
162
160
151
170
小テスト
小テスト
 中学1年生男子60名の身長データについて
1. 度数分布表を作成せよ
2. ヒストグラムを作成せよ