情報科学の基礎

統計学入門(1)
第4回
量的データの分布を調べる
--- ヒストグラム ---
データ分析の視点
全体のバラツキをみる
 層別してグループ間の特徴を比較
 変数間の関係をみる
 時点変化をみる

統計学入門(1)第4回
2
データ分析の視点

全体のバラツキをみる!


層別して、グループ間の特徴を比較!


水準化(コード化)、層別
変数間の関係をみる!


ヒストグラム・箱ヒゲ図、基礎統計量
多変量解析
時点変化をみる!

時系列分析法
統計学入門(1)第4回
3
データ分析

データの持つ情報を数値やグラフを
使って表現する
数値による記述(計量化)
グラフによる記述(視覚化)
統計学入門(1)第4回
4
分布(Distribution)
データのバラツキの形状 , もしくは、
様子を数量的に把握したもの
データが集中している範囲、バラツキの大きさ、
データの値や範囲を指定した場合、 そこに全体の
何%のデータが含まれるか・・・.
を教えてくれるもの
統計学入門(1)第4回
5
分布

データの値や範囲を指定した場合、



そこに全体の何%のデータが含まれるか・・・
値
範囲
・・・
・・・
質的データの場合
量的データの場合
統計学入門(1)第4回
6
度数分布表(質的データの場合)
(Frequency distribution table)
観測値の数
構成比率
データ値
成績
A
B
C
D
計
度数
10
16
10
4
40
統計学入門(1)第4回
相対度数
0.25 25%
0.40 40%
0.25 25%
0.10 10%
1
100%
7
度数分布表(量的データの場合)
(Frequency distribution table)
度数を積み上げて足した数
データ値
累積構成比率
区間
度数
累積度数
10-20
20-30
30-40
40-50
10
16
10
4
10
26
36
40
統計学入門(1)第4回
相対度数
累積
構成比率 相対度数
0.25
0.25
0.40
0.65
25
0.25 % 0.90
0.10
1.00
100
%
8
パレート図(Pareto chart)
度数分布表(質的データ)をグラフにしたもの
相対累積度数
(人)
20
相対累積曲線
100.00%
15
80.00%
60.00%
10
40.00%
5
20.00%
0
.00%
アジア
アメリカ
ヨーロッパ
オーストラリア
アフリカ
図3-1 パレート図(質的変数:海外旅行先)
統計学入門(1)第4回
度数の大きな順
9
ヒストグラム(Histogram)
度数分布表(量的データ)をグラフにしたもの
(
た
だ
し
、
区
間
が
等
間
隔
の
場
合
)
縦
軸
は
デ
ー
タ
の
度
数
(人)
30
20
10
0
50
55
60
65
70
75
80
85
90
95 100
成績
横軸がデータの値
図3-2 ヒストグラム (量的変数)
重 要 :
縦軸は起こりやすさを示す
統計学入門(1)第4回
10
練習問題1
問題1
次のような集計表が得られた。ヒストグラムを作成し、
それぞれ(a)-(d)の各点をおこりやすいと思われる順に並べ替えなさい。
範囲
0-100
100-200
200-300
300-400
400-500
度数
10
20
25
18
12
0
100
200
(a) 50, (b) 150, (c) 250 (d) 350
起こりやすい順: (c) , (b), (d), (a)
300
400
500
練習問題2
基準の区間幅を50とした場合
問題1
次のような集計表が得られた。ヒストグラムを作成し、
それぞれ(a)-(d)の各点をおこりやすいと思われる順に並べ替えなさい。
範囲
0-100
100-150
150-200
200-300
300-500
度数
22
20
25
30
32
高さ
11
20
25
15
8
0
100
(a) 100, (b) 180, (c) 250 (d) 400
200
300
400
起こりやすい順: (b) , (a), (c), (d)
注意:100は100以上の区間としたときの解答
500
配布資料
統計学入門(1)第4回
13