システム管理概論 -データの収集か解析

データ解析基礎
2. 度数分布と特性値
keyword
データの要約
度数分布表,ヒストグラム
分布の中心を表す基本統計量
平均,最頻値,中央値
分布のばらつきを表す統計量
分散,標準偏差
1
統計データの構造-1
 データ解析の目的・・・
 具体的な対象(母集団)についての調査結果(標
本をどう加工・処理し,有益な情報を引き出すか
である.
 加工・処理するための調査結果として,データ(観
測データ)というものがある.
 母集団から無作為抽出された個体のことを標本と
いい,その個数を標本の大きさまたは標本サイズ
と呼ぶ.
 “標本=観測データ”と読み替えても良い
2
統計データの構造-2
 データ解析では調査項目のことを変量と呼ぶ.
 質的変量
 名義尺度:名前,性別
 順序尺度:好きなもの順位など
 量的変量(連続的変量)
 間隔尺度:温度,成績など
 比例尺度:距離,重量,金額など
3
統計データの構造-3:名義尺度
 対象者特性を便宜的に数字で表現
 性別:男性=1,女性=2
 好きな動物:犬=1,猫=2,ウサギ=3
 統計的処理
 度数のカウント
例)男性100人,女性85人
名義尺度の数字は,加減乗除算ができない
4
統計データの構造-4:順位尺度
 順位やベスト3,ワースト3などで表現
 行きたい国から順に3つ書いてください.
 次のタレントを好きな順に3名書いてください.
 統計的処理
 例)順位別の度数
1位 ドイツ20名
2位 中国10名
3位 オランダ8名
5
統計データの構造-5:間隔尺度
 評価などの質問(等間隔の順序尺度)で使われる
 満足度の調査
非常に満足
やや満足
どちらでもない やや不満
非常に不満
 統計的処理
 度数のカウント
 得点化し,換算
 平均などの統計量を計算
6
統計データの構造-6:比例尺度
 数や量などを質問
 年収,年齢
 年間売上高,来場者数
 統計的処理
 カテゴリー化して度数を計算
 平均などの統計量の計算
7
度数分布表1:質的データ例
ID
1
2
3
4
5
6
7
8
・・・
793
頭部損傷 ヘルメット着用
有り
着用
無し
着用
無し
非着用
有り
着用
無し
着用
有り
非着用
有り
非着用
無し
着用
・・・
・・・・
有り
非着用
応答パターン
頭部損傷:(有り,無し)
ヘルメット着用:
(着用,非着用)
8
度数分布表1:質的な観測データの要約
データで各々の値の個数(度数)を求める.
度数を表形式にしたものが度数分布表である
頭部損傷
有
無
計
ヘルッメ着用の有無
着用
非着用
17
218
130
428
147
646
計
235
558
793
9
度数分布表2:量的な観測データの要約
データ集計 ⇔
度数分布表の作成
ID
1
2
3
4
5
・・・
56
57
58
59
AGE
53
43
33
45
46
・・・
48
52
62
48
SAL
145
621
262
208
362
・・・
388
250
396
572
度数分布表(区間数10)
区間(以上-未満)
- 100
100 - 200
200 - 300
300 - 400
400 - 500
500 - 600
600 - 700
700 - 800
800 - 900
900 -
頻度
2
5
18
13
4
6
3
4
3
1
10
度数分布表3:度数分布表の作成
 度数分布表作成手順
1. データ項目を適当な階級に分ける
2. 各階級に入る度数を数える
更に必要ならば,
3. 相対度数,累積度数,累積相対度数を計算
 相対度数は,データの大きさが異なる複数の
データの分布の比較に有効
11
度数分布表4:用語の復習
階級:
 標本値が取り得る値を適当な区間に分けたもの
階級値:
 階級を代表する値.通常階級の上限と下限の中間値
度数:
 階級に入る標本値の個数
相対度数:
 度数を全標本値の個数で割って,比率にしたもの
累積度数,累積相対度数:
 度数,相対度数を下の階級から順に足したもの
12
度数分布表5:ヒストグラムの作成
 ヒストグラム:
グラフの分布の形を見るために,度数分布表をグ
ラフにしたもの
 度数分布表を作成して,ヒストグラムを描くことに
よってデータの分布を知ることが出来る.
↓
 データ解析のはじめの一歩!!
13
度数分布表6:度数分布表の読み方
区間(以上-未満)
- 100
100 - 200
200 - 300
300 - 400
400 - 500
500 - 600
600 - 700
700 - 800
800 - 900
900 -
度数
2
5
18
13
4
6
3
4
3
1
相対度数 累積度数 累積相対度数
0.03
2
0.03
0.08
7
0.12
0.31
25
0.42
0.22
38
0.64
0.07
42
0.71
0.10
48
0.81
0.05
51
0.86
0.07
55
0.93
0.05
58
0.98
0.02
59
1.00
データ区間:
300以上400未満
階級値:
350=(300+400)/2
度数:
データ区間に13人
相対度数:
9人は全体の22%
累積度数:
最初から数えてこの
データ区間までに38人
累積相対度数:
最初から数えてこの
データ区間までの人数は
全体の64%
14
度数分布表7:ヒストグラムの作成
ヒストグラム
度数分布表
区間(以上-未満)
- 100
100 - 200
200 - 300
300 - 400
400 - 500
500 - 600
600 - 700
700 - 800
800 - 900
900 -
頻度
2
5
18
13
4
6
3
4
3
1
20
18
16
14
12
10
8
6
4
2
0
- 100 - 200 - 300 - 400 - 500 - 600 - 700 - 800 - 900 100 200 300 400 500 600 700 800 900
15
例題:得点データ
学籍番号
I05V001
I05V002
I05V003
I05V004
I05V005
I05V006
I05V007
I05V008
I05V009
I05V010
I05V011
I05V012
I05V013
I05V014
I05V015
I05V016
I05V017
I05V018
I05V019
I05V020
I05V021
I05V022
I05V023
I05V024
I05V025
得点
67
56
44
51
42
41
62
48
50
40
49
61
79
60
46
66
68
68
72
48
62
48
57
42
40
性別
女子
男子
男子
男子
男子
男子
女子
女子
男子
女子
女子
男子
女子
女子
男子
女子
女子
女子
女子
女子
女子
男子
男子
男子
男子
学籍番号
I05V026
I05V027
I05V028
I05V029
I05V030
I05V031
I05V032
I05V033
I05V034
I05V035
I05V036
I05V037
I05V038
I05V039
I05V040
I05V041
I05V042
I05V043
I05V044
I05V045
I05V046
I05V047
I05V048
I05V049
I05V050
得点
64
49
56
77
61
54
57
62
65
55
55
42
51
47
48
52
60
64
45
40
60
62
36
60
39
性別
女子
男子
男子
男子
女子
男子
男子
女子
女子
男子
男子
女子
男子
男子
男子
女子
男子
男子
男子
男子
女子
女子
男子
女子
男子
学籍番号
I05V061
I05V062
I05V063
I05V064
I05V065
I05V066
I05V067
I05V068
I05V069
I05V070
I05V071
I05V072
I05V073
I05V074
得点
54
31
51
59
58
57
51
71
60
62
58
42
58
52
性別
女子
男子
女子
女子
女子
男子
女子
女子
男子
女子
男子
男子
女子
男子
16
例題:度数分布表
度数分布表(全体)
区間 度数 相対頻度
6
0.08
31~40
0.31
41~50 23
0.35
51~60 26
0.20
61~70 15
4
0.05
71~80
度数分布表(男子)
区間 度数 相対頻度
5
0.12
31~40
0.41
41~50 17
0.37
51~60 15
3
0.07
61~70
1
0.02
71~80
度数分布表(女子)
区間 度数 相対頻度
1
0.03
31~40
6
0.18
41~50
0.33
51~60 11
0.36
61~70 12
3
0.09
71~80
17
例題:ヒストグラム
ヒストグラム:男子
データのまとめ方によって,異なる解釈ができ
る場合がある.
18
16
14
12
10
8
ヒストグラム:全体
6
30
4
2
25
0
31~40
20
41~50
51~60
61~70
71~80
15
ヒストグラム:女子
14
10
12
5
10
0
8
31~40
41~50
51~60
61~70
71~80
6
4
2
0
31~40
41~50
51~60
61~70
71~80
18
分布の特性値
 度数分布やヒストグラムを見ることで分布の形
状を知るができる.
 数値で分布の概要を把握するための指標として,
 代表値:データの中心の位置
 散布度:データの散らばり具合
がある.
 2つの指標を総称して「分布の特性値」という.
19
分布の特性値:代表値
データの分布がどのような値を中心に散らばっ
ているか明らかにする.
平均:
 データのすべての値を足し合わせて,データ数で
割ったもの
最頻値:
 分布の最も高い場所
中央値(メジアン):
 データの中央にくる値のこと
20
分布の特性値:代表値
2
1
0
density
3
中央値
0.0
0.2
最頻値
0.4
0.6
x
平均値
0.8
1.0
最頻値
21
日本全国の平均世帯収入は?
渡辺久哲「調査データにだまされない法」創元社より
 総務庁の統計局の家計調査によると,平成8年度
の全国平均の世帯年収は743万円であった.
 全国の一般世帯およそ8000標本について収入と支
出についての調査
 この743万円という世帯年収を聞いての感想は,
「ふつうの家はそんなに稼いでいるのか!!」
 例えば,ボーナスを年間3ヶ月分支給すると仮定そ
れば,1ヶ月の収入は約50万円となる.
22
日本全国の平均世帯収入は?
90
平均年収が743万円となった理由
1000万円以上稼ぐ高所得者が
その平均を引き上げていたため
80
70
60
50
40
30
20
10
0
-200
200 300
300 400
400 500
500 600
600 700
700 800
800 900
900 - 1000 1000
単位:万円
23
分布の特性値:散布度
散布度:分散(標準偏差)
 次の2つのデータの平均を考える.
 平均値は同じである
 データのもつ意味が全く違う
 データを要約する値としては不十分?
 データの散らばりを表す量も表示する
24
分布の特性値:散布度
例)散布度:分散(標準偏差)
 3クラスで,統計学の試験をし,各クラスで30人ずつ選び
平均点を計算すると50点であった.このデータから,ヒスト
グラムを作成したところ以下のような結果であった.この
平均点だけで,データを解釈しても良いか.
クラスCのヒストグラム
クラスBのヒストグラム
クラスAのヒストグラム
4.5
8
8
7
7
4
6
6
3.5
5
5
3
2.5
4
4
3
3
2
2
1
1
1
0.5
0
0
11 ‐ 21 ‐ 31 ‐ 41 ‐ 51 ‐ 61 ‐ 71 ‐ 81 ‐
20
30
40
50
60
70
80
90
2
1.5
0
11 ‐ 21 ‐ 31 ‐ 41 ‐ 51 ‐ 61 ‐ 71 ‐ 81 ‐
20
30
40
50
60
70
80
90
11 ‐ 21 ‐ 31 ‐ 41 ‐ 51 ‐ 61 ‐ 71 ‐ 81 ‐
20
30
40
50
60
70
80
90
25
データの散らばりを表す量
散布度:分散(標準偏差)
 分散:
 データの散らばりを表現する量
 データの散らばり具合が大きいほど,分散の値
は大きくなる.
 3つのクラスの分散の大きさは,
 クラスA<クラスB<クラスC
 標準偏差:分散を平方根したもの
26
データの散らばりを表す量
0.4
散布度:分散(標準偏差)
分布1
0.2
0.1
分布2
0.0
density
0.3
分布1の平均 = 分布2の平均
分布1の分散 < 分布2の分散
-4
-2
0
2
4
x
27
平均,分散の計算式
n個の観測データx  ( x1 , x2 ,..., xn )が得られたする.
このとき,この観測データから標本平均と標本分散
は以下の式で計算される.
1
標本平均 x 
n
n
 xi
i 1
n
1
標本分散 s 
n
2

1
( xi x ) 
n
i 1
2
n

xi2  x 2
i 1
28
平均値の意味1
以下の10人の学生の得点を表した図
100
90
得点と平均点との距離
80
70
平均点
60
点
50
数
40
30
20
10
0
0
1
2
3
4
5
番号
6
7
8
9
10
番号
1
2
3
4
5
6
7
8
9
10
得点
80
60
20
50
100
40
70
30
75
60
29
平均値の意味2
10人の得点をx  ( x1 ,..., x10 ) と書く.このとき,ある値  と得点の距離を
di  ( xi   ) 2
(i  1,...,10)
で定義すると,その距離の総和 y は

1
y  di  ( xi   )  10   

10
i 1
i 1

10
10


2
このとき,y の最小値は,
1

10
10
 xi  x

xi 

i 1

10

2
この項が0のとき,
yは最小になる

1
 10 
 10

10

i 1
xi2
 1

 10

2

xi  
 
i 1 

10

x の標本分散
i 1
であるので,平均値は観測値との距離を最小にする値となる.
30
例題1:平均値の意味
 次の度数分布表とヒストグラムはあるテスト結果をまとめた
ものである.わかることを述べなさい.
度数分布表
区間
0 - 10
11 - 20
21 - 30
31 - 40
41 - 50
51 - 60
61 - 70
71 - 80
81 - 90
91 - 100
度数
1
12
28
26
14
5
21
42
24
7
ヒストグラム
45
40
35
30
25
20
15
10
5
0
0 - 11 - 21 - 31 - 41 - 51 - 61 - 71 - 81 - 91 10 20 30 40 50 60 70 80 90 100
31
例題2:基本統計量
 以下のデータは,10日間にわたる2つのストアの1日
の売り上げ高(単位:万円)である.どちらのお店がよ
り安定しているか答えなさい.
日
平野ストア
松原マート
1
50
30
2
55
90
3
60
50
4
65
70
5
70
35
6
55
85
7
60
30
8
60
60
9
60
80
10
60
75
32
例題2:折れ線グラフ
100
平野ストア
90
松原マート
80
70
60
50
40
30
平野ストア
松原マート
20
10
平均 分散
59.5 30.28
60.5 530.28
標準偏差
5.50
23.03
0
1
2
3
4
5
6
7
8
9
10 (日)
33
例題3:基本統計量
 以下のデータは,同じ科目を講義中心と演習中心と
いう2つの異なる講義方法でおこない,クラスA(講義
中心)とクラスB(実習中心)からそれぞれ20名を選び,
試験をおこなった結果である.2つのクラスを比較しな
さい.
No
講義中心A
実習中心B
No
講義中心A
実習中心B
1
66
40
11
50
39
2
55
23
12
52
50
3
48
72
13
50
38
4
30
55
14
47
42
5
52
33
15
57
85
6
61
77
16
47
68
7
56
32
17
56
45
8
75
15
18
51
98
9
50
51
19
40
64
10
35
29
20
30
36
34
例題3:基本統計量
基本統計量
講義中心A
実習中心B
平均
50.4
49.6
分散
121.09
470.67
標準偏差
11.0
21.7
度数分布表
区間
0 - 20
21 - 30
31 - 40
41 - 50
51 - 60
61 - 70
71 - 80
81 - 90
91 - 100
A
0
2
2
6
7
2
1
0
0
B
1
2
6
3
2
2
2
1
1
35
例題3:基本統計量
8
A
7
B
6
5
4
3
2
1
0
0 - 20
21 - 30 31 - 40 41 - 50 51 - 60 61 - 70 71 - 80 81 - 90 91 - 100
36
まとめ
データからの情報抽出:
 データの要約
 度数分布表,ヒストグラム
 分布の中心を表す特性値
 代表値:平均,最頻値,中央値
 分布のばらつきを表す特性値
 散布度:分散,標準偏差
37