第2章 データ分析の進め方

データ分析入門(6)
第6章 データのばらつき
廣野元久
1
本章の概要
データのばらつき方の特徴を探る
グラフによる視覚的に提示する方法
データを加工して数量的に提示する方法
JMPを使って、基本操作の学習
量的データの要約と考察
比例尺度、間隔尺度
質的データの要約と考察
順序尺度、名義尺度
第6章 データのばらつき
廣野元久 &高橋行雄
2/43
1.データの特徴を知る方法
データの特徴は、そのばらつき方にある
データのばらつき方(密度)を(確率的に)モデル
化
(標本)分布 (Sample) Distribution
ばらつき方を研究する方法
グラフを描画して比較・観察する
データを加工して特性値化(基本統計量)する
グラフと特性値との組み合わせで客観性を
卵(黄身)とサラダ油を組合せて美味しいマヨネーズができる
グラフ
特性値
レポート
第6章 データのばらつき
廣野元久 &高橋行雄
3/43
2.データの属性(1)
2.1データの属性
データはどの尺度で得られたものか
比例尺度、間隔尺度 Continuous
順序尺度
Ordinal
名義尺度
Nominal
データは文字型か数字型か
比例尺度、間隔尺度は Numeric
順序尺度は
Numeric(Character)
名義尺度は
Character、Numeric
ビッグクラス.jmpを開き
データタイプ、モデリングタイプを確認
第6章 データのばらつき
廣野元久 &高橋行雄
4/43
2.データの属性(2)
2.2 データ属性の指定(1)
ショートカットをクリックしてJMPを起動
ファイルから開くをクリック あるいは、
ここをクリック
第6章 データのばらつき
廣野元久 &高橋行雄
5/43
2.データの属性(3)
2.2 データ属性の指定(2)
1.ここをクリックして
JMP のフォルダに
たどり着け
2.ここをクリック
3.開くボタンをクリック
第6章 データのばらつき
廣野元久 &高橋行雄
6/43
2.データの属性(4)
2.2 データ属性の指定(3)
1.ビッグクラス
を選択
2.開くをクリック
第6章 データのばらつき
廣野元久 &高橋行雄
7/43
2.データの属性(5)
2.2 データ属性の指定(4)
データ
の尺度
ビッグクラス.jmpがロード
セルの中心を左ダブルクリック
第6章 データのばらつき
廣野元久 &高橋行雄
8/43
2.データの属性(6)
2.2 データ属性の指定(5)
変量名
文字型か
数字型か
を指定
データの尺度を
指定
なぜ、指定が重要か
JMP INは、尺度と変数の役割を指定しておくと、正しい
分析手法で分析結果を表示してくれる優れもの
第6章 データのばらつき
廣野元久 &高橋行雄
9/43
3.量的データのヒストグラム
着眼点
中心的な位置
分布の広がり
分布のゆがみ
第6章 データのばらつき
廣野元久 &高橋行雄
10/43
3.1 ヒストグラムの描き方(1)
1.分析メニューから
1変量の分布を
クリック
第6章 データのばらつき
廣野元久 &高橋行雄
11/43
3.1 ヒストグラムの描き方(2)
1.変量:身長(インチ)をクリック(色が反転)
2.Y 列をクリック
3.OKボタンをクリック
第6章 データのばらつき
廣野元久 &高橋行雄
12/43
3.1 ヒストグラムの描き方(3)
ヒストグラムが描画される
練習問題(P84)
分布の中心位置は?
分布の散らばっている範囲は?
分布の散らばり方は?
分布はゆがんでいるか?
第6章 データのばらつき
廣野元久 &高橋行雄
13/43
3.2 グラフサイズの調節
1.グラフ内の境界
位置にマウスポインタを
移動
2.ポインタ種類が変わったことを
確認
3.クリック&ドラッグして
大きさを調整する
第6章 データのばらつき
廣野元久 &高橋行雄
14/43
3.3 軸スケールの調整(1)
1.縦軸をダブルクリック
軸の最大値
2.Y 軸の設定が表示される
軸の最小値
細かい目盛り幅
第6章 データのばらつき
廣野元久 &高橋行雄
目盛り幅
15/43
3.3 軸スケールの調整(2)
1.手のマークをクリック
2.マウスポインタが手になったことを確認
3.手を左右に動かすと
ヒストグラムの柱の幅が
変わる
4.上下に動かすと境界値
が変わる
第6章 データのばらつき
廣野元久 &高橋行雄
16/43
3.4 特定のバーに入るケースの
表示とはずれ値の特定化(1)
1.元のポインタに戻す
2.ヒストグラムの適当な
柱をクリック
3.その柱の範囲内に
含まれるデータが、
データテーブルで反転
複数個の柱を指定する場合はキーボードのShiftを押して指定
第6章 データのばらつき
廣野元久 &高橋行雄
17/43
3.4 特定のバーに入るケースの
表示とはずれ値の特定化(2)
ヒストグラム
箱ひげ図
箱ひげ図:
Tukey(1977) が考案
・データが密な範囲が箱で
分布としてデータが得られても
よい範囲をひげ(線)で表示
・点で表示されているのが
外れ値の候補
外れ値の処理
外れ値は同じグループから得られた
データとして疑わしいケース
ケースの素性を調べて、必要(同じグループでないと判断した)
なら分析から除外する
第6章 データのばらつき
廣野元久 &高橋行雄
18/43
3.4 特定のバーに入るケースの
表示とはずれ値の特定化(3)
1.データテーブルで、分析から除外するケースをクリックして
反転させる(グラフで指定させてもよい)
2.メニューの行から除外する / 除外しないを
あるいは,データテーブルパネルの▼を
クリックして、2つのケースを分析から除外
ケースの除外/追加
ケースの非表示/表示
ラベルの表示/非表示
色の変更
マーカーの追加
第6章 データのばらつき
廣野元久 &高橋行雄
19/43
3.4 特定のバーに入るケースの
表示とはずれ値の特定化(4)
すべてのケースの分析
2つの外れ値を分析から除外
ˆê •Ï— Ê‚Ì•ª•z
g ’·(ƒCƒ“ƒ`)

ˆê •Ï— Ê‚Ì•ª•z
g ’·(ƒCƒ“ƒ`)

70
70
65
65
60
60
55
55
50
ƒ‚
[ ƒ
ƒ“ƒg
•½ ‹Ï
62.55
•W
€•Î
·
4.2423385
•½ ‹Ï‚Ì•W
€Œë
·
0.6707726
•½ ‹Ï‚̏
㑤 95%
M—ŠŒ ÀŠE 63.906766
•½ ‹Ï‚̉º ‘¤ 95%
M—ŠŒ ÀŠE
61.193234
N
40
ƒ‚
[ ƒ
ƒ“ƒg
•½ ‹Ï
63.131579
•W
€•Î
·
3.4654359
•½ ‹Ï‚Ì•W
€Œë
·
0.5621679
•½ ‹Ï‚̏
㑤 95%
M—ŠŒ ÀŠE 64.270639
•½ ‹Ï‚̉º ‘¤ 95%
M—ŠŒ ÀŠE
61.992519
N
38
ヒストグラムと箱ひげ図が変わった
第6章 データのばらつき
廣野元久 &高橋行雄
20/43
3.5 ラベルの表示
ラベルあり/ラベルなしをクリックして、2つ
のケースのラベルをグラフに追加
ˆê •Ï—Ê‚Ì•ª•z
g
’·(ƒCƒ“ƒ`)
70
65
60
55
LILLIE
ROBERT
50
第6章 データのばらつき
廣野元久 &高橋行雄
21/43
4.量的データの分布の特性値
ヒストグラムの下のテーブルは、
分布の特性値(基本統計量)
4.1 中央値と分位数
4.2 標本平均と標本標準偏差、
標本分散
第6章 データのばらつき
廣野元久 &高橋行雄
22/43
4.1 中央値と分位数(1)
1)得られたデータを小さい方から順に並べ替える
(これを昇順に並べ替えるという)
2)ちょうど真中の数字が中央値
3)小さい方からP%にあたる値をp%分位数
100%分位数:最大値
75%分位数: (上側)四分位数
50%分位数: 中央値(メジアン)
25%分位数: (下側)四分位数
0%分位数:最小値
箱ひげ図の箱
箱ひげ図の箱が小さいほど、中心付近にデータが集中
第6章 データのばらつき
廣野元久 &高橋行雄
23/43
4.1 中央値と分位数(2)
例 0.2,3,-4.5,-2.7,1.4(奇数個)
昇順:-4.5,-2.7,0.2,1.4,3
中央値は0.2
例 0.2,3,-4.5,-2.7(偶数個)
昇順:-4.5,-2.7,0.2,3
中央値は(-2.7+0.2)/2=-1.25
第6章 データのばらつき
廣野元久 &高橋行雄
24/43
4.2 標本平均と標本標準偏差、
標本分散(1)
標本平均
x  ( x1  x2 
 xn ) / n
データを全て足して、データの個数で割った値
値
青と赤の線
の長さが等し
い
標本平均
#1#2#3#4#5
#6#7#8#9
第6章 データのばらつき
廣野元久 &高橋行雄
25/43
4.2 標本平均と標本標準偏差、
標本分散(2)
標本標準偏差
値
データが平均値から平均的にどれだけ離れて
いるかを示す値
標準偏差:
青と赤の長さ
(正の値)の平均的な
長さ
標本平均
#1#2#3#4#5
標本分散:
標本標準偏差の2乗
#6#7#8#9
第6章 データのばらつき
廣野元久 &高橋行雄
26/43
4.2 標本平均と標本標準偏差、
標本分散(3)
平均が同じデータ
(a)
(b)
3
5
2
(c)
3
4
5
2
1
2
3
5
3
5
6
4
平均も範囲も同じデータ
(a)
1
6
4
n
6
7
1
2
3
5
6
7
4
V 
平均は同じだが分散が異なるデータ
(a)
(b)
2
3
5
6
7
1
2
3
5
4
6
2
(
x

x
)
 i
i 1
7
4
(-3)2=9
(-3)2=9
n
2
(2) =4
(1)2=1
(3)2=9
(3)2=9
分散
標準偏差
n 1
標準偏差
(-2)2=4
(-1)2=1
6.67
2.58
標本分散
(b)
4
1
7
s V 
2
(
x

x
)
 i
i 1
n 1
6.67
2.58
第6章 データのばらつき
廣野元久 &高橋行雄
27/43
4.3 中央値と標本平均の使い分け
標本平均
統計的取り扱いが簡単(理論が扱いやすい)
外れ値の影響を受けやすい
工業データや身長、体重などの自然界のデータ
中央値
外れ値の影響を受けにくい
統計的取り扱いが難しい(理論が難解)
プロ選手(野球、サッカー、相撲など)の年棒の代表値
中央値
人数
標本平均
年棒
第6章 データのばらつき
廣野元久 &高橋行雄
28/43
5 箱ひげ図と
標準出力データの見方
5.1 箱ひげ図
ˆê •Ï—Ê‚Ì•ª•z
g ’·(ƒCƒ“ƒ`)

四分位数
70
中央値
65
標本平均
60
55
LILLIE
ROBERT
50
外れ値
第6章 データのばらつき
廣野元久 &高橋行雄
29/43
5.2 標準出力データ
分位数( Quantiles )
最大値
上側四分位数
中央値
下側四分位数
最小値
モーメント( Moments )
標本平均(Mean)
標本標準偏差(Std Dev.)
標本数(N)
第6章 データのばらつき
廣野元久 &高橋行雄
30/43
6.分布の形
6.1 分布のゆがみと正規分布
正規分布Normal Distribution
左右対称で、中央部分の頻度が多い分布
中央部分から離れれば離れるほど、出現率は小さい
正規分布は、
0.9
平均値と標準偏差 0.8
0.7
だけで形が決まる 0.6
μ=0,σ=1
μ=0,σ=0.5
μ=0,σ=2
0.5
0.4
0.3
0.2
0.1
0
-5
-3
第6章 データのばらつき
廣野元久 &高橋行雄
-1
1
3
5
31/43
6.1 分布のゆがみと正規分布(1)
左に
ゆがん
だ
分布
右に
ゆがん
だ
分布
第6章 データのばらつき
廣野元久 &高橋行雄
32/43
6.1 分布のゆがみと正規分布(2)
2.水平レイアウトになる
g ’·(ƒCƒ“ ƒ`)

ROBERT
LILLIE
50
55
60
65
³ ‹K(62.55,4.24234)

1.▼のマークを
クリックして
横に並べるを選ぶ
70
•ªˆÊ“_
100.0%
99.5%
97.5%
90.0%
75.0%
50.0% ’†
25.0%
10.0%
2.5%
0.5%
0.0%
4.正規分布の曲線
が追加される
3.正規を選ぶ
第6章 データのばらつき
廣野元久 &高橋行雄
33/43
6.1 分布のゆがみと正規分布(3)
1.今度は正規分位点プロットを選ぶ
g ’ ·(ƒCƒ“ ƒ`)

. 99
. 95
. 90
. 75
. 50
2
1
0
. 25
LILLIE
ROBERT
. 10
. 05
. 01
-1
-2
-3
ROBERT
LILLIE
2.正規分位点プロットが描画される
第6章 データのばらつき
廣野元久 &高橋行雄
•ªˆÊ“_
100.0%
Å‘

99.5%
97.5%
90.0%
75.0%
4•ª
50.0% ’†‰›’l(ƒ
ƒf ƒB
25.0%
4•ª
10.0%
2.5%
0.5%
点が直線的
0.0%
ŏ

¬
³‹K•ªˆÊ“_ƒvƒ
ƒbƒg
3
傾向である
と
正規分布で
近似できる
34/43
6.2 単峰型と双峰型(1)
単峰型の分布とは、データの値が1箇所に
集中している傾向の分布
双峰型の分布とは、データの値が2箇所に
集中している傾向の分布
出生率・死亡率のデータで確認しよう
第6章 データのばらつき
廣野元久 &高橋行雄
35/43
6.2 単峰型と双峰型(2)
1.出生率・死亡率.jmpをロードする
ここをクリック
サンプルデータから
出生率・死亡率.JMPを
ロードする
2.分析に1変量の分布を選ぶ
3.変量の租出生率,租死亡率を
分析する
ここをクリック
クリックしたまま 2変量を選ぶ
あるいはCtrlを押したまま2変量を選ぶ
第6章 データのばらつき
廣野元久 &高橋行雄
36/43
6.2 単峰型と双峰型(3)
1.比較しずらので、
水平レイアウトにする
1変量の分布の▼を
クリックし積み重ねて
表示をクリック
ˆê •Ï —Ê‚Ì• ª•z
‘e 
o
¶—¦
10
20
30
40
50
•ªˆÊ“_
100.0%
99.5%
97.5%
90.0%
75.0%
50.0% ’†‰
25.0%
10.0%
2.5%
0.5%
0.0%
‘eŽ €–S—¦
2.スケールの統一をクリック
3.2つのヒストグラムの軸の
スケールが同じ区間になる
第6章 データのばらつき
廣野元久 &高橋行雄
10
20
30
40
50
•ªˆÊ“_
100.0%
99.5%
97.5%
90.0%
75.0%
50.0% ’†‰
25.0%
10.0%
2.5%
0.5%
0.0%
37/43
6.2 単峰型と双峰型(4)
1.▼をクリックして、
分布のあてはめから
平滑曲線を選ぶ
2.ヒストグラムの度数に合わせた
曲線が追加される
第6章 データのばらつき
廣野元久 &高橋行雄
38/43
インフルエンザ・ウィルスの分布
Virus3.jmp でインフルエンザ・ウィルスの
経時的分布の変化、右に裾を引いている
6
5
4
3
2
1
0
D1
D2
D4
第6章 データのばらつき
廣野元久 &高橋行雄
D6
D8
39/43
7.質的データのヒストグラムと度数表
7.1 質的データの分布の特性値
質的データの度数はカテゴリごとに度数を分けたもの
標本平均や標本標準偏差を計算しても無意味
質的データの分布の特性値は比率
JMPは変量の属性を正しく指定すれば
正しい出力をしてくれる(分析者が手法を指定しな
くてもよい)
第6章 データのばらつき
廣野元久 &高橋行雄
40/43
7.2 ヒストグラムと帯グラフ(1)
車の調査.jmpをロードしよう
第6章 データのばらつき
廣野元久 &高橋行雄
41/43
7.2 ヒストグラムと帯グラフ(2)
1.をクリック
3.Y,列をクリック
2.タイプを選択
4.OKをクリック
第6章 データのばらつき
廣野元久 &高橋行雄
42/43
7.2 ヒストグラムと帯グラフ(3)
量的データではない
・ワーク,ファミリー,スポーツの
位置を入れ替えても良い
・取り得る値は,
ワーク,ファミリー,スポーツ
の3つの分類項目しかない
第6章 データのばらつき
廣野元久 &高橋行雄
43/43
7.3 度数表
度数(頻度)
比率(相対度数)
累積比率
(累積相対度数)
変量名
合計
(標本数)
初期の度数表にない 累積比率は
表をクリックしてメニューを表示させ,
累積割合をクリック
第6章 データのばらつき
廣野元久 &高橋行雄
44/43