PowerPoint プレゼンテーション

多変量データ分析B 第4回
第2章:モニタリング
林俊克&廣野元久「多変量データの活用術」:海文堂
廣野元久
2004.5.12. SFC5限
第2章 モニタリングⅢ
1/39
第2章 モニタリング
目次
2.4 二変量の関係(2) -共に質的変量の場合ー
2.4.1
2.4.2
2.4.3
2.4.4
クロス集計とモザイク図
独立性と連関性
ピアソンのカイ2乗検定(独立性検定)
質的変量の連結
2.6 多変量の関係 -共に量的変量の場合-
2.6.1 層別散布図
2.6.2 散布図行列と相関係数行列
2.6.3 マハラノビスの距離
第2章 モニタリングⅢ
2/39
質的変量の関係:ポイント
2つの質的変量データ
サンプル
性別:x
成績:y
1
男
良
2
女
優
3
男
不可
1)基本特計量は計算できない
比率(頻度)に着目する
性別
男
・
女
・
計
i
女
良
・
n11 n12
n21 n22
n1 n2
女
可
アイテム(項目) カテゴリ-
性別
男,女
成績
優,良,可,不可
n13 n14 n1
n23 n24 n2
n3 n4 n  n
2)ピアソンχ2統計量
a
・
n
成績
計
優 良 可 不可
b
 02   
i 1 j 1
期待度数: mij 
 nij  mij 
mij
ni  n j
n

2
行合計  列合計
総合計
3)クラメール関連係数
V
第2章 モニタリングⅢ
 02
n  min  a, b   1
0 V 1
3/39
2.4 二変量の関係(2) 共に質的変量
モザイク図にて,出現比率の違いを観察する
クロス集計表にて,数量的に判断する
扱うデータファイルは「車の調査」
(サンプルデータ)
独立性
独立性と量的変量の無相関とは対応する
「独立性がない」は「相関がある」に対応する
第2章 モニタリングⅢ
4/39
2.4.1 クロス集計とモザイク図 1/4
生産国で顧客に特徴があるかを調べるには
ˆê•Ï—Ê‚Ì•ª•z

«•Ê
Šù
¥/–¢
¥
’j
«
–¢
¥
—

«
Šù
¥
“x
”

…
€
—

«
’j
«
‡Œv

Œ‡‘ª’lN
2 
…
€
¶ŽY

‘
“x
”
“x
”
138
165
303
0
Š„
‡
0.45545
0.54455
1.00000
ƒTƒCƒY
ƒ^ƒCƒv
•Ä
‘
‘åŒ^
ƒ
[ƒN

“ú–{
’†Œ^
ƒtƒ@ƒ~ ƒŠ
[
ƒˆ
[ƒ
ƒbƒp
¬ Œ^

ƒXƒ| 
[ƒc
“x
”

…
€
Šù
¥
–¢
¥
‡Œv

Œ‡‘ª’lN
2 
…
€
“x
”
196
107
303
0
Š„
‡
0.64686
0.35314
1.00000

…
€
ƒˆ
[ƒ
ƒbƒp
“ú–{
•Ä
‘
‡Œv

Œ‡‘ª’lN
3 
…
€
“x
”
“x
”
40
148
115
303
0
Š„
‡
0.13201
0.48845
0.37954
1.00000

…
€
¬ Œ^

’†Œ^
‘åŒ^
‡Œv

Œ‡‘ª’lN
3 
…
€
“x
”
“x
”
137
124
42
303
0
Š„
‡
0.45215
0.40924
0.13861
1.00000

…
€
“x
”
ƒXƒ| 
[ƒc
100
ƒtƒ@ƒ~ ƒŠ
[
155
ƒ
[ƒN

48
‡Œv

303
Œ‡‘ª’lN
0
3 
…
€
Š„
‡
0.33003
0.51155
0.15842
1.00000
図2.30 車の調査のヒストグラム
ここをクリックすると,他のヒストグラムとリンクして日本車
がどのような顧客に購入されているか分るかも知れない
着眼点は,構成比率のパターンの違い
だとすると,他の生産国と比較することが極めて重要
第2章 モニタリングⅢ
5/39
2.4.1 クロス集計とモザイク図 2/4
データ分析でやった車の調査のデータ
スポーツ ファミリー ワーク 小計
119
32
196
既婚 45
未婚
小計
55
100
36
155
16
48
107
303
表のデータが無作為に得られたとすると,
①車の種類の比率が母集団の比率
②未既婚の比率が母集団の比率
問題は車のタイプと未既婚が互いに無関係かどう
か?
①関係があるとするとどの程度かわからない
②関係が無いとするほうが簡単
第2章 モニタリングⅢ
6/39
練習問題 1/2
既婚
未婚
スポーツ ファミリー
45
119
55
36
ワーク
32
16
小計
196
107
小計
100
48
303
155
互いに無関係であるときの比率を計算してみよ
スポーツ
既婚
ファミリー
ワーク
100×196/303^2=
0.2135
未婚
0.1165
小計
0.33
小計
0.65
0.0560
0.51
第2章 モニタリングⅢ
1.000
7/39
練習問題 2/2
この理想状態(帰無仮説)での頻度を計算する
スポーツ ファミリー ワーク 小計
196
既婚
未婚
小計
48
303
カイ2乗を計算する
a
b
 02   
i 1 j 1
 nij  mij 
mij
2
45  64.686 


64.686
2
119  100.264 


100.264
2

答え:
第2章 モニタリングⅢ
8/39
2.4.1 クロス集計とモザイク図 3/4
2元のモザイク図で調べよう
•ªŠ„ •\
¶ ŽY

‘ ‚ ƃTƒ C ƒY‚Ì•ªŠ„•\ ‚ɑ΂ ·‚é •ª
Í
ƒ‚ ƒU ƒC ƒN }
4
2
‘åŒ^
54
ƒTƒCƒY
0.75
36
17
’†Œ^
0.50
53
92
0.25
¬Œ^

19
26
0.00
ƒˆ
[ƒ
ƒbƒp
“ú–{
•Ä
‘
¶ŽY

‘
ŽY
¶
‘
1.00
“x
”
¬Œ^

‘S‘Ì%
—ñ%
s%

ƒˆ
[ƒ
ƒbƒp
19
6.27
13.87
47.50
“ú–{
92
30.36
67.15
62.16
•Ä
‘
26
8.58
18.98
22.61
137
45.21
ƒT ƒCƒY
’†Œ^ ‘åŒ^
17
5.61
13.71
42.50
54
17.82
43.55
36.49
53
17.49
42.74
46.09
124
40.92
4
1.32
9.52
10.00
2
0.66
4.76
1.35
36
11.88
85.71
31.30
42
13.86
40
13.20
148
48.84
115
37.95
303
図2.31 モザイク図とクロス集計表
帯の太さから,生産国の構成比率が可視化できる
各ブロック(セル)の面積が頻度に対応
第2章 モニタリングⅢ
9/39
2.4.1 クロス集計とモザイク図 4/4
クロス集計表について
ŽY
¶
‘
•ªŠ„ •\
“x
”

¬Œ^
‘S‘Ì%
—ñ%
s%

ƒˆ
[ƒ
ƒbƒp
19
6.27
13.87
47.50
“ú–{
92
30.36
67.15
62.16
•Ä
‘
26
8.58
18.98
22.61
137
45.21
列和
ƒT ƒCƒY
’†Œ^
‘åŒ^
度数 :セルの度数,行/列の周辺度数,合計度数
行和 全体%:セルの度数,行/列の合計度数が合計度数に占める割合
17
5.61
13.71
42.50
54
17.82
43.55
36.49
53
17.49
42.74
46.09
124
40.92
4
1.32
9.52
10.00
2
0.66
4.76
1.35
36
11.88
85.71
31.30
42
13.86
40 列%
13.20
:セルの度数が列の合計度数に占める割合
行% :セルの度数が行の合計度数に占める割合
期待値:二変量が独立との仮定下で計算された各セルの期待度数(E)
148
48.84
(対応する行合計と列合計の積を全体合計で割った値)
偏差 :実際のセル度数(O)から期待値(E)を引いたもの
(独立性の仮説から外れた値)
115
2
37.95 セルのカイ 2 乗:(O-E) /E で求めた各セルのカイ 2 乗
(この総和がピアソンのカイ 2 乗)
303
第2章 モニタリングⅢ
10/39
カテゴリの並べ替え
JMPではコンピュータのコード値により,グラフのカテゴリの
表示順が決定される
分析者は,分りやすいグラフを作成したいのであればJMP
に順序を知らせる必要がある
【操作 2.12:カテゴリの並べ替え】
①グラフで表示されるカテゴリの順番を変更するために,データテーブルの変
量名をクリックして,”列(C)”メニューの“値のチェック”から“リストチェ
ック”をクリックする.
②表示されたウインドウで,“上へ移動”ボタン,“下へ移動”ボタンを使い,
カテゴリの表示順番を決める.
③“OK”ボタンをクリックし,モザイク図などを描画する.
図2.32 カテゴリのリストチェック
第2章 モニタリングⅢ
11/39
2.4.2 独立性と関連性 1/2
2つの変量間に関連があること
行カテゴリの構成比率が列のカテゴリによって異なること
相互作用があるということ
独立であること
行カテゴリの構成比率が列のカテゴリによらず変わらないこと
ならば,行のカテゴリをまとめてしまえばよい
すなわち,列側の構成比率(1変量)でみればよい
第2章 モニタリングⅢ
12/39
2.4.2 独立性と関連性 2/2
JMPの出力
ŒŸ’è
—vˆö
ƒ‚ƒfƒ‹
Œë
·
‘S‘Ì(
C³
Ï‚Ý)
N
ŒŸ’è
–Þ“x”ä
Pearson
Ž©—R“x (-1)*‘Ώ
”–Þ“x
R2
æ(U)
4
36.30962 0.1200
297
266.21700
301
302.52662
303
2倍
ƒJƒC2
æ p’l(Prob>ChiSq)
72.619
<.0001
66.313
<.0001
このp値で判断
図2.32 独立性検定と尤度比検定
JMPの検定は,基本的に対数線形モデルの尤度比検定
(この方法は授業では紹介しない)
JMPの検定にはもう1つPearson検定(独立性)がある
どちらの検定も大標本用のため,セル内の度数が少ないと
近似が悪くなり警告が発生される
第2章 モニタリングⅢ
13/39
2.4.3 ピアソンのカイ2乗検定 1/3
少し数理的内容
行和,列和,総和を∑(シグマ記号)で表すと
ni   ni1  ni 2 
n j  n1 j  n2 j 
n  n11  n12 
 nij 
 nij 
 nij 
b
 nib   nij
j 1
a
 naj   nij
i 1
a
b
 nab   nij
i 1 j 1
シグマ記号が2つ着くが恐れるべからず
意味:行(横)と列(縦)の全部を足して合わせて幾ら
第2章 モニタリングⅢ
14/39
2.4.3 ピアソンのカイ2乗検定 2/3
行と列の関連性は,度数でみるよりも
全体を1とした比率で見たほうが分りよいだろう
(モザイク図の思想)
表2.4 クロス集計表の確率
表2.3 クロス集計表
n2j
n2b
ni b
ni +
Ai
naj
nab
na+
Aa
pa1
n+j
n+b
n
計
p+1
ni 1
ni 2
…
nij
n+1
n+2
…
p1j
…
p1b
p1+
n2+
A2
p21
p22
p2j
p2+
paj
…
…
…
…
…
p2b
pa2
…
…
…
…
…
pab
pa+
p+2
…
p+j
…
p+b
1
pi1
度数
pi2
pij
pib
pi+
…
計
…
…
na2
p11 p12
…
na1
A1
…
Aa
…
計
…
…
…
Bb
B1
…
…
…
Ai
n1+
Bj …
…
n12
n1b
…
…
n21
n1j
B2
…
A2
…
…
n12
計
…
n11
Bb
Bj
…
A1
…
…
B2
…
B1
比率
第2章 モニタリングⅢ
15/39
仮説検定
帰無仮説:H0
すべての i と j に対して pij=pi+×p+j
対立仮説:H1
ある i と j に対して
pij≠pi+×p+j
厳密に考えれば,帰無仮説が生じることはまずない.
しかし,先に独立であることを考えて
そこから,どれくらい実際のデータが乖離しているかを
測定したのち,
その量が確率的に起こりうる可能性か否か
判断する
→標本誤差を持つパターンの違い:真の値は誰も分らない
16/39
第2章 モニタリングⅢ
期待度数 mij 1/2
期待度数とは,帰無仮説が厳密に成り立つとき
の度数
期待度数は小数点以下の値を持つ(正整数でない)
期待度数があるべき姿
実際の値は色々な都合でばらついている
その差異の大きさで判断
手が届く理想か(正しいとする姿:採択)
手が届かない理想か(夢物語なら理想を変えるか:棄却)
nの標本がある と き  Ai , B j のセルに属する 厳密な個数はmij
第2章 モニタリングⅢ
17/39
期待度数 mij 2/2
n1+
n2j
n2b
ni b
ni +
Ai
naj
nab
na+
Aa
pa1
n+j
n+b
n
計
p+1
Ai
ni 1
ni 2
…
nij
n+1
n+2
…
p1j
…
p1b
p1+
n2+
A2
p21
p22
p2j
p2+
paj
…
…
…
…
…
p2b
pa2
…
…
…
…
…
pab
pa+
p+2
…
p+j
…
p+b
1
pi1
pi2
pij
pib
pi+
…
計
…
…
na2
p11 p12
…
na1
A1
…
Aa
…
計
…
…
…
Bb
B1
…
…
…
Bj …
…
n12
n1b
…
…
n21
n1j
B2
…
A2
…
…
n12
計
…
n11
Bb
Bj
…
A1
…
…
B2
…
B1
周辺確率の決定
n j
ni 
行和/全体,あるいは列和/全体でよい.
pi  
, p j 
パターンの違いには関係しない
n
n
ni  n j ni  n j

各セルの確率は周辺確率の積 pij  pi   p j  
n
n
n2
ni  n j
期待頻度は mij  n  pij 
n
第2章 モニタリングⅢ
18/39
2.4.3 ピアソンのカイ2乗検定 3/3
•ªŠ„ •\
ŒŸ’è
ŽY
¶
‘
ƒT ƒCƒY
’†Œ^
‘åŒ^
“x
”
¬Œ^

Šú‘Ò’l
•Î
·
ƒZƒ‹‚̃JƒC2
æ
ƒˆ
[ƒ
ƒbƒp
19
17
4
18.0858 16.3696 5.54455
0.91419 0.63036 -1.5446
0.0462 0.0243 0.4303
“ú–{
92
54
2
66.9175 60.5677 20.5149
25.0825 -6.5677 -18.515
9.4016 0.7122 16.7098
•Ä
‘
26
53
36
51.9967 47.0627 15.9406
-25.997 5.93729 20.0594
12.9975 0.7490 25.2425
137
124
42
—vˆö
ƒ‚ƒfƒ‹
Œë
·
‘S‘Ì(
C³
Ï‚Ý)
N
40
Ž©—R“x (-1)*‘Ώ
”–Þ“x
R2
æ(U)
4
36.30962 0.1200
297
266.21700
301
302.52662
303
ŒŸ’è
–Þ“x”ä
Pearson
148
ƒJƒC2
æ p’l(Prob>ChiSq)
72.619
<.0001
66.313
<.0001
115
総和
303
図2.34 実度数,期待度数など
残差平方和:実度数 - 期待度数   nij  mij 
i 1 j 1
出現頻度が違うので等分散化する
a
b
  
2
0
カイ2乗
i 1 j 1
a
n
ij
 mij 
mij
2
b
2
2
 nij  mij 

 

m
i 1 j 1 
ij


標準化変量の2乗和
a
b
第2章 モニタリングⅢ
19/39
2.4.4 質的変量の連結
JMPの計算式の利用
ƒ‚ƒUƒCƒN }
ƒ‚ƒUƒCƒN
}
1.00
1.00
ƒ
[ ƒN’†Œ ^

ƒ
[ ƒN‘åŒ ^

–¢
¥’j
«
ƒ^ƒCƒv
•ƒTƒCƒY
0.75
ƒtƒ@ƒ~ƒŠ 
[ ’†Œ^
ƒtƒ@ƒ~ƒŠ 
[ ‘åŒ^
0.50
ƒtƒ@ƒ~ƒŠ 
[
¬Œ^
Šù
¥/–¢
¥
•
«•Ê
ƒ
[ ƒN

¬Œ^
0.75
–¢
¥—

«
0.50
Šù
¥’j
«
0.25
ƒˆ
[ ƒ
ƒbƒp
“ú–{
•Ä
‘
ƒ
[ ƒN‘åŒ^

ƒ
[ ƒN’†Œ^

ƒ
[ ƒN

¬Œ^
ƒtƒ@ƒ~ƒŠ 
[ ’†Œ^
0.00
ƒtƒ@ƒ~ƒŠ 
[ ‘åŒ^
ƒXƒ|
[ ƒc
¬Œ^
ƒXƒ|
[ ƒc’†Œ ^
0.00
ƒXƒ|
[ ƒc‘åŒ ^
ƒXƒ|
[ ƒc‘åŒ^
ƒXƒ|
[ ƒc
¬Œ^
0.25
ƒtƒ@ƒ~ƒŠ 
[
¬Œ^
Šù
¥—

«
ƒXƒ|
[ ƒc’†Œ^
ƒ^ƒCƒv
•ƒTƒCƒY
¶ŽY

‘
図2.35 生産国とタイプ&サイズのモザイク図
図2.37 練習問題2.2-③のモザイク図
関数群の文字関数からCONCAT関数を使う
第2章 モニタリングⅢ
20/39
2.6 多変量の関係 1/2
1変量の分析:基本統計量
頻度の確認:ヒストグラム,度数表
・代表値
:平均値
・ちらばり
:平方和→分散(標準偏差)
範囲
・かたよりなど:歪み,尖り
2変量の関係:変量間の結びつき
変数1
変数2
関連性の指標
量的
量的
(ピアソン)相関係数
多変量の関係:変量間の結びつき
・散布図行列,相関係数行列
・外れ値分析
第2章 モニタリングⅢ
21/39
2.6 多変量の関係 2/2
モニタリングの着眼点と活用する主なグラフ
調べる目的
ポイント
グラフ
1
変
量
・分布の形の確認
・欠測値,ゼロ値
・外れ値
・正規分布か
・層別の必要はあるか
・外れ値はあるか
・ヒストグラム
・正規分位点プロット
・箱ひげ図
2
変
量
・2次元分布の確認
・独立性の検討
・外れ値
・散布図
・モザイク図
・層別ヒストグラム
多
変
量
・多次元分布の確認
・独立性の検討
・外れ値
・相関関係や関連性は
あるか
・層別の必要はあるか
・外れ値はあるか
・特異な変量はあるか
・相関関係はあるか
・外れ値はないか
第2章 モニタリングⅢ
・散布図行列
・層別散布図
・外れ値分析
22/39
2.6.1 層別散布図
g’·( ƒCƒ“ƒ `)‚Ƒ̐

d(ƒ |ƒ“ƒh) ‚Ì“ñ•Ï—Ê‚Ì ŠÖŒW
ˆê•Ï —Ê ‚Ì•ª•z
«•Ê

”N—î
17
180
M
16
‘̏
d (ƒ |ƒ“ƒ h)
160
15
140
14
120
100
F
13
80
12
60
50
55
60
65
g’·(ƒ Cƒ“ƒ`)

“ñ•Ï—ʏ
³‹K‘È ‰~ P=0.95 0 
«•Ê= ="F"
“ñ•Ï—ʏ
³‹K‘È ‰~ P=0.95 0 
«•Ê= ="M"
’¼
ü‚Ì‚ ‚ Ä‚Í ‚ß 
«•Ê= ="F"
’¼
ü‚Ì‚ ‚ Ä‚Í ‚ß 
«•Ê= ="M"
70
75
性別により直線の傾き
に差異があるかどうか
が焦点
図2.47 性別で層別した身長と体重の散布図
・2次元平面で,複数の層別因子(質的変量)の影響を
調べるには,層別散布図が有効
・あやめ.JMPの種類で層別した散布図を思い起こそう
第2章 モニタリングⅢ
23/39
あやめの問題 1/3
層別
データ全体から幾つかのグループに分類(層別)したとき
分類毎に散布図を作ると“ものの本質”が分かる
層別
無相関
異なるグループを混ぜると
相関が消える
第2章 モニタリングⅢ
強い相関
強い相関
24/39
あやめの問題 2/3
第2章 モニタリングⅢ
25/39
あやめの問題 3/3
‚ª‚­‚Ì’·‚³‚Æ ‚ª‚­‚Ì•
‚ Ì“ñ•Ï—Ê‚ÌŠÖŒW
4.5
Setosa領域
4.0
‚ª‚-‚Ì•
3.5
新しいデータ1
Setosaの95%確率楕円内
Virginica,Versicolorの
95%確率楕円の外
3.0
このデータは,Setosaと
考えるのが妥当であろう
2.5
2.0
それ以外
4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0
‚ª‚-‚Ì’·‚³
“ñ•Ï—ʏ
³ ‹K‘ȉ~ P=0.950 Ží—Þ=="setosa"
Setosa以外だが,Virginicaか
Virginicaの可能性が高い
“ñ•Ï—ʏ
³
‹K‘ȉ~
P=0.950
Ží—Þ=="versicolor"
Versicolorかまでは分からない
“ñ•Ï—ʏ
³ ‹K‘ȉ~ P=0.950 Ží—Þ=="virginica"
第2章 モニタリングⅢ
26/39
2.6.2 散布図行列と相関係数行列
‘ ½ •Ï —Ê
‘ ŠŠÖ
F

·‚`
1.0000
0.1466
0.1460
0.1364
0.1480

F
·‚`
F

·‚a
F

·‚b
F

·‚c
F

·‚d
F

·‚a
0.1466
1.0000
0.3734
0.1442
-0.0077
F

·‚b
0.1460
0.3734
1.0000
0.8218
0.6624
F

·‚c
0.1364
0.1442
0.8218
1.0000
0.9576
F

·‚d
0.1480
-0.0077
0.6624
0.9576
1.0000
Ž U • z
}
s— ñ
15
10
1
22
25
22
25
1
25
22
1
22
1
1
25 22
1
22
1
F

·‚`
5
55
221
50
22

F
·‚a
45
25
25
25
25
40
60
1
1
1
50
1
F

·‚b
25
40
35
60
50
40
30
20
25
25
22
22
1
22
25
50
40
30
20
10
1
22
25
221
1
22
25
5
10
15
22
45
22
25
1
22
55 35
45
1
25 22
F

·‚c
25
50
22
1
25
40
25
22
1
25
55
65
20 30 40 50 60
F

·‚d
10 20 30 40 50
図2.48 色差Aから色差Eの散布図行列など
第2章 モニタリングⅢ
27/39
2.6.3 マハラノビスの距離 1/12
マハラノビス(Mahalanobis インドの天才)
インド統計研究所の設立者:偉大な統計学者
マハラノビスの汎距離
1936年にマハラノビスが確率
カイ2乗分布に基ずく距離を提
唱した.
判別分析を解説する際によく出てくるが
それが本質ではない.
実際.回帰分析,多の多変量解析でも
その概念が広く使われている点に注意!!
第2章 モニタリングⅢ
28/39
2.6.3 マハラノビスの距離 2/12
個体間の距離を考える
A
1変量の場合
B C
D
普通(ユーグリッド距離と言います)に考えれば
AとBの距離 と CとDの距離は同じである
A
B C


D
出現確率が等しいを距離と考えると,分布状況により
ユーグリッド距離が等しい = 同じ出現確率
AB=CD
Pr  A  x  B  Pr C  x  D
AからBの方が確率的に遠い
第2章 モニタリングⅢ
29/39
2.6.3 マハラノビスの距離 3/12
少し数学的ですが…1次元では
ある特性は,平均μ,分散σ2の正規分布に従うとする
(モデルの世界)
ある値,xが得られたときに,それが全体でどのあたり
に位置するかは…
x
u
N  0,12 
-14
0.45

6
16
26
X (実尺度)
0.4
0.35
 x 
2  
 のと き df  1
  
2
0.3
0.25
0.2
0.0214
0.0014
0.1359
0.0014
0.05
0.3413
0.1
0.3413
0.15
0.1359
Prob.
平均から,どれほど離れてい
るかを向きを考えずに評価す
るならばu2を求める.u2は自由
度1のカイ2乗分布からの実現値
2
-4
0.0214
0
-6
-5
-4
2
 x1  1   x2   2 
 +
 のと き df  2



1
 
2

-3
-2
-1
0
1
2
3
4
5
6 Z(標準化)
x
2  
第2章 モニタリングⅢ
30/39
2.6.3 マハラノビスの距離 4/12
色差のデータ
印刷機の印刷条件を変えて,同じカラー原稿を印刷
し色の差(基準色からのユーグリッド距離)を測っ
てみる.
原稿は,どんなものがやってくるかわからない(お
客さま次第である)
アイドル写真の印刷(肖像権があるのでむやみ印
刷できません)から,JMPのグラフの出力まで様々
ここでは,ある印刷機のくせを考えてみよう
第2章 モニタリングⅢ
31/39
2.6.3 マハラノビスの距離 5/12
相関係数r=0の場合
どの向きに対しても点
が存在する確率は同じ
O
O
A
B
相関係数r=0の場合
B
A
∴OA=OB
存在する確率は違う
O
B
A
∴OA≠OB
第2章 モニタリングⅢ
32/39
2.6.3 マハラノビスの距離 6/12
少し数学的ですが…2次元では
①2つの特性が無相関(独立のとき)
u1 
x1  1
1
, u2 
x2   2
2
から ,2次元で平均から ど れだけ
u2
u12  u 22
離れている かは距離の 2乗から
u12  u22
で評価でき る . こ の量は自由度
u1
2のカ イ 2乗分布から の実現値
②では,2つの特性間に無視できない相関があったときは
どうするか?
第2章 モニタリングⅢ
33/39
2.6.3 マハラノビスの距離 7/12
2次元で考える
直角三角形の斜辺の距離
三平方の定理から
原点(平均ベクトル)から#1の
距離は
横軸の距離の2乗+縦軸の距
離の2乗の平方根
原点(平均ベクトル)から#22
の距離は
横軸の距離の2乗+縦軸の距
離の2乗の平方根

F
·‚b
単純にユーグリッド距離
65
60
55
50
45
40
35
30
25
20
0
1
22
10 20 30 40 50 60 70
F

·‚c
図2.50
OA2   x#1,1  x1    x#1,2  x2 
2
OA 
2
OB 2   x#22,1  x1    x#22,2  x2 
 x#1,1  x1    x#1,2  x2  OB 
2
2
マハラノビスの距離
2
2
 x#22,1  x1    x#22,2  x2 
第2章 モニタリングⅢ
2
2
:面積
:距離
34/39
2.6.3 マハラノビスの距離 8/12
2次元で考える
測定単位に依存しないよう
に標準化する
2
2
x x  x x 
OA   #1,1 1    #1,2 2 
s2
 s1  

2
2
 x#22,1  x1   x#22,2  x2 
2
OB  
 

s
s

1
 
2

2

F
·‚b
2
 x#1,1  x1   x#1,2  x2 
2
OA  
 

s
s

1
 
2

2
x  x
x 
x
OB   #22,1 1    #22,2 2 
s1
s2

 

65
60 出現確率の等高線 1
55
50
45
40
35
22
30
25
20
0 10 20 30 40 50 60 70
F

·‚c
図2.50
マハラノビスの距離
2
第2章 モニタリングⅢ
35/39
2.6.3 マハラノビスの距離 9/12
出現確率の影響を考慮する
2次元正規分布を考える
相関がある場合は,同じユーグリッ
ド距離でも確率楕円の長軸方向に
ある点の方が出現確率が小さい
u1 
x1  x
:このような記号を使う
s1
u  u  2ru1u2
D 
1 r2
2
2
1
2
2

F
·‚b
2次元で考える
65
60
55
50
45
40
35
30
25
20
0
1
22
10 20 30 40 50 60 70
F

·‚c
図2.50
マハラノビスの距離
この式で計算された距離をマハラノビスの平方距離という
3次以上の高次の世界では,もっと式が複雑になる
36/39
第2章 モニタリングⅢ
2.6.3 マハラノビスの距離 10/12
等確率長円
重心からの距離Dの
等しい点の軌跡
2変量正規母集団の重心からの距離
 x1  1 
2
u1  


 1 
2
 x2  2 
2
u1  



2

2
u2  u12  u22 (ユークリッドの平方距離)
母相関ρを持っている
B
A
標準化変量
u2
Z1
Z2
0 μ2
・距離は無相関にして計算する
・相関係数を考慮して無相関になる方向を探す
座標を確率楕円の長軸方向
へ回転させると無相関になる
z1   u1  u2  / 2
z2   u1  u2  /
分散を1に調整すると
2
z12
z22
z12
z22
D 



V  z1  V  z2  1   1  
2
μ1
0
u1

1
u 2  u2 2  2  u1u2 
2  1
1 
第2章 モニタリングⅢ
37/39
2.6.3 マハラノビスの距離 11/12
少し数学的ですが…行列表現の導入
1
Π


1  1
u'Π u   u1 , u2 

1  2  
-1

 u1 
u 
 u2 
1  1  
,
Π




1
1  2   1 
-1
    u1 
 u1   u2 
1
u , u2  

u  
2  1


u

u
1  2  1  

1
2
1
1
2
2
u
u


u

u


u

u

u

2

u
u

u







1
1
2
2
1
2
1
1 2
2
2
2
1 
1 
一般に多次元では D2  u'Π -1u
多変量標準正規分布 f  x  
 1 
exp  D 2 
p
2

  |Π|  2 
1
D2は自由度pのカイ2乗分布(平均p,分散2p)に従う
問題は,Π の逆行列が存在するかいなか?
第2章 モニタリングⅢ
38/39
2.6.3 マハラノビスの距離 12/12
多変量での評価
JMPでは,外れ値解析にマハラノビスの距離を利用している.
色差のデータでは5次元の世界での距離を計算
ŠO‚ ê’ l• ª
Í
Mahalanobi s‚ Ì‹——£
5
22
‹——£
4
3
1
2
25
1
0
0
5
10
15
20
25
30
”ԏ
s
†
‹——£
ƒWƒƒƒbƒN ƒiƒCƒt–@‚ É‚æ ‚é‹——£
15.0
12.5
10.0
7.5
5.0
2.5
0.0
22
1
0
対象個体(例#22)を
除いた状態で距離をつくり,
除いた対象を予測する.
集団から外れた個体はよ
り距離が遠く判定されるこ
とが多い
25
5
10
15
20
25
30
”ԏ
s
†
図2.49
外れ値分析
第2章 モニタリングⅢ
39/39