PowerPoint プレゼンテーション

多変量データ分析B 第3回
第2章:モニタリング
林俊克&廣野元久「多変量データの活用術」:海文堂
廣野元久
2004.4.28. SFC5限
第2章 モニタリングⅡ
1/39
第2章 モニタリング
目次
2.3 二変量の関係(1) -共に量的変量の場合-
2.3.1
2.3.2
2.3.3
2.3.4
2.3.5
2.3.6
2.3.7
二次元データ
相関関係と散布図
相関係数
単回帰モデル
単回帰モデルの残差と診断
単回帰モデルの外れ値と正規性のチェック
単回帰モデルのテコ比と予測残差
第2章 モニタリングⅡ
2/39
2.1 モニタリングの手順 1/2
1変量の分析:基本統計量
頻度の確認:ヒストグラム,度数表
・代表値
:平均値
・ちらばり
:平方和→分散(標準偏差)
範囲
・かたよりなど:歪み,尖り
2変量の関係:変量間の結びつき
変数1
変数2
関連性の指標
量的
量的
(ピアソン)相関係数
量的
質的
相関比(分散分析→寄与率)
質的
質的
クラメールの連関係数
第2章 モニタリングⅡ
3/39
2.1 モニタリングの手順 2/2
モニタリングの着眼点と活用する主なグラフ
調べる目的
ポイント
グラフ
1
変
量
・分布の形の確認
・欠測値,ゼロ値
・外れ値
・正規分布か
・層別の必要はあるか
・外れ値はあるか
・ヒストグラム
・正規分位点プロット
・箱ひげ図
2
変
量
・2次元分布の確認
・独立性の検討
・外れ値
・散布図
・モザイク図
・層別ヒストグラム
多
変
量
・多次元分布の確認
・独立性の検討
・外れ値
・相関関係や関連性は
あるか
・層別の必要はあるか
・外れ値はあるか
・特異な変量はあるか
・相関関係はあるか
・外れ値はないか
第2章 モニタリングⅡ
・散布図行列
・層別散布図
・外れ値分析
4/39
2.3 二変量の関係(1)-共に量的変量の場合二変量の関係での分析手法
X
表 2.2 二変量の関係での分析手法
Y
量的変量
質的変量
量的変量 ・散布図
・ロジット曲線
・相関分析・回帰分析 ・ロジット回帰分析
質的変量 ・ひし形プロット
・モザイク図
・分散分析
・クロス集計表,独立性検定
一変量の分布によりデータのばらつき方をグラフや統計指標で表すことができた.
今度は二変量の関係の強さを調べる.
統計指標は,全体的な傾向を表現するには便利であるが,
個々のばらつきの様子までは分からない.
グラフによる表現は,個々のばらつきの様子が手に取るように分かる.
両者を組合せることで,「木も見て森も見られる」である.
JMPでは,変量のタイプにより,分析ツールが表2.2のようにセットされる.
第2章 モニタリングⅡ
5/39
標準化変量(z得点)
【操作2.7:標準化と標準化後のヒストグラム】
①JMPを起動し,「ビッグクラス」を読み込む.
標準化変量: u 
個々の値  平均 x  x

標準偏差
sx
②身長(インチ)と体重(ポンド)のヒストグラムを描画する.
③一変量の分布のウインドウのタイトルの変量名 ―例えば,身長(インチ)―
の左の赤い▼をクリックし,メニューの保存から標準化をクリックする.
④データテーブルに標準化された変量が追加される.
⑤標準化後身長(インチ)と標準化後体重(ポンド)のヒストグラムを描画する.
・今度は2つの変量を使って,全体的な様子や個体の特徴を調べる.
・例えば,「ビッグクラス」の身長と体重の情報が得られたとき,
両者を単純に比較することはできない.
・それは,物理的な測定単位 ―長さと重さ― が異なるからである.
・標準化変量(z得点)は,測定単位の影響を取り除くために,各データが
平均からどのくらい離れているかを標準偏差で割った値を指標としたものである.
・標準化変量は今後MDAの随所で顔を出すことになる.
第2章 モニタリングⅡ
6/39
二次元データ 1/3
ˆê •Ï —Ê‚Ì•ª•z
•W
€‰»
g ’ ·(ƒCƒ“ƒ`)
•W
€‰»‘Ì 
d (ƒ|ƒ“ƒh )
4
4
3
3
2
2
1
1
0
0
-1
-1
-2
-2
-3
-3
ƒ‚
[ ƒ
ƒ“ƒg
ƒ‚
[ ƒ
ƒ“ƒg
•½ ‹Ï
5.607e-16
•½ ‹Ï
5.551e-17
•W
€•Î
·
1
•W
€•Î
·
1
•½ ‹Ï‚Ì•W
€Œë
·
0.1581139 •½ ‹Ï‚Ì•W
€Œë
·
0.1581139
•½ ‹Ï‚̏
㑤 95%
M—ŠŒ ÀŠE 0.3198155 •½ ‹Ï‚̏
㑤 95%
M—ŠŒ ÀŠE 0.3198155
•½ ‹Ï‚̉º ‘¤ 95%
M—ŠŒ ÀŠE
-0.319816
•½ ‹Ï‚̉º ‘¤ 95%
M—ŠŒ ÀŠE
-0.319816
N
40
N
40
図2.17
標準化後の身長と体重のヒストグラム
図2.17は,標準化後の身長と体重のヒストグラムである.
両者の分布を比較しても意味がない.
JMP機能を使えば,ある生徒は,身長は高いのに体重は少ないとか身長
は高く体重も重いなどの特徴を見出せるが,身長が高くなれば体重も重く
なるといった,全体的な傾向を読み取ることはできない.
第2章 モニタリングⅡ
7/39
3
•W
€‰»‘̏
d(ƒ|ƒ“ƒh) 2
•W
€‰»‘̏
d(ƒ|ƒ“ƒh)
二次元データ 2/3
2
1
0
-1
3
2
1
0
-1
-2
-2
-3
図2.18
-2
-1
0
1
•W
€‰»
g’·(ƒCƒ“ƒ`)
2
-3
-2
-1
0
1
•W
€‰»
g’·(ƒCƒ“ƒ`)
2
標準化された身長と体重の散布図と周辺ヒストグラム
2つの変量の関係を調べるには,2つの変量を個体で結び付けて表示する
必要がある.
その方法として散布図がある.
散布図は,二次元について個体の在処をプロットしたものである.
図2.18左は,標準化された身長と体重の観測値を,それぞれ別々にヒスト
グラムにしている.
これらは,周辺ヒストグラムとよばれ,元々の観測値から得られるか,散布
図の点をそれぞれの座標軸上に射影して得られる.
第2章 モニタリングⅡ
8/39
二次元データ 3/3
散布図とヒストグラムは,異なった種類の情報を含んでいる.
散布図からは,2つの周辺ヒストグラムを作成することができるが,
2つの周辺ヒストグラムからは,散布図を復元することができない.
図2.18の右は,体重だけ,昇順に並べ替えたものを散布図と周
辺ヒストグラムで表したグラフである.
左右の周辺ヒストグラムは同じ形であるが,散布図の様子は明
らかに異なる.
左の散布図は右上がりの傾向があるのだが,右では右下がりの
傾向を示している.
つまり,散布図では,周辺ヒストグラムからでは分からない情報
―共に変動する傾向― を持っている.
2つの変量の直線的な結びつきが大きければ,変量1つずつ調
べるだけでは,大事な情報を取り逃がしてしまうのである.
9/39
第2章 モニタリングⅡ
2.3.2 相関関係と散布図
100
3
90
r=0.78
r=0.98
70
1
0
y
60
y
2つの変量が共に連続尺度であ
る場合には,散布図によりその
傾向を調べることができる.
2
80
50
40
-1
30
-2
20
-2
-1
0
1
2
3
散布図は調べようとする2変量間
の関係の様子を図示するもので
ある.
-3
-3
-2
-1
0
x
x
1
2
3
3
2
r=0.25
2
r=0.50
1
y
y
1
0
0
-1
-1
-2
-2
-3
-2
-1
0
x
1
2
-2
3
-1
0
1
2
3
x
3
2
2
r=0.05
1
y
y
1
0
0
-1
-1
r=-0.72
-2
-2
-3
-2
-1
0
x
1
2
3
-3
-2
-1
0
x
1
2
3
図2.19 相関の大きさの違う散布図
第2章 モニタリングⅡ
10/39
因果関係の散布図のルール
因果関係のある散布図は,
目的変量yを縦軸に,
yを説明する説明変量,あるいは要因xを横軸に取る.
例えば,
・ 授業の出席率xと期末試験の成績y
・ 車のセールスマンの好感度xと車の満足度y
・ 企業のブランドイメージxと学生の企業人気度y
などである.散布図の読み方は,
・ 打点が直線関係にあるかどうか
・ 打点の傾向が右上がりなのか,右下がりなのか
・ 傾向線との離れ具合の大きさはどうなのか
などに着目する.
第2章 モニタリングⅡ
11/39
相関関係
6つの散布図には,プロットの95%が収まるような確率楕円が
追加されている.
この楕円の形により相関の強さを視覚的に理解できる.
上4つの散布図のように,プロットが直線的に右上がりであれ
ば,正の相関があるという.
逆に右下の散布図のように,プロットが右下がりであれば負の
相関があるという.
また,左下は傾向がないもので無相関と呼ばれる.
散布図を作成する目的として,2変量間に直線的関係があるか
どうかや相関関係の強さを視覚的に見たいなど変量に関する
もの
データに外れ値があるかを調べたり層別の必要があるかどう
か調べたりと,個体に関するものとがある.
第2章 モニタリングⅡ
12/39
二次元での外れ値
3
2
2
1
y3
y
1
0
0
-1
-1
-2
-2
-2
-1
0
x
1
2
-2
-1
0
1
2
3
x3
3
2
2
1
y2
y4
1
0
0
-1
-1
-2
-2
-2
-1
0
x4
1
2
-2
-1
0
x2
1
2
図2.20 確率楕円と外れ値
第2章 モニタリングⅡ
13/39
活用術2.6 記述の散布図
活用術 2.6:記述の散布図
散布図から関係のあることは分かるが,
それが原因と結果の関係 ―因果関係
― があるかどうかは言えない.それが言えるのは常識的な知識からである.
例えば,ある企業の推進部門では,調査会社が公表した○○年の CSI -顧客
満足度指標- と業界シェアの関係を散布図にして正の相関を見出し,
「CSI 向
上が,シェア拡大につながる」と結論つけた.この種の意識付けは,推進部門
では日常的に行われる.それ自体は非難の対象にはならないかも知れない.し
かし,記述の散布図の解釈は,
「○○年の CSI とシェアの関係を調べたところ,
CSI が低い企業ではシェアが低く,CSI が高い企業ではシェアが高かった」と
控えめにすべきである.記述の散布図だけからは何も見出せない.
第2章 モニタリングⅡ
14/39
操作2.8 二変量の関係
①“分析(A)”メニューの“二変量の関係”をクリックする.
②表示されたウインドウの“列の選択リスト”から“体重
(ポンド)”をクリックして,“Y,目的変数”ボタンをクリッ
クする.
③ウインドウの“列の選択リスト”から“身長(インチ)”
をクリックして,“X,説明変数”ボタンをクリックし,
“OK”ボタンをクリックする.
第2章 モニタリングⅡ
15/39
2.3.3 相関係数 1/4
相関の強さを定量的に測る指標が必要である.それ
が相関係数である.相関係数rの範囲は,|r|≦1で,±1
のときもっとも強い.また,0のとき無相関になる.相関係
数が負のときは,負の相関があるという.相関係数は
次式で定義される.
2つ変量の共変動
r

各変量の変動の相乗平均
S xy
Sx S y
Sxy   xi  x  yi  y 
第2章 モニタリングⅡ
16/39
2.3.3 相関係数 2/4
2つの量的変数データ
サンプル
x
y
1
x1
y1
2
x2
y2
3
x3
y3
xとyの関連
n
S xy    xi  x ( yi  y )
i 1
 n  n 
  xi yi    xi   yi  / n
i 1
 i 1  i 1 
n
・
2)共分散
・
i
1)偏差積和
xi
yi
xn
yn
Cxy  Sxy /(n 1)
・
・
n
平均
x
y
平方和
S xx
Vx
sx
S yy
Vy
sy
分散
標準偏差
3)相関係数
S xy
Cxy
rxy  ryx 
Cxy
VxVy

S xy
S xx S yy
ばらつく部分がどんな関係にあるか
17/39
第2章 モニタリングⅡ
2.3.3 相関係数 3/4
相関係数の意味
人口データ
5
x 0 1 1 2 2 4 4 5 5 6
y 1 1 2 2 4 4 5 4 5 2
アイデア:平均値で4分割する
4
3
2
・xとyが互いに独立(無関係)であれば,
4つの領域でのプロット数はほぼ等しくなるであろう 1
・かたより(共に大きくなる傾向など)があれば,
0
1
2
3
4
領域にある個数にもかたよりが生じる
・データ1つ1つの平均値からの距離も考慮したい(遠いほど影響力がある)
図の右上の領域にあるデータは
5
xi  3.0  0, yi  3.0  0   xi  3.0 yi  3.0  0
右下の領域で考えると
xi  3.0  0, yi  3.0  0   xi  3.0 yi  3.0  0
n
x, yが無関係なら   xi  x  yi  y   0, 関係あれば  0
i 1
第2章 モニタリングⅡ
18/39
2.3.3 相関係数 4/4
相関係数の意味-2
アイデア:測定単位の影響を除く→標準化する
 xi  x   yi  y 
 xi  x  yi  y    

 

sx   s y 
i 1
i 1 
n
n
アイデア:データ1個当りのに直してみると
 xi  x   yi  y 
1 n  xi  x   yi  y 
 


 

 


sx   s y 
n  1 i 1  sx   s y 
i 1 
n
アイデア:変形してみると
n
  x  x  y  y 
i 1
i
i
 n  1 sx s y

S xy
 n  1Vx  n  1Vy

S xy
S xx S yy
 rxy
これを相関係数と呼ぼう(ピアソンの相関係数)
第2章 モニタリングⅡ
19/39
活用術2.7 二変量の分析で必要な統計指標
活用術 2.7:二変量の分析で必要な統計指標
二変量の関連を統計的な指標で要約する場合は,
①2 つの平均
②2 つの標準偏差 ③1 つの相関係数
の合計 5 つの統計量を記述する必要がある.
相関関係には各分布の平均位置の情報はない
第2章 モニタリングⅡ
20/39
散布図と相関係数の注意
x1‚ Æy1‚ Ì“ ñ•Ï —Ê‚ ÌŠÖŒW
x2‚ Æy2‚ Ì“ ñ•Ï —Ê‚ ÌŠÖŒW
45
60
40
50
35
40
25
y2
y1
30
20
15
30
20
10
10
5
0
0
0
10
20
30
x1
40
50
0
“ñ•Ï—Ê 
³‹K‘È ‰~ P=0.950
20
30
x2
40
50
“ñ•Ï—Ê 
³‹K‘È ‰~ P=0.950
‘ ŠŠÖ
•Ï
”
x1
y1
10
‘ ŠŠÖ
•½‹Ï •W
€•Î
·
25.5 14.57738
22.09614 11.82644
図2.22
‘ŠŠÖ —LˆÓŠm—¦
0.996049
0.0000

”
50
•Ï
”
x2
y2
•½‹Ï •W
€•Î
·
17.95 21.08681
17.7082 21.36532
‘ŠŠÖ —LˆÓŠm—¦
0.996049
0.0000

”
50
同じ相関係数でも散布状況が異なるもの
図2.22に示すように,左の直線に沿って均等に散らばっている場合と,右の偏って散
らばっている場合とでは,明らかに散布状況が異なるが,相関係数は一致している.
右の場合のように,点線で囲った部分が測定を誤った(測定単位を読み間違えた)
値であったり,測定が偏った結果であったりした場合には,見かけの相関係数が1に
近いことがある.点線で囲った部分を除いて,相関係数を計算すると,始めの場合よ
りもずっと小さな値になるかも知れない.相関関係は,相関係数と散布図の両方を
出力して,総合的に考察する必要がある.
第2章 モニタリングⅡ
21/39
擬似相関
いくら散布図を作成して相関を発見しても,それらが論
理的に結びついていないと意味がない.
このような関係を擬似相関と呼ぶ.
例えば,小学生全体では,身長と学力とに正の相関が
ある.
これは,学年を無視したためで,学年別に,身長と学力
の関係を調べれば相関は消える.
これは,学習過程と学力とに相関があり,学習過程と身
体の発育とに相関があり,その結果,身長と学力との間
に擬似相関が現れたのである.
擬似相関は,層別などにより見破ることができる.
第2章 モニタリングⅡ
22/39
操作2.9 相関係数の表示
①散布図が表示されているウインドウの上側にある“身長(イ
ンチ)と体重(ポンド)の二変量の関係”の左の赤い▼をクリッ
クする.
②メニューの“確率楕円”をクリックし,“.95”をクリックすると信
頼率95%の確率楕円が追加される.
③ウインドウの下にできた“相関”の左にある青い三角をクリッ
クすると相関係数が表示され,r=0.709 である.
第2章 モニタリングⅡ
23/39
2.3.4 単回帰モデル
回
帰
関
係
相
関
関
係
• 変数の役割(回帰関係)
y
:説明変数 x
– 予測の対象となる変数:目的変数
– 予測に使う変数
x
星野阪神の成績
阪神電鉄の株価
y
e
残差
• 変数の役割(相関関係)
y
– 解析の対象となる変数:説明変数 x
– 解析の対象となる変数:説明変数
x
イタリアンレストランの
従業員の雰囲気
y
第2章 モニタリングⅡ
料理の美味しさ
24/39
身長と体重の散布図
身長と体重には正相関がある
身長
体重
真の原因
考え方
図2.23 身長と体重の散布図
身長
体重
誤差
身長と体重とは相関関係がある
考え方として,身長よりも体重をコントロールすることが容易である
同じ身長だとしたら,平均的な体重がいくらかを検討することは,エステ業
界だけでなく意味がある
第2章 モニタリングⅡ
25/39
単回帰式
y  b0  b1x  e
(2.16)
y  y  b1  x  x   e
 x, y 
傾きがb1
(2.17)
x,yのデータから平均が引かれている
ことに注目
0
b1 
Sxy
Sxx
 x  x  y  y    x  x  y   x  x  y   x  x  y





i
i
Sxx
i
i
S xx
i
i
S xx
S xx
i
身長で体重を予測することが何故妥当であるか
我々が生活する上での意味的に考えよ。
第2章 モニタリングⅡ
26/39
確率楕円と回帰直線
g ’ ·(ƒCƒ“ƒ`)‚ Ƒ́

d (ƒ| ƒ“ƒh ) ‚Ì“ñ •Ï —Ê‚Ì ŠÖŒW
180
‘̏
d(ƒ|ƒ“ƒh)
160
140
120
100
80
60
40
50
55
60
65
’·(ƒCƒ“ƒ`)
g
70
75
“ñ•Ï—ʏ
³ ‹K‘ȉ~ P=0.950
’¼
ü‚Ì‚ ‚Ä‚Í‚ß
図2.23 身長と体重の散布図
図2.24 確率楕円と回帰直線の関係
確率楕円は、平均的に95%の観測点が存在し
ている領域(共に正規分布を仮定)
単回帰モデルは、y方向の誤差eを最小とする
第2章 モニタリングⅡ
27/39
身長と体重の散布図
g ’ ·(ƒCƒ“ƒ`)‚ Ƒ́

d (ƒ| ƒ“ƒh ) ‚Ì“ñ •Ï —Ê‚Ì ŠÖŒW
180
‘̏
d(ƒ|ƒ“ƒh)
160
140
120
100
80
60
40
50
55
60
65
’·(ƒCƒ“ƒ`)
g
70
回帰直線の意味は,
同じ身長の個体を集めたとき(条件)
その平均的な体重が幾らかを
直線的関係によりモデル化したもの
75
“ñ•Ï—ʏ
³ ‹K‘ȉ~ P=0.950
’¼
ü‚Ì‚ ‚Ä ‚Í‚ß
図2.24 確率楕円と回帰直線の関係
実測値と平均的体重からの差が残差
でどの身長の値(場所)でも同じばらつ
きσを持つとする
回帰直線は,以下の3つの点を必ずとおる
確率楕円と身長に対する垂線との2つの接線の点
平均位置
第2章 モニタリングⅡ
28/39
確率楕円と3つの直線
・yを予測するxの
回帰直線y=b0+b1x
Y
e
e
主成分
・xを予測するyの
回帰直線x=a0+a1y
第2章 モニタリングⅡ
X
29/39
仮説検定
’¼
ü‚ Ì‚ ‚Ä‚ Í‚ ß
標本
‘̏
d(ƒ| ƒ“ƒh) = -127.1452 + 3.7113549 
g’·(ƒCƒ“ƒ`)
‚ ‚ Ä‚Í ‚ß‚ Ì—v–ñ
R2
æ
Ž©— R“x’²
®R 2
æ
Œë
·‚Ì•W
€•Î
·(RMSE)
Y‚Ì•½‹Ï
ƒIƒuƒUƒx
[ƒVƒ‡ƒ“(‚Ü‚½‚Í 
d‚݂̏
‡Œv)
0.502917
0.489836
15.85786
105
40
 x, y 
•ª ŽU•ª
Í
—vˆö
ƒ‚ƒfƒ‹
Œë
·
‘S‘Ì(
C
³
Ï‚Ý)
Ž©—R“x
1
38
39
•½•û˜ a
9668.079
9555.921
19224.000
•½‹Ï•½•û
9668.08
251.47
F’l
38.4460
p’l(Prob>F)
<.0001
ƒpƒ ‰ƒ 
[ ƒ ^
„ ’ è’ l

€
Ø•Ð

g’·(ƒCƒ“ƒ`)

„’è’l

-127.1452
3.7113549
•½ ‹Ï ‚Ì ‚ ‚Ä‚ Í‚ ß
•½‹Ï
•W
€•Î
·[RMSE]
•W
€Œë
·
SSE
105
22.20187
3.510424
19224
図2.25 単回帰分析の結果
•W
€Œë
·
37.52372
0.598559
t’l
-3.39
6.20
傾きがb1
p’l(Prob>| t| )
0.0016
<.0001
母集団
 ,  
x
傾きが
y
  0 : 帰無仮説
  0: 対立仮説
1 
帰無仮説:母集団の傾きはβ1は0である
対立仮説:傾きb1に統計的意味がある
yの平均線が回帰の95%信頼区間上下限から
外れていればOK
30/39
第2章 モニタリングⅡ
回帰診断
誤差(モデルで標本から計算した実際の値で
はないことに注意)
第2章 モニタリングⅡ
31/39
残差の性質
第2章 モニタリングⅡ
32/39
2.3.6 単回帰モデルの外れ値と正規性チェック
回帰であてはまっていない、残差eについて
グラフで、モデルの仮定を確認する
40
. 01 . 05
. 10. 25 . 50 . 75. 90
. 95 . 99
30
20
10
正規性と外れ値をチェック
してみよう
0
-10
-20
-30
-3
-2
-1
0
1
2
3
³ ‹K•ªˆÊ“_ƒvƒ

ƒbƒg
図2.26 残差の正規分位点プロット
残差に外れ値があるときは,その原因を究明する.
外れ値から思いがけない問題解決のヒントが得られる場合がある.
解析から除外した旨を必ず報告書に記入し,
除外した観測値の素性を忘れずに記述する.
第2章 モニタリングⅡ
33/39
2.3.7 単回帰モデルのテコ比と予測残差
Y
図2.27 テコ比の影響
X
重心(平均)から遠い観測値の変動は、回帰直線の傾
きに影響を与えやすい
回帰ではx側は変動しないことを前提としている
確率的に変動しているのはy方向である
第2章 モニタリングⅡ
34/39
演習問題2.1を考えよ
十種競技の例
各競技と総合得点との単回帰分析を行い結果と考察を述
べよ
35/39
第2章 モニタリングⅡ
2.4(補) データ解析の手順-①
Ⅰ.1変数ごとの解析手順
1)分布の様子を見る
手法:ヒストグラム,箱ひげ図,確率プロット
要点:中心・ばらつき・歪み・尖り・はずれ,データ再現性
2)欠測値やゼロ値を確認する
手法:欠測処理可能ソフト,回帰分析で予測 など
要点:ゼロのものと欠測値としてゼロになったものと混同しない
解析にゼロを含めるか含めないかを明確にしておく
3)分布の要約値を算出する
手法:基本統計量
要点:nを明示する.対称性,正規性のチェック
4)はずれ値を検出する
手法:箱ひげ図(はずれ:1.5*4分位,飛びはずれ:3.0*4分位)
要点:外れ値がすべてエラーデータではない,はずれ値検討で思考を豊かに
5)層別して分布を比較する
手法:箱ひげ図,層別ヒストグラム
要点:分布位置,ばらつきの比較,層別は知見と別に機械的に,両者を比較
6)データの再現性を検討する 手法:べき変換,変数変換
36/39
7)分布モデルを検討する
手法:確率プロット,適合性検討
第2章
モニタリングⅡ
2.4(補) データ解析の手順-③
Ⅱ.2変数の対ごとの解析手順
8)2次元の分布の様子を見る
手法:散布図,層別ヒストグラム&箱ひげ図
要点:中心・範囲・形を見る ケース数が多いときはランダムサンプリング
9)欠測値やゼロ値を確認する
要点:ゼロのものと欠測値としてゼロになったものと混同しない
解析にゼロを含めるか含めないかを明確にしておく
10)はずれ値を摘出する
手法:散布図の視察,マハラノビス距離
要点:散布図から見て,楕円形にデータが分布していれば,平均を中心に距離で
測ることができる
11)相関の強さを見る
手法:相関係数,順位相関係数
要点:外れ値の影響を見る.はずれ値を取り除くと係数はどのくらい動くか
12)従属関係を検討する(原因-結果)
手法:パス図,回帰分析
要点:変数の役割に注意,疑似相関にも注意
13)層別を検討する
手法:色やプロットの変更
37/39
14)データの再現性を検討する 第2章
手法:変数変換,直線化,等分散化
モニタリングⅡ
2.4(補) データ解析の手順-⑤
Ⅲ.多変量データ解析手順
15)相関係数行列を点検する
手法:散布図行列,相関係数行列
要点:相関係数の絶対値の大きい幾つかでシナリオを作る,相関の誤差
16)主成分分析によりデータを要約する
1 
手法:主成分分析
n3
要点:はずれ値の影響に注意
17)回帰モデルの探索と回帰診断
手法:回帰分析
要点:探索的診断的に(本講座対象外)
18)各種解析と結果の検証
手法:ブートストラップ法,ジャックナイフ法,データ2分法
要点:検証のないデータの結果は話し半分に聞く.
データを2つに分け同じ解析を行って安定性を見る
第2章 モニタリングⅡ
38/39
第1回宿題
1.以下のデータについて,散布図を描き相関係数を求めてみよう.
(計算手順をきちんと示すこと)
x -1
y -1
z
-1 0
0 –1
0
0
0
1
1
0
1
1
2.xとyの和をzとしたとき,zの平均,平方和,x,yとの偏差積和と
相関係数を求めなさい.
3.rx,yとrx,z, ry,zとはどのような関係があるか
4.注意:宿題には氏名,学籍番号,メールアドレスを記入して
ください.
第2章 モニタリングⅡ
39/39