統計学2 第8回 - ホーム

多変量解析
立教大学経営学部
山口和範
http://www2.rikkyo.ac.jp/web/kyamagu/j/
本日の内容




分析手法の分類
主成分分析
因子分析
・・・
多変量データの分析

変数間の関係を探る




相関分析
散布図
回帰分析
…
カテゴリデータの分析

正規分布の仮定が置けない

変数間の関係を探る




クロス集計表, 3次元のヒストグラム(棒グラフ)
対数線形モデル
潜在クラス分析
…
変数間の関係を探ることで…

現象を知る
構造を知る

予測に使う

連関分析

量的変数間の関係を探る


質的変数間の関係を探る


散布図、相関係数
クロス集計表
量的変数と質的変数間の関係を探る

グループ別平均
目的変数の有無

目的変数がある場合



予測したい変数(予測・判別)
原因を探りたい変数(要因分析)
目的変数がない場合


構造分析
分類
多変量解析の分類

目的変数の有無とデータの型で

データの型

量的変数

質的変数
重回帰分析

目的



データの特徴


目的変数(量的)←説明変数(量的/ダミー)
中心のアウトプット


複数の変数によって興味のある量的変数の値を予測する
ある変数の、特定の変数(目的変数)に対する重要度を知る
重相関係数・決定係数、偏回帰係数・標準化偏回帰係数
注意点


説明変数間に強い相関がある場合(多重共線性)、偏回帰係数の解
釈には注意が必要
モデルを作成したデータの範囲を超えての予測は難しい(外挿)
判別分析

目的



データの特徴


基準変数(カテゴリ)←説明変数(量的/ダミー)
中心のアウトプット


複数の変数によって興味のあるカテゴリ変数の値を予測する
ある変数の、各カテゴリの判別における重要度を知る
標準化された正準判別関数係数、予測されたカテゴリ、誤判別率
注意点


説明変数間に強い相関がある場合(多重共線性)
未知ケースについての判別力を評価するためには、交差妥当化や
別データでのチェックが必要
ロジスティック回帰分析

目的



データの特徴


目的変数(2値)←説明変数(量的/ダミー)
利点


複数の変数によって興味のある事象が生起する確率を予測し、事
象の有無を判別する
ある変数の値の変化が、事象の生起する見込みをどの程度変化さ
せるか(オッズ比)を知る
判別においての寄与度をオッズ比を利用して知ることが可能
中心のアウトプット

ロジスティック回帰係数、オッズ比
主成分分析

目的



データの特徴


目的変数なし、量的/ダミー変数
利点




複数の変数の情報から主要な成分を抽出する(情報の合成)
非常に多くの変数から、少数の無相関な新しい変数を作成
因子分析と比べると理論が単純で扱いやすい
第1主成分に最大の分散を持たせるので、総合指標のように扱える
複数の相互に関連した変数を合成した各成分の得点は無相関であるため、
元の変数をそのまま用いるよりも次の分析に持ち込みやすい
中心のアウトプット

固有値、固有ベクトル、負荷量、主成分得点
因子分析

目的


データの特徴


目的変数なし、量的/ダミー変数
中心のアウトプット


非常に多くの変数から、単純で少数の意味のある「共通因子」を
得る(情報の縮約)
因子負荷量、適合度検定、因子得点
注意点

探索的な因子分析と確証的因子分析の区別、共分散構造分析
への発展
対応分析

目的


利点



数量データを前提とする主成分分析と同様の分析をカテゴリ
データに対して実施できる
各ケースの次元得点を得られ、次の分析に用いることができる
中心のアウトプット


名義尺度で測定された2つの変数に対する回答パターンから各
カテゴリを低次元の概念空間に布置し、関係性を解釈する
カテゴリスコア、散布図
関連手法


数量化Ⅲ類:0-1のダミー変数が対象
等質性分析(HOMALS):3つ以上のカテゴリ変数が扱える
多次元尺度法

目的


データの特徴


複数の対象間の類似度(距離)データ
中心のアウトプット


類似度から興味のある変数群を低次元の概念空間に布置し、類
似性を解釈する
ストレス値、刺激座標
注意点

抽出した次元の解釈は恣意的
クラスター分析

目的



データの特徴


目的変数なし、量的・度数・2値データ
中心のアウトプット


複数の変数の情報から類似しているケースをグループ化する
複数の変数を類似したグループにクラスタリングする
デンドログラム、所属クラスタ
注意点

選択する距離測定手法やクラスタ化の方法によってかなり異なる結果をもたらす
場合がある
主成分分析の目的

情報の集約

新しい尺度の構築

構造の探索
主成分分析
現在の変数を組み合わせて
新しい変数をつくる
主成分
データ形式
X1
X2
・・・
Xp
1
x11
x21
・・・
xp1
2
x12
x22
・・・
xp2
・・・
n
・・・
x1n
x2n
・・・
xpn
主成分
線形結合
z  a1x1  a2 x2  a p x p
主成分分析
p個の変数
X 1 , X 2 , X p
新しい尺度
Z1 , Z 2 ,  Z p
Z1 , Z 2 ,Z p
から
を作成
は無相関
主成分分析
Var(Z1 )  Var(Z2 )    Var(Z p )
第1主成分は最大の分散
第2主成分は次に大きい分散
・・・
データの中心(平均)
直
線
と
点
の
距
離
デ
ー
タ
の
中
心
(
平
均
)
主
成
分
の
分
散
主成分数の決定




寄与率
固有値
スクリープロット
解釈
4
3
2
1
0
0
1
2
3
4
5
6
主成分の解釈

各変数への重みを基に解釈を行う

符号と絶対値に注目

絶対値の小さな係数の変数は無視
ここからの内容

潜在変数を用いたモデル

因子分析モデル



推定法
適合度
構造方程式モデルへ

測定モデルと構造モデル
簡単な例から
本塁打と三振の散布図
150
100
三振

50
0
10
20
本塁打
30
40
どのようなモデルが…

回帰分析モデル


三 振 =a+b×本塁打+e
本塁打=a+b× 三 振 +e
b が正の意味は
三振をすれば本塁打が
打てる!?
現実の合うモデルは…
本塁打
三 振
2変数間の相関は直接的なものではなく…
現実の合うモデルは…
本塁打
三 振
+
+
打撃能力
ー
+
Swing Speed
正の相関の理由は…


打撃能力にあまり差がない標本
(プロ野球のデータ)
もし、打撃能力に差があるようなデータを
集めれば…
潜在変数(latent variable)とは

直接観測されない(できない)変数




誤差なしで測定できない
学生の能力を測りたい
満足度を測りたい
打撃力
関連する変数同士をまとめる
総合指標の作成


主成分分析法:
Principal Component Analysis
潜在変数モデル
変数間の関係を説明するモデル
潜在変数とは?
概念的、仮説的変数






心理学
社会学
経営学
経済学
医学
信頼性
直接測定できない
ヒトの能力、知能、個性
地位、行動、意識
消費者の嗜好、態度
景気動向、産業別生産性、リスク
症候群、Quality of Life
故障のハザード
顕在変数
E
E
E
テスト1
E
テスト4
テスト2
潜在変数
知能(Z)
テスト3
相関(連関)関係
偽の相関(連関)関係
潜在変数の値を固定したら、
顕在変数間の相関(連関)は消失する
英語
国語
算数
理科
b
c
a
学力
d
英語=a×学力+誤差1
国語=b×学力+誤差2
算数=c×学力+誤差3
理科=d×学力+誤差4
因子分析モデル
X 1  a11 F1  a12 F2    a1q Fq  e1
X 2  a21 F1  a22 F2    a2 q Fq  e2

X p  a p1 F1  a p 2 F2    a pq Fq  e p
共通因子:
F1 , F2 ,, Fq
(変数)
独自因子: e1 , e2 ,, ep (変数)
独自因子は互いに無相関
潜在変数を使う理由


多くの測定データ(顕在変数)間の複雑な
関係を低い次元の因子(潜在変数)で、解
釈できる。
節約の原理
測定誤差の影響を受けない因子(潜在変
数)間の因果関係を推論する方が、測定誤
差を伴う顕在変数間の関係を推論するよ
り、精度の高い結果が得られる。
希薄化の修正
潜在変数を使う理由

観測できない集団の異質性
Unobserved heterogeneity の
修正

観測できない共変量の組み込み
因子分析モデル
変数1
因子1
変数2
・・・
変数p
p個の変数
・・・
因子q
q個の因子
因子分析の手順


分析する変数の指定
因子数の決定



因子の回転



適合度
固有値・寄与率など
解釈を簡単にするため / 単純構造
直交回転・斜交回転
因子得点を使った分析
斜交回転



因子間相関を認め、より単純構造を追及
因子負荷の濃淡がはっきりし、解釈が簡単
になる
直接オブリミン回転がSPSSで利用可能