判別分析の実行

判別分析
• ひとつの従属変数を複数の独立変数から予
測・説明する手法
• 従属変数を構成するカテゴリーを判別するた
めに「群分け」を行う。
群わけとは
• 独立変数を利用して複数あるカテゴリーを2
分する1本の直線を導き出す。
この直線を表す関数を「判別関数」とよぶ。
カテゴリーが2つの場合には,1本の直線を引けばよい
この線引き作業で完全に群分けができるわけ
ではない。
一方の群と他方の群をできるだけうまく区別で
きるところを探して,そこに線を引く。
また,カテゴリーが3つある時に必ず2本の線
が引けるわけではない。何本の線が引けるの
かも,検定結果を見ながら判断する。
結果に何が出てくるのか
• 標準化判別係数
– 基準変数を構成するカテゴリーの群分けに,各
独立変数が貢献する程度
• 判別的中率
={(正答サンプル数/全サンプル数)}×100
– いくつかの群分け作業を通して行った判別の結
果が,実際のカテゴリーとどの程度一致するのか
の確率。
例えば・・・
①血圧,性格傾向,1日にとるカロリー数から心
臓疾患の有無を予測する。
②学業成績,職業興味,動機づけから進学した
学部を予測する。
練習
大学生10名に対して調査
外向性,自動車への興味,経済力(学生自身
が自由に使えるお金の程度)から自動車の所
有の有無を予測したい。
自動車所有
1
1
1
0
1
0
0
1
0
0
外向性
4
5
3
2
4
3
2
4
3
1
興味
3
4
4
5
4
2
3
5
2
2
経済力
2
3
2
2
4
3
4
5
3
1
判別分析の実行
• 分析 → 分類 → 判別分析
• 「グループ化変数」に「自動車所有」を指定
• 「範囲の定義」をクリックし,「最小」に「0」,
「最大」に「1」を入力 「続行」をクリック
• 「独立変数」に「外向性」「興味」「経済力」を指
定する。
• 分類」をクリック
• 「交差妥当化」にチェックを入れ,「続行」をクリッ
ク。
「OK」をクリック
結果
• 固有値と正準相関係数が算出される。
• 正準相関が高い値であることは,うまくグ
ループを識別することができる判別関数が得
られたことを表す。
• Wilksのラムダは,独立変数(説明変数)の平
均値がグループ間で異なっているかどうかを
表す。
• これが有意でないことは,2つのグループの
距離が十分に離れていない(ページ2の図で,
2つの円の距離が十分に離れておらず,十分
に区別できない)ことを意味する。 ここでの有
意確率は,上記の正準相関の有意水準と考
えてよい。
• 標準化された正準判別係数は,基準変数を
構成するカテゴリーの群分けに,各独立変数
が貢献する程度を意味する。
• この場合では,社交性が1.07と大きな値をと
り,流行敏感度の影響力は社交性よりも小さ
い。そして経済力は負の値を示している。
• グループ重心の関数は,2ページの図の円
の中心が,直線からどの位置にあるのかを
表す数値である。
• 直線を0とすると,「所有なし」は-1.49の位置
に,「所有あり」は1.49の位置にある。
・上記の2つの表を合わせて考えると,外向性が高
く自動車に興味を抱く傾向にある大学生ほど自動
車を所有する傾向にある。
・逆にそれらが低く経済力(自由に使えるお金)の
ある大学生ほど所有しない傾向にあるといえる。
⇒自動車を所有すれば維持費がかかる。経済力
の低い学生ほど所有し,経済力の高い学生ほど所
有しないというのは,自動車の維持費が関係して
いる可能性も考えられる。
• 交差妥当化の結果が示される。
• 「交差確認済み」の部分を見ると,10名中1名
だけの予測が外れている。従って「判別的中
率は90%」ということになる。