多変量解析立教大学経営学部山口和範 http://www2.rikkyo.ac.jp/web/kyamagu/j/ 本日の内容     分析手法の分類主成分分析因子分析・・・多変量データの分析  変数間の関係を探る     相関分析散布図回帰分析 … カテゴリデータの分析  正規分布の仮定が置けない  変数間の関係を探る     クロス集計表, 3次元のヒストグラム(棒グラフ) 対数線形モデル潜在クラス分析 … 変数間の関係を探ることで…  現象を知る構造を知る  予測に使う  連関分析  量的変数間の関係を探る   質的変数間の関係を探る   散布図、相関係数クロス集計表量的変数と質的変数間の関係を探る  グループ別平均目的変数の有無  目的変数がある場合    予測したい変数（予測・判別）原因を探りたい変数（要因分析）目的変数がない場合   構造分析分類多変量解析の分類  目的変数の有無とデータの型で  データの型  量的変数  質的変数重回帰分析  目的    データの特徴   目的変数（量的）←説明変数（量的/ダミー）中心のアウトプット   複数の変数によって興味のある量的変数の値を予測するある変数の、特定の変数（目的変数）に対する重要度を知る重相関係数・決定係数、偏回帰係数・標準化偏回帰係数注意点   説明変数間に強い相関がある場合（多重共線性）、偏回帰係数の解釈には注意が必要モデルを作成したデータの範囲を超えての予測は難しい（外挿）判別分析  目的    データの特徴   基準変数（カテゴリ）←説明変数（量的/ダミー）中心のアウトプット   複数の変数によって興味のあるカテゴリ変数の値を予測するある変数の、各カテゴリの判別における重要度を知る標準化された正準判別関数係数、予測されたカテゴリ、誤判別率注意点   説明変数間に強い相関がある場合（多重共線性）未知ケースについての判別力を評価するためには、交差妥当化や別データでのチェックが必要ロジスティック回帰分析  目的    データの特徴   目的変数（２値）←説明変数（量的/ダミー）利点   複数の変数によって興味のある事象が生起する確率を予測し、事象の有無を判別するある変数の値の変化が、事象の生起する見込みをどの程度変化させるか(オッズ比)を知る判別においての寄与度をオッズ比を利用して知ることが可能中心のアウトプット  ロジスティック回帰係数、オッズ比主成分分析  目的    データの特徴   目的変数なし、量的/ダミー変数利点     複数の変数の情報から主要な成分を抽出する（情報の合成）非常に多くの変数から、少数の無相関な新しい変数を作成因子分析と比べると理論が単純で扱いやすい第1主成分に最大の分散を持たせるので、総合指標のように扱える複数の相互に関連した変数を合成した各成分の得点は無相関であるため、元の変数をそのまま用いるよりも次の分析に持ち込みやすい中心のアウトプット  固有値、固有ベクトル、負荷量、主成分得点因子分析  目的   データの特徴   目的変数なし、量的/ダミー変数中心のアウトプット   非常に多くの変数から、単純で少数の意味のある「共通因子」を得る（情報の縮約）因子負荷量、適合度検定、因子得点注意点  探索的な因子分析と確証的因子分析の区別、共分散構造分析への発展対応分析  目的   利点    数量データを前提とする主成分分析と同様の分析をカテゴリデータに対して実施できる各ケースの次元得点を得られ、次の分析に用いることができる中心のアウトプット   名義尺度で測定された２つの変数に対する回答パターンから各カテゴリを低次元の概念空間に布置し、関係性を解釈するカテゴリスコア、散布図関連手法   数量化Ⅲ類：0-1のダミー変数が対象等質性分析（HOMALS）：３つ以上のカテゴリ変数が扱える多次元尺度法  目的   データの特徴   複数の対象間の類似度（距離）データ中心のアウトプット   類似度から興味のある変数群を低次元の概念空間に布置し、類似性を解釈するストレス値、刺激座標注意点  抽出した次元の解釈は恣意的クラスター分析  目的    データの特徴   目的変数なし、量的・度数・2値データ中心のアウトプット   複数の変数の情報から類似しているケースをグループ化する複数の変数を類似したグループにクラスタリングするデンドログラム、所属クラスタ注意点  選択する距離測定手法やクラスタ化の方法によってかなり異なる結果をもたらす場合がある主成分分析の目的  情報の集約  新しい尺度の構築  構造の探索主成分分析現在の変数を組み合わせて新しい変数をつくる主成分データ形式 X1 X2 ･･･ Xp 1 x11 x21 ･･･ xp1 2 x12 x22 ･･･ xp2 ･･･ n ･･･ x1n x2n ･･･ xpn 主成分線形結合 z  a1x1  a2 x2  a p x p 主成分分析 p個の変数 X 1 , X 2 , X p 新しい尺度 Z1 , Z 2 ,  Z p Z1 , Z 2 ,Z p からを作成は無相関主成分分析 Var(Z1 )  Var(Z2 )    Var(Z p ) 第１主成分は最大の分散第２主成分は次に大きい分散･･･データの中心(平均) 直線と点の距離データの中心 ( 平均 ) 主成分の分散主成分数の決定     寄与率固有値スクリープロット解釈 4 3 2 1 0 0 1 2 3 4 5 6 主成分の解釈  各変数への重みを基に解釈を行う  符号と絶対値に注目  絶対値の小さな係数の変数は無視ここからの内容  潜在変数を用いたモデル  因子分析モデル    推定法適合度構造方程式モデルへ  測定モデルと構造モデル簡単な例から本塁打と三振の散布図 150 100 三振  50 0 10 20 本塁打 30 40 どのようなモデルが…  回帰分析モデル   三振＝a+b×本塁打+e 本塁打＝a+b× 三振 +e b が正の意味は三振をすれば本塁打が打てる！？現実の合うモデルは… 本塁打三振 2変数間の相関は直接的なものではなく… 現実の合うモデルは… 本塁打三振 + + 打撃能力ー + Swing Speed 正の相関の理由は…   打撃能力にあまり差がない標本（プロ野球のデータ）もし、打撃能力に差があるようなデータを集めれば… 潜在変数(latent variable)とは  直接観測されない(できない)変数     誤差なしで測定できない学生の能力を測りたい満足度を測りたい打撃力関連する変数同士をまとめる総合指標の作成   主成分分析法： Principal Component Analysis 潜在変数モデル変数間の関係を説明するモデル潜在変数とは？概念的、仮説的変数       心理学社会学経営学経済学医学信頼性直接測定できないヒトの能力、知能、個性地位、行動、意識消費者の嗜好、態度景気動向､産業別生産性､リスク症候群、Quality of Life 故障のハザード顕在変数ＥＥＥテスト１Ｅテスト４テスト２潜在変数知能（Ｚ）テスト３相関(連関)関係偽の相関(連関)関係潜在変数の値を固定したら、顕在変数間の相関(連関）は消失する英語国語算数理科 b c a 学力 d 英語=a×学力+誤差1 国語=b×学力+誤差2 算数=c×学力+誤差3 理科=d×学力+誤差4 因子分析モデル X 1  a11 F1  a12 F2    a1q Fq  e1 X 2  a21 F1  a22 F2    a2 q Fq  e2  X p  a p1 F1  a p 2 F2    a pq Fq  e p 共通因子： F1 , F2 ,, Fq (変数) 独自因子： e1 , e2 ,, ep (変数) 独自因子は互いに無相関潜在変数を使う理由   多くの測定データ(顕在変数)間の複雑な関係を低い次元の因子(潜在変数)で、解釈できる。節約の原理測定誤差の影響を受けない因子(潜在変数)間の因果関係を推論する方が、測定誤差を伴う顕在変数間の関係を推論するより、精度の高い結果が得られる。希薄化の修正潜在変数を使う理由  観測できない集団の異質性 Unobserved heterogeneity の修正  観測できない共変量の組み込み因子分析モデル変数１因子１変数２・・・変数ｐ p個の変数・・・因子ｑ q個の因子因子分析の手順   分析する変数の指定因子数の決定    因子の回転    適合度固有値・寄与率など解釈を簡単にするため / 単純構造直交回転・斜交回転因子得点を使った分析斜交回転    因子間相関を認め、より単純構造を追及因子負荷の濃淡がはっきりし、解釈が簡単になる直接オブリミン回転がSPSSで利用可能