多変量データ分析B 第5回 第3章:主成分分析 林俊克&廣野元久「多変量データの活用術」:海文堂 廣野元久 2004.5.19. SFC5限 第3章 主成分分析 Ⅰ 1/40 第3章 主成分分析 主成分分析 目標 主成分分析とは何ができる道具かを 理解しよう 主成分分析のコンピュータ出力を 読み取れる力を身につけよう 主成分分析のからくりと前提を理解しよう 課題を通じて主成分分析の使い手になろう 第3章 主成分分析 Ⅰ 2/40 アンケート作成 1/3 理想のアイドルの要件についてアンケート調 査することを考えよう. 1.各自で5つずつ要件を考えなさい. ・ ・ ・ ・ ・ 2.それに対する解答肢を作成するが 今回は5段階評点とする 評価語を考えよ. 第3章 主成分分析 Ⅰ 3/40 アンケート作成 2/3 理想の恋人の要件についてアンケート調査することを 考えよう. 1.クラスで決定された7つの要件をまとめなさい. ・ ・ ・ ・ ・ 2.クラスで決定された5段階の評価語をまとめなさい. ① ② ③ ④ ⑤ 第3章 主成分分析 Ⅰ 4/40 アンケート作成 3/3 アンケート用紙を作成しなさい 第3章 主成分分析 Ⅰ 5/40 アンケートの分析 理想の恋人の7要件について 1.総合評点をどのようにつけるとよいか 2.7つの要件についてのいくつかの合成指標を 作れるか 3.回答者の分類は可能か 第3章 主成分分析 Ⅰ 6/40 適用例と解析ストーリー データ 10人の生徒に施した国語,英語,数学,理科の試験成績 注意:概要を理解するためにサンプル数が10と少ない. 実際には,50以上のサンプル数が欲しいところ 試験の成績データ 生徒 国語 x1 英語 x2 数学 x3 理科 x4 1 86 79 67 68 2 71 75 78 84 3 42 43 39 44 4 62 58 98 95 5 96 97 61 63 6 39 33 45 50 7 50 53 64 72 8 78 66 52 47 9 51 44 76 72 10 89 92 93 91 Q1.変量は何か Q2.変量の属性は何か Q3.サンプルは何か 第3章 主成分分析 Ⅰ 7/40 適用例と解析の目的 この4次元データに基づいて,相関構造を解明したい 国語 英語 数学 主成分1 主成分2 理科 1.より低い次元でデータのばらつきを解釈できないか 2.どのように合成変数(主成分)を構成するか 3.主成分の説明力の定義と測定(当てはまりよさ) 4.科目や生徒の分類したい 第3章 主成分分析 Ⅰ 8/40 解析ストーリー-① 相関係数行列Rの第1固有値(最大固有値)λ1に 対応する固有ベクトルから第1主成分z1を求める 次にRの第2固有値λ2に対応する固有ベクトルから 第2主成分z2を求める 同様にして第k主成分(k=1,2,3,・・・,p)まで求め る 注)固有値,固有ベクトルは参考書(永田&棟近)pp37-38を参照せよ. 理解できない読者は,Ax=λx を満たす特別なx が固有ベクトル λが固有値と理解しよう. 第3章 主成分分析 Ⅰ 9/40 解析ストーリー-② それぞれの主成分の寄与率および累積寄 与率を求める 固有値が1以上, 累積寄与率が80%を超えるところ を目安として主成分を選択する 注)主成分の選択基準は,主観的なもので,あくまで慣例として 使われるものである. 主成分の使い手で達人と称される人々はその限りではない. 読者は,これから主成分分析と付き合いが始まるのであるから まずは慣例にしたがってみよう. 第3章 主成分分析 Ⅰ 10/40 解析ストーリー-③ 因子(主成分)負荷量を求める 固有ベクトルや因子負荷量の値を参考にして 選択した主成分の意味について考察する 因子負荷量を散布図にプロットして変数の分類 を行う 同様に主成分得点を散布図にプロットして サンプルの特徴つけを行う 注)主成分の意味つけは,主観的なものである.知見に基づいて 成分に名前をつけてみる. 成分の命名はキャッチフレーズと同じ感覚で・・・ 第3章 主成分分析 Ⅰ 11/40 JMP操作-① 事前分析 手順0.JMPを起動しデータを入力する 手順1.各量数の分布を調べる ・ウインドウメニューから→分析→1変量の分布 ダイアログのリストから変数指定→Y列ボタン 変量を確認後OKボタン 手順2.変量間の散布図を調べる ・ウインドウメニューから→分析→多変量の相関 ダイアログのリストから変量指定→Y列ボタン 変量確認後OKボタン 手順3.変量間の相関係数を求める 出力ウインドウのスライダを動かし相関係数行列を 表示し考察する 12/40 第3章 主成分分析 Ⅰ JMP操作-② ŽU • z } s— ñ 100 90 80 70 60 50 40 事前分析 ‘ ŠŠÖ ‘ Œê ‘Œê ‰pŒê ”Šw — ‰È 100 80 ‰pŒê 60 ‘Œê 1.0000 0.9670 0.3761 0.3113 ‰pŒê 0.9670 1.0000 0.4146 0.3983 ”Šw 0.3761 0.4146 1.0000 0.9721 — ‰È 0.3113 0.3983 0.9721 1.0000 40 100 90 80 70 60 50 40 散布図行列の楕円は信頼率95%の 確率楕円,この様子から相関の強さ を視覚的に判断する ”Šw 100 90 80 — ‰È 70 60 50 40 50 60 70 80 90 40 60 80 100 40 50 60 70 80 90 相関係数は小数点以下2桁程度で 判断する 50 60 70 80 90 100 Qこの結果から何が読み取れるか 第3章 主成分分析 Ⅰ 13/40 JMP操作-③ 主成分分析の実行 1.出力ウインドウの▼多変量をクリック メニューの主成分分析から相関係数行列からをクリック Žå ¬• ª•ª Í : ‘ ŠŠÖŒ W ” s — ñ‚ ©‚ ç ŒÅ—L’l 2.7207 1.2218 0.0524 0.0051 Šñ—^—¦ 68.0183 30.5450 1.3103 0.1264 —Ý ÏŠñ—^—¦ 68.0183 98.5633 99.8736 100.0000 ŒÅ—LƒxƒNƒgƒ‹ ‘ Œê 0.48727 0.52734 0.49897 0.48529 ‰pŒê 0.51054 0.47400 -0.53867 -0.47383 ”Šw 0.50832 -0.48075 0.50411 -0.50632 — ‰È 0.49349 -0.51587 -0.45467 0.53256 第2主成分まで ・1を越えている それ以降の固有値は ほとんどゼロ ・累積寄与率は98%以上 注)上の固有ベクトルは主成分の方向を表しているが主成分と元の変量の 関係の強さがわからない →その関連の強さを示す因子負荷量を求める必要がある 因子負荷量はJMP以外のソフトでは標準で出力される JMPで計算した主成分の得点をデータウインドウへ保存する 第3章 主成分分析 Ⅰ 14/40 JMP操作-④ 主成分得点の保存 1.出力ウインドウの▼主成分/因子分析をクリック メニューの主成分の保存からダイアログで4を入力し 全ての主成分得点をデータウインドウに保存する 2.多変量の相関から元の変数と主成分を含めて相関 行列を出力する ‘ ŠŠÖ ‘Œê ‰pŒê ”Šw — ‰È Žå ¬•ª1 Žå ¬•ª2 Žå ¬•ª3 Žå ¬•ª4 ‘Œê 1.0000 0.9670 0.3761 0.3113 0.8037 0.5829 0.1142 0.0345 ‰pŒê ”Šw 0.9670 0.3761 1.0000 0.4146 0.4146 1.0000 0.3983 0.9721 0.8421 0.8385 0.5239 -0.5314 -0.1233 0.1154 -0.0337 -0.0360 — ‰È 0.3113 0.3983 0.9721 1.0000 0.8140 -0.5702 -0.1041 0.0379 Žå ¬•ª1 0.8037 0.8421 0.8385 0.8140 1.0000 -0.0000 -0.0000 -0.0000 Žå ¬•ª2 0.5829 0.5239 -0.5314 -0.5702 -0.0000 1.0000 -0.0000 -0.0000 Žå ¬•ª3 0.1142 -0.1233 0.1154 -0.1041 -0.0000 -0.0000 1.0000 -0.0000 Žå ¬•ª4 0.0345 -0.0337 -0.0360 0.0379 -0.0000 -0.0000 -0.0000 1.0000 これが因子負荷量で主成分と元の変数との相関 主成分同士は無相関に着目 上の相関行列を右クリックしてデータテーブルに保存させる 15/40 主成分を表示させないようにして,主成分1と主成分2の散布図を作る 第3章 主成分分析 Ⅰ JMP操作-⑤ Žå ¬•ª1‚Æ Žå ¬•ª2‚Ì “ñ•Ï—Ê‚Ì ŠÖŒW 1 0.75 ‘ Œê ‰pŒê 0.5 0.25 Žå ¬• ª 2 Q.成分(因子負荷量) プロットの解釈をせよ 0 -0.25 ” Šw — ‰È -0.5 -0.75 -1 -1 -0.75 -0.5 -0.25 0 .25 Žå ¬•ª1 .5 .75 1 円周に近ければ 2つの成分での説明力が高い 線と円周は後で追加した 第3章 主成分分析 Ⅰ 16/40 JMP操作-⑥ Žå ¬• ª1‚Æ Žå ¬• ª2‚Ì “ñ• Ï—Ê‚Ì ŠÖŒW 2 Žå ¬•ª1‚Æ Žå ¬•ª2‚Ì “ñ•Ï—Ê‚Ì ŠÖŒW 1 5 0.75 8 0.5 1 0.25 3 0 Žå ¬• ª 2 Žå ¬• ª 2 1 ‘ Œê ‰pŒê 10 6 2 7 -1 0 -0.25 ” Šw — ‰È -0.5 9 -0.75 4 -2 -3 -2 -1 0 Žå ¬•ª1 1 -1 2 3 -1 -0.75 -0.5 -0.25 0 .25 Žå ¬•ª1 .5 .75 1 Q.生徒を分類してみよう 第3章 主成分分析 Ⅰ 17/40 変数が2個の場合 x2 x1 Q 2つの変数空間(散布図)で誤差が最小になるような直線を目 見当で引いてみなさい.それはどんな基準で引きましたか. 第3章 主成分分析 Ⅰ 18/40 練習問題 変数名 x 1 y 1 2 3 データ 3 4 5 2 5 4 平均 標準偏差 3 2 3 2 Q.合成変数 u=ax+by を作りたい. 条件はa2+b2=1で合成変数の分散を最大にしたい. 1)5つのサンプルの合成変数をaとbを使い表せ. 2)合成変数の平均と標準偏差を求めよ. ただし,分散の分母は計算が簡単のためにn=5を使え 3)a,bの未知数を求めよ. 第3章 主成分分析 Ⅰ 19/40 3.1 二変量による主成分分析 1/5 二変量の合成変量で代表的なものが総合点 y 1 数学の得点 1 英語の得点 y 数学の得点 英語の得点 測定単位に依存するのはまずい ・難易度や設問数による u1 x1 x1 x x , u2 2 2 s1 s2 平均0, 標準偏差1 常套手段:標準化変量の合計とする 数学の得点 数学の平均 英語の得点 英語の平均 数学の標準偏差 英語の標準偏差 (数学の偏差値 英語の偏差値) /10-( 50+50) y 第3章 主成分分析 Ⅰ 20/40 3.1 二変量による主成分分析 2/5 g ’·(ƒCƒ“ƒ`)‚Æ ‘Ì d (ƒ|ƒ“ƒh )‚Ì“ñ•Ï —Ê‚ÌŠÖŒW •W €‰» g ’·(ƒCƒ“ ƒ`)‚Æ •W €‰»‘Ì d (ƒ|ƒ“ƒh )‚Ì“ñ•Ï —Ê‚ÌŠÖŒW 180 3 •W €‰»‘Ì d(ƒ|ƒ“ƒh) 160 ‘Ì d(ƒ|ƒ“ƒh) 140 120 100 80 60 40 2 標準化しても 散布状況は変らない 1 0 -1 -2 -3 48 52 56 60 64 68 72 76 g’·(ƒCƒ“ƒ`) “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 ‘ŠŠÖ •Ï ” •½ ‹Ï •W €•Î · ‘ŠŠÖ g’·(ƒCƒ“ƒ`) 62.55 4.242338 0.7092 ‘Ì d(ƒ|ƒ“ƒh) 105 22.20187 -3 標準化 ” 40 -2 -1 0 1 2 •W €‰» g’·(ƒCƒ“ƒ`) 3 “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 ‘ŠŠÖ •Ï ” •½ ‹Ï •W €•Î · •W €‰» g’·(ƒCƒ“ƒ`) 0.00 1 •W €‰»‘Ì d(ƒ|ƒ“ƒh) 0.00 1 ‘ŠŠÖ 0.7092 ” 40 図3.1 身長と体重のプロット(左),標準化後(右) 標準化により:分布の形は変わらない :原点が平均位置に移動 単位が標準偏差あたりに変わる 第3章 主成分分析 Ⅰ 21/40 3.1 二変量による主成分分析 3/5 「ビッグクラス」の身長&体重で考える x1 62.55 x2 105 y u1 u2 4.242 22.2 2つの変数による主成分分析は実質的価値はないが, 主成分の意味を理解する上で重要である. 手順1.2つの変数を標準化する 2つの変数には2変数正規分布を仮定する n u i 1 2 i1 n n u n 1: ui1ui 2 (n 1)rx1, x 2 i 1 2 i2 i 1 u1 u2 y1 2 a12 1 2 1 平均0,分散(1.31)2 第3章 主成分分析 Ⅰ a22 22/40 3.1 二変量による主成分分析 4/5 標準化身長(インチ)と標準化体重(ポンド)の二変量の関係 y1 標準化しても 2 平均0,分散(0.54)2 1 残差 0 これは散布図を45度時計周りに 回転させたことと実質的同じ -1 スコア -3 -2 -1 0 1 2 標準化身長(インチ) 3 二変量正規楕円 P=0.950 相関 変数 平均 標準偏差 相関 標準化身長(インチ) 0.00 1 0.7092 標準化体重(ポンド) 0.00 1 ‘ ‡Žw4•W‚Æ Žc · ‚Ì“ñ•Ï—Ê‚ÌŠÖŒW •W €‰»‘ ‡Žw •W‚Æ•W €‰ 2 3 2 数 40 4 1 3 0 -12 -21 -30 -1 -4 -4 -3 -2 -1 0 1 2 3 4 -2 ‘ ‡Žw •W -3 “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 -4“ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.900 -4 -3³ ‹K‘ȉ~ -2 -1 P=0.750 0 1 2 3 4 “ñ•Ï—Ê ‡Žw •W “ñ•Ï—Ê ³ ‹K‘ȉ~‘ P=0.500 ‘ŠŠÖ “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 •Ï ” “ñ•Ï—Ê ³ ‹K‘ȉ~ •½ ‹ÏP=0.900 •W €•Î · ‘ŠŠÖ ‘ ‡Žw “ñ•Ï—Ê •W ³ ‹K‘ȉ~ 5.11e-16 P=0.750 1.307351 8.22e-16 Žc “ñ•Ï—Ê · ³ ‹K‘ȉ~ -3.6e-17 P=0.500 0.381335 第3章 主成分分析 Ⅰ €‰»Žc · •W €‰»Žc ·•W -3 •W €‰»‘ ‡Žw •W‚Æ•W €‰ Žc · -2 ‘ ‡Žw •W‚Æ Žc · ‚Ì“ñ•Ï—Ê‚ÌŠÖŒW Žc · 標準化体重(ポンド) 3 スコア: y1 u1 u2 / 2 残差 : y1 u2 u1 / 2 1 2 0 1 -1 0 -2 -1 -2 -1 0 •W €‰»‘ ‡ -2 “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0. “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0. -2 ³ ‹K‘ȉ~ -1 P=0. 0 “ñ•Ï—Ê •W €‰»‘ ‡ “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0. ‘ŠŠÖ “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0 ³ ‹K‘ȉ~ P=0• •Ï ” “ñ•Ï—Ê “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0 •W €‰»‘ ‡Žw •W 1.11 “ñ•Ï—Ê P=0 •W €‰»Žc³ ‹K‘ȉ~ · -2.8e 23/40 3.1 二変量による主成分分析 5/5 ‘ ‡Žw •W‚Æ Žc · ‚Ì“ñ•Ï—Ê‚ÌŠÖŒW •W €‰»‘ ‡Žw •W‚Æ•W €‰»Žc · ‚Ì“ñ •Ï—Ê‚ÌŠÖŒW ‘ ‡Žw4•W‚Æ Žc · ‚Ì“ñ•Ï—Ê‚ÌŠÖŒW •W €‰»‘ ‡Žw •W‚Æ•W €‰»Žc · ‚Ì“ñ •Ï—Ê‚ÌŠÖŒW 2 3 €‰»Žc · •W €‰»Žc ·•W Žc · 2 4 1 3 0 Žc · -12 -21 -30 -1 -4 -4 -3 -2 -1 0 1 -2 ‘ ‡Žw •W -3 “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 -4“ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.900 -4 -3³ ‹K‘ȉ~ -2 -1 P=0.750 0 1 “ñ•Ï—Ê ‡Žw •W “ñ•Ï—Ê ³ ‹K‘ȉ~‘ P=0.500 1 2 0 1 -1 0 -2 2 2 3 3 4 4 ‘ŠŠÖ “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 •Ï ” “ñ•Ï—Ê ³ ‹K‘ȉ~ •½ ‹ÏP=0.900 •W €•Î · ‘ŠŠÖ ‘ ‡Žw “ñ•Ï—Ê •W ³ ‹K‘ȉ~ 5.11e-16 P=0.750 1.307351 8.22e-16 Žc “ñ•Ï—Ê · ³ ‹K‘ȉ~ -3.6e-17 P=0.500 0.381335 ‘ŠŠÖ •Ï ” •½ ‹Ï •W €•Î · ‘ŠŠÖ ‘ ‡Žw •W 5.11e-16 1.307351 8.22e-16 Žc · -3.6e-17 0.381335 -1 -2 -1 0 1 •W €‰»‘ ‡Žw •W 2 -2 “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.900 -2 ³ ‹K‘ȉ~ -1 P=0.750 0 1 2 “ñ•Ï—Ê •W € ‰»‘ ‡ Žw •W “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.500 ‘ŠŠÖ “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 ³ ‹K‘ȉ~ P=0.900 •Ï ” “ñ•Ï—Ê •½ ‹Ï •W €•Î · “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.750 •W €‰»‘ ‡Žw •W 1.11e-16 1 “ñ•Ï—Ê P=0.500 •W €‰»Žc³ ‹K‘ȉ~ · -2.8e-17 1 ‘ŠŠÖ •Ï ” •½ ‹Ï •W €•Î · •W €‰»‘ ‡Žw •W 1.11e-16 1 •W €‰»Žc · -2.8e-17 1 ‘ŠŠÖ 8.43e-16 図3.2 総合指標y1と残差y2の散布図(左)と標準化後(右) ‘ŠŠÖ 8.43e-16 左の図は横軸と縦軸とで,分散(標準偏差)が異なる そこで,どちらも分散1に標準化したものが右図 右図ではどの方向でもユーグリッド距離=マハラノビス距離 24/40 第3章 主成分分析 Ⅰ 3.1.2 二変量の主成分の算出 1/11 z1 l11u1 l12u2 主成分の係数 NG OK 主成分1(通常は第一主成分という) 目的:z1の分散の最大化 l11 , l12の値を 適当に大き く する と 分散はいく ら でも 大き く なる こ れでは収拾つかない そこ で, l11 , l12の2乗和が1と なる よ う に制約する プロットの座標は回転は許されるが膨張は許さない 第3章 主成分分析 Ⅰ 25/40 3.1.2 二変量の主成分の算出 2/11 1 n 2 1 n 2 Vz1 zi1 l11ui1 l12ui 2 n 1 i 1 n 1 i 1 n 1 2 n 2 2 n 2 l u l u 2 l l u u 11 i1 12 i 2 11 12 i1 i 2 n 1 i 1 i 1 i 1 l112 l122 2rx1, x 2l11l12 max 2 2 2 l l 1 制約: 11 12 l112 1 l122 1 l l 2 12 2 12 l11 1 l122 2r 1 l122 l12 1 2r l122 1 l122 l122 1 l122 max 第3章 主成分分析 Ⅰ 26/40 3.1.2 二変量の主成分の算出 3/11 ラグランジュの未定乗数法-1 f l11 , l12 , l l 2rx1, x 2l11l12 l l 1 2 11 2 12 これを偏微分してゼロとおこう 2 11 rx1, x 2 l12 l11 2l11 2rx1, x 2l12 2l11 0 1 l11 2l12 2rx1, x 2l11 2l12 0 rx1, x 2 l11 1 l12 行列の形で表すと Ra 1 r x1, x 2 2 12 l12 a rx1, x 2 l11 l11 1 l12 l12 固有値 固有ベクトル 第3章 主成分分析 Ⅰ 27/40 3.1.2 二変量の主成分の算出 4/11 ラグランジュの未定乗数法-2 1 r x1, x 2 rx1, x 2 l11 l11 1 l12 l12 左からベクトル l11 , l12 をかけると l11 l11 rx1, x 2 l11 1 l11 l12 l11 l12 1 l12 l12 rx1, x 2 1l11 rx1, x 2l12 l11 l12 l11 l12 l12 rx1, x 2l11 1l12 l112 l122 2rx1, x 2l11l12 l112 l122 Vz1 以上から,相関係数行列Rの固有値問題を解き 最大固有値に対応する固有ベクトルを求めるとそれが解 28/40 第3章 主成分分析 Ⅰ 3.1.2 二変量の主成分の算出 5/11 ビッグクラスから身長と体重を使う 0.7092 l11 l11 1 0.7092 1 l12 l12 実際にλを求めるには,上の行と下の行を加える (1 0.7092) ll1 l12 l11 l12 1.7092 l11 0.7092l12 1.7092l11 0.967l11 l12 1.7092l12 1 l11 2 1 1 l12 2 l11 l12 1 1 l l 1 1 2 2 2 11 2 12 主成分では,固有ベクトル l11 l12 の比の値しか分からないが制約条件を使い求める 1 l11 l12 2 第3章 主成分分析 Ⅰ 29/40 3.1.2 二変量の主成分の算出 6/11 Žå ¬ •ª 1‚Æ•W €‰» g’·(ƒCƒ “ƒ`)‚Ì“ñ• Ï—Ê‚ÌŠÖŒ W 3 z1:Žå ¬•ª1 1 2 •W €‰»‘Ì d(ƒ|ƒ“ƒh) •W €‰» g’·(ƒCƒ“ƒ`) 2 0 ①標準化 -1 ②回転 -2 -3 -4 -3 -2 -1 0 1 Žå ¬•ª1 ’¼ ü‚Ì‚ ‚Ä‚Í‚ß 2 3 4 z2 FŽå ¬•ª2 1 0 -1 -2 主成分方向に 誤差最小 Žc · Å ¬ -3 -3 -2 -1 0 1 •W €‰» g’·(ƒCƒ“ƒ`) 2 3 図3.3 主成分1と標準化後の身長との回帰分析の結果 図3.5 主成分と元の変量 z1 l11u1 l12u2 x1 x1 x2 x2 s1 s2 1 1 u1 u2 cos(45 )u1 sin(45 )u2 2 2 1 4 1 4 重み付け和を考えるのは,測定された軸を 適当に回転させて分散を最大にすることと同じ 第3章 主成分分析 Ⅰ 30/40 3.1.2 二変量の主成分の算出 7/11 次に第2主成分を考える(図より第2主成分を考えることは実質的 な意味はないが,主成分分析の理解のために求める). 第2主成分の導出 新たに z2 l21u1 l22u2 を考える 第2主成分は,第1主成分にはない情報を追加したいので 第1主成分と無関係(無相関 = 独立)を条件とする. 注)データが多次元(この場合2次元)正規分布に従うとき 無相関=独立である. 相関係数=0であるから,分子だけ考えればよい n z i1 i 1 n l i 1 n z1 zi 2 z2 zi1 zi 2 i 1 n n n i 1 i 1 i 1 u l12ui 2 l21ui1 l22ui 2 l11l21 ui21 l21l22 u i22 l11l22 l12l21 ui1ui 2 11 i1 第3章 主成分分析 Ⅰ 31/40 3.1.2 二変量の主成分の算出 8/11 n z i 1 n i1 z1 zi 2 z2 zi1 zi 2 i 1 n 1l11l21 rx1x 2l11l22 rx1x 2l12l21 l12l22 n 1 l1'Rl2 n 1 1l1'l2 Rl1 = λ 1l1 l1'R = λ 1l1' これより rz1z 2 0 の条件は l1 ' Rl2 0 または l1 ' l2 l11l21 l12l22 0 1 n 2 2 2 Vz 2 z l l i2 21 22 2rx1x 2l21l22 max n 1 i 1 2 2 l21 l22 1 第3章 主成分分析 Ⅰ 32/40 3.1.2 二変量の主成分の算出 9/11 ラグランジュの未定乗数法-1 f l21 , l22 , , l212 l222 2rx1, x 2l21l22 l212 l222 1 l11l21 l12l22 これを偏微分してゼロとおこう rx1, x 2 l22 l21 2l21 2rx1, x 2l22 2l21 l11 0 1 l21 2l22 2rx1, x 2l21 2l22 l12 0 rx1, x 2 l21 1 l22 行列の形で表すと Rl2 l2 両辺に左から l1' をかける l1'Rl2 l1'l2 0 0 2 l1'l2 2 l1 2 l12 Rl2 l2 rx1, x 2 l12 l11 rx1, x 2 l11 1 l12 第3章 主成分分析 Ⅰ 2 l11 固有値問題へ 0 1 l11 l22 l12 33/40 3.1.2 二変量の主成分の算出 10/11 線形代数の基本事項: 対称行列の固有値は全て実数であり,異なる固有値に 対応する固有ベクトルは直交(無相関:独立)する データから身長と体重を使う 0.7092 l21 l21 1 0.7092 1 l22 l22 実際にλを求めるには,上の行と下の行を引く (1 0.7092) l21 l22 l21 l22 0.2908 l21 0.7092l22 0.2908l21 1 l21 2 1 1 l22 2 l21 l22 1 1 0.7092l21 l22 0.2908l22 l l 1 1 2 2 主成分では,固有ベクトル l21 l22 の比の値しか分からないが制約条件を使い求める 2 21 2 22 第3章 主成分分析 Ⅰ 34/40 3.1.2 二変量の主成分の算出 11/11 相関係数から出発したとき 2変数の固有値は相関係数の値によらず一意に決まる 1 1 z1 u1 u2 z1 cos 2 2 z2 sin 1 1 z2 u1 u2 2 2 なお, 身長を主成分で予測したときの残差 体重を主成分で予測したときの残差 Žc · •W €‰»‘Ì d(ƒ|ƒ“ƒh) 1 0.5 0 -0.5 -1 sin u1 cos u2 -0.5 0 .5 Žc · •W €‰» g’·(ƒCƒ“ƒ`) 2つの残差の相関は-1となり,実質的 な違いはない いままでの議論から残差=第2主成分 図3.4 残差同士の散布図 第3章 主成分分析 Ⅰ 35/40 3.1.3 まとめ 1/5 寄与率:主成分で,元の変量の情報をどれだけ説明できるかを 表す量 相関が強いほど縮約のほどが大きい 1 1 r 1 r 0.855 第1主成分の寄与率: 1 2 1 r (1 r ) 2 2 1 r 1 r 0.145 第2主成分の寄与率: 1 2 1 r (1 r ) 2 累積寄与率:主成分で,大きい固有値を持つ方から寄与率 を累積した量 1 1.709 0.855 第1主成分の寄与率: 1 2 1.709 0.291 第2主成分までの 1 2 1 累積寄与率 1 2 第3章 主成分分析 Ⅰ 36/40 3.1.3 まとめ 2/5 因子負荷量(主成分負荷量): ・主成分と元の変量 x1 , x2 との相関係数 ・主成分の解釈に使う(相関が強ければ結びつきが大きい) rz1, x1 rz1,u1 0.9244 rz1, x 2 rz1,u 2 0.9244 rz 2, x1 rz 2,u1 0.3813 rz 2, x 2 rz 2,u 2 0.3813 第1主成分の各変量への寄与率 x1への寄与率: rz21, x1 0.92442 0.855 x2への寄与率: rz21, x2 0.855 累積寄与率 x1への寄与率: rz21, x1 rz22, x1 0.855 0.145 1 x2への寄与率: rz21, x2 rz22, x2 0.855 0.145 1 第3章 主成分分析 Ⅰ 37/40 3.1.3 まとめ 3/5 因子負荷量と固有値,固有ベクトルとの関係 1 x1と 第1主成分の因子負荷量: rz1, x1 1 l11 1.709 0.9244 2 1 x1と 第2主成分の因子負荷量: rz 2, x1 2 l21 0.291 0.3813 2 1 x2と 第1主成分の因子負荷量: rz1, x 2 1 l12 1.709 0.9244 2 1 x2と 第2主成分の因子負荷量: rz 2, x 2 2 l22 0.291 0.3813 2 主成分の標準偏差 第3章 主成分分析 Ⅰ 38/40 3.1.3 まとめ 4/5 各主成分に対して主成分得点はサンプルの数だけ計算する. 主成分得点を散布図にプロットして,主成分に与えた 意味つけを考慮しながら,サンプルの特徴付けや分類 などを試みる z1 l11u1 l12u2 z 2 l21u1 l22u2 主成分得点は,さらに標準化(平均0,分散1)した値を出力する 場合(固有値の平方根で割る)もある JMPは標準化していない主成分得点を算出する 第3章 主成分分析 Ⅰ 39/40 3.1.3 まとめ 5/5 主成分分析は相関係数行列をスペクトル分解している R 1l1l1' 2l2l2' 2 1 1.709 0.291 0.709 1 2 0.709 1 1.709 1 1 0.291 2 2 スペクトル分解 1 1 1 1 1.709 0.291 2 2 2 2 2 2 1 1 1 1 1.709 0.291 2 2 2 2 1 2 2 第1主成分が右辺第一項で近似,第2項(第2主成分)を加える ことで,元の相関係数行列を復元できる 累積寄与率とは,考慮する主成分でどの程度 元の相関係数行列が復元できているのかということ 40/40 第3章 主成分分析 Ⅰ
© Copyright 2024 ExpyDoc