プログラミング論 主成分分析 http://www.ns.kogakuin.ac.jp/~ct13140/Prog/ K-1 概要 • 主成分分析 – 難しい.簡易に触れるのみ. K-2 主成分分析 • 主成分分析とは,複数(N個)の要素からな るデータを,重要なM個(M≦N)の要素に代 表させて把握する手法. – N個の中からM個を選択するのではない. • データの要素数を減らす → 情報量は失われる → 情報の把握が容易になる 重要度の低い情報を捨て, 重要度の高い情報のみにする. K-3 英語Listeningと 英語Readingの成績 例A(相関の強いデータ) 100 Reading 二つのデータ (Listening成績 とReading成績)に 非常に強い相関が あった場合. 90 80 70 60 50 40 右上がりの軸(水色) でデータを把握すれば ほぼ正確に, データを把握する ことが可能. 30 20 10 0 0 20 40 60 Listening 80 100 K-4 10 0 90 例A(相関の強いデータ) 80 Re ad ing 70 60 50 40 • 水色の横軸の値のみを考えれば, 各人の能力はほぼ分かる. – 2次元データが1次元データになった. – 厳密さは失われたが,理解が容易に. 30 20 10 0 0 – 横軸は,大まかに英語力を示してい ると言える. 20 40 Li st en ing 60 K-5 例A(相関の強いデータ) • 下図の緑色の横の軸1本を 用いて,両データを 代表させた場合, 緑軸の値は英語力を 適切に表現していない. 90 80 80 70 g 60 in d a 0 10 次元を減らして, 全体を代表させる 場合は, 軸を適切に選択 せねばならない. 50 60 g nin K-6 主成分分析 (2次元値の場合) • 重心を通り分散が 最大の方向に 軸をとり,それを 第一主成分 英語と数学の成績 100 90 80 70 英語 60 50 とする. 40 • それと垂直方向に 30 重心を通る軸をとり, 20 これを 10 第二主成分とする. 0 0 20 40 60 数学 80 100 K-7 主成分分析 (N次元値の場合) • N次元空間上で,重心点を通り,最も分散 の大きい方向に軸をとり,それを第一主成 分とする. • 第一主成分と垂直な軸の中で,重心点を 通り,最も分散が大きい方向に軸をとり, それを第二主成分とする. • 以下,同様に第1~第N主成分全てに垂直 で,重心点を通り,分散が最大の方向に第 N+1主成分をとる. K-8
© Copyright 2024 ExpyDoc