データの可視化 ~高次元データを見る~

データの可視化
~高次元データを見る~
三枝 亮 (早稲田大学)
高次元データを見よう
!!
見える
見えない
• 次元数:1,2,3,4,5,…,N
低次元化
??
可視化のための低次元化手法
• 主成分分析(PCA)
• 自己組織化マップ(SOM)
• 多次元尺度構成法(MDS)
主成分分析(PCA)
• 分布が偏っている空間のみで記述.
分布に偏りがあるほど,効率的に低次元化できる.
線形変換なので性質が良い.
自己組織化マップ(SOM)
• 近傍を近傍に写すように低次元化.
ラーメン店
スープの濃さ
麺の直径
トッピングの数
店主の人柄
A
6
5
6
7
B
7
8
4
8
10
C
4
1
2
近傍:保持,遠方:歪む
A
B
A
B
C
C
地球儀から地図を作る
ようにデータを低次元
化できる.
多次元尺度構成法(MDS)
• 関係(距離)から配置(座標)を求める.
10
7
10
3
3
7
何次元のデータかわからない
&そもそも量的なデータでない
⇒2次元的な配置が得られる
まとめ
• 高次元データを見るには?
– 高次元データを2次元・3次元に落とす!
• データを低次元化手法
– 主成分分析,自己組織化マップ,多次元尺度構
成法など.
• 2次元・3次元データを gnuplot などへ
– データの分布を観察しましょう.