第2回

知能情報工学
第2回
機械学習の種類と基本的な流れ(NN法を例に)
2016年4月19日
吉川雅博
1
機械学習とは?
データの集合からコンピュータを用いて法則性を見つける
・与えられたデータをカテゴリに分類したい
・過去のデータから未来を予測したい
・与えられたデータを似たもの同士にまとめたい
・与えられたデータの異常な部分を発見したい
人手で行うと大変な作業
人には発見できない法則
2
機械学習の具体例
音声認識
・iOSのSiri
・Androidの音声操作
・国会の議事録
・電話サポート
画像認識
・郵便番号の認識
・デジカメの顔認識
・製品の検査
・MRI画像から病気診断
その他
・天気の予測
・地震の予測
・売り上げの予測
・システムの異常検知
・DNAの分析
・カードの不正利用検知
・株の自動取引き
・自動運転
・対戦ゲーム
インターネット
・検索
・迷惑メールの分類
・ストアの広告表示や商品推薦
3
機械学習の分類
機械学習
教師あり学習
識別
回帰
・k最近傍法
・線形回帰
・パーセプトロン
・ニューラルネット
・SVM
・決定木
・ベイズ識別
・隠れマルコフモデル(時系列)
教師なし学習
クラスタリング
・k-means
深層学習は複合・中間的
4
機械学習の用語
学習(訓練)データ・・予め取得して学習に用いるデータ
クラス・・分類するカテゴリ
教師・・学習データに対応するクラスの情報
テストデータ・・学習結果をテストするためのデータ
5
識別(識別境界)
学習データからクラス間の境界を求めておく
→境界に基づいて未知のデータを分類
クラス1(毒キノコ)
かさの体積
クラス2(食用キノコ)
未知のデータ
(未知のキノコ)
キノコの柄の長さ
6
識別(プロトタイプ)
学習データから各クラスを代表するプロトタイプを求めておく
→未知のデータとプロトタイプとの距離で分類
かさの面積
クラス1のプロトタイプ
距離を比較
クラス2のプロトタイプ
クラス3のプロトタイプ
未知のデータ
キノコの柄の長さ
※本質的には識別境界を求めるのと同じ
7
回帰
学習データによく当てはまる関数を求めておく
→関数を用いて一方の変数から他方の変数を予測
売り上げ
学習データ
気温
8
クラスタリング
教師のない学習データを自動的に分類
クラスタ1
クラスタ2
クラスタ3
まとまりがありそうなデータ
クラスは不明
9
プロトタイプによるNN法の流れ
音声や画像
(アナログ信号)
AD変換
前処理部
特徴抽出部
・標本化
・量子化
・ノイズ除去
・正規化
識別が容易な
特徴を抽出
識別部
識別
結果
プロトタイプと比較
学習
識別辞書
(プロトタイプ)
10
特徴抽出
特徴抽出は識別に役立つ情報を取り出す処理
音声認識:個人の声の性質や声の大きさ
文字認識:文字の大きさや色
識別には無意味
識別に必要な特徴のみを取り出す
11
特徴ベクトル
特徴抽出後は特徴を並べた𝑑次元のベクトルで表現
𝑥𝑑
𝒙 = (𝑥1 , 𝑥2 , … , 𝑥𝑑 )𝑡
𝑥𝑗
𝑥1
𝑥2
𝑥3
𝑑次元空間を特徴空間,𝒙を特徴ベクトルと呼ぶ
12
学習(プロトタイプの決定)
𝑐種類のクラスをそれぞれ𝜔1 , 𝜔2 , … , 𝜔𝑐 とし,
各クラスのプロトタイプを𝒑1 , 𝒑2 , … , 𝒑𝑐 とする
𝑥𝑑
𝒑1
𝒑𝑖
𝒑2
𝒑𝑐
𝑥1
𝑥𝑗
𝑥2
𝑥3
プロトタイプは学習データから決定する
13
プロトタイプによるNN法
各プロトタイプとの距離を計算し最も近いプロトタイプ𝒑𝑖 に決定する
→最近傍決定則,最近傍法(Nearest Neighbor法:NN法)
𝑥𝑑
𝒙
𝒑1
𝒑2
𝒑𝑖
𝒑𝑐
𝑥1
𝑥𝑗
𝑥2
𝑥3
14
演習1
以下のパターンを白:0黒:1の特徴からなる25次元のプロトタイプ
として表し,
0
1
2
3
4
以下の未知パターンをNN法によって分類せよ
未知のパターン
※荒木雅弘「フリーソフトでつくる音声認識システム」より
15
演習1-解答
各パターンを特徴ベクトルで表す
0
1
𝒑0
𝒑1
𝒑2
𝒑3
𝒑4
2
3
4
未知のパターン
= (0,1,1,1,0,1,0,0,0,1,1,0,0,0,1,1,0,0,0,1,0,1,1,1,0)
= (0,0,1,0,0,0,0,1,0,0,0,0,1,0,0,0,0,1,0,0,0,0,1,0,0)
= (0,1,1,1,1,1,0,0,1,0,0,0,1,0,0,0,1,0,0,0,1,1,1,1,1)
= (0,1,1,1,0,1,0,0,0,1,0,0,1,1,0,1,0,0,0,1,0,1,1,1,0)
= (0,0,1,0,0,0,1,0,0,0,1,0,0,1,0,1,1,1,1,1,0,0,0,1,0)
𝒙 = (0,0,0,1,0,0,0,0,1,0,0,0,0,1,0,0,0,0,1,0,0,0,0,1,0)
16
演習1-解答
プロトタイプと未知パターンとの距離を計算する
𝐷 𝒙, 𝒑𝑖 =
𝑥1 − 𝑝𝑖1
2
+ 𝑥2 − 𝑝𝑖2
2
+ ⋯ + 𝑥25 − 𝑝𝑖25
クラス
0
1
2
3
4
距離
13
10
12
11
9
2
※ルートはなくても同じ
距離が最小となるのはプロトタイプ「4」
なぜ「1」のプロトタイプではないのか?
17
演習2
以下のパターンを縦・横・斜の線(3マス以上連続),ループの数
(黒のマスが途切れずにループになっている)からなる4次元のプ
ロトタイプとして表し,
0
1
2
3
4
以下の未知パターンをNN法によって分類せよ.
未知のパターン
18
演習2-解答
0
1
2
𝒑0
𝒑1
𝒑2
𝒑3
𝒑4
3
4
未知のパターン
= (2,2,0,1)
= (1,0,0,0)
= (0,2,1,0)
= (0,2,0,0)
= (1,1,1,0)
𝒙 = (1,0,0,0)
プロトタイプ「1」との距離が最短となり,「1」に分類される
19