知能情報工学 第2回 機械学習の種類と基本的な流れ(NN法を例に) 2016年4月19日 吉川雅博 1 機械学習とは? データの集合からコンピュータを用いて法則性を見つける ・与えられたデータをカテゴリに分類したい ・過去のデータから未来を予測したい ・与えられたデータを似たもの同士にまとめたい ・与えられたデータの異常な部分を発見したい 人手で行うと大変な作業 人には発見できない法則 2 機械学習の具体例 音声認識 ・iOSのSiri ・Androidの音声操作 ・国会の議事録 ・電話サポート 画像認識 ・郵便番号の認識 ・デジカメの顔認識 ・製品の検査 ・MRI画像から病気診断 その他 ・天気の予測 ・地震の予測 ・売り上げの予測 ・システムの異常検知 ・DNAの分析 ・カードの不正利用検知 ・株の自動取引き ・自動運転 ・対戦ゲーム インターネット ・検索 ・迷惑メールの分類 ・ストアの広告表示や商品推薦 3 機械学習の分類 機械学習 教師あり学習 識別 回帰 ・k最近傍法 ・線形回帰 ・パーセプトロン ・ニューラルネット ・SVM ・決定木 ・ベイズ識別 ・隠れマルコフモデル(時系列) 教師なし学習 クラスタリング ・k-means 深層学習は複合・中間的 4 機械学習の用語 学習(訓練)データ・・予め取得して学習に用いるデータ クラス・・分類するカテゴリ 教師・・学習データに対応するクラスの情報 テストデータ・・学習結果をテストするためのデータ 5 識別(識別境界) 学習データからクラス間の境界を求めておく →境界に基づいて未知のデータを分類 クラス1(毒キノコ) かさの体積 クラス2(食用キノコ) 未知のデータ (未知のキノコ) キノコの柄の長さ 6 識別(プロトタイプ) 学習データから各クラスを代表するプロトタイプを求めておく →未知のデータとプロトタイプとの距離で分類 かさの面積 クラス1のプロトタイプ 距離を比較 クラス2のプロトタイプ クラス3のプロトタイプ 未知のデータ キノコの柄の長さ ※本質的には識別境界を求めるのと同じ 7 回帰 学習データによく当てはまる関数を求めておく →関数を用いて一方の変数から他方の変数を予測 売り上げ 学習データ 気温 8 クラスタリング 教師のない学習データを自動的に分類 クラスタ1 クラスタ2 クラスタ3 まとまりがありそうなデータ クラスは不明 9 プロトタイプによるNN法の流れ 音声や画像 (アナログ信号) AD変換 前処理部 特徴抽出部 ・標本化 ・量子化 ・ノイズ除去 ・正規化 識別が容易な 特徴を抽出 識別部 識別 結果 プロトタイプと比較 学習 識別辞書 (プロトタイプ) 10 特徴抽出 特徴抽出は識別に役立つ情報を取り出す処理 音声認識:個人の声の性質や声の大きさ 文字認識:文字の大きさや色 識別には無意味 識別に必要な特徴のみを取り出す 11 特徴ベクトル 特徴抽出後は特徴を並べた𝑑次元のベクトルで表現 𝑥𝑑 𝒙 = (𝑥1 , 𝑥2 , … , 𝑥𝑑 )𝑡 𝑥𝑗 𝑥1 𝑥2 𝑥3 𝑑次元空間を特徴空間,𝒙を特徴ベクトルと呼ぶ 12 学習(プロトタイプの決定) 𝑐種類のクラスをそれぞれ𝜔1 , 𝜔2 , … , 𝜔𝑐 とし, 各クラスのプロトタイプを𝒑1 , 𝒑2 , … , 𝒑𝑐 とする 𝑥𝑑 𝒑1 𝒑𝑖 𝒑2 𝒑𝑐 𝑥1 𝑥𝑗 𝑥2 𝑥3 プロトタイプは学習データから決定する 13 プロトタイプによるNN法 各プロトタイプとの距離を計算し最も近いプロトタイプ𝒑𝑖 に決定する →最近傍決定則,最近傍法(Nearest Neighbor法:NN法) 𝑥𝑑 𝒙 𝒑1 𝒑2 𝒑𝑖 𝒑𝑐 𝑥1 𝑥𝑗 𝑥2 𝑥3 14 演習1 以下のパターンを白:0黒:1の特徴からなる25次元のプロトタイプ として表し, 0 1 2 3 4 以下の未知パターンをNN法によって分類せよ 未知のパターン ※荒木雅弘「フリーソフトでつくる音声認識システム」より 15 演習1-解答 各パターンを特徴ベクトルで表す 0 1 𝒑0 𝒑1 𝒑2 𝒑3 𝒑4 2 3 4 未知のパターン = (0,1,1,1,0,1,0,0,0,1,1,0,0,0,1,1,0,0,0,1,0,1,1,1,0) = (0,0,1,0,0,0,0,1,0,0,0,0,1,0,0,0,0,1,0,0,0,0,1,0,0) = (0,1,1,1,1,1,0,0,1,0,0,0,1,0,0,0,1,0,0,0,1,1,1,1,1) = (0,1,1,1,0,1,0,0,0,1,0,0,1,1,0,1,0,0,0,1,0,1,1,1,0) = (0,0,1,0,0,0,1,0,0,0,1,0,0,1,0,1,1,1,1,1,0,0,0,1,0) 𝒙 = (0,0,0,1,0,0,0,0,1,0,0,0,0,1,0,0,0,0,1,0,0,0,0,1,0) 16 演習1-解答 プロトタイプと未知パターンとの距離を計算する 𝐷 𝒙, 𝒑𝑖 = 𝑥1 − 𝑝𝑖1 2 + 𝑥2 − 𝑝𝑖2 2 + ⋯ + 𝑥25 − 𝑝𝑖25 クラス 0 1 2 3 4 距離 13 10 12 11 9 2 ※ルートはなくても同じ 距離が最小となるのはプロトタイプ「4」 なぜ「1」のプロトタイプではないのか? 17 演習2 以下のパターンを縦・横・斜の線(3マス以上連続),ループの数 (黒のマスが途切れずにループになっている)からなる4次元のプ ロトタイプとして表し, 0 1 2 3 4 以下の未知パターンをNN法によって分類せよ. 未知のパターン 18 演習2-解答 0 1 2 𝒑0 𝒑1 𝒑2 𝒑3 𝒑4 3 4 未知のパターン = (2,2,0,1) = (1,0,0,0) = (0,2,1,0) = (0,2,0,0) = (1,1,1,0) 𝒙 = (1,0,0,0) プロトタイプ「1」との距離が最短となり,「1」に分類される 19
© Copyright 2024 ExpyDoc