発表資料(PPT)

Deep learningによる
読唇システム
情報理工学部
機械情報工学科
H412092 パリアスカ ケンジ
研究背景
• 近日、画像認識や音声認識の分野において注目を集めているDeep
learningに興味を持った
• Deep Learningはニューラルネットワークにおいて、中間層が2層以上
中間(隠れ)層
の精度の高い機械学習として期待されている
⇒特徴:人手で行う必要があった特徴量を
自動で発見
出
力
層
入
力
層
パラメータ
更新
研究目的
• 特定の画像の分類だけではなく、ある一連の流れの画像分類に
よって読唇術への可能性を探る
⇒読唇術:相手の唇の動きなどを見て、言葉を読み取る技術
研究の流れ
1.学習データの素材作成
2.学習モデル(分類器)の作成
3.検証
1.学習データの素材作成
作成の流れ
①不特定多数の読唇を想定し、あらかじめ決めた特定の幾つか
の単語を発声する唇周りのみをスマートフォンなどで撮影
②撮影した動画にOpenCVを用いて編集
編集の内容
• 動画をモノクロに変換
• 上下左右余分な部分のクリッピング
• それぞれの動画が大体1秒だったのでばらつきが出ないよう、
①各単語10枚(1枚:40x40)の画像シーケンスを作成
②その後、10枚を横に繋げた1枚(400x40)にし、データ用の画像を作成
単語の内容
• 使う単語を最小限に抜粋、①、②、③とグループ分け
①安全(anzen)-万全(banzen)-簡単(kantan)
②変装(hensou)-変更(henkou)-観光(kankou)
③触る(sawaru)-変わる(kawaru)-終わる(owaru)
グループ分けの関係性
• 使う単語を最小限に抜粋、①、②、③とグループ分け
①安全(anzen)-万全(banzen)-簡単(kantan)
②変装(hensou)-変更(henkou)-観光(kankou)
③触る(sawaru)-変わる(kawaru)-終わる(owaru)
グループ分けの関係性
• 使う単語を最小限に抜粋、①、②、③とグループ分け
①安全(anzen)-万全(banzen)-簡単(kantan)
(50枚)x3
②変装(hensou)-変更(henkou)-観光(kankou)
(50枚)x3
③触る(sawaru)-変わる(kawaru)-終わる(owaru)
(50枚)x3
⇒それぞれ3クラスの分類器①、②、③とする
2.学習モデル(分類器)の作成
Labellio
• Alpaca社がリリース
• 分類器作成におけるデータ整理が容易
• 学習結果をダウンロードし、Caffeなどの他のフレームワークで利用可能
Labellio
• 作成の流れ
①分類器の名前を指定し、データ画像(今回は各ラベル50枚)をアップ
ロード
②データ画像のあるフォルダのディレクトリがラベルとなり学習開始
分類器が完成
→学習データとは別のテスト用の画像を入力
3.検証
画像の入力
• OpenCVを使用
①webカメラの映像(グレースケール)を読み込み
①
②
②spaceキーを押してから10フレームを静止画として
保存
③10枚の画像を1枚40x40に編集、横に繋げ学習
データと同様のサイズのデータを出力
③
③で出来上がった画像をテスト用画像として入力
Labellio
• 分類器の例(学習データ50x3に対し、各単語20枚のテスト画像)
① : 分類器名
①
② : Acc: → 分類器の精度
• それぞれの分類器の精度
①Acc:59% ②Acc:41% ③Acc:40%
②
正解率の比較(混同行列)
出力
①
入
力
anzen
banzen kantan
6
8
6
banzen 7
9
4
kantan
4
14
anzen
2
出力
②
hensou henkou kankou
hensou 9
6
5
入
henkou 7
力
8
5
kankou 2
3
15
出力
③
sawaru kawaru owaru
入
力
sawaru 9
7
4
kawaru 7
8
5
owaru
5
11
4
正解率の比較(混同行列)
①
anzen
banzen kantan
6
8
6
banzen 7
9
4
kantan
4
14
anzen
②
2
hensou henkou kankou
hensou 9
6
5
henkou 7
8
5
kankou 2
3
15
③
sawaru kawaru owaru
sawaru 9
7
4
kawaru 7
8
5
owaru
5
11
4
結果
• ①、②、③すべてのグループにおいて正解数
⇒子音のみ<子音と母音
• よって子音のみだとあまり変化がなく、それに加え母音が変わること
での唇の動きが大きく影響
⇒視覚での読唇には限界がある
考察
• 子音のみの変化では正解率の精度が低い
• 子音と母音が変わる場合でも余り精度が高いわけではないので
読唇にはまだむかない
⇒データ数、学習回数の増加で向上
展望
• 画像認識に加え音声認識の実装
⇒唇の動きのみではなく、声も認識による精度向上
• Labellioから得ることができる、Caffe用の学習モデルをファインチュー
ニングしCaffeで認識
⇒ラベル数、データ数に合わせた学習回数などの変化による
精度向上
• 時系列を持つデータに対するDeep learningの内、RNNの利用
RNN(リカレントニューラルネットワーク)
• 言葉や音楽のように時系列で相関を持つデータにおいて、前に発生した
データを考慮
⇒例:「名詞」の後には「助詞」が来ることが多い
• NNに、前に発生したデータを投入
⇒時刻tの隠れ層の内容が、次の時刻t+1入力として扱われ、
t+1の隠れ層がt+2の・・・と続いてく学習
時間的に変更するデータに意味を見出す
精度向上により、読唇が可能になるのではないか