特定領域 情報福祉:A01 聴覚障害 手指ならびに非手指情報の画像計測と 統合に基づく実用的手話翻訳の研究 ○計画研究 ウ 白井良明 島田伸敬 (立 命 館 大 学) 三浦 純 (大 阪 大 学) 特定領域 情報福祉:A01 聴覚障害 3年間の研究目的 手話者をテレビカメラで観測し、両手の動き と形状ならびに顔の表情や口の動きを解析す る。 ロバストにするための光源や背景の設定方法、 画像特徴の種類と抽出法、話者の個人差や環 境変動への適応法などを研究。 特定領域 情報福祉:A01 聴覚障害 3年間の研究 画像系列から、複雑背景での手の動きと形状 を解析した。 手指情報から手話を認識する研究をした。 ロバストな認識を行うため、サンプルデータ の自動合成を提案した。 顔の特徴を抽出し、表情を認識した。 ここでは、手指情報からの手話認識を述べる。 特定領域 情報福祉:A01 聴覚障害 研究の背景 音声→手話の変換システム 音声(またはテキスト)に対応する手話を CG表示(比較的早期に実現) 手話→音声の変換システム データグローブ等で手指形状データを取得 (手話者の負担が大きい) 手のシルエットと3次元も出るとの照合 (我々の研究だが時間がかかる) 被験者の負担の少ない、 設置の容易な手話認識システムへの要望 特定領域 情報福祉:A01 聴覚障害 システムの概要 手話→日本語音声の変換システムの構築 手話 手話特徴 特徴抽出(画像処理) 学習 HMMによる学習 固定カメラからの画像 学習データベース 手話特徴 マッチング HMMによる認識 認識結果(日本語) 特定領域 情報福祉:A01 聴覚障害 特徴抽出 手話画像から学習・認識で用いる特徴系列 を抽出するための画像処理 カラーの背景差分による人物領域抽出 肌色領域抽出 肘・手首抽出 領域の追跡と隠蔽(手や顔の重なり)検出、 分離 特定領域 情報福祉:A01 聴覚障害 特徴量出(肌色の検出) 初期のフレームから肌色をサンプル サンプルから肌色を決定 肌色分布(HS色空間) 肌色検出 90%の等確率楕円 特定領域 情報福祉:A01 聴覚障害 隠蔽時の処理 隠蔽状態の肌色領域 保存してある 顔テンプレート画像 ブロックごとに 相関を計算 相関の高い部分(顔領域) 相関の低い部分(手領域) 大体の手領域を取得できるため、 ・テンプレートマッチング精度の向上 ・手の形状が変化する際に利用 特定領域 情報福祉:A01 聴覚障害 顔と手の隠蔽処理結果の例 特定領域 情報福祉:A01 聴覚障害 手話特徴量 位置に関する特徴量 形状に関する特徴量 突起数 手の面積 顔からの方向 顔からの距離 円形度 動きの 速度・方向 慣性主軸 方向 特定領域 情報福祉:A01 聴覚障害 位置・速度に関する特徴量 顔の近くで行う手話ほど、手の位置や細かい動きが 黒 重要 顔からの距離 : r 顔からの方向 : 手の速度のx,y方向成分 顔からの距離の対数表示 : ln(r ) 0.1 顔からの距離の対数表示の変化量: r r 顔からの方向 : 顔からの方向の変化量 : 両手の手話では左右の手の相対位置が重要 小さい 合う 両手の手話では左手から見た右手の相対座標を特徴として加える 特定領域 情報福祉:A01 聴覚障害 HMMによる学習 HMMはLeft-to-Right 単語ごとに状態数を設定する必要がある 手の移動や手の形の変化時に対して状態が 遷移する 状態数決定の例(状態数:5) 初期状態 移動中 静止中 移動中最終状態 特定領域 情報福祉:A01 聴覚障害 速度による状態分割 速度の閾値によって運動区間(M)と静止区間(S)に分 割 ① ② ③ ノイズによる運動区間は静止区間とする 静止区間が短かければ、運動区間の境界とする 運動区間でも谷が深ければ分割 ③ ① S ① ② M M M M 特定領域 情報福祉:A01 聴覚障害 速度と方向による状態分割 90 動 き の 速 度 60 30 運動区間内で、運動方向が 大きく変化しすれば、分割 (rad) 動 き の 方 向 0 4 方向変化 0 -8 -16 0 25 50 フレーム 特定領域 情報福祉:A01 聴覚障害 顔からの方向を用いた状態分割 従来の状態分割法 動きの速さ 動きの方向 黒 顔の近くでゆっくり動く手話では、運動区間 と静止区間を分割できない 速さが遅く、顔からの距離が小さい区間で、 顔からの方向が大きく変化していれば区間 の中央で分割する 速 さ 顔 か ら の 距 離 顔 か ら の 方 向 特定領域 情報福祉:A01 聴覚障害 手話単語の認識実験 一単語あたり3シーケンス 用いたデータ 状態分割において3シーケンスとも状態数の 揃ったもの15単語(両手:5単語・片手:10単 語) 組み合わせを変えながら、3シーケンスのうち2つを 学習用、残りを認識用に用いた 2シーケンスで状態数が等しく、残りの1つは 静止区間の数が異なるもの(両手:7単語・片手: 1単語) 状態数の等しい2つを学習用(状態数の数を変えて2 つのモデルを作成)、残りを認識用に用いた 特定領域 情報福祉:A01 聴覚障害 認識結果 両手の手話では高い認識率が得られた 片手の手話での認識率は低かった テンプレートマッチングの失敗による影響 動きのよく似た手話が多い 学習データが少ない 成功数 認識率 両手 20/22 0.91 片手 19/31 0.61 特定領域 情報福祉:A01 聴覚障害 手形状データから学習データの合成 ① ② ③ 手話単語を手の形によって分類 それぞれの手話単語から対応する手の形状データを 取り出し、データベースを作成 データベースから同じ手形のものを選び、対応部分 と入れ替え(位置・速度の特徴はそのまま使用) ヒ形 赤 頭 ク形 黒 ズボン レ形 スカート ・ ・ ・ 赤 データベース レ ヒ ク ヒ ヒ 特定領域 情報福祉:A01 聴覚障害 手形状データから学習データの合成 ① ② ③ 手話単語を手の形によって分類 それぞれの手話単語から対応する手の形状データを 取り出し、データベースを作成 データベースから同じ手形のものを選び、対応部分 と入れ替え(位置・速度の特徴はそのまま使用) ヒ形 赤 頭 ク形 黒 ズボン レ形 スカート ・ ・ ・ 赤 データベース レ ヒ ク ヒ ヒ 特定領域 情報福祉:A01 聴覚障害 手形による手話単語の分類 手形 イ ク テ モ ウ コ ヌ レ オ サ ヒ レ(曲) イ 構わないですか? ウ 夏物 ・ 秋物 ・ 冬物 オ 色 ク 青 ・ 黒 ・ ~がありますか? コ 背が高い ・ 背が低い サ かばん ・ 暑い ・ 夏物 ・ 靴 (右) ・ 皮(右) テ セーター ・ 暖かい ・ 胸 ・ 肩 ・ 流行 ・ 靴 ヌ 絹 ヒ 赤 ・ cm ・ 頭 ・ 合う ・ ~はどこですか? モ 好き ・ 嫌い レ スカート ・ ズボン レ(曲) ロ ロ 半円型 「お金」の形 半円型 お金 長い・短い 分類単語 長い・短い めがね ネクタイ 小さい ・ 大きい 安い ・ 高い ・ 値上げ 長い ・ 短い 特定領域 情報福祉:A01 聴覚障害 手形データの合成を行った単語例 特定領域 情報福祉:A01 聴覚障害 HMMによる学習・認識実験 両手の手話17単語、片手の手話21単語 各単語、各手話者に3つの元データ 2人の手話者のデータ(計6種類) 5つを学習データ、1つを認識データとして組み合わせ を変えて3回実験 新しく生成されたサンプルを加える場合 認識データは1つ。 学習データはテストデータを除くデータと、 それから合成されたデータ2つ 特定領域 情報福祉:A01 聴覚障害 Experimental result Both hands expert One hand without synthesis with synthesis without synthesis with synthesis No. of success 52/52 52/52 57/63 57/63 rate 100% 100% 90.5% 90.5% Both hands One hand without synthesis with synthesis without synthesis with synthesis No. of success 52/52 50/52 57/63 58/63 rate 96.2% 96.2 % 90.5% 92.1% beginner 特定領域 情報福祉:A01 聴覚障害 合成データの追加により成功した例 好き 誤認識 赤 手形による合成データ の追加により成功 赤 誤認識 嫌い 特定領域 情報福祉:A01 聴覚障害 Example of failure black head Overlapping hand shape is unstable 特定領域 情報福祉:A01 聴覚障害 データ合成の今後の課題 今後の課題 様々な状況を想定した手形データを増や し、合成データをより多く用いて学習 手の動きを含めた学習データの生成 特定領域 情報福祉:A01 聴覚障害 手話認識の今後の課題 多数のサンプルに対する学習と実験 文章の認識 コーパスの作成(sINDEX の発展) 手話の表現(形態素、音素、変形、両手…)
© Copyright 2024 ExpyDoc