手話の特徴と認識・生成からみたバリアフリー化技術

特定領域 情報福祉:A01 聴覚障害
手指ならびに非手指情報の画像計測と
統合に基づく実用的手話翻訳の研究
○計画研究 ウ
白井良明 島田伸敬
(立 命 館 大 学)
三浦 純
(大 阪 大 学)
特定領域 情報福祉:A01 聴覚障害
3年間の研究目的
手話者をテレビカメラで観測し、両手の動き
と形状ならびに顔の表情や口の動きを解析す
る。
ロバストにするための光源や背景の設定方法、
画像特徴の種類と抽出法、話者の個人差や環
境変動への適応法などを研究。
特定領域 情報福祉:A01 聴覚障害
3年間の研究
画像系列から、複雑背景での手の動きと形状
を解析した。
手指情報から手話を認識する研究をした。
ロバストな認識を行うため、サンプルデータ
の自動合成を提案した。
顔の特徴を抽出し、表情を認識した。
ここでは、手指情報からの手話認識を述べる。
特定領域 情報福祉:A01 聴覚障害
研究の背景

音声→手話の変換システム


音声(またはテキスト)に対応する手話を
CG表示(比較的早期に実現)
手話→音声の変換システム


データグローブ等で手指形状データを取得
(手話者の負担が大きい)
手のシルエットと3次元も出るとの照合
(我々の研究だが時間がかかる)
被験者の負担の少ない、
設置の容易な手話認識システムへの要望
特定領域 情報福祉:A01 聴覚障害
システムの概要
手話→日本語音声の変換システムの構築
手話
手話特徴
特徴抽出(画像処理)
学習
HMMによる学習
固定カメラからの画像
学習データベース
手話特徴
マッチング
HMMによる認識
認識結果(日本語)
特定領域 情報福祉:A01 聴覚障害
特徴抽出

手話画像から学習・認識で用いる特徴系列
を抽出するための画像処理




カラーの背景差分による人物領域抽出
肌色領域抽出
肘・手首抽出
領域の追跡と隠蔽(手や顔の重なり)検出、
分離
特定領域 情報福祉:A01 聴覚障害
特徴量出(肌色の検出)


初期のフレームから肌色をサンプル
サンプルから肌色を決定
肌色分布(HS色空間)
肌色検出
90%の等確率楕円
特定領域 情報福祉:A01 聴覚障害
隠蔽時の処理
隠蔽状態の肌色領域
保存してある
顔テンプレート画像
ブロックごとに
相関を計算
相関の高い部分(顔領域)
相関の低い部分(手領域)
大体の手領域を取得できるため、
・テンプレートマッチング精度の向上
・手の形状が変化する際に利用
特定領域 情報福祉:A01 聴覚障害
顔と手の隠蔽処理結果の例
特定領域 情報福祉:A01 聴覚障害
手話特徴量
位置に関する特徴量
形状に関する特徴量
突起数
手の面積
顔からの方向
顔からの距離
円形度
動きの
速度・方向
慣性主軸
方向
特定領域 情報福祉:A01 聴覚障害
位置・速度に関する特徴量

顔の近くで行う手話ほど、手の位置や細かい動きが
黒
重要
顔からの距離 : r
顔からの方向 : 
手の速度のx,y方向成分

顔からの距離の対数表示 : ln(r   )   0.1
顔からの距離の対数表示の変化量: r r 
顔からの方向 : 
顔からの方向の変化量 : 
両手の手話では左右の手の相対位置が重要
小さい
合う
両手の手話では左手から見た右手の相対座標を特徴として加える
特定領域 情報福祉:A01 聴覚障害
HMMによる学習



HMMはLeft-to-Right
単語ごとに状態数を設定する必要がある
手の移動や手の形の変化時に対して状態が
遷移する
状態数決定の例(状態数:5)
初期状態 移動中 静止中 移動中最終状態
特定領域 情報福祉:A01 聴覚障害
速度による状態分割
速度の閾値によって運動区間(M)と静止区間(S)に分
割
①
②
③
ノイズによる運動区間は静止区間とする
静止区間が短かければ、運動区間の境界とする
運動区間でも谷が深ければ分割
③
①
S
①
②
M
M
M
M
特定領域 情報福祉:A01 聴覚障害
速度と方向による状態分割
90
動
き
の
速
度
60
30
運動区間内で、運動方向が
大きく変化しすれば、分割
(rad)
動
き
の
方
向
0
4
方向変化
0
-8
-16
0
25
50
フレーム
特定領域 情報福祉:A01 聴覚障害
顔からの方向を用いた状態分割
従来の状態分割法

動きの速さ

動きの方向
黒
顔の近くでゆっくり動く手話では、運動区間
と静止区間を分割できない
速さが遅く、顔からの距離が小さい区間で、
顔からの方向が大きく変化していれば区間
の中央で分割する
速
さ
顔
か
ら
の
距
離
顔
か
ら
の
方
向
特定領域 情報福祉:A01 聴覚障害
手話単語の認識実験


一単語あたり3シーケンス
用いたデータ

状態分割において3シーケンスとも状態数の
揃ったもの15単語(両手:5単語・片手:10単
語)


組み合わせを変えながら、3シーケンスのうち2つを
学習用、残りを認識用に用いた
2シーケンスで状態数が等しく、残りの1つは
静止区間の数が異なるもの(両手:7単語・片手:
1単語)

状態数の等しい2つを学習用(状態数の数を変えて2
つのモデルを作成)、残りを認識用に用いた
特定領域 情報福祉:A01 聴覚障害
認識結果


両手の手話では高い認識率が得られた
片手の手話での認識率は低かった



テンプレートマッチングの失敗による影響
動きのよく似た手話が多い
学習データが少ない
成功数
認識率
両手
20/22
0.91
片手
19/31
0.61
特定領域 情報福祉:A01 聴覚障害
手形状データから学習データの合成
①
②
③
手話単語を手の形によって分類
それぞれの手話単語から対応する手の形状データを
取り出し、データベースを作成
データベースから同じ手形のものを選び、対応部分
と入れ替え(位置・速度の特徴はそのまま使用)
ヒ形
赤
頭
ク形
黒
ズボン
レ形
スカート
・
・
・
赤
データベース
レ
ヒ
ク
ヒ
ヒ
特定領域 情報福祉:A01 聴覚障害
手形状データから学習データの合成
①
②
③
手話単語を手の形によって分類
それぞれの手話単語から対応する手の形状データを
取り出し、データベースを作成
データベースから同じ手形のものを選び、対応部分
と入れ替え(位置・速度の特徴はそのまま使用)
ヒ形
赤
頭
ク形
黒
ズボン
レ形
スカート
・
・
・
赤
データベース
レ
ヒ
ク
ヒ
ヒ
特定領域 情報福祉:A01 聴覚障害
手形による手話単語の分類
手形
イ
ク
テ
モ
ウ
コ
ヌ
レ
オ
サ
ヒ
レ(曲)
イ
構わないですか?
ウ
夏物 ・ 秋物 ・ 冬物
オ
色
ク
青 ・ 黒 ・ ~がありますか?
コ
背が高い ・ 背が低い
サ
かばん ・ 暑い ・ 夏物 ・ 靴 (右) ・ 皮(右)
テ
セーター ・ 暖かい ・ 胸 ・ 肩 ・ 流行 ・ 靴
ヌ
絹
ヒ
赤 ・ cm ・ 頭 ・ 合う ・ ~はどこですか?
モ
好き ・ 嫌い
レ
スカート ・ ズボン
レ(曲)
ロ
ロ
半円型
「お金」の形
半円型 お金 長い・短い
分類単語
長い・短い
めがね
ネクタイ
小さい ・ 大きい
安い ・ 高い ・ 値上げ
長い ・ 短い
特定領域 情報福祉:A01 聴覚障害
手形データの合成を行った単語例
特定領域 情報福祉:A01 聴覚障害
HMMによる学習・認識実験
両手の手話17単語、片手の手話21単語
各単語、各手話者に3つの元データ
2人の手話者のデータ(計6種類)

5つを学習データ、1つを認識データとして組み合わせ
を変えて3回実験

新しく生成されたサンプルを加える場合


認識データは1つ。
学習データはテストデータを除くデータと、
それから合成されたデータ2つ
特定領域 情報福祉:A01 聴覚障害
Experimental result
Both hands
expert
One hand
without
synthesis
with
synthesis
without
synthesis
with
synthesis
No. of
success
52/52
52/52
57/63
57/63
rate
100%
100%
90.5%
90.5%
Both hands
One hand
without
synthesis
with
synthesis
without
synthesis
with
synthesis
No. of
success
52/52
50/52
57/63
58/63
rate
96.2%
96.2 %
90.5%
92.1%
beginner
特定領域 情報福祉:A01 聴覚障害
合成データの追加により成功した例
好き
誤認識
赤
手形による合成データ
の追加により成功
赤
誤認識
嫌い
特定領域 情報福祉:A01 聴覚障害
Example of failure
black
head
Overlapping hand shape is unstable
特定領域 情報福祉:A01 聴覚障害
データ合成の今後の課題
今後の課題


様々な状況を想定した手形データを増や
し、合成データをより多く用いて学習
手の動きを含めた学習データの生成
特定領域 情報福祉:A01 聴覚障害
手話認識の今後の課題



多数のサンプルに対する学習と実験
文章の認識
コーパスの作成(sINDEX の発展)
手話の表現(形態素、音素、変形、両手…)