微笑みと視線モデルを適用した音声駆動型身体的引き込みキャラクタ

平 成 2 6 年 度 修 士 論 文 要 旨
ヒューマン・ロボティクス領域 6625014 小野 光貴
微笑みと視線モデルを適用した音声駆動型身体的引き込みキャラクタシステム
1
4
はじめに
視線モデル
対面コミュニケーションでは,うなずきや身振り等
これまでに,アバタを介したコミュニケーション時
の身体動作,視線,表情などのノンバーバル情報が同
の人間の眼球動作特性に基づいた眼球動作モデルを提
調し,円滑なコミュニケーションが行われている.本
案している.眼球動作モデルは,眼球をアバタの頭部
研究室ではこれまでに,対話時における音声と身体動
動作に対して 0.13 秒の遅れを伴って動作させ,継続
作の時系列関係に着目し,音声を入力としてコミュニ
的に相手を注視することができる眼球遅延動作モデル
ケーション動作を自動生成する技術 iRT を開発して
と,対話時間の 20%に対して瞬きや視線はずしなど
きた.さらにその技術を CG キャラクタに適用した
の注視以外の動作を生成する視線はずしモデルから構
音声駆動型身体引き込みキャラクタ InterActor を開
成されている.しかし,この視線はずし動作は,アバ
発し,有効性を示している.iRT は音声のリズムに連
タの眼球を注視している位置から下方へわずかに移動
動した身体動作の生成を可能としたが,視線や表情の
させる曖昧な注視を生成するモデルとなっており,注
変化といった多様な表現を行うことで,より円滑なコ
視の継続性の問題があった.また,よりコミュニケー
ミュニケーションが行えると考えられる.
ションの促進を図るためには,場の盛り上がりなどの
本研究では,表情や視線の重要性に着目し,従来の
インタラクションとの関係を考慮したシステム設計が
頭部動作や身体動作に加え,より人間的な視線や表情
必要である.そこで本研究では,視線情報を解析し,
などを表現できる微笑みと視線モデルを適用した音声
コミュニケーション実験によってシステムの有効性を
場の盛り上がりに関連した視線モデルを提案する.
4.1 視線情報の計測実験
対話中の音声,視線情報を収得する計測実験を行っ
示している.
た.実験は 2 人 1 組で行い,3 分間の自由対話とした.
駆動型身体的引き込みキャラクタシステムを開発し,
2
表現性を向上させた InterActor
被験者は 19∼24 歳までの同性同士の男女学生 10 組
これまで開発してきた CG キャラクタ (図 1(a)) は関
節ごとにパーツを分離し,座標を指定して動作させて
いた.しかし,従来の動作方法では表情や視線などの
多様な表現を行うことが難しい.そこで,各身体部位
に適合した自由度の高い動作を生成するために,CG
キャラクタに仮想的骨格構造を構成した InterActor
(図 1(b)) を開発した [1] .
20 人であった.
4.2 視線情報特性の解析
解析結果の一例を図 3 に示す.キャリブレーション
時(対話相手とのアイコンタクト)の座標を基準とし,
対話者の注視点分布,注視点距離を算出した.比較的
距離の大きいところにも注視点が存在し,何らかのタ
イミングで視線を大きくそらしている様子がわかる.
この視線をそらすタイミングを推定するため,インタ
ラクションと視線情報との相互関係に着目して解析を
行った.相互の発話音声から場の盛り上がりを推定す
るモデルを用いて盛り上がり度合を算出し,注視点距
(a)ࣃ࣮ࢶศ㞳ᵓ㐀 (b)௬᝿ⓗ㦵᱁ᵓ㐀
図 1: InterActor
3
微笑みモデル
┿㢦
ᚤ➗ࡳ
➗࠸
図 2: 微笑みモデル
従来の InterActor に表情の変化を付加することで,
CG キャラクタの表現性を向上させることができ,よ
り人間的なキャラクタシステムへの応用展開が期待で
離との関係を相互相関関数 C(τ ) で分析区間 30 秒,前
後最大 5 秒のずれ時間で解析した.図 3(d) より,0 秒
付近で最も強い負の相関が確認でき,全組における負
の相関係数の平均は -0.45±0.09 であった.場の盛り
ὀどⅬ㊥㞳[mm]
1500
1000
きる.微笑みモデルは,音声の入力から表情の変化を
表現するモデルとして開発した (図 2).両対話者の音
声または一方の対話者の音声が ON の場合に微笑み,
両者の音声が OFF になった場合は真顔に戻るように
Y axis [mm]
0
500
-1500
-1500
00
(a) ὀどⅬ㊥㞳
┒ࡾୖࡀࡾ᥎ᐃ್
0
1500
X axis
(b)ὀどⅬศᕸ [mm]
180[s]
C( )
0.6
10
動作させ,会話中は微笑み,沈黙した場合は真顔に戻
るようにした.また,喜びの感情では音声の強度が高
くなるので,音圧の強弱により,音声入力の ON-OFF
判定に用いる閾値よりも高い閾値を用いて,表情の変
化を『笑い』と『微笑み』に区別するようにした.
0
5
0
0
(c) ┒ࡾୖࡀࡾ᥎ᐃ್
180[s]
-0.6
-5
[s]
0
5
(d) ┦஫┦㛵㛵ᩘC(τ)
図 3: 視線そらし動作解析結果の一例
上がりと視線そらしの間に負の相関関係があることが
とした.実験手順は,3 つのモードからランダムに 2
わかる.
4.3 視線モデル
視線情報特性解析より,対話者は場の盛り上がりが
つのモードを抽出し,どちらが総合的に良いか一対比
落ち着くと対話相手への注視をやめて視線そらしを
較を行わせた.その後,各モードを試用させ,8 項目
について 7 段階(中立 0)で官能評価させた.被験者
に基づいて,長時間,対話相手への継続的な注視を行
は 18∼24 歳の同性同士の男女 12 組 24 名であった.
5.2.2 実験結果
Bradley-Terry モデル(Pij = πi /(πi +πj ), πi =
わないよう,アバタの眼球を大きくそらす動作を生成
const.(= 100),πi : i の強さ,Pij : i が j に勝つ確
する視線モデルを提案する.視線モデルは,視線情報
率)を想定し,各モードの強さ π を最尤推定した一
特性解析の知見に基づく視線そらしモデルと上述の眼
対比較の結果を図 5(a) に示す.(C) が他のモードに
球遅延動作モデルから構成されている.視線そらしモ
比べて極めて高く評価され,続いて (B),(A) の順で
デルは,場の盛り上がり推定モデルによって算出され
評価された.次に,7 段階官能評価結果を図 5(b) に
た値から,注視時間特性が眼球動作モデルと同様とな
示す.Friedman の分散分析法及び Wilcoxon の符号
るように視線そらしを実行するかを判定する.この視
順位検定を行った結果,(C) 及び (B) は,(A) に対し
線そらし動作は,予備実験を行った結果,対話相手に
て全ての項目に対して有意差が認められた.これらか
対して左右方向に大きく頭部動作と合わせて眼球を回
ら,(A) に対して,表情の変化がある (B) 及び (C) で
転させる動作が高く評価された.このモデルを実装す
は大きく印象が向上していることがわかる.さらに,
ることで,曖昧注視ではなく,大きく視線を外すこと
が明確に示されるため,注視の継続性や相手への威圧
(C) と (B) との間において,
「楽しさ」「場の盛り上が
り」「生命感」「相手からの視線(自然な視線)」で有
感が軽減されると期待される.予備実験により,従来
意差が認められた.(C) では,場が盛り上がるまでは
の眼球動作モデルとの比較を行った結果,約 75%(16
対話相手への注視を行うことで,身体的リズムの共有
人中 11 人)が提案モデルである視線モデルを高く評
が促進され,互いの親和性を強め,場の盛り上がりが
価しており,提案モデルの有効性を確認している.
落ち着くにつれて視線そらしを行い,親和性の均衡を
5
図っているものと考えられる.
行っていると考えられる.この人間の視線そらし特性
微笑みと視線モデルを適用した音声駆動
型身体的引き込みキャラクタシステム
5.1 システム開発
仮想的骨格構造による InterActor と微笑みモデル,
π
100
A
B
C
***p<0.001
**p<0.01
*p<0.05 3
***
**
** * ***
***
*** ***
** * *** *** *
***
** *
***
*
***
*
(6)
(7)
(8)
2
80
視線モデルを用いて,コミュニケーションシステムを
71
1
60
開発した.本システムでは,日常的な飲食店を模した
0
40
仮想空間内で InterActor を介してコミュニケーショ
ンを行う(図 4).音声が入力されると,InterActor
20
はうなずきや身振りだけでなく,微笑みモデル,視線
0
-1
21
8
A
-2
B
C
(a)୍ᑐẚ㍑⤖ᯝ
モデルに基づいて表情変化,注視・視線そらしを行う.
-3
(1)
(2)
(3)
(4)
(5)
(b) 7ẁ㝵ᐁ⬟ホ౯⤖ᯝ
これら身体動作や微笑み動作,視線動作等を排他的に
(1)ᴦࡋࡉ(2)ᑐヰࡋࡸࡍࡉ(3)ሙࡢ┒ࡾୖࡀࡾ(4)୍యឤ(5)⏕࿨ឤ
(6)┦ᡭ࠿ࡽࡢど⥺㸦⮬↛࡞ど⥺㸧(7)ዲࡳ(8)௒ᚋࡇࡢࢩࢫࢸ࣒ࢆ౑⏝ࡋࡓ࠸࠿
実行するのではなく,動作を合成することで,身体的
図 5: 官能評価結果
引き込みの効果を損なうことなく多様なインタラク
6
おわりに
本研究では,コミュニケーション時における表情や
ションを表現している.
Headset
視線の重要性に着目し,従来の頭部動作や身体動作に
加え,より人間的な視線や表情などを表現できる微笑
Display
みと視線モデルを適用した音声駆動型身体的引き込み
PC
Ethernet
キャラクタシステムを開発し,コミュニケーション実
Another Room
験による官能評価を行った.その結果,表情を変化さ
図 4: システム画面とシステム構成
せることができる微笑みモデル,場の盛り上がりと関
5.2 コミュニケーション効果の検証実験
5.2.1 実験概要
システムのコミュニケーション効果を検討する実験
連した視線モデルを用いることで,対話しやすさや一
を行った.実験は 2 人 1 組で行い,それぞれ別室でシ
参考文献
ステムを用いて自由対話を行わせた.比較モードは,
InterActor の動作について,(A) 身体動作のみを行う
モード,(B) 身体動作・微笑み動作を行うモード,(C)
身体動作・微笑み動作・視線動作を行うモードの 3 つ
体感の増大に繋がるなど提案モデルおよび開発したシ
ステムの有効性を示した.
[1] 小野光貴,山本真代,渡辺富夫,石井裕,瀬島吉裕,
“微笑みと眼球動作モデルを付加した音声駆動型身体
的引き込みキャラクタシステムの開発”,第 15 回計測
自動制御学会システムインテグレーション部門講演会
(SI2014) 論文集, (2014), pp. 888-891.