音声対話における韻律変化をもたらす要因分析 - 西村良太

Journal of the Phonetic Society
of Japan, Vol.13 No.3
December 2009, pp.00–00
音声研究 第13巻第 3 号
2009(平成21)年12月
● ‒ ●頁
音声対話における韻律変化をもたらす要因分析
西村良太 *・北岡教英 **・中川聖一 ***
Analysis of Factors to Make Prosodic Change in Spoken Dialog
Ryota NISHIMURA*, Norihide KITAOKA** and Seiichi NAKAGAWA***
SUMMARY: In smooth and cooperative human-to-human conversations, the prosody as pitch is synchronized between speakers. From this, it is expected that there are some relations between various prosodic
changes and the impressions of the conversations. It is necessary to understand what factors are involved in
meaning the conversation smooth and lively. In this paper, we analyzed the correlation between the fundamental frequency’s synchrony tendency or overlap frequency, and subjective measures of “liveliness” and
“familiarity” in human-to-human dialog. As a result, when the prosodic change of speakers synchronized
well, it seemed the dialog became familiar, lively, and frank, and the speakers were in agreement. It is shown
that the impression signifiers of the conversation are able to be evaluated with only the use of prosodic information.
キーワード:音声対話,韻律同調,韻律変化モデル,応答タイミング,音声対話システム
1.はじめに
正の相関を示すことや(長岡 2001),交替潜時を
変化させることでその対話から受ける印象が変化
実際の人間同士の対話においては,対話が進む
することを示している(長岡・Maria・小森・中
につれて,声の高さや話速などの韻律が同調して
村 2002)。これらのことから,種々の韻律情報と
いる。このような対話のリズムを司る現象につい
対話の印象の間には関係があると予想される。円
ては,これまでにも研究が行われている。小松ら
滑に対話を進め楽しく盛り上がる対話を行う為に
は,対話者の間でお互いに発話速度が相手に同調
は,どのような要因が関係しているのかを理解す
していく発話速度の引き込み現象の有無につい
る必要がある。
て,人間同士の対話と人間対人工物の対話にて調
そこで,人間同士の対話のリズムに着目し,対
査・分析し,引き込み現象が起こっていることを
話者間で韻律変化にどのような相互作用があるの
確認している(小松・森川 2004)。垣田は,簡単
かを調査・分析することで,同調現象や対話の印
な質問応答形式にて話者の基本周波数に関して話
象を決定する要因の理解や,これらの現象につい
者間で関係があるかを実験により調査しており,
ての知見を得られれば,その知見を音声対話シス
ほとんどの話者で,一方の話者の基本周波数が高
テムなどに利用することが出来るようになると考
ければ,もう一方の話者の基本周波数も高くなる
えられる。
ことを指摘している(垣田 1995)。また,長岡らは,
交替潜時(Switching pause)が 2 話者間で有意な
近年,計算機の性能向上と音声認識技術の発達
に伴い,音声認識技術を用いたインターフェース
* 豊橋技術科学大学大学院工学研究科電子・情報工学専攻博士課程 3 年(Ph.D Student, Department of Information
and Computer Sciences, Toyohashi University of Technology)
** 名古屋大学大学院情報科学研究科メディア科学専攻准教授(Associate Professor, Department of Media Science,
Graduate School of Information Science, Nagoya University)
*** 豊橋技術科学大学情報工学系教授(Professor, Department of Information and Computer Sciences, Toyohashi University
of Technology)
̶1̶
10特集(西村).indd 1
2010/04/21 13:48:11
特集「リズムとタイミング」
も発展してきており,観光案内や情報検索,カー
応答タイミングのみに注目していた。しかし,実
ナビゲーションシステムへの応用など,様々な対
際の人間同士の対話においては,そのほかにも
話システムが検討・実用化されている。しかし,
様々な要因が関係している。その要因を考慮せず
一般にこれらのシステムにおいては,人間同士で
に,一部の機能についてのみ協調的な対話を実現
会話をする場合とは大きく異なり,応答タイミン
しようとしている現存のシステムでは,相互に協
グが不適切であったり,韻律変化の無い平坦な音
調しあうことが上手くできない。岡田らは,シス
声での応答が返ってきたりする。これが音声対話
テムを高い知能が無い小さなレベルのエージェン
システムに壁を感じる一因となっている。今後は,
トの集合とし,そのエージェント集合と人間(環
音声対話システムがより身近なものになり,生活
境)との相互作用によって協調的な対話を実現し
の中に入り込んでくることが予想されるが,その
ようとしている(岡田 1995,栗原・岡田・中津
際には,より自然な対話を実現する必要がある。
1994)。人間とシステムの対話の円滑さを求める
人間同士の雑談のような対話は,自然な対話のひ
ためには,まず人間同士の対話の自然性を分析し,
とつの理想の形であると考えられる。我々はこの
理解することが重要である。
ような対話に現れる様々な現象をモデル化し,自
対話中に韻律が果す機能について分析したもの
然で楽しく,盛り上がる対話が可能な対話システ
としては,Spyros らは,音響/韻律素性の話者間
ムの構築を目指している。
での一致について調査・分析している(Kousidis
人間同士の会話においては,話者は互いにうな
et al. 2008)。ピッチ,パワー,話速についての分
づきやあいづちによって相手の発話を理解してい
析を行っており,同調傾向はパワーに顕著に現れ
ることを明示している。これらも対話のリズムを
ていた。また,話速や平均ピッチの同調傾向も示
制御しているものであり,それにより会話がス
されている。西田らは,発話印象と韻律情報の関
ムーズに進行する。あいづちや話者交替に対して
係について,重回帰分析によってモデル化を行い,
は,ピッチ(F0)やパワーなどの情報が主に関連
発話印象の推定の検討を行っている(西田・小川・
している(Geluykens and Swerts 1994, Hirschberg
堀内・市川 2006)。印象表現としては「強調」「疑
2002)
。これをシステムとして実現した例もいくつ
問」「驚き」「自信」「迷い」の 5 つを用い,韻律
かあり,リアルタイムにあいづちを生成するシス
特徴としては,「F0」「パワー」「平均モーラ長」
テムや(Ward and Tsukahara 2000)
,あいづちやう
を用いている。人間による印象評価において印象
なづきをする家庭教師システム(Rajan et al. 2001)
,
があるとされた音声での,モデルの判別精度は「強
表情表出を行うロボットなどがある(小林 2005)
。
調」
「疑問」
「驚き」については 60% ∼ 70% となっ
また,話者交替のタイミングも対話の自然性を
ており,印象が無いとされた音声では,
「自信」
考える上では重要である。相手の発話が終わった
が 96.7%,それ以外が 100% の判別精度となって
のか,まだ続くのかを的確に把握し,適切なタイ
いた。片桐らは,対話における繰り返しに着目し,
ミングで応答を返すことができれば,円滑に対話
音声の時間的・韻律的特徴として,発話速度,平
を進めることが可能になる。
均音高,境界音調,時間遅れ(ポーズ長)が,繰
そこで我々は,音声対話システムにおいてあ
り返した発話を既知の知識にどの程度統合できて
いづちや,システムからユーザへの割り込み発
いるかを表すことを示した(片桐・下嶋・Marc・
話など,種々の現象を考慮しそれらを適切なタ
小磯 1999)。キャンベルは,F0,継続時間,振幅
イミングで行う天気予報を話題とする雑談シス
と並んで,声質がパラ言語情報を伝達するための
テムを構築した(西村・北岡・中川 2006, Kitaoka,
韻律特性であることを示し,声質が,対話者,発
Takeuchi, Nishimura and Nakagawa 2005)。文献(西
話スタイル,発話行為と強い相関があることを示
村ほか 2006)では,円滑に対話を実現するために,
している(ニック 2004)。
̶2̶
10特集(西村).indd 2
2010/04/21 13:48:11
音声対話における韻律変化をもたらす要因分析
対話の盛り上がりや印象については,徳久らは,
象を決定づける上でどの程度影響しているのかの
雑談(非タスク遂行型対話)における発話と盛り
調査・分析を行う。5 節にて,結論と今後の展望
上がりとの関連を調べており,音声の提示に加え
を述べる。
て,言語情報(書き起こしテキスト)も用いて対
話が盛り上がっている部分の分析を行っている
(徳久・寺嶌 2006)。対話は 5 発話を 1 単位として,
2. 人間同士の対話における話者間の韻律の
関係
盛り上がりを 81 段階(全く盛り上がっていない:
10 ∼とても盛り上がっている:90)で評価して
本章では,人間同士の対話における話者間の韻
いる。結果として,言及される内容が主観的な内
律の関係を調査・分析する。韻律情報としては,
容であるか客観的な内容であるかが対話の盛り上
基本周波数(F0)の時間的な変化に着目し,そ
がりと関連があることや,感情に関する発話が対
の変動の仕方や相互作用の有無について調査し,
話の盛り上がりと関連が深いことなどを明らかに
また,対話の盛り上がりとの関連についても分析
している。しかし,相槌や話速などの非言語情報
を行う。
については分析を行っていない。山住らは,講演
音声の印象評価尺度の構築を試みており,多数の
2.1 対話コーパス
評価語を考慮した上で,最終的には,上手さ・好
人間同士の対話での韻律変化の関係を調査する
悪・速さ感・活動性・スタイルという五つの尺度
ために,実際の人間同士の対話コーパスを用いて
を採用している(山住・籠宮・槙・前川 2005)。
調査を行った。調査に用いたコーパスは,国立国
籠宮らは,CSJ コーパスを用いて「好悪」
「上手さ」
語研究所から提供されている「日本語話し言葉
「速さ感」「活動性」「スタイル」の 5 つの心理尺
コーパス」
(Corpus of Spontaneous Japanese; CSJ)
度を開発し,印象評定を行っている(籠宮・山住・
である(Maekawa 2003)。CSJ コーパスは,現代
槙・前川 2004)。しかし,対象音声は独話の講演
日本語の自発音声を種々の研究用付加情報ととも
のみである。結果として「上手さ」の評定には「ポー
に大量に格納したデータベースであり,語数にし
ズ比」,
「速さ感」の評定には「モーラ/秒」と「ポー
て 750 万語,時間にして 660 時間の音声が含まれ
ズ比」,「活動性」の評定には「ポーズ比」が大き
ている。CSJ コーパスは,自動音声認識の研究リ
な役割を果していた。これらの事から,対話の印
ソースとして活用することが想定されているた
象と対話中におこる現象との間の関係を分析し,
め,ほとんどが学会講演のような独話(モノロー
理解することも重要である。
グ)音声であるが,対話音声としては,表 1 に示
本研究の目的は,人間同士の対話のリズムや発
す内容・時間数が存在する。
話のタイミングに関わる現象と,それらによって
今回の対話コーパスの調査は,これらの対話音
対話から受ける印象の変化についての要因分析を
声に対して行った。対話は,1 つ 10 分∼ 20 分程
行うことである。具体的には,ピッチ・パワーの
の長さであり,全体で 58 対話,約 12 時間である。
相関,オーバーラップ頻度,話速などに焦点を当
1 発話は平均 1.6 秒である。本研究での分析は,
て,対話全体としてのリズムや発話のタイミング,
対話単位での分析と,より詳細な分析を行うため
印象などを考慮した分析を行う。
のトピック単位での分析を行った。ここでのト
以下,2 節では,実際の人間同士の対話から,
ピック単位とは,意味上のまとまりを持っており,
対話者間の韻律変化の関係性を調査・分析する。
200ms 以上のポーズまたは明確な文末表現で区切
3 節では,対話の印象と,その対話中に起こる現
られた転記基本単位(CSJ コーパスで定義されて
象との関係性についての調査・分析を行う。4 節
いるもの)で区切り,対話音声長が 1 分程度の長
では,韻律情報・言語情報のそれぞれが対話の印
さになるようにした単位である。短時間で完結す
̶3̶
10特集(西村).indd 3
2010/04/21 13:48:12
特集「リズムとタイミング」
表 1 CSJ の対話コーパス
種類
内容
対話数
時間
発話数
トピック数
D01
模擬講演
インタビュー
16
3.4
7608
202
D02
課題指向対話
16
3.1
6823
179
D03
自由対話
16
3.6
8022
206
D04
学会講演
インタビュー
10
2.1
4714
122
る話題がある場合には,1 つのトピック単位に対
性(インタビュワー)が,男性または女性と対話
して複数の話題が含まれる場合もある。トピック
をするものである。音声収録には,対面ブースを
毎の分析に用いたデータは,第一著者が対話デー
用いており,話者はそれぞれ独立した防音ブース
タを上記定義に沿って分割した。得られたトピッ
に入るが,ガラス越しにお互いの顔が見えるよう
ク毎のデータの例を表 2 に示す。
になっている。お互いの音声は,ヘッドホンを通
模擬講演インタビューと学会講演インタビュー
して聞くようになっている。
は,16 名により事前に行われた学会講演ないし
模擬講演(10 名は両方,6 名は模擬講演のみ)に
2.2 対話中の 2 話者の基本周波数(F0)の変動
関してインタビュワーが様々な質問を発し,講演
コーパス中の実際の対話音声の基本周波数
者がこれに答える形式の対話である。発話の大半
(F0)をプロットしたものを図 1 に示す。軌跡の
は,質問に対する回答によって占められている。
違いは話者の違いを示している。この図では,両
インタビュワーは 20 代と 30 代の女性各 1 名のい
話者とも女性である。値は対数値(log F0)で,
ずれかが務めている。
各話者の全体の平均値を揃えてある。上段のグラ
課題指向対話では,インタビューとの対比のた
フは,ある対話の 480 秒から 580 秒の 100 秒間。
め,参加者 2 名(上記インタビューと同一ペア)
2 名の対話者のものであり,その中から破線で示
の発話量が等しくなりやすい課題が選定されてい
した 2 つの区間について,拡大表示したものを,
る。具体的には,実在の芸能人に講演を依頼した
中段,下段に示す。拡大表示したグラフの下部に
場合の謝礼(ギャラ)の額を想像し,その額が高
は,対話者の発話区間に対応する部分を矢印で示
い順に,芸能人 9 名ないし 10 名をソートするタ
してある。各番号は,書き起こしに付与した番号
スク(ギャラ・タスク)である。対話開始時点で
と対応している。
各話者に手渡されている人名リストは,わざと一
図中の対話の話題は,前半が「子供に将来の夢
致しないように作成してあるので,謝礼額の推定
を聞いたら“子猫ちゃん”だった」というもので,
に先立って(あるいは同時に),推定対象となる
後半が「子供の言語獲得について」である。前半
芸能人の完全なリストを作成するための対話も必
は,面白いエピソードであるため,二人から「笑
要とされる。
い」も起きており,双方がよく発言し,盛り上がっ
自由対話では,課題の制約なしに,10 分程度,
自由に対話を行っている。このタスクの対話も上
ている。後半は,まじめな話に入っていき,二人
とも落ち着いて話している。
図を見ると,盛り上がっていない後半部分に関
記のタスクと同一の話者ペア(講演者とインタ
しては二人ともが各自の平均的な声の高さで発話
ビュワー)によって行われている。
本対話コーパスには女性対女性,女性対男性の
しているのに対し,盛り上がっている前半部分で
対話があり,男性対男性対話はない。いずれも女
は,お互いに声の高さが平均的な値を逸脱し,各
̶4̶
10特集(西村).indd 4
2010/04/21 13:48:13
音声対話における韻律変化をもたらす要因分析
表 2 トピック毎の解析に用いたデータの一例(CSJ コーパスの D01F0002 の中の 2 番目のトピック)
話者 ID
発話開始時間
L
60.600
R
63.123
L
64.577
L
67.832
L
68.890
大学卒業するまで
L
70.889
長い期間を国内のどこかで過ごすっていうのは(F ま)
L
74.806
(F あのー)祖母の実家
L
76.999
(F あ)(F あの)母の実家の方で
L
79.269
R
80.837
L
81.934
R
85.013
L
85.756
R
88.228
L
89.038
L
89.981
L
91.992
L
95.043
R
101.630
L
104.008
(F はー)
R
104.807
(F あー)(D ね)
R
105.759
駅から十分ぐらいのとこに借りて
R
108.688
で
R
110.366
でも目の前が何かおっきなスーパーがあるようなところだったんで
L
112.899
R
114.830
で
R
115.566
そこで
R
116.510
R
119.525
L
120.708
(F へー)
L
121.393
(F えー)
発話内容
何か珍しいなと思ったんですよそういう何かあんま
(F あ)(F はー)(F はー)
でも私も(D す)(F あの)考えてみればそんなに
(F あのー)
何週間ぐらいでなくて
(F はー)
何か大学卒業してから別の場所でちょっと住んでみたんですけど
(F はー)
やっぱり何か全然違いますよね
(F はい)
どんな
(F あのー)(F その)栃木に初めて(D い)
一か月住んだ時ってのはもう
(F あのー)自炊自炊とか(F その)食べ物とかそういう生活をそのまま一か月間
移したって感じだったんですか
そうですね何かウイークリーマンションを
(F うーん)
(F あーのー)食べ物を買って
んで電子レンジでちんしてっていう感じ
̶5̶
10特集(西村).indd 5
2010/04/21 13:48:13
特集「リズムとタイミング」
発話の logF0 の値の最大値,最小値,傾きも同調
される。それは 2 話者が互いに影響しあって協調
していっている。
的に変動しているものだと考えられる。これによ
このように,対話の盛り上がりと基本周波数を
はじめとする韻律には強い関係があることが予想
図1
り,対話全体のリズムも制御され,これが対話の
盛り上がりなどに寄与している。
CSJ にふくまれる対話の対数 F0 値のプロットの例。上段のグラフは,ある対話の 480 秒から 580 秒の 100
秒間。2 名の対話者のものであり,2 種の線で区別されている。両話者とも女性である。また,その中から
2 つの区間について,拡大表示したものを,中段,下段に示す。拡大した区間に対応する書き起こしも示す。
̶6̶
10特集(西村).indd 6
2010/04/21 13:48:13
音声対話における韻律変化をもたらす要因分析
2.3 対話中の 2 話者の基本周波数の相関
対話をしている 2 人の基本周波数の相関を,こ
れらのコーパスで調査した。対話毎の分析には,
2.1 節で述べた 58 対話をそのまま用い,各対話ご
とに 2 話者間の相関を求めた。トピック毎の分析
では,このコーパスを 1 分程度のトピック毎に分
図2
割したデータを用いて相関を求めた。トピックへ
の分割後のデータ数は 709 である。ここで,F0
相関係数を出す際に,2 話者間の発話数が少ない
相関を取る際の値の補完方法。曲線は各発話の
F0 値を示し,四角と三角のプロットは各発話の
F0 代表点(平均値)を示している。破線のよう
に線形補間を行い,実際の補完点を円のプロッ
トで示している。
ものは正しい結果が得られないため,2 話者の内,
少なくとも片方の話者が 10 発話以下の発話数で
の F0 の値)の片方は線形補間によって求められ
ある場合には,その対話は分析対象外とした。片
た架空の値になっていることである。しかし,主
方の話者があいづち発話のみの対話は,分析対象
導権に関係なく両話者で時間的に一番近い値を対
としている。あいづちは平坦な低ピッチで発話さ
として分析を行っても,結果には変化はなかった。
れる場合が多いため,分析対象から外すことも考
また,F0 曲線を一つの数値(平均値)として扱っ
えられるが,CSJ コーパスには,あいづちを表す
ているため,日本語の発話末で起きやすい境界音
タグが付与されていないため,あいづちも含めて
調の影響が考えられるが,代表値として中央値(メ
分析を行っている。今回はあいづちも相手に合わ
ディアン値)を用いて分析を行っても結果に変化
せるかたちで分析している。この条件にて残った
はなかった。今回用いたコーパスは,混合主導の
トピック毎の分析対象となったデータ数は 566 で
対話であり,また対話中の韻律変化の(発話間も
ある。対話毎の分析では,1 つのデータが 10 分
含めた)流れを比較する今回の場合においては,
程度の対話,合計 56 対話に対して分析し,トピッ
図 2 で示した方法は妥当であると考える。
ク毎では,同じ分析を,1 つのデータが 1 分程度
2 話者間の対数の基本周波数 logF0 の相関係数
と短い対話,合計 566 対話に対して行うことにな
を表 3(a)および(b)に示す。対話毎の分析では,
る。
1 つ 10 分程度の対話中の両話者の F0 について相
相関を求める際,各話者の 1 発話中の対数 F0
関係数を求めており,1 つの対話について,1 つ
の平均値をその発話の代表値として,1 発話に対
の相関係数が得られる。つまり,合計で 58 の相
して 1 つの値を求め,その値の時刻は発話時刻の
関係数を得ることができる。それに対して,トピッ
間(中央)にとった。そして,相関をとる両話者
ク毎の分析では,1 つのトピックについて 1 つ
の値の数と値の時刻を同じにするために,一方の
の相関係数が得られ,分析対象データからは,
話者の値が存在する点(時刻)において,もう一
566 の相関係数が得られる。表では,種類(行)
方の話者の値は,その前後の発話から線形補間す
に対する「平均」とは単純平均であり,
「全体」
ることにより,同時刻に値を設定した(図 2)。
とは,対話数による加重平均である。この表より
通常,このような分析の際には,先行発話と当
対話中での 2 話者のお互いの F0 値には相関があ
該発話のパラメータ代表値の相関分析を行うが,
ると言える(検定結果は表 4 以降に示す)
。一般
今回のコーパスには,各発話の関連性や主導権の
にトピック毎の場合の方が相関係数は大きい。こ
情報が付与されておらず,また発話も常に交互に
れは,対話毎では分析の範囲が大きすぎ,相関が
行われているとは限らないため,そのような相関
ある部分と無い部分とを含んでいるためである。
分析は困難である。この方法の欠点としては,
トピック毎で分析することで,相関がある部分と
図 2 で示した方法では,対となるデータ(二話者
無い部分を分けて分析することが出来るため,相
̶7̶
10特集(西村).indd 7
2010/04/21 13:48:15
特集「リズムとタイミング」
表 3 各対話の話者間の F0 の相関
(a)対話毎
種類
最大値
平均
標準偏差
正の相関
(%)
盛り上がり
評価 4 以上(%)
D01
0.382
0.195
0.092
100
25.0
D02
0.477
0.221
0.145
87.5
12.5
D03
0.521
0.234
0.140
100
25.0
D04
0.206
0.062
0.091
80.0
0.0
平均
0.397
0.178
0.117
91.9
15.6
全体
0.521
0.190
0.136
93.1
17.2
種類
最大値
平均
標準偏差
正の相関
(%)
盛り上がり
評価 4 以上(%)
D01
0.716
0.145
0.247
70.6
30.7
D02
0.758
0.202
0.293
73.2
12.1
D03
0.710
0.166
0.265
72.0
26.8
D04
0.771
0.047
0.288
52.2
0.0
平均
0.739
0.140
0.274
67.0
17.4
全体
0.771
0.150
0.276
68.7
19.8
(b)トピック毎
関係数の最大値が大きくなる。また,566 トピッ
有意に相関がある。厳密には「相関がない」とい
ク中,389 トピック(68.7%)が正の相関を示し
う帰無仮説が危険率 5%(1%)で棄却されるとい
ており,対話において,声の高さは相手に合わせ
う意味である。例えばサンプル数 1000 個の場合
て変化していくと考えられる。一方,トピック毎
なら危険率 5%(1%)では相関係数が 0.062(0.081)
の分析では相関が大きいトピックと小さいトピッ
以上の場合,サンプル数が 100 個の場合なら,0.197
クが混在し,標準偏差は大きくなっている。各種
(0.256)以上の場合に棄却される。
(このことから,
類(D01 ∼ D04)のそれぞれに,人間が評価した
本論文では,相関係数が 0.3 以上を相関が高いと
「盛り上がり度」の高い対話
(盛り上がり度 4 以上)
している)。トピック毎のデータでは,危険率が
が含まれる割合も示した。人間の印象評価につい
5% で 32.3%,危険率が 1% で 20.7% のデータに
ては 3 節にて後述するが,盛り上がり度が高く評
有意に相関がある。トピック毎のデータにおいて
価された対話は D01,D03 に多い。一方,D04 で
は,互いに落ち着いて対話している部分が多いた
は高く評価された対話は無く,このことと正の相
め有意に相関があるものが少ないが,盛り上がっ
関が 52%(表 3(b)参照)とほぼランダムな結
果であったこととが符合している。
表 4 に,二人の対話中の F0 で有意に相関があっ
表 4 有意に F0 間に相関がある対話/トピックの割合
たものの割合を示す。ここで,有意差検定には,
危険率 5%
危険率 1%
t 検定を用いた。対話毎のデータでは,危険率が
対話毎
0.776
0.672
5% で 77.6%,危険率が 1% で 67.2% のデータに
トピック毎
0.323
0.207
̶8̶
10特集(西村).indd 8
2010/04/21 13:48:15
音声対話における韻律変化をもたらす要因分析
表 5 有意に F0 間に相関がある対話の割合(盛り上がっている対話,p<0.05)
(a)対話毎
対話数
F0 相関
平均
F0 相関
標準偏差
有意
合計
有意な
割合(%)
4 以上
10
10
100
0.247
0.110
3.5 以上
19
19
100
0.246
0.114
3 以上
32
35
91.4
0.228
0.121
有意
合計
有意な
割合(%)
F0 相関
平均
F0 相関
標準偏差
4 以上
5
5
100
0.345
0.372
3.5 以上
11
24
45.8
0.229
0.303
3 以上
26
57
45.6
0.143
0.334
盛り上がり度
(b)トピック毎
盛り上がり度
トピック数
ている対話や盛り上がっているトピックにおいて
パスに含まれる対話は,片方が必ず女性であるの
は有意に相関があるものが多い。
で,男性同士の対話は収録されておらず,男性同
表 5 に,盛り上がり度合いによって有意に相関
を示す対話とトピックの割合を示す。なお,評価
士の対話での F0 相関がどのようになるかは,別
のコーパスを用いて調査する必要がある。
をつけたトピック数は 116 トピックであり,表 5
図 3 に,トピック毎の F0 相関係数のヒストグ
の結果はその 116 トピックによるものである。表
ラムを示す。ヒストグラムを見ると,負の相関が
において「4 以上」とは「4 以上 5 以下」を示し,
あるデータ(−0.6 ∼ −0.2)が約 60,相関が見ら
「3.5 以上」とは「3.5 以上 5 以下」を示している。
れないデータ(−0.2 ∼ 0.2)が約 260,正の相関
表 5 では,対話毎では盛り上がり度 3 以上,トピッ
があるデータ(0.2 ∼ 0.8)が約 250 となっており,
ク毎では盛り上がり度 4 以上なら両話者の F0 間
相関がある対話においては,正の相関を持つもの
が多くなっている。対話者間の F0 相関係数は
に相関があると言える。
詳細に分析すると,対話の内容によって相関係
−0.2 ∼ 0.6 が多く見られることが分かる。
数に違いがみられた。比較的自由な形式の対話
(D2, D3)は,インタビュー形式のもの(D1, D4)
に比べて相関が高くなっている(表 3 の平均)。
つまり,自由な形式の対話では基本周波数が同調
する傾向が高いということを示している。また,
性別による違いもあり,F0 相関係数が高かった
上位 100 トピックのうち,67% が女性同士の対
話であった。もとのコーパスには,女性同士の対
話が 50%,女性と男性の対話が 50% 含まれてい
ることから,女性同士の対話の方が F0 相関係数
が高かったことが分かる。一方,女性と男性の対
話は,相関係数が低いものが多かった。但し,コー
図 3 トピック毎の F0 相関係数のヒストグラム
̶9̶
10特集(西村).indd 9
2010/04/21 13:48:16
特集「リズムとタイミング」
表 6 各対話の話者間のパワーの相関
(a)対話毎
表 7 各対話の話者間の話速の相関
(a)対話毎
種類
最大値
平均
標準
偏差
正の相関
(%)
種類
最大値
平均
標準
偏差
正の相関
(%)
D01
0.282
0.083
0.095
81.3
D01
0.127
−0.132
0.125
6.3
D02
0.354
0.137
0.095
93.8
D02
0.205
0.039
0.083
62.5
D03
0.264
0.109
0.089
93.8
D03
0.043
−0.149
0.091
12.5
D04
0.209
0.056
0.133
70.0
D04
0.020
−0.181
0.145
20.0
平均
0.277
0.096
0.103
84.7
平均
0.099
−0.106
0.111
25.3
全体
0.354
0.100
0.105
86.2
全体
0.205
−0.098
0.140
25.9
(b)トピック毎
(b)トピック毎
種類
最大値
平均
標準
偏差
正の相関
(%)
種類
最大値
平均
標準
偏差
正の相関
(%)
D01
0.616
0.143
0.266
78.1
D01
0.676
−0.117
0.348
46.9
D02
0.617
0.169
0.262
77.4
D02
0.522
−0.015
0.302
48.4
D03
0.735
0.046
0.315
51.6
D03
0.383
−0.165
0.325
35.5
D04
0.574
−0.098
0.313
36.8
D04
0.355
−0.226
0.243
21.1
平均
0.636
0.065
0.289
61.0
平均
0.484
−0.131
0.305
37.9
全体
0.735
0.083
0.303
63.7
全体
0.676
−0.120
0.322
39.8
2.4 対話中の 2 話者のパワーの相関
す。ここでの話速の定義は,1 秒間のモーラ数
表 6 に,log パワーの変動相関を示す。ここで
(モーラ毎秒)であり,1 発話中のモーラ数を,
の相関の求め方は,2.3 節での F0 の相関係数を
CSJ コーパスに付与された 1 発話の発話時間(発
求める方法と同様に,各発話の平均値を代表点と
話終了時間−発話開始時間)で割った値である。
し,対となるデータは線形補間により求めた。表
この値に対して,F0 やパワーの相関係数を求め
3 と比較をすると,相関係数の最大値は,トピッ
る方法と同様に,各発話の平均値を代表点とし,
ク毎の D03 以外の対話に対して,log パワーの相
対となるデータは線形補間により求めた。表を見
関係数が小さくなっている。また,トピック毎の
ると,相関係数の平均値は小さい値になっている。
D03 は,平均値を見ると,F0 は 0.166 であるのに
対話毎の場合には,最大値も 0.2 以下の小さい値
対し,パワーは 0.046 となっており小さい値になっ
となっており,対話全体としてまとめて観察した
ている。日本人の会話の韻律は,ピッチ(F0)の
場合には,話速に相関は見られない。しかし,ト
方がパワーよりも重視されていることがこの結果
ピック毎においては,最大値では 0.3 以上の相関
からも示されており,ピッチの方が相関が高く
係数を示しており(D01 においては,0.676),ト
なっている。従って,パワーの相関については,
ピック単位程度の短い区間においては,相関関係
これ以上分析していない。
を示す部分もあるということを示している。
話速についても,
これ以上の分析は行わないが,
2.5 対話中の 2 話者の話速の相関
3 節において,F0,パワー,話速に対して,対話
表 7 に,対話者間の話速の変化の相関係数を示
の印象評価との関係を分析する。
̶ 10 ̶
10特集(西村).indd 10
2010/04/21 13:48:16
音声対話における韻律変化をもたらす要因分析
3.対話の印象と対話現象の関係
示すものであり,発話の韻律的な特徴から受ける
印象を評価してもらった。
「表現」は,語彙的に
本章では,対話現象,特に対話のリズムに関連
敬語を用いているかどうかを評価してもらった。
している韻律変化に対して人間が感じる印象の調
実験に際して,「正式な聞き取り実験の前に,
10 分間程度評価サンプルからランダムに対話サ
査・分析を行う。
本研究では,コーパスの対話音声を実際に人
ンプルを聞いて雰囲気をつかむこと」と「各対話
間が聞いた場合の各対話の印象と,コーパス中
について,全体からかいつまんで 5 分以上は聞い
の現象(2 話者間の声の高さ,大きさ,話速,オー
てから回答すること」を注意事項として伝えた。
バーラップ頻度,フィラー頻度。それぞれ logF0,
さらに詳細な分析を行うためのトピックごとに
フィラー数
全発話数
分割したデータに対しては,1 対話から各 2 デー
で表現)との関係を分析した。4 名の被験者(男
タを,片方の話者の発話数が 5 発話未満のものは
性 1 名,女性 3 名)にて対話音声の聴取実験を行
除いてランダムに選択し,合計 116 データについ
い,各対話について,以下の各項目について 5 段
て評価を行った(表 5 と同じ 116 トピック)。対
階のアンケートをとった。
話をトピック毎に評価することで,対話毎と比較
log パワー,モーラ/秒,
オーバーラップ発話数
全発話数
,
• 相手との親しさ(親しみがある 5-1 親しみがな
い)
し,より安定した評価が期待される。また,分割
したデータ全てに対して評価を行うのは重労働で
• 盛り上がり(良い 5-1 盛り上がっていない)
あり,評価の安定性が保てなくなる可能性がある
• 相手の意見に(同意 5-1 意見を戦わす)
ため,データ数を 116 個に絞った。こちらについ
• 年齢差(差が無い 5-1 差がある)
ては 6 名の被験者(男性 4 名,女性 2 名。上述の
• L 話者(インタビュワー)のフランクさ(くだ
4 名による被験者実験参加者のうち男性 1 名,女
けている 5-1 気を使っている)
性 2 名が重複)に対話音声を聞いてもらい,各対
• R 話者(インタビュイー)のフランクさ
話について,前述の各項目に「かみ合い」の指標
• L 話者の表現(敬語を使っていない 5-1 敬語ば
も追加してアンケートをとった。
• かみ合い(良い 5-1 ぎこちない)
かり)
• R 話者の表現
ここで,アンケート結果の被験者間での違いを
ここで,評価尺度として,言語情報(同意・否
見るために,アンケート結果の被験者間の相関係
定,表現),非言語情報(年齢差),パラ言語情報
数を調べた。各アンケート項目に対する相関係数
(親しさ,盛り上がり,フランクさ)を採用して
の平均値を表 8 に示す。ここで,表中の対話毎評
いる(Fujisaki 1997)。これらの中で対話中に刻々
価の「かみ合い」についての結果が無いが,これ
と変化する尺度としては,盛り上がり,同意・否
は,かみ合いについてのアンケートはトピック毎
定が考えられる。実際に韻律変化のモデル化を行
評価に対してのみ行ったためである。この結果か
う際には,この刻々と変化する尺度を考慮するこ
ら,「親しさ,盛り上がり,年齢差,かみ合い」
とになる。
については,各被験者間で相関が高くなっており
ここでは,アンケート調査を行った全項目に対
(対話毎で相関係数が 0.4 より大きい。
「かみ合い」
する調査・分析結果を示す。
「相手との親しさ」,
「盛
については,トピック毎で 0.3 より大きい)
,こ
り上がり」に関しては,対話音声から受けた印象
れらの指標については,安定して回答できたと言
の対話全体での平均を考えて評価値を付けるよう
える。その他の項目については相関係数が低く
にした。「年齢差」については,インタビュワー(L
なっており,特に「フランクさ,表現」について
話者)と相手の年齢差を予想してもらい評価値を
相関係数が低いことから,これらの項目について
付けた。また,
「フランクさ」はリラックスさを
は,回答にバラツキがあり,安定して回答できな
̶ 11 ̶
10特集(西村).indd 11
2010/04/21 13:48:17
特集「リズムとタイミング」
表 8 各アンケート項目の被験者間の相関の平均値
アンケート項目
表 9 被験者評価と対話現象との相関(対話毎)
(a)フィラーあり
相関係数の平均
F0 平均
パワー平均
話速平均
親しさ
0.394
0.510
0.429
0.446
盛り上がり
0.368
0.547
0.361
0.387
0.241
同意・反発
0.253
0.701
0.253
0.478
0.376
年齢差
0.598
0.342
− 0.219
(結果無し)
0.337
フランク L
0.400
0.193
0.340
L 話者のフランクさ
0.399
0.128
フランク R
0.344
0.320
0.529
R 話者のフランクさ
0.384
0.178
表現 L
0.627
0.257
0.045
L 話者の表現
0.300
0.134
表現 R
0.553
0.231
0.608
R 話者の表現
0.262
0.159
F0 平均
パワー平均
話速平均
親しさ
0.277
0.563
0.272
盛り上がり
0.238
0.623
0.268
L 話者/ R 話者の表現」についての結果は参考程
同意・反発
0.138
0.607
0.226
度にとどめ,括弧つきで言及する。また,相関係
年齢差
0.395
0.569
0.051
数は,0.3 以上あれば相関があると考えられる。
フランク L
0.379
0.350
0.463
フランク R
0.387
0.382
0.450
ピック毎評価の方が,被験者間の相関係数が低く
表現 L
0.502
0.486
0.196
なっている。これは,被験者間で対話毎評価と比
表現 R
0.522
0.419
0.259
対話毎評価
トピック毎評価
親しさ
0.444
0.361
盛り上がり
0.470
同意・反発
年齢差
かみ合い
(b)フィラー抜き
かったと言える。そこで,以降は特に「親しさ,
盛り上がり,同意・反発,年齢差,かみ合い」に
ついて考察し,「L 話者/ R 話者のフランクさ,
対話毎評価とトピック毎評価を比較すると,ト
較して,安定して評価をつけることが難しかった
ということである。トピック毎のデータの場合,
58 対話コーパス中 18 対話にしか付与されていな
一つのトピックの対話を 1 分程度としてあるの
いため,ここでの分析には,フィラーあり・フィ
で,そこから評価をつけることが難しいと被験者
ラー抜きの両方とも 18 対話のみを用いている。
から報告があり,表 8 の結果と一致している。
また,ここでの結果は「対話毎評価」を用いた結
アンケート結果の評価値と,各対話音声の情報
果であり,トピック毎評価による結果ではない。
「発話ごとの F0 平均の相関係数」
「発話ごとのパ
表 9 を見てみると,F0 平均は各指標と正の相
ワー平均の相関係数」「発話ごとの話速平均の相
関があり,
「同意・反発」意外の項目で高い相関
関係数」との相関を表 9 に示す。結果は,フィラー
になっている。特に,「年齢差」において,F0 平
などによって影響を受けていることが考えられる
均と印象評価との相関が高く,年齢差が無いよう
ので,フィラーを除いた結果も示す。あいづち等
に感じる話者同士の対話では,F0 を同調させる
も影響を及ぼしている可能性があるが,コーパス
傾向が高かったことを示している。フィラーの有
にはフィラーを示すタグしか付与されておらず,
無に関わらず,「パワー平均」が指標全体におい
あいづちを除くことが困難であった為,フィラー
て高い正の相関を示している。特に「親しさ,盛
のみを除いた。フィラーを除く際に CSJ 対話コー
り上がり,同意・反発,年齢差」の指標との高い
パスの中の詳細にタグ付けが行われている「コア」
正の相関があった。2.3 節の表 3 と表 6 では,2
と呼ばれるコーパスを用いた。このコアは,全
話者間の F0 の相関係数とパワーの相関係数の大
̶ 12 ̶
10特集(西村).indd 12
2010/04/21 13:48:17
音声対話における韻律変化をもたらす要因分析
小関係は,F0>パワーとなっており,同調傾向
としては F0 の方が高いことを示した。表 9 の結
表 10 オーバーラップ頻度,フィラー頻度と被験者評
価の相関
対話毎
果は,この相関係数と印象評価との相関であり,
overlap
印象評価にはパワーの相関が影響していることを
トピック毎
filler
overlap
filler
示している。しかし,表 6 に示すように,パワー
親しさ
0.627
0.072
0.483
−0.266
の相関係数は小さく,対話中の同調傾向としては
盛り上がり
0.718
0.127
0.580
−0.178
F0 のほうが重要視されている。
同意
0.638
0.090
0.568
−0.112
年齢差
0.068
−0.411
0.349
−0.299
0.641
−0.132
また,「話速平均」においても,「親しさ,盛り
上がり」の指標において高い正の相関が見られた。
かみ合い
親しく盛り上っている対話では,相手に話速を合
わせていく傾向が高かったことを示している。結
果として,フランクで親しみのある盛り上った対
話では,対話の韻律(F0,パワー,話速)を相
手に合わせていく傾向があることが分かった。
(結果無し)
L フランク
0.417
−0.108
0.327
−0.381
R フランク
0.637
−0.047
0.511
−0.172
L 表現
0.238
−0.265
0.240
−0.353
R 表現
0.404
−0.289
0.193
−0.226
表 10 に,対話現象として,オーバーラップ頻
度とフィラー頻度について,被験者評価との相関
あった。
「親しさ」については,対話毎に評価を
を求めて示した。表 10 を見ると,オーバーラッ
した場合には,相関が見られなかったが,トピッ
プ頻度は,各印象評価と全体的に高い正の相関係
ク毎に評価することで,負の相関が見られ,フィ
数を示している。特に,
「親しさ」
「盛り上がり」
「同
ラーが沢山起こる対話は,あまり親しさが感じら
意・反発」
「かみ合い」は,オーバーラップの頻
れないということである。言い換えれば,スムー
度が高いと評価値も高くなっている。つまり,親
ズでフィラーがあまり生じない対話は盛り上がっ
しさがあったり,盛り上がっていたり,同意して
た,親しさのある対話と感じることを示している。
対話が進んでいる場合にオーバーラップが多く起
籠宮ら(籠宮ほか 2004)の先行研究においては,
こる傾向を示している。発話のタイミングとして,
「リラックス」
「流暢」
「自信有」の講演においては,
間を空けずに応答することで,テンポ良く対話を
フィラー数が有意に増加しており,このことから,
進め,対話を活発にさせている。
(「フランクさ」
親しさのある相手とフランクに話すとフィラーが
に対しても高い相関があるので,くだけていると
ふえると予想されるが,逆の結果となり,新しい
感じた対話にて,より多くオーバーラップが起
知見が得られた。本研究での結果は,親しくない
こったということである)。しかし,オーバーラッ
相手とは,慎重に考えながら話すことなどによっ
プ頻度には,あいづちも含まれていることから,
てフィラーが増えると解釈できる。籠宮らの分析
あいづちと,それ以外の発話のどちらが上記の性
は独話講演を分析対象としており,対話を分析対
質に大きく貢献しているかまでは,明らかでなく,
象としている本研究とは異なるためだと考えられ
今後の課題である。
る。しかし,渡辺(Watanabe 2009)や土屋ら(土
フィラー頻度に関しては,全体的に負の相関に
屋ほか 2009)は,独話に対しても我々の結果と
なった。特に,「年齢差」(表現)でやや大きな負
同じく,親しくない(フォーマルな)発話スタイ
の相関となっていることから,相手が目上であっ
ルのものの方が,親しい(カジュアルな)発話ス
たり,敬語を使っていたりする場合には,
フィラー
タイルのものより,フィラー頻度が高くなってい
が起こりやすいことを示している。また,
「親しさ」
た。渡辺の分析では,フィラー頻度は,学会講演
「盛り上がり」「同意・反発」に関しては,トピッ
(フォーマル)>模擬講演(カジュアル)となって
ク毎に分けた対話においては,全て負の相関が
いる。さらにフィラーの種類によって詳細に分析
̶ 13 ̶
10特集(西村).indd 13
2010/04/21 13:48:18
特集「リズムとタイミング」
しており,
「えー」というフィラーの頻度につい
している。本研究では,対話の印象評価を行って
ては,模擬講演よりも学会講演の方が有意に高く,
おり,2 話者からの発言があり評価単位も長い。
逆に「あのー」というフィラーの頻度については,
このことから,今回用いるコーパスにて調査・分
学会講演よりも模擬講演の方が有意に高いと報告
析を行い,また,言語情報のみによる評価の分析
している。土屋らもフィラーについて分析してお
も行うことにより,それぞれが印象評価に対して
り,学会講演(フォーマル)と講義音声(カジュ
どの程度影響を与えているかを明らかにする。
アル)との比較を行っている(土屋ほか 2009)。
フィラー頻度は,学会講演の方が講義音声よりも
4.1 韻律情報のみによる対話の印象評価
本節では,韻律情報のみを残した音声(以降,
高くなっていた。
ハミング音)を用いて,その音声に対して印象評
4. 韻律情報・言語情報の対話の印象への影
響度
価を行う被験者実験を行った。ハミング音は対話
音声からピッチ(F0)・パワーを抽出し,正弦波
を用いてピッチ・パワーのみを保持した音声を再
対話中の話者間の基本周波数(F0)に正の相
合成した。コーパスに含まれる対話音声は,元々
関があることや,対話中の印象と韻律情報との間
左右のチャンネルに各話者の音声が分かれて収録
に相関があることが分かったが,実際の人間同士
されており,各チャンネルにて再合成を行った。
の対話の印象の決定について,韻律情報(ピッチ
この為,各話者のハミング音は,それぞれ別のチャ
(F0),パワーなど)がどの程度効いているかは
ンネルに入っており,このことから,違う話者に
分からない。また,言語情報がどの程度関係して
よる発話を区別することができる。勿論,ポーズ
いるかも分からない。対話の印象を決定づけるも
やオーバーラップなどの発話タイミングも保持
のとして,対話のリズムや発話のタイミングのよ
した。つまり,リズムとタイミングの情報を持っ
うな韻律情報と言語情報のどちらが,どれほどの
ている。これを,被験者はヘッドホンを用いて聴
影響しているのかの分析も重要である。ここまで
取する。被験者には,実験の前に音声が対話音声
に得られた知見から,これをモデル化し,人間と
から変換されたものであることを伝えてあり,こ
機械との対話システムの構築を考える際に,対話
のことから,聴取音声が対話音声であることがわ
システムの応答は韻律情報のみの制御で良いの
かる。
か,言語情報も大きく影響するのかを調査・分析
被験者は,通常の対話音声に対しても評価実験
する必要がある。そこで,韻律情報のみでの評価
を 行 っ た 3 名( 男 性 1 名, 女 性 2 名。3 名 と も
と言語情報のみでの評価を行って,それぞれの影
3 節の 2 度の被験者実験に参加。)である。評価
響の分析を行った。
項目については,3 節のトピック毎音声の評価に
文献(Friend and Farrar 1994)において,Friend
用いたものと同じものを用いるが,「表現」は言
らは,3 種類の content-masking 手法(言語情報を
語情報に対する評価であったため,ここでは省略
マスキングした)にて音声を作成し,それを被験
した。
者に聞かせて「happiness, anger, excitement」の指
ハミング音評価の被験者間の相関係数の平均を
標にてアンケートを取り,マスキング手法による
表 11 に示す。ここで,評価項目が 3 つになって
影響を分析している。マスキング手法が異なると
いるが,これは被験者のうちの 1 人が,これ以外
評価に影響があることが示されているが,韻律情
の項目(同意,年齢差,フランクさ)について評
報から印象を評価できることが示されている。た
価することが不可能であると申告した為である。
だし,この文献で用いられたデータは,母親から
残りの被験者 2 人は,これ以外の項目を評価はし
子供への語りかけであり,また発話ごとに評価を
たものの,対話毎評価においては 58 対話中 50 対
̶ 14 ̶
10特集(西村).indd 14
2010/04/21 13:48:18
音声対話における韻律変化をもたらす要因分析
表 11 ハミング音評価の被験者間の相関係数の平均
対話毎評価
トピック毎評価
親しさ
0.347
0.505
盛り上がり
0.425
0.584
(結果無し)
0.446
かみ合い
表 12 通常音声とハミング音との間の評価の相関
被験者 A
対話毎
評価
トピック毎
評価
親しさ
0.465
0.518
盛り上がり
0.398
0.564
(結果無し)
0.433
親しさ
0.330
0.467
盛り上がり
0.515
0.235
(結果無し)
0.282
親しさ
0.398
0.493
盛り上がり
0.457
0.400
(結果無し)
0.358
かみ合い
話程度に「3」が付与されており,トピック毎対
被験者 B
話においては相関係数が非常に低くなっていた
かみ合い
(0.1 程度であった)。つまり「同意」
「年齢差」
(フ
ランクさ)については,韻律のみによる印象評価
平均
が困難であったと言える。
かみ合い
表 8(通常音声)と表 11(ハミング音声)を比
較すると,表 8 では評価対象のデータ時間が短く
なると(対話毎 vs トピック毎)被験者間の相関
ら「親しさ,盛り上がり,かみ合い」といったこ
が低くなっているのに対し,表 11 では相関が高
とがかなりの確度で判定できることが示された。
くなっている。前者は時間を短くすることで言語
情報にあまり頼れなくなり評価が難しくなってい
4.2 言語情報のみによる対話の印象評価
たが,後者は韻律情報しかないため,時間が短く
本節では,4.1 節に対して,言語情報のみを残
なったことで被験者間の評価のずれが小さくなっ
した対話(書き起こし文)を用いて,その文に対
ている。また,対話毎評価の場合,対話データは
して印象評価を行う被験者実験を行った。書き起
10 分程度の長さがあり,対話中での「親しさ」
「盛
こし文については,CSJ コーパスに含まれるテキ
り上がり」「かみ合い」などが変化していること
ストデータを用いた。CSJ コーパスでは,笑いな
から,評価が一致しにくかった。逆に,評価対象
どの文字化が困難な発話は〈笑〉というように記
のデータ時間が長い場合(対話毎)では,言語情
述されているが,本実験ではこれらを除外して実
報も寄与していると言える。言語情報に関しては,
験を行った。
また,書き起こし文には,句読点は含まれてい
次節で述べる。
表 12 に,通常音声とハミング音との間の印象
ない。しかし,200ms 以上の無音区間が含まれる
評価の相関を示す。この表によって,通常の音声
場合には,そこで改行して(文を分けて)提示し
を聞いた場合の評価値と,ハミング音を聞いた
た。フィラーに関しては,非語彙的な音の伸長を
場合の評価値との間の違いを見ることが出来る。
示す書き起こしが含まれており(「あの」vs「あ
ここで,前述した 1 人の被験者については,全項
のー」など),これを韻律要素の文字化とみなす
目について非常に相関が低かった為,表 12 には
こともできるが,これについては,リズムや韻律
含んでいない。残りの 2 人の被験者については,
の変化を厳密にとらえているものではない為,評
表にある項目については 0.3 ∼ 0.5 の相関が見ら
価テキストに含まれている場合でも,今回の結果,
れた。
考察にはほとんど影響していないと考えられる。
これらのことから,表 8 で示したように,音声
漢字,仮名文字の使用については,CSJ コーパス
情報(韻律情報+言語情報)から被験者間の相関
の転記手法に準じたものになっており,テキスト
の高かった「親しさ」「盛り上がり」「同意・反発」
間での表記の揺れはない。被験者は,4.1 節での
「かみ合い」「年齢差」のうち,韻律のみの情報か
被験者と同じである。評価項目については,3 節
̶ 15 ̶
10特集(西村).indd 15
2010/04/21 13:48:19
特集「リズムとタイミング」
表 13 書き起こし文評価の被験者間の相関係数の平均
表 14 通常音声と書き起こし文との間の印象評価の相関
対話毎評価
トピック毎評価
対話毎評価
トピック毎評価
親しさ
0.142
0.310
親しさ
0.296
0.192
盛り上がり
0.343
0.369
盛り上がり
0.370
0.312
同意
0.109
0.295
同意
0.297
0.096
年齢差
0.101
0.120
年齢差
0.190
0.229
かみ合い
0.060
0.239
かみ合い
(結果無し)
0.215
L 表現
0.003
0.160
L 表現
0.285
0.198
R 表現
0.478
0.307
R 表現
0.212
0.210
のトピック毎音声の評価に用いたものと同じもの
評価データ(対話毎)の方が,安定して評価でき
を用いるが,「フランクさ」は音声情報に対する
たために対話毎評価の方が高い相関を示してい
評価であったため,ここでは省略した。
る。
書き起こし文評価の被験者間の相関係数を
表 14 に,通常音声と書き起こし文との間の印
表 13 に示す。全体的に,4.1 節のハミング音評価
象評価の相関を示す。この表によって,通常の音
(表 11)と比較して低い値になっている。
「年齢差」
声を聞いた場合の評価値と,書き起こし文を読ん
については,トピック毎評価において一人の被験
だ場合の評価値との間の違いを見ることが出来
者が全て「3」と評価しており,評価ができてい
る。相関係数は,4.1 節のハミング音評価と比較
なかった。残りの 2 人の被験者の間の「年齢差」
すると非常に低い値になっている。特に「同意」
「親
の評価の相関は,0.360 であった。
「親しさ」
「盛
しさ」「年齢差」に対する評価が困難であったと
り上がり」についても,被験者から「音声を聞か
考えられる。
ないと評価が難しい」という意見があった。
注目すべき項目は「R 表現」である。R 表現は
4.3 対話の印象への影響度
4.1 節と 4.1 節の結果(表 8,11,13)から,対
言語情報に関するものであり,表 8 と比べて被験
者間の相関が格段に大きくなっている。これは,
話の印象評価に対する韻律情報と言語情報の関係
話者 L は 16 対話(表 1 での各対話内容 D1 ∼ D4
を図 4 に示す。図中の値は被験者間の相関値を示
に対して 16 対話。D4 のみ 10 対話)で固定の 2
している。高い相関値は,被験者間にわたって安
名であるのに対し,話者 R は各対話で異なって
定な特徴量であると言える。図を見ると,評価の
いるため,各対話での表現に差があることから,
安定さは対話毎の場合には,通常音声>ハミング
評価のずれが少なくなったためであると考えられ
音声>書き起こし文という順になっており,ト
る。
ピック毎の場合には,ハミング音声>通常音声>
表 8 と表 13 を比較すると,言語情報のみを用
いて評価した場合も,ハミング音評価の場合(表
書き起こし文という順になっており,書き起こし
文からの印象評価は難しいことを示している。
11)と同様に,トピック毎評価の方が相関が高く
表 15 にハミング音声と書き起こし文との間の
なっている。これは,トピック毎評価では,評価
印象評価の相関を示す。この結果とこれまでの結
データが短いため評価データ中での評価指標の変
果をまとめ(表 12,14,15),ハミング音・書き
化が少なく,評価が一致しやすかったためである
起こし・通常音声に対する評価の相互関係を図 5
と考えられる。
「R 表現」については,対話者間
に示す。高い相関値は,ハミング音・書き起こし・
で表現が変化するということが少なく,より長い
通常音声の間で同じように評価ができることを示
̶ 16 ̶
10特集(西村).indd 16
2010/04/21 13:48:19
音声対話における韻律変化をもたらす要因分析
図 4 韻律情報と言語情報の対話の印象評価に対する
関係図。「親しさ」
「盛り上がり」に対して,対話毎,
トピック毎のデータでの被験者間の相関値の関係を示
す。
図 5 韻律情報と言語情報の対話の印象評価に対する
関係図。
「親しさ」
「盛り上がり」に対して,対話毎,
トピック毎のデータでの,ハミング音・書き起こし・
通常音声に対する印象評価の相関関係を示す。
表 15 ハミング音と書き起こし文との間の印象評価の
相関
のみを用いた評価の方が相関係数が高く,本研究
対話毎評価
トピック毎評価
で焦点をあてている「親しさ」「盛り上がり」に
親しさ
0.346
0.399
ついては,韻律情報にて評価できることが分かる。
盛り上がり
0.252
0.328
言語情報単体では,全体的なリズムを捉えること
(データ無し)
0.371
ができなくなり評価が難しくなる。被験者間での
かみ合い
相関や同一被験者による通常音声評価との相関
も,言語情報単体では低くなっている。これらの
している。図を見ると,通常音声とハミング音声
ことから,対話相手に与える印象を制御する場合
との間の相関が,通常音声と書き起こしとの相関
には,まず韻律情報を考えて制御すべきであると
よりも大きくなっており,ハミング音声への評価
考えられる。
の方が,通常音声への評価に近いことが示されて
いる。また,「親しさ」の印象については,通常
5.まとめ
音声と書き起こしとの相関は大きくなく,対話毎
では 0.296,トピック毎では 0.192 の相関しか無
本研究では,協調的な音声対話システムを実現
いことから,書き起こしからは通常音声と同じ印
するために,人間同士の対話の印象と韻律変化と
象評価をすることは難しいことが示されている。
の間にどのような関係性があるのかを分析した。
人間同士の対話を分析することで,対話者の韻
韻律情報のみを用いた実験では,印象評価が可
能であったことから,人間は対話の印象に対して,
律変化に同調傾向の相互作用があることが示さ
韻律情報からより強く影響を受けていると言え
れ,2 話者間の F0・パワー・話速について,正
る。しかし,通常の音声情報から言語情報を除去
の相関があることが示された。また,同調傾向が
することで評価付けが難しくなっていることか
強い対話は盛り上がっているような印象を持って
ら,韻律情報・言語情報の両方が存在することで
いることが示され,フランクで親しみのある盛り
よりよく印象が感じ取れると言える。韻律情報・
上った対話では,対話の韻律(F0,パワー,話速)
言語情報それぞれ単体で見た場合には,韻律情報
が同調していることが示された。F0 の相関係数
̶ 17 ̶
10特集(西村).indd 17
2010/04/21 13:48:20
特集「リズムとタイミング」
とパワーの相関係数の大小関係は,F0>パワー
となっており,同調傾向としては F0 の方が高く,
日本人の会話の韻律は,F0 の方が重要視されて
いることがこの結果からも確認された。オーバー
ラップ頻度については,印象評価と全体的に高い
正の相関を示しており,親しみのある盛り上った
対話では,オーバーラップが多く起こっていた。
さらに,親しい人間同士の対話はフィラーが少な
いという知見も得られた。
韻律情報と言語情報のそれぞれから得られる情
報については,人間は対話の印象を主に韻律情報
で得ており,言語情報の役割は小さいことが明ら
かとなった。
今後の研究課題としては,今回得られた知見を
実際に対話システムに組み込んだ場合の調査・分
析(Nishimura, Kitaoka and Nakagawa 2008) や,
本論文に含まれていない対話の印象評価尺度に対
する調査・分析などが考えられる。また,三者以
上の参与者が存在する対話においては,対話中の
韻律変化をもたらす要因を調査・分析することも
興味深い。
謝 辞
本研究は文部科学省グローバル COE プログラ
ム「インテリジェントセンシングのフロンティア」
の支援を受けた。
参考文献
Friend, M. and Farrar, M.J. (1994) “A comparison of contentmasking procedures for obtaining judgments of discrete
affective states,” Journal of the Acoustical Society of
America 96: 3, 1283–1290.
Fujisaki, H. (1997) “Prosody, models, and spontaneous
speech,” In Y. Sagisaka, N. Campbell and N. Higuchi
(Eds.), Computing prosody: Computational models for
processing spontaneous speech. (pp.27–42). New York:
Springer.
Geluykens, R. and Swerts, M. (1994) “Prosodic cues to discourse boundaries in experimental dialogues,” Speech
Communication 15, 69–77.
Hirschberg, J. (2002) “Communication and prosody: functional
aspects of prosody,” Speech Communication 36, 31–43.
籠宮隆之・山住賢司・槙 洋一・前川喜久雄(2004)「講
演音声の印象を評定する尺度とその分析」『第 3 回
話し言葉の科学と工学ワークショップ講演予稿集』,
47–52.
垣田邦子(1995)「簡単な“質問一答”形式の対話にお
ける fo の話者間相互作用」
『日本音響学会研究発表
会講演論文集,2-P-2』,305–306.
片桐恭弘・下嶋 篤・Marc Swerts・小磯花絵(1999)
「対
話における繰り返し応答の韻律と機能」音声文法研
究会(編)『文法と音声 II』165–166,東京:くろし
お出版.
Kitaoka, N., Takeuchi, M., Nishimura, R. and Nakagawa, S.
(2005) “Response timing detection using prosodic and
linguistic information for human-friendly spoken dialog
systems,” Transactions of the Japanese Society for Artificial Intelligence 20: 3, 220–228.
小林哲則(2005)「パラ言語の理解・生成機能をもつ会
話ロボット」
『 電 子 情 報 通 信 学 会 技 術 研 究 報 告.
NLC』105: 299, 41–46.
小松孝徳・森川幸治(2004)「人間と人工物との対話コ
ミュニケーションにおける発話速度の引き込み現
象」『情報処理学会研究報告.ICS,[知能と複雑
系]』2004: 105, 71–78.
Kousidis, S., Dorran, D., Wang, Y., Vaughan, B., Cullen, C.,
Campbell, D., McDonnell, C. and Coyle, E. (2008)
“Towards measuring continuous acoustic feature convergence in unconstrained spoken dialogues,” Proceeding of
the Interspeech 2008, Brisbane Australia, 1266–1269.
栗原 聡・岡田美智男・中津良平(1994)「協応構造に
基づいたマンマシンインタラクションについて」
『日本音響学会講演論文集』1-Q-12,165–166.
ニックキャンベル(2004)「声質―パラ言語情報をもつ
第四の韻律パラメータ―」音声文法研究会(編)
『文
法と音声 IV』25–34,東京:くろしお出版.
Maekawa, K. (2003) “Corpus of spontaneous japanese: Its
design and evaluation,” Proc. ISCA & IEEE Workshop
SSPR 2003, Tokyo, 7–12.
長岡千賀(2001)「2 者対話における好意の表出―交替
潜時を分析指標として―」『日本心理学会第 65 回大
会発表論文集』341.
長岡千賀・Maria Draguna・小森政嗣・中村敏枝(2002)
「音声対話における交替潜時が対人認知に及ぼす影
響」
『ヒューマンインタフェースシンポジウム 2002
論文集』,171–174.
西田昌史・小川純平・堀内靖雄・市川 熹(2006)「韻
律特徴に基づく対話における発話印象の推定」『日
本音響学会講演論文集』1-4-7, 225–226.
̶ 18 ̶
10特集(西村).indd 18
2010/04/21 13:48:20
音声対話における韻律変化をもたらす要因分析
Nishimura, R., Kitaoka, N. and Nakagawa, S. (2008) “Analysis of relationship between impression of humanto-human conversations and prosodic change and its
modeling,” Proceeding of the Interspeech 2008, Brisbane
Australia, 534–537.
西村良太・北岡教英・中川聖一(2006)「応答タイミン
グを考慮した雑談音声対話システム」『人工知能学
会研究会資料』SIG-SLUD-A503-5, 21–26.
岡田美智男(1995)『口ごもるコンピュータ』東京:共
立出版.
Rajan, S., Craig, S., Gholson, B., Person, N., Graesser, A. and
TRG (2001) “Autotutor: Incorporating back-channel
feedback and other human-like conversational behaviors
into an intelligent tutoring system,” International Journal
of Speech Technology 4, 117–126.
徳久良子・寺嶌立太(2006)「雑談における発話のやり
とりと盛り上がりの関連」
『人工知能学会誌』21: 2,
133–142.
土屋雅稔・小暮 悟・西崎博光・太田健吾・山本一公・
中川聖一(2009)「日本語講義音声コンテンツコー
パスの作成と分析」『情報処理学会論文誌』50: 2,
448–450.
Ward, N. and Tsukahara, W. (2000) “Prosodic features which
cue back-channel responses in English and Japanese,”
Journal of Pragmatics 32, 1177–1207.
Watanabe, M. (2009) Features and roles of filled pauses in
speech communication, a corpus-based study of spontaneous speech, hitsuzi linguistics in english 14. Tokyo:
Hitsuzi Syobo Publishing.
山住賢司・籠宮隆之・槙 洋一・前川喜久雄(2005)「講
演音声の印象評価尺度」『日本音響学会誌』61: 6,
303–311.
(Received Sep. 3, 2009, Accepted Apr. 6, 2010)
̶ 19 ̶
10特集(西村).indd 19
2010/04/21 13:48:21