詳細 - 日本心理学会

日心第71回大会 (2007)
促音と非促音の知覚範疇境界
○天野成昭・麦谷綾子・小林哲生
(日本電信電話株式会社,NTT コミュニケーション科学基礎研究所)
Key words: 促音 音声知覚 音声生成
はじめに
Hirata & Whiton (2005)は促音と非促音の生成における範疇
境界を,促音あるいは非促音の閉鎖区間長を単語長で割った
値(closure-word ratio, CW 比)の観点から調べた。彼らは促音と
非促音の生成範疇境界の CW 比が発声速度によらず不変であ
り,その値が 0.35 であることを明らかにした。音声の生成と
知覚は密接に関係している(例えば Miller, Green, & Reeves,
1986)ことから,生成において不変である CW 比が知覚におい
ても不変である可能性が考えられる。そこで本研究では,促
音と非促音の知覚における範疇境界に関し,CW 比が発声速
度によらず一定となるか,またその値は 0.35 に一致するかに
ついて調べた。
これまでの研究によって,促音と非促音の知覚を規定する
主な要因は閉鎖区間長であること(福井,1978),促音と非促音
の知覚範疇境界に対し,閉鎖区間に先行する母音の時間長は
強い影響を及ぼすこと(渡部・平藤, 1985),しかし閉鎖区間に
後続する母音の時間長は影響を及ぼさないこと(平藤・渡部
1987)が分かっている。また発声速度の変化は主に母音長の変
化によってもたらされること(比企・金森・大泉, 1967)も分か
っている。これらの先行研究を踏まえ,本研究では閉鎖区間
長を変化させて促音と非促音の刺激を作成し,また先行母音
の時間長を伸縮させて発声速度を制御した。
Closure-word Ratio
実 験
被験者:20-39 歳(平均 25.4 歳,標準偏差 0.74 歳)の日本人 40
名(男女各 20 名)を被験者とした。
刺激:2 モーラ頭高型アクセントの原音声 5 種(/bipa/, /guku/,
/kuku/, /kuto/, /tapi/)をナレーターに発声させ,デジタル録音し
た。この原音声から促音-非促音の刺激連続体を作成するため
に,閉鎖区間長を 10ms ステップで 21 段階に変化させるとと
も に , 高 品 質 音 声 分 析 合 成 法 STRAIGHT(Kawahara,
Masuda-Katsuse, & de Cheveigne, 1999)を用いて閉鎖区間に先
行する母音の時間長を 50%, 100%, 150%に伸縮し 315 刺激を
作成した。なお予備聴取の結果に基づいて,原音声から変化
させる閉鎖区間長の範囲は,時間伸縮率 50%, 100%, 150%の
順に -60ms~140ms, -20ms~180ms, 20ms~220ms とした。
実験手続き:被験者毎にランダム順とした 1575 刺激(315 刺
激×5 回繰り返し)をヘッドホンで被験者に両耳呈示し,コン
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
Time-stretch Rate
50%
100%
150%
/bipa/ /guku/ /kuku/ /kuto/ /tapi/
Stimulus
Figure 1. 促音と非促音の知覚範疇境界におけるCW比。
点線は生成範疇境界におけるCW比を表す。
ピュータの画面上に表示した促音と非促音のボタンのいずれ
かをマウスでクリックさせ,二肢強制選択を行わせた。
結果 と 考察
閉鎖区間長を独立変数 x とし,促音の反応確率,すなわち
促音と判断された試行数を総試行数で割った値を従属変数 y
として,ロジスティック関数で回帰を行なった。この関数上
で y=0.5 の反応確率点に対応する閉鎖区間長 x の値を各刺激
種における促音と非促音の知覚範疇境界とした。この知覚範
疇境界から求めた CW 比を Figure 1 に示す。
刺激(5 種)×時間伸縮率(3 種)の2要因分散分析の結果,刺
激の要因は有意であった[F(4,8) = 72.7, p < .0001]。しかし時間
伸縮率の要因は有意ではなかった。従って知覚範疇境界の
CW 比は刺激に依存して値が異なるけれども,刺激内では時
間伸縮率すなわち発声速度には依存せず一定であるといえる。
時間伸縮率が 50%から 150%という広範囲に及ぶにもかか
わらず,刺激内で CW 比が一定となったことは,生成と同様
に知覚においても CW 比が発声速度の変化に対して,かなり
頑健な不変量である可能性を示唆している。ただし刺激間で
CW 比に差が生じる原因については今後の検討が必要である。
知覚範疇境界の CW 比の平均値は,生成範疇境界の CW 比
0.35(Hirata & Whiton, 2005)と有意に異なっていた[t(15) = 5.34,
p < .0001, 両側]。よって知覚と生成の CW 比は一致しないと
いえる。
CW 比が知覚と生成で一致しない原因は今後の検討が必要
である。可能性としては,Hirata & Whiton (2005)ではキャリ
アセンテンスを使用しているのに対し,本研究ではそれを使
用していないこと,および本研究では先行母音の時間長のみ
を変化させ,後続母音を含むその他の音韻の時間長を変化さ
せていないことなどが原因として考えられる。
引用文献
福井誠二 (1978). 日本語の閉鎖音の延長・短縮による促音・
非促音としての聴取 音声学会会報, 159, 9-12.
比企静雄・金森吉成・大泉充郎 (1967). 連続音声中の音韻区
分の持続時間の性質 電気通信学会雑誌, 50, 849-856.
Hirata, Y., & Whiton, J. (2005). Effects of speaking rate on the
single/geminate stop distinction in Japanese. The Journal of the
Acoustical Society of America, 118, 1647-1660.
平藤暢夫・渡部真一郎 (1987). 促音の知覚と後続母音の持続
時間との関係 音声言語, 2, 99-106.
Kawahara, H., Masuda-Katsuse, I., & de Cheveigne, A. (1999).
Restructuring speech representations using a pitch-adaptive
time-frequency smoothing and an instantaneous-frequency-based
F0 extraction: Possible role of a repetitive structure in sounds.
Speech Communication, 27, 187-207.
Miller, J. L., Green, K. P., & Reeves, A. (1986). Speaking rate and
segments: A look at the relation between speech production and
speech perception for voicing contrast. Phonetica, 43, 106-115.
渡部真一郎・平藤暢夫 (1985). 二音節語における無声破裂音
と促音の判断境界と先行母音の長さの関係 音声言語, 1,
1-8.
(AMANO Shigeaki, MUGITANI Ryoko, KOBAYASHI Tessei)