音声生成機構 . 2.2 音声計測・観測

2 音声生成の基礎
•
2.1 発声器官,音質,音声生成機構
•
2.2 音声計測・観測 (EGG ,ストロボスコープ,ハイスピード )
•
2.3 声区の分類
•
2.4 音声生成モデル (物理モデル,声帯吹鳴,数理モデル )
•
2.5 嗄声 (嗄声の分類,声帯萎縮,非対称声帯モデル )
•
2.6 声区のモデル
•
2.7 生物音響 (気嚢の物理モデル )
人間情報処理学特論 – p.2/82
2 音声生成の基礎
声とは?
ヒトにおける重要なコミュニケーションのモダ
リティ
• 言語情報以外の情報を伝達
• パラ言語情報
• 非言語情報
•
人間情報処理学特論 – p.3/82
2.1 発声器官
左上:発声器官の全体図,右上:声道,下:喉頭
人間情報処理学特論 – p.4/82
声の音色
•
言語的な要素
•
•
母音子音
非言語的な要素 = 音質 (voice quality)
•
音声から知覚される音韻情報以外の音色的特徴
•
狭義には,発声の方法の違いに起因する聞こえの違いを
表す性質のこと
•
非言語,パラ言語情報の伝達に寄与
人間情報処理学特論 – p.5/82
発声のモデル (音源フィルタモデル )
肺からの空気の供給
⇓
音源:声帯の振動
⇓
フィルタ:声道の共鳴
⇓
口唇:放射
人間情報処理学特論 – p.6/82
声質を決定する要因
喉頭 (音源)
• 声帯振動様式
• 声門上構造物の関与
• 声道 (フィルタ)
• 鼻腔
• 声道長
• 音源とフィルタの相互干渉
•
人間情報処理学特論 – p.7/82
ホルマント
周波数スペクトル上で特定の周波数領域にパワ
ーが集中して生じる山
• 音響管としての声道の共振周波数を反映
• 周波数が下の山から第一ホルマント,第二ホル
マントと呼ぶ
• 母音の識別は,第一ホルマントと第二ホルマン
トによって凡そ区別される
•
人間情報処理学特論 – p.8/82
ホルマント周波数に影響を与える調音
第一ホルマント:顎の開き方
• 第二ホルマント:舌の形状,位置
• 第三ホルマント:舌尖
•
•
様々な要因によって,ホルマントの周波数や帯域幅が変化する
人間情報処理学特論 – p.9/82
歌声としての特徴的な響き:歌手のホルマント
Singer’s Formant
• 2000 Hz - 3000 Hz に存在
• オーケストラ,楽器の伴奏から歌声を分離
• 喉頭部の拡大による影響
•
喉頭室の共鳴特性が音響的に喉頭上の調音器官と切り離れホルマント
として出現
人間情報処理学特論 – p.10/82
喉頭音源
•
喉頭原音,喉頭音とも呼ぶ
→ source, laryngeal source, laryngeal sound
•
声門音源,声門音を喉頭音源と同一視して呼ぶ
ことも多い
→ glottal source, glottal sound
•
声帯の振動により音波が発声
− 声帯以外の器官が音源生成に関わることもある
人間情報処理学特論 – p.11/82
喉頭
•
頸部に1つ存在
•
水平方向では真中に存在
•
筋肉と軟骨からなる構造物 (+舌骨)
•
筋肉などの組織で釣り下がっている
•
第 3 ∼ 6 頚椎の間に存在
•
下は,気管,上は舌骨で仕切られる
•
中に声帯がある
•
最大 7cm くらい上下に動く
•
幼児では喉頭の位置は上の方で,老年期は加齢により少し下がる
人間情報処理学特論 – p.12/82
ヒト喉頭
•
•
•
三段構え
•
声帯
•
仮声帯
•
披裂喉頭蓋襞
生命維持機能
•
呼吸の制御
•
呼吸間の防御
発声
人間情報処理学特論 – p.13/82
声帯の層構造
声帯は粘膜層 (cover) と筋層 (body) の二層構造.あ
るいはそれらに中間層 (transition) を加えた三層構造
も持つと解釈出来る.
人間情報処理学特論 – p.14/82
声帯
•
喉頭内腔に突出した左右一対の襞
•
前方は甲状軟骨内中心部に,後方は披裂軟骨に付着
•
表面より粘膜 (粘膜上皮,粘膜固有層,粘膜下組織) ,弾性円錐,声帯
筋と組織が層をなす
•
弾性円錐と声帯筋の一部は密な結合を作り声帯靭帯を形成
•
前後長は成年男性で約 2cm くらい,成人女性で 1.5cm くらい
•
特に男性は第二次性徴期に甲状軟骨の前後径の増加にともない,急に
声帯は長くなる
人間情報処理学特論 – p.15/82
喉頭音源生成メカニズムの観察
•
解剖学的観察は昔から行なわれている
→ 15C 後半 Leonardo Da Vinchi, 16C Vesalius
•
19C 半ば,Manuel Garcia により,声帯振動が声
の音源を生成していることが明らかにされた
→ 喉頭鏡 (歯科医用の鏡) による喉頭観察
•
当時は太陽光を用いた (M. Garcia, Observation on the human voice,
Proc. Royal Soc., London, 1855)
•
人工照明を用いた (Czermark, 1858)
人間情報処理学特論 – p.16/82
声帯振動のメカニズム
•
R. Husson による Neurochronaxic Theory (神経時
値理論, 1955, 1956, 1957)
•
•
中枢からの運動指令を受けて、声帯自体が筋活動により内転外転の
両方を繰り返す
Jw. van den Berg による筋弾性-空気力学理論
•
声帯の弾性と空気の流れによる自励振動 (Jw. van den Berg,
Myoelastic-aerodynamic theory of voice production, J. Speech Hearing
Res. 1 (3), 1958)
•
筋活動による内転と圧力上昇による開大、筋弾性およびベルヌーイ
効果による閉小
•
最近の研究では、声帯の閉小は声帯の弾性からくるバネとしての復
元力が主体で、閉鎖直前のみベルヌーイ力が有効なことが声帯の上
下の収束、発散の形状が重要であることが明らかになっている
人間情報処理学特論 – p.17/82
声帯振動の筋弾性-空気力学理論
•
内喉頭筋により声帯が内転
•
肺からの空気の供給により,声門下の圧力が上昇
•
声門の開大
•
声帯の弾性により声帯が内側に戻る
•
ベルヌーイ効果により声帯が内側に引き付けられる
•
声門の閉鎖
人間情報処理学特論 – p.18/82
声帯振動 (通常発声)
通常の振動では,上唇と下唇に位相差がある
人間情報処理学特論 – p.19/82
2.2 音声計測・観測
マイクロフォン
• EGG
• ストロボスコープ
• ハイスピード
•
マイクロフォンの例
人間情報処理学特論 – p.20/82
Electroglottography (EGG)
電極 (左) と首へ接着した様子 (右)
電気抵抗の変化を計測
人間情報処理学特論 – p.21/82
EGG 計測信号の一例
人間情報処理学特論 – p.22/82
ファイバースコープ
人間情報処理学特論 – p.23/82
ファイバー,側視鏡
喉頭調節,声帯振動などの喉頭の動態を定性的
に観察
• 側視鏡
•
•
•
先端にプリズンが入っている
•
経口的に挿入
•
画質が良い
•
調音運動を阻害
ファイバースコープ
•
東大音声研の澤島政行が最初に適用
•
柔軟性を持つ
•
経鼻的に挿入が可能
•
画質が側視鏡よりも劣る
•
様々な調音運動が可能
人間情報処理学特論 – p.24/82
高速度撮影
Bell 研究所
• D. Fansworth, High speed motion pictures of the
human vocal cords, Bell telephone records 18,
203-208 (1940).
• カメラの台数,シャッター速度などを工夫
• 光学的カメラ (高解像度)
人間情報処理学特論 – p.25/82
高速度デジタル撮影システム
東大音声研で開発 (本多清志,廣瀬肇,桐谷滋,今川博,1980 年代)
人間情報処理学特論 – p.26/82
高速度撮影データ
人間情報処理学特論 – p.27/82
キモグラフ
人間情報処理学特論 – p.28/82
2.3 声区の定義
•
音響工学的定義:
それに属する音が同一の方法で生成されたように知覚され
同じ音色を持つ声の音域
•
生理学的定義:
同一の喉頭調節によって発声される同じ音色の音域
•
音楽学的定義:
諸説入り乱れる
人間情報処理学特論 – p.29/82
声区の類別 (生理学的類別)
•
•
会話音声:
•
裏声 (falsetto, light)
•
地声 (表声, normal, modal, heavy)
•
フライ (vocal fry, pulse, creak)
歌声
•
ホイッスル (flageoret, whistle,acuto)
•
裏声 (falsetto, head)
•
地声 (modal, chest)
•
中声 (mix, mixed, middle)
•
ストローバス (strohbass) = vocal fry
人間情報処理学特論 – p.30/82
地声 (modal)
声帯が全長にわたって振動
• 振動の振幅が大きい
• 声門閉鎖がしっかりしている
•
人間情報処理学特論 – p.31/82
裏声 (falsetto)
声帯が縦方向に一部のみ振動する
• 振動の振幅が小さい
• 声帯は薄く長く引き伸ばされる
• 振動は声帯辺緑部のみ
• 声帯の粘膜振動の上下の位相差が殆どない
• 声門閉鎖が不完全な場合がある
• 正弦波に近い
•
人間情報処理学特論 – p.32/82
フライ (Vocal fry)
Pulse, Vocal fry, Creak
• 声門閉鎖時間が極端に長い
• 声門下圧が非常に小さい
• 音圧は小さい
• 地声よりも低いピッチが近くされる
• 歌声には向かない
• 3 種類の異なる振動様式
周期的,サブハーモニック,非周期的
•
人間情報処理学特論 – p.33/82
ホイッスル (Whistle)
女性歌手の F6 より上に現われる笛のような音の
声
• どのような声帯振動によるのか,声門での乱流
によって生成されるのか,まだ良く分っていな
い
•
人間情報処理学特論 – p.34/82
Breathy
声帯は部分的に振動
• 声門は完全には閉鎖しない
• 乱流と声帯振動が音源
•
人間情報処理学特論 – p.35/82
Whisper
声門は閉鎖しない
• 強い Whisper では少し声帯が接近
•
声帯振動なし
• 乱流が音源
•
人間情報処理学特論 – p.36/82
2.4 音声生成モデル
物理モデル
• 声帯吹鳴
• 数理モデル
•
人間情報処理学特論 – p.37/82
2.4.1 物理モデル
肺: チェンバーにポンプで空気供給
• 音源: 声帯モデル
• フィルタ: 声道モデル
•
人間情報処理学特論 – p.38/82
実験機器
人間情報処理学特論 – p.39/82
二層構造をもつ声帯モデル
粘膜層 (cover layer) と筋層 (body layer) の二層構造
(Thomson et al., 2005; 2007)
人間情報処理学特論 – p.40/82
2.4.2 声帯吹鳴
Force transducer
.
6
Holder
Thyroid cartilage
j
Set-screw
Centre of rotation
Vocal folds
First ring of trachea
Cricoid cartilage 5
Fastening plate
Base plate
Fastening needles
Pressure transducer
Ý
airflow
Tube (trachea model)
人間情報処理学特論 – p.41/82
2.4.3 二質量声帯振動モデル (Ishizaka-Flanagan, 1972)
Vocal Tract
k2l
m2l
k2r
m2r
r2l
r2r
k1l
k1r
m1l
m1r
r1l
k1r
Bernouli Flow
miα x
¨iα + riα x˙ iα + kiα xiα + θ(−ai )ciα (ai /2l) + kcα (xiα − xjα )
= Fi (x1l , x1r , x2l , x2r ).
•
Ps :声門下圧
•
xiα :質点 miα の変位 (i = 1: 下; i = 2: 上; α = l: 左; α = l: 右)
•
Fi :声門下圧
人間情報処理学特論 – p.42/82
詳細
a1
) + k1,2 (x1 − x2 )
2l
a2
¨2 + r2 x˙ 2 + k2 x2 + Θ(−a2 )c2 ( ) + k1,2 (x2 − x1 )
m2 x
2l
m1 x
¨1 + r1 x˙ 1 + k1 x1 + Θ(−a1 )c1 (
=
ld1 P1 ,
=
0,
where
ai
=
a0i + 2lxi ,
amin
=
min(a1 , a2 ),
P1
=
Ps [1 − Θ(amin )(
P2
=
0,
Θ(x)
=
0 (x≤0);
amin 2
) ]Θ(a1 ),
a1
1 (0 < x).
人間情報処理学特論 – p.43/82
圧力計算
•
ベルヌイの法則 (非圧縮性気体)
•
エア-ジェット分離仮説
amin
P2
area: a
flow:U
Pressure: P1
Subglottal Pressure: Ps
ベルヌイ方程式:
U
Ps = P + 2 ( Ua )2 = P0 + 2 ( amin
)2
( : Air density, Ps : 声門下圧)
P0 = 0 より,
U=
2Ps
amin .
人間情報処理学特論 – p.44/82
2.5 嗄声
•
粗慥性 (rough)
•
気息性 (breathy)
無力性 (asthenic)
• 努力性 (straind)
•
声帯の右上にあるポリープの例
人間情報処理学特論 – p.45/82
声帯委縮 (Vocal fold atrophy)
•
声門の不完全閉鎖
•
気息声,ハスキーボ イス,弱い声
•
発声困難
Membraneous Part
of Vocal Folds
Thyroid
Cartilage
Posterior
Chink
Arytenoid
Cartilage
Cricoid Cartilage
病因
•
加齢 (aging)
•
慢性喉頭炎 (chronic laryngitis)
•
声帯麻痺 (vocal fold paralysis)
人間情報処理学特論 – p.46/82
披裂軟骨内転術 (Arytenoid rotation)
1
2
3
Thread
人間情報処理学特論 – p.47/82
声帯内注入術 (Injection medialization)
人間情報処理学特論 – p.48/82
複合術
Arytenoid
Rotation
Collagen
Needle
Injection
人間情報処理学特論 – p.49/82
声帯振動が左右非同期の患者さんの例
Table 1:
患者
手術前後での比較
手術
声帯振動周波数
振幅比
22 歳, 女性
前
右: 269 Hz, 左: 361 Hz
1.06
左 萎縮
後
右: 326 Hz, 左: 326 Hz
1.08
55 歳, 男
前
右: 114 Hz, 左: 154 Hz
0.77
右 萎縮
後
右: 154 Hz, 左: 154 Hz
0.92
72 歳, 男
前
右: 110 Hz, 左: 0 Hz
4.0
左 萎縮
後
右: 163 Hz, 左: 163 Hz
0.76
人間情報処理学特論 – p.50/82
例 1: 術前 (男性, 55 歳)
人間情報処理学特論 – p.51/82
例 1: 術後 (男性, 55 歳)
人間情報処理学特論 – p.52/82
例 2: 術前 (男性, 72 歳)
人間情報処理学特論 – p.53/82
例 2: 術後 (男性, 72 歳)
人間情報処理学特論 – p.54/82
非対称二質量モデル (Ishizaka & Isshiki, 1976; Steinecke & Herzel, 1995)
Vocal Tract
k2l
m2l
k2r
m2r
r2l
r2r
k1l
k1r
m1l
m1r
r1l
k1r
Bernouli Flow
miα x
¨iα + riα x˙ iα + kiα xiα + θ(−ai )ciα (ai /2l) + kcα (xiα − xjα ) = Fi (x1l , x1r , x2l , x2
•
Qα : 声帯の張力 (α = l: 左; α = r: 右)
•
miα , kiα , riα , ciα : 質量,バネ定数,減衰係数,衝突係数
•
xiα : 質点 miα の変位 (i = 1: 下; i = 2: 上; α = l: 左; α = r: 右)
•
Fi : 喉頭内の圧力
•
Ps : 声門下圧
kiα = Qα kiα0 , kcα = Qα kcα0 ,
ciα = Qα ciα0 , miα = miα0 /Qα .
人間情報処理学特論 – p.55/82
術前・術後の患者 B のデータをモデル化した例
上:高速撮影データ,下:非対称モデル,右:術前,左:術後
人間情報処理学特論 – p.56/82
術前・術後のデータについて推定された係数
患者
A
A
B
B
手術
前
後
前
後
左の声帯張力 [g/ms2 ]
2.09
1.86
2.03
2.25
右の声帯張力 [g/ms2 ]
2.06
1.99
2.00
1.90
声門下圧 [g/cm·ms2 ]
41.7
35.0
34.6
29.5
声門開口面積 [cm2 ]
0.061
0.020
0.10
0.048
•
左右非対称性の緩和
•
声門開口面積の減少
•
声門下圧の低下
•
→ 手術用シミュレータの可能性
人間情報処理学特論 – p.57/82
2.6 三質量モデルによる声区のシミュレーション
Vocal Tract
k3
k3
m3
r3
m3
m2
k2
m2
m2
k2
r3
m2
r2
r2
k1
k1
m1
Air Flow
m1
r1
r1
Trachea
mi x
¨i + ri x˙ i + ki xi + Θ(−ai )ci (ai /2l) + ki,j (xi − xj ) = ldi Pi
•
mi :質量 (i = 1: 下; i = 2: 中央; i = 3: 上)
•
xi :質点 mi の変位
•
ai :声門開口面積
•
kiα , riα , ciα:バネ定数,減衰係数,衝突係数
•
Pi:喉頭内の圧力
•
Ps:声門下圧
人間情報処理学特論 – p.58/82
声帯吹鳴による計測結果
DE
C
3000
F
G
Frequency [Hz]
2000
1000
0
A B
20
40
60
Time [sec]
80
100
120
3
Force [N]
2
1
0
0
20
40
60
Time
80
100
120
[sec]
人間情報処理学特論 – p.59/82
遅延座標系におけるアトラクタとリターンマップ
20000
10000
10000
x(t-3)
x(t-3)
x(t-3)
10000
0
0
0
-10000
-10000
-10000
-10000
0
x(t)
10000
20000
-10000
0
x(t)
0
10000
-10000
10000
local max (t)
15000
10000
local max (t)
10000
local max (t)
10000
20000
20000
5000
0
-10000
-10000
x(t)
0
-10000
-5000
0
10000
local max (t-1)
77-79 sec,
20000
-10000
-10000
0
-5000
0
5000
10000
local max (t-1)
82-83 sec,
15000
20000
-10000
0
local max (t-1)
10000
95-96 sec
人間情報処理学特論 – p.60/82
0.12
0.3
0.11
0.25
Positions: 1,2,3
Positions: 1,2,3
Time Series
0.1
0.09
0.08
0.07
0.06
0.05
0.2
0.15
0.1
0.05
0
-0.05
0.04
0.03
1000 1002 1004 1006 1008 1010 1012 1014 1016 1018 1020
-0.1
1000 1002 1004 1006 1008 1010 1012 1014 1016 1018 1020
Time [msec]
Time [msec]
Left: Falsetto (≈ 320 Hz; k2 = 0.08)
Right: Chest (≈ 130 Hz; k2 = 0.008)
Time series of glottal areas (Dotted thin line: a1 (t); Dotted bold line: a2 (t); Solid line: a3 (t)).
人間情報処理学特論 – p.61/82
地声と裏声のシミュレーション
0.7
0.32
0.3
0.6
0.5
Volume Flow
Volume Flow
0.28
0.26
0.24
0.4
0.22
0.3
0.2
0.18
0.2
0.16
0.1
0.14
0.12
1000 1002 1004 1006 1008 1010 1012 1014 1016 1018 1020
0
1000 1002 1004 1006 1008 1010 1012 1014 1016 1018 1020
Time [msec]
Time [msec]
p
流量 U =
2Ps / amin Θ(amin ) ( = 0.00113 g/cm3 ).
左:裏声 (≈ 320 Hz; k2 = 0.08)
右:地声 (≈ 130 Hz; k2 = 0.008)
人間情報処理学特論 – p.62/82
固有値解析
0
δx1
B
B δx
˙1
B
B
d B δx2
B
B
˙2
dt B δ x
B
B δx
@
3
δx
˙3
1
0
B
B
C
B
C
B
C
B
C
B
C
C = B
B
C
B
C
B
C
B
C
B
A
B
@
0
k1 +k1,2
−
m1
0
k1,2
m2
0
1
r
− 1
m1
0
0
0
0
0
0
k1,2
m1
0
k2 +k1,2 +k2,3
−
m2
0
k2,3
m3
0
0
0
0
0
0
1
r
− 2
m2
0
0
k2,3
m2
0
k3 +k2,3
−
m3
0
0
Eigenvalue
Eigenfrequency
λ1,2
−0.46 ± 2.00 i
318.7 Hz
λ3,4
−0.13 ± 1.28 i
204.3 Hz
λ5,6
−0.09 ± 0.78 i
123.8 Hz
0
1
r
− 3
m3
1
0
C
CB
CB
CB
CB
CB
CB
CB
CB
CB
CB
C@
C
A
δx1
δx
˙1
δx2
δx
˙2
δx3
δx
˙3
Corresponding eigenmodes to λ1,2 , λ3,4 , λ5,6 :
(δx1 , δ x
˙ 1 , δx2 , δ x
˙ 2 , δx3 , δ x
˙ 3) =
(−0.004∓0.001i, 0.004∓0.007i, 0.05±0.046i, −0.11±0.078i, −0.1∓0.42i, 0.89),
(0.03±0.11i, −0.14±0.025i, −0.05∓0.46i, 0.60, −0.18∓0.34i, 0.46∓0.19i),
(−0.47∓0.03i, 0.07∓0.36i, −0.54, 0.05∓0.42i, −0.32±0.06i, −0.02∓0.25i).
人間情報処理学特論 – p.63/82
各質量の固有振動数
•
第一質量:F1 =
1000
2π
k1
m1
= 127.3 Hz
•
第二質量:F2 =
1000
2π
k2
m2
= 90.0 Hz; 284.7 Hz
•
第三質量:F3 =
1000
2π
k3
m3
= 225.1 Hz
人間情報処理学特論 – p.64/82
二次元分岐図
0.05
Subglottal Pressure Ps
Chest
Falsetto
Coexistence of
Chest & Falsetto
0.04
0.03
0.02
0.01
0
0.5
1
1.5
Tension Parameter Q
◦:無声, +:カオス,トーラス
人間情報処理学特論 – p.65/82
スペクトログラム
800
700
600
0.05
Ps
Chest
Coexistence of Falsetto
Chest & Falsetto
Pressure
0.04
Frequency [Hz]
500
400
300
200
Subglottal
0.03
0.02
100
0.01
0
0
0.5
1
Tension Parameter Q
1.5
10
20
30
40
50
Time [sec]
60
70
80
90
人間情報処理学特論 – p.66/82
分岐図
800
700
600
Frequency [Hz]
500
400
300
200
100
Local Maxima of X1 [cm]
0
10
20
30
40
50
Time [sec]
60
70
80
90
Chest
0.4
Falsetto
0.2
Aphonia
Chaos
0
Subharmonics
Falsetto
0
50
time [sec]
100
人間情報処理学特論 – p.67/82
遅延座標系におけるアトラクタとリターンマップ
0.0005
.
U
0.0005
.
U
0
-0.0005
0
0.2
Flow: U
0.0005
0
.
U0
-0.0005
-0.0005
0.4
0.2
Flow: U
0.4
(n)
(n)
.
Local Maximum: Ul
.
Local Maximum: Ul
0.0003
0.0003
0
0
0.0003.
0.0006
Previous Local Maximum: lU (n-1)
地声
0.2
Flow: U
0.4
0.0006
(n)
0.0006
0
.
Local Maximum: Ul
0.0006
0
0.0003
0
0
0.0003.
0.0006
Previous Local Maximum: lU (n-1)
裏声
0
0
0.0003.
0.0006
Previous Local Maximum: lU (n-1)
カオス
人間情報処理学特論 – p.68/82
2.7 生物音響 (Bioacoustics)
動物同士のコミュニケーション (e.g., 警笛,繁殖 etc.)
• 人間の言語の進化
•
オランウータン,チンパンジーから人間へ (W. T. Fitch, “The evolution of speech,” 2000)
人間情報処理学特論 – p.69/82
気嚢
声道から枝分れした袋.ヒト以外に顕著.
チンパンジー (上左), ハウラーモンキー (上右), シャーマン (下左), 気嚢 (下右)
人間情報処理学特論 – p.70/82
気嚢の役割 - 推測レベル A) 呼吸機能 (e.g., 追加の空気供給源)
B) 音響機能
音響機能に関する疑問:
• 音の放射を最適化 (声を大きくする)?
• フォルマントに影響 (多様性)?
• なぜヒトへの進化で消失したか ?
人間情報処理学特論 – p.71/82
物理実験
チェンバー
声帯モデル
ポンプ
気嚢モデル
人間情報処理学特論 – p.72/82
Sound Pressure Level (SPL)
No Vocal Tract
A
20 cm Tube
B
Closed side branch
with variable diamet
SPL enhanced by certatin configurations
人間情報処理学特論 – p.73/82
スペクトル
フォルマントのずれ:F1 = 380 Hz → 650 Hz (+70%)
人間情報処理学特論 – p.74/82
Transfer Function [dB]
伝達関数 (Transmission-line model)
0
-20
-40
-60
No Cavity
Pole/Zero Pair
Cavity 50 ml
-80
0
500
1000
1500
2000
Frequency [Hz]
Pole Frequency [Hz]
300
200
100
200
400
600
Cavity Size [ml]
800
1000
気嚢が大きくなると → 共鳴周波数は小さくなる
人間情報処理学特論 – p.75/82
スイープトーン実験
制御性のよい正弦波を周波数を変動させて入力 (90 - 150 Hz)
人間情報処理学特論 – p.76/82
発声停止
気嚢のサイズを徐々に拡大
人間情報処理学特論 – p.77/82
音源とフィルタの非線形干渉
Frequency
F0 と Fn の交叉
Fn
(Fn : 共鳴周波数)
F0-Fn Crossing
F0
Time
F0 ≈ Fn のとき,音源とフィルタの干渉は強化
(例.歌唱) (Story et al., 2000; Titze 2004)
負のリアクタンス領域で音源を強化
• 正のリアクタンス領域で音源を弱化
•
人間情報処理学特論 – p.78/82
Phonation Threshold Point
Minimum pressure to initiate vocal fold oscillation
人間情報処理学特論 – p.79/82
モデルによる検証
二質量モデル (Ishizawa-Flanagan, 1970)
• 気嚢をヘルムホルツレゾネータで近似
•
Vocal
Tract
Two Mass
Model
Air Sac
Mouth
Flow Amplitude
0.25
0.2
0.15
0.1
0
100
200
Cavity Size [ml]
300
人間情報処理学特論 – p.80/82
物理実験のまとめ
A) 特定の気嚢において音圧増加 → 大きな発声が可
能
B) フォルマントのずれ,特に F1
C) 音源とフィルタの干渉 → 発声の不安定性
人間情報処理学特論 – p.81/82
言語の進化ヘのヒント
母音 /i/ および /u/ の F1:280-400 Hz
平均的男性のピッチ:F0 ≈ 110 Hz
Male
-20
/u/
Air Sac
Lebel [dB]
-40
/i/
-60
-80
Fundamental Frequency
0
100
200
300
Frequency [Hz]
400
500
→ 発声の不安定性をさけるために気嚢は消失し
た?
人間情報処理学特論 – p.82/82