ウェーブレット変換を用いた音声符号化

平成 12 年度 学士学位論文 内容梗概
情報システム工学科
ウェーブレット変換を用いた音声符号化
1010370
1
今井 大
まえがき
現在のインターネットや携帯電話で行われている音声
符号化の目的のひとつとして,音声情報の冗長な部分を
除去することによる情報の圧縮が挙げられる.情報を圧
縮することで,限られた帯域や伝送速度で多くの情報
を伝送することができる [1].現在,最も使用されてい
る情報圧縮の技術は mp3 などに用いられている離散コ
サイン変換 (DCT) である.その他に,離散フーリエ変
換(DFT),ウェーブレット変換などがある.本研究で
は,時間周波数解析方法であるウェーブレット変換を用
いた音声符号化の方式を示し,その特性を評価する.
2
て,強い音が存在している周辺の弱い音を除去するこ
とや強い音により少しだけマスキングされた音に関し
ては,その差分を求めることによって情報量を減らす.
マスキング効果を用いることで,符号長が短くなり,処
理が簡単になる.
0.03
0.02
0.01
0
-0.01
-0.02
-0.03
0
10
20
ウェーブレット変換
ウェーブレットとは,さざなみのように振動した小さ
い波 (wavelets) のひとかたまりを考え,元の波を正弦
波のような定常的な波ではなく,沢山のウェーブレット
の和の形に表わすものである.ウェーブレット変換は,
周波数分解能と時間分解能を状況に応じて変化させた
り,信号をさまざまな分解能の成分に分解できる点で離
散コサイン変換 (DCT) に比べ,優れた符号化が実現で
きることが知られている [2].
3
【 福本研究室 】
40
50
60
70
図 1 入力信号
0.03
0.03
0.02
0.02
0.01
0.01
0
0
-0.01
-0.01
-0.02
-0.02
-0.03
-0.03
-0.04
-0.04
0
5
10
音声情報圧縮
ウェーブレット変換した信号について,人間の聴覚
特性とマスキング効果を利用した音声符号化の方式を
示す.
人間の耳は,通常 20Hz∼20kHz までの音しか聞くこ
とはできない.よって,これよりも高い周波数成分を除
去してしまってもほとんど影響はないといわれている
[3].また,静寂時の最小可聴レベル (聞くことができる
音圧の最小値) は,周波数が低い部分と高い部分ではか
なり限界値が高くなる.つまり低い音,高い音はある程
度大きい音でないと聞くことができないという特性が
ある.この特性を用いて,聞こえない部分の周波数成分
を除去してしまうことや,聞こえにくい部分の周波数成
分を粗くしたりして情報量を減らす.
また,500Hz∼1kHz の低周波数領域には信号の電力が
集中する傾向がある.この電力集中を応用して,電力の
集中する領域に多くのビット数を割り当て,電力が集中
しない領域では少ないビット数を割り当てる.こうして
情報量を減らす.
マスキング効果とは,ある強い音が存在すると,その
周辺の弱い音は聞こえなくなるというものである.これ
は,大きな音が発生した後だけでなく,その直前でも起
きている.つまりマスキング効果は,周波数軸だけでは
なく時間軸でも起こる.このマスキング効果を応用し
30
15
20
25
30
35
0
10
20
30
40
50
60
70
図 2 ウェーブレット変換した信号
図 1 の入力信号を離散ウェーブレット変換した信号を
図 2 に示す.
4
むすび
本研究では,ウェーブレット変換を用いた音声符号化
の方式を聴覚特性とマスキング効果を利用することで
示し,その特性を評価した.
参考文献
[1] 藤原 洋 編 “マルチメディア情報圧縮,” 共立出版
株式会社,2000
[2] 中野 宏毅,山本 鎭男,吉田 靖夫 “ウェーブレット
による信号処理と画像処理,” 共立出版株式会社,
1999
[3] 電子情報通信学会 編 “ディジタル信号処理ハンド
ブック” オーム社,1993