平成 12 年度 学士学位論文 内容梗概 情報システム工学科 ウェーブレット変換を用いた音声符号化 1010370 1 今井 大 まえがき 現在のインターネットや携帯電話で行われている音声 符号化の目的のひとつとして,音声情報の冗長な部分を 除去することによる情報の圧縮が挙げられる.情報を圧 縮することで,限られた帯域や伝送速度で多くの情報 を伝送することができる [1].現在,最も使用されてい る情報圧縮の技術は mp3 などに用いられている離散コ サイン変換 (DCT) である.その他に,離散フーリエ変 換(DFT),ウェーブレット変換などがある.本研究で は,時間周波数解析方法であるウェーブレット変換を用 いた音声符号化の方式を示し,その特性を評価する. 2 て,強い音が存在している周辺の弱い音を除去するこ とや強い音により少しだけマスキングされた音に関し ては,その差分を求めることによって情報量を減らす. マスキング効果を用いることで,符号長が短くなり,処 理が簡単になる. 0.03 0.02 0.01 0 -0.01 -0.02 -0.03 0 10 20 ウェーブレット変換 ウェーブレットとは,さざなみのように振動した小さ い波 (wavelets) のひとかたまりを考え,元の波を正弦 波のような定常的な波ではなく,沢山のウェーブレット の和の形に表わすものである.ウェーブレット変換は, 周波数分解能と時間分解能を状況に応じて変化させた り,信号をさまざまな分解能の成分に分解できる点で離 散コサイン変換 (DCT) に比べ,優れた符号化が実現で きることが知られている [2]. 3 【 福本研究室 】 40 50 60 70 図 1 入力信号 0.03 0.03 0.02 0.02 0.01 0.01 0 0 -0.01 -0.01 -0.02 -0.02 -0.03 -0.03 -0.04 -0.04 0 5 10 音声情報圧縮 ウェーブレット変換した信号について,人間の聴覚 特性とマスキング効果を利用した音声符号化の方式を 示す. 人間の耳は,通常 20Hz∼20kHz までの音しか聞くこ とはできない.よって,これよりも高い周波数成分を除 去してしまってもほとんど影響はないといわれている [3].また,静寂時の最小可聴レベル (聞くことができる 音圧の最小値) は,周波数が低い部分と高い部分ではか なり限界値が高くなる.つまり低い音,高い音はある程 度大きい音でないと聞くことができないという特性が ある.この特性を用いて,聞こえない部分の周波数成分 を除去してしまうことや,聞こえにくい部分の周波数成 分を粗くしたりして情報量を減らす. また,500Hz∼1kHz の低周波数領域には信号の電力が 集中する傾向がある.この電力集中を応用して,電力の 集中する領域に多くのビット数を割り当て,電力が集中 しない領域では少ないビット数を割り当てる.こうして 情報量を減らす. マスキング効果とは,ある強い音が存在すると,その 周辺の弱い音は聞こえなくなるというものである.これ は,大きな音が発生した後だけでなく,その直前でも起 きている.つまりマスキング効果は,周波数軸だけでは なく時間軸でも起こる.このマスキング効果を応用し 30 15 20 25 30 35 0 10 20 30 40 50 60 70 図 2 ウェーブレット変換した信号 図 1 の入力信号を離散ウェーブレット変換した信号を 図 2 に示す. 4 むすび 本研究では,ウェーブレット変換を用いた音声符号化 の方式を聴覚特性とマスキング効果を利用することで 示し,その特性を評価した. 参考文献 [1] 藤原 洋 編 “マルチメディア情報圧縮,” 共立出版 株式会社,2000 [2] 中野 宏毅,山本 鎭男,吉田 靖夫 “ウェーブレット による信号処理と画像処理,” 共立出版株式会社, 1999 [3] 電子情報通信学会 編 “ディジタル信号処理ハンド ブック” オーム社,1993
© Copyright 2024 ExpyDoc