コンピュータと音 B3 入野仁志(irino) 連続データと離散データ アナログは連続データ デジタル化するという事は離散データに標 本化する。 サンプリング定理 聴こうとする2倍の周波数でサンプリングす る。 CDのサンプリング周波数は44.1kHz よってCDは22.05kHzの音を奏でてる。 ちなみに人間の可聴区域は一般的に 20~20kHzとされている。 サンプリング定理 情報を小さくする 可逆圧縮 元通りに戻る圧縮方法→文書など欠損があってはな らないデータに利用 Run Length Huffman LZ 非(不)可逆圧縮 元通りに戻らない圧縮方法→音楽、映像などの感覚 で同じと感じれば必ずしも正確でなくてよいデータに 利用 MPEG,JPEG MP3 心理聴覚分析 MP3って何? Mpeg 3? × Mpeg 1 Audio Layer 3? ○ Mpeg3は別物。今はもうない。Mpeg2に統合 された。 昔はそうだったけど最近はちょっと意味が拡 張されている。 ISO-MPEG ({1|2|2.5}) Audio Layer 3 (IS 11172-3 and IS 13818-3) ◎ Versionの違い Mpeg 1 Audio Layer 3 Mpeg 2Audio Layer 3 (Mpeg2/BC) マルチチャンネル対応 Mpeg 2.5 Audio Layer 3 (Mpeg2/BC) いわゆるMP3 低サンプリングレート(16,22.05,24kHz)対応 Mpeg-2/AAC Mpeg1,Mpeg2/BCとの互換性を捨てる その代わりに音質の向上をさせる(5チャンネルを 320kbpsで符号化した際に欧州放送連合が定めた放送 品質を達成できる) 参考(1) MPEG-2/BCのBCとは? Backward Compatible 下位互換性の意 MPEG-2/AACのAACとは? Advanced Audio Codec 参考(2) MPEG-2/BCのマルチチャンネルとMPEG1の互換 性。 L0=L+x*C+y*LS R0=R+x*C+y*RS x,yは予め定められた整数 MP3の処理の流れ 心理聴覚分析 サブバンド符号化 MDCT(変形離散コサイン変換) 折り返し歪み削減バタフライ (非線形)量子化 ハフマン符号化 不要と判断される情報 聴こえない範囲の音は削除 最小可聴限界の周波数特性 マスキング効果 大きな音の直前直後にある周波 数が同程度の小さな音や、大き な音の中に埋もれた周波数が同 程度の小さな音などは、聴き取 れない。→削除 インテンシティステレオ ステレオサウンドの場合、単純に考えると、 データ量はモノラルの2倍になってしまう インテンシティステレオモードは、聴覚の時 間差による位置検出能力は高域ほど低い、 という特性を利用したもので、高域のブロッ クに関しては、左右独立したデータは持た ずモノラル化してしまう。 サブバンド符号化 入力信号を細かい周波数帯域ごとに分ける。 入力信号がある周波数帯域に偏在する時に 特に有効 MP3では32個に分解す る 一番信号が偏在してい る一つを間引き、 MDCT処理に渡す MDCT(変形離散コサイン変換) サブバンド符号化で得られた18個ずつ集 める。この18個は時間順に並んでいる。 これは時間順に並んでいる。これを周波数 順に並べなおすのがMDCT。 サブバンド符号化で得られた情報を50% ずつ重ね合わせる。(window幅36) 隣り合わせのデータと重ね合わせて量子 化誤差を防ぐ 折り返し歪み削減バタフライ サブバンド符号化時に間引きしたデータは 重複部分がある。それを除去する。 (非線形)量子化 各サブバンドサンプルをスケールファクタ (ダイナミックレンジを揃える)で正規化した 値X(n),サブバンドごとに割り当てられた ビット数に対応した値A(n)とB(n)を用いて、 A(n)*X(n)+B(n)に従って量子化する。 ハフマン符号化 前述で生成されたデータをハフマン符号化 する。 ハフマン符号化の考え方は、よく出てくる 情報に短い情報量を割り当てようというも の。 ハフマン符号化の例 AABBCCCCCCDDという文字列があったと きに各文字に2bit割り当てると2*12=24 Cに1bit,Aに2bit,b,cに3bit割り当てると、 1*6+2*2+3*4=22 というわけで情報量が少なくなる。
© Copyright 2024 ExpyDoc