情報科学概論I 【第2回】実データの数理表現 ~音響信号と画像について~ 徳永隆治 (情報学類) アナログ表現からデジタル表現へ 【音響信号;acoustic signals 】 時間t上の粗密波の振幅を表す連続関数s(t) s 【写真;photograph 】 2次元空間(h,v)上の明るさを表す連続関数s(h,v) v t 【標本化;sampling】 連続関数の変域を離散化する処理 s . . . . . . . . . . . . .. . . 【量子化;quantization】 関数の値域を離散化する処理 s n . .. . .. . . . ... . . .m . . . ... . . . . . . .. . . . . . ... . . . . . . ... . . . . .... . . . . . . . . . . . .. . . . . ....... n デジタル画像 ピクセル R G 色の三原色 B 0~255 (8 bit) デジタル音響信号 音楽用CD:PCMフォーマット 標本化:44[kHz] = 44,000 [sample/sec] 量子化:16 [bit/sample] ∈{0,1,.., 65535} 振幅 1秒間に16[bit]精度の整数が44,000個 ...... 時間 1秒 データ圧縮とは? 【歪み圧縮;losy data compression】 画像や音響信号の質(価値)を大幅に低下させず,可能な限りデータ量を削減する処理. (文書ファイル・プログラムファイル等には,無歪み(lossless)圧縮が適用される.) 生データ 生データ 符号化器 encoder 復号器 decoder 圧縮 ファイル 小 データ量 大 【質問】身の回りの歪み圧縮の例をあげよ.また,その有効性について述べよ. 【例解】映像DVDおよびデジタルビデオに用いられる動画像用フォーマットMPEG2, デジタルカメラに用いられる画像フォーマットJPEG.音楽ソフトに用いられる 音響信号フォーマットADPCM,MP3等.データ転送に要する通信コストおよび 記憶媒体に要するコストを削減できる. 認識とは? 【認識;recognition 】 画像あるいは音響信号から特徴を抽出し,それが何であるか識別し, それらと関連する“事物”を判定する自動処理. 生データ あ” 認識系 recognizer 氏” 【質問】すでに利用されている自動認識の例を挙げよ. 【例解】郵便局の集配システムにおける郵便番号の自動識別 (OCR) . 【質問】近年,話題となっている生体認証に用いられる特徴を挙げよ. 【例解】声紋,眼底血管,こうさい,毛細血管,指紋等. 合成とは? 【合成;synthesis 】 意味(価値) のある画像や音声・音響信号を自動生成する処理. 高度な合成技術によって超高効率な情報圧縮が可能となる. 合成結果 制御用 パラメータ ファイル 合成器 synthesizer 制御用 パラメータ ファイル 極小 データ量 大 【質問】すでに合成を用いて,高効率のデータ圧縮を達成している製品がある. これは何か答えよ. 【例解】ゲーム機,通信カラオケ,着メロ等で用いられるMIDI符号(音楽スコア). ADPCMあるいはMP3で音響信号を直接圧縮した場合と比べると良い. 解析学で学ぶ距離空間 【距離と距離空間】 集合X上の2つの元x,y∈Xを実数値に対応づける写像d(x,y)が,以下の条件を 満足するとき,dを距離といい,集合Xを距離空間という. 1.d(x,y)≧0 (非負性) 3.d(x,y) = 0 集合X ⇔ x=y 2.d(x,y) = d(y,x) (可換) 4.d(x,y) ≦ d(x,z) + d(z,y) 元y (三角不等式) -2 -1 0 1 2 3 4 R1 d 元x 【例】人間関係の“親密”さは,距離の公理を満足しないあいまいなものである. 2.他人から計った自分の距離と,自分から計った他人の距離は必ずしも一致しない. 3.自分と自分の距離は,常に零とは限らない.(時として自分が分からなくなる.) 4.第3者が介入することで2者の間の距離が近くなる場合がある. 情報圧縮における距離空間 符号化器 … … … … [Code Book] 64x3[B] → 1[B] [Data File] 8x8, 64x64 123,222,034,254,001,102,211,246, 123,222,034,254,001,102,211,246, 123,222,034,253,001,102,211,246, : 123,222,034,254,001,006,211,246, … … … 復号器 000:■, 001 :■, 002 :■, 003 :■, 004:■, 005 :■, 006 :■, 007 :■, 008:■, 009 :■, 010 :■, 011:■, 012:■, 013 :■, 014 :■, 015 :■, : 252:■, 253 :■, 254 :■, 255 :■, 【コードブック;code book】 類似したブロック群を代表する ブロックを記録したテーブル. … コードブックの作成 【画像空間;image space】 n画素からなる画像ブロックは,n次元実空間Rn上の元となる. 【距離で類似度を計る】 画像空間上で,位置の近い画像ブロック 同士は,類似している.したがって, 画像空間には類似度を測るための適当な 距離を定義する必要がある. 【群化;clustering】 元を幾つかの代表点で近似するとき, できるだけ誤差を小さくする代表点 を選択する処理をクラスタリングと いう.コードブックとは,群番号と 代表点を記録したファイルである. 【LBG法】 全ての元を最寄の代表点で近似した場合の 距離の総量 (誤差関数,目的関数)が極小と なるように代表点を移動させる最適化法 認識における距離空間 あ お あ お い い 【特徴抽出;feature extraction】 対象データから特徴量を 数値として取り出す処理 (a1,b1,c1) (a2,b2,c2) (a3,b3,c3) (a4,b4,c4) 【マッピング;mapping】 対象データを特徴空間に移す処理 【特徴空間;feature space】 いくつかの特徴量で張られる実空間 お (a,b,c) 【ラベリング;labeling】 名称や意味に基づき群化あるいは, 分割された領域に記名する処理. ↑ c b a→ (a5,b5,c5) (a6,b6,c6) 距離だけでは足りない 距離だけでは,2つのパターンが“どれだけ似ているか”が分かるのみであり, “どこがどれぐらい似ているか”を知ることはできない. か お あ 【座標系と成分の重要性】 ある集合X上の任意の要素xが,幾つかの特徴的要素(基底ベクトル) {a,b,c,….}の重ね合わせ x = a a + b b + g c + …….. で表現されるとき,重なりの強さ(a,b,g, ….) はxと特徴的要素との 類似度(成分)を意味する. 線形代数で学ぶベクトル空間 【ベクトル空間;vector space 】 集合Xには,任意の2元x,y ∈X間の和x+yと差x-yが定義され, 結合則の成立 :x+(y+z) = (x+y)+z 交換則の成立 :x+y = y+x 単位元・逆元の存在:x+0 = x, x+(-x) = 0 が成り立つとする.また,定数a∈R1との積axが定義されており, 定数の分配則の成立: (a+b)x = ax+bx 元の分配則の成立 : (x+y)a = ax+ay 単位元と逆元の存在:0x = 0, 1x = x が満たされて,線形結合ax + byもXの元となるとき,元をベクトルといい, Xをベクトル空間という. 上記の定義において最も重要な点は, 「何か“x”と何か“y”の線形結合ax+byで,別の何か“z”が作られる」 という特性にある.z は,“x”らしさと“y”らしさだけを持つことに注意する. ここで,線形結合・線形独立・線形従属・基底・次元の概念を熟知しよう. 座標を決める=空間を張る 直線A={ae1:a∈R1}は,ベクトルe1 で張られる1次元部分空間である. C B ce3 be2 e2 集合X e3 A e1 直線B ={be1:b∈R1}は,ベクトルe2 で張られる1次元部分空間である. ae1 線形独立性:e1とe2が平行でない ならば,AとBは同一直線ではない. AとBは一つの平面を定める. 平面a={ae1+be2 : a, b∈R1}は,e1およびe2 で張られる2次元部分空間である. 集合X上の任意の点xが,線形独立なn個のベクトルの線形結合 X = a1e1+a2e2 +……. +anen で表現されるとき,集合Xはn次元ベクトル空間をなす.ここで,{e1,…,en}を基底系, {a1,…,an}を成分(あるいは係数) という. 実際に成分を計算するとき,“距離”の拡張概念である“内積”が重要となる. ベクトル空間から内積空間へ 【内積;inner product 】 ベクトル空間X上に,任意の2ベクトルx,y ∈Xを実数値<x,y>へ対応づける 写像が定義されており, 分配則の成立 交換則の成立 定数の括り出し 非負性 :<x+y,z> = <x,z> + <y,z> : <x,y> = <y,x> :<ax, y> = a<x.y> :<x, x> ≧ 0, <x.x> =0 ⇔x = 0 を満たすとき,<x,y>を内積といい,Xを内積空間という. 距離の公理:<x,x>=||x||2は,距離である. 直交性:<x,y>=0 ⇔ xとyが直交する. コーシー・シュワルツの不等式:|<x,y>| = ||x||||y|| ⇔ xとyが平行(線形従属)である. 【射影;projection 】 y ベクトルxが正規化(||x||=1) されているとき, 内積<x,y>は,xの張る部分空間へ落ちるY の影の長さとなる. x <x,y> 認識と内積空間 sn デジタル信号S(1) sn . sn . . デジタル信号S(2) n n デジタル信号S(k) S(1) = (s1,s2,s3,….,sD) ∈ RD S(2) = (s1,s2,s3,….,sD) ∈ RD . . . S(k) = (s1,s2,s3,….,sD) ∈ RD n これらのベクトルは,D次元空間全体を 本当に占めているのだろうか? マッピングの結果がd(<D)次元部分空間のみを 占めているならば,この特徴空間は冗長である. この部分空間の次元をどうやって計るのか? RD 射影と主成分分析 分散の最大方向 データの零平均化 最大方向と直交する 次の最大方向 【主成分;principal component】 データの分散の順に並んだ正規直交座標系 の成分を主成分という. 後方に現れる成分は,データを含まない分散が零の部分空間に対応する. 情報圧縮における内積空間 D画素ブロック D成分 画素順に並べられた成分には, 昇順あるいは降順という特徴はない. D次元空間 主成分分析と同様に,適当に座標系を回転させることで, 分散の順に成分を並べかえることができる. スカラー量子化との併用 直交変換 量 子 化 整数除算を用いることで, 割り当てるビット数を減らす. 量 子 化 降順に成分を並べかえることで末尾に零を集中させる. レポート問題 【問題1】4つの整数値{0,1,2,3}からなる記号列 0000011101230100020011000011120111000000 は,2ビットの2進符号 0 → 00, 1 → 01 , 2 → 10 , 3 → 11 を用いて,2×40=80ビットのデータ量で表現できる. ここで,2進符号 0 → 1, 1 → 01 , 2 → 001 , 3 → 0001 を用いるとき,記号列のデータ量を計算し,総データ量がそのように 変化した理由を考察せよ. 【レポートの提出方法】 次回終了の後,2回と3回に出題された2問に回答して, レポートを提出せよ.提出場所および期限は,次週に告知する.
© Copyright 2025 ExpyDoc