修士論文の和文要旨大学院電気通信学研究科博士前期課程

修士論文の和文要旨
大学院
氏
名
論文題目
要
電気通信学研究科
高橋哲史
博士前期課程
電子工学専攻
学籍番号
0432039
視聴覚情報の統合に基づく全周方向での音源位置推定
旨
人間が他の人に声をかける場合，必ずしもその人の前に立ってから声をかける
というわけではない．そこで本論文では，任意の方向からユーザに声を掛けられ
た場合でも，音情報と画像情報を統合することにより，ロボットが声を掛けたユ
ーザの位置を正確に特定できる方法を検討した．
まず，ロボットに取付けた複数のマイクロフォンの中から 2 つのマイクロフ
ォンの組を選択し，各々で取得した音情報から CSP 係数 (白色化相互相関係数) を
計算する．遅延時間マップを元に， CSP 係数を 2 次元平面上にマッピングする．
各マイクロフォンペアでのマッピング結果を加算することにより，音源位置を推
定する．全周方向での音源位置推定に必要なマイクロフォンの数は 4 つ以上であ
ること，また，各マイクロフォン間の距離の和が最大になる様に配置することが
望ましいことを明らかにした．
次に，音源位置の推定精度を向上させるために，音源位置を推定した方向の
画像を取得し，肌色情報が存在するかどうか（肌色尤度）を調べる．肌色尤度の
推定では HSV 色空間における肌色尤度の GMM (ガウス混合モデル ) を用いる．
入力画像に最適化した処理を行うため，標準的な GMM により取得した領域内の
肌色画素をサンプルとして用いて，事前学習によって作成しておいた GMM を EM
アルゴリズムにより繰返し学習・更新することで，入力画像に適した GMM を作
成する．
音情報と画像情報各々の推定結果をベイジアンネットワークによって統合す
ることで，音情報のみの推定結果よりも精度の高い音源推定結果を得ることがで
きる．以上について，コンピュータシミュレーション及びロボットの実機を用い
た実験を通して有効性を確認した．

Download Report