修 士 論 文 の 和 文 要 旨 大学院 氏 名 論 文 題 目 要 電気通信学研究科 高橋 哲史 博士前期課程 電子工学専攻 学籍番号 0432039 視聴覚情報の統合に基づく全周方向での音源位置推定 旨 人間が他の人に声をかける場合,必ずしもその人の前に立ってから声をかける というわけではない.そこで本論文では,任意の方向からユーザに声を掛けられ た場合でも,音情報と画像情報を統合することにより,ロボットが声を掛けたユ ーザの位置を正確に特定できる方法を検討した. ま ず,ロボッ トに取付け た複数のマ イクロフォ ンの中か ら 2 つのマイ クロフ ォン の組を選択 し,各々で取 得した音情 報から CSP 係数 (白色 化相互相関 係数) を 計算 する.遅延 時間マップ を元に, CSP 係数を 2 次元平面上 にマッピン グする. 各マ イクロ フォ ンペアでの マッピング 結果を加算 することに より,音源 位置を推 定す る.全周方 向での音源 位置推定に 必要なマイ クロフォン の数は 4 つ以上であ ること,また,各マイクロフォン間の距離の和が最大になる様に配置することが 望ましいことを明らかにした. 次に,音源位置の推定精度を向上させるために,音源位置を推定した方向の 画像を取得し,肌色情報が存在するかどうか(肌色尤度)を調べる.肌色尤度の 推定 では HSV 色 空間にお ける肌色尤 度の GMM (ガウス混合 モデル ) を 用いる. 入力 画像に最適 化した処理 を行うため ,標準的な GMM によ り取得した 領域内の 肌色 画素をサン プルとして 用いて,事前 学習によっ て作成して おいた GMM を EM アル ゴリズムに より繰返し 学習・更新 することで ,入力画像 に適した GMM を作 成する. 音情報と画像情報各々の推定結果をベイジアンネットワークによって統合す ることで,音情報のみの推定結果よりも精度の高い音源推定結果を得ることがで きる.以上について,コンピュータシミュレーション及びロボットの実機を用い た実験を通して有効性を確認した.
© Copyright 2025 ExpyDoc