PowerPoint プレゼンテーション

音声文書検索の応用による
オンデマンド講演システム
藤井 敦 筑波大学
伊藤克亘 名古屋大学
石川徹也 筑波大学
1
研究の背景
• マルチメディア情報(テキスト,音声,画像)
の普及
• 通信ネットワークのブロードバンド化
• 必要なコンテンツをいつでもどこでも手軽
に活用できるシステムの実用化が重要
2
研究の内容・特長
• 講演ビデオデータを対象にして,要求に応
じた内容を視聴するオンデマンドシステム
を実現
• 講演資料(テキスト)を閲覧しながら,特定
のビデオ内容(音声,画像)を選択的に視
聴することが可能
• 音声認識と情報検索技術を統合し,高精
度の音声文書検索を実現
3
資料と講演の相違点
資料(書き言葉)
ランダムアクセス可能
・構造(章立て),表層(字種)
・重要箇所の特定が容易
比較的簡潔
・ページ数の制限
講演(話し言葉)
逐次アクセスが原則
・早送り,巻き戻しでは不十分
・書き起こしは読みにくい
分かりやすい
・説明が詳しい
・適度に冗長
書き言葉と話し言葉の長所を統合する
4
講演資料
話者適応
講演ビデオデータ
発話抽出
著者・講演者
範囲指定
話題適応
音声文書検索
音声認識
講演データベース
関連ビデオデータ
ユーザ
5
講演資料
話題適応
講演ビデオデータ
発話抽出
類似文書検索
NTCIR-3 Web
100Gコレクション
(10Mページ)
言語モデリング
著者・講演者
対象トピッ
クのページ
を選択
音声認識
講演データベース
単語Ngram
6
音声認識のモデル
単語列W
入力音声X
P( X | W )  P(W )
P(W | X ) 
P( X )
ベイズの定理
 P( X | W )  P(W )
音響モデル
(単語列が話者によって
どのような音声になるか)
話者適応
言語モデル
(どのような単語列が
言語的に妥当であるか)
話題適応
7
教科書をコピー・
ペースト
8
クリックして再生
検索結果
9