音声文書検索の応用によるオンデマンド講演システム藤井敦筑波大学伊藤克亘名古屋大学石川徹也筑波大学 1 研究の背景 • マルチメディア情報（テキスト，音声，画像）の普及 • 通信ネットワークのブロードバンド化 • 必要なコンテンツをいつでもどこでも手軽に活用できるシステムの実用化が重要 2 研究の内容・特長 • 講演ビデオデータを対象にして，要求に応じた内容を視聴するオンデマンドシステムを実現 • 講演資料（テキスト）を閲覧しながら，特定のビデオ内容（音声，画像）を選択的に視聴することが可能 • 音声認識と情報検索技術を統合し，高精度の音声文書検索を実現 3 資料と講演の相違点資料（書き言葉）ランダムアクセス可能・構造（章立て），表層（字種）・重要箇所の特定が容易比較的簡潔・ページ数の制限講演（話し言葉）逐次アクセスが原則・早送り，巻き戻しでは不十分・書き起こしは読みにくい分かりやすい・説明が詳しい・適度に冗長書き言葉と話し言葉の長所を統合する 4 講演資料話者適応講演ビデオデータ発話抽出著者・講演者範囲指定話題適応音声文書検索音声認識講演データベース関連ビデオデータユーザ 5 講演資料話題適応講演ビデオデータ発話抽出類似文書検索 NTCIR-3 Web 100Gコレクション（10Mページ) 言語モデリング著者・講演者対象トピックのページを選択音声認識講演データベース単語Ngram 6 音声認識のモデル単語列W 入力音声X P( X | W )  P(W ) P(W | X )  P( X ) ベイズの定理  P( X | W )  P(W ) 音響モデル（単語列が話者によってどのような音声になるか）話者適応言語モデル（どのような単語列が言語的に妥当であるか）話題適応 7 教科書をコピー・ペースト 8 クリックして再生検索結果 9