音声文書検索の応用による オンデマンド講演システム 藤井 敦 筑波大学 伊藤克亘 名古屋大学 石川徹也 筑波大学 1 研究の背景 • マルチメディア情報(テキスト,音声,画像) の普及 • 通信ネットワークのブロードバンド化 • 必要なコンテンツをいつでもどこでも手軽 に活用できるシステムの実用化が重要 2 研究の内容・特長 • 講演ビデオデータを対象にして,要求に応 じた内容を視聴するオンデマンドシステム を実現 • 講演資料(テキスト)を閲覧しながら,特定 のビデオ内容(音声,画像)を選択的に視 聴することが可能 • 音声認識と情報検索技術を統合し,高精 度の音声文書検索を実現 3 資料と講演の相違点 資料(書き言葉) ランダムアクセス可能 ・構造(章立て),表層(字種) ・重要箇所の特定が容易 比較的簡潔 ・ページ数の制限 講演(話し言葉) 逐次アクセスが原則 ・早送り,巻き戻しでは不十分 ・書き起こしは読みにくい 分かりやすい ・説明が詳しい ・適度に冗長 書き言葉と話し言葉の長所を統合する 4 講演資料 話者適応 講演ビデオデータ 発話抽出 著者・講演者 範囲指定 話題適応 音声文書検索 音声認識 講演データベース 関連ビデオデータ ユーザ 5 講演資料 話題適応 講演ビデオデータ 発話抽出 類似文書検索 NTCIR-3 Web 100Gコレクション (10Mページ) 言語モデリング 著者・講演者 対象トピッ クのページ を選択 音声認識 講演データベース 単語Ngram 6 音声認識のモデル 単語列W 入力音声X P( X | W ) P(W ) P(W | X ) P( X ) ベイズの定理 P( X | W ) P(W ) 音響モデル (単語列が話者によって どのような音声になるか) 話者適応 言語モデル (どのような単語列が 言語的に妥当であるか) 話題適応 7 教科書をコピー・ ペースト 8 クリックして再生 検索結果 9
© Copyright 2024 ExpyDoc