[招待講演] 音声ドキュメントに対する情報検索の今と共通

社団法人電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
信学技報
TECHNICAL REPORT OF IEICE.
[招待講演] 音声ドキュメントに対する情報検索の今と共通評価基盤
西崎博光†
秋葉
友良††
† 山梨大学大学院総合研究部工学域〒 400–8511 山梨県甲府市武田 4–3–11
†† 豊橋技術科学大学情報・知能工学系〒 441–8580 愛知県豊橋市天伯町雲雀ヶ丘 1–1
E-mail: †[email protected], ††[email protected]
あらまし音声ドキュメント検索は，マルチメディアデータに含まれる音声ストリーム（に含まれる言語的な内容）
を利用した音声データの検索技術であり，今後はテキスト検索と同様に我々の身近になることは想像に難くない．本
講演では，音声ドキュメント検索に関する世界の研究動向を共通評価基盤に着目しながら紹介する．日本でも，音声
ドキュメント処理ワーキンググループの共通評価基盤の制定を皮切りとして，NII 主催の情報アクセスの共通評価基
盤プロジェクト（NTCIR）に音声ドキュメント検索タスクを提案している．過去 4 度の NTCIR では，回を追うごと
に新しい共通評価タスクを制定してきた．この NTCIR での音声ドキュメント処理タスクについても本講演で紹介す
る．NTCIR において，音声ドキュメント検索は大きく 2 つのタスクがある．検索要求を満たすドキュメントあるいは
その一部を検索する内容検索，もう一方は検索要求で指定した語句が発話されている音声区間をピンポイントで特定
する音声中の検索語検出である．本稿では，特に後者に着目し，その研究課題とその解決方法を紹介する．
キーワード
NTCIR，音声ドキュメント検索，共通評価基盤，音声中の検索語検出
Introduction of Techniques and Evaluation Framework
on Information Retrieval for Spoken Documents
Hiromitsu NISHIZAKI† and Tomoyosi AKIBA††
† The Graduate School of Interdisciplinary Research, Faculty of Engineering, University of Yamanashi
Takeda 4–3–11, Kofu-shi, Yamanashi, 400–8511 Japan
†† Department of Computer Science and Engineering, Toyohashi University of Technology
Hibarigaoka 1–1, Tempaku-cho, Toyohashi-shi, Aichi 441–8580 Japan
E-mail: †[email protected], ††[email protected]
Abstract Spoken document retrieval (SDR), one of the research topics on spoken language technology, is a search
technology for speech data using speech streams included in multi-media data. It is easy to imagine that this technology will be familiar to us. This paper introduces the world trends for SDR. In particular, we will also introduce an
evaluation framework commonly used by researchers. In Japan, the Spoken Document Processing Working Group
(SDPWG) developed the evaluation framework for SDR using the Corpus of Spontaneous Japanese. In addition,
the organizers, who are members of the SDPWG, proposed tasks related to SDR to the series of the NII Testbeds
and Community for Information access Research Conference (NTCIR). In this paper, we also introduced the tasks
proposed on the NTCIR conferences. There are mainly two types of SDR-related tasks proposed on the NTCIR
conferences: One is a content retrieval task, the other is a spoken term detection (STD) task. This paper, especially,
focuses on STD, and describes research challenges and their solutions on the STD task.
Key words Evaluation framework, NTCIR, spoken document retrieval, spoken term detection
1. はじめに
大量のデータから効率よく必要な情報を取り出す技術の確立
が望まれている．大量の音声・映像ドキュメントから必要な情
報を検索する技術もその一つである．これらを検索するための
検索要求（クエリ）は，テキスト入力で行われるのが一般的で
ある一方，音声入力による検索要求サービスが提供されている．
例えば，Google 社は，音声で検索要求を投げかけ，WEB ペー
—1—
ジを検索する「Google 音声検索」サービスを提供している．さ
らに同社は，画像投稿サービス「YouTube」にアップロードさ
れている一部の動画に対して，音声認識を用いた自動索引付け
による検索サービスも始めている．このように音声入力による
音声（映像）の検索サービスも徐々に広がりつつある．
これに先立ち，1990 年代から，アメリカ国立標準技術研究所
(NIST) とアメリカ国防総省が主催する情報検索関連の評価型
ワークショップ TREC (Text REtrieval Conference) [1] が開催
された．1990 年代後半から 2000 年までの間，TREC の研究
分野 (トラック) の 1 つとして，音声ドキュメント検索トラック
(Spoken Document Retrieval Track) が開催され，世界中で音
声ドキュメント検索 (Spoken Document Retrieval, SDR) の研
究が行われてきた．比較的音声認識しやすいニュース音声が対
象だったこともあり，TREC-SDR ではテキストドキュメントと
ほぼ同程度の検索精度を出すに至り，成功裏にその役割を終え
た．現在は，ビデオ検索の評価ワークショップ (TRECVID（注 1）)
が開催されており，映像中に含まれる音声データを音声認識す
る等して，ビデオ検索精度の改善が図られている [2]．
ここで，音声ドキュメント検索の関連タスクについて整理し
ておきたい．これには大きく 2 種類のタスクが存在する．
1 つは，音声ドキュメント内容検索 (Spoken document Content Retrieval，SCR) であり，与えられた検索要求を満たすよ
うなドキュメントやその一部分のフレーズ・文を検索結果とし
て提示する検索タスクである．SCR を狭義の意味合いで SDR
と言うこともある．後述する音声中の検索語検出タスクと違い，
必ずしもクエリに含まれるキーワードが含まれる必要はない．
クエリとしては，検索者の知りたい内容を表現した文（自然言
語）やキーワードリストなど比較的長いもの（テキストや音声）
を与える．
もう 1 つのタスクは，音声中の検索語検出 (Spoken Term
Detection, STD) タスクである（キーワードサーチ (Keyword
Search, KWS) とも呼ばれる）．これは，キーワードスポッティ
ングに類似しており，クエリとして与えられたキーワード（列）
が音声ドキュメント内にそのまま現れている位置を特定するタ
スクである．2006 年に NIST が初めて STD タスクを設定 [3]
し，これまでに多様なテストコレクションが提供されているこ
と，タスクの評価基準が明確であることから，INTERSPEECH
や ICASSP 等の音声処理関連のトップカンファレンスでも専用
のセッションが設けられるほど研究が活発化している．
ここで，日本における音声ドキュメント検索タスクの動きに
ついて軽く触れておく．2006 年に情報処理学会・音声言語情
報処理研究会下に音声ドキュメント処理ワーキンググループ
（SDPWG）が設立され，
『日本語話し言葉コーパス』(以下 CSJ
と記す) を用いた SCR 用のクエリと，クエリに対する正解ド
キュメントのセットを構築した [4]．SCR に加えて STD 用の
テストコレクションの構築も行われた [5]．これらの検索テスト
セットの構築により，日本でも大規模なデータを用いた共通で
利用できる情報検索技術開発の環境が整った．共通の評価基盤
による比較・検討が行える環境が整ったことになる．
さらに，国立情報学研究所（NII）が主催する NTCIR (NII
Testbeds and Community for Information access Research)
Project において，音声ドキュメント検索に関するタスク
(SCR・STD の両方) が提案された [6]∼[8]．これまで，2011
（注 1）
：http://www-nlpir.nist.gov/projects/trecvid/
図 1 STD タスクの概要
年の NTCIR-9 から NTCIR-11 までの 3 回の NTCIR カンファ
レンスにおいて，タスク参加者から多くの音声ドキュメント検
索手法が提案されている．2016 年に開催予定の NTCIR-12（注 2）
でも音声ドキュメント検索関連タスクが実施される予定である．
本稿では，2 つの音声ドキュメント検索タスクのうち，特に
STD タスクに焦点を当てる．SCR については秋葉 [9] による詳
細な解説があるため，こちらを参照されたい．本稿では，STD
タスクにおける日本（NTCIR）
・世界での共通評価基盤を紹介
し，本タスクにおける研究課題を整理する．また，これらの課
題をどのように解決しようとしているのかを簡単に紹介する．
2. STD タスク説明
まず最初に，STD タスクについて説明しておく．図 1 に STD
タスクの概要を示す．STD では，与えられたクエリが音声ファ
イルのどこに位置しているのかを特定（検出）する．
後述する NTCIR の評価では，図 1 のタスクとは若干異なり，
ショートポーズで区切られた発話（Inter Pausal Unit (IPU)）
単位での検出を行うタスクとなっている．正確な位置を特定し
なくても，実用的には検出されたクエリの前後の音声を聞いて
確認すると想定するため，NTCIR では，発話単位でおよその
場所が特定されれば良いこととした．
STD の性能評価尺度には，検出漏れ確率 (miss probability)
と誤検出発生確率 (false alarm probability) を用いた Detection
Error Tradeoﬀ (DET) カーブやこれらの確率を総合的に評価
する Term-Weighted Value(TWV) が利用されている [3]．後
述する OpenKWS や MediaEval，ALBAYZIN ではこれらの
指標が利用されている．一方で，NTCIR では再現率，適合率，
平均適合率（MAP）を利用している [6]．これらの評価尺度以
外にも，検索速度，消費メモリ，インデックスサイズなどの計
算リソースに関しても評価する．
3. 共通評価基盤
STD の共通評価基盤の制定は，古くは TREC-SDR から始
まり “Known-Item Retrieval” タスク（いわゆるキーワード検
索タスク）が設定された [1]．続いて，NIST による STD evaluation が 2006 年に実施された [3]．これは，英語・中国語・アラ
ビア語のニュース・電話会話・会議音声の 3 時間程度の比較的小
（注 2）
：http://research.nii.ac.jp/ntcir/ntcir-12/
—2—
規模なデータを対象としている．2009 年に SDPWG が日本語
を NTCIR に提案してきた．表 1 に関連タスクをまとめた．
のテストコレクションを発表し，2011 年から 1 年半毎に一度，
NTCIR-9 SpokenDoc-1 [6] では，CSJ の学会・模擬講演の
NTCIR の枠組みにおいて新しいテストコレクションをリリー
スしている．海外でも NIST が 2013 年より Open Keyword
Search Evaluation（注 3） (OpenKWS) タスクを始めて（再開し
て）いる．以下，まずは世界のテストコレクションについて簡
単に紹介し，著者らがオーガナイザーを務めた（務めている）
NTCIR のテストコレクションについても紹介する．
全 2,702 講演とその中のコアと呼ばれる 177 講演を検索対象と
した．STD タスクは，CORE タスクと ALL タスクの 2 種類
でクエリ数は各タスクで 50 個，いずれもテキストクエリであ
る．表 1 においてクエリのカッコ内数値は未知語のクエリ数と
なっている．NTCIR では，音声認識環境を整備していない参
加者向けに，タスクオーガナイザーが，音声認識結果，音声認
3. 1 OpenKWS
NIST が実施している STD タスクである．2013 年から 2015
年まで毎年開催されている．2006 年の STD タスクとの違いは，
“Surprise” 言語として少リソース言語を追加している点にある．
十分な学習（開発）データを使用した場合と学習量を制限（10
時間）した場合での各研究機関の性能比較ができるような枠組
みを提供している．“Surprise” 言語は，2013 年はベトナム語，
2014 年はタミール語となっている．2015 年には，さらに広東
語，パシュート語，タガログ語，トルコ語が追加されている．
クエリはテキストで与えられる．NIST OpenKWS では，アメ
リカのインテリジェンス先端研究活動（IARPA）の BABEL プ
ロジェクト（注 4）によって集められた音声データを利用している．
これは少リソース言語の Speech-To-Text（STT）や KWS の
研究を目的としたものである．OpenKWS では，STT と STD
の両方のタスクが実施されている．
識に利用した音響モデル・言語モデル・音声認識辞書を提供し
3. 2 MediaEval
MediaEval Multimedia Benchmark（注 5）によって，2010 年
から毎年マルチメディアデータ処理に関する様々なタスクが
実施されている．この中のタスクの一つに音声クエリによ
る STD タスク（“Query by Example Search on Speech Task
(QUESST)”）がある．OpenKWS と同様に複数言語（2013 年
は 9ヶ国語，2014 年は 6ヶ国語，2015 年は 8ヶ国語）の音声
データを対象とした検索タスクである．多言語および少リソー
ス言語をターゲットとしているという点においては OpenKWS
と類似しているが，こちらは音声クエリであることと複数言語
が混在した音声データを検索ターゲットとしていることから，
特徴量同士の照合に基づいた手法が多く提案されている [10]．
SDPWS）の発表講演音声を検索対象とした．講演数は 104 講
演である．STD タスクでは，CSJ 全講演のタスクと SDPWS
を対象とした 2 つのタスクを用意した．いずれのタスクもク
エリは 100 個（テキスト）である．NTCIR-10 では，通常の
STD タスクに加えて，iSTD (inexistent STD) タスクを新た
に設定した．これは「与えられたクエリが対象の音声ドキュメ
ントのいずれかに含まれているか否かを判定する」タスクであ
る．コールセンターなどで不適切語を発話したかどうかを判定
するといった業務等での需要が考えられることから，本タスク
を制定した．クエリが含まれていないことを確認するタスクは
世界初の試みであった．SCR タスクでは，SDPWS 講演のみ
を検索対象とし，NTCIR-9 と同様に講演単位とパッセージ単
位の検索結果を提示する 2 つのタスクを用意した．
2014 年に開催された NTCIR-11 SpokenQuery&Doc [8] で
は，新たに音声クエリによる検索タスクを導入した．検索対象
は第 1 回から第 7 回までの SDPWS で 99 講演のデータを用い
た．今回のデータでは新たにプレゼンテーションスライドの切
り替え情報をアノテーションとして付与している．スライド情
報がない講演を除外しているため，NTCIR-10 と比べて講演数
が 99 に減少している．SCR タスクで利用するクエリは，検索
者が自然な発話で発話したものを収集した [12]．この音声クエ
リに対して，スライドセグメント検索タスクとパッセージ検索
検索タスクを用意している．一方，STD タスクでは，SCR 用
のクエリに含まれている内容語をクエリとして利用することと
した．SCR 用音声クエリの発話区間を指定する形で STD 用音
声クエリを提供した．これに加えて，これまでの NTCIR 同様
のテキストクエリタスクも実施している．
2016 年 6 月に開催予定の NTCIR-12 では，NTCIR-11 と同
様のタスクを実施する予定である．NTCIR-12 では，STD 用
クエリを大きく刷新する予定である．例えば，SCR クエリと
共通にするのではなく，各タームを複数の話者が発話したもの
3. 3 ALBAYZIN Evaluation
2 年に 1 度スペインで開かれている iberSPEECH（注 6）という
会議の枠組み内で，“ALBAYZIN evaluation” という様々な音
声処理関連タスクが実施されている．この中の一つに “search
on speech” という音声検索関連タスクが 2012 年より提案され
ている．検索対象音声はスペイン語で，学会の講演音声を収録
したコーパス（MAVIR コーパス（注 7））を使用している．2014
年に実施された評価では，STD，Query-by-Example (QbE)STD [11]，QbE-SDR といった音声ドキュメント検索関連のタ
スクが提案された．単一の言語を対象としたタスクであり，こ
の点で NTCIR と類似している．
3. 4 NTCIR
世界的な研究動向や音声ドキュメントの将来性を鑑み，これ
までに著者らは NTCIR の音声ドキュメント検索関連のタスク
（注 3）
：http://www.nist.gov/itl/iad/mig/openkws.cfm
（注 4）
：http://www.iarpa.gov/index.php/research-programs/babel
（注 5）
：http://www.multimediaeval.org/
（注 6）
：http://iberspeech2014.ulpgc.es/
ている．もちろん参加者は独自に準備した音声認識システムを
利用しても良い．ただし，各種モデルの学習条件や音声認識辞
書のエントリーについては，これに合わせることが望ましいと
した．未知語・既知語クエリの区別は，オーガナイザーが提供
した音声認識辞書に基づいて判断されている．SCR タスクに
関しては，講演検索タスクとパッセージ検索タスクを用意した．
いずれもクエリは共通で 86 クエリである．講演検索タスクは，
与えられたクエリを満たす内容が含まれるドキュメントを（講
演単位で）検索するタスクで，パッセージ検索タスクは，講演
の一部分を見つけ出すタスクである．当然ながら後者の方が難
易度は高いタスクとなっている．
続く，NTCIR-10 SpokenDoc-2 [7] では，CSJ に加え新たな
音声コーパスとして，第 1 回から第 6 回の音声ドキュメント処
理ワークショップ（Spoken Document Processing WorkShop,
（注 7）
：http://www.lllf.uam.es/ESP/CorpusMavir.html
—3—
表 1 NTCIR 音声ドキュメント検索関連タスクの変遷
検索対象データ
STD タスク
SCR タスク
NTCIR-9
CSJ コア 177 講演 (39 時間)
CORE タスク: 50 (31) クエリ
パッセージ検索タスク
(2011.12)
CSJ 全 2707 講演 (600 時間)
ALL タスク: 50 (24) クエリ
講演検索タスク
（いずれも 86 クエリ，全講演が対象）
NTCIR-10 CSJ 全 2707 講演 (600 時間)
(2013.6)
large-size (CSJ): 100 (54) クエリ
パッセージ検索タスク
SDPWS 104 講演 (28.6 時間) moderate-size (SDPWS): 100 (53) クエリ講演検索タスク
iSTD タスク (SDPWS): 100 クエリ
（いずれも 120 クエリ，SDPWS が対象）
NTCIR-11 SDPWS 99 講演 (27.5 時間)
SQ-STD: 265 クエリ
SQ-SCR: 37 クエリ
(2014.12)
音声／テキストクエリ
音声／テキストクエリ
NTCIR-12 SDPWS 99 講演 (27.5 時間)
Single: 143 クエリ
SQ-SCR: 約 100 クエリを予定
(2016.6)
Multi: 60 クエリ
音声／テキストクエリ
を収録する．また，新たにマルチターム検出タスクを設定予定
である．これは，1 クエリが複数のタームから構成されている
音声／テキストクエリ
(HMM) ベースの音声認識システムが出力する事後確率系列
（posteriorgram）[20] を照合対象とする研究も行われている．
もので，Web 検索などでスペースで区切って複数のタームをク
しかし，表現豊かな音声認識結果を利用すると，クエリが実
エリとして利用するシーンに相当する．マルチタームクエリ音
際に発声されていない区間にそのクエリがあると誤って判定し
声を収録する際，発話者には，タームの発話順序は自由，ター
てしまう湧き出し誤り（誤検出）が多く発生することになる．
ム間にポーズを入れる／入れないのも自由，ということにして
そこで，2 段階 STD 手法が提案されている．1 段階目の検索エ
いる．マルチターム検出タスクの面白さは，タームのセグメン
ンジンで検出された結果に対して，その結果の妥当性を検証器
テーションが分からない状態で如何に複数のタームが含まれて
（verifier, decision maker などとも言われる）によって検証す
いる発話を特定するかという新しい問題にチャレンジする点に
る（再スコア付け）する方法である．このような手法によって
ある．
誤検出を抑制する研究も多く報告されている [21]∼[23]．また，
4. STD の研究課題とその解決方法
4. 1 研究課題
STD における研究課題について説明する．図 2 に STD のお
よその処理の流れと，研究課題を示す．
学会等で報告されている多くの STD 手法では，まず検索対
象音声を一度音声認識処理してシンボル系列に変換しておき，
このシンボル系列（単語列や音素列）に対する照合処理を行う
ことでクエリの検出を実現している．この一連の処理の中では，
音声認識そのものの精度，検索用インデックスの表現方法・照
合方法（漏れなく高速に，そして誤検出を少なく）が主な研究
課題となっている．なお，シンボル系列としては，単語列や音
素列などのサブワード系列などが検討されている．未知語に対
処するためにサブワード系列を利用するのが一般的となってい
るが，クエリが音声認識辞書に対して既知語の場合は大語彙連
続音声認識の結果を利用した方が性能が良い場合もある [13]．
STD における音声認識処理の研究に関して，近年では，NIST
の OpenKWS タスク [14] のように多言語の音声データに対す
る検索タスクが提案されている．このタスクでは，少リソース
音声言語に対する音声認識や STD 技術の研究に盛んに取り組
まれている．このような音声言語に対して高精度にシンボル系
列に変換する技術は必要であろう．
検出漏れ（miss detection）に対処するためには単純に音声
認識結果の 1-best 系列を用いるだけでは誤認識に対処できず
に不十分である．そこで，検索用インデックスの表現方法とし
ては，音声認識結果が出力するシンボル系列をそのまま使う
のではなく，様々なモデルを用いた複数の音声認識システムを
利用する [15], N-best [16]，ラティス [17], [18]，コンフュージョ
ンネットワーク [15], [19] などの豊かな表現を持つ構造や，近
年では Deep Neural Network (DNN)-Hidden Markov Model
別の手法として，Web 等の外部の知識源を利用する [24]，クエ
リを拡張する [25] といった方法が提案されている．
以上に加えて，クエリ処理などの研究も行われている．例え
ば，クエリと検索対象においてサブワードレベルでの照合を考
えると，テキストで与えたクエリをサブワードに変換する必
要がある．その際に，発音の揺れなどを考慮する必要がある．
例えば，英語の場合には音素同士の結合によって発音が変化す
ることがあるため，クエリの発音のバリエーションを考慮した
STD 手法も提案されている [26]．日本語でも，言い間違いや発
音のバリエーション（例えば “素性” であれば，/s u j o:/と
/s o s e:/）の違いがあることから，クエリで指定した単語
とサブワード系列が一対一で対応付かない例もあり研究の余地
はあるが，さほど研究はなされていないようである．
クエリに関しては，近年では音声クエリを用いた STD (QbESTD) の研究も数多く提案されている．音声クエリの場合も，
音声クエリを音声認識してサブワード系列 [27], [28] やサブワー
ドベースの posteriorgram [20] に変換して検索対象音声のサブ
ワード系列と照合するという手法が提案されている．この場
合は，いかに音声クエリを正確にシンボル系列で表現するか
という点が研究課題となる．また，そもそもシンボル系列の
照合ではなく，音響特徴量レベルあるいは入力フレームに対す
る事後確率に基づいた照合を行うことも可能である [29]．これ
は，少リソースあるいはゼロリソース言語では正確に音声認識
を実行できないことから，このようなリソースの言語に対して
はサブワード化を行わない方法が有効である．MediaEval の
QbE-STD タスクではフレーム同士での照合方法を提案する手
法も多い [10]．
STD 手法では，検出精度が重要であると思われるが，それと
同じくらいに検出にかかる時間も重要である．例えば，CSJ600
時間の音声を検索対象にした場合，動的計画法（DP）で全走
—4—
✔
✔
✔
✔
✔
✔
✔
✔
✔
図 2 STD の処理の流れと研究課題
これは決して実用的ではない．そこで，インデックスや照合方
によって STD 性能を改善できる．
• 音声認識が難しいタスクでは，音響的な距離尺度を導入
法を工夫することで，検索精度を落とさずに 1 クエリあたりミ
するなど認識エラーに対して頑健に対処できる枠組みを導入す
リ秒のオーダーでの検索速度までの高速化を実現した研究例も
ることでとで STD 性能の向上が期待できる．
• 比較的小さなデータセットでも，大規模なデータセット
査すると 1 クエリあたり約 10 分の時間（注 8）が必要となる [7]．
ある [30], [31]．
なる手法での STD エンジンを複数種類用いて出力結果を融合
における検索性能を十分に予測できる．
• 特定の STD 手法における STD 性能は，検索対象のデー
する研究も行われている．例えば，EvalEval2013 の参加チー
タセットの規模には依存しない．
最後に，複数の STD エンジンを用いた研究を紹介する．異
ムの STD システムの出力結果を融合することで 30%の性能改
善が報告されている [10]．複数の異なるシステムの統合では，
各 STD エンジンが付与する検出結果に対するスコアの正規化
（calibration）も課題となる [32]．
5. まとめ
本稿では，音声ドキュメント検索，特に STD タスクにおけ
る国内外の共通評価基盤の紹介を行った．また，STD タスク
4. 2 NTCIR-STD タスクから得られた知見
における研究課題やそれらがどのように解決されているのかに
これまでの NTCIR において，様々な手法が提案されてきた．ついて紹介した．
音声認識誤り／未知語問題に主眼をおいたもの，高速化に主眼
音声ドキュメント検索分野において，現在の世界的な研究動
を置いたもの，インデックスのデータ表現に主眼を置いたもの
向（研究の興味）として，少リソース・ゼロリソース言語に対
と様々な STD 手法が提案された．各参加機関の性能評価結果
する検索や，複数の言語が混在している音声データの検索，音
や提案手法の詳細については，各機関の論文（NTCIR のホー
声クエリ（QbE）に目を向けられている．未知語や音声認識誤
ムページでオンラインで公開されている）を参考にされたい．り対策については，
（未だ十分であるとは言えないが）シンボル
本稿では，参加機関の性能評価と手法の分析結果から明らかと
（サブワード）系列を利用する，DNN 等で推定した精度の良い
なった知見を紹介する [13], [33]．
posteriorgram を利用するといった手法で一定の解決が得られ
• 複数の音声認識システムの音声認識結果を利用している
ているのではないかと思われる．しかしながら，SDPWS の講
参加機関の STD 性能が総じてて高かった．
演音声のように（例え DNN 等の最新の音声認識技術を用いた
• STD の性能は未知語／既知語クエリの区別に敏感であ
としても）音声認識が難しい音声などを扱うには幾何かの工夫
り，未知語減らすことで性能が改善する．
が必要である．今後の研究の発展として，劣悪な環境下で収録
• 既知語の STD には単語認識結果を利用した方が良さそ
された音声を検索の対象とすることはもちろん，サウンドイベ
うであること，未知語の STD は単語認識結果よりもサブワー
ント検出／検索などへ発展していくと考えている．
ド認識結果を利用した方が良い結果が得られることかが分かっ
謝
辞
た．このことから，単語認識結果とサブワード認識結果の併用
（注 8）
：ただし，実装言語や実行環境で大きく変わる．
日本語音声ドキュメント検索関連のテストコレクションの制
—5—
定や NTCIR におけるタスク提案などでは，音声ドキュメン
ト処理ワーキンググループのメンバーの方々（相川清明氏，伊
藤克亘氏，伊藤慶明氏，河原達也氏，胡新輝氏，中川聖一氏，
南條浩輝氏，松井知子氏，安田宜仁氏，山下洋一氏）および
NTCIR-11・12 のタスクオーガナイザーである Gareth J. F.
Jones 氏に多大なご協力をいただきました．
文
献
[1] J.S. Garofolo, C.G.P. Auzanne, and E.M. Voorhees, “The
TREC Spoken Document Retrieval Track: A Success
Story,” Proceedings of the Text Retrieval Conference
(TREC) 8, pp.16–19, 2000.
[2] Y.-J. Cheng and H.-H. Chen, “Aligning Words from Speech
Recognition and Shots for Video Information Retrieval,”
Proc. of the TRECVID2004, 2004.
[3] NIST, “The spoken term detection (STD) 2006 evaluation plan,” http://www.itl.nist.gov/iad/mig/tests/
std/2006/docs/std06-evalplan-v10.pdf
(visited on 29th/July/2015)
[4] T. Akiba, K. Aikawa, Y. Itoh, T. Kawahara, H. Nanjo, H.
Nishizaki, N. Yasuda, Y. Yamanashita, and K. Itou, “Construction of a Test Collection for Spoken Document Retrieval from Lecture Audio Data,” Journal of Information
Processing, vol.17, pp.82–94, 2009.
[5] 伊藤慶明，西崎博光，中川聖一，秋葉友良，河原達也，胡新輝，
南條浩輝，松井知子，山下洋一，相川清明，“音声中の検索語検
出のためのテストコレクションの構築と分析,” 情報処理学会論
文誌，vol.54，no.2，pp.471–483，2013．
[6] T. Akiba, H. Nishizaki, K. Aikawa, T. Kawahara, and T.
Matsui, “Overview of the IR for Spoken Documents Task
in NTCIR-9 Workshop,” Proc. of the NTCIR-9 Workshop,
pp.223–235, 2011.
[7] T. Akiba, H. Nishizaki, K. Aikawa, X. Hu, Y. Itoh, T.
Kawahara, S. Nakagawa, H. Nanjo, and Y. Yamanashita,
“Overview of the NTCIR-10 SpokenDoc-2 Task,” Proc. of
the NTCIR-10 Conference, pp.573–587, 2013.
[8] T. Akiba, H. Nishizaki, H. Nanjo, and G.J.F. Jones,
“Overview of the NTCIR-11 SpokenQuery&Doc Task,”
Proc. of the NTCIR-11 Conference, pp.350–364, 2014.
[9] 秋葉友良，“音声ドキュメント検索の現状と課題,” 情報処理学会
研究報告，Vol.2010-SLP-82, No.10，8 pages，2010．
[10] X. Anguera, L.J. Rodriguez-Fuentes, I. Szöke, A. Buzo, F.
Metze, and M. Penagarikano, “Query-by-Example Spoken
Term Detection Evaluation on Low-resource Languages,”
Proc. of the International Workshop on Spoken Language
Technologies for Underresourced Languages (SLTU), pp.24–
31, 2014.
[11] J. Tejedor, D. Toledano, X. Anguera, A. Varona, L. Hurtado, A. Miguel, and J. Colás, “Query-by-Example Spoken Term Detection ALBAYZIN 2012 evaluation: overview,
systems, results, and discussion,” EURASIP Journal on Audio, Speech, and Music Processing, vol.2013, no.23, pp.1–17,
Jan. 2013.
[12] 大島翔，秋葉友良，“自由発声した情報要求に含まれるキーワー
ドの音響・言語的特徴の調査,” 日本音響学会 2014 年秋季研究
発表会講演論文集, 2-Q-12，pp.147–150，2014．
[13] 西崎博光，秋葉友良，相川清明，伊藤慶明，河原達也，胡新
輝，中川聖一，南條浩輝，山下洋一，“NTCIR-10 SpokenDoc-2
Spoken Term Detection タスクの結果と知見,” 日本音響学会
2013 年秋季研究発表会講演論文集, 3-8-6，pp.107–110，2013．
[14] NIST, “KWS15 Keyword Seach Evaluation Plan ver.5,”
http://www.nist.gov/itl/iad/mig/upload/
KWS15-evalplan-v05.pdf (visited on 29th/July/2015)
[15] S. Natori, Y. Furuya, H. Nishizaki, and Y. Sekiguchi, “Spoken Term Detection Using Phoneme Transition Network
from Multiple Speech Recognizers’ Outputs,” Journal of In-
formation Processing, vol.21, no.2, pp.176–185, 2013.
[16] S. Nakagawa, K. Iwami, Y. Fujii, and K. Yamamoto, “A robust/fast spoken term detection method based on a syllable
n-gram index with a distance metric,” Speech Communication, vol.35, pp.470–485, 2013.
[17] S. Meng, P. Yu, F. Seide, and J. Liu, “A study of
lattice-based spoken term detection for chinese spontaneous
speech,” Proc. of ASRU2007, pp.635–640, 2007.
[18] Y.-C. Pan, H.-L. Chang, and L.-S. Lee, “Analytical comparison between position specific posterior lattices and confusion networks based on words and subword units for spoken
document indexing,” Proc. of ASRU2007, pp.677–682, 2007.
[19] J. Gao, Q. Zhao, Y. Yan, and J. Shao, “Eﬃcient
System Combination for Syllable-Confusion-Network-based
Chinese Spoken Term Detection,” Proc. of ISCSLP2008,
pp.366–369, 2008.
[20] G. Chen, C. Parada, and T.N. Sainath, “Query-by-Example
Keyword Spotting using Long Short-term Memory Networks,” Proc. of ICASSP2015, pp.5236–5240, 2015.
[21] H. Wang, C.-C. Leung, T. Lee, B. Ma, and H. Li,
“An Acoustic Segment Modeling Approach to Query-byExamble Spoken Term Detection,” Proc. of ICASSP2012,
pp.5157–5160, 2012.
[22] L. Mangu, H. Soltau, H.-K. Kuo, B. Kingsbury, and G.
Saon, “Exploiting Diversity for Spoken Term Detection,”
Proc. of ICASSP2013, pp.8282–8286, 2013.
[23] D. Wang, S. King, J. Frankel, R. Vipperla, N. Evans, and R.
Troncy, “Direct posterior confidence for out-of-vocabulary
spoken term detection,” ACM Transactions on Information
Systems, vol.30, no.3, pp.16:1–16:34, 2012.
[24] 小田原一成，新妻雅弘，山下洋一，“音声中の検索語検出におけ
る共起情報の検討,” 日本音響学会 2015 年春季研究発表会講演
論文集, 1-P-7，pp.111–114，2015．
[25] 南條浩輝，前田翔，吉見毅彦，“音声検索語検出のためのクエリ拡
張の検討,” 情報処理学会研究報告，Vol.2014-SLP-101, No.16，
6 pages，2014．
[26] D. Wang, S. King, and J. Frankel, “Stochastic Pronunciation Modelling for Out-of-Vocabulary Spoken Term Detection,” IEEE Trans. on Audio, Speech, and Language Processing, vol.19, no.4, pp.688–698, 2011.
[27] 大島聡史，小嶋和徳，石亀晶明，伊藤慶明，“未知語の音声クエ
リに対する複数検索結果を用いた音声中の検索語検出,” 日本音
響学会 2015 年春季研究発表会講演論文集, 1-P-6，pp.107–110，
2015．
[28] N. Sakamoto and S. Nakagawa, “Robust/Fast Out-ofVocabulary Spoken Term Detection By N-gram Index with
Exact Distance Through Text/Speech Input,” Proc. of APSIPA ASC 2013, 4 pages, 2013.
[29] L.J. Rodriguez-Fuentes, A. Varona, M. Penagarikano,
G. Bordel, and M. Diez, “High-Performance Query-byExample Spoken Term Detection on the SWS 2013 Evaluation,” Proc. of ICASSP2014, pp.7869–7873, 2014.
[30] 桂田浩一，勝浦広大，入部百合絵，新田恒雄，“Suﬃx array を
用いた高速音声検索語検出システムの性能評価,” 電子情報通信
学会論文誌，vol.J96-D，no.10，pp.2540–2548，2013．
[31] 伊藤慶明，斉藤裕之，田中和世，李時旭，“音声中の検索語検出
のためのテストコレクションの構築と分析,” 情報処理学会論文
誌，vol.54，no.12，pp.2492–2501，2013．
[32] J. van Hout, L. Ferrer, D. Vergyri, N. Scheﬀer, Y. Lei, V.
Mitra, and S. Wegmann, “Calibration and Multiple System
Fusion for Spoken Term Detection Using Linear Logistic
Regression,” Proc. of ICASSP2014, pp.7188–7192, 2014.
[33] H. Nishizaki, T. Akiba, K. Aikawa, T. Kawahara, and
T. Matsui, “Evaluation framework design of spoken term
detection study at the ntcir-9 ir for spoken documents
task,” Journal of Natural Language Processing, vol.19, no.4,
pp.329–350, Dec. 2012.
—6—

Download Report