対談音声認識のための話者ダイアライゼーション

報告
対談音声認識のための
話者ダイアライゼーション
奥
貴裕
佐藤庄衛
小林彰夫
本間真一
今井
亨
Speaker Diarization for Conversational Speech
Recognition
Takahiro OKU，Shoei SATO，Akio KOBAYASHI，Shinichi HOMMA and Toru IMAI
要約
話者ダイアライゼーションとは，音声から「いつ，誰が発話したのか」を推定する技術である。
話者を推定することができれば，話者適応化技術により音声認識率の改善が期待できる。本稿で
は，対談番組のような連続した音声に複数の話者が含まれる状況において，話者交代点を検出し
つつ低遅延で話者を判定する手法を提案する。提案手法では，音素情報に基づいて音声区間を分
類したマルチ音素クラスのベイズ情報量基準を用いることで，話者ダイアライゼーションの精度
の向上を図った。報道系情報番組の対談部分を対象とした話者ダイアライゼーション実験を行っ
た結果，遅れ時間２秒で話者判定するタスクにおいて，話者ダイアライゼーション誤りを従来手
法に比べて20.0％削減することができた。この提案手法による話者判定結果を利用した音声認識
の話者適応実験では，話者交代点前後の発話に関して7.8％の単語誤り削減率を得た。
ABSTRACT
Speaker diarization is a technique for answering the question of“who spoke when”．If the
question were accurately resolved from a given speech，the performance of speech recognition
would be improved by techniques such as speaker adaptation. In this paper，we propose a
speaker diarization method that sequentially detects speaker change points and determines
speakers with a fixed low latency. To improve the accuracy of the diarization，the speaker change
detection and speaker determination are performed on the basis of the Bayesian Information
Criterion with acoustic features classified into multiple phoneme classes. In an experiment on
conversational broadcast news programs，our diarization method reduced the speaker diarization
error rate relatively by 20.0%. The online speaker adaptation applied in a speechrecognition
experiment reduced the word error rate at speakerchange points relatively by 7.8%.
NHK技研 R&D/No.147/2014.9
37
報告
う手法を提案し９），音声認識実験により，話者ダイアライ
１．まえがき
本稿では，対談音声をリアルタイムで音声認識するため
の新たな話者ダイアライゼーションの手法を提案する。話
ゼーションの精度向上が音声認識の精度向上につながるこ
とを示す。
者ダイアライゼーションとは，音声から「いつ，誰が発話
したのか」を推定する技術である。音素＊１ごとの声の特
２．提案システムの概要
徴を表す音響モデルは話者ごとに異なるため，音声から話
本提案手法の概要を１図にブロック図で示す。話者ダ
者を推定し，その話者に適応した音響モデルを利用するこ
イアライゼーション部は，音声認識と同様に，12次のメ
１）
とで，音声認識精度の改善が期待できる。NHKでは，生
ル周波数ケプストラム係数（Mel Frequency Cepstral
放送番組の字幕制作を目的とした音声認識の研究を行って
＊３
Coefficient：MFCC）
，対数パワー＊４，またそれぞれ
いるが２），対談音声の認識精度が改善されれば，音声認識
を時間方向に直線近似したときの傾き，およびその傾きの
技術が適用可能な番組ジャンルを拡大することができる。
時間変化の計39次の音響特徴量を時系列に並べた，特徴
また，番組の発話内容の書き起こしだけでなく，話者名や
ベクトル列を用いて話者の判定を行う。提案手法では，音
話者の交代点を抽出できれば，番組の検索やメタデー
素認識により得られる音素情報を基に，１表に示すよう
タ
＊２
３）
の制作も効率化できる。
に，個人性情報をより多く含むと考えられる「母音＋鼻
本稿の話者ダイアライゼーションでは，時々刻々と入力
音」と，それ以外の「子音」のクラスに音響特徴量を分類
される音声から，すでに発話したどの話者なのか，それと
する。本提案手法では，これら２つのクラスで構成され
も新たな話者なのかを，ベイズ情報量基準（Bayesian
る「マルチ音素クラス」の音響特徴量の特徴ベクトル列を
Information Criterion：BIC）
（後述）を用いて判定す
用いて，BIC基準により話者の交代点を検出しつつ，登録
４）５）
る
。本稿で対象とする対談音声を話者ダイアライゼー
されたどの話者による発話かを判定する。話者の判定は，
ションする際には，連続した音声内の話者交代点を探索し
話者ごとの特徴量の分布をモデル化した話者モデルを用い
ながらリアルタイムで話者の判定をする必要がある。ま
て行う。この話者モデルは，システムの動作開始時にあら
た，判定結果の話者情報を利用して音響モデルの話者適応
かじめ登録しておく必要はなく，話者交代点が検出される
を行い，リアルタイムで音声を認識するためには，できる
ごとに，交代点以前の音声から後述の手順により作成また
限り短い遅れ時間で精度良く話者を判定することも必要で
は更新される。入力音声の話者が過去に発話した話者以外
ある。そこで本研究では，BICに基づいて発話内の話者交
の新規話者と判定された場合は，新規話者モデルを作成す
代点を検出しながら話者判定する手法の改善を目指して，
る。それに対し，過去に発話した話者のいずれかと判定さ
発話内容の母音や子音など音素の情報を利用した手法を提
れた場合には，該当の話者モデルを入力音声から再学習し
６）
案する。
て更新する。ただし，対談番組のキャスターなど，事前に
話者ダイアライゼーションは，個人性をより多く含む音
番組出演することが分かっていて，十分な音声データが得
声区間を用いることで，その精度向上が期待される。聴取
られる話者については，あらかじめ話者モデルを作成して
による話者識別実験では，母音や鼻音が識別に有効である
おくことも可能である。
７）
という報告があり，音素情報を基に音声区間を分類する
音声認識は，話者判定により得られる話者情報に従っ
ことで，より高精度な話者判定が期待できる。提案手法で
て，音響モデルを切り替えて行う。音響モデルは，話者ダ
は，入力音声を音素認識８）して得られる音素情報を用いて，
イアライゼーションの話者モデルと同様，話者交代ごとに
音声区間を，特徴が近い音素をまとめた音素クラスに分類
話者交代以前の音声と認識結果を用いて適応化する。この
し，BICによる判定時にそれぞれの音素クラスで得られた
適応化した音響モデルは，次にその話者が発話したと話者
判定結果を統合する「マルチ音素クラス」モデルを用い
ダイアライゼーションにより判定された際に音声認識で利
る。この提案手法の「マルチ音素クラス」モデルを用いる
用する。
ことで，短い音声区間でも高精度な話者交代点検出と話者
判定の実現が期待できる。
本稿では，話者ダイアライゼーション実験において，音
38
＊１さまざまな母音や子音などの，音声の最小単位。
声区間を音素クラスに分類しない従来手法と，音素クラス
＊２番組の属性を記述したデータ。
に分類した「マルチ音素クラス」による手法とのダイアラ
イゼーション性能を比較する。また，提案手法により低遅
＊３心理的な音の高さの単位mel（メル）を基準に音の周波数分布（ス
ペクトル）を求めたときの，スペクトルの山谷の形状を表す音響特
徴量。
延で得られる話者情報を利用して音声認識の話者適応を行
＊４音声パワーの対数値。
NHK技研 R&D/No.147/2014.9
話者
交代点
検出
音素認識・
交代点
発話区間
音響特徴量
検出
分類された
話者モデル
話者判定
音響特徴量
話者ダイアライゼーション部
音声認識部
話者情報
話者適応
音響モデル
音声認識
認識結果
１図提案システムのブロック図
は各音声区間の音声フレーム数，Σx と Σy は各特徴ベクト
１表音素クラス
母音＋鼻音
（Nxy, Σxy）
は２つの音声
ル列の共分散行列＊５である。λxy＝
a, a:, i, i:, u, u:, e, e:, o, o:,
n, ny, m, my, N
区間 x と y を時間方向に連結した区間 x y の特徴量の分
b, by, ch, d, dy, f, g, gy, h, hy, j, k, ky,
p, py, r, ry, s, sh, t, ts, w, y, z
子音
布モデルを示し，
Nxy は同区間の音声フレーム数 Nx+ Ny ,
Σxyは x y の特徴ベクトル列の共分散行列である。α は
（２）
式で表される P の重み係数であり，雑音などの環境
３．対談番組の話者ダイアライゼーション
の異なる音声区間を正しく話者判定するためのマージンで
3.1 マルチ音素クラスのベイズ情報量基準
ある。d は特徴ベクトルの次元数である。ΔBICの値が正
話者交代点の検出，および話者の判定には，共にBIC
に基づくΔBIC
のとき，x とy は別話者による発話であると判定される。
を用いる。ΔBICは２つの音声区間
音響特徴量を音素クラスに分類しない（１）
式および
の特徴ベクトル列 x ，y に対して，それらが同一話者によ
（２）
式の従来手法に対して，本稿では，複数の音素クラス
るものかどうかを判定する基準であり，以下の（１）
式お
での判定結果を統合できるように拡張した（３）
式および
10）11）12）
（４）
式を用いる。
よび（２）
式で表される。
（１）
（３）
（２）
（４）
（Nx , Σx）とλy＝
（Ny , Σy）はそれぞれ２つの
ここで，λx＝
音声区間 x と y の特徴量の分布モデルを示す。Nx と Ny
＊５ベクトルの要素間の共分散（２つのデータ間で，偏差の積を平均し
たもの）を要素とする行列。
NHK技研 R&D/No.147/2014.9
39
報告
a
一定の遅れ時間 w で話者を判定する必要がある。判定手
法の概要を２図に示す。可能な限り長い音声区間から精
度良く判定を行うために，［
x tlast＋１：tc］（２図の音声区
w
間a）の統計量を用いて［
（２図の音声区
x tpre＋１：tc w］
間b）の話者を判定する。ここで，tpreは話者の判定が終了
している最終時刻を示す。登録された話者の特徴量の分布
モデル（話者モデル）の集合をC（話者未登録の場合は空
tlast
集合）
，登録された話者の番号をi ，話者モデルλxi に対応
tc
tpre
する平均特徴ベクトル列を
としたとき，
（７）
b
であれば，［
x tpre＋１：tc w］は新規話者と判定する。式
（７）が満たされなければ，既に登録済みの
話者を判定
２図話者判定の概要
（８）
ここで，Mは音素クラスの数，（m＝1, …, M）は，特徴
を発話者と判定する。話者モデルλxi の更新および新規話
ベクトル列 x のうち，音素認識による音素情報をもとに
者モデルの作成は，話者交代点が検出されるごとに交代点
m 番目の音素クラスに分類された特徴ベクトルの統計量
以前の音声を用いて行う。
を示す。従来の（１）
式および（２）
式のフレーム数 N
と共分散行列 Σ で表現される，音素クラスに分類しない
「全音素」モデルを用いた手法に対して，本提案手法は，
４．話者ダイアライゼーション結果を利用した
話者適応
（３）
式および（４）
式の各音素クラス m のフレーム数 Nm
提案手法では，時刻 tc に対して遅れ時間 w で話者を判
と共分散行列 Σm で表現される「マルチ音素クラス」モデ
定し，その判定結果を利用して同区間の音声認識を行う。
ルにより話者交代点の検出および話者判定を行う。
話者交代が発生した際には，話者ダイアライゼーションの
3.2 話者交代点検出
話者モデルと同様，話者交代以前の音声と認識結果を用い
音素認識によって，音素境界の時刻（音声フレーム）の
て音響モデルを適応化する。話者交代発生時の音声認識お
集合Thyp＝{ tlast , …, tc }が得られ，それぞれの音素境界前後
よび話者適応の流れを３図に示し，手順を以下に述べる。
での話者交代の有無を判定する。ここで，tlastは前回確定
①時刻 tc に対して遅れ時間 w で，話者交代を検出する
した話者交代点，tc は現時刻を示す。話者交代点の候補を
13）
（３図では話者Aから話者Bへ交代）
。
音素境界に制限することで，交代点検出のための演算量
②交代以後の話者Bの音響モデルを用いて，時刻 tcw
を削減することができ，次の（５）
式および（６）
式を満た
以降の入力音声を認識する。ここで，話者Bが新規話者
す音素境界 th を話者交代点とする。
であれば，性別依存の不特定話者の音響モデルで音声認
識する。
③話者Aの，音声認識開始時から検出した交代点までのす
（５）
べての音声および音声認識結果を用いて，性別依存の不
特定話者の音響モデルを話者Aの音響モデルへ適応化す
（６）
る。この適応化された音響モデルは，次に話者Aが発話
したと判定された際に音声認識で利用する。
以上，話者交代が検出されるごとに①∼③の処理を繰り返
ここで，x［ t：t́］は時刻 t から t́ までの特徴ベクトル列
し実行する。
を示す。このようにして検出される話者交代点の情報は，
後段の話者判定部に送られ，話者判定に利用される。
５．話者ダイアライゼーション実験
3.3 話者判定
5.1 実験条件
リアルタイムに音声認識を行うためには，時刻 tc から
40
NHK技研 R&D/No.147/2014.9
対談番組の話者ダイアライゼーション実験により，提案
話者
A
B
tc：現在時刻
w：遅れ時間
① 話者交代点を検出
② 話者Bの音響モデルにより
③ 話者交代点以前の音声を用いて
遅れ時間wで音声認識する
話者Aの音響モデルを適応化
３図話者交代発生時の音声認識および話者適応の流れ
手法の有効性を示す。話者ダイアライゼーションの評価指
11）
は，システムの動作中に新規話者モデルとして順次作成
標には，DER（Diarization Error Rate）を用いた。
し，登録した。話者ダイアライゼーションの基準である
DERは以下の式で定義される。
BICで用いるモデルは，音響特徴量を音素クラスに分類し
ない従来の「全音素」モデル（
（１）
式および
（２）
式）に対
（９）
して，母音と鼻音に対応した音響特徴量のみによる「母音
＋鼻音クラス」モデル（
（３）
式および
（４）
式の音素クラス
ここで，FS（False alarm Speech）は発話者なしの区
，子音に対応した音響特徴量のみによる「子音
数 M＝１）
間で発話と誤判定した時間，MS（Missed Speech）は発
，母音＋鼻音と，子音の２クラ
クラス」モデル（M＝１）
話者ありの区間で発話なしと誤判定した時間，SE
スに分類された音響特徴量による「マルチ音素クラス」モ
（Speaker Error）は話者を誤った時間，T は総発話時間を
デル（M＝２）について比較した。
5.2 実験結果
示す。
評価データには2008年５月放送のNHKの報道系情報番
判定の遅れ時間 w を変化させたときの DER を４図に
組「クローズアップ現代」の対談部分（総発話時間3,177
示す。図の横軸は遅れ時間 w であり，音素認識で判定さ
秒，12,356単語，話者10名，話者交代数120）を用いた。
れた無音区間は除かれている。
評価データ内の話者交代点付近などにおける複数話者の発
w が15∼25秒では，「母音＋鼻音クラス」の DER が最
話のオーバーラップ区間は，合計で11秒（総発話時間の
も低かった。これは，遅れ時間が大きく判定のための音響
0.3％）存在した。オーバーラップ区間の話者判定の正解
特徴量が十分に得られる場合には，
「母音＋鼻音クラ
は「発話者なし」として，FSとMSを算出した。また，比
ス」モデルが「子音クラス」モデルよりも多くの個人性を
較手法ごとのΔBICの P および PM の重み α を決定するた
含んでいるため話者ダイアライゼーションに最も有効であ
めに，評価データの前週の同番組を開発データとして使用
ることを示している。w が３秒から２秒へ短くなると，
８）
した。音素認識には参考文献で提案された手法を用いた。
「子音
「母音＋鼻音クラス」は DER が4.9％から7.4％へ，
音素認識率は57％であり，１表に示した音素クラスの認
クラス」は8.4％から11.3％へと悪化した。一方，
「マルチ
識率は73％であった。上記FS，MSは音素認識による発話
音素クラス」では，DER に大きな悪化は見られなかった。
区間検出で決定され，それぞれ総発話時間の0.4％，0.6％
これは，
「マルチ音素クラス」が判定対象の音声区間内の
であった。
一部の情報に限定することなく，音声区間全体の情報を活
番組キャスター１名の話者モデルはあらかじめ同番組
の対談部分（31時間）から作成し，システムの動作開始
時の話者モデルとして登録した。その他の話者に関して
用して話者ダイアライゼーションを行うためと考えられ
る。
また，
「マルチ音素クラス」は，全ての w について，従
NHK技研 R&D/No.147/2014.9
41
報告
9
全音素（従来法）
母音＋鼻音クラス
7
DER（%）
子音クラス
マルチ音素クラス（提案法）
5
3
1
0
5
10
遅れ時間
15
20
25
w（sec）
４図話者ダイアライゼーション実験の結果
２表音声認識実験の結果（単語誤り率，％）
話者適応あり
話者適応
なし
21.7
話者ダイアライゼーション＝
「全音素」
（従来手法）
話者が
既知
話者ダイアライゼーション＝
「マルチ音素クラス」
（提案法）
w＝2
w＝5
w＝10
w＝2
w＝5
w＝10
（DER＝4.8％）（DER＝4.1％）（DER＝3.7％）（DER＝4.0％）（DER＝3.2％）（DER＝2.8％）
19.4
20.4
20.0
20.0
20.2
19.9
19.9
来の「全音素」に比べて DER が低く，w が２秒では
ととした。それ以外の話者の音響モデルについては，性別
DERが4.8％から4.0％へ改善した（誤り削減率20.0％）。
依存の不特定話者の音響モデルを元に，話者交代ごとに最
「マルチ音素クラス」の DER
特に w が２∼８秒では，
尤線形回帰（Maximum Likelihood Linear Regression：
が全手法の中で最も低かった。
14）＊６
を用いて適応化した。音声認識は，これら話
MLLR）
者ごとの音響モデルのうち，遅れ時間 w で判定される話
６．話者適応実験
者情報に対応した音響モデルを用いて，認識結果を確定し
6.1 実験条件
た。
話者ダイアライゼーションにより得られる話者情報を用
認識実験は，話者適応を行わない場合と，話者が既知と
いて，音響モデルの話者適応実験を行い，提案手法による
して話者適応を行った場合，そして遅れ時間 w が２
話者ダイアライゼーションの精度向上が音声認識の精度向
秒，５秒，10秒の話者ダイアライゼーション結果から話
上につながることを示す。評価データとして，話者ダイア
者適応を行った場合について評価した。遅れ時間 w を変
ライゼーション実験と同じ「クローズアップ現代」の対談
化させた場合においては，従来法である「全音素」モデル
部分を用いた。
と，提案手法の「マルチ音素クラス」モデルについて比較
不特定話者の音響モデルは，NHKのニュース番組（男
性340時間，女性250時間）から男女別に学習した。番組
キャスター１名の音響モデルは，話者モデルと同様に，
6.2 実験結果
話者適応による音声認識実験の結果を２表に示す。話
あらかじめクローズアップ現代の対談部分（31時間）か
者適応なしの場合に比べ，話者ダイアライゼーションを利
ら学習し，話者ダイアライゼーションで番組キャスターの
用した話者適応による音声認識性能の向上が確認された。
発声区間と判定された部分の音声認識に使用した。この番
遅れ時間wが長く，話者ダイアライゼーション精度が良い
組キャスターの音響モデルは，既に十分な音声データによ
り適応化済みと考え，システム動作中の適応は行わないこ
42
した。
NHK技研 R&D/No.147/2014.9
＊６音響モデルの特徴量パラメーターを，話者ごとに線形変換して最適
化する手法。
ほど，認識率が向上する傾向が見られた。提案する話者適
応手法では，ダイアライゼーション結果に基づいて音響モ
７．あとがき
デルの話者適応を行っているため，話者の推定精度が良い
対談音声認識のための，マルチ音素クラスのベイズ情報
ほど，適応化された音響モデルの精度も改善する。よっ
量基準に基づく話者ダイアライゼーション手法を提案し
て，ダイアライゼーション精度が向上した音声区間だけで
た。報道系情報番組の対談部分を対象とした実験の結果，
なく，それ以外の音声区間においても，適応化音響モデル
遅れ時間２秒の判定において，マルチ音素クラスによる
による認識精度の向上が確認された。また，遅れ時間
提案手法により，従来手法に比べて20.0％の誤り削減率を
w が短いほど（特に２秒では），話者ダイアライゼーショ
得た。さらに，話者ダイアライゼーションにより得られる
ンの精度が悪化するため，話者適応の効果は小さくなっ
話者情報に基づく音声認識の話者適応手法を提案した。話
た。これは，２∼３秒では話者交代点を検出するために
者適応実験の結果，遅れ時間２秒において，話者交代点
十分な情報が得られず，話者交代直後の次の発話者の判定
前後の発話に関して単語誤り削減率7.8％が得られた。こ
が遅れてしまうことが多いためである。この判定の遅れ
れにより，提案手法による話者ダイアライゼーションの精
が，認識時の音響モデルの切り替えタイミングの遅れとな
度向上が，話者適応による音声認識の精度向上につながる
り，認識精度に影響を与えたものと考えられる。
ことを確認できた。
BICの音素クラスについては，全ての w について「全
音素」よりも「マルチ音素クラス」の単語誤り率が小さく
本稿は，電子情報通信学会論文誌Dに掲載された以下の論文
なった。遅れ時間 w が短いほど，話者交代点付近の話者
を元に，一部の表現を平易に改めるとともに補足説明を加えた
ダイアライゼーション精度が認識時の音響モデルの切り替
ものである。
えに影響を与えることから，w が２秒において，全話者
奥，佐藤，小林，本間，今井：
“マルチ音素クラスのベイズ情
交代点の前後１発話に関して単語誤り率を算出したとこ
報量基準に基づくオンライン話者ダイアライゼーション，
”信
ろ，
「全音素」の24.4％に対して「マルチ音素クラス」は
学論，Vol.J95D，No.9，pp.17491758（2012）
22.5％となった。これは単語誤り削減率7.8％に相当する。
参考文献
1） Z. Zhang，S. Furui and K. Ohtsuki：“Online Incremental Speaker Adaptation for Broadcast News
Transcription，
”Speech Communication，Vol.37，No.3，pp.271281（2002）
2）本間，小林，奥，佐藤，今井，都木：
“ダイレクト方式とリスピーク方式の音声認識を併用したリアルタイ
ム字幕制作システム，
”映情学誌，Vol.63，No.3，pp.331338（2009）
3）小林，奥，本間，佐藤，今井：
“コンテンツ活用のための報道番組自動書き起こしシステム，
”信学論，Vol.
J93D，No.10，pp.20852095（2010）
4） Y. Moh，P. Nguyen and J.C. Junquam：
“Towards Domain Independent Speaker Clustering，
”Proc.
IEEE ICASSP，pp.8588（2003）
5）
D. A. Reynolds and P. TorresCarrasquillo：“The MIT Lincoln Laboratory RT 04 F Diarization
Systems：Applications to Broadcast Audio and Telephone Conversations，”Proc. Fall 2004 Rich
Transcription Workshop（RT04）
（2004）
6）奥，佐藤，小林，本間，今井：
“音素情報を利用した対談番組におけるオンライン話者識別，
”音響学会秋季
講演論文集，3113（2009）
7）網野，菅原，荒井：
“聴取による話者識別における音韻間の格差と音響的対応，
”信学技報，SP2004164，
pp.16（2005）
8）
T. Imai，S. Sato，S. Homma，K. Onoe and A. Kobayashi：“Online Speech Detection and Dual
gender Speech Recognition for Captioning Broadcast News，
”IEICE Trans. Inf. & Syst.，Vol.E90D，
No.8，pp.12861291（2007）
9）奥，佐藤，小林，本間，今井：
“対談番組における音声認識のためのオンライン話者識別，
”音響学会秋季講
演論文集，2915（2010）
NHK技研 R&D/No.147/2014.9
43
報告
10）S. Chen and P. Gopalakrishnam：“Speaker，Environment and Channel Change Detection and
Clustering via the Bayesian Information Criterion ，” Proc. 1998 DARPA Broadcast News
Transcription and Understanding Workshop，pp.127132（1998）
11） S. Tranter and D. Reynolds：
“An Overview of Automatic Speaker Diarization Systems，
”IEEE Trans.
ASLP，Vol.14，No.5，pp.15571565（2006）
12）中川，森：
“発話間のVQひずみを用いた話者交代識別と話者クラスタリング，
”信学論，Vol.J85DII，
No.11，pp.16451655（2002）
13） D. Liu and F. Kubala：“Fast Speaker Change Detection for Broadcast News Transcription and
Indexing，
”Proc. Eurospeech 99，Vol.3，pp.10311034（1999）
14）C. J. Leggetter and P. C. Woodland：
“Maximum Likelihood Linear Regression for Speaker Adaptation
of Continuous Density Hidden Markov Models，
”Computer Speech and Language，No.9，pp. 171
185（1995）
おく
たかひろ
さとうしょうえい
奥
貴裕
佐藤庄衛
2003年入局。放送技術局を経て，2007年か
ら放送技術研究所において，音声認識，話者
識別の研究に従事。現在，放送技術研究所
ヒューマンインターフェース研究部に所属。
こばやしあきお
ほんましんいち
小林彰夫
本間真一
1991年入局。岡山放送局，広島放送局を経
て，1996年から放送技術研究所において，音
声認識の研究に従事。現在，放送技術研究所
ヒューマンインターフェース研究部主任研究
員。博士（工学）
。
1992年入局。新潟放送局，技術局を経て，
1998年から放送技術研究所において，音声認
識の研究に従事。現在，
（一財）NHKエンジニ
アリングシステムに出向中。
いまい
とおる
今井
亨
1987年入局。大阪放送局を経て，1990年か
ら放送技術研究所において，音声認識の研究
に従事。現在，放送技術研究所研究企画部部
長。博士（情報科学）
。
44
1993年入局。仙台放送局を経て，1995年か
ら放送技術研究所において，音声認識の研究
に従事。現在，放送技術研究所ヒューマンイ
ンターフェース研究部上級研究員。博士（工
学）
。
NHK技研 R&D/No.147/2014.9

Download Report