発表資料

話者認証システムの作成と評価
情報理工学部 情報知能
学科
H208021 鎌田 恭成
H208035 小島 智也
研究背景
•
•
パスワード・暗証番号を入力するセキュリティ
方法が一般的であるが、なりすましや偽造と
いった危険性も伴う
「バイオメトリクス認証」は、そのような危険性
が少ないが、高速な処理速度と膨大な記憶
容量が必要とされるため、システムが高価に
なる欠点がある
研究動機
•
システムが高価になる「バイオメトリクス認証」
をフリーソフトを使用し、低コストで作成するこ
とで、どのような結果が得られるのかを検証
しようと思った
話者認証
•
•
•
話者認証とは“声”から個人の認証を行う方
法
声の違いはこの声道の形成の違いから生ま
れている
フォルマントとピッチに着目してシステムの構
築を行った
システムの流れ
①音声入力
④個人認証
②音声分析
③前処理
1.音声入力
•
発話内容
「かきくけこ」
•
サンプリング周波数
44.1kHz
•
量子化ビット数
16bit
2.音声分析(praat)
3 .前処理(母音認証)
•
•
•
各母音に分離する
ピッチの安定している部分を抽出する
母音の部分のみ残す
子音の部分を切り取る
ピッチが安定している部分が5つできる
前から「あ・い・う・え・お」と認証させる
3.前処理
あ
い
う
え
お
①
②
③
④
⑤
3.前処理
•
母音認証を行ったデータをニューラルネットと
決定木を使い個人認証を行う
•
最終的に個人認証に使う値は
1.
ピッチの平均値
2.
各母音(あ・い・う・え・お)の各フォルマント
(第1~4)
ニューラルネット
ニューラルネットとは、
データマイニングの手法の一つ
特徴的なデータを学習させることにより、
条件分岐が可能である
パッケージ「nnet」を使用
4.個人認証
•
1.
2.
前処理を行った値を使い個人認証を行う
ニューラルネットに前処理を行ったピッチの平
均値・各母音の各フォルマント(第1~4)のデ
ータを入力とする
入力に対して各フォルマント(時間列ごと)が
誰に近似しているかを出力する
ニューラルネットの構成
•
•
母音用×5(あ・い・う・え・お)
入力層4・中間層3・重み0.3
ピッチ用
入力層1・中間層3・重み0.3
4.個人認証
•
出力結果を母音ごとに平均する
1.ピッチ・各母音5つ(あ・い・う・え・お)の計6つ
の値を決定木にかける
1.入力に対して誰の値にあてはまるか、また誰
にもあてはまらない
検証
•
20代男性10人を被験者
発話内容 「かきくけこ」
サンプリング数 10回(学習用7・検証用3)
検証結果
A
B
C
D
E
F
G
H
I
J
A
1
0
0
0
0
0
0
0
0
0
B
0
1
0
0
0
0
0
0
0
0
C
0
0
0
0
0
0
0
0
0
0
D
0
0
0
1
0
0
0
0
0
0
E
0
0
0
0
1
0
0
0
1
0
F
0
0
0
0
0
1
0
0
0
0
G
0
0
0
0
0
0
1
0
0
0
H
0
0
0
0
0
0
0
1
0
0
I
0
0
1
0
0
0
0
0
0
0
J
0
0
0
0
0
0
0
0
0
1
考察
1.
1.
2.
検証回数に対して認証した数が少なくシビア
だと思う
検証回数が少ないものの、認証数10に対し
て誤認証2の結果が出てしまった
実用性の可能性はないと考える
展望
1.
1.
1.
今回発話内容を設定したが、内容を設定し
ない自由発声での分析をおこなう
子音のフォルマントとピッチの値も分析対象
として扱う
認証率の向上
母音と子音
•
母音・・・声帯のふるえを伴う有声音
•
子音・・・破裂音・摩擦音・鼻音
•
ピッチ・・・声帯の基本周波数
有声音と無声音
•
•
有声音・・・母音と子音の破裂音(b、d、g)摩
擦音(v、z)鼻音(m、n)流音(l、r)
無声音・・・破裂音(p、t、k)、摩擦音(f、s)