話者認証システムの作成と評価 情報理工学部 情報知能 学科 H208021 鎌田 恭成 H208035 小島 智也 研究背景 • • パスワード・暗証番号を入力するセキュリティ 方法が一般的であるが、なりすましや偽造と いった危険性も伴う 「バイオメトリクス認証」は、そのような危険性 が少ないが、高速な処理速度と膨大な記憶 容量が必要とされるため、システムが高価に なる欠点がある 研究動機 • システムが高価になる「バイオメトリクス認証」 をフリーソフトを使用し、低コストで作成するこ とで、どのような結果が得られるのかを検証 しようと思った 話者認証 • • • 話者認証とは“声”から個人の認証を行う方 法 声の違いはこの声道の形成の違いから生ま れている フォルマントとピッチに着目してシステムの構 築を行った システムの流れ ①音声入力 ④個人認証 ②音声分析 ③前処理 1.音声入力 • 発話内容 「かきくけこ」 • サンプリング周波数 44.1kHz • 量子化ビット数 16bit 2.音声分析(praat) 3 .前処理(母音認証) • • • 各母音に分離する ピッチの安定している部分を抽出する 母音の部分のみ残す 子音の部分を切り取る ピッチが安定している部分が5つできる 前から「あ・い・う・え・お」と認証させる 3.前処理 あ い う え お ① ② ③ ④ ⑤ 3.前処理 • 母音認証を行ったデータをニューラルネットと 決定木を使い個人認証を行う • 最終的に個人認証に使う値は 1. ピッチの平均値 2. 各母音(あ・い・う・え・お)の各フォルマント (第1~4) ニューラルネット ニューラルネットとは、 データマイニングの手法の一つ 特徴的なデータを学習させることにより、 条件分岐が可能である パッケージ「nnet」を使用 4.個人認証 • 1. 2. 前処理を行った値を使い個人認証を行う ニューラルネットに前処理を行ったピッチの平 均値・各母音の各フォルマント(第1~4)のデ ータを入力とする 入力に対して各フォルマント(時間列ごと)が 誰に近似しているかを出力する ニューラルネットの構成 • • 母音用×5(あ・い・う・え・お) 入力層4・中間層3・重み0.3 ピッチ用 入力層1・中間層3・重み0.3 4.個人認証 • 出力結果を母音ごとに平均する 1.ピッチ・各母音5つ(あ・い・う・え・お)の計6つ の値を決定木にかける 1.入力に対して誰の値にあてはまるか、また誰 にもあてはまらない 検証 • 20代男性10人を被験者 発話内容 「かきくけこ」 サンプリング数 10回(学習用7・検証用3) 検証結果 A B C D E F G H I J A 1 0 0 0 0 0 0 0 0 0 B 0 1 0 0 0 0 0 0 0 0 C 0 0 0 0 0 0 0 0 0 0 D 0 0 0 1 0 0 0 0 0 0 E 0 0 0 0 1 0 0 0 1 0 F 0 0 0 0 0 1 0 0 0 0 G 0 0 0 0 0 0 1 0 0 0 H 0 0 0 0 0 0 0 1 0 0 I 0 0 1 0 0 0 0 0 0 0 J 0 0 0 0 0 0 0 0 0 1 考察 1. 1. 2. 検証回数に対して認証した数が少なくシビア だと思う 検証回数が少ないものの、認証数10に対し て誤認証2の結果が出てしまった 実用性の可能性はないと考える 展望 1. 1. 1. 今回発話内容を設定したが、内容を設定し ない自由発声での分析をおこなう 子音のフォルマントとピッチの値も分析対象 として扱う 認証率の向上 母音と子音 • 母音・・・声帯のふるえを伴う有声音 • 子音・・・破裂音・摩擦音・鼻音 • ピッチ・・・声帯の基本周波数 有声音と無声音 • • 有声音・・・母音と子音の破裂音(b、d、g)摩 擦音(v、z)鼻音(m、n)流音(l、r) 無声音・・・破裂音(p、t、k)、摩擦音(f、s)
© Copyright 2025 ExpyDoc