スライド 1

継続的物流ABC/ABMのための
音声認識記録システムについて
2000728 田中 裕一
指導教官 鶴田三郎 教授
黒川久幸 助教授
目次
はじめに
音声認識記録システムの開発
評価
まとめ
物流改善のための物流ABC/ABM
Activity:活動(局所的な仕事の単位)
コストはい
くらかかっ
ているの
か?
ABC:活動基準原価計算
(Activity-Based Costing )
ABM:活動基準管理
(Activity-Based Management )
プロセスに
無駄はな
いか?
(出所:中小企業庁「物流ABC準拠による物流コスト算定・効率化マニュアル」より作成)
作業時間データの収集
投入要素
フォークリフト格納
土地・建物
人
台車格納
人件費
資材
消耗品
機械設備
ケース目視検品
ケース機械検品
バラピッキング
待機
袋詰め
作業日報作成の手間
記入表(午前)
記入表(午前) 作業者名
作業者名
記入表(午前)
記録日
作業者名
記入表(午前)
記録日
時刻
アクティビティ
時刻
アクティビティ
時刻
ケース荷受け・検品
アクティビティ
時刻
ケース荷受け・検品
アクティビティ
大物荷受け・検品
ケース荷受け・検品
大物荷受け・検品
ケース荷受け・検品
大物荷受け・検品
台車・手荷役格納
大物荷受け・検品
台車・手荷役格納
9
12
10
9
11
12
10
開始と終了を
9
11
12
10
9
11
12
10
頻繁に記録する
台車・手荷役格納
ラック保管 場合は手間が大
台車・手荷役格納
ラック保管
ラック保管
・
きい
・
・
ラック保管
・
・
・・
・
待機(機械故障等)
・・
・
待機(機械故障等)
・
待機(機械故障等)
待機(機械故障等)
作業者名
記録日
11
記録日
結んだ線を引く
研究の目的
作業記録の入力にかかる負担を軽減するツールとして
音声認識を活用した記録システムを構築する
構築したシステムの有効性を明らかにする
物流ABC/ABM導入を推進
目次
はじめに
音声認識記録システムの開発
評価
まとめ
システムの設計要件
話者の特徴に合わせられる
誰にとっても使い易い
語彙の登録を柔軟に行える
物流現場の騒音に耐えうる
音声によってシステム
を操作できる
自由に動き回れる
例)無線接続
システムの構成
端末
音声認識OCX
ID 日時
時刻 顧客
ドキュメントトーカ
1 2004/01/07
単語辞書
アクティビティ
データベース
9:00 流通情報工学課程
ケース荷受け・検品
音声認識
プログラミング開発
処理部
2 2004/01/07 9:15 流通情報工学課程
ケース荷受け・検品
ソフトウェア
3 2004/01/07
9:30 流通情報工学課程 大物荷受け・検品
Visual
Basic6.0
命令処理部
4 2004/01/07 10:00 流通情報工学課程
データベースソフトウェア
Microsoft Access
大物荷受け・検品
作業記録
データベース
次の記録
開始/終了 までの時
間(分)
開始 マイクロフォン
15
実働時間
終了 ロス時間
15
開始 実働時間
30
スピーカ
終了
Wire
Or
Wireless
単語辞書データベースの設定
ユーザの指定
記録フォームへ
単語辞書となるテキストを指定
認識レベルの指定
認識時間の指定
制御用単語の指定
記録フォームの画面
入力形式の選択
音声認識の
開始
音声認識の
停止
音声ファイル
再生
フォームの
終了
認識結果
音声ファイル
の参照
音量メータ
記録の手順
書き込み制御用単語を発声する
書き込みが可能になったことを告げる応答音を確認
記録項目を発声する
記録が完了したことを告げる応答音を確認
入力の一例①
はじめ
開始
顧客:流通情報工学課程
アクティビティ:
ケース荷受け・検品
けーすにうけ
りゅうつう
入力の一例②
作業者
記録フォーム画面
Pi !
マイ
ク
入力の一例③
作業者
ID 日時
1 2004/01/20
PiPi !
記録フォーム画面
時刻 顧客
アクティビティ
開始/終了
2:03 流通情報工学課程 ケース荷受け・検品
りゅうつう
けーすにうけ
はじめ
次の記録
までの時間
開始
作業の記録
目次
はじめに
音声認識記録システムの開発
評価
まとめ
測定の方法(用紙記入、端末入力)
①PTS(Predetermined time standard)法の
基本動作を参考にして入力作業を基本動作(手を
のばす、つかむ等)に分割。
②分割した基本動作に順序を定めて、その通りに
入力作業を行う。
記録用紙への筆記記入
用紙を掴む~記入する
~用紙を置く
ハンディ端末へのボタン入力
端末をポケットから取り出す~ボタン入力
~端末をポケットに仕舞う
用紙記入の想定
用紙記入の基本動作と順序
①手が自然に下がっている状態から記録用紙及び筆記
具まで手をのばす
(記録用紙及び筆記具は正面の腰の高さ位置に置かれ
ている)
②記録用紙及び筆記具をつかむ
③記入用紙を胸の位置まで運ぶ
④正面にある掛け時計(アナログ)で時刻を確認する
⑤記入欄を確認する
赤:手の使用
⑥筆記具を記入位置まで運ぶ
青:眼の使用
⑦記入する(点付け)
⑧記入用紙及び筆記具を置く
⑨手を自然な状態に下げる
平均8.5秒
端末入力の想定
画面①
画面②
顧客メニュー
1.流通情報工学
顧客メニュー
1.流通情報工学
2.・・・
3.・・・
9.・・・
0.その他
2.・・・
3.・・・
2.・・・
3.・・・
9.・・・
0.その他
9.・・・
0.その他
確定ボタン
テンキー
の1
アクティビティメニュー
1.ケース入荷・検品
ホームポジション
(テンキーの5)
重さ:約106g
サイズ:幅48×高さ約175×厚さ25(mm)
登録メニュー
1.終了
2.開始
3.・・・
9.・・・
0.その他
画面③
端末入力の基本動作と順序
①手が自然に下がっている状態からズボンの前ポケット
まで手をのばす
②端末をつかむ
③端末をポケットから取り出す
④端末を胸の位置まで運ぶ
⑤端末のボタンを押す(まず親指がホームポジションの
位置に置かれている。ここから画面を確認し、テンキー
の1を親指で押した後にホームポジションに戻す。これ
を3度行い、最後に親指で確定ボタンを押す)
⑥端末をポケットに運ぶ
⑦端末をポケットにしまう
赤:手の使用
⑧手を自然な状態に下げる
青:眼の使用
平均9.9秒
音声入力の想定・動作順序
①書き込み制御単語を発声する
②応答音から書き込みがONになったことを確認
する
③作業記録を発声する
「りゅうつう、けーすにうけ、おわり」
④応答音から記録が完了したことを確認する
平均5.3秒
環境条件
CPU CLOCK:2.66GHz
騒音40dB程度の室内
緑:音声の使用
橙:耳の使用
入力方法と所要時間
音声認識記録システム
による音声入力
5.3秒
8.5秒
記録用紙への筆記記入
9.9秒
ハンディ端末へのボタン入力
検出成功率
単語数
3
りゅうつう、
けーすにうけ、
おわり 5.3秒
単語数
2
けーすにうけ、
おわり
4.4秒
おわり
単語数
1
3.3秒
入力の所要時間
検出成功率
85%
17/20回
85%
17/20回
100%
20/20回
目次
はじめに
音声認識記録システムの開発
評価
まとめ
まとめ①
業務の妨げにならず記録を行える
ツールの必要性から音声認識記録システムを構築
音声認識記録システムによる音声入力は
記録用紙及びハンディ端末を用いるよりも
短時間での入力が可能
眼や手を用いることなく記録を行えるため、
これらの部位を他の作業へ使用可能
まとめ②
業務作業の記録が容易になり、
継続した物流ABC/ABMに役立つと考えられる
似た音を持つ意図しない単語が
誤って認識されることが現在の技術では存在するため、
単語辞書を必要となる単語のみに絞ることで
認識精度の向上につながるものと思われる
今後の課題
話者の特徴に合わせられる
誰にとっても使い易い
語彙の登録を柔軟に行える
物流現場の騒音に耐えうる
特定話者に対応した音響モデルを用い、
音素レベルでの認識精度を向上させること
誤認識の修正や発声の癖を学習する
音声によってシステム
自由に動き回れる
適応化技術を取り入れること
を操作できる
発話内容の推測を行い、
認識を助ける工夫を取り入れること
例)無線接続
ご清聴頂きありがとうございました
音声波から特徴ベクトル(短時間スペクトル)時系列を抽出する方法
振
幅
音声波
時間
時間窓
フレーム周期
特徴ベクトル
フレーム
波形のパワースペクトル(母音/a/)
0
F1
F2
-10
スペクトル包絡
-20
F3
対
数 -30
パ
ワ
ー -40
[dB]
F4
-50
-60
0
1
2
3
4
5
周波数
〔kHz〕
母音に対する音響モデルの例
音響モデル
入力された音が「あ」
である確率
0.4
入力された音
「あ」のモデル
×
平均
1.0
0.0
×
×
「い」のモデル
×
×
×
語彙登録のためのテキストファイル作成
発音
テキストファイル
表記
けーす=ケース
ぴーす|ばら=ピース
ばーす=バース
K E : S U
音響モデルで作られた音声データ
スペクトル距離計算
正解
0
500
認識上限
1000
1500
スコア点数
入力パターンに対する標準パターンの第一候補
入力パターンに対する標準パターンの第二候補
記録フォーム(単語数2)
認識結果
各項目に分割
単語音声認識の仕組み
入力音声
信号
音響特徴量
抽出
スペクトル
距離計算
音響モデル
単語照合
発音辞書
認識結果
(単語)
音声ファイルからの時刻取得
音声
003_11_05.wav
11時05分に録音したことを表している