370 likes | 550 Views
継続的物流ABC/ABMのための 音声認識記録システムについて. 2000728 田中 裕一. 指導教官 鶴田三郎 教授 黒川久幸 助教授. 目次. はじめに 音声認識記録システムの開発 評価 まとめ. 物流改善のための物流ABC/ABM. Activity :活動(局所的な仕事の単位). コストはいくらかかっているのか?. ABC:活動基準原価計算 ( Activity-Based Costing ). プロセスに 無駄はないか?. ABM:活動基準管理 ( Activity-Based Management ).
E N D
継続的物流ABC/ABMのための 音声認識記録システムについて 2000728 田中 裕一 指導教官 鶴田三郎 教授 黒川久幸 助教授
目次 はじめに 音声認識記録システムの開発 評価 まとめ
物流改善のための物流ABC/ABM Activity:活動(局所的な仕事の単位) コストはいくらかかっているのか? ABC:活動基準原価計算 (Activity-Based Costing ) プロセスに 無駄はないか? ABM:活動基準管理 (Activity-Based Management ) (出所:中小企業庁「物流ABC準拠による物流コスト算定・効率化マニュアル」より作成)
作業時間データの収集 投入要素 土地・建物 人 フォークリフト格納 台車格納 人件費 資材 消耗品 機械設備 ケース目視検品 バラピッキング 待機 ケース機械検品 袋詰め
作業日報作成の手間 開始と終了を 結んだ線を引く 頻繁に記録する場合は手間が大きい
研究の目的 作業記録の入力にかかる負担を軽減するツールとして 音声認識を活用した記録システムを構築する 構築したシステムの有効性を明らかにする 物流ABC/ABM導入を推進
目次 はじめに 音声認識記録システムの開発 評価 まとめ
システムの設計要件 話者の特徴に合わせられる 誰にとっても使い易い 語彙の登録を柔軟に行える 物流現場の騒音に耐えうる 音声によってシステム を操作できる 自由に動き回れる 例)無線接続
システムの構成 端末 単語辞書 データベース 音声認識OCX ドキュメントトーカ マイクロフォン 音声認識 処理部 プログラミング開発 ソフトウェア Visual Basic6.0 スピーカ 命令処理部 作業記録 データベース Wire Or Wireless データベースソフトウェア Microsoft Access
単語辞書データベースの設定 ユーザの指定 記録フォームへ 単語辞書となるテキストを指定 認識レベルの指定 認識時間の指定 制御用単語の指定
記録フォームの画面 入力形式の選択 音声認識の 開始 音声ファイル の参照 音声認識の 停止 音声ファイル 再生 音量メータ フォームの 終了 認識結果
記録の手順 書き込み制御用単語を発声する 書き込みが可能になったことを告げる応答音を確認 記録項目を発声する 記録が完了したことを告げる応答音を確認
入力の一例① はじめ 開始 顧客:流通情報工学課程 りゅうつう アクティビティ: ケース荷受け・検品 けーすにうけ
入力の一例② 作業者 記録フォーム画面 Pi ! マイク
入力の一例③ 作業者 記録フォーム画面 りゅうつう けーすにうけ はじめ PiPi ! 作業の記録
目次 はじめに 音声認識記録システムの開発 評価 まとめ
測定の方法(用紙記入、端末入力) ①PTS(Predetermined time standard)法の基本動作を参考にして入力作業を基本動作(手をのばす、つかむ等)に分割。 ②分割した基本動作に順序を定めて、その通りに入力作業を行う。 記録用紙への筆記記入 用紙を掴む~記入する ~用紙を置く ハンディ端末へのボタン入力 端末をポケットから取り出す~ボタン入力 ~端末をポケットに仕舞う
用紙記入の基本動作と順序 ①手が自然に下がっている状態から記録用紙及び筆記具まで手をのばす (記録用紙及び筆記具は正面の腰の高さ位置に置かれている) ②記録用紙及び筆記具をつかむ ③記入用紙を胸の位置まで運ぶ ④正面にある掛け時計(アナログ)で時刻を確認する ⑤記入欄を確認する ⑥筆記具を記入位置まで運ぶ ⑦記入する(点付け) ⑧記入用紙及び筆記具を置く ⑨手を自然な状態に下げる 赤:手の使用 青:眼の使用 平均8.5秒
端末入力の基本動作と順序 ①手が自然に下がっている状態からズボンの前ポケットまで手をのばす ②端末をつかむ ③端末をポケットから取り出す ④端末を胸の位置まで運ぶ ⑤端末のボタンを押す(まず親指がホームポジションの位置に置かれている。ここから画面を確認し、テンキーの1を親指で押した後にホームポジションに戻す。これを3度行い、最後に親指で確定ボタンを押す) ⑥端末をポケットに運ぶ ⑦端末をポケットにしまう ⑧手を自然な状態に下げる 平均9.9秒 赤:手の使用 青:眼の使用
音声入力の想定・動作順序 ①書き込み制御単語を発声する ②応答音から書き込みがONになったことを確認する ③作業記録を発声する 「りゅうつう、けーすにうけ、おわり」 ④応答音から記録が完了したことを確認する 平均5.3秒 緑:音声の使用 橙:耳の使用 環境条件 CPUCLOCK:2.66GHz 騒音40dB程度の室内
入力方法と所要時間 音声認識記録システム による音声入力 5.3秒 8.5秒 9.9秒 記録用紙への筆記記入 ハンディ端末へのボタン入力
検出成功率 検出成功率 単語数 3 りゅうつう、 けーすにうけ、 おわり 5.3秒 85% 17/20回 単語数 2 けーすにうけ、 おわり 85% 4.4秒 17/20回 単語数 1 100% おわり 3.3秒 20/20回 入力の所要時間
目次 はじめに 音声認識記録システムの開発 評価 まとめ
まとめ① 業務の妨げにならず記録を行える ツールの必要性から音声認識記録システムを構築 音声認識記録システムによる音声入力は 記録用紙及びハンディ端末を用いるよりも 短時間での入力が可能 眼や手を用いることなく記録を行えるため、 これらの部位を他の作業へ使用可能
まとめ② 業務作業の記録が容易になり、 継続した物流ABC/ABMに役立つと考えられる 似た音を持つ意図しない単語が 誤って認識されることが現在の技術では存在するため、 単語辞書を必要となる単語のみに絞ることで 認識精度の向上につながるものと思われる
今後の課題 話者の特徴に合わせられる 誰にとっても使い易い 語彙の登録を柔軟に行える 物流現場の騒音に耐えうる 特定話者に対応した音響モデルを用い、 音素レベルでの認識精度を向上させること 誤認識の修正や発声の癖を学習する 適応化技術を取り入れること 発話内容の推測を行い、 認識を助ける工夫を取り入れること 音声によってシステム を操作できる 自由に動き回れる 例)無線接続
音声波から特徴ベクトル(短時間スペクトル)時系列を抽出する方法音声波から特徴ベクトル(短時間スペクトル)時系列を抽出する方法 振幅 音声波 時間 時間窓 フレーム周期 フレーム 特徴ベクトル
波形のパワースペクトル(母音/a/) 0 F1 F2 -10 スペクトル包絡 -20 F3 対数パワー F4 -30 -40 [dB] -50 -60 0 1 2 3 4 5 周波数 〔kHz〕
母音に対する音響モデルの例 音響モデル 入力された音が「あ」 である確率 入力された音 0.4 「あ」のモデル × 平均 × 「い」のモデル 0.0 1.0 × × × ×
語彙登録のためのテキストファイル作成 発音 表記 けーす=ケース ぴーす|ばら=ピース ばーす=バース テキストファイル K E : S U 音響モデルで作られた音声データ
スペクトル距離計算 正解 認識上限 スコア点数 1000 0 500 1500 入力パターンに対する標準パターンの第一候補 入力パターンに対する標準パターンの第二候補
記録フォーム(単語数2) 認識結果 各項目に分割
単語音声認識の仕組み 入力音声 信号 音響特徴量 抽出 スペクトル 距離計算 単語照合 認識結果 (単語) 音響モデル 発音辞書
音声ファイルからの時刻取得 音声 003_11_05.wav 11時05分に録音したことを表している