« 認識システムの最先端 第2回 ① | トップページ | 認識システムの最先端 第2回 ③ »

2017年6月27日 (火)

認識システムの最先端 第2回 ②

続き:
■データベース作り
 子どもたちの音声データベースを構築すれば良いのだが、倫理的問題やデータが漏れたらだれが責任を取るかなどの問題があり、収集作業は当初の計画通りには進まなかった。発話訓練担当の先生たちの協力で、放課後の時間帯にデータ収集する許可がでたのは約1年後であった。現在、高齢社会になり福祉に対する意識は高まっているが、実際に各種データを収集する難しさは、今も同じ状態ではないかと感じる。
 データ収録時、子どもたちに座ってもらい、「ゆっくり”あ・い・う・え・お”を3回しゃべってね」と言うのだが、これがまた難しい。子供たちは恥ずかしいのか「あいうえおあいうえおあいうえお」と早口で発音すると走って逃げてしまう。とりあえず満足するデータを集め終わるのに3年の期間を要した。
■落胆と気運
 パソコン用のソフトウエア開発には、時間はかからなかった。マイクロホンから入力された音声データをLPC分析して、画面に健聴児童の母音とどれだけずれているかを表示できるようになったのが、当時のCPUの計算速度では、結果が出てくるのに時間が掛かり過ぎて使い物にならない。気の短い子供たちが、待ってくれるわけがない。大企業もなかなか取り組めない課題にチャレンジしたのがそもそも間違いだったかと落胆していた。
 しかし、運が良かったことに、米国の TI (Texas Instruments)がデジタル信号処理専用プロセッサDSPを発表していたのである。TIに問い合わせると、世界的にDPSの普及を画策していたため、DPSのサンプルと開発ツール(何百万円もする)を無料で提供してくれた。まさに、」捨てる神あれば拾う神あり」だった。これにより実時間で処理できるシステムを構築できた。
   ※  LPC とは
   線形予測符号化 (Linear Predictive Coding)
  梅崎さんの恩師板倉文忠(名古屋大学名誉教授)先生が、電信電話公社時代に発明された音声の分析手法で、現在の携帯電話やスマートホン等、世界中で利用されている各種の音声分析・合成・認識装置に組み込まれている。




« 認識システムの最先端 第2回 ① | トップページ | 認識システムの最先端 第2回 ③ »

日記・コラム・つぶやき」カテゴリの記事

トラックバック


この記事へのトラックバック一覧です: 認識システムの最先端 第2回 ②:

« 認識システムの最先端 第2回 ① | トップページ | 認識システムの最先端 第2回 ③ »