JP2021105684A - 騒音内音声認識装置及び騒音内音声認識システム - Google Patents
騒音内音声認識装置及び騒音内音声認識システム Download PDFInfo
- Publication number
- JP2021105684A JP2021105684A JP2019237523A JP2019237523A JP2021105684A JP 2021105684 A JP2021105684 A JP 2021105684A JP 2019237523 A JP2019237523 A JP 2019237523A JP 2019237523 A JP2019237523 A JP 2019237523A JP 2021105684 A JP2021105684 A JP 2021105684A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- waveform
- noise
- master
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 claims abstract description 60
- 238000004891 communication Methods 0.000 claims description 11
- 238000005520 cutting process Methods 0.000 claims description 6
- 238000004519 manufacturing process Methods 0.000 abstract description 5
- 239000000284 extract Substances 0.000 abstract 2
- 238000005259 measurement Methods 0.000 description 57
- 238000012545 processing Methods 0.000 description 39
- 238000000034 method Methods 0.000 description 26
- 238000004458 analytical method Methods 0.000 description 9
- 238000013500 data storage Methods 0.000 description 7
- 108700028516 Lan-7 Proteins 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000011248 coating agent Substances 0.000 description 4
- 238000000576 coating method Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
【課題】工場の生産ライン内の騒音の中から発声音を抽出してその波形データを騒音内音声認装置やサーバーの記憶領域に記憶する騒音内音声認識装置及び騒音内音声認識システムを提供する。【解決手段】騒音内音声認識装置は、音声データ入力手段と、前記音声データ入力手段から入力された音声波形を切り出す手段と、切り出した音声波形から騒音を除去する手段と、騒音を除去した音声波形から特定の周波数帯域に分類される特徴量を抽出する手段と、抽出した特徴量に基づき音声波形のデータを生成する手段と、生成された音声波形のデータを記憶領域に保存する記憶手段およびLANに接続されて音声波形のデータを保存するサーバーとから構成する。【選択図】図1
Description
この発明は、例えば、工場内の騒音環境下においてデータの読み取り音声を認識し、データ保存を行う騒音内音声認識装置及び騒音内音声認識システムに関する。
従来、例えば、自動車部品等の被測定物の測定作業は、測定作業者が測定を行い、測定したデータを測定器から読み取り、その測定データを発声して記録作業者に伝え、それを記録作業者が耳で聞いて、その聞いた測定データを手書きし、事務所に戻ってパソコンに入力することによって、測定データの保存、管理を行っていた。
しかし、従来の測定作業、記録作業及びパソコン入力作業では2人以上の作業者を必要とし、さらに、測定データの聞き間違いや、測定データの手書き段階及びパソコン入力段階において誤りが発生する虞があった。
そこで、上記問題を解消するために従来の手書き作業に代わって、測定者が発生する測定データの音声情報を自動的に認識してパソコンなどに電子データとして保存する次のような技術が開示されている。
特許文献1には、工場の生産ライン内での不具合を音声入力できるように構成した音声認識装置について記載されている。具体的には、音声入力手段と、前記音声入力手段から入力された一連の音声から予め定められた特徴部分を抽出し、前記特徴部分の前後で前記一連の音声を区切る処理手段と、前記処理手段で区切られた音声をそれぞれ音声データベースと照合することで音声情報を認識する認識手段と、を有し、特徴部分をアルファベットと数字からなる部分で構成したことを特徴とする音声認識装置についての技術が開示されている。
また、特許文献2には、最適な音声認識処理について記載されている。具体的には、周囲環境及び使用状況に応じて、入力した信号から特徴量を抽出し、その特徴量に応じて認識語彙を選択し、さらにその特徴量に応じて文法を選択する。そして、これらの選択した認識語彙及び文法を用いて、パターンマッチングによる音声認識を行う構成についての技術が開示されている。
しかし、工場の生産ライン内では騒音が大きく、測定作業者の測定データの発生音と工場内の騒音とが入り混じった音声情報から作業者の発声音を抽出し、測定データとして記録することが必要になる。しかるに、特許文献1及び特許文献2には、人の発声音と騒音が入り混じっている音声情報から人の発声音を抽出して測定データを認識する技術については、開示されておらず、このような問題点を解決することはできない。
本発明は、かかる問題点を解決するためになされたものであり、測定作業者の測定データの発声音と工場内の騒音が入り混じった音声情報から人の発声音を抽出し、抽出した音声データを騒音内音声認識装置やサーバーの記憶領域に記憶する騒音内音声認識装置及び騒音内音声認識システムを提供することを目的とする。
本発明の騒音内音声認識装置は、音声データ入力手段と、前記音声データ入力手段から入力された音声波形を切り出す手段と、切り出した音声波形から騒音を除去する手段と、騒音を除去した音声波形から音声波形のデータを生成する手段と、生成された音声波形のデータを記憶領域に保存する記憶手段と、から構成されたことを特徴とする。
前記騒音を除去した音声波形から音声波形のデータを生成する手段は、騒音を除去した音声波形から特定の周波数帯域に分類される特徴量を抽出する手段と、予め音節の特徴量の音声マスタを記憶しておく音声マスタ記憶手段と、前記抽出した特徴量と予め記憶している音声マスタの特徴量とを照合し、前記抽出した特徴量に最も近い音声マスタを抽出する手段と、前記抽出した音声マスタを音声波形のデータとする手段と、から構成されたことを特徴とする。
前記騒音を除去した音声波形から音声波形のデータを生成する手段は、予め音節の音声波形の波形マス目マスタを記憶しておく波形マス目マスタ記憶手段と、切り出された音声波形をマス目テーブル上に配列し、当該配列された波形マス目パターンとを照合し、前記波形マス目パターンに最も近い波形マス目マスタを抽出する手段と、抽出した波形マス目マスタを音声波形のデータとする手段と、から構成されたことにより音声波形のデータを抽出することを特徴とする。
前記騒音を除去した音声波形から音声波形のデータを生成する手段は、騒音を除去した音声波形から特定の周波数帯域に分類される特徴量を抽出する手段と、予め音節の特徴量の音声マスタを記憶しておく音声マスタ記憶手段と、前記抽出した特徴量と予め記憶している音声マスタの特徴量とを照合し、前記抽出した特徴量に最も近い音声マスタを抽出する手段と、前記抽出した音声マスタを音声波形のデータとする手段と、前記抽出した特徴量に近い音声マスタに記憶されている特徴量が複数ある場合は、予め音節の音声波形の波形マス目マスタを記憶しておく波形マス目マスタ記憶手段と、切り出された音声波形をマス目テーブル上に配列し、当該配列された波形マス目パターンとを照合し、前記波形マス目パターンに最も近い波形マス目マスタを抽出する手段と、抽出した波形マス目マスタを音声波形のデータとする手段と、から音声波形のデータを抽出するよう構成されたことを特徴とする。
本発明の騒音内音声認識システムは、前記騒音内音声認識装置と、前記騒音内音声認識装置に音声信号を入力する音声入力装置と、前記騒音内音声認識装置に備えた通信手段により前記記憶手段の音声波形のデータを送信し、当該音声波形のデータを受信して記憶領域に保存するサーバーと、から構成されたことを特徴とする。
請求項1に記載の発明によれば、本発明の騒音内音声認識装置は、音声データ入力手段と、前記音声データ入力手段から入力された音声波形を切り出す手段と、切り出した音声波形から騒音を除去する手段と、騒音を除去した音声波形から音声波形のデータを生成する手段と、生成された音声波形のデータを記憶領域に保存する記憶手段と、から構成されているため、例えば、タブレット端末などのハードウェア資源を使ってソフトウェアで実現することができ、持ち運びが簡単で、工場内の作業現場に一人で手軽に持ち運んで測定及びデータの記録をすることができるなど、利便性に優れている。
また、人の音声と騒音が入り混じっている音声波形の中から人の発声音を抽出して測定データを認識し、この波形データを当該タブレット端末の記憶領域に保存することにより、工場内の騒音環境下において音声認識を行うことができると共に、測定データを電子データとして保存及び管理することができる。
また、従来2人で行っていた作業を1人ですることができ、さらに、測定データの転記ミスや入力ミスを防止することができる。
請求項2に記載の発明によれば、前記騒音を除去した音声波形から音声波形のデータを生成する手段は、騒音を除去した音声波形から特定の周波数帯域に分類される特徴量を抽出する手段と、予め音節の特徴量の音声マスタを記憶しておく音声マスタ記憶手段と、前記抽出した特徴量と予め記憶している音声マスタの特徴量とを照合し、前記抽出した特徴量に最も近い音声マスタを抽出する手段と、前記抽出した音声マスタを音声波形のデータとする手段と、から構成されているため、抽出した特徴量と、音声マスタ記憶手段に記憶されている音声マスタとの照合によって最も近い音声マスタを抽出することができ、構成が簡単で、かつ、処理速度を速くすることができる。
請求項3に記載の発明によれば、前記騒音を除去した音声波形から音声波形のデータを生成する手段は、予め音節の音声波形の波形マス目マスタを記憶しておく波形マス目マスタ記憶手段と、切り出された音声波形をマス目テーブル上に配列し、当該配列された波形マス目パターンとを照合し、前記波形マス目パターンに最も近い波形マス目マスタを抽出する手段と、抽出した波形マス目マスタを音声波形のデータとする手段と、から構成されているため、構成が簡単で分かり易く、波形マスタの記憶データを変更することで照合の微調整も容易にすることができる。
請求項4に記載の発明によれば、前記騒音を除去した音声波形から音声波形のデータを生成する手段は、騒音を除去した音声波形から特定の周波数帯域に分類される特徴量を抽出する手段と、予め音節の特徴量の音声マスタを記憶しておく音声マスタ記憶手段と、前記抽出した特徴量と予め記憶している音声マスタの特徴量とを照合し、前記抽出した特徴量に最も近い音声マスタを抽出する手段と、前記抽出した音声マスタを音声波形のデータとする手段と、前記抽出した特徴量に近い音声マスタに記憶されている特徴量が複数ある場合は、予め音節の音声波形の波形マス目マスタを記憶しておく波形マス目マスタ記憶手段と、切り出された音声波形をマス目テーブル上に配列し、当該配列された波形マス目パターンとを照合し、前記波形マス目パターンに最も近い波形マス目マスタを抽出する手段と、抽出した波形マス目マスタを音声波形のデータとする手段と、から音声波形のデータを抽出するよう構成されているため、抽出した特徴量と、音声マスタ記憶手段に記憶されている音声マスタとの照合によっては音声マスタを抽出することの判定ができない場合でも、切り出された音声波形をマス目テーブル上に配列し、波形マス目マスタと照合することによって、配列した波形マス目パターンに最も近い波形マス目マスタを抽出することができ、より正確に音声波形のデータを生成することができる。
請求項5に記載の発明によれば、本発明の騒音内音声認識システムは、前記騒音内音声認識装置と、前記騒音内音声認識装置に音声信号を入力する音声入力装置と、前記騒音内音声認識装置に備えた通信手段により前記記憶手段の音声波形のデータを送信し、当該音声波形のデータを受信して記憶領域に保存するサーバーとから構成されている。したがって、工場現場で日々行われている試験、検査などの測定データを手書き作業やパソコン入力作業を経ることなく、リアルタイムにサーバーに収集し、音声解析をすることができるため、騒音の大きな工場現場における測定作業の省力化とデータ処理の迅速化を図ることができる。
本発明の要旨は、人の音声と騒音が入り混じった音の中から音声波形を切り出して、切り出した音声波形から騒音を除去し、騒音を除去した音声波形データから特定の周波数帯域に分類される特徴量を抽出し、抽出した特徴量に基づき音声波形のデータを生成し、又は/及び音声波形をマス目テーブル上に配列した波形マス目パターンと、波形マス目マスタとの照合処理を行い、照合結果により音声波形のデータを生成し、当該生成された音声波形のデータを記憶部に記憶すると共に、工場内のLAN(Local Area Network)などの通信回線を介して収集して、サーバーの記憶領域に保存し、音声解析を行うことができるよう構成することにより、騒音の大きな工場現場における測定作業の省力化とデータ処理の迅速化を図るものである。
以下、本発明の実施の形態について図面により説明する。ただし、図面は模式的なものであり、各部の配置や寸法の比率等は現実のものとは必ずしも一致するものではない。
図1は、本発明に係る騒音内音声認識システム100の構成図である。本図において、本発明の実施形態に係る騒音内音声認識システム100は、前記騒音内音声認識装置1と、前記騒音内音声認識装置1に音声信号を入力するマイクロフォン5と、前記騒音内音声認識装置1に備えた通信部16により送信した音声波形のデータを送受信する無線ルータ6と、無線ルータ6が送信した当該音声波形のデータを受信して記憶領域に保存するサーバー8と、無線ルータ6とサーバー8を接続するLAN7とから構成されている。
騒音内音声認識装置1は、本発明に係る騒音内音声認識システム100の中核をなす構成機器であり、図2のブロック図に示すように構成されている。すなわち、CPU(Central Processing Unit)10は、騒音内音声認識装置1の動作を統括的に制御するプロセッサである。CPU10は、システムコントローラ11を介して騒音内音声認識装置1の各部を制御する。CPU10は、プログラム記憶部17に予め書き込まれているオペレーティングシステムや各種のアプリケーションプログラムをRAM(Randam Access Memory)18にロードし、ロードされたプログラムに従って処理を実行することにより、騒音内音声認識装置1の各部の制御機能を実現する。
また、入力された音声データから特徴量を演算処理により抽出し、抽出した特徴量に基づき音声波形のデータを演算処理により生成し、生成された音声波形のデータを音声波形データ記憶部22に記憶し、通信部16、無線ルータ6及びLAN7を介してサーバー8に送信し、サーバー8の記憶部81に保存する。
プログラム記憶部17は、不揮発性メモリから構成されており、CPU10が制御動作を行うためのオペレーティングシステム、音声認識処理を行うアプリケーションプログラム及びプログラムの実行に必要な各種データなどが予め書き込まれている。また、アプリケーションプログラムなどのバージョンアップ等のときは、この内容を書き換えることもできる。
RAM18は、本装置のメインメモリであり、前記プログラム記憶部17に予め書き込まれているオペレーティングシステムをインストールし、各種のアプリケーションプログラムをロードする。CPU10は、RAM18上にロードされたアプリケーションプログラムである音声処理プログラムを実行する。また、演算処理において発生するデータの一時的な記憶装置としても使用される。
システムコントローラ11は、プログラム記憶部17及びRAM18に対するアクセス制御を行う。また、システムコントローラ11は、グラフィックコントローラ12、タッチパネルコントローラ14及びサーバー8とのデータのやりとりを行う通信部16を制御する。
また、システムコントローラ11は、音声入力部23に入力された測定作業者の音声信号や、操作部25が受け付けた測定作業者の操作情報を入力する。また、スピーカ部24から音声信号を出力する。
また、システムコントローラ11は、音声入力部23に入力された測定作業者の音声信号や、操作部25が受け付けた測定作業者の操作情報を入力する。また、スピーカ部24から音声信号を出力する。
また、システムコントローラ11は、CPU10の演算処理に必要な音声マスタ記憶部20、波形マス目マスタ記憶部21、及び演算処理結果を記憶する音声波形データ記憶部22の読み出し書き込み制御を行う。
音声入力部23は、具体的には、マイクロフォン5が収音した音声及び音声と一体となった工場内の騒音を電気信号に変換するとともに、CPU10やシステムコントローラ11が処理し得るよう内蔵のA/D変換回路(Analog to Digital Converter)によりデジタル信号に変換したデータを音声波形としてシステムコントローラ11に出力する。
スピーカ部24は、測定作業者が音声入力した内容をCPU10が処理し、その結果を音声で測定作業者に知らせる。また、音声の識別ができなかった場合や発声誤りなどがあったときも、その旨測定作業者に知らせて再発声を促す。
グラフィックコントローラ(Graphics Controller)12は、ディスプレイ13に表示する画像を制御する画像表示用のコントローラである。
ディスプレイ13は、測定作業者が音声入力した内容をCPU10が処理し、その入力内容を前記ディスプレイ13の画面に文字で表示して測定作業者に知らせる。また、ディスプレイ13は表示すると共に、スピーカ部24からも音声で知らせることもできる。また、測定作業者が発声した音声の識別ができなかった場合や入力ミスなどがあったときは、その旨画面上に表示して測定作業者に知らせて再発声を促す。
また、測定作業者に対して作業手順を表示して、作業指示書の役割を果たすよう構成することもできる。
また、測定作業者に対して作業手順を表示して、作業指示書の役割を果たすよう構成することもできる。
ディスプレイ13は、例えば、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイを用いて構成される。ディスプレイ13は、モノクロ画面でもよいが、カラー画面が望ましい。
タッチパネルコントローラ14は、ディスプレイ13の画面上に配設されたタッチパネル15の操作信号入力の制御を行うコントローラである。測定作業者が操作したタッチ位置から操作画面上の座標データをタッチパネル15から読み取り、システムコントローラ11へ出力する。
発声による測定データの入力が終わり、ディスプレイ13に画面表示された音声入力の内容が正しいときは、測定作業者は、次の測定データの入力に移り、当該次の測定データを発声する。もし、ディスプレイ13の画面に表示された内容が正しくないときは、測定作業者は、その表示内容をタッチパネル15の操作により取り消して、再度発声による入力を行う。
CPU10は、システムコントローラ11からのタッチパネル15の操作信号に基づき処理を行う。
CPU10は、システムコントローラ11からのタッチパネル15の操作信号に基づき処理を行う。
騒音内音声認識装置1は、上述のように構成されている。
次に、騒音内音声認識装置1の入力された音声信号の演算処理について詳しく説明する。
次に、騒音内音声認識装置1の入力された音声信号の演算処理について詳しく説明する。
図3は、本発明に係る騒音内音声認識装置1及び騒音内音声認識システム100の処理フローチャートである。以下、図3の処理フローチャートに基づき説明する。
本発明に係る騒音内音声認識システム100は、工場現場で日々行われている試験、検査などの測定データを音声入力し、入力された音声データから音声波形41を所定の時間幅で切り出して、切り出した音声波形42から騒音に該当する音声データを除去し、騒音を除去した音声波形61から特定の周波数帯域に分類される特徴量63を抽出し、抽出した特徴量63と音声マスタ64との照合を行い音声波形のデータを生成し、又は/及び音声波形をマス目テーブル上に配列した波形マス目パターン71と、波形マス目マスタ73との照合処理を行い、音声波形のデータを生成し、当該生成された音声波形のデータを記憶部に記憶すると共に、工場内のLAN7などの通信回線を介してサーバー8にまとめて収集し、音声解析を行うことができるよう構成されたものである。
具体的な用途としては、例えば、自動車部品である鉄タンクなどの被測定物3の耐チッピング塗装(Anti−Chipping Coating)の膜厚を測定する場合に使用することができる。なお、耐チッピング塗装とは、自動車のボディのフロア下面、ホイールハウス内などに、石跳ねなどによる塗膜のダメージを防ぐために塗られる耐チッピング性能を向上させた塗装のことをいう。
以上のことを前提に、処理ステップについて説明する。まず、測定作業者は、膜厚測定器4を使用して所定の作業手順に従って被測定物3の所定の個所の膜厚を測定する。そして、作業者は、計測データをその場で発声する。騒音内音声認識装置1の音声入力部23は、マイクロフォン5を介して入力された測定作業者の発声音と工場内の騒音とが入り混じった音声情報データを、システムコントローラ11を介してCPU10に入力する(S101)。
CPU10は、測定作業者の発声音と工場内の騒音とが入り混じった音声情報データから騒音成分だけを除去するために、「波形切り出しスレッド」により、入力された音声波形41を図4(a)に示すような間隔で、音声波形41a〜41d・・・のように切り出す。切り出し幅は0.3msec乃至0.7msecである。
図4(b)に示すように、切り出された音声波形42a〜42c・・・は、RAM18上のプール領域に格納される。ここで、「スレッド」とは、アプリケーションを処理する単位のことをいう(S102)。
図4(b)に示すように、切り出された音声波形42a〜42c・・・は、RAM18上のプール領域に格納される。ここで、「スレッド」とは、アプリケーションを処理する単位のことをいう(S102)。
次に、「波形認識処理スレッド」は、切り出した音声波形42a〜42c・・・について音声認識処理を行う。波形認識処理スレッドは、前記プール領域を常時監視しており、プール領域に格納された音声波形42a〜42c・・・を先入れ先出し、すなわち、先に格納した順に取り出して音声認識処理を行う。
ここで音声認識処理とは、プール領域に格納され、切り出された音声波形42a〜42c・・・のうち、音声を含んだ波形と、音声を含んでいない単なる騒音とに切り分ける処理のことである。すなわち、測定作業者は常に連続的に発生しているわけではなく、通常、測定したときにのみ、その測定値を発声することになる。一方、CPU10は、測定作業者の音声と工場内の騒音とが入り混じった音声情報を常時入力しているため、そのほとんどが、測定作業者の音声を含んでいない工場内の騒音となる。そこで、「波形認識処理スレッド」は、工場内の騒音のみの音声波形を廃棄する。
「波形認識処理スレッド」の処理と、前記「波形切り出しスレッド」の処理とは、図5(a)、(b)に示すように、直列、並列のいずれでも処理することができる。本実施形態では、図5(a)に示すように、直列に行うのではなく、図5(b)に示すように、並列に行うことで、直列処理と比較して理論値で約32%、高速に処理を行うことができる(S103)。
次に、波形認識処理スレッドで処理された音声波形からさらに騒音を除去する。具体的には、次のような場合は、騒音と判断する。
(1)振幅が大きい音声波形は騒音と判断し、廃棄する。
(2)周波数が人間の声の450Hzから1050Hzの範囲に収まらない音声波形は騒音と判断し、廃棄する(S104)。
(1)振幅が大きい音声波形は騒音と判断し、廃棄する。
(2)周波数が人間の声の450Hzから1050Hzの範囲に収まらない音声波形は騒音と判断し、廃棄する(S104)。
次に、図6に示すように、特徴量によるパターン照合を次の手順で行う。
(1)図6(a)の左図は、上記により騒音をある程度除去した音声波形61を示す。図中、縦軸は音声の振幅すなわち音の大きさを示し、横軸は時間を示している。CPU10は、音声波形61についてフーリエ変換を行い、振幅と時間軸の音声波形61を、波形音圧と周波数軸の波形62に変換する。フーリエ変換を行うことによって、図6(a)の右図に示すように、音声波形61を、周波数に対する音圧の大きさとの関係である波形62に変換することができる(S105)。
なお、フーリエ変換そのものは公知技術であるので、説明は省略する。
(2)フーリエ変換を行った結果の波形62について、以下の特徴量演算式により12次の近似曲線より特徴量を求める。
特徴量=(変換係数)×ln{(周波数÷レート)+1}
上記演算式で求めた特徴量63を図6(b)の表に示す(S106)。
(1)図6(a)の左図は、上記により騒音をある程度除去した音声波形61を示す。図中、縦軸は音声の振幅すなわち音の大きさを示し、横軸は時間を示している。CPU10は、音声波形61についてフーリエ変換を行い、振幅と時間軸の音声波形61を、波形音圧と周波数軸の波形62に変換する。フーリエ変換を行うことによって、図6(a)の右図に示すように、音声波形61を、周波数に対する音圧の大きさとの関係である波形62に変換することができる(S105)。
なお、フーリエ変換そのものは公知技術であるので、説明は省略する。
(2)フーリエ変換を行った結果の波形62について、以下の特徴量演算式により12次の近似曲線より特徴量を求める。
特徴量=(変換係数)×ln{(周波数÷レート)+1}
上記演算式で求めた特徴量63を図6(b)の表に示す(S106)。
なお、本発明における「特徴量」とは、あるものを識別するために、そのモノの大きさ、重さ、長さ、形状といった特徴の組合せのことを指している。例えば、人、車、動物、文字、音や顔などを識別するには、それぞれの「もの」について最適な特徴量の値を決定してゆくことが重要である。この技術は画像認識領域の業界で最も採用されており公知技術であるため、特徴量の値の決定や演算式についての説明は省略する。
図6(c)は、音声マスタ64を示している。音声マスタ64には、例えば、「あいうえお・・・」の各音順に50音分等の特徴量が、音声マスタ記憶部20に予め記憶されている。CPU10は、当該音声マスタ64を音声マスタ記憶部20から読み出し、前記演算式で求めた図6(b)に示す特徴量63と照合する。
例えば、特徴量63は、図6(b)の特徴量63と、図6(c)の音声マスタ64に予め記憶されている特徴量とを順番に照合してゆくと、「あ」の音と一致していることがわかる。したがって、CPU10は、図6(a)の音声波形61を「あ」の音であると判断する(S107)。
ここにおいて、CPU10は、図7(c)に示すように、後述する波形マス目マスタ記憶部21に記憶された波形マスタ72から「あ」の音の波形マス目マスタ73を読み出すことにより「あ」の音声波形を生成する。
上記例では、特徴量63が「あ」の音に完全に一致した場合について説明したが、照合結果が完全に一致しなかった場合には、当該音の特徴量63に近いものが音声マスタ64に予め記憶されている特徴量の中にあり、かつ、照合の結果、当該音の特徴量63に近いものが他に存在しない場合には、その特徴量63に近い音声マスタ64の当該特徴量が当該音声波形61であると判断する(S108)。そして、波形マス目マスタ記憶部21に記憶された波形マスタ72から当該音声波形61の波形マス目マスタ73を読み出すことにより当該音声波形61の音声波形のデータを生成する(S109)。
なお、音声波形のデータの生成は、波形マス目マスタ記憶部21に記憶された「あ」の音の波形マス目マスタ73を読み出すことでなし得るが、これに限定されるものではなく、別途、例えば、「あいうえお・・・」の各音順に50音分等のマスタ音声波形記憶部を設けて、そこから音声波形を読み出して生成するよう構成してもよい。又は音声波形をキャラクタデータに変換して、キャラクタデータで読み出すよう構成してもよい(S109)。
CPU10は、上記演算処理により生成された音声波形のデータを、音声波形データ記憶部22に記憶する(S110)。
また、CPU10は、通信部16、無線ルータ6及びLAN7を介してサーバー8に送信し、サーバー8の記憶部81に記憶する(S111)。
また、サーバー8は、前記音声波形のデータに基づき音声解析を行う(S112)。
また、CPU10は、通信部16、無線ルータ6及びLAN7を介してサーバー8に送信し、サーバー8の記憶部81に記憶する(S111)。
また、サーバー8は、前記音声波形のデータに基づき音声解析を行う(S112)。
以上の例では、特段の問題なく音声波形の切り出し、騒音の除去、特徴量による照合が行われ、照合結果が一音に絞れた場合について説明した。
しかし、現実には工場現場の騒音が大きかったり、測定作業者の声が小さかったり、発音が不明瞭である場合があり、このような場合には、両者の特徴量が一致せず、近似する特徴量が複数存在する場合があり得る(S113)。このような場合には、さらに、先述の波形マス目マスタ73を用いて波形パターンの照合を行う。
図7は、マス目テーブル上に配列した波形マス目パターン71と、波形マス目マスタ73との照合処理の説明図である。CPU10は、図6(a)に示す音声波形61を波形マス目パターン71として、図7(a)に示すように、例えば、横軸に(216−1=65535)ビット、横軸に(216−1=65535)ビットで構成された2次元のマス目テーブル上に、配列する。
一方、図7(c)に示すように、波形マス目マスタ記憶部21には、例えば、「あいうえお・・・」の各音順に50音分等の波形マスタ72が予め記憶されている。CPU10は、当該波形マスタ72に予め記憶されている図7(b)に示す波形マス目マスタ73を順番に波形マスタ72から読み出し、前記マス目テーブル上に配列した図7(a)に示す波形マス目パターン71と順次照合する。
すなわち、音声波形の傾き、振幅の大きさ、周期、波形全体の長さにより波形を正確に認識するために、視覚的手法により波形のパターン認識を行うものである(S114)。
すなわち、音声波形の傾き、振幅の大きさ、周期、波形全体の長さにより波形を正確に認識するために、視覚的手法により波形のパターン認識を行うものである(S114)。
照合は座標ごとに順次行い、照合が一致する座標をスコアとして集計する。そして、集計したスコアが一番高い波形マス目マスタ73を当該音の波形マス目マスタ73とする。すなわち、集計したスコアが一番高い波形マス目マスタ73が「あ」の音である場合は、図7(a)に示す当該波形マス目パターン71の音は、「あ」であると判断して、波形マスタ72から当該「あ」の音の波形マス目マスタ73を読み出すことにより当該音の音声波形を生成する(S109)。
CPU10は、上記演算処理により生成された音声波形のデータを、音声波形データ記憶部22に記憶する(S110)。
また、CPU10は、当該音声波形のデータを通信部16、無線ルータ6及びLAN7を介してサーバー8に送信し、サーバー8は、当該音声波形のデータを記憶部81に記憶する(S111)。
また、CPU10は、当該音声波形のデータを通信部16、無線ルータ6及びLAN7を介してサーバー8に送信し、サーバー8は、当該音声波形のデータを記憶部81に記憶する(S111)。
サーバー8は、記憶部81に記憶された当該音声波形のデータに基づき音声解析を行い、音声解析結果をもとに測定作業者の測定データを検査成績書等のデータとしてまとめる。そして、そのデータをサーバー8の記憶部81に記憶すると共に、生産ライン上の当該製品の出荷判定や品質統計等に使用する(S112)。
音声波形データ記憶部22及びサーバー8の記憶部81に記憶された当該音声波形のデータは、当該音の波形マス目マスタ73のデータそのものであるため、クリアな音声波形として記憶される。すなわち、当該記憶された音声波形のデータは騒音成分を一切含んでいないため、サーバー8で行う音声解析処理において音声認識精度を向上させることができる。
本発明に係る騒音内音声認識装置1及び騒音内音声認識システム100は以上のように構成されているために、次のような顕著な効果を奏する。
例えば、工場内の騒音内音声認識装置1は、タブレット端末などのハードウェア資源を使ってソフトウェアで実現することができるため、持ち運びが簡単で、工場内の作業現場に一人で手軽に持ち運んで測定及びデータの記録をすることができ、利便性に優れている。
例えば、工場内の騒音内音声認識装置1は、タブレット端末などのハードウェア資源を使ってソフトウェアで実現することができるため、持ち運びが簡単で、工場内の作業現場に一人で手軽に持ち運んで測定及びデータの記録をすることができ、利便性に優れている。
また、人の発声音と騒音が入り混じっている騒音波形の中から人の発声音を抽出して測定データを認識し、この音声波形のデータを当該タブレット端末の記憶領域に保存することにより、工場内の騒音環境下において正しい音声認識が行えると共に、測定データを電子データとして保存、管理することができる。
また、従来2人で行っていた作業を1人ですることができ、さらに、測定データの転記ミスや入力ミスを防止することができる。
また、抽出した特徴量63と、音声マスタ記憶部20に記憶されている音声マスタ64の特徴量との照合によって最も近い音声マスタを抽出するものであるため、構成が簡単で、かつ、処理速度を速くすることができる。
また、切り出された音声波形61をマス目テーブル上に配列し、波形マス目マスタ73と照合することによって、配列した波形マス目パターン71に最も近い波形マス目マスタ73を抽出することができるため、構成が簡単で分かり易く、波形マスタ72の記憶データを調整することで照合精度の微調整も容易にすることができる。
また、抽出した特徴量63と、音声マスタ記憶部20に記憶されている音声マスタ64の特徴量とを照合した結果、複数の候補が存在するために音声マスタ64の特徴量を抽出する判定ができない場合でも、切り出された音声波形61をマス目テーブル上に配列し、波形マス目マスタ73と照合することによって、配列した波形マス目パターン71に最も近い波形マス目マスタ73を抽出することができるため、より正確に音声波形のデータを生成することができる。
また、工場現場で日々行われている試験、検査などの測定データを手書き作業やパソコン入力作業を経ることなく、リアルタイムにサーバーに収集し、音声解析をすることができるため、騒音の大きな工場現場における測定作業の省力化とデータ処理の迅速化を図ることができる。
また、音声波形データ記憶部22及びサーバー8の記憶部81に記憶された当該音声波形のデータは、当該音の波形マス目マスタ73のデータそのものであるため、クリアな音声波形として記憶される。すなわち、当該記憶された音声波形のデータは騒音成分を一切含んでいないため、サーバー8で行う音声解析処理において音声認識精度を向上させることができる。
以上の実施形態において説明した本発明に係る騒音内音声認識装置1及び騒音内音声認識システムは、上述した実施形態に限られず、上述した実施形態の中で開示した各構成を相互に置換したり組み合わせを変更した構成、公知発明及び上述した実施形態の中で開示した各構成を相互に置換したり組み合わせを変更した構成等も含まれる。また、本発明の技術的範囲は上述した実施形態に限定されず、特許請求の範囲に記載された事項とその均等物にまで及ぶものである。
例えば、本発明に係る騒音内音声認識装置1の実施形態としては、タブレット端末の他に携帯用パソコンを使用してもよい。また、携帯電話機やスマートフォンを使用してもよい。また専用のコンピュータであってもよい。要は、本発明を実現することができるハードウェア資源を有するものであれば、何を使用しても差し支えない。
また、音声波形61の照合処理の他の実施の形態としては、音声波形61から算出した特徴量63と、音声マスタ64の特徴量との照合処理のみとしてもよい。
また、音声波形61をマス目テーブル上に配列した波形マス目パターン71と、波形マス目マスタ73との照合処理のみとしてもよい。
また、先に音声波形61をマス目テーブル上に配列した波形マス目パターン71と、波形マスタ72に予め記憶された波形マス目マスタ73との照合処理を行い、その照合結果が複数ある場合は、音声波形61から算出した特徴量63と、音声マスタ64に予め記憶された特徴量との照合処理を行うように構成してもよい。
要するに、特徴量63による照合処理と、波形マス目パターン71による照合処理とのいずれか一方のみの処理としてもよいし、両方の処理をしてもよい。また、両方の処理を行う場合は、どちらを先にしてもよい。
また、音声波形61をマス目テーブル上に配列した波形マス目パターン71と、波形マス目マスタ73との照合処理のみとしてもよい。
また、先に音声波形61をマス目テーブル上に配列した波形マス目パターン71と、波形マスタ72に予め記憶された波形マス目マスタ73との照合処理を行い、その照合結果が複数ある場合は、音声波形61から算出した特徴量63と、音声マスタ64に予め記憶された特徴量との照合処理を行うように構成してもよい。
要するに、特徴量63による照合処理と、波形マス目パターン71による照合処理とのいずれか一方のみの処理としてもよいし、両方の処理をしてもよい。また、両方の処理を行う場合は、どちらを先にしてもよい。
また、マス目テーブルは、縦軸、横軸とも(216−1=65535)ビットであるとして説明したが、(28−1=255)ビットで構成しても差し支えない。つまり、マス目テーブルの縦軸、横軸のビット数は、測定データの精度に応じて任意の値に決定することができる。
また、本発明に係る騒音内音声認識システム100は、無線ルータ6を介して騒音内音声認識装置1とサーバー8を接続する例について説明したが、直接インターネットの有線の回線を介して接続してもよい。
また、本発明に係る騒音内音声認識システム100は、自動車工場における自動車部品の測定作業を例にとって説明したが、本発明の用途は自動車工場に限られず、他の製造業や騒音の大きな建設現場などに幅広く応用することができることはいうまでもない。
1 騒音内音声認識装置
3 被測定物
4 膜厚測定器
5 マイクロフォン
6 無線ルータ
7 LAN
8 サーバー
10 CPU
11 システムコントローラ
12 グラフィックコントローラ
13 ディスプレイ
14 タッチパネルコントローラ
15 タッチパネル
16 通信部
17 プログラム記憶部
18 RAM
20 音声マスタ記憶部
21 波形マス目マスタ記憶部
22 音声波形データ記憶部
23 音声入力部
24 スピーカ部
25 操作部
61 音声波形
63 特徴量
64 音声マスタ
71 波形マス目パターン
72 波形マスタ
73 波形マス目マスタ
81 記憶部
100 騒音内音声認識システム
3 被測定物
4 膜厚測定器
5 マイクロフォン
6 無線ルータ
7 LAN
8 サーバー
10 CPU
11 システムコントローラ
12 グラフィックコントローラ
13 ディスプレイ
14 タッチパネルコントローラ
15 タッチパネル
16 通信部
17 プログラム記憶部
18 RAM
20 音声マスタ記憶部
21 波形マス目マスタ記憶部
22 音声波形データ記憶部
23 音声入力部
24 スピーカ部
25 操作部
61 音声波形
63 特徴量
64 音声マスタ
71 波形マス目パターン
72 波形マスタ
73 波形マス目マスタ
81 記憶部
100 騒音内音声認識システム
Claims (5)
- 音声データ入力手段と、
前記音声データ入力手段から入力された音声波形を切り出す手段と、
切り出した音声波形から騒音を除去する手段と、
騒音を除去した音声波形から音声波形のデータを生成する手段と、
生成された音声波形のデータを記憶領域に保存する記憶手段と、
から構成されたことを特徴とする騒音内音声認識装置。 - 前記騒音を除去した音声波形から音声波形のデータを生成する手段は、
騒音を除去した音声波形から特定の周波数帯域に分類される特徴量を抽出する手段と、
予め音節の特徴量の音声マスタを記憶しておく音声マスタ記憶手段と、
前記抽出した特徴量と予め記憶している音声マスタの特徴量とを照合し、前記抽出した特徴量に最も近い音声マスタを抽出する手段と、
前記抽出した音声マスタを音声波形のデータとする手段と、
から構成されたことを特徴とする請求項1に記載の騒音内音声認識装置。 - 前記騒音を除去した音声波形から音声波形のデータを生成する手段は、
予め音節の音声波形の波形マス目マスタを記憶しておく波形マス目マスタ記憶手段と、
切り出された音声波形をマス目テーブル上に配列し、当該配列された波形マス目パターンとを照合し、前記波形マス目パターンに最も近い波形マス目マスタを抽出する手段と、
抽出した波形マス目マスタを音声波形のデータとする手段と、
から構成されたことを特徴とする請求項1に記載の騒音内音声認識装置。 - 前記騒音を除去した音声波形から音声波形のデータを生成する手段は、
騒音を除去した音声波形から特定の周波数帯域に分類される特徴量を抽出する手段と、
予め音節の特徴量の音声マスタを記憶しておく音声マスタ記憶手段と、
前記抽出した特徴量と予め記憶している音声マスタの特徴量とを照合し、前記抽出した特徴量に最も近い音声マスタを抽出する手段と、
前記抽出した音声マスタを音声波形のデータとする手段と、
前記抽出した特徴量に近い音声マスタに記憶されている特徴量が複数ある場合は、
予め音節の音声波形の波形マス目マスタを記憶しておく波形マス目マスタ記憶手段と、
切り出された音声波形をマス目テーブル上に配列し、当該配列された波形マス目パターンとを照合し、前記波形マス目パターンに最も近い波形マス目マスタを抽出する手段と、
抽出した波形マス目マスタを音声波形のデータとする手段と、
から音声波形のデータを抽出するよう構成されたことを特徴とする請求項1に記載の騒音内音声認識装置。 - 本発明の騒音内音声認識システムは、前記騒音内音声認識装置と、
前記騒音内音声認識装置に音声信号を入力する音声入力装置と、
前記騒音内音声認識装置に備えた通信手段により前記記憶手段の音声波形のデータを送信し、当該音声波形のデータを受信して記憶領域に保存するサーバーと、
から構成されたことを特徴とする騒音内音声認識システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019237523A JP2021105684A (ja) | 2019-12-26 | 2019-12-26 | 騒音内音声認識装置及び騒音内音声認識システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019237523A JP2021105684A (ja) | 2019-12-26 | 2019-12-26 | 騒音内音声認識装置及び騒音内音声認識システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021105684A true JP2021105684A (ja) | 2021-07-26 |
Family
ID=76919608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019237523A Pending JP2021105684A (ja) | 2019-12-26 | 2019-12-26 | 騒音内音声認識装置及び騒音内音声認識システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021105684A (ja) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08221092A (ja) * | 1995-02-17 | 1996-08-30 | Hitachi Ltd | スペクトルサブトラクションを用いた雑音除去システム |
JP2008164649A (ja) * | 2006-12-26 | 2008-07-17 | Sharp Corp | 通信装置、通信装置の制御方法、通信装置の制御プログラム、通信装置の制御プログラムを記録した記録媒体 |
JP2010237286A (ja) * | 2009-03-30 | 2010-10-21 | Denso Corp | 音声認識システム |
US20100292988A1 (en) * | 2009-05-13 | 2010-11-18 | Hon Hai Precision Industry Co., Ltd. | System and method for speech recognition |
JP2017037222A (ja) * | 2015-08-11 | 2017-02-16 | 日本電信電話株式会社 | 特徴量ベクトル算出装置、音声認識装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム |
JP2017134321A (ja) * | 2016-01-29 | 2017-08-03 | 日本電信電話株式会社 | 信号処理方法、信号処理装置及び信号処理プログラム |
JP2018169434A (ja) * | 2017-03-29 | 2018-11-01 | 富士通株式会社 | 音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム |
-
2019
- 2019-12-26 JP JP2019237523A patent/JP2021105684A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08221092A (ja) * | 1995-02-17 | 1996-08-30 | Hitachi Ltd | スペクトルサブトラクションを用いた雑音除去システム |
JP2008164649A (ja) * | 2006-12-26 | 2008-07-17 | Sharp Corp | 通信装置、通信装置の制御方法、通信装置の制御プログラム、通信装置の制御プログラムを記録した記録媒体 |
JP2010237286A (ja) * | 2009-03-30 | 2010-10-21 | Denso Corp | 音声認識システム |
US20100292988A1 (en) * | 2009-05-13 | 2010-11-18 | Hon Hai Precision Industry Co., Ltd. | System and method for speech recognition |
JP2017037222A (ja) * | 2015-08-11 | 2017-02-16 | 日本電信電話株式会社 | 特徴量ベクトル算出装置、音声認識装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム |
JP2017134321A (ja) * | 2016-01-29 | 2017-08-03 | 日本電信電話株式会社 | 信号処理方法、信号処理装置及び信号処理プログラム |
JP2018169434A (ja) * | 2017-03-29 | 2018-11-01 | 富士通株式会社 | 音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI590228B (zh) | 語音控制系統、電子裝置及語音控制方法 | |
JP2008139568A (ja) | 音声処理装置および音声処理方法、並びに、プログラム | |
WO2006132159A1 (ja) | ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム | |
CN110111778B (zh) | 一种语音处理方法、装置、存储介质及电子设备 | |
US10854182B1 (en) | Singing assisting system, singing assisting method, and non-transitory computer-readable medium comprising instructions for executing the same | |
JP2009031452A (ja) | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム | |
JP2013205842A (ja) | プロミネンスを使用した音声対話システム | |
JP2980438B2 (ja) | 人間の音声を認識するための方法及び装置 | |
US20210118464A1 (en) | Method and apparatus for emotion recognition from speech | |
WO2022142610A1 (zh) | 一种语音记录方法、装置、计算机设备及可读存储介质 | |
CN110400565A (zh) | 说话人识别方法、系统及计算机可读存储介质 | |
CN112908308B (zh) | 一种音频处理方法、装置、设备及介质 | |
JP4906776B2 (ja) | 音声制御装置 | |
JP2014066779A (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
JP2007316330A (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP4587854B2 (ja) | 感情解析装置、感情解析プログラム、プログラム格納媒体 | |
JP2006267465A (ja) | 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体 | |
JP2014123813A (ja) | オペレータ対顧客会話自動採点装置およびその動作方法 | |
JP2021105684A (ja) | 騒音内音声認識装置及び騒音内音声認識システム | |
JP4839970B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
Böck et al. | Determining optimal signal features and parameters for hmm-based emotion classification | |
JP6427377B2 (ja) | 設備点検支援装置 | |
CN109087651B (zh) | 一种基于视频与语谱图的声纹鉴定方法、系统及设备 | |
CN111128237B (zh) | 语音评测方法、装置、存储介质和电子设备 | |
JP6256379B2 (ja) | 表示制御装置、表示制御方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221226 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231024 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240416 |