JP6831343B2 - 学習装置、学習方法及び学習プログラム - Google Patents
学習装置、学習方法及び学習プログラム Download PDFInfo
- Publication number
- JP6831343B2 JP6831343B2 JP2018016195A JP2018016195A JP6831343B2 JP 6831343 B2 JP6831343 B2 JP 6831343B2 JP 2018016195 A JP2018016195 A JP 2018016195A JP 2018016195 A JP2018016195 A JP 2018016195A JP 6831343 B2 JP6831343 B2 JP 6831343B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- recognition model
- voice
- prefix
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 52
- 238000004364 calculation method Methods 0.000 claims description 87
- 238000000605 extraction Methods 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 8
- 238000012545 processing Methods 0.000 description 22
- 239000013598 vector Substances 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Description
まず、図1を用いて、実施の形態に係る学習装置の構成について説明する。図1は、実施の形態に係る学習装置の構成の一例を示す図である。実施の形態に係る学習装置10は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。図1に示すように、学習装置10は、特徴量抽出部11(抽出部)、確率計算部12、エラー計算部13、パラメータ更新部14(更新部)、収束判定部15及び音声認識モデル記憶部16を有する。
従来の学習装置では、確率計算及びエラー計算として、正解文字列による確率計算と、正解文字列における確率を用いた交差エントロピー損失によるエラー計算を行う。そこで、従来の学習装置における確率計算処理とエラー計算処理とについて説明する。言い換えると、従来の学習装置では、単語誤り率の損失を、正解文字列における確率を用いた交差エントロピー損失に近似してエラー計算を行う。
次に、学習装置10による確率計算処理とエラー計算処理とを説明する。図3は、図1に示す学習装置10による確率計算処理とエラー計算処理とを説明する図である。
次に、図4を用いて、本実施の形態に係る音声認識装置の構成について説明する。図4は、実施の形態に係る音声認識装置の構成の一例を示す図である。図4に示すように、音声認識装置20は、特徴量抽出部21、確率計算部22及び記憶部23を有する。
図5を参照して、学習装置10の処理の流れについて説明する。図5は、実施の形態に係る学習処理の処理手順を示すフローチャートである。図5に示すように、まず、学習装置10は、音声認識モデルを読み込む(ステップS1)。このとき、具体的には、学習装置10は、音声認識モデル記憶部16から音声認識モデルパラメータ集合Λを読み込む。次に、学習装置10は、学習用音声データを読み込む(ステップS2)。そして、学習装置10は、読み込んだ学習用音声データに対応する正解文字列データを読み込む(ステップS3)。この正解文字列データは、後述するエラー計算処理(ステップS6)において、単語誤り率を求める際に使用する。
図6を用いて、音声認識装置20の処理の流れについて説明する。図6は、実施の形態に係る音声認識装置の処理の流れを示すフローチャートである。図6に示すように、まず、音声認識装置20は、音声認識モデルを読み込む(ステップS11)。このとき、具体的には、音声認識装置20は、記憶部23から学習済みの音声認識モデルパラメータ集合Λを読み込む。そして、音声認識装置20は、認識用音声データを読み込む(ステップS12)。
このように、本実施の形態に係る学習装置10は、エンコーダデコーダの構造を持ち,その処理の際に、接頭辞探索による認識文字列の確率計算処理、及び、単語誤り率によるエラー計算処理を行うモデルを用いる。
すなわち、学習装置10では、探索対象の接頭辞に続く文字候補の同時生起確率にしたがった多項分布に基づいて、探索対象の接頭辞に続く文字候補を選択して確率計算を行っている。したがって、本実施の形態では、学習時と認識時とで、認識文字列の確率計算の処理を同様のものとしている。
実施の形態による音声認識精度と、従来技術による音声認識精度とを評価した実験結果を表1に示す。この評価では、接頭辞探索と単語誤り率によるエラー検索を行う本実施の形態に係る学習装置10を用いて学習した音声認識モデルと、正解文字列による確率計算と交差エントロピー損失によるエラー計算を行う従来技術の学習による音声認識モデルとの比較を行った。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
図7は、プログラムが実行されることにより、学習装置10或いは音声認識装置20が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
11,21 特徴量抽出部
12,22 確率計算部
13 エラー計算部
14 パラメータ更新部
15 収束判定部
16 音声認識モデル記憶部
20 音声認識装置
23 記憶部
Claims (4)
- 学習用の音声データから、音声の特徴量を抽出する抽出部と、
前記音声の特徴量を基に、ニューラルネットワークで表される音声認識モデルを用いて、接頭辞探索を行い、認識文字列の事後確率を計算して複数の仮説文字列を取得する確率計算部と、
前記複数の仮説文字列と学習用の正解文字列との単語誤り率によるエラーを計算し、単語誤り率の損失の総和の期待値を最小化する前記音声認識モデル全体のパラメータを求めるエラー計算部と、
前記エラー計算部が求めたパラメータにしたがって、前記音声認識モデルのパラメータを更新する更新部と、
を有し、
前記確率計算部は、探索対象の接頭辞に続く文字候補の同時生起確率にしたがった多項分布に基づいて、探索対象の接頭辞に続く文字候補を選択することを特徴とする学習装置。 - 前記エラー計算部は、単語誤り率の損失と、損失の勾配を近似した方策勾配とを基に、誤差逆伝播法により前記音声認識モデル全体のパラメータを求めることを特徴とする請求項1に記載の学習装置。
- 学習装置が実行する学習方法であって、
学習用の音声データから、音声の特徴量を抽出する工程と、
前記音声の特徴量を基に、ニューラルネットワークで表される音声認識モデルを用いて、接頭辞探索を行い、認識文字列の事後確率を計算して複数の仮説文字列を取得する工程と、
前記複数の仮説文字列と学習用の正解文字列との単語誤り率によるエラーを計算し、単語誤り率の損失の総和の期待値を最小化する前記音声認識モデル全体のパラメータを求める工程と、
前記求める工程において求められたパラメータにしたがって、前記音声認識モデルのパラメータを更新する工程と、
を含み、
前記取得する工程は、探索対象の接頭辞に続く文字候補の同時生起確率にしたがった多項分布に基づいて、探索対象の接頭辞に続く文字候補を選択することを特徴とする学習方法。 - 学習用の音声データから、音声の特徴量を抽出するステップと、
前記音声の特徴量を基に、ニューラルネットワークで表される音声認識モデルを用いて、接頭辞探索を行い、認識文字列の事後確率を計算して複数の仮説文字列を取得するステップと、
前記複数の仮説文字列と学習用の正解文字列との単語誤り率によるエラーを計算し、単語誤り率の損失の総和の期待値を最小化する前記音声認識モデル全体のパラメータを求めるステップと、
前記求めるステップにおいて求められたパラメータにしたがって、前記音声認識モデルのパラメータを更新するステップと、
をコンピュータに実行させ、
前記取得するステップは、探索対象の接頭辞に続く文字候補の同時生起確率にしたがった多項分布に基づいて、探索対象の接頭辞に続く文字候補を選択するための学習プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018016195A JP6831343B2 (ja) | 2018-02-01 | 2018-02-01 | 学習装置、学習方法及び学習プログラム |
PCT/JP2019/003735 WO2019151507A1 (ja) | 2018-02-01 | 2019-02-01 | 学習装置、学習方法及び学習プログラム |
US16/963,837 US11551667B2 (en) | 2018-02-01 | 2019-02-01 | Learning device and method for updating a parameter of a speech recognition model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018016195A JP6831343B2 (ja) | 2018-02-01 | 2018-02-01 | 学習装置、学習方法及び学習プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019133046A JP2019133046A (ja) | 2019-08-08 |
JP6831343B2 true JP6831343B2 (ja) | 2021-02-17 |
Family
ID=67479293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018016195A Active JP6831343B2 (ja) | 2018-02-01 | 2018-02-01 | 学習装置、学習方法及び学習プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11551667B2 (ja) |
JP (1) | JP6831343B2 (ja) |
WO (1) | WO2019151507A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108615526B (zh) * | 2018-05-08 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 语音信号中关键词的检测方法、装置、终端及存储介质 |
JP2021039218A (ja) * | 2019-09-02 | 2021-03-11 | 日本電信電話株式会社 | 学習装置、学習方法及び学習プログラム |
CN110648658B (zh) * | 2019-09-06 | 2022-04-08 | 北京达佳互联信息技术有限公司 | 一种语音识别模型的生成方法、装置及电子设备 |
CN110782181A (zh) * | 2019-11-05 | 2020-02-11 | 国网重庆市电力公司电力科学研究院 | 一种低压台区线损率的计算方法及可读存储介质 |
US20230046763A1 (en) * | 2020-02-19 | 2023-02-16 | Nec Corporation | Speech recognition apparatus, control method, and non-transitory storage medium |
WO2022155842A1 (en) * | 2021-01-21 | 2022-07-28 | Alibaba Group Holding Limited | Quality estimation for automatic speech recognition |
CN113129870B (zh) | 2021-03-23 | 2022-03-25 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置、设备和存储介质 |
KR102547001B1 (ko) * | 2022-06-28 | 2023-06-23 | 주식회사 액션파워 | 하향식 방식을 이용한 오류 검출 방법 |
CN115512692B (zh) * | 2022-11-04 | 2023-02-28 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
CN107851434A (zh) * | 2015-05-26 | 2018-03-27 | 鲁汶大学 | 使用自适应增量学习方法的语音识别系统和方法 |
US20180330718A1 (en) * | 2017-05-11 | 2018-11-15 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for End-to-End speech recognition |
US10672388B2 (en) * | 2017-12-15 | 2020-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for open-vocabulary end-to-end speech recognition |
US10861456B2 (en) * | 2018-09-17 | 2020-12-08 | Adobe Inc. | Generating dialogue responses in end-to-end dialogue systems utilizing a context-dependent additive recurrent neural network |
-
2018
- 2018-02-01 JP JP2018016195A patent/JP6831343B2/ja active Active
-
2019
- 2019-02-01 US US16/963,837 patent/US11551667B2/en active Active
- 2019-02-01 WO PCT/JP2019/003735 patent/WO2019151507A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP2019133046A (ja) | 2019-08-08 |
WO2019151507A1 (ja) | 2019-08-08 |
US11551667B2 (en) | 2023-01-10 |
US20210056954A1 (en) | 2021-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6831343B2 (ja) | 学習装置、学習方法及び学習プログラム | |
JP6637078B2 (ja) | 音響モデル学習装置、音響モデル学習方法及びプログラム | |
CN110033760B (zh) | 语音识别的建模方法、装置及设备 | |
JP6849621B2 (ja) | 学習装置、学習方法及び学習プログラム | |
KR101780760B1 (ko) | 가변길이 문맥을 이용한 음성인식 | |
US20170372694A1 (en) | Dialogue act estimation method, dialogue act estimation apparatus, and storage medium | |
CN106297800B (zh) | 一种自适应的语音识别的方法和设备 | |
CN101149922A (zh) | 语音识别装置和语音识别方法 | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
WO2019202941A1 (ja) | 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム | |
EP0788649A2 (en) | Method and system for pattern recognition based on tree organised probability densities | |
JP6911785B2 (ja) | 判定装置、判定方法及び判定プログラム | |
US20070067171A1 (en) | Updating hidden conditional random field model parameters after processing individual training samples | |
He et al. | Discriminative Learning for Speech Recognition | |
JP6577900B2 (ja) | 音素誤り獲得装置、音素誤り獲得方法、およびプログラム | |
JP6646337B2 (ja) | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
JP3920749B2 (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
CN116050419B (zh) | 一种面向科学文献知识实体的无监督识别方法及系统 | |
Arslan et al. | Detecting and correcting automatic speech recognition errors with a new model | |
CN113707131B (zh) | 语音识别方法、装置、设备及存储介质 | |
JP7143955B2 (ja) | 推定装置、推定方法、および、推定プログラム | |
JP6235922B2 (ja) | 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム | |
JP5308102B2 (ja) | 誤り数別識別スコア・事後確率計算方法と、その方法を用いた誤り数重み付き識別学習装置とその方法と、その装置を用いた音声認識装置と、プログラムと記録媒体 | |
JP5264649B2 (ja) | 情報圧縮型モデルパラメータ推定装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201013 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6831343 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |