JP6718787B2 - 日本語音声認識モデル学習装置及びプログラム - Google Patents
日本語音声認識モデル学習装置及びプログラム Download PDFInfo
- Publication number
- JP6718787B2 JP6718787B2 JP2016204175A JP2016204175A JP6718787B2 JP 6718787 B2 JP6718787 B2 JP 6718787B2 JP 2016204175 A JP2016204175 A JP 2016204175A JP 2016204175 A JP2016204175 A JP 2016204175A JP 6718787 B2 JP6718787 B2 JP 6718787B2
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- list
- label
- reading
- kanji
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 2
- 238000000034 method Methods 0.000 description 60
- 238000002474 experimental method Methods 0.000 description 31
- 238000007792 addition Methods 0.000 description 28
- 238000012545 processing Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 9
- 238000003860 storage Methods 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000000877 morphologic effect Effects 0.000 description 6
- 230000000052 comparative effect Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000384 rearing effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
(1)音声を、その音響特徴量をベクトルの成分として持つ特徴ベクトルへ変換する。
(2)この特徴ベクトルを各単語に対して人手で割りつけた音素へ変換するような音響モデルを学習する。
(3)音素列を、意味のある単語へ変換するような言語モデルを学習する。
そして、ラベル生成手段は、出現頻度リスト作成手段によって、少なくとも1文字の漢字を含む文字列からなる形態素について前記学習データ内での出現頻度を表す出現頻度リストを作成する。
そして、ラベル生成手段は、ラベル選定手段によって、前記学習データ内で出現頻度が予め定められた基準より高い前記形態素、又は、前記学習データ内で漢字の特定の読みの出現頻度が予め定められた基準より低い前記形態素を検出し、検出した前記形態素を表す文字列を構成する少なくとも一部の文字列を、前記文字列単位のラベルとして選定する。
本発明に係る日本語音声認識モデル学習装置によれば、1文字単位のラベルと、漢字を含む文字列単位のラベルと、を併用することで、音声とラベルとの対応付けが可能となり、日本語の音響モデル学習を簡素化することができる。
また、読みの多様性に対応するためには多くの学習データが必要であるが、本発明に係る日本語音声認識モデル学習装置によれば、文字列単位のラベルを用いることで、ラベルの読みを一意に確定することができる。そのため、音声認識精度が向上し、特に、少量のデータにおいて音声認識精度を保つ効果を奏する。
(第1実施形態)
図1に示す音声認識システムSは、音声認識手段10と、日本語音声認識モデル学習装置2と、を備えている。
音声認識手段10は、入力された音声(評価用音声)を、人が発話した発話区間ごとに音声認識するものである。この音声認識手段10は、認識結果である単語列を図示しない表示装置等に出力する。ここでは、音声認識手段10は、ラベル列生成手段11と、単語列生成手段12と、を備えている。
単語列生成手段12は、言語モデル記憶手段7に記憶されている言語モデルを用いて、ラベル列生成手段11により生成されたラベル列を、順次、単語に変換することで単語列を生成する。
日本語音声認識モデル学習装置2は、入力される音声(学習用音声)に対応した正解として推定される文字のラベルを出力するエンドツーエンドの音響モデルを生成する装置である。以下では、日本語の音響モデル作成用の学習データ1を、音声1aとテキスト1bとのペアとして説明する。音声1a及びテキスト1bは、日本語の大量の音声データ及び大量のテキストを表している。例えば、音声1aとして、事前学習用の放送番組の番組音声を用い、テキスト1bとして、その番組音声の内容の厳密な書き起こし、又は、それに準ずるものを用いることができる。
言語モデル記憶手段7は、言語モデル学習手段5が学習により生成した言語モデルを記憶するものであって、ハードディスク等の一般的な記憶媒体である。
本実施形態では、ラベル選定手段24は、学習データ1内で出現頻度が予め定められた基準より高い形態素を検出し、検出した形態素を表す文字列を構成する少なくとも一部の文字列を、文字列単位のラベルとして選定することとした。
このために、ここでは、ラベル生成手段20は、ラベル選定制御手段241と、出現頻度判定手段242と、ラベル決定手段243と、を備えている。
第1実施形態に係る日本語音声認識モデル学習装置2による文字列単位のラベルの生成処理の流れについて図4を参照して説明する。
まず、日本語音声認識モデル学習装置2のラベル生成手段20は、形態素分割手段21によって、学習データ1のテキスト1bを形態素に分割する(ステップS101)。
そして、ラベル生成手段20は、出現頻度リスト作成手段23によって、テキスト1b内での出現頻度を求め、形態素ごとの重複のないような出現頻度リストJを求める(ステップS102)。
図5は、第2実施形態に係る日本語音声認識モデル学習装置のラベル生成手段の構成を模式的に示すブロック図である。なお、第2実施形態に係る日本語音声認識モデル学習装置は、ラベル生成手段20Aの構成が第1実施形態とは異なるので、その全体構成の図面を省略する。また、図5に示すラベル生成手段20Aにおいて、図3に示すラベル生成手段20と同一の構成には同一の符号を付して説明を適宜省略する。
形態素リスト作成手段26は、出現漢字リストSに基づいて、注目する漢字s毎に、当該漢字sを先頭の文字に含む形態素のリストである形態素リストHsを作成するものである。
なお、出現漢字リスト作成手段25や形態素リスト作成手段26としては、例えば日本語形態素解析のための一般的なソフトウェアを用いることができる。
図6(a)に示す例では、上から4個目までの形態素では、全体の読みにおける頭文字の読みは「せ」であり、上から5個目の形態素では、全体の読みにおける頭文字の読みは「し」であり、上から6個目の形態素では、全体の読みにおける頭文字の読みは「き」である。
よって、この場合、読みリスト作成手段27は、「生物」、「生徒」、「生活」、「生息」の読みにおける頭文字の読みである「せ」に対応した読みリストLr s,hへ格納する。
また、読みリスト作成手段27は、「生涯」を、読み「しょうがい」における頭文字の読みである「し」に対応した読みリストLr s,hへ格納する。
さらに、読みリスト作成手段27は、「生糸」を、読み「きいと」における頭文字の読みである「き」に対応した読みリストLr s,hへ格納する。
また、漢字「生」における頭文字の読みである「し」に対応した読みリストLr s,hに格納されている形態素の個数Lr,c s,hは「1」である。
また、漢字「生」における頭文字の読みである「き」に対応した読みリストLr s,hに格納されている形態素の個数Lr,c s,hは「1」である。
さらに、注目する漢字sが「生」の場合に形態素リストHsに格納されている全形態素hsの個数Nums,hは「6」である。
漢字「生」における頭文字の読みである「せ」に対応した読みリストLr s,hに関しては3/6>0.2であるので、閾値nより大きいと判定する。
漢字「生」における頭文字の読みである「し」に対応した読みリストLr s,hに関しては1/6<0.2であるので、閾値nより小さいと判定する。
漢字「生」における頭文字の読みである「き」に対応した読みリストLr s,hに関しては1/6<0.2であるので、閾値nより小さいと判定する。
具体的には、図6(a)に示す例では、漢字「生」における頭文字の読み「し」が閾値nによって珍しいと判定されたので、漢字「生」における頭文字の読み「し」に対応した読みリストLr s,hに格納されている形態素である「生涯」が、追加すべき文字列単位のラベル(図6(b)の符号3b)として決定される。
同様に、漢字「生」における頭文字の読み「き」も珍しいので、漢字「生」における頭文字の読み「き」に対応した読みリストLr s,hに格納されている形態素である「生糸」が、追加ラベル(図6(b)の符号3b)として決定される。
第2実施形態に係る日本語音声認識モデル学習装置2による文字列単位のラベルの生成処理の流れについて図7を参照して説明する。なお、図7に示すステップS101,S102の処理は、図4に示す処理と同一の処理なので、説明を省略する。
ステップS102に続いて、ラベル生成手段20Aは、出現漢字リスト作成手段25によって、出現頻度リストJの中に含まれる漢字について、1文字単位で重複のない出現漢字リストSを作成する(ステップS203)。そして、ラベル選定手段24Aのラベル選定制御手段241は、漢字区間の初期値(s=1)を設定し(ステップS204)、出現漢字リストSからs番目の漢字を選択する(ステップS205)。そして、ラベル生成手段20Aは、形態素リスト作成手段26によって、s番目の漢字を、漢字文字列の頭文字に持つ形態素からなる形態素リストHsを作成する(ステップS206)。
図8は、第3実施形態に係る日本語音声認識モデル学習装置のラベル生成手段の構成を模式的に示すブロック図である。なお、第3実施形態に係る日本語音声認識モデル学習装置は、ラベル生成手段20Bの構成が第1実施形態とは異なるので、その全体構成の図面を省略する。また、図8に示すラベル生成手段20Bにおいて、図5に示すラベル生成手段20Aと同一の構成には同一の符号を付して説明を適宜省略する。
また、図9(b)に示す単独漢字リストの例は、図9(a)に示す漢字「生」を含む形態素リストJsに出現する漢字xについて、それぞれの漢字xの一文字単独での全ての読みji xを付与して作成したものである。
ここで、各漢字の組み合わせの読みと、形態素全体の読みとの編集距離Dxは、一方の読みから、挿入、削除、置換といった操作を行なうことによって、他方の読みに編集する際に、必要とされる操作の最小回数である。編集距離算出手段28は、これら削除・挿入・置換誤り文字数を求めることで編集距離Dxを算出する。
図9(a)に示す「生物」の全体の読みjr sは、形態素分割手段21で「せいぶつ」のように付与されている。しかしながら、形態素分割手段21は、単語レベルの読みを付与するものであって、シンボル「生物」において、シンボル「生」の読みが、「せ」なのか、「せい」なのかということについては、情報が無い。そこで、読み区切り推定手段29は、上記した合計8個の組み合わせについてのそれぞれの編集距離Dxに基づいて、シンボル「生物」においてシンボル「生」の読みが「せい」である確率が高いことを判定し、シンボル「生物」において、注目する漢字sである「生」の単独の読みの区切りjr s,sを推定する。
よって、この場合、読みリスト作成手段27Bは、「生物」、「生徒」、「半生」、「人生」を、漢字「生」の読み「せい」に対応した読みリストLr sへ格納する。
また、読みリスト作成手段27Bは、「生涯」を、漢字「生」の読み「しょう」に対応した読みリストLr sへ格納する。
さらに、読みリスト作成手段27Bは、「誕生」を、漢字「生」の読み「じょう」に対応した読みリストLr sへ格納する。
また、漢字「生」の読み「しょう」に対応した読みリストLr sに格納されている形態素の個数Lr,c sは「1」である。
また、漢字「生」の読み「じょう」に対応した読みリストLr sに格納されている形態素の個数Lr,c sは「1」である。
さらに、注目する漢字sが「生」の場合に形態素リストJsに格納されている全形態素jsの個数Numsは「6」である。
漢字「生」の読み「せい」に対応した読みリストLr sに関しては3/6>0.2であるので、閾値n′より大きいと判定する。
漢字「生」の読み「しょう」に対応した読みリストLr sに関しては1/6<0.2であるので、閾値n′より小さいと判定する。
漢字「生」の読み「じょう」に対応した読みリストLr sに関しては1/6<0.2であるので、閾値n′より小さいと判定する。
具体的には、図9(a)に示す例では、漢字「生」の読み「しょう」が閾値n′によって珍しいと判定されたので、漢字「生」の読み「しょう」に対応した読みリストLr sに格納されている形態素である「生涯」が、追加すべき文字列単位のラベル(図9(c)の符号3c)として決定される。
同様に、漢字「生」の読み「じょう」も珍しいので、漢字「生」の読み「じょう」に対応した読みリストLr sに格納されている形態素である「誕生」が、追加ラベル(図9(c)の符号3c)として決定される。
第3実施形態に係る日本語音声認識モデル学習装置2による文字列単位のラベルの生成処理の流れについて図10を参照して説明する。なお、図10に示すステップS101,S102の処理は、図4に示す処理と同一の処理であり、ステップS203〜S205の処理は、図7に示す処理と同一の処理なので、説明を省略する。
ステップS205に続いて、ラベル生成手段20Bは、形態素リスト作成手段26Bによって、s番目の漢字を含む形態素からなる形態素リストJsを作成する(ステップS306)。
その際に、第1実施形態のように高頻度形態素だけを追加ラベルとする場合には、閾値Nを例えば150として、学習データ中で151回以上出現するような形態素を対象とした出現頻度リストを作成することで、高出現頻度のラベル候補を予め絞ることができる。
また、第2及び第3実施形態のように読みの珍しい形態素だけを追加ラベルとする場合には、閾値Nを例えば15として、学習データ中で16回以上出現するような形態素を対象とした出現頻度リストを作成することで、1回や2回しか出現しないような極めて希少な多くのラベルを追加する煩雑さを解消し、実用的に必要なラベル候補となるように予めフィルタリングすることができる。
また、漢字の読みは、音読み、訓読みだけでもよいし、常用漢字表外の読みを追加してもよいし、人名の読みを追加してもよい。
また、文字列単位のラベル候補の形態素には、二十歳(はたち)等の熟字訓を採用してもよい。
また、前記各実施形態では、日本語音声認識モデル学習装置として説明したが、各装置の構成の処理を可能にするように、汎用又は特殊なコンピュータ言語で記述した日本語音声認識モデル学習プログラムとみなすことも可能である。
さらに、第1から第3実施形態のうちの少なくとも2つを組み合わせてもよい。
[1.学習時の追加ラベル数に関する音声認識実験]
まず、第1の観点として、第1実施形態に係る日本語音声認識モデル学習装置について、学習時に、1文字単位のラベルに対して追加する文字列単位のラベルの個数を変えた上で学習により生成した音響モデル及び言語モデルを用いて音声認識したときの単語誤り率をそれぞれ求めた。また、第2実施形態に係る日本語音声認識モデル学習装置についても同様の実験を行った。
日本語でのエンドツーエンド音声認識に関する先行研究はほとんど報告されていない。そこで、非特許文献2に記載された手法、すなわち、英語でのend−to−end音声認識においてBi-directional LSTM(双方向長・短期記憶)とCTCとを用いる学習手法に倣って、日本語における音声認識実験を行った。なお、この手法自体は、1文字単位のラベルとして、音素の出力と文字の出力とがそれぞれ可能であるが、実験では、文字を出力するものを選択した。
実験では、生放送番組への字幕付与を想定したため、評価用データとして、NHK(登録商標)の情報番組「ひるまえほっと」の2013年6月放送分の番組音声(32k単語)を対象に音声認識実験を行った。
情報番組では話題が多様である上に話し言葉を含んで話されるため、一定の音声認識率を確保するためには現状では多量の学習データを必要とする。そこで、一例として、学習データには、下記の参考文献1に記載された基準で字幕を書き起こしとしてみなしてよいと判断された、放送音声と字幕のペアから成る1404時間分のデータを、学習データ1の音声1aとテキスト1bのペアとして利用した。
(参考文献1)「奥貴裕、尾上和穂、一木麻乃、佐藤庄衛、小林彰夫、“教師ラベルの精度推定に基づく音声言語コーパスの自動構築”、2015年秋季日本音響学会研究発表会講演論文集日本音響学会講演論文集、1-Q-1, pp.67-68」
言語モデルについては、比較のために2つ用意した。
1つは、音響モデルの学習に用いた1404時間分のデータを構成する字幕のテキスト(テキスト1b)から学習したものであり、以下では、s_LMと表記する。
もう1つは、その学習後に、更に多量のコーパスから学習した4gram言語モデルであり、以下では、l_LMと表記する。s_LMとl_LMとを独立に用いて音声認識実験を行った。
(参考文献2)「T. Kudo, K. Yamamoto, Y. Matsumoto, “Applying Conditional Random Fields to Japanese Morphological Analysis”, Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP-2004), pp.230-237, 2004」
第1実施形態で説明した高頻度形態素追加手法については、漢字のみの形態素において、追加する文字列単位のラベルの種類であるk、すなわち、出現頻度リストJの出現頻度の上位k種類を、500種(No.1)、800種(No.2)、1000種(No.3)のように変えた場合に、音響モデル及び言語モデルの学習をそれぞれ行った。その後、前記した評価用データを対象に音声認識実験を行った。
No.4では、追加ラベル数がおよそ300となるように、前記した式(1)における閾値を、n=0.12としてラベルを選定した結果、追加ラベルが325種となった。
No.5では、追加ラベル数がおよそ500となるように、前記した式(1)における閾値を、n=0.16としてラベルを選定した結果、追加ラベルが501種となった。
No.6では、追加ラベル数がおよそ800となるように、前記した式(1)における閾値を、n=0.22としてラベルを選定した結果、追加ラベルが801種となった。
No.1S〜No.6Sを以下の表1及び図11に示し、No.1L〜No.6Lを以下の表2及び図12に示す。図11及び図12において、グラフの横軸は、追加したラベル数を示し、縦軸は、音声認識の単語誤り率(WER:Word Error Rate)を示している。
次に、第2の観点として、第1実施形態に係る日本語音声認識モデル学習装置について、学習データ量を変えた上で学習により生成した音響モデル及び言語モデルを用いて音声認識したときの単語誤り率をそれぞれ求めた。また、第2実施形態に係る日本語音声認識モデル学習装置についても同様の実験を行った。さらに、比較として、1文字単位のラベルだけを用いる日本語音声認識モデル学習装置(以下、基本ラベル手法又はbaseという)についても同様の実験を行った。
第1実施形態で説明した高頻度形態素追加手法については、追加する文字列単位のラベルの個数を500種(No.1と同様)に固定した上で、学習データの時間数を、394時間(No.7)、971時間(No.8)、1023時間(No.9)、1404時間(No.10)のように変えた場合に、音響モデル及び言語モデルの学習をそれぞれ行った。その後、前記した評価用データを対象に音声認識実験を行った。なお、No.10の実験は、前記したNo.1の実験と等価である。
No.7S〜No.14S及びNo.21S〜No.24Sを以下の表3及び図13に示し、No.7L〜No.14L及びNo.21L〜No.24Lを以下の表4及び図14に示す。
図13及び図14において、グラフの横軸は、学習データ量を時間単位で示し、縦軸は、音声認識の単語誤り率(WER)を示している。
以下、表3に記載のNo.8S、No.12S、No.22Sを、実施例1、実施例2、比較例1という。
また、表4に記載のNo.8L、No.12L、No.22Lを、実施例3、実施例4、比較例2という。
漢字の読みのバリエーションを学習するためにはデータ量が必要であるが、学習データのデータ量が十分ではないときにも、高頻度形態素追加手法及び低頻度読み形態素追加手法を用いると、基本ラベル手法(base)と同等の性能が得られることが分かった。
1 学習データ
1a 音声
1b テキスト
2 日本語音声認識モデル学習装置
4 音響モデル学習手段
5 言語モデル学習手段
20,20A,20B ラベル生成手段
21 形態素分割手段
22 基本ラベル作成手段
23 出現頻度リスト作成手段
24,24A,24B ラベル選定手段
241 ラベル選定制御手段
242 出現頻度判定手段
243,243A,243B ラベル決定手段
244,244B 閾値判定手段
25 出現漢字リスト作成手段
26,26B 形態素リスト作成手段
27,27B 読みリスト作成手段
28 編集距離算出手段
29 読み区切り推定手段
Claims (5)
- 入力される音声又は音響特徴量に対応した正解として推定される文字のラベルを出力するエンドツーエンドの音響モデルを生成する日本語音声認識モデル学習装置であって、
日本語の音響モデル作成用の学習データにおける音声又は音響特徴量とテキストとのペア、1文字単位のラベル、及び少なくとも1文字の漢字を含む文字列単位のラベルを用いる学習により前記音響モデルを生成する音響モデル学習手段と、
前記学習データにおけるテキスト、前記1文字単位のラベル、及び前記文字列単位のラベルを用いる学習により、前記1文字単位のラベルと前記文字列単位のラベルとを単語列に変換する言語モデルを生成する言語モデル学習手段と、
前記学習データにおけるテキストから、前記文字列単位のラベルを生成するラベル生成手段と、を備え、
前記ラベル生成手段は、
前記学習データのテキストを形態素に分割し、そのそれぞれについて読みを付与する形態素分割手段と、
少なくとも1文字の漢字を含む文字列からなる形態素について前記学習データ内での出現頻度を表す出現頻度リストを作成する出現頻度リスト作成手段と、
前記学習データ内で出現頻度が予め定められた基準より高い前記形態素、又は、前記学習データ内で漢字の特定の読みの出現頻度が予め定められた基準より低い前記形態素を検出し、検出した前記形態素を表す文字列を構成する少なくとも一部の文字列を、前記文字列単位のラベルとして選定するラベル選定手段と、を備える日本語音声認識モデル学習装置。 - 前記ラベル生成手段は、
前記出現頻度リストから出現頻度の高い予め定められた個数の異なる形態素からなる形態素集合を作成すると共に、前記学習データにおけるテキストが分割された形態素区間に対応した形態素が前記形態素集合に含まれるか否かを形態素区間毎に判定する出現頻度判定手段と、
前記形態素集合に含まれると判定された形態素を表す文字列全体又はその一部であって先頭から所定文字数の文字列を、前記文字列単位のラベルとして決定するラベル決定手段と、
を備える請求項1に記載の日本語音声認識モデル学習装置。 - 前記ラベル生成手段は、
前記出現頻度リストの中に含まれる形態素のうち、漢字について1文字単位で重複のないリストである出現漢字リストを作成する出現漢字リスト作成手段と、
前記出現漢字リストに基づいて、注目する漢字毎に、当該漢字を先頭の文字に含む形態素のリストである形態素リストを作成する形態素リスト作成手段と、
前記注目する漢字を先頭の文字に含む形態素リストに出現する形態素毎に、前記形態素を、当該形態素全体の読みにおける頭文字の読み毎に設けた読みリストのいずれかへ格納する読みリスト作成手段と、
前記形態素全体の読みにおける頭文字の読み毎に設けた読みリストごとに、前記読みリストに格納されている形態素の個数を、前記形態素リストに格納されている全形態素の個数で除した値を所定の閾値と比較する閾値判定手段と、
前記閾値より小さいと判定された読みリストに格納されている形態素を表す文字列全体又はその一部であって先頭から所定文字数の文字列を、前記文字列単位のラベルとして決定するラベル決定手段と、
を備える請求項1に記載の日本語音声認識モデル学習装置。 - 前記ラベル生成手段は、
前記出現頻度リストの中に含まれる形態素のうち、漢字について1文字単位で重複のないリストである出現漢字リストを作成する出現漢字リスト作成手段と、
前記出現漢字リストに基づいて、注目する漢字毎に、当該漢字を含む形態素のリストである形態素リストを作成すると共に、前記注目する漢字毎の形態素リストに出現する各形態素に含まれる全ての漢字の一文字単独での全ての読みのリストである単独漢字リストとを作成する形態素リスト作成手段と、
前記注目する漢字毎の形態素リストに出現する形態素毎に、前記単独漢字リストを参照して、前記形態素を構成する各漢字に単独の読みを付与したときに対応付けられる全ての組み合わせを、前記形態素分割手段で付与された当該形態素全体の読みと比較して編集距離を算出する編集距離算出手段と、
前記編集距離が最小となる漢字の組み合わせを求め、当該形態素において前記注目する漢字の単独の読みの区切りを推定する読み区切り推定手段と、
前記単独漢字リストを参照して、前記形態素において前記注目する漢字に対して推定された読みの区切りが、前記注目する漢字の一文字単独での全ての読みのいずれであるのかを判定し、判定された読みに応じて、前記形態素を前記注目する漢字の読みごとに分類した読みリストへ格納する読みリスト作成手段と、
前記注目する漢字の読みごとに分類した読みリストごとに、前記読みリストに格納されている全形態素の個数を、前記注目する漢字毎の形態素リストに格納されている全形態素の個数で除した値を所定の閾値と比較する閾値判定手段と、
前記閾値より小さいと判定された読みリストに格納されている形態素を表す文字列全体又はその一部であって先頭から所定文字数の文字列を、前記文字列単位のラベルとして決定するラベル決定手段と、
を備える請求項1に記載の日本語音声認識モデル学習装置。 - コンピュータを、請求項1から請求項4のいずれか一項に記載の日本語音声認識モデル学習装置として機能させるための日本語音声認識モデル学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016204175A JP6718787B2 (ja) | 2016-10-18 | 2016-10-18 | 日本語音声認識モデル学習装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016204175A JP6718787B2 (ja) | 2016-10-18 | 2016-10-18 | 日本語音声認識モデル学習装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018066800A JP2018066800A (ja) | 2018-04-26 |
JP6718787B2 true JP6718787B2 (ja) | 2020-07-08 |
Family
ID=62085994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016204175A Expired - Fee Related JP6718787B2 (ja) | 2016-10-18 | 2016-10-18 | 日本語音声認識モデル学習装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6718787B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299471B (zh) * | 2018-11-05 | 2022-12-27 | 广州百田信息科技有限公司 | 一种文本匹配的方法、装置及终端 |
CN111540363B (zh) * | 2020-04-20 | 2023-10-24 | 合肥讯飞数码科技有限公司 | 关键词模型及解码网络构建方法、检测方法及相关设备 |
CN113408664B (zh) * | 2021-07-20 | 2024-04-16 | 北京百度网讯科技有限公司 | 训练方法、分类方法、装置、电子设备以及存储介质 |
JP7575640B1 (ja) | 2021-09-30 | 2024-10-29 | グーグル エルエルシー | 希少単語音声認識のための大規模言語モデルデータ選択 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10540957B2 (en) * | 2014-12-15 | 2020-01-21 | Baidu Usa Llc | Systems and methods for speech transcription |
-
2016
- 2016-10-18 JP JP2016204175A patent/JP6718787B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2018066800A (ja) | 2018-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alumäe et al. | Advanced rich transcription system for Estonian speech | |
US7966173B2 (en) | System and method for diacritization of text | |
Tachbelie et al. | Using different acoustic, lexical and language modeling units for ASR of an under-resourced language–Amharic | |
JP6941494B2 (ja) | エンドツーエンド日本語音声認識モデル学習装置およびプログラム | |
KR20170011636A (ko) | 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법 | |
JP6718787B2 (ja) | 日本語音声認識モデル学習装置及びプログラム | |
Kadyan et al. | Refinement of HMM model parameters for Punjabi automatic speech recognition (PASR) system | |
US20100100379A1 (en) | Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method | |
US11935523B2 (en) | Detection of correctness of pronunciation | |
CN102063900A (zh) | 克服混淆发音的语音识别方法及系统 | |
CN109979257B (zh) | 一种基于英语朗读自动打分进行分拆运算精准矫正的方法 | |
CN112259083B (zh) | 音频处理方法及装置 | |
CN118471201B (zh) | 一种高效自适应面向语音识别引擎的热词纠错方法与系统 | |
CN115455946A (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
Seki et al. | Diversity-based core-set selection for text-to-speech with linguistic and acoustic features | |
Azim et al. | Large vocabulary Arabic continuous speech recognition using tied states acoustic models | |
CN113205813B (zh) | 语音识别文本的纠错方法 | |
CN111429886B (zh) | 一种语音识别方法及系统 | |
US20240144915A1 (en) | Speech recognition apparatus, speech recognition method, learning apparatus, learning method, and recording medium | |
CN114974222A (zh) | 一种词汇拆分模型构建方法、语音识别模型构建方法 | |
Réveil et al. | Improving proper name recognition by means of automatically learned pronunciation variants | |
CN114492382A (zh) | 人物提取方法、文本朗读方法、对话式文本生成方法、装置、设备及存储介质 | |
Tian | Data-driven approaches for automatic detection of syllable boundaries. | |
Abdullah et al. | Central Kurdish Automatic Speech Recognition using Deep Learning. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190904 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200526 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200615 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6718787 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |