JP6712754B2 - 談話機能推定装置及びそのためのコンピュータプログラム - Google Patents
談話機能推定装置及びそのためのコンピュータプログラム Download PDFInfo
- Publication number
- JP6712754B2 JP6712754B2 JP2016162927A JP2016162927A JP6712754B2 JP 6712754 B2 JP6712754 B2 JP 6712754B2 JP 2016162927 A JP2016162927 A JP 2016162927A JP 2016162927 A JP2016162927 A JP 2016162927A JP 6712754 B2 JP6712754 B2 JP 6712754B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- utterance
- bow
- discourse
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004590 computer program Methods 0.000 title claims description 5
- 239000013598 vector Substances 0.000 claims description 216
- 230000006870 function Effects 0.000 claims description 111
- 238000010606 normalization Methods 0.000 claims description 45
- 238000013528 artificial neural network Methods 0.000 claims description 26
- 238000004458 analytical method Methods 0.000 claims description 24
- 230000009467 reduction Effects 0.000 claims description 18
- 230000000877 morphologic effect Effects 0.000 claims description 14
- 238000007476 Maximum Likelihood Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 10
- 238000000034 method Methods 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- User Interface Of Digital Computer (AREA)
Description
〈概略〉
図1を参照して、本発明の第1の実施の形態に係る談話機能推定装置44は、操作者40が発する音声42から得られる言語情報だけではなく、その韻律情報も含めて談話機能を検出する。検出された談話機能により、ロボット48の頭部動作46を制御したり、ロボット48の応答を制御したりすることで、操作者40とロボット48との間の自然な対話を実現する。
図2を参照して、本実施の形態に係る談話機能推定装置44は、発話者の音声42を受けて音声認識し、音声認識結果のテキストデータを出力する音声認識装置70、このテキストデータに対して形態素解析を行い、品詞情報などが付された形態素列を出力する形態素解析部72、及び、形態素解析部72が出力した形態素列の品詞情報の時系列を記憶し、それら品詞を要素とするベクトルを出力する時系列品詞情報記憶部74を含む。
話者の音声42が入力されると、音声認識装置70は音声42に対する音声認識を行い、発話の内容に対応するテキストデータを出力する。形態素解析部72はこの出力を受け、付属の形態素解析用辞書(図示せず)を参照して形態素解析を行い、品詞情報が付された形態素列を出力する。時系列品詞情報記憶部74は、この形態素列のうち、品詞情報の時系列を所定個数だけ記憶する。
〈構成〉
図3に、本発明の第2の実施の形態に係る談話機能推定装置100のブロック図を示す。この談話機能推定装置100が第1の実施の形態に係る談話機能推定装置44と異なるのは、時系列品詞情報記憶部74に代えて、形態素解析部72の出力する形態素列に基づいて、時系列の品詞情報ではなく、最新の形態素のnグラムをバッグ・オブ・ワーズ(BOWベクトル)表現により表すベクトルを生成するためのベクトル生成部110を含む点と、ベクトル生成部110の出力するBOWベクトルを正規化するためのベクトル正規化部111を含む点と、ベクトル正規化部111により正規化されたBOWベクトルの次元をLDA(Latent Dirichlet Association)により削減する処理を行い、次元が削減されたベクトルを出力するためのベクトル次元削減処理部112を含む点と、図2の分類器82に代えて、ベクトル次元削減処理部112からのベクトルと話者正規化部80の出力するベクトルとを連結したものを素性ベクトルとして受け、音声42の表す発話の談話機能をk、g、q(質問・応答要求)、bc(相槌)のいずれかに分類する、SVMからなる分類器114を含む点とである。分類器114は、あらかじめ上記した4つのタグによりラベル付けされた学習データと、当該学習データに対して話者正規化部80の出力する正規化されたF0とにより学習を行っている。
この第2の実施の形態に係る談話機能推定装置100は以下のように動作する。音声認識装置70、形態素解析部72、F0抽出部76、F0平均記憶部78及び話者正規化部80の動作は、第1の実施の形態と同じである。ベクトル生成部110は、形態素解析部72の出力する形態素列に基づいて、最後の句のBOWベクトルを生成し、ベクトル正規化部111に与える。ベクトル正規化部111は、前述した手順にしたがってBOWベクトルを正規化し、ベクトル次元削減処理部112に与える。ベクトル次元削減処理部112は、このように正規化されたBOWベクトルに対してLDA処理を行うことにより、次元が削減されたベクトルを生成する。
〈構成〉
図4に、第3の実施の形態に係る談話機能推定装置130の概略構成を示す。図4を参照して、この談話機能推定装置130が図3に示す談話機能推定装置100と異なるのは、図2に示すベクトル次元削減処理部112に代えてボトルネックニューラルネットワーク140を含む点、及び、図2のSVMを用いた分類器114に代えて、ディープニューラルネットワーク(DNN)と隱れマルコフモデル(HMM)を組み合わせた分類器142を含む点である。その他の点において、談話機能推定装置130は談話機能推定装置100と同一である。ただし、この実施の形態では、音声のF0を用いる区間の長さは、150ミリ秒〜200ミリ秒であって、事前の実験により適切な値を選択するものとする。
第3の実施の形態に係る談話機能推定装置130は以下のように動作する。音声認識装置70、形態素解析部72、ベクトル生成部110、ベクトル正規化部111、F0抽出部76、F0平均記憶部78、及び音声認識装置70は第2の実施の形態と同様に動作する。ボトルネックニューラルネットワーク140は、ベクトル正規化部111の出力するベクトルを受けて、ボトルネック特徴量を出力する。話者正規化部80は、直前の所定時間の音声の10ミリ秒ごとのF0を正規化したもののうち、最新の所定個数を要素として持つベクトルを分類器142に与える。
〈構成〉
図8に、本発明の第4の実施の形態に係る談話機能推定装置250の概略構成を示す。図8を参照して、談話機能推定装置250が第3の実施の形態に係る談話機能推定装置130と異なるのは、音声認識装置70に代えて、音声認識を行ってテキストデータを出力するのに加えて、発話の句末を検出して句末区間を特定する信号を出力する機能を持つ音声認識装置260を含む点、話者正規化部80に代えて、F0抽出部76の出力するF0を、10ミリ秒ごとに、F0平均記憶部78に記憶されたF0平均値を減算して正規化して複数記憶し、音声認識装置260が出力する信号に応答して、その信号により表される期間に相当するF0の系列をベクトルとして出力する話者正規化部262と、話者正規化部262の出力するF0を用いて、句末の韻律を表す固定長のベクトルを出力する句末区間正規化部264を含む点、及び第3の実施の形態の分類器142に代えて、ボトルネックニューラルネットワーク140の出力するボトルネック特徴量からなるベクトルと、句末区間正規化部264が出力する、句末区間の韻律を示す固定長のベクトルとを連結したベクトルを素性ベクトルとして受け、素性ベクトルに対応する談話機能252を推定し出力する分類器266を含む点である。
談話機能推定装置250の音声認識装置260は、音声42を音声認識してテキストデータを出力するとともに、句末を検出して句末の区間を特定する信号を話者正規化部262に与える。形態素解析部72、ベクトル生成部110、ベクトル正規化部111及びボトルネックニューラルネットワーク140は第3の実施の形態と同様に動作し、言語情報に基づいて得られた素性のベクトルを分類器266に与える。F0抽出部76は、音声42のF0を10ミリ秒ごとに算出して話者正規化部262に与える。話者正規化部262はこの値からF0平均記憶部78に記憶されていたF0の平均値を減算することにより正規化し、時系列として記憶する。音声認識装置260から句末の期間を特定する信号が与えられると、話者正規化部262は、その期間の正規化後のF0系列を句末区間正規化部264に与える。句末区間正規化部264は、このF0系列を上記した2種類のカテゴリにしたがって分類し、分類されたカテゴリを示すデータをベクトル形式で分類器266に与える。分類器266は、ボトルネックニューラルネットワーク140
からの言語情報に基づく素性のベクトルと、句末区間正規化部264からの、韻律情報に基づく素性のベクトルとを連結したものを素性ベクトルとして受け、学習パラメータにしたがって句末の談話機能を推定し談話機能252を出力する。
上記した第2の実施の形態の談話機能推定装置100の構成を用いて以下の様な実験を行った。韻律情報(F0)を用いず、言語情報のみによる談話機能を推定する予備実験を行ったところ、ベクトル次元削減処理部112にLDAを用いた場合には、BOW、POSのユニグラム、バイグラム及びトライグラムのいずれを用いた場合よりも高い精度が得られた。そこで、言語情報のみを用いてベクトル次元削減処理部112としてLDAを用いた結果と、言語情報に加えて韻律情報を加えてベクトル次元削減処理部112にLDAを用いた場合の精度を比較した。結果を図9に示す。
以上のように本発明の実施の形態によると、言語情報だけではなく、句末の韻律情報を考慮して句末の談話機能を推定する。したがって、言語情報のみを用いる場合と比較してより高い精度で談話機能を推定できる。さらに、分類器としてSVM、DNN、または隱れマルコフモデルとDNNの組み合わせを用いることにより、学習結果を反映した安定した高精度で句末の談話機能を推定できる。したがって、この談話機能を用いてヒューマン・マシンインターフェイスを構築することにより、より自然なインタラクションを実現できる。
本発明の各実施の形態に係る談話機能推定装置は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図11はこのコンピュータシステム530の外観を示し、図12はコンピュータシステム530の内部構成を示す。
42 音声
44、100、130、250 談話機能推定装置
46 頭部動作
48 ロボット
50、102、132、252 談話機能
70、260 音声認識装置
72 形態素解析部
74 時系列品詞情報記憶部
76 F0抽出部
78 F0平均記憶部
80、262 話者正規化部
82、114、142、266 分類器
84 句境界情報
110 ベクトル生成部
111 ベクトル正規化部
112 ベクトル次元削減処理部
140 ボトルネックニューラルネットワーク
150 入力ベクトル
152 入力層
154、158、192 隠れ層
156 ボトルネック層
160、194 出力層
162 出力ベクトル
164 ボトルネック特徴量
180 DNN
182 素性ベクトル
190 入力層
210、212、214、216 談話機能の状態
218 最尤系列
264 句末区間正規化部
Claims (17)
- 発話のテキストデータを受け、当該テキストデータを形態素解析して前記発話における談話機能推定のための第1のベクトルを生成する第1のベクトル生成手段と、
前記発話に対応する音声信号において、発話中に検出された句末の直前の所定区間の前記音声信号中から基本周波数成分を抽出し、基本周波数成分の変化を表す第2のベクトルを生成する第2のベクトル生成手段と、
前記第1のベクトル及び前記第2のベクトルからなる素性ベクトルを入力として受け、前記句末における前記発話の談話機能を、予め定める複数通りの談話機能のいずれかに分類するよう、予め機械学習により学習済の分類手段とを含み、
前記第1のベクトル生成手段は、
発話のテキストデータを受け、当該テキストデータを形態素解析し、形態素列を出力するための形態素解析手段と、
前記形態素列に出現する単語の集合(BOW)を表すBOWベクトルを生成するBOWベクトル生成手段と、
前記BOWベクトル生成手段の要素を、所定のデータセット中における各単語の出現頻度と、前記発話中における各単語の出現頻度とにより正規化し、正規化後BOWベクトルを出力するためのBOWベクトル正規化手段と、
前記BOWベクトル正規化手段の出力する前記正規化後BOWベクトルの次元を削減して前記第1のベクトルとして出力するための次元削減手段とを含む、談話機能推定装置。 - 前記第2のベクトル生成手段は、
発話中に検出された句末の直前の前記所定区間を複数個の分割区間に分割する分割手段と、
前記分割手段により分割された各分割区間の基本周波数を要素として前記第2のベクトルを生成するための手段を含む、請求項1に記載の談話機能推定装置。 - 前記次元削減手段は、前記BOWベクトル正規化手段の出力する前記正規化後BOWベクトルの次元を、潜在的ディリクレ配分法(LDA)により削減して前記第1のベクトルを生成するための手段を含む、請求項1又は請求項2に記載の談話機能推定装置。
- 前記次元削減手段は、
前記BOWベクトル正規化手段の出力する前記正規化後BOWベクトルを受けるように接続された、入力と出力とが等しくなるように予め学習済のボトルネックニューラルネットワークと、
前記正規化後BOWベクトルが与えられたことに応答して前記ボトルネックニューラルネットワークのボトルネック層の各ノードから出力される値を要素として前記第1のベクトルを生成するための手段とを含む、請求項1又は請求項2に記載の談話機能推定装置。 - 前記分類手段は、前記素性ベクトルを入力として受け、前記句末における前記発話の談話機能を、予め定める複数通りの談話機能のいずれかに分類するよう学習済のサポートベクトルマシンを含む、請求項1〜請求項4の何れかに記載の談話機能推定装置。
- 前記分類手段は、
発話の談話機能に対応する隠れ状態の遷移経路と、各隠れ状態における前記素性ベクトルの各要素の出力確率とを表現する隠れマルコフモデルと、
前記素性ベクトルを入力として受け、当該素性ベクトルを出力した隠れ状態の後に、前記隠れ状態の各々に前記隠れマルコフモデルの状態が遷移する確率を出力するように予め機械学習により学習済のディープニューラルネットワークと、
前記素性ベクトル、前記隠れマルコフモデル、及び前記ディープニューラルネットワークの出力に基づき、発話の隠れ状態の遷移経路として最尤の経路を推定する最尤推定手段と、
前記最尤推定手段により推定された経路に基づいて前記発話の談話機能を推定するための手段とを含む、請求項1〜請求項4のいずれかに記載の談話機能推定装置。 - 発話のテキストデータを受け、当該テキストデータを形態素解析して前記発話における談話機能推定のための第1のベクトルを生成する第1のベクトル生成手段と、
前記発話に対応する音声信号において、発話中に検出された句末の直前の所定区間の前記音声信号中から基本周波数成分を抽出し、基本周波数成分の変化を表す第2のベクトルを生成する第2のベクトル生成手段と、
前記第1のベクトル及び前記第2のベクトルからなる素性ベクトルを入力として受け、前記句末における前記発話の談話機能を、予め定める複数通りの談話機能のいずれかに分類するよう、予め機械学習により学習済の分類手段とを含み、
前記分類手段は、
発話の談話機能に対応する隠れ状態の遷移経路と、各隠れ状態における前記素性ベクトルの各要素の出力確率とを表現する隠れマルコフモデルと、
前記素性ベクトルを入力として受け、当該素性ベクトルを出力した隠れ状態の後に、前記隠れ状態の各々に前記隠れマルコフモデルの状態が遷移する確率を出力するように予め機械学習により学習済のディープニューラルネットワークと、
前記素性ベクトル、前記隠れマルコフモデル、及び前記ディープニューラルネットワークの出力に基づき、発話の隠れ状態の遷移経路として最尤の経路を推定する最尤推定手段と、
前記最尤推定手段により推定された経路に基づいて前記発話の談話機能を推定するための手段とを含む、談話機能推定装置。 - 前記第2のベクトル生成手段は、
発話中に検出された句末の直前の前記所定区間を複数個の分割区間に分割する分割手段と、
前記分割手段により分割された各分割区間の基本周波数を要素として前記第2のベクトルを生成するための手段を含む、請求項7に記載の談話機能推定装置。 - 前記第1のベクトル生成手段は、
発話のテキストデータを受け、当該テキストデータを形態素解析し、形態素列を出力するための形態素解析手段と、
前記形態素解析手段により出力された前記形態素列を時系列的に記憶するための形態素列記憶手段と、
少なくとも、前記形態素列記憶手段に記憶された最新の所定個数の形態素の各々から得られる品詞情報を要素として、前記第1のベクトルを生成し前記分類器に出力するための手段とを含む、請求項7又は請求項8に記載の談話機能推定装置。 - 前記第1のベクトル生成手段は、
発話のテキストデータを受け、当該テキストデータを形態素解析し、形態素列を出力するための形態素解析手段と、
前記形態素列に出現する単語の集合(BOW)を表すBOWベクトルを生成するBOWベクトル生成手段と、
前記BOWベクトル生成手段の要素を、所定のデータセット中における各単語の出現頻度と、前記発話中における各単語の出現頻度とにより正規化し、正規化後BOWベクトルを出力するためのBOWベクトル正規化手段と、
前記BOWベクトル正規化手段の出力する前記正規化後BOWベクトルの次元を削減して前記第1のベクトルとして出力するための次元削減手段とを含む、請求項7又は請求項8に記載の談話機能推定装置。 - 前記次元削減手段は、前記BOWベクトル正規化手段の出力する前記正規化後BOWベクトルの次元を、潜在的ディリクレ配分法(LDA)により削減して前記第1のベクトルを生成するための手段を含む、請求項10に記載の談話機能推定装置。
- 前記次元削減手段は、
前記BOWベクトル正規化手段の出力する前記正規化後BOWベクトルを受けるように接続された、入力と出力とが等しくなるように予め学習済のボトルネックニューラルネットワークと、
前記正規化後BOWベクトルが与えられたことに応答して前記ボトルネックニューラルネットワークのボトルネック層の各ノードから出力される値を要素として前記第1のベクトルを生成するための手段とを含む、請求項10に記載の談話機能推定装置。 - 前記第2のベクトル生成手段は、
前記発話に対応する音声信号において、発話中に検出された句末の直前の所定区間の前記音声信号中から基本周波数成分を抽出し対数基本周波数成分として記憶するための基本周波数抽出手段と、
予め抽出した、前記発話の話者の音声の基本周波数の対数の平均値を記憶する基本周波数平均記憶手段と、
前記基本周波数抽出手段により抽出された前記対数基本周波数成分から前記基本周波数平均記憶手段に記憶された前記平均値を減ずることにより前記対数基本周波数成分を正規化し、当該正規化された前記対数基本周波数成分を要素として前記第2のベクトルを生成するための手段とを含む、請求項1〜請求項12のいずれかに記載の談話機能推定装置。 - 前記発話における前記話者の音声の基本周波数の対数を所定時間ごとに算出するための基本周波数算出手段と、
前記基本周波数算出手段により所定時間ごとに算出された前記基本周波数の対数の平均値を算出し、前記基本周波数平均記憶手段に格納するための手段とをさらに含む、請求項13に記載の談話機能推定装置。 - 前記発話の句末を検出して句末信号を出力するための句末検出手段をさらに含み、
前記第1のベクトル生成手段及び前記第2のベクトル生成手段は、それぞれ、前記句末検出手段により検出された句末の直前の前記テキストデータ及び前記音声信号から前記第1のベクトル及び前記第2のベクトルを生成し出力する、請求項1又は請求項7に記載の談話機能推定装置。 - 前記句末検出手段は、前記発話に対する音声認識を行って前記テキストデータを出力する音声認識装置と、
前記音声認識装置の出力する前記テキストデータの、前記句末直前の音素情報から、前記句末として取り扱うべき句末区間を特定する句末特定手段を含み、
前記第2のベクトル生成手段は、
前記句末区間をそれぞれ所定長さの部分区間に区切って各部分区間の基本周波数の対数を抽出するための手段と、
前記抽出するための手段により抽出された各部分区間の基本周波数の対数の間の関係に基づいて、固定長の前記第2のベクトルを生成するための手段とを含む、請求項15に記載の談話機能推定装置。 - コンピュータを、請求項1〜請求項16のいずれかに記載の談話機能推定装置として機能させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016162927A JP6712754B2 (ja) | 2016-08-23 | 2016-08-23 | 談話機能推定装置及びそのためのコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016162927A JP6712754B2 (ja) | 2016-08-23 | 2016-08-23 | 談話機能推定装置及びそのためのコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018031851A JP2018031851A (ja) | 2018-03-01 |
JP6712754B2 true JP6712754B2 (ja) | 2020-06-24 |
Family
ID=61303977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016162927A Active JP6712754B2 (ja) | 2016-08-23 | 2016-08-23 | 談話機能推定装置及びそのためのコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6712754B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563119B (zh) * | 2018-03-26 | 2021-06-15 | 哈尔滨工程大学 | 一种基于模糊支持向量机算法的无人艇运动控制方法 |
JP7007617B2 (ja) * | 2018-08-15 | 2022-01-24 | 日本電信電話株式会社 | 話し終わり判定装置、話し終わり判定方法およびプログラム |
CN109461441B (zh) * | 2018-09-30 | 2021-05-11 | 汕头大学 | 一种自适应、无监督式的课堂教学活动智能感知方法 |
JP2021156922A (ja) * | 2020-03-25 | 2021-10-07 | 株式会社日立情報通信エンジニアリング | 音声認識方法および音声認識プログラム |
JP2021156921A (ja) * | 2020-03-25 | 2021-10-07 | 株式会社日立情報通信エンジニアリング | 音声認識方法および音声認識プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3009642B2 (ja) * | 1997-10-22 | 2000-02-14 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声言語処理単位変換装置 |
GB9930731D0 (en) * | 1999-12-22 | 2000-02-16 | Ibm | Voice processing apparatus |
JP4729902B2 (ja) * | 2003-12-12 | 2011-07-20 | 株式会社豊田中央研究所 | 音声対話システム |
JP2008134475A (ja) * | 2006-11-28 | 2008-06-12 | Internatl Business Mach Corp <Ibm> | 入力された音声のアクセントを認識する技術 |
-
2016
- 2016-08-23 JP JP2016162927A patent/JP6712754B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018031851A (ja) | 2018-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11887582B2 (en) | Training and testing utterance-based frameworks | |
KR102677459B1 (ko) | 2-레벨 스피치 운율 전송 | |
US11393453B2 (en) | Clockwork hierarchical variational encoder | |
US11264010B2 (en) | Clockwork hierarchical variational encoder | |
KR101229034B1 (ko) | 디바이스 인터페이싱을 위한 다중모드 조음 통합 | |
JP5327054B2 (ja) | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム | |
US10460034B2 (en) | Intention inference system and intention inference method | |
JP6712754B2 (ja) | 談話機能推定装置及びそのためのコンピュータプログラム | |
US20230018384A1 (en) | Two-Level Text-To-Speech Systems Using Synthetic Training Data | |
JP2024514064A (ja) | ニューラルテキストトゥスピーチのための音素と書記素 | |
EP4409568A1 (en) | Contrastive siamese network for semi-supervised speech recognition | |
US11270691B2 (en) | Voice interaction system, its processing method, and program therefor | |
JP2017102247A (ja) | 音声対話システム、音声対話制御法およびプログラム | |
KR20210081166A (ko) | 다국어 음성 환경에서의 언어 식별 장치 및 방법 | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
Rashmi et al. | Hidden Markov Model for speech recognition system—a pilot study and a naive approach for speech-to-text model | |
KR20210036169A (ko) | 대화 시스템, 대화 처리 방법, 번역 장치 및 번역 방법 | |
EP4399704A1 (en) | Predicting word boundaries for on-device batching of end-to-end speech recognition models | |
KR102458830B1 (ko) | 사용자 중심의 음성 대화 시스템 | |
Nishida et al. | Misrecognized Utterance Identification in Support Systems for Daily Human-to-Human Conversations | |
Takrim et al. | Speech to Text Recognition | |
Korchynskyi et al. | Methods of improving the quality of speech-to-text conversion | |
KR20240068723A (ko) | Rnn-T로 구현된 자동 음성 인식 시스템에서 음향과 텍스트 표현의 융합 | |
KANASRO et al. | Speech Recognition based web scripting from predefined Context Free Grammar (Language Model & Grammar) programmed in Visual Programming and Text Editor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20160915 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190418 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200316 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200428 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200512 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6712754 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |