JP5073024B2 - Spoken dialogue device - Google Patents
Spoken dialogue device Download PDFInfo
- Publication number
- JP5073024B2 JP5073024B2 JP2010179194A JP2010179194A JP5073024B2 JP 5073024 B2 JP5073024 B2 JP 5073024B2 JP 2010179194 A JP2010179194 A JP 2010179194A JP 2010179194 A JP2010179194 A JP 2010179194A JP 5073024 B2 JP5073024 B2 JP 5073024B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- template
- sentence
- keyword
- generation unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明の実施形態は、音声によって対話を行う音声対話装置に関する。 Embodiments described herein relate generally to a voice interaction apparatus that performs a conversation by voice.
音声対話装置がユーザと対話するためには対話内容に即した発話を行う必要がある。しかし、多種多様な発話を行うためには、高度な言語処理と膨大なデータベースが必要となる。そこで、実際の対話履歴を元にシステムの発話内容を生成する方法が提案されている。例えば、その中の一つの方法は、音声対話におけるユーザとの対話履歴を使用するものであり、ユーザの発話音声を音声認識し、認識結果を対話履歴として使用する。 In order for the voice interaction apparatus to interact with the user, it is necessary to utter in accordance with the content of the conversation. However, in order to perform a wide variety of utterances, advanced language processing and a huge database are required. Therefore, a method for generating the utterance content of the system based on the actual conversation history has been proposed. For example, one of the methods uses a dialogue history with a user in a voice dialogue, recognizes a user's utterance voice, and uses a recognition result as a dialogue history.
音声対話ではユーザの発話にはゆらぎが大きい。意味的には同じ内容の発話でも、言い回しや語尾が変化し、いつも同じ文章を発話するとは限らない。そのような環境下においても、音声対話を用いて新しい発話テンプレートを生成する必要がある。 In the voice dialogue, the user's utterance has a large fluctuation. Semantically speaking, even if the utterance has the same content, the wording or ending changes, and the same sentence is not always uttered. Even in such an environment, it is necessary to generate a new utterance template using voice dialogue.
そこで、本発明の実施形態は、上記問題点に鑑み、ユーザとの音声対話を利用して発話テンプレートを生成する音声対話装置を提供することを目的とする。 Therefore, in view of the above problems, an embodiment of the present invention aims to provide a voice interaction device that generates an utterance template using a voice interaction with a user.
本発明の実施形態は、テンプレート辞書に格納した発話テンプレートを用いてユーザと音声対話を行う音声対話装置において、特定の話題に関する複数のキーワードと、前記各キーワードにそれぞれ対応した概念を示す情報とを格納したキーワード辞書格納部と、ユーザの発話文を音声認識する音声認識部と、前記音声認識部が音声認識した前記発話文中に、前記キーワード辞書に格納された前記キーワードが含まれていた場合、前記キーワードを前記キーワードに対応する前記概念を示す情報に置き換えて、置き換えた前記発話文を新しい発話テンプレートに設定し、前記テンプレート辞書に格納するテンプレート生成部と、を有することを特徴とする音声対話装置である。 An embodiment of the present invention provides a plurality of keywords related to a specific topic and information indicating a concept corresponding to each keyword in a voice interaction device that performs a voice conversation with a user using an utterance template stored in a template dictionary. When the keyword stored in the keyword dictionary is included in the stored keyword dictionary storage unit, the speech recognition unit that recognizes speech of the user's utterance, and the utterance that is recognized by the speech recognition unit, A voice dialog, comprising: a template generation unit that replaces the keyword with information indicating the concept corresponding to the keyword, sets the replaced speech sentence as a new speech template, and stores the template in the template dictionary Device.
以下、本発明に係る音声対話装置1の実施の形態を図面に基づいて説明する。 DESCRIPTION OF EMBODIMENTS Hereinafter, an embodiment of a voice interaction device 1 according to the present invention will be described based on the drawings.
本発明の実施例1の音声対話装置1について図1〜図3に基づいて説明する。 A voice interaction apparatus 1 according to a first embodiment of the present invention will be described with reference to FIGS.
本実施例の音声対話装置1は、図1(a)に示すように、例えば、ユーザ2と音声によって対話を行うロボット3に内蔵された装置である。
As shown in FIG. 1A, the voice interaction device 1 according to the present embodiment is a device built in a robot 3 that interacts with the
まず、音声対話装置1の構成について図1(b)のブロック図に基づいて説明する。 First, the configuration of the voice interaction apparatus 1 will be described based on the block diagram of FIG.
音声対話装置1は、ユーザ2の音声を入力するためのマイク15、ユーザ2の音声を音声認識してテキストの発話文に変換する音声認識部13、ユーザ2の発話内容に応じて発話文を生成する発話生成部11、ユーザに対する発話文を音声に変換する音声合成部14、音声を出力するスピーカ16、発話プレートを生成するテンプレート生成部12、キーワード辞書データベース17、テンプレート辞書データベース18、概念辞書19を有する。
The voice interactive apparatus 1 includes a
キーワード辞書データベース17には、複数のキーワード辞書171が格納されている。キーワード辞書171は、図1に示すように複数のキーワードが登録されたファイルであり、各キーワード辞書171には、特定の話題について関連性の高い単語がキーワードとして格納されている。例えば、図1のキーワード辞書171は、「京都旅行」に関する辞書であり、キーワードは、「京都」「新幹線」「舞妓」「湯豆腐」などである。また、各キーワードには、そのキーワードの概念が付与されている。例えば、「京都」の概念は「場所」であり、「新幹線」の概念は「乗り物」であり、「舞妓」の概念は「人」であり、「湯豆腐」の概念は「食べ物」である。キーワード辞書171中の各キーワードの概念は、概念辞書19から引いて付与されている。概念辞書19にはさまざまな単語が数十個から数百個の概念に分類されている。なお、「概念」とは、事物の本質的な特徴を意味する。
The
各キーワード辞書171は、上記したように特定の話題に関するものであり、それぞれの話題に関する対話記録や関連情報などのテキストから生成されている。その生成方法は、次の通りである。
Each
第1に、キーワード辞書データベース17は、各テキストから助詞・助動詞等を除いた単語だけを抽出する。
First, the
第2に、キーワード辞書データベース17は、各単語の該当テキスト中での頻度(tf)、該当テキスト以外で、その単語を含むテキストの数Nを算出する。さらに、テキストの総数Nallを用いて、評価値idf=log(Nall/N)を算出する。
Secondly, the
第3に、キーワード辞書データベース17は、tf−idfを算出し、tf−idfが基準より高い単語を、キーワードとして抽出する。
Thirdly, the
なお、キーワード辞書171は話題毎に予め生成されているが、リアルタイムに生成することも可能である。
Although the
テンプレート辞書データベース18には、複数のテンプレート辞書181が格納されている。テンプレート辞書181は「旅行」「TV」「本」「映画」等の対話の種類の数だけ格納されている。テンプレート辞書181は、図1(b)に示すように概念辞書19中の各概念を使用した発話テンプレートが複数記述されたファイルである。例えば、発話プレートしては、「[場所]に行く」、「[食べ物]を食べる」などであり、発話テンプレート中の概念が記述されている[]の部分を、その概念を持つキーワード(例えば、「京都」)に置換すれば発話文が生成できる。なお、キーワードを挿入すべき位置と挿入されるキーワードの概念を特定できれば、発話テンプレートのデータ構造は任意の形式で構わない。
A plurality of template dictionaries 181 are stored in the
音声対話装置1が、ユーザ2に対する発話文を生成する方法について図2のフローチャートに基づいて説明する。
A method in which the voice interaction apparatus 1 generates an utterance sentence for the
音声対話装置1は、ユーザ2と対話を始める前に、何の話題について発話するかを予め決めておく。音声対話装置1は、その話題に応じてキーワード辞書171とテンプレート辞書181を選択する。音声対話装置1は、図2に示すように「京都旅行」という話題について発話するため、「京都旅行」に関するキーワードを格納したキーワード辞書171と「旅行」に関する発話テンプレートを格納したテンプレート辞書181を選択する。発話生成部11は、この選択したキーワード辞書データベース17とテンプレート辞書データベース18を使用して発話文を生成する。
The voice interactive apparatus 1 determines in advance what topic to speak before starting a conversation with the
ステップs1では、ユーザ2が発話を行う。
In step s1, the
ステップs2では、音声認識部13が、ユーザ2の発話文を音声認識する。
In step s2, the
ステップs3では、発話生成部11は、ユーザ2と現在対話している話題「京都旅行」用のキーワード辞書171中からキーワード「京都」を選択する。キーワードの選択方法としては、例えば、発話生成部11が、音声認識した発話文中にキーワード辞書171で格納しているキーワードが存在すれば、そのキーワードを選択してもよいし、ランダムに選択してもよい。
In step s3, the
ステップs4では、発話生成部11は、ユーザ2と現在対話している話題の種類「旅行」に対応したテンプレート辞書181中で、選択したキーワード「京都」の概念「場所」を含む発話テンプレートを選択する。
In step s4, the
ステップs5では、発話生成部11は、選択したキーワード辞書171中のキーワードとテンプレート辞書181中の発話テンプレートを組み合わせて発話文を生成する。例えば、発話生成部11は、「京都」というキーワードと、「[場所]に行く」という発話テンプレートを組み合わせて「京都に行く」という発話文を生成する。
In step s5, the
ステップs6では、音声合成部14がスピーカ16を用いて、生成した発話文を発話する。
In step s6, the
このようにキーワード辞書171とテンプレート辞書181の組み合わせで、音声対話装置1は発話を行う。
In this way, the voice interaction apparatus 1 utters speech by combining the
次に、音声対話装置1が、ユーザ2との対話履歴を用いて、テンプレート辞書181に新しく発話テンプレートを格納する方法について説明する。例えば、音声対話装置1とユーザ2が以下のような対話を行ったとする。
Next, a method in which the voice interaction apparatus 1 stores a new utterance template in the template dictionary 181 using the conversation history with the
音声対話装置1:「京都はいつ行くのがいいの?」
ユーザ2 :「京都は秋がお勧めだよ」
音声対話装置1が、この対話例から発話テンプレートを生成する方法について図3のフローチャートに基づいて説明する。
Spoken Dialogue Device 1: “When should I go to Kyoto?”
User 2: “Kyoto is recommended for autumn”
A method in which the voice interaction apparatus 1 generates an utterance template from this dialogue example will be described based on the flowchart of FIG.
ステップs21では、音声対話装置1が「京都はいつ行くのがいいの?」と発話したことに対して、ユーザ2が「京都は秋がお勧めだよ」と発話する。
In step s21, the
ステップs22では、音声認識部13は、音声認識を行い、これにより、音声認識結果「京都は秋がお勧めだよ」を得る。
In step s22, the
ステップs23では、テンプレート生成部12は、音声認識した発話文中にキーワード辞書171に格納しているキーワードが含まれているかどうか検索を行う。キーワードが含まれていればステップs24に進み(yesの場合)、含まれていなければ処理を終了する(noの場合)。ここで、ユーザ2の発話には、キーワード「京都」が含まれているのでステップs24に進む。
In step s23, the
ステップs24では、テンプレート生成部12は、検索の結果キーワードが含まれているので、その部分をキーワードの概念に置換する。ここでは、テンプレート生成部12は、「京都」の概念「場所」に置換する。
In step s24, since the keyword is included as a result of the search, the
ステップs25では、テンプレート生成部12は、置換された文章「[場所]は秋がお勧めだよ」を新たな発話テンプレートに設定し、テンプレート辞書データベース18のテンプレート辞書181「旅行」に格納する。
In step s 25, the
本実施例によれば、音声対話装置1は、新しい発話テンプレート「[場所]は秋がお勧めだよ」を使用して発話を今後行うことができる。この発話テンプレートはテンプレート辞書181「旅行」に格納されているので「旅行」の対話であれば他のキーワード辞書171と組み合わせて使用できる。例えば、音声対話装置1は、「北海道旅行」のキーワード辞書171中のキーワード「小樽」を使用して「小樽は秋がお勧めだよ」という発話文を生成できる。
According to the present embodiment, the voice interaction apparatus 1 can utter in the future by using the new utterance template “[Location] is recommended in autumn”. Since this utterance template is stored in the template dictionary 181 “travel”, it can be used in combination with another
本発明の実施例2の音声対話装置1について図4〜図6に基づいて説明する。 A voice interaction apparatus 1 according to a second embodiment of the present invention will be described with reference to FIGS.
ユーザ2の発話文を使用して新しい発話テンプレートを生成する際、実施例1のようにユーザ2の発話文を正確に音声認識できるとは限らない。そこで、本実施例では、複数のユーザ2の発話の音声認識した発話文を使用して一つの発話テンプレートを生成する。
When a new utterance template is generated using the utterance sentence of the
なお、実施例1ではユーザ2の発話直後にリアルタイムに発話テンプレートを生成したが、本実施例の音声対話装置1では、ユーザ2との対話終了後に発話テンプレートを生成する。
In the first embodiment, the utterance template is generated in real time immediately after the utterance of the
本実施例の音声対話装置1が発話テンプレートを生成する第1の具体例について、図4のフローチャートと図5に基づいて説明する。 A first specific example in which the voice interaction apparatus 1 of the present embodiment generates an utterance template will be described with reference to the flowchart of FIG. 4 and FIG.
ステップs31では、テンプレート生成部12は、実施例1と同じように、ユーザ2の複数の発話の音声認識である発話文中に、キーワード辞書171に格納されたキーワードが含まれるかどうかをそれぞれ検索する。キーワードが含まれていればステップs32に進み(yesの場合)、含まれていなければ処理を終了する(noの場合)。ここで、ユーザ2の各発話には、キーワード「京都」が含まれているのでステップs32に進む。
In step s31, as in the first embodiment, the
ステップs32では、テンプレート生成部12が同じキーワードを含む複数の発話文を使用して正しい音声認識の発話文を、図5の記載を例示として、次の順番で生成する。なお、図5は、テンプレート生成部12は、5個の「京都」を含む音声認識した発話文を取得した場合を示し、図5(a)の右側の文章中の()内はユーザ2の実際の発話文であり、左側の文章における下線部は音声認識部13が誤認識している部分である。
In step s32, the
第1に、テンプレート生成部12は、図5(b)に示すように、各音声認識した5個の発話文に関して「京都」以外をひらがなに変換する。
First, as illustrated in FIG. 5B, the
第2に、テンプレート生成部12は、図5(b)に示すように、キーワード「京都」を中心に、かつ、単位文字(すなわち、ひらがな単位)で、5個の発話文を可能な限り重なる部分が多くなるように対応付けを行う。
Secondly, as shown in FIG. 5B, the
第3に、テンプレート生成部12は、対応付けを行ったひらがなの中で、音声認識された回数が多いひらがなを選択する。テンプレート生成部12は、絶対的に回数が多いひらがなを選択しても構わないし、相対的に回数が多いひらがなを選択しても構わない。絶対的に回数が多いか否かは、閾値を用いて判断する。相対的に回数が多いか否かは、音声認識された回数の多さの順位に基づいて判断する(例えば、最も回数が多いか否か)。
Third, the
第4に、テンプレート生成部12は、図5(c)に示すように、選択したひらがなとキーワード「京都」をつなげて文字列を生成して、「京都にいった」という文章を正解文章として生成する。
Fourth, as shown in FIG. 5C, the
第5に、テンプレート生成部12は、図5(d)に示すように、正解文章に、元の音声認識結果から漢字を割り当てて「京都に行った」という文章を生成する。
Fifthly, as shown in FIG. 5D, the
ステップs33では、テンプレート生成部12は、「京都」を概念[場所]に置換して「[場所]に行った」という文章を、新たな発話テンプレートに設定する。
In step s33, the
ステップs34では、テンプレート生成部12は、新たな発話テンプレート「[場所]に行った」をテンプレート辞書データベース18のテンプレート辞書181「旅行」に格納する。
In step s34, the
この第1の具体例では、ユーザ2の異なる5個の発話文を統合して1つの発話文を生成している。そのため、誤認識した部分を削除できる。また、1回しか発話しなかった「清水寺」も削除され、ユーザ2がよく発話した部分だけが残るようになる。そのため、ユーザ2の発話の癖も取得できる。
In the first specific example, five utterance sentences different from the
本実施例の音声対話装置1が発話テンプレートを生成する第2の具体例について、図6に基づいて説明する。 A second specific example in which the speech dialogue apparatus 1 of the present embodiment generates an utterance template will be described with reference to FIG.
図6は、音声対話装置1が、「〜じゃん」という口癖を持ったユーザ2の音声認識結果から発話テンプレートを生成する例を示している。口癖は発話される頻度が高いので、認識結果に出てくる確率も高く、図6に示すように発話テンプレートに残る可能性が高い。図6(a)に示すように、テンプレート生成部12は、4個の「新幹線」を含む音声認識した発話文を取得する。図6(a)の右側の文章の()内はユーザ2の実際の発話文で、左側の文章の下線部は音声認識部13が誤認識している部分である。
FIG. 6 shows an example in which the voice interaction apparatus 1 generates an utterance template from the voice recognition result of the
第1に、テンプレート生成部12は、図6(b)に示すように、各音声認識した発話文に関してキーワード「新幹線」以外をひらがなに変換する。
First, as illustrated in FIG. 6B, the
第2に、テンプレート生成部12は、図6(b)に示すように、キーワード「新幹線」を中心にひらがな単位で、4個の発話文を可能な限り重なる部分が多くなるように対応付けを行う。
Secondly, as shown in FIG. 6B, the
第3に、テンプレート生成部12は、対応付けを行ったひらがなの中で、音声認識された回数が多いひらがなを選択する。テンプレート生成部12は、絶対的に回数が多いひらがなを選択しても構わないし、相対的に回数が多いひらがなを選択しても構わない。絶対的に回数が多いか否かは、閾値を用いて判断する。相対的に回数が多いか否かは、音声認識された回数の多さの順位に基づいて判断する(例えば、最も回数が多いか否か)。
Third, the
第4に、テンプレート生成部12は、図6(c)に示すように、選択したひらがなとキーワード「新幹線」をつなげて文字列を生成して、「新幹線ははやいじゃん」という文章が正解文章として生成する。
Fourth, as shown in FIG. 6C, the
第5に、テンプレート生成部12は、図6(d)に示すように、元の音声認識結果から漢字を割り当てて「新幹線は早いじゃん」という文章を生成する。
Fifth, as shown in FIG. 6D, the
第6に、テンプレート生成部12は、キーワード「新幹線」を概念[乗り物]に置換して「[場所]は早いじゃん」という文章を、新たな発話テンプレートに設定する。
Sixth, the
第7に、テンプレート生成部12は、新たな発話テンプレート「[乗り物]は早いじゃん」を、テンプレート辞書データベース18のテンプレート辞書181「旅行」に格納する。
Seventh, the
第2の具体例によれば、音声対話装置1は、言語的な解析をしないため、言語的に意味を持たない「〜じゃん」のような口癖も発話テンプレートとして格納できる。 According to the second specific example, since the voice interaction apparatus 1 does not perform linguistic analysis, it can also store a moustache such as “~ jan” that has no linguistic meaning as an utterance template.
この方法によって発話テンプレートを大量に生成して、これを使用して音声対話装置1が発話を行うと、ユーザ2のしゃべり方に似たしゃべり方をする音声対話装置1を構築できる。
When a large amount of utterance templates are generated by this method and the voice dialogue apparatus 1 utters using the utterance template, the voice dialogue apparatus 1 that speaks in a manner similar to that of the
本実施例によれば、音声対話装置1を内蔵したロボット3は、無味乾燥な発話ではなく、キャラクタを持った発話を行うことができ、さらにユーザ2と同じようなしゃべり方なので、ユーザ2に親近感を持ってもらうことができる。
According to the present embodiment, the robot 3 with the built-in voice interaction device 1 can make a utterance with a character, not a tasteless dry utterance, and can speak to the
本発明の実施例3の音声対話装置1について図7〜図8に基づいて説明する。 A voice interaction apparatus 1 according to a third embodiment of the present invention will be described with reference to FIGS.
実施例2では、複数の音声認識した発話文を使用して発話テンプレートを生成した。しかし、この方法だと、同じキーワード辞書171に格納されたキーワードを含む全ての音声認識した発話文を使用して1つの発話テンプレートしか生成されない。また、ユーザ2が同じような文章を発話しているとは限らないので、全く異なる発話の音声認識した発話文を対応付けしても、正しい発話テンプレートを得るのは難しい。
In Example 2, an utterance template was generated using a plurality of speech-recognized utterance sentences. However, with this method, only one utterance template is generated using all speech-recognized utterance sentences including keywords stored in the
そこで、本実施例では、同じキーワード辞書171に格納されたキーワードを含む音声認識した発話文の中で、互いの類似度が高いものだけでグルーピングし、同じグループ内の発話文のみで、実施例2で説明した対応付けを行って発話テンプレートを生成する。
Therefore, in the present embodiment, the speech recognition utterances including the keywords stored in the
本実施例の音声対話装置1が発話テンプレートを生成する第1の具体例について、図7のフローチャートに基づいて説明する。 A first specific example in which the speech dialogue apparatus 1 of the present embodiment generates an utterance template will be described based on the flowchart of FIG.
ステップs41では、テンプレート生成部12は、実施例1と同じように、音声認識した各発話文中に、キーワード辞書171に格納されたキーワードが含まれるかどうかを検索する。キーワードが含まれていればステップs32に進み(yesの場合)、含まれていなければ処理を終了する(noの場合)。
In step s41, as in the first embodiment, the
ステップs42では、テンプレート生成部12は、キーワード辞書171に格納されたキーワードを含む音声認識した発話文について、同じキーワードを含む発話文を類似度の高い発話文毎にグルーピングする。このグルーピング方法については後から詳しく説明する。
In step s42, the utterance sentences including the same keyword are grouped for each utterance sentence having a high similarity with respect to the utterance sentences recognized by speech including the keywords stored in the
ステップs43では、テンプレート生成部12は、グループ分けを行った後、同じグループの発話文を使って発話テンプレートを生成する。これ以降の処理は実施例2と同じなので省略する。
In step s43, after performing grouping, the
次に、テンプレート生成部12が、ステップs42で行う発話文のグルーピング方法について詳しく説明する。
Next, the utterance sentence grouping method performed in step s42 by the
第1のグルーピング方法は、ユーザ2との対話履歴を使用する方法である。音声対話装置1が同じ発話をした際のユーザ2の発話は、同じような発話をしている可能性が高い。図8(a)(b)は音声対話装置1が同じ質問を複数回行った際のユーザ2の回答例であり、これを用いて説明する。
The first grouping method is a method that uses a dialogue history with the
図8(a)の例では、音声対話装置1が、「京都はいつ行くのがいいの?」と2回質問すると、ユーザ2が「京都は秋がお勧めだよ」、「京都はそうだねえ、秋がお勧めだと」とそれぞれ回答したとする。
In the example of FIG. 8 (a), when the voice dialogue apparatus 1 asks twice "Why should I go to Kyoto?", The
図8(b)の例では、音声対話装置1が、「京都はどうやって行くの?」と2回質問すると、ユーザ2が「そうだねえ、新幹線に乗るんじゃないかな」、「新幹線に乗るといいよ」とそれぞれ回答したとする。
In the example of FIG. 8B, when the voice interaction apparatus 1 asks twice "How do you go to Kyoto?", The
同じ質問に対する回答同士は、図8の文章の下線部のように重複する文字列が多いので、音声認識結果も重複する文字列が多くなる。このように、対話を何度も行ったり、長時間行った際に、音声対話装置1が同じ質問をした際のユーザ2の回答は類似度が高い文章とみなし、テンプレート生成部12は同じグループに分ける。なお、第1のグルーピング方法では、音声対話装置1が行う同じ質問は、対話として連続してなくてよく、最初の質問と次の質問との間に他の対話があってもよい。
Answers to the same question have many overlapping character strings like the underlined portion of the sentence in FIG. As described above, when the dialogue is performed many times or for a long time, the answer of the
第2のグルーピング方法は、音声対話装置1が、ユーザ2に同じ発話文を繰り返して発話させるような質問文を用いて聞き直す方法である。ユーザ2が何か発話した後に、「え?なんて言ったの?」のような聞き返す発話を音声対話装置1が行う。するとユーザ2は先ほど発話した文章に似た内容を発話する可能性が高い。ユーザ2自身も一度発話した内容を正確に覚えてはいないので、全く同じ文章を発話するとは限らないが、似たような内容の文章を発話する可能性が高い。そこで、音声対話装置1がこのような発話をした際の前後のユーザ2の発話は類似度が高い文章とみなし、同じグループに分ける。このような同じグループの文章を増やすために、音声対話装置1は意図的に聞き返す発話を行ってもよい。なお、第2のグルーピング方法では、音声対話装置1が行う聞き直しは、対話として連続している必要がある。
The second grouping method is a method in which the voice interaction apparatus 1 listens again using a question sentence that causes the
第3のグルーピング方法は、音声認識された各発話文の互いの類似度を用いる方法であり、類似度として編集距離を使用する。テンプレート生成部12は同じキーワード辞書171に格納されたキーワードを含む音声認識された発話文同士の編集距離を算出する。テンプレート生成部12は編集距離の近い文章は類似度が高いとみなし、編集距離が閾値以下である2つの発話文を同じグループに分ける。なお、「編集距離」とは、2つの文字列がどの程度異なっているかを示す数値であって、例えば、文字の挿入や削除、置換によって、1つの文字列を別の文字列に変形するのに必要な手順の最小回数を意味する。
The third grouping method is a method that uses the degree of similarity of each speech sentence that has been voice-recognized, and uses the edit distance as the degree of similarity. The
本実施例によれば、類似度の高い発話文同士を対応付けて発話テンプレートを作ることで、発話テンプレートに残る文字列が多くなり、より長くて複雑な発話文を生成できる。 According to the present embodiment, by creating an utterance template by associating utterance sentences with high similarity, more character strings remain in the utterance template, and a longer and more complex utterance sentence can be generated.
本発明の実施例4の音声対話装置1について図9〜図10に基づいて説明する。 A voice interaction apparatus 1 according to a fourth embodiment of the present invention will be described with reference to FIGS.
本実施例では、生成された発話テンプレートはそのまま格納するだけでなく、一定の変換ルールに基づいて発話テンプレートを変換した文章を発話テンプレートとして格納する。 In the present embodiment, not only the generated utterance template is stored as it is, but also a sentence obtained by converting the utterance template based on a certain conversion rule is stored as the utterance template.
以下、第1の変換ルールの例を説明する。 Hereinafter, an example of the first conversion rule will be described.
第1の変換ルールは、元の発話テンプレートの文体を肯定文、否定文、又は、疑問文に変更する。例として肯定文から疑問文への変換を行う際のルールを説明する。肯定文から疑問文への変換は、主に文末の語句を変換させればよい。以下は発話テンプレートを形態素解析した際の文末の形態素1つ、又は、2つの種類に応じた変換ルールである。文末に助詞が入る場合は助詞は無視される。 The first conversion rule changes the style of the original utterance template to a positive sentence, a negative sentence, or a question sentence. As an example, a rule for converting a positive sentence into a question sentence will be described. The conversion from an affirmative sentence to a question sentence may be performed mainly by converting a word at the end of the sentence. The following are conversion rules corresponding to one or two types of morphemes at the end of the sentence when the utterance template is analyzed. If a particle comes at the end of the sentence, the particle is ignored.
・名詞+助動詞 →名詞+「なの?」
・名詞 →名詞+「なの?」
・動詞+助動詞 →動詞基本形+「の?」
・動詞 →動詞基本形+「の?」
・形容詞+助動詞→形容詞基本形+「の?」
・形容詞 →形容詞基本形+「の?」
図9(a)に示すように、テンプレート生成部12が、例として「[場所]は秋がお勧めだよ」という発話テンプレートを疑問文に変換する方法を説明する。図9はその変換過程を示したものである。
・ Noun + auxiliary verb → noun + "What?"
・ Noun → Noun + “What?”
・ Verb + auxiliary verb → basic verb + “no?”
・ Verb-> Verb basic form + "no?"
・ Adjective + auxiliary verb → adjective basic form + “no?”
-Adjective → Adjective basic form + "no?"
As illustrated in FIG. 9A, a method will be described in which the
まず、テンプレート生成部12は、図9(b)に示すように、発話テンプレートを形態素解析する。すると、この発話テンプレートは、助詞以外の形態素だけに注目すると、文末は「名詞+助動詞」から構成されている。
First, the
次に、テンプレート生成部12は、図9(c)に示すように、上記ルールの「名詞+助動詞→名詞+「なの?」」を適用し、「お勧めだ」が「お勧めなの?」に変換する。
Next, as shown in FIG. 9C, the
次に、テンプレート生成部12は、「[場所]は秋がお勧めなの?」という新しい発話テンプレートを生成する。
Next, the
以下、第2の変換ルールの例を説明する。 Hereinafter, an example of the second conversion rule will be described.
第2の変換ルールは、発話テンプレートの時制を変更する。以下は現在形から過去形に変換するルールである。 The second conversion rule changes the tense of the utterance template. Below are the rules for converting from present tense to past tense.
・名詞 →名詞+「だった」
・名詞+助動詞 →名詞+「だった」
・動詞+助動詞 →動詞連用形+「た」
・動詞 →動詞連用形+「た」
・形容詞+助動詞→形容詞連用形+「た」
・形容詞 →形容詞連用形+「た」
テンプレート生成部12は、「[場所]は秋がお勧めだよ」という発話テンプレートに、図9(d)に示すように、「名詞+助動詞→名詞+「だった」」というルールを適用して、「[場所]は秋がお勧めだった」と変換する。
・ Noun → Noun + “It was”
・ Noun + auxiliary verb → noun + "was"
・ Verb + auxiliary verb → verb combination + “ta”
・ Verb → Verb + + “ta”
・ Adjective + auxiliary verb → adjective combination + “ta”
・ Adjective → Adjective + + “ta”
The
以下、第3の変換ルールの例を説明する。 Hereinafter, an example of the third conversion rule will be described.
第3の変換ルールは、発話テンプレート中の語句を一部変更する。 The third conversion rule partially changes the word / phrase in the utterance template.
音声対話装置1中には概念辞書19があり、この中にはさまざまな単語が同じ概念に分類されていて、基本的に同じ概念の単語は文中で同じような用法で使用される。
In the spoken dialogue apparatus 1, there is a
例えば、時間的頻度を概念にもつ「ときどき」と「よく」を例にとると「図書館にときどき行く」と「図書館によく行く」のように同じ文章中でその部分だけ入れ替えても日本語文章として使用できる。 For example, taking “sometimes” and “frequently” with the concept of time frequency as an example, even if only that part is replaced in the same sentence, such as “frequently go to the library” and “frequently go to the library”, the Japanese sentence Can be used as
そこで、まず、テンプレート生成部12は、発話テンプレートを形態素解析し、各形態素を概念辞書19で検索し、各形態素の概念を見つける。次に、テンプレート生成部12は、同じ概念中の単語と置換したものも新しい発話テンプレートとして使用する。
Therefore, first, the
図10(a)に示すように、例として「[場所]は秋がお勧めだよ」という発話テンプレートを変換する場合について説明する。 As shown in FIG. 10A, a case where an utterance template “[Location] is recommended for autumn” will be described as an example.
テンプレート生成部12は、図10(b)に示すように、形態素解析し、各形態素を概念辞書19で検索すると「秋」という単語は「季節」という概念を持つことがわかる。
As shown in FIG. 10B, the
そこで、テンプレート生成部12は、図10(b)に示すように、「秋」を同じ概念を持つ他の単語を抽出し、図10(d)に示すように、その抽出した単語で置換した発話テンプレート「[場所]は春がお勧めだよ」「[場所]は早春がお勧めだよ」「[場所]は梅雨時がお勧めだよ」などを生成する。
Therefore, the
上記のいくつかの例を組み合わせた変換も可能である。 Conversions combining some of the above examples are also possible.
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の主旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although several embodiments of the present invention have been described, these embodiments are presented by way of example and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the spirit of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.
1・・・音声対話装置、11・・・発話生成部、12・・・テンプレート生成部、13・・・音声認識部、14・・・音声合成部、171・・・キーワード辞書、181・・・テンプレート辞書 DESCRIPTION OF SYMBOLS 1 ... Voice dialogue apparatus, 11 ... Speech production | generation part, 12 ... Template production | generation part, 13 ... Speech recognition part, 14 ... Speech synthesis part, 171 ... Keyword dictionary, 181 ...・ Template dictionary
Claims (8)
特定の話題に関する複数のキーワードと、前記各キーワードにそれぞれ対応した概念を示す情報とを格納したキーワード辞書格納部と、
ユーザの発話文を音声認識する音声認識部と、
前記音声認識部が音声認識した前記発話文中に、前記キーワード辞書に格納された前記キーワードが含まれていた場合、前記キーワードを前記キーワードに対応する前記概念を示す情報に置き換えて、置き換えた前記発話文を新しい発話テンプレートに設定し、前記テンプレート辞書に格納するテンプレート生成部と、
を有することを特徴とする音声対話装置。 In a voice interaction device for performing a voice interaction with a user using an utterance template stored in a template dictionary,
A keyword dictionary storage unit storing a plurality of keywords related to a specific topic, and information indicating a concept corresponding to each keyword,
A voice recognition unit that recognizes a user's speech,
When the keyword stored in the keyword dictionary is included in the utterance sentence recognized by the voice recognition unit, the keyword is replaced with information indicating the concept corresponding to the keyword, and the utterance is replaced. A template generation unit that sets a sentence as a new utterance template and stores it in the template dictionary;
A voice interactive apparatus characterized by comprising:
音声認識した複数の前記発話文に関して、前記キーワード以外の部分を単位文字でそれぞれ分割し、
前記各発話文の前記各単位文字に関して、前記発話文間で同一の前記キーワードを基準にして対応付けを行い、
対応付けされた前記単位文字の中で、音声認識された回数が絶対的、又は、相対的に多い前記単位文字をつなげた文字列から、前記発話テンプレートを生成する、
ことを特徴とする請求項1に記載の音声対話装置。 The template generation unit
With respect to the plurality of uttered sentences that have been voice-recognized, parts other than the keywords are divided by unit characters,
With respect to each unit character of each utterance sentence, making an association based on the same keyword between the utterance sentences,
Generating the utterance template from a character string connecting the unit characters that are absolute or relatively large in the number of times of voice recognition among the unit characters associated with each other;
The spoken dialogue apparatus according to claim 1.
前記発話生成部は同じ発話を複数回出力し、
前記テンプレート生成部は、複数の前記同じ発話に対する前記ユーザの回答した前記各発話文を用いて前記発話テンプレートを生成する、
ことを特徴とする請求項2に記載の音声対話装置。 An utterance generator for outputting utterances to the user;
The utterance generation unit outputs the same utterance multiple times,
The template generation unit generates the utterance template using each utterance sentence answered by the user with respect to the plurality of the same utterances.
The spoken dialogue apparatus according to claim 2.
前記発話生成部は、前記ユーザが回答として同じ前記発話文を繰り返して発話するような質問文を複数回出力し、
前記テンプレート生成部は、複数回の前記質問文に対する前記ユーザが回答した前記各発話文を用いて前記発話テンプレートを生成する、
ことを特徴とする請求項3に記載の音声対話装置。 An utterance generator for outputting utterances to the user;
The utterance generation unit outputs a question sentence such that the user repeats the same utterance sentence as an answer multiple times,
The template generation unit generates the utterance template using each utterance sentence answered by the user with respect to the question sentence a plurality of times.
The spoken dialogue apparatus according to claim 3.
前記音声認識部が音声認識した前記各発話文の中で、互いの類似度が閾値より高い発話文のみを用いて、前記発話テンプレートを生成する、
ことを特徴とする請求項1に記載の音声対話装置。 The template generation unit
Among the utterances recognized by the voice recognition unit, the utterance template is generated using only utterances whose similarity is higher than a threshold.
The spoken dialogue apparatus according to claim 1.
前記発話テンプレートに関して形態素解析を行い、
前記形態素解析の結果に基づいて、元の前記発話テンプレートを変更して、新たな発話テンプレートを生成する、
ことを特徴とする請求項2に記載の音声対話装置。 The template generation unit
Perform morphological analysis on the utterance template,
Based on the result of the morphological analysis, the original utterance template is changed to generate a new utterance template.
The spoken dialogue apparatus according to claim 2.
前記形態素解析の結果に基づいて、前記発話テンプレートの文体を肯定文、否定文、又は、質問文に変更し、あるいは、前記発話テンプレートの時制を変更して、新たな発話テンプレートを生成する、
ことを特徴とする請求項6に記載の音声対話装置。 The template generation unit
Based on the result of the morphological analysis, change the style of the utterance template to a positive sentence, a negative sentence, or a question sentence, or change the tense of the utterance template to generate a new utterance template.
The voice interactive apparatus according to claim 6.
前記形態素解析の結果に基づいて、元の前記発話テンプレート中における前記キーワード以外の単語を、当該単語と同じ概念の単語に置き換えた文に変更して、新たな発話テンプレートを生成する、
ことを特徴とする請求項6に記載の音声対話装置。 The template generation unit
Based on the result of the morphological analysis, a word other than the keyword in the original utterance template is changed to a sentence replaced with a word having the same concept as the word, and a new utterance template is generated.
The voice interactive apparatus according to claim 6.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010179194A JP5073024B2 (en) | 2010-08-10 | 2010-08-10 | Spoken dialogue device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010179194A JP5073024B2 (en) | 2010-08-10 | 2010-08-10 | Spoken dialogue device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012037790A JP2012037790A (en) | 2012-02-23 |
JP5073024B2 true JP5073024B2 (en) | 2012-11-14 |
Family
ID=45849824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010179194A Active JP5073024B2 (en) | 2010-08-10 | 2010-08-10 | Spoken dialogue device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5073024B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5718406B2 (en) * | 2013-05-13 | 2015-05-13 | 日本電信電話株式会社 | Utterance sentence generation device, dialogue apparatus, utterance sentence generation method, dialogue method, utterance sentence generation program, and dialogue program |
JP6115487B2 (en) * | 2014-01-29 | 2017-04-19 | トヨタ自動車株式会社 | Information collecting method, dialogue system, and information collecting apparatus |
JP6263420B2 (en) * | 2014-03-12 | 2018-01-17 | 株式会社デンソーアイティーラボラトリ | Template generating apparatus and template generating program |
KR102509821B1 (en) * | 2017-09-18 | 2023-03-14 | 삼성전자주식회사 | Method and apparatus for generating oos(out-of-service) sentence |
CN108538298B (en) * | 2018-04-04 | 2021-05-04 | 科大讯飞股份有限公司 | Voice wake-up method and device |
CN110930998A (en) * | 2018-09-19 | 2020-03-27 | 上海博泰悦臻电子设备制造有限公司 | Voice interaction method and device and vehicle |
CN111627432B (en) * | 2020-04-21 | 2023-10-20 | 升智信息科技(南京)有限公司 | Active outbound intelligent voice robot multilingual interaction method and device |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09223129A (en) * | 1996-02-16 | 1997-08-26 | Toshiba Corp | Method and device for supporting document processing |
CA2981426A1 (en) * | 2004-10-05 | 2006-04-05 | Inago Corporation | System and methods for improving accuracy of speech recognition |
-
2010
- 2010-08-10 JP JP2010179194A patent/JP5073024B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012037790A (en) | 2012-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107741928B (en) | Method for correcting error of text after voice recognition based on domain recognition | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
US10388274B1 (en) | Confidence checking for speech processing and query answering | |
US10332508B1 (en) | Confidence checking for speech processing and query answering | |
US10489393B1 (en) | Quasi-semantic question answering | |
US7974844B2 (en) | Apparatus, method and computer program product for recognizing speech | |
JP4791984B2 (en) | Apparatus, method and program for processing input voice | |
WO2016067418A1 (en) | Conversation control device and conversation control method | |
US8126714B2 (en) | Voice search device | |
US8380505B2 (en) | System for recognizing speech for searching a database | |
US10713289B1 (en) | Question answering system | |
KR101309042B1 (en) | Apparatus for multi domain sound communication and method for multi domain sound communication using the same | |
US10176809B1 (en) | Customized compression and decompression of audio data | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
JP5073024B2 (en) | Spoken dialogue device | |
JP5620349B2 (en) | Dialogue device, dialogue method and dialogue program | |
CN105957518A (en) | Mongolian large vocabulary continuous speech recognition method | |
KR20030076686A (en) | Hierarchical Language Model | |
JP2003036093A (en) | Voice input search system | |
JP2015219583A (en) | Topic determination device, utterance device, method, and program | |
KR101677859B1 (en) | Method for generating system response using knowledgy base and apparatus for performing the method | |
JP2010048953A (en) | Interaction sentence generating device | |
JP2008243080A (en) | Device, method, and program for translating voice | |
Yoo et al. | The performance evaluation of continuous speech recognition based on Korean phonological rules of cloud-based speech recognition open API | |
JP5243325B2 (en) | Terminal, method and program using kana-kanji conversion system for speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120612 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120704 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120724 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120821 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5073024 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150831 Year of fee payment: 3 |