JP4634889B2 - Voice dialogue scenario creation method, apparatus, voice dialogue scenario creation program, recording medium - Google Patents
Voice dialogue scenario creation method, apparatus, voice dialogue scenario creation program, recording medium Download PDFInfo
- Publication number
- JP4634889B2 JP4634889B2 JP2005235121A JP2005235121A JP4634889B2 JP 4634889 B2 JP4634889 B2 JP 4634889B2 JP 2005235121 A JP2005235121 A JP 2005235121A JP 2005235121 A JP2005235121 A JP 2005235121A JP 4634889 B2 JP4634889 B2 JP 4634889B2
- Authority
- JP
- Japan
- Prior art keywords
- scenario
- original
- transition
- keyword
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は複数の話題を扱うことができる音声対話シナリオを作成する音声対話シナリオ作成方法と装置及びこの装置をコンピュータで実現する音声対話シナリオ作成プログラム、このプログラムを記録した記録媒体に関する。 The present invention relates to a voice conversation scenario creating method and apparatus for creating a voice conversation scenario capable of handling a plurality of topics, a voice conversation scenario creating program for realizing the apparatus by a computer, and a recording medium on which the program is recorded.
音声認識、合成音声の技術を組み合わせて、利用者と音声を用いて対話を介して、ある作業に関する命令を入力するなどの目的を達成する音声対話装置について、近年では、非特許文献1のように、対話のある時点でシステムが利用者に入力するよう要求している項目とは異なる項目への単語の発生を許容したり、いい淀みなどを許容したりすることが出来るなど、人間にとって非常に自然な音声対話が可能な音声対話システムが提案されている。
また、特許文献1のように画面上に擬人化して表現されたアニメーションエージェントキャラクタを表示させ、ユーザはそのエージェントに対して話しかけるように発声された音声を認識し、応答をあらかじめ録音された音声や合成音で再生したり画面上にテキストで表示するなどして言葉として出力したり、応答のニュアンスをエージェントの仕草としてアニメーションで表示させたりすることで通知しながら対話を進める装置も提案されている。
In recent years, a
Also, an animation agent character expressed as an anthropomorphic person is displayed on the screen as in
更に近年では、テキストファイルによるスクリプト言語による記述と、そのスクリプト言語が記述されたファイルをスクリプト言語の実行処理系が読み込むことで音声対話システムを構成することが一般的となっている。
スクリプト言語によるテキストファイルには、ユーザへ応答を返す場合の再生文章や、利用者からの音声入力やその他の入力があった場合の次の応答を選択するための分岐規則や、音声認識装置や音声合成装置、その他の入力装置に対する最小限の指示が記述される。この様なスクリプト言語によるテキストファイルを音声対話シナリオと呼ぶ。
Furthermore, in recent years, it has become common to construct a speech dialogue system by describing a script language in a text file and a script language execution processing system reading a file in which the script language is described.
The text file in the script language includes a playback sentence when returning a response to the user, a branch rule for selecting the next response when there is a voice input or other input from the user, a voice recognition device, The minimum instructions for the speech synthesizer and other input devices are described. A text file in such a script language is called a voice dialogue scenario.
音声対話シナリオを読み込んだ実行処理系は、音声対話シナリオの記述に従って、音声認識、音声合成、その他入出力装置を駆動し音声対話を実行する。各装置の詳細な制御内容は、スクリプト言語の命令記述と対応させて、あらかじめ実行処理系の内部に組み込まれている。音声対話シナリオとその実行処理系の組み合わせにより、システムの可搬性や構築コスト・システム作成者に必要な知識・経験の低減が図られた。
一方、対話システムの役割として一問一答形式の簡便なものを仮定し、一入力毎に複数の対話システムの中から適切なものを一つ選択し、そのシステムの出力を応答する、といった方法も提案されている(特許文献2、特許文献3)。
On the other hand, assuming that the role of the dialogue system is a simple one-question-answer format, for each input, select an appropriate one from a plurality of dialogue systems and respond to the output of that system. Have also been proposed (
しかしながら、音声対話シナリオとその実行処理系の組み合わせにより構築コストの低減が図られたとしても、依然、構築コストが高い場合がある。その一つに、複数の話題を取り扱い、その全話題で扱う語句を音声対話の実行中、音声入力可能な時点で常に受理可能とすることを必要とする場合がある。
例えば、市役所窓口総合音声対話システムであれば、転入・転居案内、社会保険案内、粗大ごみ受付などといったように、複数の話題を扱い、その全ての話題の語句について常に音声対話の途中で音声入力可能とし、入力があった場合は適切に応対しようとする対話システムを作るときには、その音声対話システムの記述量が膨大になるという問題があった。これは常に全ての話題について扱おうとすると、ユーザの入力発話から次の応答内容を決定する処理の中で、それぞれの話題がもつ話題の目的達成のために必要な入力項目(これをスロットと呼ぶ)全てについて、直前の発話による入力によって変化があったかを検査しなくてはならないためである。すなわち、複数の話題を扱い、それぞれの話題が入力対象とする語句を常に受理可能とするには、各話題で扱うスロット数の総和乗の分岐規則を最低でも記述する必要があった。これは、話題の数を少しでも増やすと爆発的に記述量が増大することを示す。
However, even if the construction cost is reduced by the combination of the voice conversation scenario and its execution processing system, the construction cost may still be high. For example, there are cases where it is necessary to handle a plurality of topics and to accept words / phrases handled by all the topics at a time when voice input is possible during the execution of the voice dialogue.
For example, in the case of the city hall window general voice dialogue system, multiple topics such as moving-in / moving guidance, social insurance guidance, oversized garbage reception, etc. are handled, and voices are always input during the voice dialogue for all the topics. When creating a dialogue system that is capable of responding appropriately to input, there is a problem that the amount of description of the spoken dialogue system becomes enormous. If you always try to deal with all the topics, in the process of determining the next response content from the user's input utterance, input items necessary to achieve the topic purpose of each topic (this is called a slot) This is because it is necessary to inspect whether or not everything has changed due to the input from the previous utterance. In other words, in order to handle a plurality of topics and to always accept words and phrases input by each topic, it is necessary to describe at least a branching rule of the sum of the number of slots handled in each topic. This indicates that the description amount increases explosively when the number of topics is increased even a little.
また上記した特許文献2、特許文献3のように、対話システムの役割として一問一答形式の簡便なものを仮定し、一入力毎に複数の対話システムから適切なものを一つ選択しそのシステムの出力を応答する、といった方法を採った場合、
この方法は、記述量が膨大になることを避けることが出来るが、一つ一つの話題の目的達成のための対話のやり取りとして数度にわたるやり取りを行わなければならない対話システムには適用できないという問題があった。
In addition, as described in
Although this method can avoid an enormous amount of description, it cannot be applied to a dialogue system that requires several exchanges to achieve the purpose of each topic. was there.
本発明では、それぞれが異なる1つの話題にのみ対応した元シナリオを複数備え、これら複数の元シナリオを連結して複数の話題に対応可能な音声対話シナリオを作成する音声対話シナリオ作成装置を提案するものであり、その特徴とする構成は、元シナリオに備えられているリソースから各元シナリオを連結することに必要な情報、どの元シナリオに話題を遷移するかを決める情報、話題が遷移した状態でも全ての各元シナリオで扱う話題に関する単語を音声認識するための情報を抽出する情報抽出手段と、この情報抽出手段が抽出した情報からどの元シナリオに遷移してもどの元シナリオを実行中であっても他の元シナリオの扱う話題に関する利用者の発声を処理し、音声応答を実行できる環境に整合させるための整合情報を生成する整合情報作成手段とを備えることを特徴とする。 The present invention proposes a voice conversation scenario creation device that includes a plurality of original scenarios each corresponding to only one different topic, and creates a voice conversation scenario capable of dealing with a plurality of topics by connecting the plurality of original scenarios. The characteristic configuration is the information necessary to connect each original scenario from the resources provided in the original scenario, the information that determines which original scenario the topic will transition to, and the state in which the topic has transitioned However, information extraction means for extracting information for speech recognition of words related to topics handled in all original scenarios, and which original scenario is being executed no matter which original scenario is transitioned from the information extracted by this information extraction means Even if there is, it is possible to process the user's utterances on the topics handled by other original scenarios and generate alignment information to match the environment where voice response can be executed. Characterized in that it comprises an information creation unit.
本発明では更に上記音声対話シナリオ作成装置において、整合情報作成手段は、連結された元シナリオ内で扱う各元シナリオの名称と、元シナリオのファイル名、ファイルの位置、最初に実行する元シナリオの情報を記述した連結情報を作成する連結情報作成手段と、各元シナリオの中の音声認識リソースから目的達成のために必要な入力項目に入力される単語と、各元シナリオの名称と、元シナリオを想起させる関連語句とを抽出し、これらを話題の遷移を引き起こす遷移用語句として適正に音声認識し、理解結果を出力するための遷移用リソースを作成する遷移用リソース作成手段と、遷移用語句が認識された場合に、その認識用語句と対応する元シナリオへ遷移するかを確認し、遷移することを表示し、連結されている別の元シナリオに制御を移す動作を実行するための遷移用対話シナリオを作成する話題遷移用対話シナリオ作成手段とによって構成される。 Further in the present invention, in the above-mentioned voice dialogue scenario creation device, the matching information creation means includes the name of each original scenario handled in the linked original scenario, the file name of the original scenario, the position of the file, and the original scenario to be executed first. Linked information creation means for creating linked information describing information, words input to input items necessary for achieving the purpose from the speech recognition resource in each original scenario, the name of each original scenario, and the original scenario A transition resource creating means for creating a transition resource for extracting a related word / phrase that recalls, appropriately recognizing these as a transition term phrase causing a topic transition, and outputting an understanding result, and a transition term phrase Is recognized, it confirms whether to transition to the original scenario corresponding to the recognition term phrase, displays the transition, and another original scenario that is connected Constituted by the creation Topic Transition dialog scenario means for creating a transition for dialog scenario to perform the operation to transfer control.
本発明の音声対話シナリオ作成装置に用いる整合情報生成手段は、連結情報作成手段と、遷移用リソース作成手段と、遷移用シナリオ作成手段に加えて、連結された元シナリオで実行可能な対話内容を表示し、音声対話手順を案内するためのナビゲート用シナリオ作成手段を備えることを特徴とする。
本発明の音声対話シナリオ作成装置に用いる遷移用リソース作成手段は、各元シナリオに備えられているリソースの中のキーワード辞書から所定のクラスに属するキーワードを抽出し、抽出したキーワードにこのキーワードの属性を示す情報を付加した遷移用キーワード集を作成する遷移用キーワード辞書作成手段と、各元シナリオに記述されている各キーワードがどの元シナリオに属するかを示す表として作用するシナリオ名キーワード対応データベースを作成するシナリオ名キーワード対応データベース作成手段と、各元シナリオに記述されている発話理解リストから、シナリオキーワードクラスリストに含まれるクラスの、その規則中に含む発話理解規則を抽出し、抽出した各規則のクラス名をシナリオ内のキーワードに属性を表わす情報を付加した名称に、また振り分け先スロット名を遷移先シナリオ関連語にそれぞれ書き替え、シナリオ内キーワードに属性を表わす情報が付加されたキーワード又は遷移先シナリオ関連語に属するキーワードが音声認識した単語列中に出現すれば、そのキーワードを遷移先シナリオ関連語スロットに振り分けよ、とする内容の発話理解規則と、シナリオ指定クラスに属するキーワードが音声認識した単語列中に出現した場合は、そのキーワードを遷移先シナリオスロットに振り分けよ、とした内容の発話理解規則を作成する遷移用発話理解規則作成手段と、各元シナリオが利用する言語モデルを生成した元シナリオ例文リストの中から、シナリオキーワードクラスリスト中にあるクラスを含む例文を抽出し、抽出した各例文中のクラス名をシナリオ内のキーワードの属性を表わす情報を付加したクラス名に置換し、更に追加例文リスト中の各例文からシナリオ関連キーワードリストに含まれる単語を抽出し、その単語をシナリオ関連語クラスに置換し、置換後の追加例文リスト中の各例文を形態素解析手段で単語ごとに分かち書きし、その読み仮名を振って遷移用言語モデルと遷移用認識辞書とを作成する遷移用認識言語モデル・辞書作成手段とによって構成したことを特徴とする。
The matching information generating means used in the voice dialogue scenario creating apparatus of the present invention includes the dialogue information executable in the linked original scenario in addition to the linked information creating means, the transition resource creating means, and the transition scenario creating means. A navigation scenario creating means for displaying and guiding a voice dialogue procedure is provided.
The transition resource creating means used in the voice conversation scenario creating device of the present invention extracts a keyword belonging to a predetermined class from a keyword dictionary in resources provided in each original scenario, and attributes the keyword to the extracted keyword. A transition keyword dictionary creating means for creating a transition keyword collection to which information indicative of a scenario is added, and a scenario name keyword correspondence database that acts as a table indicating to which original scenario each keyword described in each original scenario belongs From the created scenario name keyword correspondence database creation means and the utterance understanding list described in each original scenario, the utterance understanding rules included in the rules of the classes included in the scenario keyword class list are extracted, and each extracted rule Attribute of class name as a keyword in the scenario A word that has been rewritten to the name with the information added and the slot name to which the distribution destination is assigned as the transition destination scenario related word, and the keyword in which the attribute information is added to the keyword in the scenario or the keyword that belongs to the transition destination scenario related word is voice-recognized If it appears in the sequence, the keyword is assigned to the destination scenario-related word slot, and if the keyword belonging to the scenario specification class appears in the speech-recognized word sequence, the keyword From the original scenario example list that created the language model used by each original scenario and the scenario utterance understanding rule creation means for creating an utterance understanding rule with the content that was assigned to the transition destination scenario slot, the scenario keyword class Extract example sentences containing classes in the list, and class names in each extracted example sentence Replace with the class name to which the information indicating the attribute of the keyword in the scenario is added, further extract the word included in the scenario related keyword list from each example sentence in the additional example sentence list, replace the word with the scenario related word class, A transition recognition language model / dictionary creation means for creating a transition language model and a transition recognition dictionary by writing each example sentence in the additional example sentence list after replacement for each word by a morpheme analysis means, It is characterized by comprising.
本発明によれば、複数の話題に対応する音声対話シナリオを非常に小さい作業量で作成することが可能である。また、利用者に対して、別の話題へ遷移するための特別なコマンドを覚えなければならないなどの制約を排除し、システム上で扱えるほとんどのキーワードを受理して必要であれば遷移用の対話へ自動的に移行するコンテンツを作成することができるので、非常に利便性の高い音声対話システムを提供することが可能となる。 According to the present invention, it is possible to create a voice conversation scenario corresponding to a plurality of topics with a very small amount of work. It also eliminates restrictions such as having to remember special commands for users to transition to another topic, accepts most keywords that can be handled on the system, and transition dialogs if necessary. Thus, it is possible to create a content that automatically shifts to, so that it is possible to provide a very convenient voice dialogue system.
本発明による音声対話シナリオ作成方法及び音声対話作成装置はハードウェアによって構成することもできるが、より簡素に実施するにはコンピュータに本発明で提案する音声対話シナリオ作成プログラムをインストールし、コンピュータに音声対話シナリオ作成装置として機能させる形態が最良の実施形態である。
コンピュータに本発明による音声対話シナリオ作成装置として機能させるにはコンピュータにインストールした音声対話シナリオ作成プログラムによりコンピュータ内に元シナリオに備えられているリソースから各元シナリオを連結することに必要な情報、どの元シナリオに話題を連結するかを決める情報、話題が遷移した状態で各元シナリオに適した音声認識を行わせるための情報を抽出する情報抽出手段と、この情報抽出手段が抽出した情報からどの元シナリオに遷移しても各元シナリオが適正に音声応答を実行できる環境に整合させるための整合情報を生成する整合情報生成手段とを構築し、この整合情報生成手段により整合情報を生成し、この整合情報をリソースとして保持することにより、それぞれが異なる1つの話題にのみ対応した複数の元シナリオを、複数の話題に対応可能な音声対話シナリオとして機能させることができる。
The voice dialogue scenario creation method and the voice dialogue creation device according to the present invention can be configured by hardware. However, in order to carry out more simply, the voice dialogue scenario creation program proposed in the present invention is installed in a computer, and the voice is created in the computer. The best mode is a mode of functioning as a dialogue scenario creation device.
In order for a computer to function as a voice conversation scenario creation device according to the present invention, information necessary for linking each original scenario from resources provided in the original scenario in the computer by a voice conversation scenario creation program installed in the computer, which Information that determines whether to link topics to the original scenario, information extraction means that extracts information for performing speech recognition suitable for each original scenario in the state where the topics have transitioned, and which information from the information extracted by this information extraction means A matching information generation unit that generates matching information for matching with an environment in which each original scenario can properly execute a voice response even when transitioning to the original scenario is constructed, and the matching information generation unit generates matching information, By holding this consistency information as a resource, each corresponds to only one different topic A plurality of original scenarios, can function as a possible speech dialog scenario corresponding to a plurality of topics.
図1を用いて本発明による音声対話シナリオ作成装置の概要を説明する。図中100はそれぞれ異なる1つの話題にのみ対応した元シナリオ100A、100B、…100Nで構成される元シナリオ群を示す。各元シナリオ100A、100B、…100Nは元シナリオの名称とか、各元シナリオ100A、100B、…100Nのそれぞれで用いられる音声認識・発話理解リソースなどを格納したリソース101A、101B、…101Nを備える。
200は情報抽出手段を示す。この情報抽出手段200は各元シナリオ100A、100B、…100Nのそれぞれのリソース101A、101B、…101Nから、これら元シナリオ100A、100B、…100Nを連結するに必要な情報を抽出する。各元シナリオ100A、100B、…100Nを連結するに必要な情報とは例えば各元シナリオ101A、101B、…101Nの名称とか、各元シナリオのファイル名、ファイルの位置、最初に実行する元シナリオを指定する情報、等とすることができる。
The outline of the voice dialogue scenario creating apparatus according to the present invention will be described with reference to FIG. In the figure, reference numeral 100 denotes an original scenario group composed of
情報抽出手段200が抽出した情報は整合情報生成手段300に引き渡され、この整合情報生成手段300で整合情報400を生成し、この整合情報400を整合情報記憶部500に記憶させる。
音声対話シナリオ実行手段600は、元シナリオ群100に格納した元シナリオ100A、100B、…100Nの各リソース101A、101B、…101Nと整合情報記憶部500に格納した整合情報400とを用いて複数の話題に対応する音声対話システムとして機能する。
The information extracted by the
The voice conversation scenario executing means 600 uses a plurality of
図2以下を用いて各部の詳細を順に説明する。各元シナリオ100A、100B、…100Nはシナリオファイル名101A―1、101B―1…とキーワード辞書101A―2、101B―2…と、発話理解規則リスト101A―3、101B―3…と、元シナリオ例文リスト101A―4、101B―4…とを備える。
ここで、キーワード辞書101A―2、101B−2…とは各元シナリオ101A、101B…の中で用いる目的達成のために必要な入力項目(以下スロットと称す)に入力されるキーワードの辞書を示す。また発話理解規制リスト101A−3、101B−3…とは音声認識された単語列の中からスロットに入れるべきキーワードを抽出してスロットに振り分けるための発話理解規則を集めたもの、元シナリオ例文リスト101A−4、101B―4…とは各元シナリオ実行時に音声認識する際に利用するクラス言語モデルと単語辞書を作成する場合に学習に用いた発話文の例文である。
Details of each part will be described in order with reference to FIG. Each
Here, the
図1に示した情報抽出手段200はこれらの元シナリオ100A、100B、…から、連絡時に準備する情報としてシナリオファイル名102と、シナリオキーワードクラスリスト103と、シナリオ関連キーワードリスト104と、追加例文リスト105と、各シナリオの内容説明文106とを抽出する。これと共に、これらの情報は図3に示す整合情報生成手段300へ入力される。
整合情報生成手段300は図3に示す実施例では遷移用リソース作成手段301と、ナビゲート用シナリオ作成手段302と、遷移用シナリオ作成手段303と、連結情報作成手段304とによって構成した場合を示す。
1 extracts
In the embodiment shown in FIG. 3, the matching
遷移用リソース作成手段301は整合情報400の一部を構成する遷移用リソース401を生成する。遷移用リソース401の内容としては遷移用キーワード辞書401−1と、遷移用発話理解規則401−2と、遷移用言語モデル401−3と、遷移用認識辞書401−4とで構成される。更に遷移用リソース作成手段301はシナリオ名キーワード対応DB(データベース)401−5をも生成する。
ナビゲート用シナリオ生成手段303は遷移用シナリオ404を生成し、連結情報作成手段304は連結情報405を生成する。
The transition
The navigation
以下では各部の動作を説明する。ここで、ファイル名は必要であればそのファイルを保持しているコンピュータのネットワーク上のアドレス、そのコンピュータ内の記憶装置内における位置なども含むものであってもよい。ファイル名に関しては以後同様である。
個々の発話理解規則リスト101A−3、101B−3…には、スロットへ入力するキーワードとして取り出すべき単語の属性(以下クラスと称す)を表わす記号と、そのクラスの位置にあったキーワードをどのスロットへ振り分ければよいかという指示が対で示されている。スロットへの振り分けをより高精度に行なうためにクラスの記号が出現する前後単語列の情報を付加してもよい。例えば「“横浜駅”から“品川駅”まで」という発話の中から、“横浜駅”を「発駅スロット」、“品川駅”までを「着駅スロット」に振り分けるための規則は以下のようになる。
Hereinafter, the operation of each unit will be described. Here, if necessary, the file name may include a network address of a computer holding the file, a location in a storage device in the computer, and the like. The same applies to the file name.
In each of the utterance understanding rule lists 101A-3, 101B-3,..., A symbol indicating the attribute (hereinafter referred to as a class) of a word to be extracted as a keyword to be input to the slot and the keyword at the position of the class. An instruction as to whether or not to distribute is shown in pairs. In order to perform the allocation to the slot with higher accuracy, information on the word strings before and after the appearance of the class symbol may be added. For example, from the utterance "From" Yokohama Station "to" Shinagawa Station ", the rules for allocating" Yokohama Station "to" Departure Station Slot "and" Shinagawa Station "to" Destination Station Slot "are as follows: become.
発話理解規則例:「<駅名>:発駅スロット から <駅名>:着駅スロット まで」
この発話理解規則例では、「<駅名>」は、駅名クラスに属する単語が出現することを示し、「:発駅スロット」、「:着駅スロット」はそれぞれ、直前のクラス記号に含まれる単語が、それぞれのスロットに振り分けられることを示す。
また、キーワードは、そのキーワードの表記と、クラス言語モデル内のクラスと、そのキーワードの意味素性の3つの情報からなる。
また、元シナリオ100A、100B…中には、各シナリオのエージェントの個性を表現するために、音声応答を行う際に音声合成を使う場合の音色や話速に関するパラメータや、エージェントを画面に表示する場合の画像や動画データを指定するための記述なども含まれる。
Example of utterance comprehension rules: “From <Station name>: From station slot to <Station name>: Arrival station slot”
In this utterance understanding rule example, “<station name>” indicates that a word belonging to the station name class appears, and “: departure station slot” and “: arrival station slot” are words included in the immediately preceding class symbol, respectively. Is assigned to each slot.
The keyword is composed of three pieces of information including the keyword notation, the class in the class language model, and the semantic feature of the keyword.
In addition, in the
シナリオを連結するには上記のほかに、連結しようとしている個々の元シナリオの呼び方(例えば、「ごみ分別案内」等)であるシナリオ名称と、その元シナリオ100A、100B…のキーワード辞書101A−2、101B−2…中のキーワードで、そのシナリオを特徴づけるキーワード(例えば、シナリオ名称が「ごみ分別案内」ならば、各ゴミの名前、ゴミ分別種別などの単語)をシナリオキーワードと呼び、そのシナリオの各シナリオキーワードが属するクラスをリストしたシナリオキーワードクラスリスト103とする。
In order to connect scenarios, in addition to the above, in addition to the above, a scenario name which is a name of each original scenario to be connected (for example, “garbage separation guide”) and a
上記のシナリオキーワードには含まれないが、シナリオの扱う話題や、話題の名称に強く関連する単語(例えば「ゴミの捨て方」など)をシナリオ関連キーワードと呼び、そのシナリオ関連キーワードをリストしたものであるシナリオ関連キーワードリスト104と、
シナリオ関連語リスト内に登録されているシナリオ関連語が出現する発話文の例文と、シナリオ名が出現する発話文の例文を集めた追加例文リスト104と、そのシナリオファイルにおいて扱う話題やその概要などの説明文106とを各元シナリオ100A、100B…100N毎に準備する。
A list of scenario-related keywords that are not included in the above scenario keywords, but the topics handled by the scenario and words that are strongly related to the topic name (such as "How to throw away garbage") are called scenario-related keywords. Scenario-related
Example sentences of an utterance sentence in which a scenario-related word registered in the scenario-related word list appears, an additional
また、連結された元シナリオにおいて、連結前の各元シナリオや本実施例において作成されるナビゲート用シナリオ403のいずれの部分シナリオから対話を開始すればよいのかをシナリオ名称で示した開始シナリオ名406(図2参照)と、この連結したシナリオの総称としてナビゲート用シナリオ403につけるシナリオ名称(例えば、「○○市総合案内」等)であるナビゲートシナリオ名407(図2参照)を準備する。
連結された対話シナリオの作成では、連結された元シナリオ100A、100B…100Nでは各部分シナリオを構成することになる各元シナリオのシナリオファイル名と、そのシナリオに付与されたシナリオ名称と、開始シナリオ名を連結情報作成手段304が読み込み、ナビゲート用シナリオ作成手段302が出力するナビゲート用シナリオ403のファイル名と、そのシナリオに付与されたシナリオ名称と、遷移用シナリオの実行が開始されるときに、最初に実行されるべき部分シナリオのシナリオ名称またはシナリオファイル名をリストにした連結情報405を出力する。
Also, in the linked original scenario, the name of the starting scenario indicating the scenario name from which each of the original scenarios before linking or the partial scenario of the
In the creation of the linked dialogue scenario, the scenario file name of each original scenario that constitutes each partial scenario in the linked
次に図4に遷移用リソース作成手段301の構成の一例を示す。遷移用リソース作成手段301は、情報抽出手段200が抽出したキーワード辞書、発話理解規則リスト、元シナリオ例文リスト、追加例文リストと、ナビゲートシナリオ名を入力とし、これらを用いて遷移用リソース作成手段301内に配置された遷移用シナリオキーワード辞書作成手段310が、遷移用キーワード辞書401−1を出力し、シナリオ名キーワード対応DB作成手段320がシナリオ名キーワード対応DB401−5を出力し、遷移用発話理解規則作成手段330が、遷移用発話理解規則401−2を出力し、遷移用認識言語モデル・辞書作成手段340が、遷移用言語モデル401−3と、遷移用単語辞書401−4をそれぞれ出力する。
Next, FIG. 4 shows an example of the configuration of the transition
遷移用キーワード辞書作成手段310は、遷移用キーワード辞書作成方法を用いて、遷移用キーワード辞書401−1を生成する。図5にその流れを示す。
遷移用キーワード辞書作成方法では、シナリオ内キーワード抽出ステップS5−1、シナリオ内キーワードクラス再付与ステップS5−2、シナリオ関連語クラス再付与ステップS5−3、シナリオ名称キーワード生成ステップS5−4という手順を連結対象となる全ての元シナリオについて繰り返し、それらの手順で得られたキーワードのリストをファイル等に書き出すステップ(S5−5)とを備える。
The transition keyword dictionary creation means 310 generates the transition keyword dictionary 401-1 using the transition keyword dictionary creation method. FIG. 5 shows the flow.
In the transition keyword dictionary creation method, the procedure of scenario keyword extraction step S5-1, scenario keyword class reassignment step S5-2, scenario related word class reassignment step S5-3, scenario name keyword generation step S5-4 is performed. A step (S5-5) of repeating for all the original scenarios to be connected and writing a list of keywords obtained by those procedures to a file or the like.
シナリオ内キーワード抽出ステップS5−1では、各元シナリオのキーワード辞書101A−2、101B−2…から、シナリオキーワードクラスリストに示されたクラスに属するキーワードを抜き出してくる。
次にシナリオ内キーワードクラス再付与ステップS5−2において、シナリオ内キーワード抽出ステップS5−1により抜き出された全キーワードのクラス名を、「シナリオ内キーワード−d」に置き換える。なお、dは、シナリオ内キーワードの属性を表わす情報であり、そのとき処理している元シナリオのシナリオ名称である。シナリオ名称が「ごみ分別案内」ならばクラス名は「シナリオ内キーワード-ごみ分別案内」と置き換えられる。
In the scenario keyword extraction step S5-1, keywords belonging to the class indicated in the scenario keyword class list are extracted from the
Next, in the in-scenario keyword class reassignment step S5-2, the class names of all keywords extracted in the in-scenario keyword extraction step S5-1 are replaced with “in-scenario keyword-d”. Note that d is information indicating the attribute of the keyword in the scenario, and is the scenario name of the original scenario being processed at that time. If the scenario name is “garbage separation guidance”, the class name is replaced with “keyword in scenario-garbage separation guidance”.
次にシナリオ関連語クラス再付与ステップS5−3ではシナリオ関連キーワードリスト内の各キーワードを読み込み、その全てのキーワードクラスを、「シナリオ関連語−d」に置き換える。dは、シナリオ内キーワードクラス再付与ステップS5−2と同様に現在処理しているシナリオ名称である。
更に、シナリオ名称キーワード生成ステップS5−4では、表記、意味素性をシナリオ名称とし、クラスを「シナリオ指定」クラスとしてキーワードを生成する。
上記を、各元シナリオについて実行し、さらにナビゲートシナリオ名についても遷移用キーワード辞書作成方法と同様にシナリオ名称キーワードを生成した後、シナリオ内キーワードクラス再付与、シナリオ関連語クラス再付与、シナリオ名称キーワード生成でそれぞれ書き換え、生成したキーワード全てを遷移用キーワードとしてファイル等に書き出す。
Next, in the scenario related word class reassignment step S5-3, each keyword in the scenario related keyword list is read, and all of the keyword classes are replaced with “scenario related word-d”. d is the name of the scenario currently being processed as in the intra-scenario keyword class reassignment step S5-2.
Further, in the scenario name keyword generation step S5-4, a keyword is generated with the notation and the semantic feature as the scenario name and the class as the “scenario designation” class.
Execute the above for each original scenario, and generate the scenario name keyword for the navigation scenario name as well as the transition keyword dictionary creation method, then reassign the keyword class within the scenario, reassign the scenario related term class, and the scenario name Each keyword is rewritten by keyword generation, and all the generated keywords are written to a file or the like as transition keywords.
シナリオ名キーワード対応DB(データベース)作成手段320は、シナリオ名キーワード対応DB作成方法を用いて、あるキーワードがどの元シナリオに属するかを示す表として作用するシナリオ名キーワード対応DB−401を作成する。図6に、シナリオ名キーワード対応DB作成方法の流れを示す。
シナリオ名キーワード対応DB作成方法では、遷移用キーワード辞書作成手段310が作成した遷移用キーワード辞書401−1を読み込む。そして、シナリオ名-表記取得ステップS6−1において、「シナリオ内キーワード−d」クラスと「シナリオ関連語−d」クラスに属するキーワードを取得する。dは連結しようとしている各元シナリオの名称である。そして、取得した各キーワード毎に、その表記と、クラス名の中からシナリオ名称部分を取得する。
The scenario name keyword correspondence DB (database) creation means 320 creates a scenario name keyword correspondence DB-401 that acts as a table indicating to which original scenario a certain keyword belongs, using the scenario name keyword correspondence DB creation method. FIG. 6 shows a flow of a scenario name keyword correspondence DB creation method.
In the scenario name keyword correspondence DB creation method, the transition keyword dictionary 401-1 created by the transition keyword dictionary creation means 310 is read. Then, in the scenario name-notation acquisition step S6-1, keywords belonging to the “in-scenario keyword-d” class and the “scenario-related word-d” class are acquired. d is the name of each original scenario to be connected. Then, for each acquired keyword, the scenario name portion is acquired from the notation and the class name.
取り出したそれぞれの1つのキーワードの表記とシナリオ名称の対応関係を1つのレコードとして、DB登録処理ステップS6−2によってDBへ登録する。なお、登録するデータベースはSQL言語などを介してアクセスする一般的なリレーショナルデータベースシステムでも良いし、1行に表記と対応するシナリオ名称がカンマ(,)などのデリミタ文字を挟んだものが列挙されているようなテキストファイルなどの形式でも良い。
遷移用発話理解規則作成手段330は、遷移用発話理解規則作成方法を用いて、遷移用発話理解規則401−2を生成する。図7に、遷移用発話理解規則作成方法の流れを示す。
The correspondence between the extracted keyword description and the scenario name is registered as one record in the DB in DB registration processing step S6-2. The database to be registered may be a general relational database system accessed via the SQL language or the like, and a scenario name corresponding to the notation is listed on one line with a delimiter character such as a comma (,). It may be in the form of a text file.
The transition utterance understanding rule creation means 330 generates a transition utterance understanding rule 401-2 by using the transition utterance understanding rule creation method. FIG. 7 shows the flow of the transition utterance understanding rule creation method.
遷移用発話理解規則作成方法は、理解規則抽出ステップS7−1、理解規則書き換えステップS7−2、規則生成1ステップS7−2、規則生成2ステップS7−4の4つの手段が連結しようとする各元シナリオについて繰り返され、ファイル等に生成した規則を書き出す。
理解規則抽出ステップS7−2では、各元シナリオ100A、100Bの発話理解規則リスト101A−3、101B−3…(図2参照)から、シナリオキーワードクラスリスト103に含まれるクラスをその規則中に含む発話理解規則を抽出する。
The utterance comprehension rule creation method for transition includes each of the four means of understanding rule extraction step S7-1, understanding rule rewriting step S7-2,
In the understanding rule extraction step S7-2, classes included in the scenario
理解規則書き換えステップS7−2では、理解規則抽出ステップS7−1で抽出した各規則のクラス名を「シナリオ内キーワード−d」に(dは現在処理中の元シナリオ名称)、振り分け先スロット名を「遷移先シナリオ関連語」スロットにそれぞれ書き換える。
規則生成1ステップS7−3では、「シナリオ内キーワード−d」または「シナリオ関連語−d」に属するキーワードが音声認識した単語列中に出現すれば、そのキーワードを「遷移先シナリオ関連語」スロットに振り分けよ、とした内容の発話理解規則を生成する。
In the understanding rule rewriting step S7-2, the class name of each rule extracted in the understanding rule extracting step S7-1 is set to “in-scenario keyword-d” (d is the original scenario name currently being processed), and the allocation slot name is changed. Rewrite each in the “Transition destination scenario related word” slot.
In
規則生成ステップS7−4では、「シナリオ指定」クラスに属するキーワードが音声認識した単語列中に出現すれば、そのキーワードを「遷移先シナリオ」スロットに振り分けよ、とした内容の発話理解規則を生成する。
上記を、各元シナリオについて実行し、さらにナビゲートシナリオ名称について規則生成2ステップS7−4を実行した後、理解規則書き換えステップS7−2、規則生成1ステップS7−3、規則生成2ステップS7−4でそれぞれ書き換え、生成した発話理解規則をファイル等へ書き出し、遷移用発話理解規則401−2とする。
In the rule generation step S7-4, if a keyword belonging to the “scenario designation” class appears in the speech-recognized word string, an utterance comprehension rule with the content that the keyword is assigned to the “transition destination scenario” slot is generated. To do.
The above is executed for each original scenario, and further,
遷移用認識言語モデル・辞書作成手段340は、遷移用認識言語モデル・辞書作成方法を用いて、遷移用言語モデル401−3と遷移用認識辞書401−4を作成する。図8に、遷移用認識言語モデル・辞書作成方法の流れを示す。
遷移用認識言語モデル・辞書作成方法は、連結しようとする各元シナリオについて、例文抽出ステップS8−1と、例文クラス変換ステップS8−2と、キーワード・クラス置換ステップS8−3と、形態素解析ステップS8−4を行い、言語モデルの計算・辞書の作成ステップS8−5と、それらの書き出しという処理ステップS8−6とからなる。
The transition recognition language model / dictionary creation means 340 creates the transition language model 401-3 and the transition recognition dictionary 401-4 using the transition recognition language model / dictionary creation method. FIG. 8 shows the flow of the transition recognition language model / dictionary creation method.
The transition recognition language model / dictionary creation method includes an example sentence extraction step S8-1, an example sentence class conversion step S8-2, a keyword / class replacement step S8-3, and a morpheme analysis step for each original scenario to be connected. Step S8-4 is performed, and it includes a language model calculation / dictionary creation step S8-5 and a process step S8-6 for writing them out.
例文抽出ステップS8−1では、各元シナリオが利用する言語モデルを生成した元シナリオ例文リスト(形態素解析され、キーワードが入る位置はクラス名で置き換えられている)の中から、シナリオキーワードクラスリスト中にあるクラスを含む例文を抽出する。
例文クラスステップS8−2では、今度は追加例文リスト105(図2)を読み込み、追加例文リスト105中の各例文に、シナリオ関連キーワードリスト104に含まれる単語があれば、その単語の部分を「シナリオ関連語−d」クラスに置き換える。
キーワード−クラス変換ステップS8−3では、今度は追加例文リスト105(図2)を読み込み、追加例文リスト105中の各例文に、シナリオ関連キーワードリスト104に含まれる単語があれば、その単語の部分を「シナリオ関連語−d」クラスに置き換える。
In the example sentence extraction step S8-1, in the scenario keyword class list from the original scenario example sentence list (the morpheme analysis is performed and the position where the keyword is entered is replaced by the class name) that has generated the language model used by each original scenario. Extract example sentences that contain classes in
In the example sentence class step S8-2, this time, the additional example sentence list 105 (FIG. 2) is read. If each example sentence in the additional
In the keyword-class conversion step S8-3, this time, the additional example sentence list 105 (FIG. 2) is read, and if each example sentence in the additional
形態素解析ステップS8−4では、キーワード−クラス置換ステップS8−3でキーワードのクラスへの置換後の追加例文リスト中の各例文を、形態素解析器を使って、単語ごとに分かち書きし、その読み仮名を振る。
言語モデルの計算・辞書の生成ステップS8−5では、上記例文クラス変換ステップS8−2と、形態素解析ステップS8−4で作成した形態素解析済み例文と、クラス内単語辞書の情報として遷移用キーワード辞書とを言語モデル・辞書作成方法を利用して、言語モデルと辞書を作成する。これには、特開2004−69858号公報及び特開2004−53745号公報で示される方法を利用することが出来る。
In the morpheme analysis step S8-4, each example sentence in the additional example sentence list after the replacement of the keyword with the class in the keyword-class replacement step S8-3 is divided for each word by using the morpheme analyzer, and the reading pseudonym Shake.
In the language model calculation / dictionary generation step S8-5, the example sentence class conversion step S8-2, the morpheme-analyzed example sentence created in the morpheme analysis step S8-4, and the transition keyword dictionary as information in the in-class word dictionary The language model and dictionary are created using the language model / dictionary creation method. For this, the methods disclosed in Japanese Patent Application Laid-Open Nos. 2004-69858 and 2004-53745 can be used.
計算した言語モデル、生成した辞書は、それぞれファイル等に保存され、遷移用言語モデル401−3及び遷移用認識辞書401−4とされる。
ナビゲート用シナリオ作成手段302(図2参照)は、ナビゲートシナリオ名と各元シナリオに付与したシナリオ名称と、連結された対話シナリオにおいて全体的な役割を務める対話シナリオであるナビゲート用シナリオ403を生成する。
ナビゲート用シナリオ403は、このシステムがいったいどんな話題の対話が出来るかという説明を行なうよう記述された対話シナリオである。ナビゲート用シナリオの生成にあたっては、連結される各元シナリオ名称が特定されなくても記述できるフローについてはあらかじめ記述したものをテンプレートとして保存しておき、ナビゲートシナリオ作成手段302が実行されて、連結される元シナリオ名称が定まったところでそのテンプレート内に完成に必要な情報を追記・生成することで完全なシナリオファイルとするといった手段で実現可能である。
The calculated language model and the generated dictionary are saved in a file or the like, respectively, and are used as a transition language model 401-3 and a transition recognition dictionary 401-4.
The navigation scenario creation means 302 (see FIG. 2) includes a
The navigating
また、遷移用シナリオ生成手段303は、各元シナリオ名称とナビゲートシナリオ名を読み込み、遷移用シナリオを生成する。例えば、ユーザが連結されている各元シナリオのいずれかを指示した場合、つまり「遷移先シナリオ」スロットにシナリオ指定クラスに属するキーワードが入力された場合、そのシナリオ名称の示す各元シナリオが連結されているかをシナリオ名称の列挙により応答してユーザの発言を促す。また、遷移先の候補となるシナリオが複数あった場合、つまり「遷移先シナリオ関連語」スロットに入力されたキーワードの表記からシナリオ名キーワード対応DB402を検索した結果、対応するシナリオ名称が複数得られた場合には、そのいずれに遷移すればよいかを確認するなどの対話を行なうように記述されている対話シナリオである。
Moreover, the transition
以上により、連結された対話シナリオが作成できる。
対話シナリオ実行手段600(図1参照)では、連結情報を読み込み最初に実行すべき元シナリオのシナリオファイル(元シナリオの1つか、ナビゲートシナリオ)を読み込んでから実行する。
最初に実行するシナリオが元シナリオの1つであれば、同時に遷移用シナリオと遷移用リソースを読み込み、元シナリオの音声認識・発話理解と平行してユーザの同じ発声に遷移用リソースによる音声認識・発話理解も実行する。遷移用リソースからの発話理解結果が得られ、さらに元シナリオソースからの認識結果が得られない場合または元シナリオソースからの認識結果が得られてもその尤度が遷移用リソースの結果に比して極端に小さい状態となった場合は、遷移用シナリオによる応答動作が実行される。遷移用シナリオによる対話の結果により、他の元シナリオまたはナビゲート用シナリオの実行が遷移用シナリオから要求されると、対話シナリオ実行手段600ではそのシナリオを読み込み実行する。ナビゲート用シナリオが実行されるときには、音声認識・発話理解の処理は遷移用リソースに対してのみ行われる。ナビゲート用シナリオはまたその対話結果に応じて、元シナリオの1つの実行や、対話の終了を対話シナリオ実行手段600に対して要求し、要求を受けた対話シナリオ実行手段600では元シナリオの実行やシステムの終了処理を行なう。
As described above, a linked dialogue scenario can be created.
In the dialogue scenario execution means 600 (see FIG. 1), the connection information is read and the original scenario scenario file (one of the original scenarios or the navigation scenario) to be executed first is read and executed.
If the scenario to be executed first is one of the original scenarios, the scenario for transition and the resource for transition are read at the same time. Perform utterance comprehension. When the utterance comprehension result is obtained from the transition resource and the recognition result from the original scenario source is not obtained or the recognition result from the original scenario source is obtained, the likelihood is higher than the result of the transition resource. If the state becomes extremely small, a response action based on the transition scenario is executed. When execution of another original scenario or navigation scenario is requested from the transition scenario based on the result of the dialog by the transition scenario, the dialog scenario executing means 600 reads and executes the scenario. When the navigation scenario is executed, the speech recognition / utterance understanding process is performed only for the transition resource. The navigating scenario also requests the dialog scenario executing means 600 to execute one of the original scenarios or the end of the dialog according to the result of the dialog, and the dialog scenario executing means 600 that received the request executes the original scenario. And system termination processing.
本実施例において、対話システムの連結のために入力として新たに人手等で作成しなければいけない情報は、名称、キーワードの列挙を行なうだけでよく、その作成コストはその対話システムで扱おうとする全話題のスロットに関して待ち受けるための規則を各コスト(>2のスロット数乗)に比してはるかに少ない。
遷移用リソースは、上記で説明した生成過程から、連結しようとする元シナリオが扱うキーワードや、その元シナリオを連想させるキーワードを認識・理解可能である。
また、遷移用リソースからの発話理解結果が得られるとその結果に応じて、遷移用シナリオやナビゲート用シナリオにより、別の話題を扱う対話シナリオへの遷移が可能となっている。
In this embodiment, information that has to be newly created manually as input for connection of the dialogue system only needs to enumerate names and keywords, and the creation cost is all that is to be handled by the dialogue system. There are far fewer rules to wait for the topic slot compared to each cost (> 2 times the number of slots).
From the generation process described above, the transition resource can recognize and understand the keywords handled by the original scenario to be linked and the keywords associated with the original scenario.
When an utterance understanding result is obtained from the transition resource, a transition scenario or a navigation scenario can be used to transition to a dialogue scenario that deals with another topic.
以上説明した音声対話シナリオ作成装置はハードウェアによって実現することも可能であるが、現実的には本発明による音声対話シナリオ作成プログラムをコンピュータにインストールし、コンピュータに音声対話シナリオ作成装置として機能させる実施形態が最も実現性が高い。本発明による音声対話シナリオ作成プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータが読みよ取り可能な例えばCD−ROM、磁気ディスクのような記録媒体に記録される。コンピュータにはこれらの記録媒体から或いは通信回線を通じてインストールされ、コンピュータに備えられたCPUに解読されて音声対話シナリオ作成動作を実行する。 Although the voice conversation scenario creation device described above can be realized by hardware, in practice, the voice dialogue scenario creation program according to the present invention is installed in a computer and the computer functions as a voice dialogue scenario creation device. The form is the most feasible. The voice interaction scenario creation program according to the present invention is described in a computer-readable program language, and is recorded on a recording medium such as a CD-ROM or a magnetic disk that can be read by the computer. The computer is installed from these recording media or through a communication line, and is decrypted by a CPU provided in the computer to execute a voice dialogue scenario creation operation.
本発明による音声対話シナリオ作成方法及び装置は音声対話システムを構築するためのプログラム作成現場で活用される。 The voice dialogue scenario creating method and apparatus according to the present invention is utilized in a program creation field for constructing a voice dialogue system.
100 元シナリオ群 401−1 遷移用キーワード辞書
100A〜100N 元シナリオ 401−2 遷移用発話理解規則
101A〜101N リソース 401−3 遷移用言語モデル
101A−1 シナリオファイル名 401−4 遷移用認識辞書
101A−2 キーワード辞書 401−5 シナリオキーワード対応DB
101A−3 発話理解規則リスト 403 ナビゲート用シナリオ
101A−4 元シナリオ例文リスト 404 遷移用シナリオ
102 シナリオファイル名 405 連結情報
103 シナリオキーワードリスト
104 シナリオ関連キーワードリスト
105 追加例文リスト
106 各シナリオの内容
200 情報抽出手段
300 整合情報作成手段
301 遷移用リソース作成手段
302 対話シナリオ
303 遷移用シナリオ作成手段
304 連結情報作成手段
100 original scenario group 401-1 transition keyword dictionary 100A to 100N original scenario 401-2 transition utterance understanding rules 101A to 101N resources 401-3
101A-3 Utterance
102
103 Scenario Keyword List
104 Scenario-related keyword list
105 List of additional example sentences
106 Content of each scenario
200 Information extraction means
300 Consistency information creation means
301 Transition resource creation means
302 Dialogue scenario
303 Transition scenario creation means
304 Link information creation means
Claims (6)
上記元シナリオに備えられているリソースから各元シナリオを連結することに必要な情報、どの元シナリオに話題を遷移するかを決める情報、話題が遷移した状態で各元シナリオに適した音声認識を行わせるための情報を抽出し、これらの情報からどの元シナリオに遷移しても各元シナリオが適正に音声応答を実行できる環境に整合させるための整合情報を生成し、
上記整合情報は、連結された元シナリオ内で扱う各元シナリオの名称と、元シナリオのファイル名、ファイルの位置、最初に実行する元シナリオの情報を記述した連結情報と、 各元シナリオの中の音声認識リソースから目的達成のために必要な入力項目に入力される単語と、各元シナリオの名称と、元シナリオを想起させる関連語句とを抽出し、これらを話題の遷移を引き起こす遷移用語句として適正に音声認識し、理解結果を出力するための遷移用リソースと、
遷移用語句が認識された場合に、その認識用語句と対応する元シナリオへ遷移するかを確認し、遷移することを表示し、連結されている別の元シナリオに制御を移す動作を実行するための遷移用対話シナリオとを含み、この整合情報を保有することにより複数の話題に対応可能な音声対話シナリオを作成することを特徴とする音声対話シナリオ作成方法。 A method for creating a voice conversation scenario comprising a plurality of original scenarios each corresponding to only one different topic, and creating a voice conversation scenario capable of corresponding to a plurality of topics by connecting the plurality of original scenarios.
Information necessary for linking each original scenario from the resources provided in the above original scenario, information for determining which original scenario the topic is to be transitioned to, and voice recognition suitable for each original scenario in the state where the topic is transitioned Extract information to be performed, generate matching information to match the environment in which each original scenario can properly execute voice response regardless of which original scenario transitions from these information,
The consistency information includes the name of each original scenario to be handled in the linked original scenario, the original scenario file name, the file location, the consolidated information describing the original scenario information to be executed first, and the original scenario. The words that are input to the input items necessary to achieve the objective from the voice recognition resources, the names of the original scenarios, and related phrases that recall the original scenarios are extracted, and the transition terms that cause the topic transition As a transition resource to properly recognize the voice and output the understanding result,
When a transition term phrase is recognized, it confirms whether the transition to the original scenario corresponding to the recognition term phrase is displayed, displays the transition, and executes an operation to transfer control to another connected original scenario. And a dialogue scenario for transition for creating a dialogue dialogue scenario capable of handling a plurality of topics by holding this matching information.
上記元シナリオに備えられているリソースから各元シナリオを連結するために必要な情報、どの元シナリオに話題を遷移するかを決める情報、話題が遷移した状態で各元シナリオに適した音声認識を行わせるための情報を抽出する情報抽出手段と、
この情報抽出手段が抽出した情報からどの元シナリオを実行中であっても他の元シナリオの扱う話題に関する利用者の発声を処理し、整合させるための整合情報を作成する整合情報作成手段と、を備え、
上記整合情報作成手段は、
連結された元シナリオ内で扱う各元シナリオの名称と、元シナリオのファイル名、ファイルの位置、最初に実行する元シナリオの情報を記述した連結情報とを作成する連結情報作成手段と、
各元シナリオの中の音声認識リソースから目的達成のために必要な入力項目に入力される単語と、各元シナリオの名称と、元シナリオを想起させる関連語句とを抽出し、これらを話題の遷移を引き起こす遷移用語句として適正に音声認識し、理解結果を出力するための遷移用リソースを作成する遷移用リソース作成手段と、
遷移用語句が認識された場合に、その認識用語句と対応する元シナリオへ遷移するかを確認し、遷移することを表示し、連結されている別の元シナリオに制御を移す動作を実行するための遷移用シナリオを作成する遷移用シナリオ作成手段と、
によって構成されることを特徴とする音声対話シナリオ作成装置。 A voice conversation scenario creation device that includes a plurality of original scenarios each corresponding to only one different topic, and creates a voice conversation scenario capable of supporting a plurality of topics by connecting the plurality of original scenarios.
Information necessary for linking each original scenario from the resources provided in the above original scenario, information for determining which original scenario the topic should transition to, and speech recognition suitable for each original scenario in the state where the topic has transitioned Information extracting means for extracting information to be performed;
A consistency information creating means for processing and uttering a user's utterance on a topic handled by another original scenario regardless of which original scenario is being executed from the information extracted by the information extracting means, equipped with a,
The matching information creation means
A concatenation information creation means for creating concatenation information describing the name of each original scenario handled in the concatenated original scenario, the file name of the original scenario, the location of the file, and the information of the original scenario to be executed first;
Extract the words that are input to the input items necessary to achieve the objective from the speech recognition resources in each original scenario, the name of each original scenario, and related phrases that recall the original scenario, and transition these to the topic A transition resource creating means for creating a transition resource for appropriately recognizing and outputting an understanding result as a transition term phrase that causes
When a transition term phrase is recognized, it confirms whether the transition to the original scenario corresponding to the recognition term phrase is displayed, displays the transition, and executes an operation to transfer control to another connected original scenario. A transition scenario creating means for creating a transition scenario for
Voice interaction scenario creating device according to claim Rukoto constituted by.
上記整合情報生成手段は、上記連結情報作成手段と、遷移用リソース作成手段と、遷移用シナリオ作成手段に加えて、
上記連結された元シナリオで実行可能な対話内容を表示し、音声対話手順を案内するためのナビゲート用シナリオ作成手段を備えることを特徴とする音声対話シナリオ作成装。 In the voice dialogue scenario creating device according to claim 2 ,
In addition to the connection information creation unit, the transition resource creation unit, and the transition scenario creation unit, the matching information generation unit includes:
An apparatus for creating a voice conversation scenario, characterized by comprising a scenario creation means for navigation for displaying conversation contents executable in the above-mentioned linked original scenario and guiding a voice conversation procedure.
上記遷移用リソース作成手段は、
各元シナリオに備えられているリソースの中のキーワード辞書から所定のクラスに属するキーワードを抽出し、抽出したキーワードにこのキーワードの属性を示す情報を付加した遷移用キーワード集を作成する遷移用キーワード辞書作成手段と、
各元シナリオに記述されている各キーワードがどの元シナリオに属するかを示す表として作用するシナリオ名キーワード対応データベースを作成するシナリオ名キーワード対応データベース作成手段と、
各元シナリオに記述されている発話理解規則のリストから、シナリオキーワードクラスリストに含まれるクラスの、その規則中に含む発話理解規則を抽出し、抽出した各規則のクラス名をシナリオ内のキーワードに属性を表わす情報を付加した名称に、また振り分け先スロット名を遷移先シナリオ関連語にそれぞれ書き替え、シナリオ内キーワードに属性を表わす情報が付加されたキーワード又は遷移先シナリオ関連語に属するキーワードが音声認識した単語列中に出現すれば、そのキーワードを遷移先シナリオ関連語スロットに振り分けよ、とする内容の発話理解規則と、シナリオ指定クラスに属するキーワードが音声認識した単語列中に出現した場合は、そのキーワードを遷移先シナリオスロットに振り分けよ、とした内容の発話理解規則を作成する遷移用発話理解規則作成手段と、
各元シナリオが利用する言語モデルを生成した元シナリオ例文リストの中から、シナリオキーワードクラスリスト中にあるクラスを含む例文を抽出し、抽出した各例文中のクラス名をシナリオ内のキーワードの検索に供する情報を付加したクラス名に置換し、更に追加例文リスト中の各例文からシナリオ関連キーワードリストに含まれるキーワードを抽出し、そのキーワードのクラスをシナリオ関連語クラスに置換したものと、また追加例文リスト中の各例文を形態素解析手段で単語ごとに分かち書きし、その読み仮名を振ったものとから遷移用言語モデルと遷移用認識辞書とを作成する遷移用認識言語モデル・辞書作成手段と、
によって構成したことを特徴とする音声対話シナリオ作成装置。 In the voice dialogue scenario creation device according to claim 2 or 3 ,
The transition resource creation means
A transition keyword dictionary that extracts keywords belonging to a predetermined class from a keyword dictionary in resources provided in each original scenario, and creates a transition keyword collection in which information indicating the attribute of the keyword is added to the extracted keywords. Creating means;
Scenario name keyword correspondence database creation means for creating a scenario name keyword correspondence database that acts as a table indicating which original scenario each keyword described in each original scenario belongs;
From the list of utterance understanding rules described in each original scenario, utterance understanding rules included in the rules of the classes included in the scenario keyword class list are extracted, and the class name of each extracted rule is used as a keyword in the scenario. Rewrite the name to which the attribute information is added and the distribution destination slot name to the transition destination scenario related word, respectively, and the keyword with the attribute information added to the keyword in the scenario or the keyword belonging to the transition destination scenario related word is spoken If it appears in the recognized word string, the utterance comprehension rule with the content that the keyword should be assigned to the transition destination scenario-related word slot, and the keyword belonging to the scenario specification class appears in the voice-recognized word string , An utterance comprehension rule with the content that the keyword is assigned to the destination scenario slot Transition for speech understanding rule generation means for generating,
Extract example sentences including classes in the scenario keyword class list from the original scenario example sentence list that generated the language model used by each original scenario, and use the class name in each extracted example sentence to search for keywords in the scenario. Replaced with the class name to which the information to be provided is added, further extracted the keywords included in the scenario-related keyword list from each example sentence in the additional example sentence list, replaced the keyword class with the scenario-related word class, and additional example sentences A transition recognition language model / dictionary creation means for creating a transition language model and a transition recognition dictionary from each of the example sentences in the list by morphological analysis means for each word;
A voice conversation scenario creation device characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005235121A JP4634889B2 (en) | 2005-08-15 | 2005-08-15 | Voice dialogue scenario creation method, apparatus, voice dialogue scenario creation program, recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005235121A JP4634889B2 (en) | 2005-08-15 | 2005-08-15 | Voice dialogue scenario creation method, apparatus, voice dialogue scenario creation program, recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007052043A JP2007052043A (en) | 2007-03-01 |
JP4634889B2 true JP4634889B2 (en) | 2011-02-16 |
Family
ID=37916558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005235121A Expired - Fee Related JP4634889B2 (en) | 2005-08-15 | 2005-08-15 | Voice dialogue scenario creation method, apparatus, voice dialogue scenario creation program, recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4634889B2 (en) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5149737B2 (en) * | 2008-08-20 | 2013-02-20 | 株式会社ユニバーサルエンターテインメント | Automatic conversation system and conversation scenario editing device |
JP6190251B2 (en) * | 2013-11-15 | 2017-08-30 | ヤフー株式会社 | Information processing apparatus and method |
JP6362861B2 (en) * | 2013-12-25 | 2018-07-25 | Kddi株式会社 | Dialog program, server and method for controlling insertion behavior of dynamic dialog node for dialog scenario |
CN109524010A (en) * | 2018-12-24 | 2019-03-26 | 出门问问信息科技有限公司 | A kind of sound control method, device, equipment and storage medium |
CN111126201B (en) * | 2019-12-11 | 2023-06-30 | 上海众源网络有限公司 | Character recognition method and device in script |
CN111768756B (en) * | 2020-06-24 | 2023-10-20 | 华人运通(上海)云计算科技有限公司 | Information processing method, information processing device, vehicle and computer storage medium |
CN113521758B (en) * | 2021-08-04 | 2023-10-24 | 北京字跳网络技术有限公司 | Information interaction method and device, electronic equipment and storage medium |
CN114118101B (en) * | 2021-11-26 | 2022-12-09 | 北京百度网讯科技有限公司 | Dialogue data generation method and device, equipment and medium |
CN114547271A (en) * | 2022-02-25 | 2022-05-27 | 北京智源人工智能研究院 | Dialogue data augmentation method, electronic device, and storage medium |
CN115357704B (en) * | 2022-10-19 | 2023-02-10 | 深圳市人马互动科技有限公司 | Processing method and related device for heterogeneous plot nodes in voice interaction novel |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001296943A (en) * | 2000-04-14 | 2001-10-26 | Denso Corp | Interactive user interface device |
JP2002023903A (en) * | 2000-07-11 | 2002-01-25 | Nippon Telegr & Teleph Corp <Ntt> | Use interaction method, device for performing the same and storage medium storing program for performing the same |
JP2003005786A (en) * | 2001-06-18 | 2003-01-08 | Oki Electric Ind Co Ltd | Voice conversation interface apparatus |
JP2004219714A (en) * | 2003-01-15 | 2004-08-05 | Will Being:Kk | Method and system for speech interaction by computer that discriminate scene of interaction belonging to specific scene predetermined according to human's indication, generate answer sentence constituting natural interaction conforming with scene, speech interaction by synthesizing voice of it |
JP2004240150A (en) * | 2003-02-05 | 2004-08-26 | Nippon Telegr & Teleph Corp <Ntt> | Voice interactive system, method for selecting voice interactive system, program, and recording medium |
JP2004310628A (en) * | 2003-04-10 | 2004-11-04 | Nippon Telegr & Teleph Corp <Ntt> | Dialog scenario production method, dialog scenario production device and program for producing dialog scenario |
JP2005011089A (en) * | 2003-06-19 | 2005-01-13 | Fujitsu Ltd | Interactive device |
-
2005
- 2005-08-15 JP JP2005235121A patent/JP4634889B2/en not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001296943A (en) * | 2000-04-14 | 2001-10-26 | Denso Corp | Interactive user interface device |
JP2002023903A (en) * | 2000-07-11 | 2002-01-25 | Nippon Telegr & Teleph Corp <Ntt> | Use interaction method, device for performing the same and storage medium storing program for performing the same |
JP2003005786A (en) * | 2001-06-18 | 2003-01-08 | Oki Electric Ind Co Ltd | Voice conversation interface apparatus |
JP2004219714A (en) * | 2003-01-15 | 2004-08-05 | Will Being:Kk | Method and system for speech interaction by computer that discriminate scene of interaction belonging to specific scene predetermined according to human's indication, generate answer sentence constituting natural interaction conforming with scene, speech interaction by synthesizing voice of it |
JP2004240150A (en) * | 2003-02-05 | 2004-08-26 | Nippon Telegr & Teleph Corp <Ntt> | Voice interactive system, method for selecting voice interactive system, program, and recording medium |
JP2004310628A (en) * | 2003-04-10 | 2004-11-04 | Nippon Telegr & Teleph Corp <Ntt> | Dialog scenario production method, dialog scenario production device and program for producing dialog scenario |
JP2005011089A (en) * | 2003-06-19 | 2005-01-13 | Fujitsu Ltd | Interactive device |
Also Published As
Publication number | Publication date |
---|---|
JP2007052043A (en) | 2007-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4634889B2 (en) | Voice dialogue scenario creation method, apparatus, voice dialogue scenario creation program, recording medium | |
CN108847241B (en) | Method for recognizing conference voice as text, electronic device and storage medium | |
JP4050755B2 (en) | Communication support device, communication support method, and communication support program | |
KR100661687B1 (en) | Web-based platform for interactive voice responseivr | |
US9196251B2 (en) | Contextual conversion platform for generating prioritized replacement text for spoken content output | |
CN112818089B (en) | Text phonetic notation method, electronic equipment and storage medium | |
CN111145719B (en) | Data labeling method and device for Chinese-English mixing and tone labeling | |
CN111177350A (en) | Method, device and system for forming dialect of intelligent voice robot | |
El Ouahabi et al. | Toward an automatic speech recognition system for amazigh-tarifit language | |
CN115731921A (en) | Training end-to-end spoken language understanding system with out-of-order entities | |
Gustafson | Developing multimodal spoken dialogue systems: Empirical studies of spoken human–computer interaction | |
JP2005174325A (en) | System and method for semantic stenography | |
KR20060100646A (en) | Method and system for searching the position of an image thing | |
Callejas et al. | Implementing modular dialogue systems: A case of study | |
JP2006236037A (en) | Voice interaction content creation method, device, program and recording medium | |
Trivedi | Fundamentals of Natural Language Processing | |
JP4220151B2 (en) | Spoken dialogue device | |
JP2004348552A (en) | Voice document search device, method, and program | |
CN111782779B (en) | Voice question-answering method, system, mobile terminal and storage medium | |
JP4206253B2 (en) | Automatic voice response apparatus and automatic voice response method | |
KR101030777B1 (en) | Method and apparatus for producing script data | |
Carlson | Recent developments in the experimental “Waxholm” dialog system | |
CN111402859B (en) | Speech dictionary generating method, equipment and computer readable storage medium | |
WO2022054286A1 (en) | Data structure of language resource; and device, method, and program for utterance understanding assistance in which same is used | |
Ekpenyong et al. | A Template-Based Approach to Intelligent Multilingual Corpora Transcription |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100629 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101109 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101119 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131126 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |