WO2020153146A1 - 情報処理装置、及び情報処理方法 - Google Patents
情報処理装置、及び情報処理方法 Download PDFInfo
- Publication number
- WO2020153146A1 WO2020153146A1 PCT/JP2020/000581 JP2020000581W WO2020153146A1 WO 2020153146 A1 WO2020153146 A1 WO 2020153146A1 JP 2020000581 W JP2020000581 W JP 2020000581W WO 2020153146 A1 WO2020153146 A1 WO 2020153146A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- response
- dialogue
- dialogue response
- information
- capability
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 68
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 230000004044 response Effects 0.000 claims abstract description 581
- 238000012545 processing Methods 0.000 claims abstract description 66
- 238000006243 chemical reaction Methods 0.000 claims description 89
- 230000002452 interceptive effect Effects 0.000 claims description 26
- 238000010801 machine learning Methods 0.000 claims description 10
- 238000013461 design Methods 0.000 abstract description 48
- 238000005516 engineering process Methods 0.000 abstract description 30
- 239000003795 chemical substances by application Substances 0.000 description 142
- 238000000034 method Methods 0.000 description 50
- 230000006870 function Effects 0.000 description 44
- 230000008569 process Effects 0.000 description 28
- 238000004891 communication Methods 0.000 description 18
- 230000009471 action Effects 0.000 description 15
- 230000006399 behavior Effects 0.000 description 9
- 230000005611 electricity Effects 0.000 description 7
- 238000013507 mapping Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 4
- 238000012938 design process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000004397 blinking Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000004984 smart glass Substances 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000010370 hearing loss Effects 0.000 description 1
- 231100000888 hearing loss Toxicity 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Definitions
- the present technology relates to an information processing device and an information processing method, and particularly to an information processing device and an information processing method capable of more appropriately providing a dialogue response.
- An agent device equipped with this kind of dialogue agent has various expression means such as a speaker, a display, and a body. Therefore, even if the same dialogue agent is used in the back end, the interface with the user may differ depending on the agent device.
- Patent Document 1 the technology disclosed in Patent Document 1 has been proposed as a technology for reducing the labor of the developer.
- a dialogue DB that is designed in advance and a correlation between words are calculated for an input sentence to use a dialogue generation unit, and a dialogue to be output is determined from the designed dialogue DB and the dialogue generation unit. doing.
- the agent device is also required to provide the user with a dialogue response that maximizes the use of the expression means that the user holds.
- the present technology has been made in view of such a situation, and is to enable more appropriate dialogue response to be provided.
- An information processing apparatus obtains a capability for each device that outputs a dialogue response, and from a dialogue response frame used as a seed when generating the dialogue response, according to the obtained capability.
- the information processing apparatus includes a processing unit that generates a dialogue response and expands the generated dialogue response for each device.
- an information processing apparatus acquires the capability of each device that outputs a dialog response, and acquires from the dialog response frame used as a seed when generating the dialog response. It is an information processing method for generating the dialogue response according to a capability and expanding the generated dialogue response for each device.
- the capabilities of each device that outputs a dialogue response are acquired and obtained from a dialogue response frame used as a seed when generating the dialogue response. Further, the dialogue response according to the capability is generated, and the generated dialogue response is expanded for each device.
- An information processing apparatus obtains, when an event of a dialogue response occurs, the dialogue response generated according to a capability from a dialogue response frame used as a seed when generating the dialogue response. Then, the information processing apparatus is provided with a processing unit that acquires context information regarding a context, selects the dialog response that matches the context from the acquired dialog responses, and outputs the selected dialog response.
- An information processing method is that an information processing apparatus generates a dialogue response frame, which is used as a seed when the dialogue response is generated, when the dialogue response event occurs, in accordance with a capability. It is an information processing method of acquiring the dialog response, acquiring context information about a context, selecting the dialog response suitable for the context from the acquired dialog responses, and outputting the selected dialog response.
- an event of a dialogue response when an event of a dialogue response occurs, it is generated according to a capability from a dialogue response frame used as a seed when generating the dialogue response.
- the dialog response is acquired, context information about the context is acquired, the dialog response that matches the context is selected from the acquired dialog responses, and the selected dialog response is output.
- the information processing device may be an independent device or may be an internal block making up one device.
- FIG. 16 is a diagram illustrating an example of the configuration of a computer.
- Dialog is the act of exchanging information such as utterances between people or machines.
- the exchange does not end with one exchange, but multiple exchanges occur. In that case, it is necessary to select an exchange that takes into consideration the existing exchanges.
- the form of dialogue may be one-to-one, one-to-many, many-to-many, or the like.
- dialogue and interaction are treated as synonyms.
- Dialog system is a system that can exchange (dialogue) some information with the user.
- the exchange is generally performed using a natural language such as a text or an utterance, but it is not necessarily limited to the language such as a gesture or eye contact.
- Dialog agent is a service that has a dialogue system and is deployed.
- the electronic device may actually have a display device or a body, or a GUI (Graphical User Interface) such as an application may be provided.
- GUI Graphic User Interface
- Dialog response is a reaction by the other (for example, the dialogue system) to the utterance from one (for example, the user) in the dialogue between the dialogue system and the user.
- This reaction includes, for example, an utterance response and a screen response, and these responses may be combined.
- GUI GUI
- Capability is a means of expressing various dialogue responses possessed by an agent device equipped with a dialogue agent.
- the “capability” includes “interface information” and “capability information”.
- Interface information is information about the interface of the agent device.
- Capability information is information regarding the capabilities of the interface.
- a dialogue response frame is a dialogue response design document for a dialogue system.
- the dialogue response frame is synonymous with “general-purpose dialogue response”.
- a “specific dialogue response” to a “general dialogue response” is also defined.
- the “specific dialogue response” refers to concrete dialogue response data actually held by each dialogue agent.
- FIG. 1 is a diagram showing an example of a configuration of an embodiment of a dialogue response designing device as an information processing device to which the present technology is applied.
- the dialogue response designer 10 is a device (dialog response generator) that designs (generates) a dialogue response and expands it on the agent devices 20-1 to 20-N.
- the dialogue response designing device 10 includes a dialogue response design tool 101, a dialogue response conversion function group 102, a capability list 103, and a dialogue response DB 104.
- the dialog response design tool 101 is a tool (GUI tool) handled by the developer 1 involved in the development of the dialog agent.
- the interactive response design tool 101 includes, for example, a web application, a client tool, and the like, and has a function for consistently designing an interactive response here.
- the developer 1 includes, for example, an application developer, a designer (including an interaction designer and a UI designer), a scenario writer, and the like.
- the functions of the dialog response design tool 101 include, for example, the functions (a1) to (a5) shown below.
- A1 Expandable capabilities and acquisition of expanded agent list
- A2) Dialog response design (both general-purpose dialogue response and concrete dialogue response can be designed)
- A3) Generate a dialogue response to any capability from a general-purpose dialogue response or a concrete dialogue response (using a dialogue response conversion module)
- A4) Modification of automatically generated dialogue response
- a5) Saving of generated dialogue response and expansion of dialogue response to each agent device 20-1 to 20-N (N: integer of 1 or more)
- the dialogue response conversion function group 102 has a mapping function for generating a concrete dialogue response using the capability when an arbitrary capability list 103 is given to the general dialogue response or the concrete dialogue response. ..
- This mapping function includes one based on a rule base adjusted manually and one based on machine learning based on machine learning.
- the rule-based mapping function is stored in the rule-base DB 102A, and the machine-learning mapping function is stored in the machine-learning base DB 102B.
- the capability list 103 is a list of capabilities that the dialog response design tool 101 can use.
- the capability list 103 has a filter function such as displaying only the capabilities corresponding to the service in accordance with the assumed service.
- the dialogue response DB 104 stores (the data of) the dialogue response generated by the dialogue response design tool 101. For example, in the dialogue response DB 104, the dialogue response before conversion and the input information at that time can be recorded together with the generated dialogue response.
- This input information includes, for example, capabilities and context information.
- the data stored in the dialog response DB 104 can be used by a machine learning-based learning device (dialog response conversion learning device 11) or by the developer 1 analyzing the conversion information.
- the function of the interactive response design tool 101 can access the data stored in the interactive response DB 104, or a general-purpose database (for example, an open source RDBMS (Relational Database Management System) or a commercial database). RDBMS etc.) can be used to provide external access.
- a general-purpose database for example, an open source RDBMS (Relational Database Management System) or a commercial database). RDBMS etc.
- the dialogue response conversion learning device 11 includes a model capable of generating a dialogue response using mapping information (mapping function).
- mapping function mapping information
- the function of the conversion unit can be registered as a function in the dialogue response conversion function group 102.
- the agent device 20-1 is an electronic device equipped with a dialogue agent, and includes, for example, a smartphone, a smart speaker, a speaker with a display, a television receiver, a robot, a wearable device, a tablet terminal, a display device, a personal computer, and others. Including household appliances.
- the agent devices 20-2 to 20-N are each configured as an electronic device equipped with a dialogue agent.
- the agent devices 20-1 to 20-N are simply referred to as the agent devices 20 unless it is necessary to distinguish them.
- a group may be registered so that it can be designed by switching to a desired service.
- the capability includes interface information and capability information. Even if the agent devices 20-1 to 20-N have the same interface information (for example, display) as capabilities, the capability information (for example, It is assumed that the display method, screen size, etc. are different.
- interface information for example, display
- capability information for example, It is assumed that the display method, screen size, etc. are different.
- the dialogue response designing device 10 is an information processing device, and is configured as a computer (for example, the computer 1000 in FIG. 15) such as a personal computer, a workstation, or a dedicated console.
- the dialog response design tool 101 is realized by executing a program by the processing unit 100 (for example, the CPU 1001 in FIG. 15).
- the dialog response conversion function group 102 and the dialog response DB 104 are stored in a storage device such as a HDD (Hard Disk Drive) or a semiconductor memory (for example, the recording unit 1008 in FIG. 15).
- the capability list 103 is stored in the wireless communication or the wired communication conforming to a predetermined standard with the agent devices 20-1 to 20-N by a communication unit such as a communication module (for example, the communication unit 1009 in FIG. 15). It is obtained by exchanging various information.
- step S101 the dialog response design tool 101 acquires and selects the capability list 103.
- step S102 the dialogue response design tool 101 determines whether to use a general-purpose dialogue response in accordance with, for example, an operation from the developer 1.
- step S102 If it is determined in the determination process of step S102 that the general-purpose dialogue response is used, the process proceeds to step S103.
- step S103 the dialogue response design tool 101 generates a general-purpose dialogue response frame.
- step S104 the dialog response design tool 101 determines whether to generate a new response, for example, in response to an operation from the developer 1.
- step S104 If it is determined in step S104 that a new response is to be generated, the process proceeds to step S105.
- step S105 the dialogue response design tool 101 generates a concrete dialogue response.
- step S104 If it is determined in the determination processing in step S104 that a new response will not be generated, the processing proceeds to step S106.
- step S106 the dialog response design tool 101 refers to the dialog response DB 104 and acquires and selects an existing dialog response.
- step S103 When the process of step S103, S105, or S106 is completed, the process proceeds to step S107.
- step S107 the dialog response design tool 101 selects and creates a dialog response conversion method. Details of the selection and generation of the interactive response conversion method will be described later with reference to FIG.
- step S108 the dialog response design tool 101 determines whether or not the dialog response needs to be modified, for example, according to the operation from the developer 1.
- step S108 If it is determined in the determination processing of step S108 that the dialogue response needs to be corrected, the processing proceeds to step S109.
- step S109 the dialog response design tool 101 corrects the dialog response.
- step S109 ends, the process proceeds to step S110. If it is determined in the determination processing of step S108 that the interactive response does not need to be modified, the processing proceeds to step S110.
- step S110 the dialog response design tool 101 stores the dialog response in the dialog response DB 104.
- step S111 the dialog response design tool 101 develops the dialog response in the agent device 20.
- the interactive response design tool 101 is a tool provided for, for example, an agent service provider (ASP). It is assumed that the dialogue agent here corresponds to the agent devices 20 having various capabilities even if they are the same dialogue agent.
- ASP agent service provider
- a certain dialogue agent (service) is deployed in an agent device 20 having various capabilities, such as a smartphone application, a speaker, or a speaker with a display, which is the same dialogue agent.
- the dialogue response to the same user utterance may have the same content, but it is necessary to adjust it according to the capability of each agent device 20. Therefore, it is a very troublesome work for the developer 1.
- dialog response design tool 101 it is possible to collectively generate (automatically generate) dialog responses to the agent devices 20 having various capabilities from one general dialog response frame by using the general dialog response frame. Is provided.
- the general-purpose dialogue response frame is a frame (file) described in accordance with the specifications of the general-purpose dialogue response, and the developer 1 only describes the general-purpose dialogue response frame, and the capability ( It is possible to design (automatically design) a dialogue response without paying attention to expression means.
- FIG. 3 shows an example of expansion of a dialogue response using a general-purpose dialogue response frame.
- the dialogue response designing unit 10 generates a dialogue response using the general-purpose dialogue response frame 110 created by the developer 1 and the conversion template 160 prepared in advance, and the agent devices 20-1 to 20- It has been expanded to 7 respectively.
- the deployment destination agent devices 20-1 to 20-7 have various capabilities. Therefore, here, first, the details of the capabilities of the agent device 20 of the deployment destination will be described.
- the capability includes interface information and capability information.
- the interface information includes, for example, information indicating a display, a speaker, a robot, a haptics, a message notification, a lamp, and the like.
- details of the interface information and the capability information corresponding to the interface information are shown in (b1) to (b6).
- the display is designated when a display device such as a liquid crystal display (LCD) or an OLED (Organic Light Emitting Diode) display is provided as an expression means.
- the display device may be equipped with a function such as a touch panel.
- the display is specified as the interface information
- the display method, screen size, touch panel information, etc. can be specified as the capability information.
- a display method for example, as a GUI display method, information indicating monochrome (for example, black and white monochrome) or color can be included.
- the screen size may include large, medium, and small classifications, and may include information indicating the screen resolution such as 640 ⁇ 480, 1920 ⁇ 1080, and 3940 ⁇ 2160.
- the touch panel information can include information indicating whether or not the touch panel is mounted.
- the agent device 20-1, 20-3, 20-4, 20-7 (smartphone, speaker with display, television receiver, smart glasses) is designated with "display” as interface information, A display method, screen size, etc. are designated as the capability information.
- the capability information a screen size of “small” for smart glasses, “medium” for smartphones and speakers with a display, and “large” for a television receiver is specified.
- (B2) Speaker A speaker is designated when it has an audio output device for reproducing sounds such as voice and music as an expression means.
- the speaker is not limited to monaural or stereo, but may be composed of a plurality of channels, for example.
- the plurality of channels include a directional speaker using a speaker array.
- the reproduction method and the number of sound channels can be specified as the capability information.
- the reproduction method can include information indicating, for example, stereo or monaural.
- “speaker” is specified as the interface information and the reproduction method is specified as the capability information for the agent devices 20-2 and 20-3 (smart speakers, speakers with a display).
- the capability information a reproduction method of "monaural" for the smart speaker and "stereo" for the speaker with a display is specified.
- agent devices 20-1 and 20-4 smart phone, TV receiver
- Capability information such as "stereo” may be specified.
- the robot has, for example, a shape and function imitating or approximating a human being or an animal (pet), and autonomously performs some motion mainly by moving a body part with an actuator. Specified when having a device or machine as a means of expression.
- the robot is not limited to a humanoid type or an animal type, and includes, for example, a robot arm, a caterpillar car, and the like, and thus includes a work robot installed in a factory or the like.
- the capability information can be specified as, for example, the driving part or the lighting part.
- the drive part can include, for example, information indicating the head, the hand, and the like.
- the agent device 20-5 dog type robot
- “robot” is designated as the interface information
- a driving part such as “head” is designated as the capability information.
- CG computer graphics
- VR virtual reality
- AR Augmented Reality
- the haptics are designated when the function of expressing the skin sensation of the user as a representation means is simulated by a vibration element or the like. For example, it is implemented by a wearable device such as a wrist watch type or a bracelet type.
- vibration patterns and strengths can be specified as capability information.
- the vibration pattern can include information indicating, for example, a trembling pattern or a pattern in which long vibration continues.
- strength of vibration for example, information indicating strong vibration, weak vibration, or the like can be included.
- haptics is specified as interface information
- a vibration pattern such as “quickly shake” is specified as capability information.
- the message notification is designated when the expression means has a function of notifying a message by using an application such as an electronic mail or a social network service (SNS).
- the message may be accompanied by, for example, an image or a moving image in addition to the text.
- a message notification is specified as interface information
- compatible media such as images and videos
- capability information For example, in FIG. 3, for the agent devices 20-1 and 20-3 (smartphone, speaker with display), “message notification” is designated as interface information, and corresponding media is “image” and “video” as capability information. Is specified.
- Lamp A lamp is designated when it has a light source such as an LED (Light Emitting Diode) as an expression means. It is possible to express various kinds of information by changing lighting, blinking, color, brightness, etc. by the light source (lamp) such as the LED.
- a light source such as an LED (Light Emitting Diode)
- the type of color, lighting (blinking) pattern, brightness, etc. can be specified as the capability information. Specifically, for example, color types such as “red” and “blue”, blinking patterns such as lighting at “short intervals” and “long intervals”, and brightness such as “bright” and “dark”. Information that indicates may be included.
- the agent devices 20-5 and 20-6 are designated with “lamp” as the interface information, and the type of color “blue” or “short” as the capability information.
- a lighting pattern that is "interval” is specified.
- the capability of each agent device 20 may include one or more interface information and one or more capability information. However, it is optional whether to include capability information in the capability.
- the agent device 20-1 (smartphone) has “display”, “speaker”, “haptics”, “message notification”, and “lamp” as interface information, and the capability information is provided for these interface information. I have each.
- the dialog response designing device 10 in the dialog response designing device 10, the general-purpose dialog response frame 150 created by the developer 1 is used as a seed (Seed) when generating dialog responses of various capabilities and prepared in advance. It is applied to the conversion template 160. As a result, the dialog response designing device 10 can generate and expand the dialog response suitable for each of the agent devices 20-1 to 20-7 having various capabilities.
- FIG. 4 shows an example of generating a dialogue response using a general-purpose dialogue response frame.
- FIG. 4 as a typical example of generating a dialogue response using the general-purpose dialogue response frame 150, an example of developing a dialogue response (screen response and utterance response: GUI+ TTS) using the conversion template 160 is shown. ..
- the general-purpose dialogue response frame 150 describes a dialogue behavior (ACT), a dialogue behavior type (TYPE), and a parameter (PRAMS) for the dialogue behavior.
- ACT dialogue behavior
- TYPE dialogue behavior type
- PRAMS parameter
- Dialogue behavior describes the ID for the application function that is actually started.
- ACT Dialogue behavior
- WETHER-SHOW is described as the dialogue action, but this is ⁇ application name> - ⁇ application execution function>, that is, “WETHER”. It means the application name and the execution function of the application that is "SHOW”. This does not include runtime arguments (eg date information in weather confirmation).
- Dialogue behavior type describes the type of general dialogue behavior that does not depend on the application.
- the dialogue action type includes "INFORM”, “ACK”, “ASK”, “EXPLICIT_CONFIRM”, “IMPLICIT_CONFIRM” and the like.
- TYPE:INFORM is described as the dialogue action type.
- INFORM refers to the act of providing some information from the system side to the user side.
- the parameter for dialogue behavior (PRAMS) describes the parameter information required when executing the dialogue behavior. This parameter (PRAMS) depends on the dialogue behavior and can be mandatory or optional.
- PRAMS parameters (weather information), "DOMAIN: weather”, “DATE: tomorrow”, “PLACE: Osaki”, “CONTENTS: [ ⁇ TEMP:3030/24, STATE: sunny” ⁇ ]” is described.
- the conversion template 160 is for generating a specific dialogue response from the general-purpose dialogue response frame 150.
- the conversion template 160 is designed for each combination of capabilities and can generate various dialogue responses.
- the conversion template 160 shows an example in which the dialogue action type (TYPE) is "INFORM". As described above, since "INFORM” does not depend on the dialogue action, it is designed to be used for other "INFORM" dialogue actions.
- the conversion template 160 is adapted to accept variables (eg, $DATE, $DOMAIN, etc.), and by inputting the value of the parameter (PRAMS) of the general-purpose dialogue response frame 150, the final dialogue response is output. be able to.
- FIG. 4 two patterns of FULLTEXT and GUI+TEXT are prepared as the conversion template 160.
- FULL-TEXT is to convert the value of the received input parameter into text only.
- two types of templates for FULLTEXT conversion are prepared.
- the conversion template 160 may be applied using an HTML (HyperText Markup Language) document as a GUI element.
- HTML HyperText Markup Language
- the HTML document can accept parameters (PRAMS), and the contents may be switched according to the value of an appropriate variable.
- GUI+TEXT is to convert the value of the received input parameter into GUI and text.
- GUI+TEXT3 two types of templates for GUI+TEXT conversion, GUI+TEXT3 and GUI+TEXT4, are prepared.
- the weather icon for example, “sunny.png” or “rainy.png", depending on the character string specified by $STATE (for example, “sunny” or “rain”) Etc.) have been switched.
- the dialogue response corresponding to various capabilities is generated by passing through the conversion template 160.
- the agent device 20 having the interface information of “speaker” is accepted by applying the template for FULLTEXT conversion (FULLTEXT1 or FULLTEXT2) in the conversion template 160.
- the input parameter values are converted to text only.
- the converted text is converted into voice by the text-to-speech function (TTS), and the voice is output as a dialogue response (speech response).
- TTS text-to-speech function
- the conversion template 160 uses the GUI+TEXT conversion template (GUI+TEXT3 or GUI). By applying +TEXT4), the received input parameter value is converted to GUI and text. Then, the converted text is converted into voice, and the voice is output as a dialogue response (screen response and utterance response) together with the GUI.
- GUI+TEXT3 or GUI GUI+TEXT3 or GUI.
- a dialogue response such as "Tomorrow's weather is here" is output as a dialogue response along with GUI screen responses such as location, date, temperature, and cloudy icon.
- GUI+TEXT4 as the dialogue response, the utterance response that is "here” is output together with the GUI screen response such as location, date, temperature, and cloudy icon.
- the interactive response design tool 101 also provides means for changing the automatically generated interactive response.
- the interactive action type is a general action type that does not depend on the application (domain).
- the dialogue action type includes, for example, INFORM, ACK, ASK, EXPLICIT_CONFIRM, IMPLICIT_CONFIRM, etc. Details of the conversion template 160 for each dialogue action type (TYPE) are shown in (c1) to (c5) below.
- Example conversion template 160 "$1 is here” "$1 is $2" "$1 is [$2, $3, ... $N]"
- ACK TYPE ACK Meaning: Means a response to some instruction from the user. It may be detailed as ACK-YES/ACK-NO.
- Example conversion template 160 "understood” "I've acknowledged” "$1, I understand.” "I do not know”
- C3 ASK TYPE: ASK Meaning: Indicates that the dialog system asks the user to achieve the user's purpose (for example, “check the weather”, “search a restaurant”, etc.).
- Example conversion template 160 "Please tell me $1" "Do you want to confirm $1?" "What is $1?"
- EXPLICIT_CONFIRM TYPE EXPLICIT_CONFIRM Meaning: Indicates the action of explicitly confirming information. Generally, when voice recognition or the like is used, when the reliability of the recognition engine is low, the meaning of confirmation is given to the user. Generally, it is often used in combination with other TYPE actions such as INFORM.
- Example conversion template 160 "Does it match $1?" "Is it $1?"
- Example conversion template 160 “$1 is here” (The same content as INFORM may be used) “It's $1 here.” (The same content as INFORM may be used) "What is $1, what is $2?" (may be something like a combination with ASK)
- the agent device 20 having the speaker was deployed, but thereafter, when the service is expanded to further deploy the agent device 20 having the display, the existing interaction response resource is reused. This is a useful means in the sense that it can be done.
- 5 and 6 show an example of conversion between agent devices 20 having different capabilities.
- the dialogue response expanded to the agent device 20-1 (smartphone) having the capability (interface information) that is a “display” is used as another agent device 20- that has the capability (interface information) that is a “speaker”.
- 2 shows an example of conversion for reuse with 2 (smart speaker).
- agent device 20-1 smart phone
- GUI screen response
- the agent device 20-2 has only the interface information that is the “speaker”, and therefore the graphical information is unnecessary. Therefore, here, the graphical information is converted as text (converted according to the conversion rule) to enable the speech response (TTS).
- the dialogue response expanded to the agent device 20-2 (smart speaker) having the capability (interface information) that is a “speaker” is used by another agent that has the capability (interface information) that is a “display”.
- An example of conversion for reuse in the device 20-3 is shown.
- agent device 20-2 smart speaker
- the agent device 20-2 smart speaker
- the user utters “Tell me about tomorrow's weather in Osaki”, as a dialogue response, “Tomorrow's weather in Osaki is cloudy”.
- the maximum temperature is 21 degrees.”
- another agent device 20-3 speaker with a display
- the agent device 20-3 since the agent device 20-3 has the interface information which is the “display”, it is possible to express the dialogue response as graphical information by the GUI. Therefore, here, the text of TTS is converted into the component of GUI (automatic conversion) so that the graphical information can be displayed.
- the developer 1 can make final adjustments (customization) to the converted information (graphical information).
- the developer 1 makes final adjustments, whereby image information such as a cloudy icon and temperature is added as graphical information to character information such as a place, date, and weather.
- image information such as a cloudy icon and temperature
- character information such as a place, date, and weather.
- the developer 1 can reduce the amount of work as compared with designing the dialogue response from scratch.
- the agent device 20-3 (speaker with display), when the user utters “Tell me about the weather in Osaki tomorrow”, the location, date, weather, cloudy icon, and temperature are displayed as dialogue responses.
- the agent device 20-3 (speaker with display) has the interface information that is “speaker”, for example, it may be adjusted so that a part of the dialogue response is output by the speech response. .. Also in the example of FIG. 5, the developer 1 may make the final adjustment, as in the example of FIG. 6. The details of the conversion method illustrated in FIGS. 5 and 6 will be described later.
- Rule-based conversion algorithm As a conversion method between agent devices 20 having different capabilities, a rule-based conversion algorithm that describes the conversion method as a rule can be used. In this conversion method, a rule-based conversion algorithm needs to be designed in advance, but it is easy to adjust and a flexible dialogue response can be designed.
- TTS example "This week's weather will be fine in Tokyo, rain in Kyoto, and rain in Fukuoka.”
- the text list structure is detected.
- learning may be performed by a dedicated detector, or the list structure may be manually annotated. It can also be applied to applications that handle list structures such as schedules and ToDo lists.
- the parallel information is analyzed (for example, morphological analysis) and displayed in a list.
- GUI screen response
- TTS utterance response
- the list structure is explicit (ul-li) in the HTML document, so it is easy to detect and easily expand to other capabilities. Is.
- GUI+TTS example //TTS "This week is here" //GUI ⁇ ul> ⁇ li>Tokyo: Sunny ⁇ /li> ⁇ li>Kyoto: Rain ⁇ /li> ⁇ li>Fukuoka: Rain ⁇ /li> ⁇ /ul>
- TTS utterance response
- GUI screen response
- FIG. 7 shows an example of how the custom layout of the interactive response after conversion is reflected.
- Parameters such as language, dialect, and politeness may be adjusted. By adjusting the dialect and politeness, it is possible to change the intonation of the text displayed in the screen response (GUI) and the text read out in the speech response (TTS).
- GUI screen response
- TTS speech response
- FIG. 8 shows an example of generating a dialogue response of an arbitrary capability by the Sequence-to-Sequence model.
- the existing existing dialogue response or the general-purpose dialogue response frame 150 is input as a series, and the desired dialogue response is output as a series. Specifically, the text "Osaki is sunny” is input, and the dialogue response including the text “Osaki” and the sun icon (image) is output.
- HTML HyperText Markup Language
- TAG Tag
- the model may be learned for each pair of capabilities.
- a dialogue response according to the time zone can be generated. For example, in the evening time zone, the agent device 20 lowers the brightness of the display screen on the display to give a screen response, or lowers the playback volume from the speaker to give an utterance response. Can be generated.
- the agent device 20 can generate a dialogue response such as a screen response or an utterance response for one person, a couple, a family, a guest, or the like in accordance with the people around the agent device 20.
- (E3) By distance It is possible to generate a dialogue response according to the distance to the user who is conducting the dialogue. For example, when the agent device 20 is far from the user, the agent device 20 makes a screen response in which the image size and the font size of the text are increased, or makes an utterance response in which the reproduction volume from the speaker is increased. It is possible to generate a dialogue response such as
- (E4) By scene It is possible to generate a dialogue response according to a scene.
- the agent device 20 can generate a dialogue response in which the utterance response from the speaker is replaced with a response from another capability (for example, email or vibration). ..
- the user's private information for example, personal schedule
- the case where the time zone, the person, the distance, and the scene are used as the context information is illustrated, but these are examples, and the sensing information detected by the sensor unit of the agent device 20 is an example. Other contexts may be used according to information such as.
- the agent device 20 having a display, a speaker, and a haptic (for example, a vibrating element) as capabilities (interface information) can be made to generate a dialogue response of all combinations of capabilities (interface information). deep.
- a haptic for example, a vibrating element
- the agent device 20 As a result, in the agent device 20, a capability corresponding to accessibility is selected, and it is possible to flexibly respond to accessibility according to various users.
- GUI function of screen response
- TTS function of only speech response
- GUI function of screen response
- the agent device 20 can output a dialogue response according to the capability information.
- the expression performance for example, CPU (Central Processing Unit) performance, screen resolution, number of sound channels, etc.
- capabilities capability information
- FIG. 9 shows an example of switching the dialogue response according to the expression performance in the agent device 20.
- thumbnails of moving image files are used or a predetermined format (eg GIF( (Graphics Interchange Format) format) to generate a still image file and display the still image as a screen response.
- GIF Graphics Interchange Format
- the dialog response designing device 10 can generate and expand a dialog response (screen response, utterance response, etc.) according to the capability (capability information) of the agent device 20 at the deployment destination.
- the conversion of the dialogue response according to the expression performance may be automatically performed by the dialogue response designer 10 or may be explicitly instructed by the developer 1.
- New response type for example, a question answering (QA: Question Answering) regarding a simple fact can be answered even if the developer does not set an interactive answering. In other words, it can be said that it provides a built-in QA function.
- QA Question Answering
- (F2) New grant type For example, words such as a hammer and a simple greeting are added.
- the frequency and timing of the words to be given are set by the developer.
- the timing may be, for example, when the user is talking for a long time or when it takes time to load the service.
- F3 Additional-addition type In the additional-addition type, for example, when it takes time to reproduce a natural utterance or to execute a background service, a filler is added or a simple greeting is added.
- (F4) Function compensation type In the function compensation type, for example, when the reliability of voice recognition or semantic analysis is low, explicit or implicit confirmation information is added to the dialogue response.
- the dialog response designer 10 acquires the capabilities (including interface information and capability information) of each agent device 20 that outputs a dialog response, and uses the dialog dialog as a seed for generating a dialog response. From the frame 150, a dialogue response according to the acquired capability is generated, and the generated dialogue response is expanded for each agent device 20.
- the general-purpose dialogue response frame 150 is a frame (file) described in accordance with the specifications of the general-purpose dialogue response, and the dialogue response designer 10 includes the general-purpose dialogue response frame 150, the conversion template 160, and the capability list 103. Is configured as an input, and is configured as a generator that outputs a dialogue response suitable for an arbitrary agent device 20.
- the developer 1 can design (automatically design) a dialogue response by only describing the general-purpose dialogue response frame 150 without being aware of the capability (expressing means) of the agent device 20. .. Therefore, it is possible to deal with the agent device 20 having various capabilities only by maintaining one general-purpose dialog response specification. Further, for example, it is possible to flexibly deal with the case where the device supported by the dialogue agent changes (increases or decreases). As a result, the dialogue response can be provided more appropriately.
- the dialog response designing device 10 can convert a designed dialog response for a specific agent device 20 into a dialog response of another agent device 20 having different capabilities (the above-mentioned “response modality conversion”). ). Furthermore, not only using the built-in dialog response template, but also the developer 1 can customize the template to design a detailed dialog response expansion rule when deploying to the agent device 20.
- Patent Document 1 calculates a correlation between a pre-designed dialogue DB and words for an input sentence and uses a dialogue generation means to design the dialogue DB and dialogue It is to determine the dialogue to be output from the generation means, and even if the developer does not design all the dialogue responses, the dialogue generation means is used under certain conditions to reduce the labor of the developer. There is.
- the technique according to the present disclosure reduces the labor of the developer by developing the dialogue response to the agent device 20 having various expression means (capabilities) by the dialogue response designer 10, and therefore the approach is different. ing. Further, the technology according to the present disclosure is targeted for the agent device 20 having various expression means (capabilities), but the technology disclosed in Patent Document 1 is targeted for text display and speech synthesis utterance, and its target is Is limited.
- Patent Document 1 there is no concept such as template expansion suitable for a device, and part or all of the dialog response is rewritten by the dialog generation means. , And is significantly different from the technology according to the present disclosure. Further, a method called responsive web design is known, but this design method is limited to display on a display, and is disclosed in the present disclosure targeting the agent device 20 having various expression means (capabilities). The technology is different.
- FIG. 10 is a diagram showing an example of a configuration of an embodiment of an agent device as an information processing device to which the present technology is applied.
- the agent device 20 includes a control unit 200, a sensor unit 201, a camera unit 202, a microphone unit 203, a storage unit 204, a communication unit 205, a power supply unit 206, and an interface 207.
- the control unit 200 is composed of, for example, a processor such as a CPU and an FPGA (Field Programmable Gate Array).
- the control unit 200 is a central processing device that controls the operation of each unit and performs various arithmetic processes.
- the control unit 200 includes a dialogue response processing unit 211.
- the dialogue response processing unit 211 performs processing relating to a dialogue response.
- the sensor unit 201 is composed of, for example, various sensor devices.
- the sensor unit 201 senses a user and the surroundings thereof, and supplies sensing information obtained as a result to the control unit 200.
- the sensor unit 201 includes, for example, a magnetic sensor that detects the magnitude and direction of a magnetic field (magnetic field), an acceleration sensor that detects acceleration, a gyro sensor that detects an angle (posture), angular velocity, and angular acceleration, and a proximity unit.
- a proximity sensor or the like for detecting can be included.
- the sensor unit 201 also includes a sensor for measuring the surrounding environment, such as a temperature sensor for detecting temperature, a humidity sensor for detecting humidity, an ambient light sensor for detecting ambient brightness, a breath, a pulse, or a fingerprint. , A biosensor for detecting bioinformation such as an iris can be included.
- the camera unit 202 is configured to include an image sensor such as a CMOS (Complementary Metal Oxide Semiconductor) image sensor and a CCD (Charge Coupled Device) image sensor, and a signal processing unit such as a camera ISP (Image Signal Processor).
- image sensor such as a CMOS (Complementary Metal Oxide Semiconductor) image sensor and a CCD (Charge Coupled Device) image sensor
- signal processing unit such as a camera ISP (Image Signal Processor).
- image information obtained by the signal processing unit performing various kinds of signal processing on an image pickup signal obtained by picking up an image of a subject by the image sensor is generated and supplied to the control unit 200.
- the microphone unit 203 converts an external sound (voice) into an electric signal and supplies the voice information obtained as a result to the control unit 200.
- the storage unit 204 is composed of a storage device such as a semiconductor memory or an HDD (Hard Disk Drive).
- the storage unit 204 stores various data under the control of the control unit 200.
- the storage unit 204 stores the dialogue response expanded by the dialogue response designer 10 (hereinafter, also referred to as expanded concrete dialogue response) as a database (expanded concrete dialogue response DB 250 in FIG. 12 or FIG. 13 described later). can do.
- the communication unit 205 is composed of a communication module or the like compatible with wireless communication or wire communication conforming to a predetermined standard.
- a communication module for example, a module compatible with a communication system such as a wireless LAN (Local Area Network) or a cellular communication (for example, LTE-Advanced or 5G) is used.
- the communication unit 205 exchanges various kinds of information with other devices (for example, the dialog response designing device 10) under the control of the control unit 200.
- the power supply unit 206 supplies the power supply power obtained from an external power supply or a storage battery to each unit of the agent device 20 including the control unit 200 under the control of the control unit 200.
- the interface 207 is a user interface for exchanging information with the user 2.
- the interface 207 can be said to be a means for expressing various dialogue responses that the agent device 20 has.
- the interface 207 includes expression means such as the display 221, the speaker 222, the vibration element 223, or the lamp 224.
- This expression means is the same or different for each agent device 20, and each agent device 20 is not limited to one expression means, and a plurality of expression means may be provided. Then, in the agent device 20, the interface information and the capability information corresponding to the interface 207 (display means such as the display 221) are set as capabilities.
- the configuration shown in FIG. 10 is an example, and it is not necessary to include all the components, and for example, a configuration in which some components such as the camera unit 202 and the microphone unit 203 are excluded may be used. Alternatively, other components such as a position information detection unit for detecting position information including a GPS (Global Positioning System) signal may be added to the configuration shown in FIG.
- GPS Global Positioning System
- the expanded concrete dialogue response expanded by the dialogue response designing unit 10 is stored in the storage unit 204 (the expanded concrete dialogue response of FIG. It is stored in the DB 250).
- step S201 the dialogue response processing unit 211 determines whether a dialogue response event has occurred.
- This dialog response event is an event that causes the dialog response system to actually execute and display the dialog response (trigger).
- the dialog response event the utterance from the user 2 is generally used, but the user information actively detected by the dialog response system and the event hook from another service also apply.
- the former user information includes, for example, information such as "Let's play music when I get home”.
- the latter event hook includes, for example, when the user is scheduled to register with a schedule management application.
- step S201 If it is determined in the determination processing of step S201 that a dialogue response event has occurred, the processing proceeds to step S202.
- step S202 the dialog response processing unit 211 selects a dialog response corresponding to the generated dialog response event from the expanded specific dialog responses.
- the number of dialog responses selected here is not limited to one, and a plurality of dialog responses may be selected. That is, it is assumed that there are a plurality of corresponding dialogue responses due to the difference in capabilities of each agent device 20.
- the dialogue response selected here is particularly referred to as a candidate dialogue response.
- the dialogue response processing unit 211 acquires context information.
- the context information includes various information related to the context, such as the current user situation, the state of the agent device 20, the surrounding environment state, and the dialogue history.
- the context information can be acquired based on user settings, sensing information, information on external services, and the like.
- step S204 the dialog response processing unit 211 excludes dialog responses that do not match the context from the candidate dialog responses based on the acquired context information.
- the display is disabled according to the capability (interface information), and the corresponding dialogue response is excluded from the candidate dialogue responses.
- the speaker excludes the corresponding dialogue response as unusable.
- the display device is used and the interactive response regarding the other display device is excluded.
- step S205 the dialogue response processing unit 211 determines whether or not there are one or more candidate dialogue responses. When it is determined in step S205 that one or more candidate dialogue responses exist, the process proceeds to step S206.
- step S206 the dialogue response processing unit 211 selects a dialogue response that best matches the context from the candidate dialogue responses based on the acquired context information.
- a dialogue response that best matches the context condition can be selected from the candidate dialogue responses.
- the developer 1 may freely set a selection policy (policy) such as selecting a dialogue response that maximizes the capability or a dialogue response that minimizes power consumption.
- policy selection policy
- step S205 determines whether there is no candidate dialogue response. If it is determined in step S205 that there is no candidate dialogue response, the process proceeds to step S207.
- step S207 the dialog response processing unit 211 reacquires (reacquires) the candidate dialog response before the context application in the process of step S204.
- step S208 the dialogue response processing unit 211 applies the context to the dialogue response by the built-in function (using the context prepared in advance for performing general-purpose processing), and regenerates the concrete dialogue response. (Regenerate).
- ⁇ adjustments (automatic adjustments) are made so that the dialogue response is in accordance with the context. That is, as in the case of the above-described “Generation of dynamic dialogue response using context”, for example, a concrete dialogue response is dynamically generated according to time zone, person, distance, scene, etc. ..
- the developer 1 may design the dialog response by using the context in advance, or if the dialog response corresponding to the context does not exist, the dialog system side A format that supports (automatically) may be adopted.
- the dialogue response processing unit 211 may select a dialogue response that most satisfies the context, and may generate a response (notification) indicating that the dialogue response cannot be performed, for example.
- a message "currently the function cannot be executed" may be output, or the LED may blink red.
- step S206 the process proceeds to step S209.
- step S209 the dialogue response processing section 211 outputs a dialogue response via the interface 207. Thereby, the user 2 can recognize the dialogue response output from the agent device 20.
- FIGS. 12 and 13 schematically show each process of the interactive response execution process shown in FIG. 11.
- FIG. 12 shows an example of generation of a general dialogue response.
- the agent device 20 acquires the context information based on the user setting, the sensing information, the information on the external service, etc. (S203 in FIG. 11), and based on the context information, the dialogue response matching the context is filtered. (S204 of FIG. 11).
- the agent device 20 outputs the dialog response selected from the candidate dialog responses when there are one or more candidate dialog responses (S206, S209 in FIG. 11).
- the concrete dialogue response is regenerated and output by applying the context to the dialogue response (S207 to S209 in FIG. 11).
- a process such as dynamically generating a dialogue response according to the context may be performed via the cloud.
- FIG. 13 shows an example of the generation of a dialogue response when the utterance from the user 2 “Tell me the weather” is received as the dialogue response event.
- the first dialogue response consists of a screen response (GUI) and a speech response (TTS) corresponding to the capabilities of "display” and "speaker".
- GUI screen response
- TTS speech response
- the second dialogue response is based on the speech response (TTS) corresponding to the capability that is the “speaker”.
- the agent device 20-3 obtains the context information based on the information such as the sensing information, and the user 2 cannot keep an eye on the present kitchen, that is, the agent device 20-3 is not looking at it.
- the situation is recognized (S203 in FIG. 11). Therefore, of the two dialogue responses, the first dialogue response including the screen response (GUI) is excluded as not matching the context (S204 in FIG. 11).
- the agent device 20 selects the second dialogue response (speech response (TTS)) as the dialogue response that best matches the context (S206 in FIG. 11), and as the dialogue response, “The weather is fine. Is output (S209 in FIG. 11).
- speech response speech response
- the agent device 20 when the event of the dialogue response occurs, the capability (including the interface information and the capability information is included in the general-purpose dialogue response frame 150 used as a seed when generating the dialogue response). ) Is acquired, context information about the context is acquired, a dialog response suitable for the context is selected from the acquired dialog responses, and the selected dialog response is output.
- the agent device 20 By the way, the more options the agent device 20 has, the more information can be included in the expression of the dialogue response.
- modality conversion that changes the device to be expressed and the dialogue response can be performed according to the context information and the capability information, but here, particularly at the time of the conversion, the expression capability of each agent device 20 Modality conversion when (capability information) changes significantly (when there is a large difference) will be described.
- agent device 20-4 (television receiver) is the SRC and the agent device 20-6 (smart watch) is the DST.
- the TV receiver includes, as capabilities, interface information such as “display” and “speaker” and capability information of screen size (screen resolution) that is “large (high resolution)” with respect to “display”.
- the smart watch includes interface information such as “display”, “haptics”, and “lamp”, and capability information regarding a screen size (screen resolution) that is “small (ultra low resolution)” with respect to “display”.
- GUI screen response
- the resolution when displaying the information according to the dialogue response is reduced or divided and displayed.
- the GUI can be displayed.
- the divided display for example, the divided information can be displayed by a slide show, or the display can be switched by a touch operation of the user 2.
- GUI screen response
- the screen response may be displayed as an icon or a brief explanation related to the response and the information may be transmitted using another device.
- a smart watch for example, in the case of displaying a weather forecast, only the icon of the application that provides the weather forecast and the character string "weather" are displayed, while when linking with a smartphone, the Detailed information of the weather forecast can be displayed on the display.
- conversion of screen response (GUI) to speech response (TTS) is performed for a speaker installed in the vicinity or earphones compatible with short-range wireless communication (for example, Bluetooth (registered trademark)), and the weather forecast is performed.
- Detailed information (information corresponding to the screen response) may be output by the speech response.
- G2 Converting from low expression ability to high expression
- SRC low display ability
- DST high display ability
- the dialogue response can be output while maintaining the amount of information. Therefore, information may be added to the surplus ability, or an information amount may be added to the original dialogue response. Of course, the original dialogue response may be maintained without adding any amount of information.
- agent device 20-6 smart watch
- agent device 20-4 television receiver
- GUI screen response
- a voice may be used to greet the user or tell a fortune telling today by using the TTS.
- FIG. 14 is a diagram showing an example of the configuration of a network system to which the present technology is applied.
- the network system shown in FIG. 14 is configured to include a dialog response designing device 10, agent devices 20-1 to 20-N, and a server 30, and are mutually connected via a network 40 such as the Internet.
- the function (a part or all) of the dialog response design tool 101 may be provided by the server 30 via the network 40. Further, the dialogue response conversion function group 102 and the dialogue response DB 104 may be managed by the server 30 and appropriately accessed by the dialogue response designer 10 (the dialogue response design tool 101 thereof) via the network 40. Further, the dialogue response conversion learning device 11 may be provided by the server 30.
- the function (a part or all) of the dialogue response processing unit 211 may be provided by the server 30 via the network 40. Further, some of the functions of the dialogue system provided by the agent device 20 (for example, functions such as voice recognition and semantic analysis) may be provided by the server 30 via the network 40.
- the expanded specific dialogue response DB 250 may be managed by the server 30 and the agent device 20 (the dialogue response processing unit 211 thereof) may access it appropriately via the network 40. Furthermore, the agent device 20 may communicate with the dialog response designer 10 via the network 40 to send a capability or receive a dialog response.
- FIG. 15 is a diagram illustrating an example of a hardware configuration of a computer that executes the series of processes described above by a program.
- a CPU Central Processing Unit
- ROM Read Only Memory
- RAM Random Access Memory
- An input/output interface 1005 is further connected to the bus 1004.
- An input unit 1006, an output unit 1007, a recording unit 1008, a communication unit 1009, and a drive 1010 are connected to the input/output interface 1005.
- the input unit 1006 includes a microphone, keyboard, mouse and the like.
- the output unit 1007 includes a speaker, a display and the like.
- the recording unit 1008 includes a hard disk, a non-volatile memory, or the like.
- the communication unit 1009 includes a network interface or the like.
- the drive 1010 drives a removable recording medium 1011 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
- the CPU 1001 loads the program recorded in the ROM 1002 or the recording unit 1008 into the RAM 1003 via the input/output interface 1005 and the bus 1004, and executes the program. A series of processing is performed.
- the program executed by the computer 1000 can be provided, for example, by recording it on a removable recording medium 1011 as a package medium or the like. Further, the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
- the program can be installed in the recording unit 1008 via the input/output interface 1005 by mounting the removable recording medium 1011 in the drive 1010. Further, the program can be received by the communication unit 1009 via a wired or wireless transmission medium and installed in the recording unit 1008. In addition, the program can be installed in the ROM 1002 or the recording unit 1008 in advance.
- the processing performed by the computer according to the program does not necessarily have to be performed in time series in the order described as the flowchart. That is, the processing performed by the computer according to the program also includes processing that is executed in parallel or individually (for example, parallel processing or object processing). Further, the program may be processed by one computer (processor) or may be processed in a distributed manner by a plurality of computers.
- each step of the above-described processing can be executed by one device or shared by a plurality of devices. Further, when one step includes a plurality of processes, the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
- An information processing apparatus comprising: a processing unit that expands the generated dialogue response for each device.
- the capability includes interface information regarding an interface included in the device and capability information regarding a capability of the interface.
- the dialogue response frame is a frame described in accordance with a general-purpose dialogue response specification.
- the processing unit applies the dialogue response frame to a conversion template including a conversion template for each combination of the capabilities to generate the dialogue response.
- the information processing apparatus converts the dialogue response corresponding to the capability into the dialogue response corresponding to another capability.
- the information processing apparatus uses a rule-based conversion algorithm or a machine learning-based conversion algorithm to convert the dialogue response.
- the processing unit is Select the capability based on contextual information about the context, The information processing apparatus according to any one of (1) to (6), which generates the dialogue response according to the selected capability.
- the processing unit is Select the capability corresponding to accessibility, The information processing device according to any one of (1) to (7), which generates the dialogue response according to the selected capability.
- the information processing apparatus according to any one of (1) to (8), wherein the processing unit includes additional information in the dialogue response.
- the information processing device Acquire the capabilities of each device that outputs a dialogue response, From the dialogue response frame used as a seed when generating the dialogue response, generate the dialogue response according to the acquired capability, An information processing method for expanding the generated dialogue response for each device.
- (11) When an event of a dialogue response occurs, obtain the dialogue response generated according to the capability from a dialogue response frame used as a seed when generating the dialogue response, Get contextual information about the context, From the acquired dialog responses, select the dialog response that matches the context,
- An information processing apparatus comprising: a processing unit that outputs the selected dialogue response.
- the information processing apparatus (12) The information processing apparatus according to (11), wherein the capability includes interface information regarding an interface and capability information regarding a capability of the interface. (13) The information processing device according to (11) or (12), wherein the dialogue response frame is a frame described in accordance with a general-purpose dialogue response specification. (14) The information processing apparatus according to (13), wherein the dialogue response is generated by applying the dialogue response frame to a conversion template including a conversion template for each combination of the capabilities. (15) In the case where there is one or more acquired dialog responses, the processing unit selects the dialog response that most matches the context from among the acquired dialog responses. (11) to (14) The information processing device described.
- the information processing apparatus according to any one of (11) to (15), wherein the processing unit generates the dialogue response according to a context prepared in advance when the obtained dialogue response does not exist.
- the event includes a user's utterance
- the information processing device according to any one of (11) to (16), wherein the context information includes information regarding a state of the user.
- the information processing device When an event of a dialogue response occurs, obtain the dialogue response generated according to the capability from a dialogue response frame used as a seed when generating the dialogue response, Get contextual information about the context, From the acquired dialog responses, select the dialog response that matches the context, An information processing method for outputting the selected interactive response.
- 10 dialogue response design device 11 dialogue response conversion learning device, 20, 20-1 to 20-N agent device, 30 server, 40 network, 100 control unit, 101 dialogue response design tool, 102 dialogue response conversion function group, 102A rule Base DB, 102B machine learning base DB, 103 capability list, 104 dialogue response DB, 150 general dialogue response frame, 160 conversion template, 200 control unit, 201 sensor unit, 202 camera unit, 203 microphone unit, 204 storage unit, 205 communication Section, 206 power supply section, 207 interface, 211 dialogue response processing section, 221 display, 222 speaker, 223 vibration element, 224 lamp, 250 deployed concrete dialogue response DB, 1000 computer, 1001 CPU
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本技術は、より適切に対話応答を提供することができるようにする情報処理装置、及び情報処理方法に関する。 対話応答を出力する機器ごとのケイパビリティを取得し、対話応答を生成する際のシードとして利用される対話応答フレームから、取得したケイパビリティに応じた対話応答を生成し、生成した対話応答を機器ごとに展開する処理部を備える情報処理装置が提供される。本技術は、例えば、対話応答を設計する対話応答設計機器に適用することができる。
Description
本技術は、情報処理装置、及び情報処理方法に関し、特に、より適切に対話応答を提供することができるようにした情報処理装置、及び情報処理方法に関する。
近年、ユーザとの対話を行う対話エージェントが利用されている。この種の対話エージェントが搭載されたエージェント機器は、スピーカやディスプレイ、ボディ等の様々な表現手段を有している。そのため、バックエンドでは同一の対話エージェントを利用したとしても、ユーザとのインターフェースは、エージェント機器によって異なる場合がある。
このような場合において、各エージェント機器が保持する表現手段の組み合わせに適合するように対話設計を行う必要があり、対話応答の開発を行う開発者からすれば、手間がかかっていた。
例えば、開発者の労力を減らすための技術として、特許文献1に開示された技術が提案されている。特許文献1では、入力された文章に対して、事前設計された対話DBと単語間の相関を計算して対話生成手段を利用し、設計済み対話DB及び対話生成手段から、出力する対話を決定している。
このように、対話応答の開発を行う開発者にとっては、各エージェント機器が保持する表現手段に応じた対話設計を行うことは手間である。一方で、エージェント機器にとっても、ユーザに対して、保持する表現手段を最大限に利用した対話応答が提供されることが求められる。
本技術はこのような状況に鑑みてなされたものであり、より適切に対話応答を提供することができるようにするものである。
本技術の一側面の情報処理装置は、対話応答を出力する機器ごとのケイパビリティを取得し、前記対話応答を生成する際のシードとして利用される対話応答フレームから、取得した前記ケイパビリティに応じた前記対話応答を生成し、生成した前記対話応答を前記機器ごとに展開する処理部を備える情報処理装置である。
本技術の一側面の情報処理方法は、情報処理装置が、対話応答を出力する機器ごとのケイパビリティを取得し、前記対話応答を生成する際のシードとして利用される対話応答フレームから、取得した前記ケイパビリティに応じた前記対話応答を生成し、生成した前記対話応答を前記機器ごとに展開する情報処理方法である。
本技術の一側面の情報処理装置、及び情報処理方法においては、対話応答を出力する機器ごとのケイパビリティが取得され、前記対話応答を生成する際のシードとして利用される対話応答フレームから、取得された前記ケイパビリティに応じた前記対話応答が生成され、生成された前記対話応答が前記機器ごとに展開される。
本技術の一側面の情報処理装置は、対話応答のイベントが発生した場合に、前記対話応答を生成する際のシードとして利用される対話応答フレームからケイパビリティに応じて生成された前記対話応答を取得し、コンテキストに関するコンテキスト情報を取得し、取得した前記対話応答の中から、前記コンテキストに適合した前記対話応答を選択し、選択した前記対話応答を出力する処理部を備える情報処理装置である。
本技術の一側面の情報処理方法は、情報処理装置が、対話応答のイベントが発生した場合に、前記対話応答を生成する際のシードとして利用される対話応答フレームからケイパビリティに応じて生成された前記対話応答を取得し、コンテキストに関するコンテキスト情報を取得し、取得した前記対話応答の中から、前記コンテキストに適合した前記対話応答を選択し、選択した前記対話応答を出力する情報処理方法である。
本技術の一側面の情報処理装置、及び情報処理方法においては、対話応答のイベントが発生した場合に、前記対話応答を生成する際のシードとして利用される対話応答フレームからケイパビリティに応じて生成された前記対話応答が取得され、コンテキストに関するコンテキスト情報が取得され、取得された前記対話応答の中から、前記コンテキストに適合した前記対話応答が選択され、選択された前記対話応答が出力される。
なお、本技術の一側面の情報処理装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。
以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。
1.本技術の実施の形態
2.変形例
3.コンピュータの構成
2.変形例
3.コンピュータの構成
<1.本技術の実施の形態>
(用語の定義)
まず、本技術の詳細な内容を説明する前に、本開示で使用される用語の定義をする。
まず、本技術の詳細な内容を説明する前に、本開示で使用される用語の定義をする。
「対話」とは、人同士、あるいは機械を含めて、発話などの情報をやり取りする行為である。1回のやり取りでは終わらず、複数回のやり取りになる場合も多い。その場合には、これまでのやり取りを考慮したやり取りを選択する必要がある。例えば、対話の形態としては、1対1、1対多、多対多などの形態がある。なお、本開示において、対話とインタラクションは同義語として扱うものとする。
「対話システム」とは、ユーザとの間で何らかの情報をやり取り(対話)できるシステムである。ここで、やり取りは一般に、テキストや発話などを利用した自然言語を利用する場合が多いが、例えばジェスチャやアイコンタクトなど、必ずしも言語に限定されるものではない。
「対話エージェント」とは、対話システムを搭載して展開されたサービスである。対話エージェントの提供方法としては、例えば、電子機器として実際に表示デバイスや身体(ボディ)を有してもよいし、あるいはアプリケーションなどのように、GUI(Graphical User Interface)として提供されてもよい。
「対話応答」とは、対話システムとユーザとの対話において、一方(例えばユーザ)からの発話等に対する他方(例えば対話システム)によるリアクションである。このリアクションとしては、例えば、発話応答や画面応答などがあり、それらの応答を組み合わせてもよい。
なお、以下の説明では、対話システムを「S」とも表記し、ユーザを「U」とも表記する。また、「発話応答(音声応答)」は、例えば、TTS(Text To Speech)を利用してテキストを読み上げることで実現されるため、「TTS」とも表記する。「画面応答」は、例えばGUIを表示することで実現されるため、「GUI」とも表記する。
対話応答の具体例:
U:「天気教えて」
S:「天気はこちらです」(天気に関するGUIも表示)
U:「天気教えて」
S:「天気はこちらです」(天気に関するGUIも表示)
「ケイパビリティ」とは、対話エージェントが搭載されたエージェント機器が持つ様々な対話応答の表現手段である。ここで、「ケイパビリティ」には、「インターフェース情報」と「ケイパビリティ情報」が含まれる。
「インターフェース情報」は、エージェント機器が有するインターフェースに関する情報である。「ケイパビリティ情報」は、インターフェースの能力に関する情報である。
「対話応答フレーム」とは、対話システムの対話応答設計書である。以下の説明では、対話応答フレームは、「汎用対話応答」と同義であるものとする。ここでは、「汎用対話応答」に対する「具体対話応答」も定義する。「具体対話応答」は、実際に各対話エージェントが保有する具体的な対話応答データを指すものとする。
以下、図面を参照しながら、本技術の詳細について説明する。
(情報処理装置の構成)
図1は、本技術を適用した情報処理装置としての対話応答設計器の一実施の形態の構成の例を示す図である。
図1は、本技術を適用した情報処理装置としての対話応答設計器の一実施の形態の構成の例を示す図である。
図1において、対話応答設計器10は、対話応答を設計(生成)して、エージェント機器20-1乃至20-Nに展開する機器(対話応答生成器)である。対話応答設計器10は、対話応答設計ツール101、対話応答変換関数群102、ケイパビリティリスト103、及び対話応答DB104を含んで構成される。
対話応答設計ツール101は、対話エージェントの開発に関わる開発者1が扱うツール(GUIツール)である。対話応答設計ツール101は、例えばウェブアプリケーションや、クライアントツールなどを含み、ここでは、対話応答を一貫して設計するための機能を有する。また、開発者1には、例えば、アプリケーション開発者や、デザイナ(インタラクションデザイナやUIデザイナを含む)、シナリオライタなどが含まれる。
具体的には、対話応答設計ツール101の機能としては、例えば、次に示した(a1)乃至(a5)の機能が含まれる。
(a1)展開可能なケイパビリティ、及び展開エージェント一覧の取得
(a2)対話応答の設計(汎用対話応答と具体対話応答の設計はどちらでも可能)
(a3)汎用対話応答又は具体対話応答から、任意のケイパビリティへの対話応答を生成(対話応答変換モジュールを利用)
(a4)自動生成された対話応答の修正
(a5)生成された対話応答の保存、及び各エージェント機器20-1乃至20-N(N:1以上の整数)に対する対話応答の展開
(a2)対話応答の設計(汎用対話応答と具体対話応答の設計はどちらでも可能)
(a3)汎用対話応答又は具体対話応答から、任意のケイパビリティへの対話応答を生成(対話応答変換モジュールを利用)
(a4)自動生成された対話応答の修正
(a5)生成された対話応答の保存、及び各エージェント機器20-1乃至20-N(N:1以上の整数)に対する対話応答の展開
対話応答変換関数群102は、汎用対話応答又は具体対話応答に対して、任意のケイパビリティリスト103を与えた際に、そのケイパビリティを利用した具体対話応答を生成するためのマッピング関数を保有している。
このマッピング関数には、人手により調整したルールベースによるものと、機械学習による機械学習ベースによるものが含まれる。ルールベースによるマッピング関数は、ルールベースDB102Aに記憶され、機械学習によるマッピング関数は、機械学習ベースDB102Bに記憶される。
ケイパビリティリスト103は、対話応答設計ツール101が利用可能なケイパビリティの一覧である。ケイパビリティリスト103は、想定するサービスに応じて、当該サービスが対応するケイパビリティのみを表示するなどのフィルタ機能を有する。
対話応答DB104は、対話応答設計ツール101により生成された対話応答(のデータ)を記憶する。例えば、対話応答DB104では、生成された対話応答とともに、変換前の対話応答及びその時の入力情報を記録することができる。この入力情報には、例えば、ケイパビリティやコンテキスト情報などが含まれる。
対話応答DB104に記憶されたデータは、機械学習ベースの学習器(対話応答変換学習器11)が利用したり、あるいは、開発者1が変換情報を解析したりするのに利用できる。
また、対話応答設計ツール101が有する機能で、対話応答DB104に記憶されたデータにアクセスすることもできるし、あるいは、汎用的なデータベース(例えば、オープンソースのRDBMS(Relational Database Management System)や商用のRDBMS等)を利用して外部アクセスを提供することができる。
対話応答変換学習器11は、マッピング情報(マッピング関数)を利用して、対話応答を生成可能なモデルを含む。この学習済みモデルは、その変換部の関数を、対話応答変換関数群102の中の関数として登録することができる。
エージェント機器20-1は、対話エージェントが搭載された電子機器であって、例えば、スマートフォンやスマートスピーカ、ディスプレイ付スピーカ、テレビ受像機、ロボット、ウェアラブル機器、タブレット端末、ディスプレイ装置、パーソナルコンピュータ、その他の家電機器などを含む。
エージェント機器20-2乃至20-Nは、エージェント機器20-1と同様に、対話エージェントが搭載された電子機器としてそれぞれ構成される。なお、以下の説明では、エージェント機器20-1乃至20-Nを特に区別する必要がない場合には、単にエージェント機器20と称する。
ここで、エージェント機器20-1乃至20-Nのそれぞれが有するケイパビリティは、異なっており、また、その対話エージェント(サービス)としては、同一のものが搭載されていることを想定するが、異なるサービス群を登録して、所望のサービスに切り替えて設計できるようにしてもよい。
例えば、ある対話エージェント(サービス)として、同一のキャラクタが、様々なケイパビリティを有するエージェント機器20-1乃至20-Nにそれぞれ展開されることが想定される。
また、ケイパビリティは、インターフェース情報とケイパビリティ情報を含むが、エージェント機器20-1乃至20-Nにおいては、ケイパビリティとして、同一のインターフェース情報(例えば、ディスプレイ)を有していても、ケイパビリティ情報(例えば、表示方式や画面サイズ等)が異なる場合が想定される。
なお、対話応答設計器10は、情報処理装置であって、例えば、パーソナルコンピュータやワークステーション、専用のコンソールなどのコンピュータ(例えば、図15のコンピュータ1000)として構成される。例えば、対話応答設計器10において、対話応答設計ツール101は、処理部100(例えば、図15のCPU1001)によりプログラムが実行されることで実現される。
また、対話応答設計器10において、対話応答変換関数群102、及び対話応答DB104は、HDD(Hard Disk Drive)や半導体メモリ等の記憶装置(例えば、図15の記録部1008)に記憶される。さらに、ケイパビリティリスト103は、通信モジュール等の通信部(例えば、図15の通信部1009)によって、エージェント機器20-1乃至20-Nとの間で、所定の規格に準拠した無線通信又は有線通信を行い、各種の情報をそれぞれやりとりすることで取得される。
(対話応答設計処理の流れ)
次に、図2のフローチャートを参照して、対話応答設計ツール101により実行される対話応答設計処理の流れを説明する。
次に、図2のフローチャートを参照して、対話応答設計ツール101により実行される対話応答設計処理の流れを説明する。
ステップS101において、対話応答設計ツール101は、ケイパビリティリスト103の取得と選択を行う。
ステップS102において、対話応答設計ツール101は、例えば開発者1からの操作等に応じて、汎用対話応答を利用するかどうかを判定する。
ステップS102の判定処理で、汎用対話応答を利用すると判定された場合、処理は、ステップS103に進められる。ステップS103において、対話応答設計ツール101は、汎用対話応答フレームを生成する。
また、ステップS102の判定処理で、汎用対話応答を利用しないと判定された場合、処理は、ステップS104に進められる。ステップS104において、対話応答設計ツール101は、例えば開発者1からの操作等に応じて、新規応答を生成するかどうかが判定される。
ステップS104の判定処理で、新規応答を生成すると判定された場合、処理は、ステップS105に進められる。ステップS105において、対話応答設計ツール101は、具体対話応答を生成する。
また、ステップS104の判定処理で、新規応答を生成しないと判定された場合、処理は、ステップS106に進められる。ステップS106において、対話応答設計ツール101は、対話応答DB104を参照して、既存対話応答の取得と選択を行う。
ステップS103,S105,又はS106の処理が終了すると、処理は、ステップS107に進められる。
ステップS107において、対話応答設計ツール101は、対話応答変換方法の選択と生成を行う。この対話応答変換方法の選択と生成の詳細は、例えば、図4等を参照して後述する。
ステップS108において、対話応答設計ツール101は、例えば開発者1からの操作等に応じて、対話応答の修正を必要かどうかが判定される。
ステップS108の判定処理で、対話応答の修正が必要であると判定された場合、処理は、ステップS109に進められる。ステップS109において、対話応答設計ツール101は、対話応答の修正を行う。
ステップS109の処理が終了すると、処理は、ステップS110に進められる。また、ステップS108の判定処理で、対話応答の修正が不要であると判定された場合、処理は、ステップS110に進められる。
ステップS110において、対話応答設計ツール101は、対話応答を、対話応答DB104へ保存する。
ステップS111において、対話応答設計ツール101は、対話応答を、エージェント機器20に展開する。
以上、対話応答設計処理の流れを説明した。
ここで、対話応答設計ツール101は、例えばエージェントサービスプロバイダ(ASP:Agent Service Provider)向けに提供するツールとされる。ここでの対話エージェントは、同一の対話エージェントであっても、様々なケイパビリティを有するエージェント機器20に対応することが想定される。
例えば、ある対話エージェント(サービス)は、スマートフォンのアプリケーション、スピーカ、又はディスプレイ付スピーカなど、同一の対話エージェントでありながら、様々なケイパビリティを有するエージェント機器20に展開されている。
このようなエージェント機器20に対する対話応答を設計する場合に、同一のユーザ発話に対する対話応答は、内容としては同一の内容となるかもしれないが、各エージェント機器20のケイパビリティに合わせて調整する必要があるため、開発者1にとっては非常に手間のかかる作業となる。
そこで、対話応答設計ツール101においては、汎用対話応答フレームを利用することで、1つの汎用対話応答フレームから、様々なケイパビリティを有するエージェント機器20に対する対話応答を一括して生成(自動生成)できるような仕組みを提供している。
つまり、汎用対話応答フレームは、汎用の対話応答の仕様に則して記述されたフレーム(ファイル)であり、開発者1は、汎用対話応答フレームを記述するだけで、エージェント機器20が有するケイパビリティ(表現手段)を意識することなく、対話応答を設計(自動設計)することが可能とされる。
(汎用対話応答フレームを用いた対話応答の展開の例)
図3は、汎用対話応答フレームを用いた対話応答の展開の例を示している。
図3は、汎用対話応答フレームを用いた対話応答の展開の例を示している。
図3において、対話応答設計器10は、開発者1により作成された汎用対話応答フレーム110と、あらかじめ用意された変換テンプレート160を用いて、対話応答を生成し、エージェント機器20-1乃至20-7にそれぞれ展開している。
図3の例では、展開先のエージェント機器20-1乃至20-7が様々なケイパビリティを有している。そのため、ここではまず、展開先のエージェント機器20が有するケイパビリティの詳細を説明する。
(ケイパビリティの詳細)
ケイパビリティは、インターフェース情報とケイパビリティ情報を含む。インターフェース情報としては、例えば、ディスプレイ、スピーカ、ロボット、ハプティクス、メッセージ通知、ランプ等を示す情報が含まれる。以下、インターフェース情報とそれに対応するケイパビリティ情報の詳細を、(b1)乃至(b6)に示している。
ケイパビリティは、インターフェース情報とケイパビリティ情報を含む。インターフェース情報としては、例えば、ディスプレイ、スピーカ、ロボット、ハプティクス、メッセージ通知、ランプ等を示す情報が含まれる。以下、インターフェース情報とそれに対応するケイパビリティ情報の詳細を、(b1)乃至(b6)に示している。
(b1)ディスプレイ
ディスプレイは、例えば、液晶ディスプレイ(LCD:liquid crystal display)やOLED(Organic Light Emitting Diode)ディスプレイ等の表示装置を表現手段として有する場合に指定される。なお、表示装置には、タッチパネル等の機能が搭載されていてもよい。
ディスプレイは、例えば、液晶ディスプレイ(LCD:liquid crystal display)やOLED(Organic Light Emitting Diode)ディスプレイ等の表示装置を表現手段として有する場合に指定される。なお、表示装置には、タッチパネル等の機能が搭載されていてもよい。
インターフェース情報としてディスプレイが指定される場合、ケイパビリティ情報としては、例えば、表示方式や画面サイズ、タッチパネル情報などが指定可能である。
具体的には、表示方式として、例えば、GUIの表示方式として、モノクローム(例えば白黒のモノクロ)又はカラーを示す情報を含めることができる。また、画面サイズには、大型や中型、小型の分類を含めるほか、例えば640×480,1920×1080,3940×2160等の画面解像度を示す情報等を含めてもよい。さらに、タッチパネル情報には、タッチパネルの搭載の有無を示す情報を含めることができる。
例えば、図3において、エージェント機器20-1,20-3,20-4,20-7(スマートフォン、ディスプレイ付スピーカ、テレビ受像機、スマートグラス)には、インターフェース情報として「ディスプレイ」が指定され、ケイパビリティ情報として表示方式や画面サイズ等が指定される。ここでは、例えば、ケイパビリティ情報として、スマートグラスには「小型」、スマートフォンやディスプレイ付スピーカには「中型」、テレビ受像機には「大型」である画面サイズがそれぞれ指定される。
(b2)スピーカ
スピーカは、音声や音楽等の音を再生する音声出力装置を表現手段として有する場合に指定される。スピーカは、モノラルやステレオに限らず、例えば、複数のチャンネルからなるようにしてもよい。なお、複数のチャンネルとしては、スピーカアレイを利用した指向性スピーカを含む。
スピーカは、音声や音楽等の音を再生する音声出力装置を表現手段として有する場合に指定される。スピーカは、モノラルやステレオに限らず、例えば、複数のチャンネルからなるようにしてもよい。なお、複数のチャンネルとしては、スピーカアレイを利用した指向性スピーカを含む。
インターフェース情報としてスピーカが指定される場合、ケイパビリティ情報としては、例えば、再生方式やサウンドチャンネル数などが指定可能である。具体的には、再生方式として、例えばステレオやモノラル等を示す情報を含めることができる。
例えば、図3において、エージェント機器20-2,20-3(スマートスピーカ、ディスプレイ付スピーカ)には、インターフェース情報として「スピーカ」が指定され、ケイパビリティ情報として再生方式等が指定される。ここでは、例えば、ケイパビリティ情報として、スマートスピーカには「モノラル」、ディスプレイ付スピーカには「ステレオ」である再生方式がそれぞれ指定される。
なお、図3では、エージェント機器20-1,20-4(スマートフォン、テレビ受像機)は、音声等の音を出力する機能を有しているため、インターフェース情報として「スピーカ」を指定し、「ステレオ」等のケイパビリティ情報を指定してもよい。
(b3)ロボット
ロボットは、例えば、人や動物(ペット)を模した又は近似した形状及び機能を有し、主にアクチュエータにより身体(ボディ)の部位を動かすことで、何らかの動作を自律的に行う装置又は機械を表現手段として有する場合に指定される。ここでは、ロボットは人型や動物型に限定されるものではなく、例えば、ロボットアームやキャタピラカー等が含まれるため、工場等に設置される作業ロボットなども対象に含まれる。
ロボットは、例えば、人や動物(ペット)を模した又は近似した形状及び機能を有し、主にアクチュエータにより身体(ボディ)の部位を動かすことで、何らかの動作を自律的に行う装置又は機械を表現手段として有する場合に指定される。ここでは、ロボットは人型や動物型に限定されるものではなく、例えば、ロボットアームやキャタピラカー等が含まれるため、工場等に設置される作業ロボットなども対象に含まれる。
インターフェース情報としてロボットが指定される場合、ケイパビリティ情報としては、例えば、駆動部位や点灯部位などが指定可能である。具体的には、駆動部位として、例えば、頭部、手等を示す情報を含めることができる。例えば、図3において、エージェント機器20-5(犬型ロボット)には、インターフェース情報として「ロボット」が指定され、ケイパビリティ情報として「頭部」等の駆動部位が指定される。
なお、ここでは、身体を持つロボットを一例に説明したが、物理的な実体を持たなくても、例えば、コンピュータグラフィックス(CG:Computer Graphics)や、仮想現実(VR:Virtual Reality)、拡張現実(AR:Augmented Reality)などで表現される対話エージェントを含めてもよい。
(b4)ハプティクス
ハプティクスは、例えば振動素子等によって、ユーザの皮膚感覚を疑似再現してフィードバックする機能を表現手段として有する場合に指定される。例えば、腕時計型やブレスレット型等のウェアラブル機器により実装される。
ハプティクスは、例えば振動素子等によって、ユーザの皮膚感覚を疑似再現してフィードバックする機能を表現手段として有する場合に指定される。例えば、腕時計型やブレスレット型等のウェアラブル機器により実装される。
インターフェース情報としてハプティクスが指定される場合、ケイパビリティ情報としては、例えば、振動のパターンや強弱などが指定可能である。具体的には、振動のパターンとして、例えば小刻みに震えるパターンや長い振動が続くパターン等を示す情報を含めることができる。また、振動の強弱として、例えば強い振動や、弱い振動等を示す情報を含めることができる。
例えば、図3において、エージェント機器20-1,20-6(スマートフォン、スマートウォッチ)には、インターフェース情報として「ハプティクス」が指定され、ケイパビリティ情報として「小刻みに震える」などの振動のパターンが指定される。
(b5)メッセージ通知
メッセージ通知は、例えば電子メールや、ソーシャルネットワークサービス(SNS:Social Networking Service)等のアプリケーションを利用してメッセージを通知する機能を表現手段として有する場合に指定される。このメッセージとしては、例えば、テキストのほか、画像や動画などを伴うようにしてもよい。
メッセージ通知は、例えば電子メールや、ソーシャルネットワークサービス(SNS:Social Networking Service)等のアプリケーションを利用してメッセージを通知する機能を表現手段として有する場合に指定される。このメッセージとしては、例えば、テキストのほか、画像や動画などを伴うようにしてもよい。
インターフェース情報としてメッセージ通知が指定される場合、ケイパビリティ情報としては、例えば、画像や動画等の対応メディアなどが指定可能である。例えば、図3において、エージェント機器20-1,20-3(スマートフォン、ディスプレイ付スピーカ)には、インターフェース情報として「メッセージ通知」が指定され、ケイパビリティ情報として「画像」、「動画」である対応メディアが指定される。
(b6)ランプ
ランプは、例えば、LED(Light Emitting Diode)等の光源を表現手段として有する場合に指定される。なお、このLED等の光源(ランプ)によって、点灯や明滅、色、輝度などを変化させることで、各種の情報を表現することが可能である。
ランプは、例えば、LED(Light Emitting Diode)等の光源を表現手段として有する場合に指定される。なお、このLED等の光源(ランプ)によって、点灯や明滅、色、輝度などを変化させることで、各種の情報を表現することが可能である。
インターフェース情報としてランプが指定される場合、ケイパビリティ情報としては、例えば、色の種類や点灯(点滅)のパターン、輝度などが指定可能である。具体的には、例えば、「赤」や「青」等の色の種類、「短い間隔」や「長い間隔」で点灯する等の点滅のパターン、「明るい」や「暗い」等の輝度などを示す情報を含めることができる。
例えば、図3において、エージェント機器20-5,20-6(犬型ロボット、スマートウォッチ)には、インターフェース情報として「ランプ」が指定され、ケイパビリティ情報として「青」である色の種類や「短い間隔」である点灯のパターンが指定される。
なお、各エージェント機器20が有するケイパビリティとしては、1又は複数のインターフェース情報と、1又は複数のケイパビリティ情報を含めることができる。ただし、ケイパビリティに、ケイパビリティ情報を含めるかどうかは任意である。
例えば、エージェント機器20-1(スマートフォン)は、「ディスプレイ」、「スピーカ」、「ハプティクス」、「メッセージ通知」、及び「ランプ」をインターフェース情報として有し、それらのインターフェース情報に対してケイパビリティ情報をそれぞれ有している。
図3において、対話応答設計器10では、開発者1により作成された汎用対話応答フレーム150を、様々なケイパビリティの対話応答を生成する際のシード(Seed:種)として利用して、あらかじめ用意した変換テンプレート160に適用する。これにより、対話応答設計器10では、様々なケイパビリティを有するエージェント機器20-1乃至20-7のそれぞれに適合した対話応答を生成して展開することができる。
(汎用対話応答フレームを用いた対話応答の生成の例)
図4は、汎用対話応答フレームを用いた対話応答の生成の例を示している。
図4は、汎用対話応答フレームを用いた対話応答の生成の例を示している。
図4においては、汎用対話応答フレーム150を用いた対話応答の生成の代表的な例として、変換テンプレート160を利用した対話応答(画面応答と発話応答:GUI + TTS)の展開事例を示している。
図4において、汎用対話応答フレーム150は、対話行動(ACT)、対話行動タイプ(TYPE)、及び対話行動に対するパラメタ(PRAMS)を記述する。
対話行動(ACT)とは、実際に起動するアプリケーション関数に対するIDを記述する。図4の汎用対話応答フレーム150では、対話行動として、「ACT: WETHER-SHOW」を記述しているが、これは、<アプリケーション名> - <アプリケーションの実行関数>、すなわち、"WETHER"であるアプリケーション名と、"SHOW"であるアプリケーションの実行関数を意味している。これには、実行時引数(例えば天気確認における日付情報)は含めない。
対話行動タイプ(TYPE)は、アプリケーションに依存しない一般的な対話行動の種類を記述する。例えば、対話行動タイプとしては、"INFORM","ACK","ASK","EXPLICIT_CONFIRM","IMPLICIT_CONFIRM"などを含む。図4の汎用対話応答フレーム150では、対話行動タイプとして、「TYPE:INFORM」を記述している。詳しくは後述するが、"INFORM"は、システム側からユーザ側に何らかの情報を提供する行為を指している。
対話行動に対するパラメタ(PRAMS)は、対話行動の実行時に必要なパラメタ情報を記述する。このパラメタ(PRAMS)は、対話行動によって異なり、必須又は任意とすることができる。図4の汎用対話応答フレーム150では、パラメタ(天気の情報)として、「DOMAIN:天気」、「DATE:明日」、「PLACE:大崎」、「CONTENTS:[{TEMP:30/24, STATE:晴れ}]」を記述している。
図4において、変換テンプレート160は、汎用対話応答フレーム150から、具体対話応答を生成するためのものである。この変換テンプレート160は、ケイパビリティの組み合わせごとに設計されており、様々な対話応答を生成することができる。
変換テンプレート160では、対話行動タイプ(TYPE)が"INFORM"である場合の例を示している。前述した通り、"INFORM"は、対話行動に依存しないため、他の"INFORM"の対話行動にも利用できるように設計されている。変換テンプレート160は、変数(例えば、$DATE,$DOMAIN等)を受け付けるようになっており、汎用対話応答フレーム150のパラメタ(PRAMS)の値を入力することで、最終的な対話応答を出力することができる。
図4においては、変換テンプレート160として、FULL TEXTと、GUI+TEXTの2パターンが用意されている。ここで、FULL TEXTは、受け付けた入力パラメタの値を、テキストのみに変換するものである。変換テンプレート160では、FULL TEXT 1とFULL TEXT 2の2種類のFULL TEXT変換用のテンプレートを用意している。
FULL TEXT
1. $DATEの$PLACEの$DOMAINは$CONTENTSです
2. $DATEの$DOMAINは$CONTENTS[0][STATE]です
1. $DATEの$PLACEの$DOMAINは$CONTENTSです
2. $DATEの$DOMAINは$CONTENTS[0][STATE]です
また、例えばウェブアプリケーションを実行可能であれば、HTML(HyperText Markup Language)文書を、GUI要素として、変換テンプレート160を適用してもよい。HTML文書では、前述した場合と同様に、パラメタ(PRAMS)を受け付けることが可能であり、さらに適当な変数の値に応じてコンテンツを切り替えてもよい。
ここで、GUI+TEXTは、受け付けた入力パラメタの値を、GUIとテキストに変換するものである。変換テンプレート160では、GUI+TEXT 3とGUI+TEXT 4の2種類のGUI+TEXT変換用のテンプレートを用意している。
GUI+TEXT
3. $DATEの$DOMAINはこちらです + GUI(PARAMS)
4. こちらです + GUI(PARAMS)
3. $DATEの$DOMAINはこちらです + GUI(PARAMS)
4. こちらです + GUI(PARAMS)
<div>
日付:$DATE
場所:$PLACE
気温:$TEMP
</div>
<img src="sunny.png" % if$STATE == "晴れ" %>
<img src="rainy.png" % if$STATE == "雨" %></div>
日付:$DATE
場所:$PLACE
気温:$TEMP
</div>
<img src="sunny.png" % if$STATE == "晴れ" %>
<img src="rainy.png" % if$STATE == "雨" %></div>
このGUI+TEXT変換用のテンプレートの例では、$STATEで指定される文字列(例えば"晴れ"や"雨"等)に応じて、天気アイコン(例えば"sunny.png"や"rainy.png"等)を切り替えている。
図4において、図中の右側の変換例では、変換テンプレート160を経由することで、様々なケイパビリティに応じた対話応答が生成されている。
例えば、ケイパビリティとして、「スピーカ」であるインターフェース情報を有するエージェント機器20に対しては、変換テンプレート160にて、FULL TEXT変換用のテンプレート(FULL TEXT 1又はFULL TEXT 2)を適用することで、受け付けた入力パラメタの値がテキストのみに変換される。そして、この変換後のテキストは、テキスト読み上げ機能(TTS)により音声に変換され、当該音声が対話応答(発話応答)として出力される。
具体的には、FULL TEXT 1を適用することで、対話応答として、「明日の大崎の天気は晴れ、気温は30/24度です」である発話応答が出力される。また、FULL TEXT 2を適用することで、対話応答として、「明日の天気は晴れです」である発話応答が出力される。
また、例えば、ケイパビリティとして、「ディスプレイ」及び「スピーカ」であるであるインターフェース情報を有するエージェント機器20に対しては、変換テンプレート160にて、GUI+TEXT変換用のテンプレート(GUI+TEXT 3又はGUI+TEXT 4)を適用することで、受け付けた入力パラメタの値がGUIとテキストに変換される。そして、この変換後のテキストは音声に変換され、当該音声がGUIとともに対話応答(画面応答と発話応答)として出力される。
具体的には、GUI+TEXT 3を適用することで、対話応答として、場所や日付や気温、曇りアイコン等のGUIの画面応答とともに、「明日の天気はこちらです」である発話応答が出力される。また、GUI+TEXT 4を適用することで、対話応答として、場所や日付や気温、曇りアイコン等のGUIの画面応答とともに、「こちらです」である発話応答が出力される。
なお、同一のケイパビリティにおいても、複数の対話応答が生成可能であり、最終的な対話応答は、開発者1(例えばアプリケーション開発者)が決定すればよい。また、詳細は後述するが、対話応答設計ツール101では、自動生成された対話応答の変更手段も提供している。
(対話行動タイプごとの変換テンプレートの例)
ここで、対話行動タイプ(TYPE)ごとの変換テンプレート160の詳細を説明する。対話行動タイプ(TYPE)は、アプリケーション(ドメイン)に依存しない汎用的な行動タイプである。
ここで、対話行動タイプ(TYPE)ごとの変換テンプレート160の詳細を説明する。対話行動タイプ(TYPE)は、アプリケーション(ドメイン)に依存しない汎用的な行動タイプである。
対話行動タイプ(TYPE)としては、例えば、INFORM,ACK,ASK,EXPLICIT_CONFIRM,IMPLICIT_CONFIRMなどが含まれる。以下、対話行動タイプ(TYPE)ごとの変換テンプレート160の詳細を、(c1)乃至(c5)に示している。
(c1)INFORM
TYPE:INFORM
意味:対話システムからユーザに何らかの情報を伝える行動を示す。
TYPE:INFORM
意味:対話システムからユーザに何らかの情報を伝える行動を示す。
変換テンプレート160の例:
「$1はこちらです」
「$1は$2です」
「$1は[$2, $3, ... $N]です」
「$1はこちらです」
「$1は$2です」
「$1は[$2, $3, ... $N]です」
対話応答の例:
「明日の天気は晴れです」
「本日は予定が3件あります 1つ目は、XXX, 2つ目はYYYです」
「明日の天気は晴れです」
「本日は予定が3件あります 1つ目は、XXX, 2つ目はYYYです」
(c2)ACK
TYPE:ACK
意味:ユーザからの何らかの指示に対する応答を意味する。ACK-YES/ACK-NOのように詳細化してもよい。
TYPE:ACK
意味:ユーザからの何らかの指示に対する応答を意味する。ACK-YES/ACK-NOのように詳細化してもよい。
変換テンプレート160の例:
「わかりました」
「承知しました」
「$1, 了解しました」
「わかりません」
「わかりました」
「承知しました」
「$1, 了解しました」
「わかりません」
対話応答の例:
U:「アラーム止めて」
S:「わかりました」
U:「テレビ消して」
S:「OK」
U:「テレビ消して」
S:「テレビが応答していません」(ACK-NOに相当)
U:「アラーム止めて」
S:「わかりました」
U:「テレビ消して」
S:「OK」
U:「テレビ消して」
S:「テレビが応答していません」(ACK-NOに相当)
(c3)ASK
TYPE:ASK
意味:対話システムがユーザの目的の達成(例えば、「天気を確認する」、「レストランを検索する」など)のために、ユーザに問い合わせをする行動を示す。
TYPE:ASK
意味:対話システムがユーザの目的の達成(例えば、「天気を確認する」、「レストランを検索する」など)のために、ユーザに問い合わせをする行動を示す。
変換テンプレート160の例:
「$1を教えて下さい」
「$1を確認しますか?」
「$1は何ですか?」
「$1を教えて下さい」
「$1を確認しますか?」
「$1は何ですか?」
対話応答の例:
「どこの天気を確認しますか?」
「いつの予定を確認しますか?」
「好きな料理は何ですか?」
「どこの天気を確認しますか?」
「いつの予定を確認しますか?」
「好きな料理は何ですか?」
(c4)EXPLICIT_CONFIRM
TYPE:EXPLICIT_CONFIRM
意味:明示的に情報を確認する行動を示す。一般に音声認識などを利用した際に、認識エンジンの信頼性が低い場合などに、ユーザに確認の意味も込めて行う。一般に、INFORM等の他のTYPEの行動と合わせて利用する場合が多い。
TYPE:EXPLICIT_CONFIRM
意味:明示的に情報を確認する行動を示す。一般に音声認識などを利用した際に、認識エンジンの信頼性が低い場合などに、ユーザに確認の意味も込めて行う。一般に、INFORM等の他のTYPEの行動と合わせて利用する場合が多い。
変換テンプレート160の例:
「$1ですね 合っていますか?」
「$1ですね?」
「$1ですね 合っていますか?」
「$1ですね?」
対話応答の例
「中華料理ですね?」、「近場で3件見つかりました」
「中華料理ですね?」、「近場で3件見つかりました」
(c5)IMPLICIT_CONFIRM
TYPE:IMPLICIT_CONFIRM
意味:前述のEXPLICIT_CONFIRMとは異なり、暗黙的に情報をユーザに確認する。暗黙的に行うため、ユーザには、確認に対する応答を求めるわけではないが、対話システムが情報を発話するため、例えば誤って認識されている場合などに、ユーザがそれに気づき、間違いを指摘できるというメリットがある。
TYPE:IMPLICIT_CONFIRM
意味:前述のEXPLICIT_CONFIRMとは異なり、暗黙的に情報をユーザに確認する。暗黙的に行うため、ユーザには、確認に対する応答を求めるわけではないが、対話システムが情報を発話するため、例えば誤って認識されている場合などに、ユーザがそれに気づき、間違いを指摘できるというメリットがある。
変換テンプレート160の例:
「$1はこちらです」(INFORMと同一の内容でもよい)
「$1ですね こちらになります」(INFORMと同一の内容でもよい)
「$1ですね $2は何ですか?」(ASKと組み合わせたようなものでもよい)
「$1はこちらです」(INFORMと同一の内容でもよい)
「$1ですね こちらになります」(INFORMと同一の内容でもよい)
「$1ですね $2は何ですか?」(ASKと組み合わせたようなものでもよい)
(応答モダリティ変換)
上述した説明では、対話応答生成として、汎用対話応答フレーム150から自動展開する流れを説明したが、ここでは、既に生成された具体対話応答から、他のケイパビリティに変換する流れを説明する。
上述した説明では、対話応答生成として、汎用対話応答フレーム150から自動展開する流れを説明したが、ここでは、既に生成された具体対話応答から、他のケイパビリティに変換する流れを説明する。
例えば、初期の段階では、スピーカを有するエージェント機器20を展開していたが、その後にサービスを拡大して、ディスプレイを有するエージェント機器20をさらに展開するときなどに、既存の対話応答資源を再利用できるという意味で有用な手段である。
図5及び図6は、異なるケイパビリティを有するエージェント機器20の間の変換の例を示している。
図5においては、「ディスプレイ」であるケイパビリティ(インターフェース情報)を有するエージェント機器20-1(スマートフォン)に展開した対話応答を、「スピーカ」であるケイパビリティ(インターフェース情報)を有する他のエージェント機器20-2(スマートスピーカ)で再利用するための変換の例を示している。
具体的には、エージェント機器20-1(スマートフォン)では、例えば、ユーザにより「明日の大崎の天気教えて」である発話がなされた場合に、その対話応答の大部分を画面応答(GUI)によって、グラフィカルな情報として表現している。このとき、これと同様の対話応答を、他のエージェント機器20-2(スマートスピーカ)で行う場合を想定する。
この場合において、エージェント機器20-2は、「スピーカ」であるインターフェース情報のみを有しているため、グラフィカルな情報は不要である。そのため、ここでは、グラフィカルな情報をテキストとして変換して(変換ルールに従い変換して)、発話応答(TTS)を可能にする。
これにより、エージェント機器20-2(スマートスピーカ)では、ユーザにより「明日の大崎の天気教えて」である発話がなされた場合に、その対話応答として、「明日の大崎の天気は曇り 最高気温は21度です」である発話応答が出力される。
また、図6においては、「スピーカ」であるケイパビリティ(インターフェース情報)を有するエージェント機器20-2(スマートスピーカ)に展開した対話応答を、「ディスプレイ」であるケイパビリティ(インターフェース情報)を有する他のエージェント機器20-3(ディスプレイ付スピーカ)で再利用するための変換の例を示している。
具体的には、エージェント機器20-2(スマートスピーカ)では、例えば、ユーザにより「明日の大崎の天気教えて」である発話がなされた場合、その対話応答として、「明日の大崎の天気は曇り 最高気温は21度です」である発話応答が出力される。このとき、これと同様の機能を、他のエージェント機器20-3(ディスプレイ付スピーカ)で行う場合を想定する。
この場合において、エージェント機器20-3は、「ディスプレイ」であるインターフェース情報を有しているため、その対話応答をGUIによって、グラフィカルな情報として表現することが可能である。そのため、ここでは、TTSのテキストをGUIのコンポーネントに変換(自動変換)して、グラフィカルな情報を表示可能にしている。
また、ここでは、開発者1によって、変換後の情報(グラフィカルな情報)を最終調整(カスタム)することが可能である。図6の例では、開発者1が最終調整を行うことで、グラフィカルな情報として、場所や日付や天気などの文字情報に対して、曇りアイコンや温度などの画像情報が追加されている。ここでは、土台の対話応答がすでに自動で生成されているため、開発者1は、ゼロから対話応答を設計するよりも作業量を軽減することができる。
これにより、エージェント機器20-3(ディスプレイ付スピーカ)では、ユーザにより「明日の大崎の天気教えて」である発話がなされた場合に、その対話応答として、場所や日付や天気、曇りアイコンや温度などのグラフィカルな情報を含む画面応答が出力される。
なお、エージェント機器20-3(ディスプレイ付スピーカ)は、「スピーカ」であるインターフェース情報を有していることから、例えば、対話応答の一部が発話応答により出力されるように調整してもよい。また、図5の例においても、図6の例と同様に、開発者1が最終調整を行ってもよい。また、図5及び図6に例示した変換方法の詳細は後述する。
(ルールベースによる変換アルゴリズム)
異なるケイパビリティを有するエージェント機器20の間の変換方法としては、当該変換方法をルールとして記載するルールベースの変換アルゴリズムを用いることができる。この変換方法では、ルールベースの変換アルゴリズムをあらかじめ設計しておく必要があるが、調整が容易で、柔軟な対話応答を設計可能である。
異なるケイパビリティを有するエージェント機器20の間の変換方法としては、当該変換方法をルールとして記載するルールベースの変換アルゴリズムを用いることができる。この変換方法では、ルールベースの変換アルゴリズムをあらかじめ設計しておく必要があるが、調整が容易で、柔軟な対話応答を設計可能である。
なお、ここでは全てを手動で設計する必要はなく、例えばデータ構造に着目して規則性などがある場合にはある程度は自動化することもできる。またこれらの変換は、例えば開発者1などによって、誰でも気軽に追加や編集等の作業を行うことができる。以下、具体例を、(d1)乃至(d2)に示している。
(d1)TTSとGUIの相互変換
発話応答(TTS)と画面応答(GUI)の相互変換では、リスト表記の解析と展開が行われる。このとき、最大リスト項目数などは可変であって、パラメタとして設定可能である。
発話応答(TTS)と画面応答(GUI)の相互変換では、リスト表記の解析と展開が行われる。このとき、最大リスト項目数などは可変であって、パラメタとして設定可能である。
TTSの例:
「今週の天気は、東京は晴れ、京都は雨、福岡も雨でしょう」
「今週の天気は、東京は晴れ、京都は雨、福岡も雨でしょう」
ここでは、テキストのリスト構造が検出される。このリスト構造の検出の際には、専用の検出器により学習してもよいし、人手によりリスト構造のアノテーションをおこなってもよい。なお、スケジュールやToDoリストなど、リスト構造を扱うアプリケーションにも応用が可能である。
GUIの例:
<p>今週の天気</p>
<ul>
<li>東京:晴れ</li>
<li>京都:雨</li>
<li>福岡:雨</li>
</ul>
<p>今週の天気</p>
<ul>
<li>東京:晴れ</li>
<li>京都:雨</li>
<li>福岡:雨</li>
</ul>
ここでは、並列情報を解析(例えば形態素解析)し、リスト化して表示する。また、画面応答(GUI)から発話応答(TTS)への変換に際し、HTML文書では、リスト構造が明示的(ul-li)であるため、検出は容易であり、他のケイパビリティへの展開は容易である。
GUI+TTSの例:
//TTS
「今週の天気は、こちらです」
//GUI
<ul>
<li>東京:晴れ</li>
<li>京都:雨</li>
<li>福岡:雨</li>
</ul>
//TTS
「今週の天気は、こちらです」
//GUI
<ul>
<li>東京:晴れ</li>
<li>京都:雨</li>
<li>福岡:雨</li>
</ul>
発話応答(TTS)と画面応答(GUI)の両方を用いる場合には、並列情報を解析してリスト化表示を意識したTTSのテキストを生成する。ここでは、リスト化表示を意識することで、例えば、TTSのテキストを省略することができる。
(d2)簡潔発話応答と、SE(Sound Effect)応答と、GUIとの相互の変換
例えば、対話行動タイプ(TYPE)がACK(ACK-YES/ACK-NO)となる場合には、以下に示すように、様々なシチュエーションで使いまわすことができる。
例えば、対話行動タイプ(TYPE)がACK(ACK-YES/ACK-NO)となる場合には、以下に示すように、様々なシチュエーションで使いまわすことができる。
TTSの例:
U:「電気消して」
S:「電気を消しました」
U:「電気消して」
S:「電気を消しませんでした」
U:「電気消して」
S:「電気を消しました」
U:「電気消して」
S:「電気を消しませんでした」
SEの例:
U:「電気消して」
S:「ピコーン」(成功の効果音)
U:「電気消して」
S:「ブブー」(失敗の効果音)
U:「電気消して」
S:「ピコーン」(成功の効果音)
U:「電気消して」
S:「ブブー」(失敗の効果音)
GUIの例:
U:「電気消して」
S:<img src="OK-mark.png">(成功の画像表示)
U:「電気消して」
S:<img src="FAIL-mark.png">(失敗の画像表示)
U:「電気消して」
S:<img src="OK-mark.png">(成功の画像表示)
U:「電気消して」
S:<img src="FAIL-mark.png">(失敗の画像表示)
(変換後の対話応答のカスタムサポート)
HTML等のマークアップ言語を用いる場合には、データ構造とレイアウトデザインを分離できるため、対話応答のカスタムとの相性がよい。特に、HTMLの場合には、CSS(Cascading Style Sheets)等のスタイルシートを利用することで、生成された対話応答のカスタムを容易に行うことができる。
HTML等のマークアップ言語を用いる場合には、データ構造とレイアウトデザインを分離できるため、対話応答のカスタムとの相性がよい。特に、HTMLの場合には、CSS(Cascading Style Sheets)等のスタイルシートを利用することで、生成された対話応答のカスタムを容易に行うことができる。
ここで用いるスタイルシートとしては、標準で用意されているものを選択してもよいし、開発者がレイアウトを修正してもよい。図7には、変換後の対話応答のカスタムレイアウトの反映の例を示している。
例えば、HTML文書において、<ul class="custom-list">….</ul>のような構成を用いることで、このcustom-listクラスのCSSを編集するだけで、レイアウトを変更することができる。この場合、データ構造はそのまま利用することができるため、図7のA乃至Cに示すように、異なるCSSを用いることで、「明日の大崎の天気は曇り 最高気温は21度です」である画面応答の表示レイアウトを変えることができる。
(パラメタ調整)
言語や方言、丁寧度などのパラメタを調整するようにしてもよい。方言や丁寧度等を調整することで、画面応答(GUI)で表示されるテキスト(文字)や、発話応答(TTS)で読み上げられるテキストのイントネーションなどが変更可能となる。
言語や方言、丁寧度などのパラメタを調整するようにしてもよい。方言や丁寧度等を調整することで、画面応答(GUI)で表示されるテキスト(文字)や、発話応答(TTS)で読み上げられるテキストのイントネーションなどが変更可能となる。
(機械学習ベースによる変換アルゴリズム)
ここでは、例えば、機械学習の手法の1つである深層学習(Deep Learning)を用いて、ルールやヒューリスティックに頼らずに対話応答を生成することも可能である。
ここでは、例えば、機械学習の手法の1つである深層学習(Deep Learning)を用いて、ルールやヒューリスティックに頼らずに対話応答を生成することも可能である。
図8は、Sequence-to-Sequenceモデルによる任意のケイパビリティの対話応答の生成の例を示している。
図8に示したSequence-to-Sequenceモデルでは、現在ある既存の対話応答、又は汎用対話応答フレーム150が系列として入力され、所望の対話応答が系列として出力される。具体的には、「大崎は晴れです」であるテキストを入力として、「大崎」であるテキストと、太陽のアイコン(画像)とからなる対話応答が出力される。
ここでは、タグ(図中の「TAG」)として、"HTML"を入力することで、HTML形式の対話応答が出力される。ただし、タグを入力するほか、例えば、ケイパビリティのペアごとに、モデルを学習してもよい。
(コンテキスト利用による動的対話応答生成)
同一のユーザ発話に対しても、コンテキストによっては、対話応答を柔軟にカスタマイズする必要がある。ここでは、コンテキストに関するコンテキスト情報として、例えば、時間帯、人別、距離別、シーン別などに関する情報を含めることができる。以下、コンテキスト情報に応じた対話応答の例を、(e1)乃至(e4)に示している。
同一のユーザ発話に対しても、コンテキストによっては、対話応答を柔軟にカスタマイズする必要がある。ここでは、コンテキストに関するコンテキスト情報として、例えば、時間帯、人別、距離別、シーン別などに関する情報を含めることができる。以下、コンテキスト情報に応じた対話応答の例を、(e1)乃至(e4)に示している。
(e1)時間帯
ユーザからの発話に応じた対話応答を行うに際して、その時間帯に応じた対話応答を生成することができる。例えば、夜の時間帯である場合において、エージェント機器20が、ディスプレイにおける表示画面の輝度を下げて画面応答を行ったり、あるいはスピーカからの再生音量を落として発話応答を行ったりするような対話応答を生成することができる。
ユーザからの発話に応じた対話応答を行うに際して、その時間帯に応じた対話応答を生成することができる。例えば、夜の時間帯である場合において、エージェント機器20が、ディスプレイにおける表示画面の輝度を下げて画面応答を行ったり、あるいはスピーカからの再生音量を落として発話応答を行ったりするような対話応答を生成することができる。
(e2)人別
その周囲に存在する人物に応じた対話応答を生成することができる。例えば、エージェント機器20が、その周囲に存在する人に合わせて、一人用、夫婦用、家族用、又はゲスト用などの画面応答や発話応答をするような対話応答を生成することができる。
その周囲に存在する人物に応じた対話応答を生成することができる。例えば、エージェント機器20が、その周囲に存在する人に合わせて、一人用、夫婦用、家族用、又はゲスト用などの画面応答や発話応答をするような対話応答を生成することができる。
(e3)距離別
対話を行うユーザとの距離に応じた対話応答を生成することができる。例えば、エージェント機器20が、ユーザとの距離が離れている場合には、画像サイズや、テキストのフォントサイズを大きくした画面応答を行ったり、あるいはスピーカからの再生音量を上げた発話応答を行ったりするような対話応答を生成することができる。
対話を行うユーザとの距離に応じた対話応答を生成することができる。例えば、エージェント機器20が、ユーザとの距離が離れている場合には、画像サイズや、テキストのフォントサイズを大きくした画面応答を行ったり、あるいはスピーカからの再生音量を上げた発話応答を行ったりするような対話応答を生成することができる。
(e4)シーン別
シーンに応じた対話応答を生成することができる。例えば、ユーザが電車内にいる場合には、エージェント機器20では、スピーカからの発話応答を、他のケイパビリティ(例えば、電子メールや振動等)による応答に置き換えるような対話応答を生成することができる。
シーンに応じた対話応答を生成することができる。例えば、ユーザが電車内にいる場合には、エージェント機器20では、スピーカからの発話応答を、他のケイパビリティ(例えば、電子メールや振動等)による応答に置き換えるような対話応答を生成することができる。
また、例えば、部屋内に客人がいる場合には、エージェント機器20では、ユーザのプライベートな情報(例えば個人的な予定等)は、画面応答や発話応答の代わりに、対応するメッセージを携帯端末(例えば、ユーザの所持するスマートフォン等)に通知するような対話応答を生成することができる。
なお、ここでは、コンテキスト情報として、時間帯、人別、距離別、シーン別を利用した場合を例示したが、これらは一例であって、例えば、エージェント機器20のセンサ部で検出されるセンシング情報等の情報に応じた他のコンテキストを用いるようにしてもよい。
(アクセシビリティ対応)
本技術を利用したアクセシビリティへの配慮も可能である。例えば、ディスプレイ、スピーカ、及びハプティクス(例えば振動素子)をケイパビリティ(インターフェース情報)として有しているエージェント機器20に対して、全てのケイパビリティ(インターフェース情報)の組み合わせの対話応答を生成可能なようにしておく。
本技術を利用したアクセシビリティへの配慮も可能である。例えば、ディスプレイ、スピーカ、及びハプティクス(例えば振動素子)をケイパビリティ(インターフェース情報)として有しているエージェント機器20に対して、全てのケイパビリティ(インターフェース情報)の組み合わせの対話応答を生成可能なようにしておく。
これにより、エージェント機器20においては、アクセシビリティに対応したケイパビリティが選択され、様々なユーザに応じた柔軟なアクセシビリティへの対応が可能になる。
例えば、事前の設定やセンシング情報等に基づき、全盲のユーザに対しては、画面応答(GUI)の機能はオフにして、発話応答(TTS)の機能のみのケイパビリティに切り替えることができる。また、例えば、難聴のユーザに対しては、発話応答(TTS)の機能をオフにして、画面応答(GUI)の機能に切り替えることができる。
(ケイパビリティ情報に応じた出力)
エージェント機器20は、同一の機器でも、表現性能(例えばCPU(Central Processing Unit)性能や画面解像度、サウンドチャンネル数等)が異なる場合があり、その表現性能の違いはケイパビリティ(ケイパビリティ情報)により表される。そして、エージェント機器20は、ケイパビリティ情報に応じた対話応答を出力することができる。
エージェント機器20は、同一の機器でも、表現性能(例えばCPU(Central Processing Unit)性能や画面解像度、サウンドチャンネル数等)が異なる場合があり、その表現性能の違いはケイパビリティ(ケイパビリティ情報)により表される。そして、エージェント機器20は、ケイパビリティ情報に応じた対話応答を出力することができる。
図9は、エージェント機器20における表現性能に応じた対話応答の切り替えの例を示している。
例えば、画面応答としてxxx.mp4である動画ファイルを再生する場合に、その表現性能としてCPU性能が高い等、エージェント機器20-1(スマートフォン)が高スペックマシンであるときには、動画ファイルをそのまま再生する。
一方で、例えば、表現性能としてCPU性能が低い等、エージェント機器20-1(スマートフォン)が低スペックマシンであるときには、動画ファイルのサムネイルを利用したり、あるいは動画ファイルから所定の形式(例えばGIF(Graphics Interchange Format)形式)の静止画ファイルを生成したりして、画面応答として静止画を表示する。
このように、対話応答設計器10では、展開先のエージェント機器20のケイパビリティ(ケイパビリティ情報)に応じた対話応答(画面応答や発話応答等)を生成して展開することができる。なお、この表現性能に応じた対話応答の変換は、対話応答設計器10が自動で処理を行ってもよいし、開発者1が明示的に指示してもよい。
(付与応答の利用)
事前に人のデータから学習した対話モデル、あるいは人手による対話設計を利用した対話モデルを利用して、新規対話応答又は既存対話応答に対して、付加情報を含めた付与応答(自動付与応答)を用いることができる。開発者1は、付与応答に関しては何もしなくても利用可能である。また、開発者1は、付与応答に対し、必要に応じてパラメタによる細かい調整も可能である。以下、付与応答の例を、(f1)乃至(f4)に示している。
事前に人のデータから学習した対話モデル、あるいは人手による対話設計を利用した対話モデルを利用して、新規対話応答又は既存対話応答に対して、付加情報を含めた付与応答(自動付与応答)を用いることができる。開発者1は、付与応答に関しては何もしなくても利用可能である。また、開発者1は、付与応答に対し、必要に応じてパラメタによる細かい調整も可能である。以下、付与応答の例を、(f1)乃至(f4)に示している。
(f1)新規応答型
新規応答型では、例えば、簡単な事実に関する質問応答(QA:Question Answering)などについては、開発者が対話応答を設定していなくても、応答できるようにする。換言すれば、ビルトインのQA機能を提供しているとも言える。
新規応答型では、例えば、簡単な事実に関する質問応答(QA:Question Answering)などについては、開発者が対話応答を設定していなくても、応答できるようにする。換言すれば、ビルトインのQA機能を提供しているとも言える。
第1の具体例:
U:「アメリカの大統領は?」
S:「XXXXXXXXです」
U:「アメリカの大統領は?」
S:「XXXXXXXXです」
第2の具体例:
U:「テレビつけて」
S:「ピコーン」(効果音)
U:「テレビつけて」
S:「ピコーン」(効果音)
(f2)新規付与型
新規付与型では、例えば、相槌や簡単な挨拶などの言葉を付与する。付与する言葉の頻度やタイミングは、開発者により設定される。当該タイミングとしては、例えば、ユーザが長く話しているときや、サービスのロードに時間がかかっているときなどが想定される。
新規付与型では、例えば、相槌や簡単な挨拶などの言葉を付与する。付与する言葉の頻度やタイミングは、開発者により設定される。当該タイミングとしては、例えば、ユーザが長く話しているときや、サービスのロードに時間がかかっているときなどが想定される。
第1の具体例:
U:「今日は楽しいことがあってね」
S:「うんうん」
U:「今日は楽しいことがあってね」
S:「うんうん」
第2の具体例:
S:「ヒマラヤは8848mなんですよ」
U:「君賢いね!」
S:「ありがとう!」
S:「ヒマラヤは8848mなんですよ」
U:「君賢いね!」
S:「ありがとう!」
(f3)追加付与型
追加付与型では、例えば、自然な発話の再現やバックグラウンドサービスの実行に時間がかかっている場合などに、フィラーを追加したり、簡単な挨拶を付け加えたりする。
追加付与型では、例えば、自然な発話の再現やバックグラウンドサービスの実行に時間がかかっている場合などに、フィラーを追加したり、簡単な挨拶を付け加えたりする。
第1の具体例:
U:「渋谷でやっているイベント見せて」
S:「えっーと、こちらになります」
U:「渋谷でやっているイベント見せて」
S:「えっーと、こちらになります」
第2の具体例:
U:「おはよ 今日の予定見せて」
S:「おはようございます 今日の予定は、・・・」
U:「おはよ 今日の予定見せて」
S:「おはようございます 今日の予定は、・・・」
(f4)機能補填型
機能補填型では、例えば、音声認識や意味解析の信頼度が低かった場合に、対話応答に、明示的又は暗黙的な確認情報を付与する。
機能補填型では、例えば、音声認識や意味解析の信頼度が低かった場合に、対話応答に、明示的又は暗黙的な確認情報を付与する。
第1の具体例:
U:「天気見せて、※○△明日の」(ノイズが入ってしまい音声認識の精度が低いケース)
S(オリジナル):「天気はこちらです」 + GUI
S(他の第1の例):「明日の天気はこちらです」 + GUI
S(他の第2の例):「明日ですね 明日の天気はこちらです」 + GUI
U:「天気見せて、※○△明日の」(ノイズが入ってしまい音声認識の精度が低いケース)
S(オリジナル):「天気はこちらです」 + GUI
S(他の第1の例):「明日の天気はこちらです」 + GUI
S(他の第2の例):「明日ですね 明日の天気はこちらです」 + GUI
以上、対話応答設計器10の機能を中心に説明した。この対話応答設計器10では、対話応答を出力するエージェント機器20ごとのケイパビリティ(インターフェース情報とケイパビリティ情報を含む)が取得され、対話応答を生成する際のシード(種)として利用される汎用対話応答フレーム150から、取得されたケイパビリティに応じた対話応答が生成され、生成された対話応答がエージェント機器20ごとに展開される。
つまり、汎用対話応答フレーム150は、汎用の対話応答の仕様に則して記述されたフレーム(ファイル)であり、対話応答設計器10は、汎用対話応答フレーム150、変換テンプレート160、及びケイパビリティリスト103を入力として、任意のエージェント機器20に適合した対話応答を出力するジェネレータとして構成される。
これにより、開発者1は、汎用対話応答フレーム150を記述するだけで、エージェント機器20が有するケイパビリティ(表現手段)を意識することなく、対話応答を設計(自動設計)することが可能とされる。そのため、1つの汎用の対話応答の仕様をメンテナンスするだけで、様々なケイパビリティを有するエージェント機器20に対応することができる。また、例えば、対話エージェントが対応する機器が変化(増減)したときでも柔軟に対応することができる。その結果として、より適切に対話応答を提供することができる。
また、対話応答設計器10では、特定のエージェント機器20に向けた設計済みの対話応答を、異なるケイパビリティを有する他のエージェント機器20の対話応答に変換することができる(上述の「応答モダリティ変換」)。さらに、ビルトインによる対話応答のテンプレートを用いるだけでなく、開発者1がカスタムすることで、エージェント機器20への展開に際して、細かな対話応答の展開ルールを設計することができる。
なお、上述した特許文献1に開示された技術は、入力された文章に対して、事前設計された対話DBと単語間の相関を計算して対話生成手段を利用し、設計済み対話DB及び対話生成手段から、出力する対話を決定するものであって、開発者がすべての対話応答を設計しなくても、ある条件下においては対話生成手段を用いることで、開発者の労力を減らそうとしている。
一方で、本開示に係る技術は、対話応答設計器10によって、様々な表現手段(ケイパビリティ)を有するエージェント機器20への対話応答の展開による開発者の労力の低減であるため、そのアプローチが異なっている。また、本開示に係る技術は、様々な表現手段(ケイパビリティ)を有するエージェント機器20を対象としているが、特許文献1に開示された技術は、テキスト表示と音声合成発話を対象としており、その対象が限定的である。
また、特許文献1に開示された技術では、機器に適合したテンプレート展開のような概念は存在せず、対話応答の一部又は全部を、対話生成手段により書き換えるものであって、その点においても、本開示に係る技術と大きく異なっている。さらに、レスポンシブウェブデザインと称される手法が知られているが、このデザイン手法は、ディスプレイ表示に限定したものであり、様々な表現手段(ケイパビリティ)を有するエージェント機器20を対象とする本開示に係る技術とは異なっている。
(エージェント機器の構成)
ところで、エージェント機器20では、対話応答設計器10により展開された対話応答を実行するに際し、展開された対話応答をそのまま出力するだけでなく、ユーザに対して、より適切な対話応答が出力されるようにしてもよい。
ところで、エージェント機器20では、対話応答設計器10により展開された対話応答を実行するに際し、展開された対話応答をそのまま出力するだけでなく、ユーザに対して、より適切な対話応答が出力されるようにしてもよい。
図10は、本技術を適用した情報処理装置としてのエージェント機器の一実施の形態の構成の例を示す図である。
エージェント機器20は、制御部200、センサ部201、カメラ部202、マイク部203、記憶部204、通信部205、電源部206、及びインターフェース207を含んで構成される。
制御部200は、例えば、CPU等のプロセッサやFPGA(Field Programmable Gate Array)などから構成される。制御部200は、各部の動作の制御や各種の演算処理を行う中心的な処理装置である。制御部200は、対話応答処理部211を含む。対話応答処理部211は、対話応答に関する処理を行う。
センサ部201は、例えば、各種のセンサデバイス等から構成される。センサ部201は、ユーザやその周辺などのセンシングを行い、その結果得られるセンシング情報を、制御部200に供給する。
ここで、センサ部201としては、例えば、磁場(磁界)の大きさや方向を検出する磁気センサ、加速度を検出する加速度センサ、角度(姿勢)や角速度、角加速度を検出するジャイロセンサ、近接するものを検出する近接センサなどを含めることができる。
センサ部201にはまた、温度を検出する温度センサや、湿度を検出する湿度センサ、周囲の明るさを検出する環境光センサなどの周囲の環境を測定するためのセンサや、呼吸や脈拍、指紋、虹彩などの生体情報を検出する生体センサなどを含めることができる。
カメラ部202は、例えばCMOS(Complementary Metal Oxide Semiconductor)イメージセンサやCCD(Charge Coupled Device)イメージセンサ等のイメージセンサと、カメラISP(Image Signal Processor)等の信号処理部を含んで構成される。カメラ部202では、イメージセンサによって被写体を撮像して得られる撮像信号に対し、信号処理部が各種の信号処理を行うことで得られる画像情報が生成され、制御部200に供給される。
マイク部203は、外部からの音(音声)を電気信号に変換し、その結果得られる音声情報を、制御部200に供給する。
記憶部204は、例えば半導体メモリやHDD(Hard Disk Drive)などの記憶装置から構成される。記憶部204は、制御部200からの制御に従い、各種のデータを記憶する。なお、記憶部204には、対話応答設計器10により展開された対話応答(以下、展開済み具体対話応答ともいう)をデータベース(後述する図12又は図13の展開済み具体対話応答DB250)として記憶することができる。
通信部205は、所定の規格に準拠した無線通信又は有線通信に対応した通信モジュールなどから構成される。この通信モジュールとしては、例えば、無線LAN(Local Area Network)や、セルラ方式の通信(例えばLTE-Advancedや5G等)等の通信方式に対応したものとされる。通信部205は、制御部200からの制御に従い、各種の情報を、他の機器(例えば、対話応答設計器10)との間でやりとりする。
電源部206は、制御部200からの制御に従い、外部電源又は蓄電池から得られる電源電力を、制御部200を含むエージェント機器20の各部に供給する。
インターフェース207は、ユーザ2との間で情報をやりとりするためのユーザインターフェースである。換言すれば、インターフェース207は、エージェント機器20が持つ様々な対話応答の表現手段であると言える。
例えば、インターフェース207は、ディスプレイ221、スピーカ222、振動素子223、又はランプ224などの表現手段を含む。この表現手段は、エージェント機器20ごとに同一又は異なるものであって、エージェント機器20ごとに、1つの表現手段に限らず、複数の表現手段を設けてもよい。そして、エージェント機器20においては、インターフェース207(ディスプレイ221等の表現手段)に応じたインターフェース情報とケイパビリティ情報がケイパビリティとされるのである。
なお、図10に示した構成は一例であって、すべての構成要素を備える必要はなく、例えば、カメラ部202やマイク部203などの一部の構成要素を除いた構成としてもよい。あるいは、図10に示した構成に対して、例えば、GPS(Global Positioning System)信号を含む位置情報を検出するための位置情報検出部などの他の構成要素を加えてもよい。
(対話応答実行処理の流れ)
次に、図11のフローチャートを参照して、エージェント機器20により実行される対話応答実行処理の流れを説明する。
次に、図11のフローチャートを参照して、エージェント機器20により実行される対話応答実行処理の流れを説明する。
ただし、図11に示した処理を実行するに際して、エージェント機器20には、対話応答設計器10により展開された展開済み具体対話応答が、記憶部204(後述する図12等の展開済み具体対話応答DB250)に記憶されているものとする。
ステップS201において、対話応答処理部211は、対話応答イベントが発生したかどうかを判定する。この対話応答イベントは、対話応答システムが対話応答を実際に実行し、表出させる原因(トリガ)となるイベントである。
対話応答イベントとしては、ユーザ2からの発話が一般的ではあるが、対話応答システムが能動的に検出したユーザ情報や、別サービスからのイベントフックなども該当する。前者のユーザ情報としては、例えば、「帰宅したら音楽を再生しよう」等の情報が含まれる。また、後者のイベントフックとしては、例えば、ユーザがスケジュール管理のアプリケーションで登録した予定になったときなどが含まれる。
ステップS201の判定処理で、対話応答イベントが発生したと判定された場合、処理は、ステップS202に進められる。
ステップS202において、対話応答処理部211は、展開済み具体対話応答の中から、発生した対話応答イベントに対応する対話応答を選択する。ここで選択される対話応答は、1つに限らず、複数選択されてもよい。すなわち、エージェント機器20ごとのケイパビリティの違いによって、該当する対話応答が複数存在する場合などが想定される。以下、ここで選択された対話応答を、特に候補対話応答と称する。
ステップS203において、対話応答処理部211は、コンテキスト情報を取得する。このコンテキスト情報としては、例えば、現在のユーザの状況、エージェント機器20の状態、周辺の環境状態、対話履歴など、コンテキストに関する様々な情報が含まれる。例えば、コンテキスト情報は、ユーザ設定やセンシング情報、外部のサービス等の情報に基づき、取得することができる。
ステップS204において、対話応答処理部211は、取得したコンテキスト情報に基づいて、コンテキストに合致していない対話応答を、候補対話応答から除外する。
ここでは、例えば、ユーザが全盲の場合には、ケイパビリティ(インターフェース情報)に応じてディスプレイは使用不可として、候補対話応答から対応する対話応答を除外する。また、例えば、時間帯が夜の遅い時間の場合には、スピーカは使用不可として対応する対話応答を除外する。あるいは、例えば、エージェント機器20の周辺に大型のディスプレイ装置が設置されている場合には、当該ディスプレイ装置を利用するとして、他のディスプレイ装置に関する対話応答を除外する。
ステップS205において、対話応答処理部211は、候補対話応答が1件以上存在するかどうかを判定する。ステップS205において、候補対話応答が1件以上存在すると判定された場合、処理は、ステップS206に進められる。
ステップS206において、対話応答処理部211は、取得したコンテキスト情報に基づいて、候補対話応答の中から、コンテキストに最も合致した対話応答を選択する。
ここでは、例えば、候補対話応答の中から、コンテキストの条件に最も即した対話応答を選択できる。あるいは、例えば、ケイパビリティを最大限活用する対話応答を選択したり、最も消費電力が抑えられる対話応答を選択したりするなど、開発者1が自由に選択方針(ポリシー)を設定してもよい。
一方で、ステップS205において、候補対話応答が存在しないと判定された場合、処理は、ステップS207に進められる。
ステップS207において、対話応答処理部211は、ステップS204の処理でのコンテキスト適用前の候補対話応答を再取得する(取得し直す)。
すなわち、ここでは、コンテキストに沿った事前定義済みの対話応答が存在しなかったため、一度コンテキストは無視して、該当する対話応答を取り戻している。換言すれば、ここでは、コンテキストフィルタを取り除いているとも言える。
ステップS208において、対話応答処理部211は、ビルトイン機能によって(汎用的な処理を行うためにあらかじめ用意されたコンテキストを用いて)、対話応答へのコンテキストの適用を行い、具体対話応答を再生成する(生成し直す)。
ここでは、例えば、コンテキストに応じた対話応答になるように調整(自動調整)がなされる。すなわち、上述した「コンテキスト利用による動的対話応答生成」に示した場合と同様に、例えば、時間帯や人別、距離別、シーン別などに応じて、動的に具体対話応答が生成される。
なお、コンテキストの利用による対話応答の設計は、事前に開発者1(アプリケーション開発者)が行ってもよいし、あるいは、対応するコンテキスト対応済みの対話応答が存在しない場合には、対話システム側で(自動で)サポートするような形式を採用してもよい。
また、このビルトイン機能がない場合、あるいはビルトイン機能を使用しても完全にコンテキストに沿った対話応答を生成できない場合には、例えば、次のような処理を行うことができる。すなわち、対話応答処理部211では、コンテキストを最も満たせる対話応答を選択するほか、例えば、対話応答ができない旨を伝える応答(通知)が生成されるようにしてもよい。この応答としては、例えば、「現在その機能を実行できません」であるメッセージを出力したり、あるいは、LEDを赤く点滅させたりすることができる。
ステップS206又はS208の処理が終了すると、処理は、ステップS209に進められる。ステップS209において、対話応答処理部211は、インターフェース207を介して対話応答を出力する。これにより、ユーザ2は、エージェント機器20から出力される対話応答を認識することができる。
以上、対話応答実行処理の流れを説明した。
ここで、図12及び図13には、図11に示した対話応答実行処理の各処理を模式的に表している。図12は、一般的な対話応答の生成の例を示している。
図12において、エージェント機器20では、対話応答イベントが発生した場合(図11のS201の「YES」)に、展開済み具体対話応答DB250から、対話応答イベントに応じた展開済み具体対話応答が取得される(図11のS202)。
このとき、エージェント機器20では、ユーザ設定やセンシング情報、外部のサービス等の情報に基づき、コンテキスト情報が取得され(図11のS203)、当該コンテキスト情報に基づき、コンテキストに合致した対話応答がフィルタリングされる(図11のS204)。
そして、エージェント機器20では、候補対話応答が1件以上存在する場合には、候補対話応答の中から選択された対話応答を出力する(図11のS206,S209)。一方で、候補対話応答が存在しない場合には、対話応答へのコンテキストの適用を行うことで具体対話応答を再生成して出力する(図11のS207乃至S209)。
なお、ここでは、エージェント機器20内で処理を実行するだけでなく、例えば、クラウド経由でコンテキストに応じた動的な対話応答の生成などの処理が行われるようにしてもよい。
また、図13は、対話応答イベントとして、「天気教えて」であるユーザ2からの発話を受けた場合における対話応答の生成の例を示している。
図13において、エージェント機器20-3(ディスプレイ付スピーカ)では、「天気教えて」であるユーザ発話が、対話応答イベントとして発生した場合(図11のS201の「YES」)、展開済み具体対話応答DB250から、当該対話応答イベントに対応する展開済み具体対話応答として2件の対話応答が取得される(図11のS202)。
1件目の対話応答は、「ディスプレイ」と「スピーカ」であるケイパビリティに応じた画面応答(GUI)と発話応答(TTS)によるものである。一方で、2件目の対話応答は、「スピーカ」であるケイパビリティに応じた発話応答(TTS)によるものである。
このとき、エージェント機器20-3では、センシング情報等の情報に基づき、コンテキスト情報が取得され、ユーザ2は現在キッチンで目が離せない状況、すなわち、エージェント機器20-3には目を向けていない状況であることが認識される(図11のS203)。そのため、2件の対話応答のうち、画面応答(GUI)を含む1件目の対話応答をコンテキストに合致していないものとして除外する(図11のS204)。
これにより、エージェント機器20では、2件目の対話応答(発話応答(TTS))がコンテキストに最も合致した対話応答であるとして選択され(図11のS206)、対話応答として、「天気は晴れます」である発話応答が出力される(図11のS209)。
以上のように、エージェント機器20では、対話応答のイベントが発生した場合に、対話応答を生成する際のシード(種)として利用される汎用対話応答フレーム150からケイパビリティ(インターフェース情報とケイパビリティ情報を含む)に応じて生成された対話応答が取得され、コンテキストに関するコンテキスト情報が取得され、取得された対話応答の中から、コンテキストに適合した対話応答が選択され、選択された対話応答が出力される。
ところで、エージェント機器20が有するケイパビリティに選択肢が多いほど、その対話応答の表現により多くの情報量を載せることができる。本技術では、コンテキスト情報やケイパビリティ情報に応じて、表現すべき機器や対話応答を変化させるようなモダリティ変換を行うことができるが、ここでは、特に、その変換時に、エージェント機器20ごとの表現能力(ケイパビリティ情報)が大きくかわるとき(大差があるとき)のモダリティ変換について説明する。
(g1)表現能力が大きいものから小さいものに変換
表現能力が大きいもの(SRC:Source)から小さいもの(DST:Destination)に変換する場合には、情報量を落とすか、あるいは他のデバイスなどと連携して情報量を維持する方法が想定される。
表現能力が大きいもの(SRC:Source)から小さいもの(DST:Destination)に変換する場合には、情報量を落とすか、あるいは他のデバイスなどと連携して情報量を維持する方法が想定される。
ここでは、エージェント機器20-4(テレビ受像機)がSRCとなり、エージェント機器20-6(スマートウォッチ)がDSTとなる場合を想定して例示する。
なお、テレビ受像機では、ケイパビリティとして、「ディスプレイ」、「スピーカ」であるインターフェース情報と、「ディスプレイ」に対する「大型(高解像度)」である画面サイズ(画面解像度)のケイパビリティ情報を含む。また、スマートウォッチは、「ディスプレイ」、「ハプティクス」、「ランプ」であるインターフェース情報と、「ディスプレイ」に対する「小型(超低解像度)」である画面サイズ(画面解像度)のケイパビリティ情報を含む。
このとき、スマートウォッチにおいて、テレビ受像機に対する対話応答に応じた画面応答(GUI)のみを行う場合には、例えば、対話応答に応じた情報を表示する際の解像度を落としたり、分割して表示したりすることでGUIの表示が可能となる。この分割表示としては、例えば、分割した情報を、スライドショーにより表示したり、ユーザ2のタッチ操作で表示を切り替えたりすることができる。
また、スマートウォッチにおいては、画面応答(GUI)を、当該応答に関するアイコンや簡単な説明の表示に留めて、他のデバイスを利用して情報を伝えるようにしてもよい。
具体的には、スマートウォッチでは、例えば天気予報の表示であれば、天気予報を提供するアプリケーションのアイコンや、”天気”という文字列だけを表示する一方で、スマートフォンと連携する場合には、そのディスプレイを利用して天気予報の詳細な情報を表示することができる。あるいは、付近に設置されたスピーカや、近距離無線通信(例えばBluetooth(登録商標))に対応したイヤホンなどに対して、画面応答(GUI)から発話応答(TTS)への変換を行い、天気予報の詳細な情報(画面応答に相当する情報)を、発話応答により出力してもよい。
(g2)表現能力が小さいものから大きいものに変換
表示能力が小さいもの(SRC)から大きいもの(DST)に変換する場合には、そのまま情報量を維持して対話応答を出力することができる。そのため、余剰能力に情報を付与してもよいし、オリジナルの対話応答に対して情報量を付与してもよい。勿論、何ら情報量を付与しないまま、オリジナルの対話応答を維持してもよい。
表示能力が小さいもの(SRC)から大きいもの(DST)に変換する場合には、そのまま情報量を維持して対話応答を出力することができる。そのため、余剰能力に情報を付与してもよいし、オリジナルの対話応答に対して情報量を付与してもよい。勿論、何ら情報量を付与しないまま、オリジナルの対話応答を維持してもよい。
ここでは、エージェント機器20-6(スマートウォッチ)がSRCとなり、エージェント機器20-4(テレビ受像機)がDSTとなる場合を想定して例示する。
このとき、テレビ受像機において、スマートウォッチに対する対話応答に情報量を付与して画面応答(GUI)を行う場合には、例えば、ユーザ2から「今日の天気」を質問された場合には、今日の天気に関する情報を表示するとともに、今週の天気や付近の天気、雨雲レーダなどの情報を、余ったスペースに表示することができる。
また、ここでは、今日の天気に関する情報とともに、コンテキスト情報等の情報に基づき、例えば、ユーザ2の今日の予定や、頻繁に起動するアプリケーションの応答や広告などの情報を、余ったスペースに表示してもよい。さらには、テレビ受像機では、TTSを利用した音声により、例えば、ユーザに挨拶をしたり、今日の占いなどを伝えたりしてもよい。
<2.変形例>
図14は、本技術を適用したネットワークシステムの構成の例を示す図である。
図14のネットワークシステムは、対話応答設計器10、エージェント機器20-1乃至20-N、及びサーバ30を含んで構成され、インターネット等のネットワーク40を介して相互に接続されている。
対話応答設計器10において、対話応答設計ツール101の機能(の一部又は全部)がネットワーク40を介してサーバ30により提供されるようにしてもよい。また、対話応答変換関数群102、及び対話応答DB104は、サーバ30により管理され、ネットワーク40を介して、対話応答設計器10(の対話応答設計ツール101)が適宜アクセスするようにしてもよい。また、対話応答変換学習器11は、サーバ30により提供されるようにしてもよい。
エージェント機器20において、対話応答処理部211の機能(の一部又は全部)がネットワーク40を介してサーバ30により提供されるようにしてもよい。また、エージェント機器20により提供される対話システムの機能の一部(例えば、音声認識や意味解析等の機能)が、ネットワーク40を介してサーバ30により提供されるようにしてもよい。
また、展開済み具体対話応答DB250がサーバ30により管理され、ネットワーク40を介して、エージェント機器20(の対話応答処理部211)が適宜アクセスするようにしてもよい。さらに、エージェント機器20は、ネットワーク40を介して対話応答設計器10と通信を行い、ケイパビリティを送信したり、あるいは対話応答を受信したりしてもよい。
<3.コンピュータの構成>
上述した一連の処理(例えば、図2に示した対話応答設計処理、又は図11に示した対話応答実行処理)は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、各装置のコンピュータにインストールされる。図15は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成の例を示す図である。
コンピュータ1000において、CPU(Central Processing Unit)1001、ROM(Read Only Memory)1002、RAM(Random Access Memory)1003は、バス1004により相互に接続されている。バス1004には、さらに、入出力インターフェース1005が接続されている。入出力インターフェース1005には、入力部1006、出力部1007、記録部1008、通信部1009、及び、ドライブ1010が接続されている。
入力部1006は、マイクロフォン、キーボード、マウスなどよりなる。出力部1007は、スピーカ、ディスプレイなどよりなる。記録部1008は、ハードディスクや不揮発性のメモリなどよりなる。通信部1009は、ネットワークインターフェースなどよりなる。ドライブ1010は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体1011を駆動する。
以上のように構成されるコンピュータ1000では、CPU1001が、ROM1002や記録部1008に記録されているプログラムを、入出力インターフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ1000(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。
コンピュータ1000では、プログラムは、リムーバブル記録媒体1011をドライブ1010に装着することにより、入出力インターフェース1005を介して、記録部1008にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部1009で受信し、記録部1008にインストールすることができる。その他、プログラムは、ROM1002や記録部1008に、あらかじめインストールしておくことができる。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであってもよいし、複数のコンピュータによって分散処理されてもよい。
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
また、上述した処理の各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
なお、本技術は、以下のような構成をとることができる。
(1)
対話応答を出力する機器ごとのケイパビリティを取得し、
前記対話応答を生成する際のシードとして利用される対話応答フレームから、取得した前記ケイパビリティに応じた前記対話応答を生成し、
生成した前記対話応答を前記機器ごとに展開する
処理部を備える
情報処理装置。
(2)
前記ケイパビリティは、前記機器が有するインターフェースに関するインターフェース情報と、前記インターフェースの能力に関するケイパビリティ情報を含む
前記(1)に記載の情報処理装置。
(3)
前記対話応答フレームは、汎用の対話応答の仕様に則して記述されたフレームである
前記(1)又は(2)に記載の情報処理装置。
(4)
前記処理部は、前記対話応答フレームを、前記ケイパビリティの組み合わせごとの変換用のテンプレートを含む変換テンプレートに適用して、前記対話応答を生成する
前記(3)に記載の情報処理装置。
(5)
前記処理部は、前記ケイパビリティに応じた前記対話応答を、他のケイパビリティに応じた前記対話応答に変換する
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記処理部は、ルールベースによる変換アルゴリズム、又は機械学習ベースによる変換アルゴリズムを用いて、前記対話応答を変換する
前記(5)に記載の情報処理装置。
(7)
前記処理部は、
コンテキストに関するコンテキスト情報に基づいて、前記ケイパビリティを選択し、
選択した前記ケイパビリティに応じた前記対話応答を生成する
前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記処理部は、
アクセシビリティに対応した前記ケイパビリティを選択し、
選択した前記ケイパビリティに応じた前記対話応答を生成する
前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記処理部は、前記対話応答に対して付加情報を含める
前記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
情報処理装置が、
対話応答を出力する機器ごとのケイパビリティを取得し、
前記対話応答を生成する際のシードとして利用される対話応答フレームから、取得した前記ケイパビリティに応じた前記対話応答を生成し、
生成した前記対話応答を前記機器ごとに展開する
情報処理方法。
(11)
対話応答のイベントが発生した場合に、前記対話応答を生成する際のシードとして利用される対話応答フレームからケイパビリティに応じて生成された前記対話応答を取得し、
コンテキストに関するコンテキスト情報を取得し、
取得した前記対話応答の中から、前記コンテキストに適合した前記対話応答を選択し、
選択した前記対話応答を出力する
処理部を備える
情報処理装置。
(12)
前記ケイパビリティは、インターフェースに関するインターフェース情報と、前記インターフェースの能力に関するケイパビリティ情報を含む
前記(11)に記載の情報処理装置。
(13)
前記対話応答フレームは、汎用の対話応答の仕様に則して記述されたフレームである
前記(11)又は(12)に記載の情報処理装置。
(14)
前記対話応答は、前記対話応答フレームを、前記ケイパビリティの組み合わせごとの変換用のテンプレートを含む変換テンプレートに適用することで生成される
前記(13)に記載の情報処理装置。
(15)
前記処理部は、取得した前記対話応答が1以上存在する場合、取得した前記対話応答の中から、前記コンテキストに最も合致した前記対話応答を選択する
前記(11)乃至(14)のいずれかに記載の情報処理装置。
(16)
前記処理部は、取得した前記対話応答が存在しない場合、あらかじめ用意されたコンテキストに応じた前記対話応答を生成する
前記(11)乃至(15)のいずれかに記載の情報処理装置。
(17)
前記イベントは、ユーザの発話を含み、
前記コンテキスト情報は、前記ユーザの状態に関する情報を含む
前記(11)乃至(16)のいずれかに記載の情報処理装置。
(18)
情報処理装置が、
対話応答のイベントが発生した場合に、前記対話応答を生成する際のシードとして利用される対話応答フレームからケイパビリティに応じて生成された前記対話応答を取得し、
コンテキストに関するコンテキスト情報を取得し、
取得した前記対話応答の中から、前記コンテキストに適合した前記対話応答を選択し、
選択した前記対話応答を出力する
情報処理方法。
対話応答を出力する機器ごとのケイパビリティを取得し、
前記対話応答を生成する際のシードとして利用される対話応答フレームから、取得した前記ケイパビリティに応じた前記対話応答を生成し、
生成した前記対話応答を前記機器ごとに展開する
処理部を備える
情報処理装置。
(2)
前記ケイパビリティは、前記機器が有するインターフェースに関するインターフェース情報と、前記インターフェースの能力に関するケイパビリティ情報を含む
前記(1)に記載の情報処理装置。
(3)
前記対話応答フレームは、汎用の対話応答の仕様に則して記述されたフレームである
前記(1)又は(2)に記載の情報処理装置。
(4)
前記処理部は、前記対話応答フレームを、前記ケイパビリティの組み合わせごとの変換用のテンプレートを含む変換テンプレートに適用して、前記対話応答を生成する
前記(3)に記載の情報処理装置。
(5)
前記処理部は、前記ケイパビリティに応じた前記対話応答を、他のケイパビリティに応じた前記対話応答に変換する
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記処理部は、ルールベースによる変換アルゴリズム、又は機械学習ベースによる変換アルゴリズムを用いて、前記対話応答を変換する
前記(5)に記載の情報処理装置。
(7)
前記処理部は、
コンテキストに関するコンテキスト情報に基づいて、前記ケイパビリティを選択し、
選択した前記ケイパビリティに応じた前記対話応答を生成する
前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記処理部は、
アクセシビリティに対応した前記ケイパビリティを選択し、
選択した前記ケイパビリティに応じた前記対話応答を生成する
前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記処理部は、前記対話応答に対して付加情報を含める
前記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
情報処理装置が、
対話応答を出力する機器ごとのケイパビリティを取得し、
前記対話応答を生成する際のシードとして利用される対話応答フレームから、取得した前記ケイパビリティに応じた前記対話応答を生成し、
生成した前記対話応答を前記機器ごとに展開する
情報処理方法。
(11)
対話応答のイベントが発生した場合に、前記対話応答を生成する際のシードとして利用される対話応答フレームからケイパビリティに応じて生成された前記対話応答を取得し、
コンテキストに関するコンテキスト情報を取得し、
取得した前記対話応答の中から、前記コンテキストに適合した前記対話応答を選択し、
選択した前記対話応答を出力する
処理部を備える
情報処理装置。
(12)
前記ケイパビリティは、インターフェースに関するインターフェース情報と、前記インターフェースの能力に関するケイパビリティ情報を含む
前記(11)に記載の情報処理装置。
(13)
前記対話応答フレームは、汎用の対話応答の仕様に則して記述されたフレームである
前記(11)又は(12)に記載の情報処理装置。
(14)
前記対話応答は、前記対話応答フレームを、前記ケイパビリティの組み合わせごとの変換用のテンプレートを含む変換テンプレートに適用することで生成される
前記(13)に記載の情報処理装置。
(15)
前記処理部は、取得した前記対話応答が1以上存在する場合、取得した前記対話応答の中から、前記コンテキストに最も合致した前記対話応答を選択する
前記(11)乃至(14)のいずれかに記載の情報処理装置。
(16)
前記処理部は、取得した前記対話応答が存在しない場合、あらかじめ用意されたコンテキストに応じた前記対話応答を生成する
前記(11)乃至(15)のいずれかに記載の情報処理装置。
(17)
前記イベントは、ユーザの発話を含み、
前記コンテキスト情報は、前記ユーザの状態に関する情報を含む
前記(11)乃至(16)のいずれかに記載の情報処理装置。
(18)
情報処理装置が、
対話応答のイベントが発生した場合に、前記対話応答を生成する際のシードとして利用される対話応答フレームからケイパビリティに応じて生成された前記対話応答を取得し、
コンテキストに関するコンテキスト情報を取得し、
取得した前記対話応答の中から、前記コンテキストに適合した前記対話応答を選択し、
選択した前記対話応答を出力する
情報処理方法。
10 対話応答設計機器, 11 対話応答変換学習器, 20,20-1乃至20-N エージェント機器, 30 サーバ, 40 ネットワーク, 100 制御部, 101 対話応答設計ツール, 102 対話応答変換関数群, 102A ルールベースDB, 102B 機械学習ベースDB, 103 ケイパビリティリスト, 104 対話応答DB, 150 汎用対話応答フレーム, 160 変換テンプレート, 200 制御部, 201 センサ部, 202 カメラ部, 203 マイク部, 204 記憶部, 205 通信部, 206 電源部, 207 インターフェース, 211 対話応答処理部, 221 ディスプレイ, 222 スピーカ, 223 振動素子, 224 ランプ, 250 展開済み具体対話応答DB, 1000 コンピュータ, 1001 CPU
Claims (18)
- 対話応答を出力する機器ごとのケイパビリティを取得し、
前記対話応答を生成する際のシードとして利用される対話応答フレームから、取得した前記ケイパビリティに応じた前記対話応答を生成し、
生成した前記対話応答を前記機器ごとに展開する
処理部を備える
情報処理装置。 - 前記ケイパビリティは、前記機器が有するインターフェースに関するインターフェース情報と、前記インターフェースの能力に関するケイパビリティ情報を含む
請求項1に記載の情報処理装置。 - 前記対話応答フレームは、汎用の対話応答の仕様に則して記述されたフレームである
請求項1に記載の情報処理装置。 - 前記処理部は、前記対話応答フレームを、前記ケイパビリティの組み合わせごとの変換用のテンプレートを含む変換テンプレートに適用して、前記対話応答を生成する
請求項3に記載の情報処理装置。 - 前記処理部は、前記ケイパビリティに応じた前記対話応答を、他のケイパビリティに応じた前記対話応答に変換する
請求項1に記載の情報処理装置。 - 前記処理部は、ルールベースによる変換アルゴリズム、又は機械学習ベースによる変換アルゴリズムを用いて、前記対話応答を変換する
請求項5に記載の情報処理装置。 - 前記処理部は、
コンテキストに関するコンテキスト情報に基づいて、前記ケイパビリティを選択し、
選択した前記ケイパビリティに応じた前記対話応答を生成する
請求項1に記載の情報処理装置。 - 前記処理部は、
アクセシビリティに対応した前記ケイパビリティを選択し、
選択した前記ケイパビリティに応じた前記対話応答を生成する
請求項1に記載の情報処理装置。 - 前記処理部は、前記対話応答に対して付加情報を含める
請求項1に記載の情報処理装置。 - 情報処理装置が、
対話応答を出力する機器ごとのケイパビリティを取得し、
前記対話応答を生成する際のシードとして利用される対話応答フレームから、取得した前記ケイパビリティに応じた前記対話応答を生成し、
生成した前記対話応答を前記機器ごとに展開する
情報処理方法。 - 対話応答のイベントが発生した場合に、前記対話応答を生成する際のシードとして利用される対話応答フレームからケイパビリティに応じて生成された前記対話応答を取得し、
コンテキストに関するコンテキスト情報を取得し、
取得した前記対話応答の中から、前記コンテキストに適合した前記対話応答を選択し、
選択した前記対話応答を出力する
処理部を備える
情報処理装置。 - 前記ケイパビリティは、インターフェースに関するインターフェース情報と、前記インターフェースの能力に関するケイパビリティ情報を含む
請求項11に記載の情報処理装置。 - 前記対話応答フレームは、汎用の対話応答の仕様に則して記述されたフレームである
請求項11に記載の情報処理装置。 - 前記対話応答は、前記対話応答フレームを、前記ケイパビリティの組み合わせごとの変換用のテンプレートを含む変換テンプレートに適用することで生成される
請求項13に記載の情報処理装置。 - 前記処理部は、取得した前記対話応答が1以上存在する場合、取得した前記対話応答の中から、前記コンテキストに最も合致した前記対話応答を選択する
請求項11に記載の情報処理装置。 - 前記処理部は、取得した前記対話応答が存在しない場合、あらかじめ用意されたコンテキストに応じた前記対話応答を生成する
請求項11に記載の情報処理装置。 - 前記イベントは、ユーザの発話を含み、
前記コンテキスト情報は、前記ユーザの状態に関する情報を含む
請求項11に記載の情報処理装置。 - 情報処理装置が、
対話応答のイベントが発生した場合に、前記対話応答を生成する際のシードとして利用される対話応答フレームからケイパビリティに応じて生成された前記対話応答を取得し、
コンテキストに関するコンテキスト情報を取得し、
取得した前記対話応答の中から、前記コンテキストに適合した前記対話応答を選択し、
選択した前記対話応答を出力する
情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/414,331 US12008992B2 (en) | 2019-01-23 | 2020-01-10 | Generating dialog responses from dialog response frame based on device capabilities |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019008895A JP2022047550A (ja) | 2019-01-23 | 2019-01-23 | 情報処理装置、及び情報処理方法 |
JP2019-008895 | 2019-01-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020153146A1 true WO2020153146A1 (ja) | 2020-07-30 |
Family
ID=71736198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/000581 WO2020153146A1 (ja) | 2019-01-23 | 2020-01-10 | 情報処理装置、及び情報処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US12008992B2 (ja) |
JP (1) | JP2022047550A (ja) |
WO (1) | WO2020153146A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013517566A (ja) * | 2010-01-18 | 2013-05-16 | アップル インコーポレイテッド | インテリジェント自動アシスタント |
JP2018506014A (ja) * | 2014-10-24 | 2018-03-01 | シェンク ロテック ゲゼルシャフト ミット ベシュレンクテル ハフツング | タイヤ膨張装置のための検査装置 |
JP2018055422A (ja) * | 2016-09-29 | 2018-04-05 | 株式会社東芝 | 情報処理システム、情報処理装置、情報処理方法、及びプログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5886694A (en) * | 1997-07-14 | 1999-03-23 | Microsoft Corporation | Method for automatically laying out controls in a dialog window |
US5926790A (en) * | 1997-09-05 | 1999-07-20 | Rockwell International | Pilot/controller/vehicle or platform correlation system |
US6738803B1 (en) * | 1999-09-03 | 2004-05-18 | Cisco Technology, Inc. | Proxy browser providing voice enabled web application audio control for telephony devices |
US20030130864A1 (en) * | 2002-01-09 | 2003-07-10 | Ho Edwin Kong-Sun | Facilitation of mobile direct response by service callback |
JP2005025602A (ja) | 2003-07-04 | 2005-01-27 | Matsushita Electric Ind Co Ltd | 文章・言語生成装置およびその選択方法 |
JP2005321730A (ja) * | 2004-05-11 | 2005-11-17 | Fujitsu Ltd | 対話システム、対話システム実行方法、及びコンピュータプログラム |
EP1615124A1 (en) * | 2004-07-07 | 2006-01-11 | Alcatel Alsthom Compagnie Generale D'electricite | A method for handling a multi-modal dialog |
JP2010160316A (ja) * | 2009-01-08 | 2010-07-22 | Alpine Electronics Inc | 情報処理装置及びテキスト読み上げ方法 |
US8996384B2 (en) * | 2009-10-30 | 2015-03-31 | Vocollect, Inc. | Transforming components of a web page to voice prompts |
US9389831B2 (en) * | 2014-08-06 | 2016-07-12 | Toyota Jidosha Kabushiki Kaisha | Sharing speech dialog capabilities of a vehicle |
US9690542B2 (en) | 2014-12-22 | 2017-06-27 | Microsoft Technology Licensing, Llc | Scaling digital personal assistant agents across devices |
US11900928B2 (en) * | 2017-12-23 | 2024-02-13 | Soundhound Ai Ip, Llc | System and method for adapted interactive experiences |
-
2019
- 2019-01-23 JP JP2019008895A patent/JP2022047550A/ja active Pending
-
2020
- 2020-01-10 WO PCT/JP2020/000581 patent/WO2020153146A1/ja active Application Filing
- 2020-01-10 US US17/414,331 patent/US12008992B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013517566A (ja) * | 2010-01-18 | 2013-05-16 | アップル インコーポレイテッド | インテリジェント自動アシスタント |
JP2018506014A (ja) * | 2014-10-24 | 2018-03-01 | シェンク ロテック ゲゼルシャフト ミット ベシュレンクテル ハフツング | タイヤ膨張装置のための検査装置 |
JP2018055422A (ja) * | 2016-09-29 | 2018-04-05 | 株式会社東芝 | 情報処理システム、情報処理装置、情報処理方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2022047550A (ja) | 2022-03-25 |
US20220051673A1 (en) | 2022-02-17 |
US12008992B2 (en) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102445382B1 (ko) | 음성 처리 방법 및 이를 지원하는 시스템 | |
CN112868060B (zh) | 用户、自动化助理和其它计算服务之间的多模态交互 | |
JP2018190413A (ja) | ユーザ発話の表現法を把握して機器の動作やコンテンツ提供範囲を調整し提供するユーザ命令処理方法およびシステム | |
JP2023015054A (ja) | 自動化アシスタントを呼び出すための動的および/またはコンテキスト固有のホットワード | |
WO2019107145A1 (ja) | 情報処理装置、及び情報処理方法 | |
WO2016011159A1 (en) | Apparatus and methods for providing a persistent companion device | |
CN113168227A (zh) | 执行电子装置的功能的方法以及使用该方法的电子装置 | |
KR20200059054A (ko) | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 | |
KR102369083B1 (ko) | 음성 데이터 처리 방법 및 이를 지원하는 전자 장치 | |
KR102629796B1 (ko) | 음성 인식의 향상을 지원하는 전자 장치 | |
KR102419374B1 (ko) | 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법 | |
Iqbal et al. | Towards adaptive user interfaces for mobile-phone in smart world | |
KR102369309B1 (ko) | 파셜 랜딩 후 사용자 입력에 따른 동작을 수행하는 전자 장치 | |
JP6973380B2 (ja) | 情報処理装置、および情報処理方法 | |
WO2016206646A1 (zh) | 使机器装置产生动作的方法及系统 | |
CN113678119A (zh) | 用于生成自然语言响应的电子装置及其方法 | |
KR102685417B1 (ko) | 사용자 입력을 처리하는 전자 장치 및 방법 | |
KR20190061824A (ko) | 전자장치 및 그 제어 방법 | |
WO2020153146A1 (ja) | 情報処理装置、及び情報処理方法 | |
US20230196943A1 (en) | Narrative text and vocal computer game user interface | |
KR20200077936A (ko) | 사용자 상태에 기초하여 반응을 제공하는 전자 장치 및 그의 동작 방법 | |
US11978449B2 (en) | Electronic device for processing user utterance and operation method therefor | |
US20230031966A1 (en) | Electronic device and method of providing connection switching for wireless audio device | |
US12148425B2 (en) | Electronic device for processing user utterance and control method thereof | |
US20220328043A1 (en) | Electronic device for processing user utterance and control method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20744805 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20744805 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |