WO2020136733A1 - 対話装置、対話方法及び対話プログラム - Google Patents
対話装置、対話方法及び対話プログラム Download PDFInfo
- Publication number
- WO2020136733A1 WO2020136733A1 PCT/JP2018/047677 JP2018047677W WO2020136733A1 WO 2020136733 A1 WO2020136733 A1 WO 2020136733A1 JP 2018047677 W JP2018047677 W JP 2018047677W WO 2020136733 A1 WO2020136733 A1 WO 2020136733A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- dialogue
- data
- unit
- utterance
- user
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 16
- 230000008569 process Effects 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims description 30
- 238000012217 deletion Methods 0.000 claims description 12
- 230000037430 deletion Effects 0.000 claims description 12
- 230000003993 interaction Effects 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/02—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/07—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
- H04L51/18—Commands or executable codes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/04—Real-time or near real-time messaging, e.g. instant messaging [IM]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/216—Handling conversation history, e.g. grouping of messages in sessions or threads
Definitions
- the present invention relates to a dialogue device, a dialogue method, and a dialogue program.
- the dialogue system includes a voice speaker, a communication robot, a chatbot, and the like. Further, a technique has been proposed in which a dialogue system selects a topic according to the interest of the user.
- a device that performs a dialogue based on interest data including an attribute of a topic and a degree of interest of a user for each attribute, and a device that updates the interest data according to the content of the dialogue with the user is known. Has been.
- JP 2004-343320 A JP, 2003-044088, A JP-A-2003-323388
- the ICT service includes so-called news sites and SNS (Social Networking Service).
- One aspect is to provide a dialogue device, a dialogue method, and a dialogue program that improve the response speed of the dialogue.
- the dialogue device has an utterance unit and an addition unit.
- the utterance section utters a user based on data selected from data candidates for generating an utterance to the user based on the context of the user's utterance.
- the adding unit adds the first data collected based on the keyword extracted from the dialogue between the user and the dialogue device, to the data candidates, asynchronously with the processing by the utterance unit.
- the response speed of the dialogue can be improved.
- FIG. 1 is a functional block diagram of the functional configuration of the dialog device according to the first embodiment.
- FIG. 2 is a diagram showing an example of dialogue blocks stored in the dialogue block storage unit.
- FIG. 3 is a diagram illustrating collection of contents.
- FIG. 4 is a diagram illustrating addition of a dialogue block.
- FIG. 5 is a diagram showing an example of the dialogue.
- FIG. 6 is a sequence diagram showing the flow of processing of the dialog device.
- FIG. 7 is a diagram illustrating a hardware configuration example.
- the dialogue device receives input of voice, text, or the like from the user.
- the dialog device generates an utterance according to the input, and outputs the generated utterance to the user by voice or text.
- the dialogue device has a dialogue with the user.
- the dialogue device acquires the data for generating the utterance from the storage area based on the user's response, and executes the utterance process that outputs the utterance generated based on the acquired data.
- the interactive device executes an additional process of collecting data for generating an utterance and adding the data to the above-mentioned storage area based on the user's response or the like.
- the interactive device can execute the interactive process and the additional process asynchronously. That is, the interactive device can execute additional processes in parallel while the interactive process is being executed.
- FIG. 1 is a functional block diagram of the functional configuration of the dialog device according to the first embodiment.
- the dialogue device 10 includes a speech unit 11, an addition unit 12, and a dialogue block storage unit 13. Further, the dialogue device 10 can be connected to the Internet via a communication interface such as a NIC (Network Interface Card).
- the utterance unit 11 and the addition unit 12 are realized by a processor or the like.
- the dialogue block storage unit 13 is realized by a hard disk, a memory, or the like.
- the dialogue block storage unit 13 stores the dialogue block, which is information in which the content of the utterance is defined in advance.
- the dialogue block stored in the dialogue block storage unit 13 may be generated based on the content collected from ICT (Information and Communication Technology) services such as websites, or may be the content itself. May be.
- the dialogue block stored in the dialogue block storage unit 13 is an example of data candidates for generating an utterance to the user.
- FIG. 2 is a diagram showing an example of dialogue blocks stored in the dialogue block DB.
- Each record in the table of FIG. 2 is a dialogue block.
- the dialogue block includes items such as “block ID”, “utterance content”, “collection destination”, “subsequent block”, and “deletion priority”. Note that the dialogue device 10 can select any of the dialogue blocks stored in the dialogue block storage unit 13 and output the utterance generated based on the selected dialogue block.
- Block ID is an ID for identifying a dialogue block.
- the “utterance content” is the generated utterance itself or information used for generating the utterance.
- “Collection destination” is information indicating the collection destination of the dialogue block. For example, if the interaction block is collected from a website, the collection destination may be the URL of the website.
- the subsequent block is the block ID of the dialogue block that is the generation source of the utterance that follows the utterance generated from the dialogue block.
- “Deletion priority” is the priority when the conversation block is deleted.
- the interactive block having a higher deletion priority is preferentially deleted.
- the dialogue device 10 can delete the dialogue blocks in descending order of priority until the data size becomes equal to or less than the certain value.
- the deletion priority is updated by the dialogue device 10 as appropriate.
- the utterance content of the conversation block having the block ID “B001” is “Men's Tennis US Open A Player Best 16 Advancement”, and the URL of the website “Tennis News” is set as the collection destination. There is. Further, the block subsequent to the dialogue block having the block ID “B001” is “B006”, and the deletion priority is “2”.
- the dialogue block may include information indicating the date and time when the dialogue block is generated, the condition for the dialogue block to be used for generating an utterance, and the like.
- the utterance unit 11 utters a user based on the data selected from the data candidates for generating the utterance to the user based on the context of the user's utterance.
- the utterance unit 11 includes an input unit 111, an interpretation unit 112, a dialogue context management unit 113, a selection unit 114, an execution unit 115, and an output unit 116.
- the input unit 111 receives an input of a user's utterance via the input device 20. Further, the utterance input to the input unit 111 includes the user's reaction to the utterance output to the user.
- the input device 20 is a device for the user to input information such as voice or text.
- the input device 20 is a microphone, a keyboard, a touch panel display, or the like.
- the input device 20 may include a sensor for acquiring information regarding the user.
- the input device 20 may include a camera, a thermometer, an acceleration sensor, and the like.
- the interpretation unit 112 interprets the utterance input to the input unit 111. For example, the interpretation unit 112 analyzes the utterance input as voice using a known voice recognition technique. Further, the interpretation unit 112 can perform morphological analysis on the text to extract keywords and interpret meanings.
- the interpretation unit 112 can evaluate the degree of user's interest in the topic. For example, the interpretation unit 112 evaluates the degree of interest based on whether the user's reaction is positive or negative.
- the interpreting unit 112 determines that the reaction is positive when the user's reaction includes words having the meaning of approval such as “yes” and “like”. In this case, the interpretation unit 112 evaluates that the degree of interest of the user in the current topic is high.
- the interpretation unit 112 determines that the reaction is negative. It is determined that it is something. In this case, the interpretation unit 112 evaluates that the degree of interest of the user in the current topic is small.
- the interpretation unit 112 may determine whether the user's reaction is positive or negative from the information acquired by the sensor included in the input device 20. For example, the interpretation unit 112 can determine whether or not the user has made a positive reaction based on the facial expression of the user captured by the camera and the voice color of the user collected by the microphone.
- the dialogue context management unit 113 holds the interpretation result of the interpretation unit 112 and provides the result to each unit.
- the dialogue context management unit 113 provides the addition unit 12 or the selection unit 114 with information for specifying the degree of interest in the current topic of the user and the genre of the current topic. To do.
- the dialogue context management unit 113 may acquire the content of the utterance output by the dialogue device 10 from the output unit 116, and may hold and provide the result together with the interpretation result.
- the selection unit 114 selects a dialogue block from the dialogue block storage unit 13. For example, when the subsequent block is designated for the selected interactive block in the interactive block storage unit 13, the selecting unit 114 selects the subsequent block. Further, the selection unit 114 may select a dialogue block that suits the user's interest based on the result of the interpretation by the interpretation unit 112 and the information provided by the dialogue context management unit 113.
- the selection unit 114 selects a dialogue block that matches a dialogue context or a user profile based on preset selection conditions.
- the dialogue block storage unit 13 prepares dialogue block candidates that match the user in the dialogue. Therefore, the dialogue block selected by the selection unit 114 is prepared for a specific purpose in accordance with the user during the dialogue, and the possibility that a completely meaningless utterance is output and the dialogue is broken is low.
- the specific purpose includes not only matching the context but also establishing a natural dialogue like human beings and adjusting the balance of topics. Further, according to the processing of the adding unit 12, the consumption amount of the storage capacity of the dialogue block storage unit 13 can be reduced.
- the execution unit 115 generates an utterance from the dialogue block selected by the selection unit 114.
- the utterance generated by the execution unit 115 is a sentence that the user can interpret. If the selected dialogue block includes a sentence for utterance, the execution unit 115 may use the sentence as it is as the utterance.
- “execute a dialogue block” means that the execution unit 115 generates an utterance from the dialogue block.
- the output unit 116 outputs the utterance generated by the execution unit 115 to the user via the output device 30. At this time, the output unit 116 may output the utterance as voice or text.
- the execution unit 115 and the output unit 116 are examples of the utterance unit.
- the output device 30 is a device for outputting a speech to the user.
- the output device 30 may output the utterance by voice or text.
- the output device 30 is a speaker, a display, or the like.
- the adding unit 12 adds the first data collected based on the keyword extracted from the dialogue between the user and the dialogue device to the data candidates asynchronously with the processing by the utterance unit 11.
- the asynchronous processing is realized by the utterance unit 11 and the addition unit 12 advancing the processing regardless of the progress status of the mutual processing. Further, the asynchronous processing may be realized by executing the processing of the utterance unit 11 and the processing of the addition unit 12 by different devices or processors. The asynchronous processing may be realized by executing the processing of the utterance unit 11 and the processing of the addition unit 12 on different threads of one processor.
- the addition unit 12 also includes an extraction unit 121, an application selection unit 122, an adjustment unit 123, a generation unit 124, and a candidate management unit 125.
- the extraction unit 121 also includes a trendy topic search unit 121a, an interest management unit 121b, an expansion unit 121c, and a cooperation unit 121d.
- the extraction unit 121 controls collection of the first data and the second data. For example, the extraction unit 121 extracts a topic for searching the content from the content of the dialogue or the like. The topic is expressed as a keyword. Specifically, the extraction unit 121 controls the application selection unit 122 so that the target content is collected. For example, the extraction unit 121 specifies a keyword as a content search condition for the application selection unit 122.
- the expansion unit 121c extracts a content that matches the context of the dialogue, that is, a keyword for searching the first data.
- the first data is the content of the generation source of the dialogue block for the purpose of matching the utterance with the context.
- the dialogue blocks stored in the dialogue block storage unit 13 include those for the purpose of establishing a natural dialogue between humans and adjusting the balance of topics. Be done.
- the content for generating a dialogue block for the purpose of establishing a natural dialogue between human beings, adjusting the balance of topics, and the like is the second data.
- the addition unit 12 sets the second data regarding a topic popular in a predetermined ICT service, a topic matching a preset predetermined preference, and a topic matching a user's interest acquired in advance as data candidates. Add more. At this time, the adding unit 12 adds the data so that the ratio of the number of the first data and the number of the second data becomes constant.
- the trendy topic search unit 121a, the interest management unit 121b, and the cooperation unit 121d pass the keyword for collecting the second data to the application selection unit 122.
- the trendy topic search unit 121a passes the keyword of the trend acquired from the news site or SNS to the application selection unit 122. Further, the interest management unit 121b passes to the application selection unit 122 a keyword related to a topic that is set in advance in the dialog device 10 and is changed every few days to every few weeks. Further, the coordinating unit 121d transfers the keywords regarding the user's preference, the user's schedule, the feed of the SNS used by the user, and the like to the application selecting unit 122.
- the application selecting unit 122 determines an application as a collection destination of content and collects content from the determined application.
- the application is an interface for browsing the content provided by the ICT service, and includes an application, a website, and the like.
- the application selection unit 122 searches for and collects content by sending a request to a website by specifying a keyword, executing a predetermined API (Application Programming Interface) for each application, and the like.
- the application selection unit 122 searches for content using the keyword passed from the extraction unit 121.
- the adjustment unit 123 controls the application selection unit 122 and adjusts the number of interaction blocks generated from the content collected based on the keywords passed from each unit of the extraction unit 121. The tendency of the utterance of the dialogue device 10 is determined by the adjustment by the adjustment unit 123.
- the dialogue block generated from the content collected based on the keyword of the extension unit 121c is set as the dialogue block of the context. Further, a dialogue block generated from the content collected based on the keyword of the trendy topic search unit 121a is referred to as a trendy dialogue block. Further, the dialogue block generated from the content collected based on the keyword of the interest management unit 121b is set as the interest dialogue block. Further, a dialogue block generated from the content collected based on the keyword of the collaboration unit 121d is referred to as a collaboration dialogue block.
- the adjusting unit 123 causes the ratios of the numbers of the context dialogue blocks, the trend dialogue blocks, the interest dialogue blocks, and the collaboration dialogue blocks to be 40% and 20%, respectively. Adjust to be 10% and 30%.
- the adjusting unit 123 causes the ratios of the numbers of the context dialogue blocks, the trend dialogue blocks, the interest dialogue blocks, and the collaboration dialogue blocks to be, for example, respectively. Adjust to 60%, 15%, 5% and 20%.
- the generation unit 124 generates an interaction block based on the content collected by the application selection unit 122. Further, the generation unit 124 may use the content itself as a dialogue block.
- the candidate management unit 125 stores the dialogue block generated by the generation unit 124 in the dialogue block storage unit 13. Further, the candidate management unit 125 includes at least the collection destination of the content of the generation source of the dialogue block of the context in the dialogue block. That is, the candidate management unit 125 stores information specifying the collection destination of the first data in a predetermined storage area. Note that the candidate management unit 125 may list the collection destinations of the content and store the list in a storage area different from the dialogue block storage unit 13.
- the candidate management unit 125 updates the deletion priority of the dialogue block storage unit 13. Further, the candidate management unit 125 deletes the dialogue block stored in the dialogue block storage unit 13. For example, the candidate management unit 125 checks the data size of the dialogue block storage unit 13 at regular time intervals, and if the data size exceeds a certain value, the priority is kept until the data size becomes less than the certain value. Delete the conversation blocks in descending order of.
- the candidate management unit 125 first sets the deletion priority of the newly added dialogue block to, for example, “0”. Then, the candidate management unit 125 increases the deletion priority of each interaction block by 1, for example, every time a certain period of time elapses. Furthermore, the candidate management unit 125 reduces the deletion priority of the dialogue block selected by the selection unit 114 by 1, for example, every time a certain period of time elapses. That is, the candidate management unit 125 deletes the data that has not been selected by the selection unit 114 even once, over the data that has been selected by the selection unit 114 one or more times.
- the candidate management unit 125 is an example of a deletion unit. Further, the candidate management unit 125 may not increase the deletion priority of the interactive block designated as the subsequent block.
- FIG. 3 is a diagram for explaining content collection.
- the application selecting unit 122 receives the keyword specified by the extracting unit 121 and the adjustment by the adjusting unit 123, and collects the content from the selected application. Then, the dialogue block generated based on the collected contents is stored in the dialogue block storage unit 13.
- the ratio of the number of the context dialogue blocks, the trend dialogue blocks, the cooperation dialogue blocks, and the interest dialogue blocks is based on the adjustment by the adjustment unit 123.
- the interaction blocks may include predetermined interaction blocks for the purpose of advertisement or adjustment, in addition to those generated based on the content collected from the application.
- FIG. 4 is a diagram illustrating addition of a dialogue block. As shown in FIG. 4, it is assumed that the user has shown a favorable reaction to the utterance based on the dialogue block B001. At this time, the dialogue device 10 extracts a keyword relating to men's tennis shown in the dialogue block B001 as a keyword that matches the context. Then, the dialogue device 10 collects the content related to the men's tennis based on the keyword. After that, the dialogue block B007 generated based on the content related to men's tennis is added to the dialogue block storage unit 13.
- the dialogue block storage unit 13 excludes the dialogue block B001 and There will be no dialogue blocks regarding tennis. Therefore, the dialogue device 10 speaks based on the dialogue block B006 specified in the block following the dialogue block B001. After that, when the dialogue block B007 is added, the dialogue device 10 can speak based on the dialogue block B007, prior to the dialogue block B006 specified in the block following the dialogue block B006.
- FIG. 5 is a diagram showing an example of the dialogue.
- FIG. 5 shows an example in which the dialogue is performed by text chat.
- the balloons coming out of the icon 20a represent the utterance of the user.
- the balloon that is emitted from the icon 30a represents the utterance of the dialogue device 10.
- the dialogue device 10 asynchronously executes the processing of the utterance unit 11 and the processing of the addition unit 12.
- the utterance unit 11 speaks at time 0 based on the contents of the men's tennis (step S111).
- the adding unit 12 starts the process of collecting the contents of the men's tennis and adding it to the candidates (start of step S121).
- the utterance unit 11 speaks based on the content for women's tennis designated subsequently (step S112). Then, at time t 2 , since the addition of the content for boys' tennis by the addition unit 12 has been completed (end of step S121), the dialogue device 10 speaks based on the content of added boys' tennis (step S113). ).
- step S112 by the utterance unit 11 and step S121 by the addition unit 12 are asynchronously and concurrently executed. Therefore, the dialogue device 10 can respond even from the time t 1 to the time t 2 , and can continue without stopping the dialogue.
- FIG. 6 is a sequence diagram showing the flow of processing of the dialog device.
- the utterance unit 11 and the addition unit 12 asynchronously perform processing in parallel.
- the utterance unit 11 receives an input of the user's response to the utterance (step S211).
- the utterance unit 11 interprets the user's response (step S212).
- the interpretation result is passed to the adding unit 12.
- the utterance unit 11 selects a dialogue block from the dialogue block storage unit 13 (step S213). Then, the utterance unit 11 executes the selected dialogue block and generates an utterance (step S214). Further, the utterance unit 11 outputs the generated utterance (step S215), returns to step S211, and repeats the processing.
- the adding unit 12 extracts a topic that matches the context based on the received interpretation result (step S221). Further, the adding unit 12 extracts topics of fashion, cooperation, and interest that are not directly related to the context (step S222). Then, the adding unit 12 collects the content based on the extracted topics (step S223). Here, the adding unit 12 generates a dialogue block based on the collected content, adds the dialogue block to the dialogue block storage unit 13 (step S224), returns to step S221, and repeats the processing.
- the addition unit 12 updates the dialogue block storage unit 13, and the utterance unit 11 reads the dialogue block storage unit 13. At this time, the utterance unit 11 does not wait for the timing at which the dialogue block storage unit 13 is updated by the adding unit 12. Further, regardless of whether or not the dialogue block storage unit 13 has been updated, the dialogue block storage unit 13 is referred to in step S213. Therefore, the dialogue block added by the adding unit 12 before the step S213 by the utterance unit 11 is started is available in Step S213.
- the dialogue device 10 speaks to the user based on the data selected from the data candidates for generating the utterance to the user based on the context of the utterance of the user. Further, the dialogue device 10 adds the first data collected based on the keyword extracted from the dialogue between the user and the dialogue device 10 to the data candidates asynchronously with the utterance processing. In this way, the dialog device 10 can execute the process of adding the dialog block asynchronously even while the process of speaking is being executed. Therefore, the dialogue device 10 can improve the response speed of the dialogue.
- the dialogue device 10 stores the second data regarding a topic popular in a predetermined ICT service, a topic matching a preset predetermined preference, and a topic matching a user's interest acquired in advance as the first data. Is further added to the data candidates so that the ratio of the number of data items to the number of second data items is constant. In this way, the dialogue device 10 can present not only utterances according to the context but also topics. Therefore, the dialogue device 10 can carry out more various dialogues.
- the dialogue device 10 stores information specifying the collection destination of the first data in a predetermined storage area. As a result, even if the content-based dialogue block is deleted, the dialogue apparatus 10 can collect the content again by referring to the collection destination and deal with the past topic.
- the dialogue device 10 deletes, out of the data candidates, data that has not been selected once by the process of utterance, in preference to data selected once or more by the process of utterance. This allows the interaction device 10 to leave interaction blocks that may be further selected after being selected.
- the dialogue device 10 adds the content of the ICT service collected via the Internet to the data candidates. As a result, the dialogue device 10 can collect the content for generating the dialogue block from the enormous contents.
- the processing of the utterance unit 11 and the addition unit 12 is assumed to be performed asynchronously, but the process of collecting the content corresponding to each unit of the extraction unit 121 and generating the dialogue block is further performed asynchronously. May be broken. In this case, even if the dialogue is not performed, the dialogue blocks of fashion, cooperation, and interest are added independently, so that the dialogue device 10 presents the topic based on the latest information when the dialogue starts. You can
- each component of each device shown in the drawings is functionally conceptual, and does not necessarily have to be physically configured as shown. That is, the specific form of distribution and integration of each device is not limited to that shown in the drawings. That is, all or a part of them can be functionally or physically distributed/integrated in arbitrary units according to various loads and usage conditions.
- each processing function performed by each device may be implemented entirely or in part by a CPU and a program that is analyzed and executed by the CPU, or may be realized as hardware by a wired logic.
- FIG. 7 is a diagram illustrating a hardware configuration example.
- the dialog device 10 includes a communication device 10a, an HDD (Hard Disk Drive) 10b, a memory 10c, and a processor 10d. Further, the respective parts shown in FIG. 7 are mutually connected by a bus or the like.
- HDD Hard Disk Drive
- the communication device 10a is a network interface card or the like, and communicates with other servers.
- the HDD 10b stores a program and a DB that operate the functions shown in FIG.
- the processor 10d operates a process that executes each function described in FIG. 2 and the like by reading a program that executes the same processing as each processing unit illustrated in FIG. 1 from the HDD 10b and the like and loading the program in the memory 10c. That is, this process performs the same function as each processing unit included in the dialogue device 10. Specifically, the processor 10d reads a program having the same functions as the utterance unit 11 and the addition unit 12 from the HDD 10b or the like. Then, the processor 10d executes a process that executes the same processing as the utterance unit 11, the addition unit 12, and the like.
- the dialogue device 10 operates as an information processing device that executes the classification method by reading and executing the program. Further, the dialogue device 10 can also realize the same function as that of the above-described embodiment by reading the program from the recording medium by the medium reading device and executing the read program.
- the programs referred to in the other embodiments are not limited to being executed by the dialogue device 10.
- the present invention can be similarly applied to the case where another computer or server executes the program, or when these computers cooperate to execute the program.
- This program can be distributed via networks such as the Internet. Further, this program is recorded on a computer-readable recording medium such as a hard disk, a flexible disk (FD), a CD-ROM, an MO (Magneto-Optical disk), a DVD (Digital Versatile Disc), etc. It can be executed by being read.
- a computer-readable recording medium such as a hard disk, a flexible disk (FD), a CD-ROM, an MO (Magneto-Optical disk), a DVD (Digital Versatile Disc), etc. It can be executed by being read.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
対話装置(10)は、ユーザの発話の文脈に基づいて、ユーザへの発話を生成するためのデータの候補から選択した対話ブロックを基に、ユーザに対して発話を行う。また、対話装置(10)は、発話する処理と非同期で、ユーザと対話装置(10)との間の対話から抽出したキーワードに基づいて収集された第1のデータを、データの候補に追加する。ここで、第1のデータは、ICTサービスから収集したコンテンツ、及びコンテンツを基に生成された対話ブロックである。
Description
本発明は、対話装置、対話方法及び対話プログラムに関する。
従来、ユーザと音声又はテキストを用いて対話を行う対話システムが知られている。対話システムには、音声スピーカ、コミュニケーションロボット、チャットボット等がある。また、対話システムが、ユーザの興味に合わせて話題を選択する技術が提案されている。
例えば、話題の属性及び属性ごとのユーザの興味の度合いを示す重要度を含む興味データを基に対話を行う装置であって、ユーザとの対話の内容に応じて興味データを更新する装置が知られている。
しかしながら、上記の技術では、対話の応答速度を向上させることが難しい場合がある。ここで、ユーザとの対話における話題を多様にするために、インターネットを介して提供されるICT(Information and Communication Technology)サービスから取得したコンテンツを提示することが考えられる。
インターネット上のICTサービスの数は膨大であるため、ユーザの発話を受けてからインターネット上で検索を行っていては、検索に時間がかかり、対話に短時間で応答することが難しくなる場合がある。なお、ICTサービスには、いわゆるニュースサイトやSNS(Social Networking Service)等が含まれる。
1つの側面では、対話の応答速度を向上させる対話装置、対話方法及び対話プログラムを提供することを目的とする。
1つの態様において、対話装置は、発話部及び追加部を有する。発話部は、ユーザの発話の文脈に基づいて、ユーザへの発話を生成するためのデータの候補から選択したデータを基に、ユーザに対して発話を行う。追加部は、発話部による処理と非同期で、ユーザと対話装置との間の対話から抽出したキーワードに基づいて収集された第1のデータを、データの候補に追加する。
1つの側面では、対話の応答速度を向上させることができる。
以下に、本発明にかかる対話装置、対話方法及び対話プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
実施例1に係る対話装置は、ユーザから音声又はテキスト等の入力を受け付ける。また、対話装置は、入力に応じて発話を生成し、生成した発話をユーザに対して音声又はテキスト等により出力する。これにより、対話装置は、ユーザとの対話を行う。
対話装置は、ユーザの応答に基づいて、発話を生成するためのデータを記憶領域から取得し、取得したデータを基に生成した発話を出力する発話プロセスを実行する。また、対話装置は、ユーザの応答等に基づき、発話を生成するためのデータを収集し、前述の記憶領域に追加する追加プロセスを実行する。ここで、対話装置は、対話プロセスと追加プロセスを非同期で実行することができる。つまり、対話装置は、対話プロセスの実行中であっても、並行して追加プロセスを実行することができる。
[機能構成]
図1は、実施例1にかかる対話装置の機能構成を示す機能ブロック図である。図1に示すように、対話装置10は、発話部11、追加部12及び対話ブロック記憶部13を有する。また、対話装置10は、NIC(Network Interface Card)等の通信インタフェースを介してインターネットに接続することができる。また、発話部11及び追加部12は、プロセッサ等により実現される。
図1は、実施例1にかかる対話装置の機能構成を示す機能ブロック図である。図1に示すように、対話装置10は、発話部11、追加部12及び対話ブロック記憶部13を有する。また、対話装置10は、NIC(Network Interface Card)等の通信インタフェースを介してインターネットに接続することができる。また、発話部11及び追加部12は、プロセッサ等により実現される。
対話ブロック記憶部13は、ハードディスクやメモリ等により実現される。対話ブロック記憶部13は、対話ブロック記憶部13は、発話の内容をあらかじめ定義した情報である対話ブロックを記憶する。ここで、対話ブロック記憶部13に記憶される対話ブロックは、Webサイト等のICT(Information and Communication Technology)サービスから収集したコンテンツを基に生成されたものであってもよいし、コンテンツそのものであってもよい。なお、対話ブロック記憶部13に記憶される対話ブロックは、ユーザへの発話を生成するためのデータの候補の一例である。
図2は、対話ブロックDBに記憶される対話ブロックの例を示す図である。図2のテーブルの各レコードが対話ブロックである。図2に示すように、対話ブロックは、「ブロックID」、「発話内容」、「収集先」、「後続のブロック」及び「削除優先度」等の項目を含む。なお、対話装置10は、対話ブロック記憶部13に記憶された対話ブロックのいずれかを選択し、選択した対話ブロックを基に生成した発話を出力することができる。
「ブロックID」は、対話ブロックを識別するためのIDである。「発話内容」は、生成される発話そのもの、又は発話の生成に用いられる情報である。
「収集先」は、当該対話ブロックの収集先を示す情報である。例えば、対話ブロックがWebサイトから収集されたものである場合、収集先は当該WebサイトのURLであってよい。
「後続のブロック」は、当該対話ブロックから生成された発話の後に続く発話の生成元になる対話ブロックのブロックIDである。
「削除優先度」は、対話ブロックが削除される際の優先度である。ここでは、削除優先度が大きい対話ブロックほど優先して削除される。例えば、対話装置10は、対話ブロック記憶部13のデータサイズが一定値を超えた場合、当該データサイズが一定値以下になるまで、優先度が大きい順に対話ブロックを削除していくことができる。また、削除優先度は、対話装置10によって適宜更新される。
図2の例では、ブロックIDが「B001」である対話ブロックの発話内容が「男子テニス全米オープン A選手ベスト16進出」であり、収集先として「テニスニュース」というWebサイトのURLが設定されている。また、ブロックIDが「B001」である対話ブロックの後続のブロックは「B006」であり、削除優先度は「2」である。
対話ブロックの項目は、図2に示すものに限られない。例えば、対話ブロックは、当該対話ブロックが生成された日時、当該対話ブロックが発話の生成に使用されるための条件等を示す情報を含んでいてもよい。
発話部11は、ユーザの発話の文脈に基づいて、ユーザへの発話を生成するためのデータの候補から選択したデータを基に、ユーザに対して発話を行う。発話部11は、入力部111、解釈部112、対話文脈管理部113、選択部114、実行部115及び出力部116を有する。
入力部111は、入力装置20を介して、ユーザの発話の入力を受け付ける。また、入力部111に入力される発話には、ユーザに対して出力された発話に対するユーザの反応が含まれる。
入力装置20は、ユーザが音声又はテキスト等の情報を入力するための装置である。例えば、入力装置20は、マイクロフォン、キーボード及びタッチパネルディスプレイ等である。また、入力装置20は、ユーザに関する情報を取得するためのセンサを備えていてもよい。例えば、入力装置20は、カメラ、温度計、加速度センサ等を備えていてもよい。
解釈部112は、入力部111に入力された発話の解釈を行う。例えば、解釈部112は、公知の音声認識技術を用いて音声として入力された発話を解析する。また、解釈部112は、テキストに対して形態素解析を行い、キーワードの抽出や意味の解釈を行うことができる。
さらに、解釈部112は、話題に対するユーザの興味の度合いを評価することができる。例えば、解釈部112は、ユーザの反応が肯定的なものであるか否定的なものであるかを基に、興味の度合いを評価する。
例えば、解釈部112は、ユーザの反応に「はい」及び「いいね」等の賛成の意味の単語が含まれている場合、当該反応がポジティブなものであると判定する。この場合、解釈部112は、ユーザの現在の話題に対する興味の度合いが大きいと評価する。
また、例えば、解釈部112は、ユーザの反応に「いいえ」及び「興味ない」等の反対の意味の単語が含まれている場合や、ユーザの反応が相槌だけである場合、当該反応がネガティブなものであると判定する。この場合、解釈部112は、ユーザの現在の話題に対する興味の度合いが小さいと評価する。
さらに、解釈部112は、入力装置20が備えるセンサによって取得された情報から、ユーザの反応がポジティブなものであるかネガティブなものであるかを判定してもよい。例えば、解釈部112は、カメラで撮影されたユーザの顔の表情や、マイクロフォンで収集されたユーザの声色を基に、ユーザがポジティブな反応をしたか否かを判定することができる。
対話文脈管理部113は、解釈部112による解釈の結果の保持及び当該結果の各部への提供を行う。例えば、対話文脈管理部113は、ユーザの現在の話題に対する興味の度合いの大きさ、及び現在の話題がどのジャンルのものであるかを特定するための情報を追加部12又は選択部114に提供する。また、対話文脈管理部113は、対話装置10が出力した発話の内容を出力部116から取得し、解釈の結果と併せて保持及び提供を行ってもよい。
選択部114は、対話ブロック記憶部13から対話ブロックを選択する。例えば、対話ブロック記憶部13において、選択済みの対話ブロックに対し後続のブロックが指定されている場合、選択部114は、当該後続のブロックを選択する。また、選択部114は、解釈部112による解釈の結果及び対話文脈管理部113から提供された情報を基に、ユーザの興味に合う対話ブロックを選択してもよい。
選択部114は、あらかじめ設定された選択条件を基に、対話の文脈やユーザのプロファイルに合った対話ブロックを選択する。一方で、後述する追加部12の処理により、対話ブロック記憶部13には、対話中のユーザに合わせた対話ブロックの候補が用意される。このため、選択部114が選択した対話ブロックは、対話中のユーザに合わせて特定の目的で用意されたものであり、全く意味のない発話が出力され対話が破たんする可能性は低くなる。
なお、特定の目的には、文脈に合わせることだけでなく、人間同士のような自然な対話を成立させること、話題のバランスを調整すること等が含まれる。また、追加部12の処理によれば、対話ブロック記憶部13の記憶容量の消費量を低減させることができる。
実行部115は、選択部114により選択された対話ブロックから発話を生成する。ここで、実行部115が生成する発話は、ユーザが解釈可能な文章である。なお、選択された対話ブロックに発話用の文章が含まれている場合、実行部115は、当該文章をそのまま発話としてもよい。以降の説明で、「対話ブロックを実行する」とは、実行部115が対話ブロックから発話を生成することを意味するものとする。
出力部116は、実行部115によって生成された発話を、出力装置30を介してユーザに対して出力する。このとき、出力部116は、発話を音声として出力してもよいし、テキストとして出力してもよい。なお、実行部115及び出力部116は、発話部の一例である。
出力装置30は、ユーザに対して発話を出力するための装置である。出力装置30は、発話を音声により出力してもよいし、テキストにより出力してもよい。例えば、出力装置30は、スピーカ及びディスプレイ等である。
追加部12は、発話部11による処理と非同期で、ユーザと対話装置との間の対話から抽出したキーワードに基づいて収集された第1のデータを、データの候補に追加する。非同期での処理は、発話部11と追加部12が、互いの処理の進行状況に関係なく処理を進めていくことによって実現される。また、非同期での処理は、発話部11の処理及び追加部12の処理を、互いに異なる装置又はプロセッサで実行することで実現されてもよい。また、非同期での処理は、発話部11の処理及び追加部12処理を、1つのプロセッサの互いに異なるスレッド上で実行することで実現されてもよい。
また、追加部12は、抽出部121、アプリ選択部122、調整部123、生成部124及び候補管理部125を有する。また、抽出部121は、流行話題検索部121a、興味管理部121b、拡張部121c及び協調部121dを有する。
抽出部121は、第1のデータ及び第2のデータを収集を制御する。例えば、抽出部121は、対話の内容等からコンテンツを検索するための話題を抽出する。なお、話題はキーワードとして表される。具体的には、抽出部121は、目的のコンテンツが収集されるようにアプリ選択部122を制御する。例えば、抽出部121は、アプリ選択部122に対し、キーワードをコンテンツの検索条件として指定する。
拡張部121cは、対話の文脈に合ったコンテンツ、すなわち第1のデータを検索するためのキーワードを抽出する。第1のデータは、発話を文脈に合わせることを目的とした対話ブロックの生成元のコンテンツである。一方で、前述の通り、対話ブロック記憶部13に記憶される対話ブロックには、人間同士のような自然な対話を成立させること、及び話題のバランスを調整すること等を目的とするものが含まれる。ここでは、人間同士のような自然な対話を成立させること、及び話題のバランスを調整すること等を目的とする対話ブロックを生成するためのコンテンツを、第2のデータとする。
追加部12は、所定のICTサービスにおいて流行している話題、あらかじめ設定された所定の嗜好に合致する話題、あらかじめ取得されたユーザの興味に合致する話題に関する第2のデータを、データの候補にさらに追加する。このとき、追加部12は、第1のデータの数と第2のデータの数の比が一定となるように、データの追加を行う。流行話題検索部121a、興味管理部121b、及び協調部121dは、第2のデータを収集するためのキーワードをアプリ選択部122に受け渡す。
流行話題検索部121aは、ニュースサイトやSNSから取得したトレンドのキーワードをアプリ選択部122に受け渡す。また、興味管理部121bは、対話装置10に対してあらかじめ設定され、数日から数週間おきに変更されるトピックに関するキーワードをアプリ選択部122に受け渡す。また、協調部121dは、ユーザの好み、ユーザのスケジュール及びユーザが利用しているSNSのフィード等に関するキーワードをアプリ選択部122に受け渡す。
アプリ選択部122は、コンテンツの収集先のアプリの決定、及び決定したアプリからのコンテンツの収集を行う。ここで、アプリとは、ICTサービスによって提供されるコンテンツを閲覧するためのインタフェースであって、アプリケーション及びWebサイト等を含むものとする。
アプリ選択部122は、キーワードを指定してWebサイトへのリクエストを送信することや、アプリごとの所定のAPI(Application Programming Interface)を実行すること等によりコンテンツを検索し収集する。アプリ選択部122は、抽出部121から受け渡されたキーワードを用いてコンテンツの検索を行う。
調整部123は、アプリ選択部122を制御し、抽出部121の各部から受け渡されるキーワードに基づいて収集されるコンテンツから生成される対話ブロックの数を調整する。調整部123による調整により、対話装置10の発話の傾向が決定される。
ここで、拡張部121cのキーワードに基づいて収集されたコンテンツから生成される対話ブロックを文脈の対話ブロックとする。また、流行話題検索部121aのキーワードに基づいて収集されたコンテンツから生成される対話ブロックを流行の対話ブロックとする。また、興味管理部121bのキーワードに基づいて収集されたコンテンツから生成される対話ブロックを興味の対話ブロックとする。また、協調部121dのキーワードに基づいて収集されたコンテンツから生成される対話ブロックを協調の対話ブロックとする。
例えば、対話装置10に話題提供を多めさせる場合、調整部123は、文脈の対話ブロック、流行の対話ブロック、興味の対話ブロック及び協調の対話ブロックの数の割合が、それぞれ例えば40%、20%、10%及び30%になるように調整する。
また、例えば、対話装置10に話題を継続する傾向を持たせる場合、調整部123は、文脈の対話ブロック、流行の対話ブロック、興味の対話ブロック及び協調の対話ブロックの数の割合が、それぞれ例えば60%、15%、5%及び20%になるように調整する。
生成部124は、アプリ選択部122によって収集されたコンテンツを基に対話ブロックを生成する。また、生成部124は、コンテンツそのものを対話ブロックとしてもよい。
候補管理部125は、生成部124によって生成された対話ブロックを、対話ブロック記憶部13に格納する。また、候補管理部125は、少なくとも文脈の対話ブロックの生成元のコンテンツの収集先を対話ブロックに含める。つまり、候補管理部125は、第1のデータの収集先を特定する情報を、所定の記憶領域に格納しておく。なお、候補管理部125は、コンテンツの収集先をリスト化し、対話ブロック記憶部13と異なる記憶領域に格納するようにしてもよい。
候補管理部125は、対話ブロック記憶部13の削除優先度を更新する。また、候補管理部125は、対話ブロック記憶部13に記憶されている対話ブロックの削除を行う。例えば、候補管理部125は、一定の時間周期ごとに対話ブロック記憶部13のデータサイズをチェックし、データサイズが一定値を超えている場合、当該データサイズが一定値以下になるまで、優先度が大きい順に対話ブロックを削除する。
候補管理部125は、まず、新たに追加された対話ブロックの削除優先度を、例えば「0」に設定する。そして、候補管理部125は、一定時間が経過するたびに、各対話ブロックの削除優先度を、例えば1ずつ増加させる。さらに、候補管理部125は、一定時間が経過するたびに、選択部114によって選択された対話ブロックの削除優先度を、例えば1だけ減少させる。つまり、候補管理部125は、選択部114によって1回も選択されていないデータを、選択部114によって1回以上選択されたデータより優先して削除する。なお、候補管理部125は、削除部の一例である。また、候補管理部125は、後続のブロックとして指定された対話ブロックの削除優先度を増加させないようにしてもよい。
図3は、コンテンツの収集について説明する図である。図3に示すように、アプリ選択部122は、抽出部121によるキーワードの指定、及び調整部123による調整を受けて、選択したアプリからコンテンツを収集する。そして、収集されたコンテンツを基に生成された対話ブロックは、対話ブロック記憶部13に格納される。
このとき、文脈の対話ブロック、流行の対話ブロック、協調の対話ブロック及び興味の対話ブロックの数の割合は、調整部123による調整に準じたものとなる。また、対話ブロックの中には、アプリから収集したコンテンツを基に生成されたものの他に、広告や調整を目的とする所定の対話ブロックが含まれていてもよい。
図4は、対話ブロックの追加について説明する図である。図4に示すように、対話ブロックB001に基づく発話に対し、ユーザが好反応を示したものとする。このとき、対話装置10は、文脈に合うキーワードとして、対話ブロックB001に示される男子テニスに関するキーワードを抽出する。そして、対話装置10は、キーワードを基に、男子テニスに関するコンテンツを収集する。その後、男子テニスに関するコンテンツを基に生成された対話ブロックB007が対話ブロック記憶部13に追加される。
ここで、ユーザが対話ブロックB001を基に生成された発話に対し好反応を示した後、対話ブロックB007が追加されるまでの間、対話ブロック記憶部13には、対話ブロックB001を除き、男子テニスに関する対話ブロックが存在しないことになる。このため、対話装置10は、対話ブロックB001の後続のブロックに指定されている対話ブロックB006に基づいて発話を行う。その後、対話ブロックB007が追加されると、対話装置10は、対話ブロックB006の後続のブロックに指定されている対話ブロックB006に優先して、対話ブロックB007を基に発話をすることができる。
図5は、対話の一例を示す図である。図5は、対話がテキストチャットによって行われる場合の例を示している。アイコン20aから出ている吹き出しは、ユーザの発話を表している。また、アイコン30aから出ている吹き出しは、対話装置10の発話を表している。また、対話装置10は、発話部11の処理、及び追加部12の処理を非同期で実行する。
まず、発話部11は、時刻0に、男子テニスのコンテンツを基に発話を行う(ステップS111)。時刻t1に、ユーザが発話に対し肯定的な反応を示したため、追加部12は、男子テニスのコンテンツを収集し候補に追加する処理を開始する(ステップS121開始)。
一方、時刻t2まで男子テニスのコンテンツが追加されないため、発話部11は、後続に指定されている女子テニスのコンテンツを基に発話を行う(ステップS112)。そして、時刻t2には、追加部12による男子テニスのコンテンツが追加完了しているため(ステップS121終了)、対話装置10は、追加された男子テニスのコンテンツを基に発話を行う(ステップS113)。
このように、図5の例では、発話部11によるステップS112、及び追加部12によるステップS121が、非同期で並行して実行される。このため、対話装置10は、時刻t1からt2までの間でも応答が可能であり、対話を止めることなく継続できる。
[処理の流れ]
図6を用いて、対話装置10の処理の流れを説明する。図6は、対話装置の処理の流れを示すシーケンス図である。図6に示すように、発話部11及び追加部12は、非同期で並行して処理を行う。まず、発話部11は、発話に対するユーザの応答の入力を受け付ける(ステップS211)。そして、発話部11は、ユーザの応答を解釈する(ステップS212)。このとき、解釈の結果は、追加部12に受け渡される。
図6を用いて、対話装置10の処理の流れを説明する。図6は、対話装置の処理の流れを示すシーケンス図である。図6に示すように、発話部11及び追加部12は、非同期で並行して処理を行う。まず、発話部11は、発話に対するユーザの応答の入力を受け付ける(ステップS211)。そして、発話部11は、ユーザの応答を解釈する(ステップS212)。このとき、解釈の結果は、追加部12に受け渡される。
次に、発話部11は、対話ブロック記憶部13から対話ブロックを選択する(ステップS213)。そして、発話部11は、選択した対話ブロックを実行し、発話を生成する(ステップS214)。さらに、発話部11は、生成した発話を出力し(ステップS215)、ステップS211に戻り、処理を繰り返す。
一方、追加部12は、受け取った解釈の結果を基に、文脈に合う話題を抽出する(ステップS221)。また、追加部12は、文脈とは直接関係のない流行、協調、興味の話題を抽出する(ステップS222)。そして、追加部12は、抽出した話題を基にコンテンツを収集する(ステップS223)。ここで、追加部12は、収集したコンテンツを基に対話ブロックを生成し、対話ブロック記憶部13に追加し(ステップS224)、ステップS221に戻り、処理を繰り返す。
図6に示すように、追加部12は、対話ブロック記憶部13の更新を行ない、発話部11は対話ブロック記憶部13の読み取りを行なう。この際に、発話部11は、追加部12により対話ブロック記憶部13が更新されるタイミングを待つことはしない。また、対話ブロック記憶部13が更新されたか否かにはかかわらず、ステップS213で対話ブロック記憶部13を参照する。したがって、発話部11によるステップS213が開始されるより前に、追加部12によって追加された対話ブロックは、ステップS213で利用可能である。
[効果]
上述したように、対話装置10は、ユーザの発話の文脈に基づいて、ユーザへの発話を生成するためのデータの候補から選択したデータを基に、ユーザに対して発話を行う。また、対話装置10は、発話する処理と非同期で、ユーザと対話装置10との間の対話から抽出したキーワードに基づいて収集された第1のデータを、データの候補に追加する。このように、対話装置10は、発話する処理の実行中であっても、非同期で対話ブロックを追加する処理を実行することができる。このため、対話装置10は、対話の応答速度を向上させることができる。
上述したように、対話装置10は、ユーザの発話の文脈に基づいて、ユーザへの発話を生成するためのデータの候補から選択したデータを基に、ユーザに対して発話を行う。また、対話装置10は、発話する処理と非同期で、ユーザと対話装置10との間の対話から抽出したキーワードに基づいて収集された第1のデータを、データの候補に追加する。このように、対話装置10は、発話する処理の実行中であっても、非同期で対話ブロックを追加する処理を実行することができる。このため、対話装置10は、対話の応答速度を向上させることができる。
また、対話装置10は、所定のICTサービスにおいて流行している話題、あらかじめ設定された所定の嗜好に合致する話題、あらかじめ取得されたユーザの興味に合致する話題に関する第2のデータを、第1のデータの数と第2のデータの数の比が一定となるように、データの候補にさらに追加する。このように、対話装置10は、文脈に沿った発話だけでなく、話題の提示等を行うことができる。このため、対話装置10は、より多様な対話を行うことができる。
対話装置10は、第1のデータの収集先を特定する情報を、所定の記憶領域に格納する。これにより、コンテンツに基づく対話ブロックが削除された場合であっても、対話装置10は、収集先を参照してコンテンツを再度収集し、過去の話題に対応することができる。
対話装置10は、データの候補のうち、発話する処理によって1回も選択されていないデータを、発話する処理によって1回以上選択されたデータより優先して削除する。これにより、対話装置10は、選択された後、さらに選択される可能性がある対話ブロックを残しておくことができる。
対話装置10は、インターネットを介して収集されたICTサービスのコンテンツをデータの候補に追加する。これにより、対話装置10は、膨大なコンテンツの中から対話ブロックを生成するためのコンテンツを収集することができる。
なお、上記の実施例では、発話部11と追加部12の処理が非同期で行われるものとしたが、抽出部121の各部に対応するコンテンツを収集し対話ブロックを生成する処理がさらに非同期で行われてもよい。この場合、対話が行われていない場合でも、流行、協調、興味の対話ブロックがそれぞれ独立して追加されるので、対話装置10は、対話が始まった際に最新の情報に基づいた話題の提示をすることができる。
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値等は、あくまで一例であり、任意に変更することができる。
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値等は、あくまで一例であり、任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア]
図7は、ハードウェア構成例を説明する図である。図7に示すように、対話装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図7に示した各部は、バス等で相互に接続される。
図7は、ハードウェア構成例を説明する図である。図7に示すように、対話装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図7に示した各部は、バス等で相互に接続される。
通信装置10aは、ネットワークインタフェースカード等であり、他のサーバとの通信を行う。HDD10bは、図1に示した機能を動作させるプログラムやDBを記憶する。
プロセッサ10dは、図1に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、図2等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、対話装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10dは、発話部11及び追加部12と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、発話部11及び追加部12等と同様の処理を実行するプロセスを実行する。
このように対話装置10は、プログラムを読み出して実行することで分類方法を実行する情報処理装置として動作する。また、対話装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、対話装置10によって実行されることに限定されるものではない。例えば、他のコンピュータ又はサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
このプログラムは、インターネット等のネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。
10 対話装置
11 発話部
12 追加部
13 対話ブロック記憶部
111 入力部
112 解釈部
113 対話文脈管理部
114 選択部
115 実行部
116 出力部
121 抽出部
121a 流行話題検索部
121b 興味管理部
121c 拡張部
121d 協調部
122 アプリ選択部
123 調整部
124 生成部
125 候補管理部
11 発話部
12 追加部
13 対話ブロック記憶部
111 入力部
112 解釈部
113 対話文脈管理部
114 選択部
115 実行部
116 出力部
121 抽出部
121a 流行話題検索部
121b 興味管理部
121c 拡張部
121d 協調部
122 アプリ選択部
123 調整部
124 生成部
125 候補管理部
Claims (7)
- ユーザの発話の文脈に基づいて、前記ユーザへの発話を生成するためのデータの候補から選択したデータを基に、前記ユーザに対して発話を行う発話部と、
前記発話部による処理と非同期で、前記ユーザと対話装置との間の対話から抽出したキーワードに基づいて収集された第1のデータを、前記データの候補に追加する追加部と、
を有することを特徴とする対話装置。 - 前記追加部は、所定のICTサービスにおいて流行している話題、あらかじめ設定された所定の嗜好に合致する話題、あらかじめ取得された前記ユーザの興味に合致する話題に関する第2のデータを、前記第1のデータの数と前記第2のデータの数の比が一定となるように、前記データの候補にさらに追加することを特徴とする請求項1に記載の対話装置。
- 前記追加部は、前記第1のデータの収集先を特定する情報を、所定の記憶領域に格納することを特徴とする請求項1に記載の対話装置。
- 前記データの候補のうち、前記発話部によって1回も選択されていないデータを、前記発話部によって1回以上選択されたデータより優先して削除する削除部をさらに有することを特徴とする請求項1に記載の対話装置。
- 前記追加部は、インターネットを介して収集されたICTサービスのコンテンツを前記データの候補に追加することを特徴とする請求項1に記載の対話装置。
- コンピュータが、
ユーザの発話の文脈に基づいて、前記ユーザへの発話を生成するためのデータの候補から選択したデータを基に、前記ユーザに対して発話し、
前記発話する処理と非同期で、前記ユーザと対話装置との間の対話から抽出したキーワードに基づいて収集された第1のデータを、前記データの候補に追加する
処理を実行することを特徴とする対話方法。 - コンピュータに、
ユーザの発話の文脈に基づいて、前記ユーザへの発話を生成するためのデータの候補から選択したデータを基に、前記ユーザに対して発話し、
前記発話する処理と非同期で、前記ユーザと対話装置との間の対話から抽出したキーワードに基づいて収集された第1のデータを、前記データの候補に追加する
処理を実行させることを特徴とする対話プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18944489.6A EP3905239A4 (en) | 2018-12-25 | 2018-12-25 | Interactive device, interactive method, and interactive program |
JP2020561999A JP7160116B2 (ja) | 2018-12-25 | 2018-12-25 | 対話装置、対話方法及び対話プログラム |
PCT/JP2018/047677 WO2020136733A1 (ja) | 2018-12-25 | 2018-12-25 | 対話装置、対話方法及び対話プログラム |
US17/344,341 US20210304732A1 (en) | 2018-12-25 | 2021-06-10 | Dialogue device, dialogue method, and computer-readable recording medium recording dialogue program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/047677 WO2020136733A1 (ja) | 2018-12-25 | 2018-12-25 | 対話装置、対話方法及び対話プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US17/344,341 Continuation US20210304732A1 (en) | 2018-12-25 | 2021-06-10 | Dialogue device, dialogue method, and computer-readable recording medium recording dialogue program |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020136733A1 true WO2020136733A1 (ja) | 2020-07-02 |
Family
ID=71126947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/047677 WO2020136733A1 (ja) | 2018-12-25 | 2018-12-25 | 対話装置、対話方法及び対話プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210304732A1 (ja) |
EP (1) | EP3905239A4 (ja) |
JP (1) | JP7160116B2 (ja) |
WO (1) | WO2020136733A1 (ja) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001034292A (ja) * | 1999-07-26 | 2001-02-09 | Denso Corp | 単語列認識装置 |
JP2003044088A (ja) | 2001-07-27 | 2003-02-14 | Sony Corp | プログラム、記録媒体、並びに音声対話装置および方法 |
JP2003323388A (ja) | 2002-05-01 | 2003-11-14 | Omron Corp | 情報提供方法および情報提供システム |
JP2004343320A (ja) | 2003-05-14 | 2004-12-02 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
JP2015052745A (ja) * | 2013-09-09 | 2015-03-19 | Necパーソナルコンピュータ株式会社 | 情報処理装置、制御方法、及びプログラム |
US20160163311A1 (en) * | 2014-12-09 | 2016-06-09 | Microsoft Technology Licensing, Llc | Communication system |
JP2017049427A (ja) * | 2015-09-01 | 2017-03-09 | カシオ計算機株式会社 | 対話制御装置、対話制御方法及びプログラム |
JP2018072560A (ja) * | 2016-10-28 | 2018-05-10 | 富士通株式会社 | 情報処理システム、情報処理装置及び情報処理方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8140335B2 (en) * | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
GB2459476A (en) * | 2008-04-23 | 2009-10-28 | British Telecomm | Classification of posts for prioritizing or grouping comments. |
US8285652B2 (en) * | 2008-05-08 | 2012-10-09 | Microsoft Corporation | Virtual robot integration with search |
US10997257B2 (en) * | 2015-02-06 | 2021-05-04 | Facebook, Inc. | Aggregating news events on online social networks |
JP6080137B1 (ja) * | 2015-08-14 | 2017-02-15 | Psソリューションズ株式会社 | 対話インターフェース |
US11388480B2 (en) | 2015-11-30 | 2022-07-12 | Sony Group Corporation | Information processing apparatus, information processing method, and program |
CN108476164B (zh) * | 2015-12-21 | 2021-10-08 | 谷歌有限责任公司 | 在消息传送应用中自动地提供机器人服务的方法 |
EP3211840B1 (en) * | 2016-02-25 | 2019-05-08 | Facebook Inc. | Techniques for messaging bot rich communication |
US20170289071A1 (en) * | 2016-04-04 | 2017-10-05 | Kik Interactive Inc. | System, apparatus and method for autonomous messaging integration |
US10268680B2 (en) * | 2016-12-30 | 2019-04-23 | Google Llc | Context-aware human-to-computer dialog |
US10498898B2 (en) * | 2017-12-13 | 2019-12-03 | Genesys Telecommunications Laboratories, Inc. | Systems and methods for chatbot generation |
US11455986B2 (en) * | 2018-02-15 | 2022-09-27 | DMAI, Inc. | System and method for conversational agent via adaptive caching of dialogue tree |
-
2018
- 2018-12-25 WO PCT/JP2018/047677 patent/WO2020136733A1/ja unknown
- 2018-12-25 JP JP2020561999A patent/JP7160116B2/ja active Active
- 2018-12-25 EP EP18944489.6A patent/EP3905239A4/en not_active Withdrawn
-
2021
- 2021-06-10 US US17/344,341 patent/US20210304732A1/en not_active Abandoned
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001034292A (ja) * | 1999-07-26 | 2001-02-09 | Denso Corp | 単語列認識装置 |
JP2003044088A (ja) | 2001-07-27 | 2003-02-14 | Sony Corp | プログラム、記録媒体、並びに音声対話装置および方法 |
JP2003323388A (ja) | 2002-05-01 | 2003-11-14 | Omron Corp | 情報提供方法および情報提供システム |
JP2004343320A (ja) | 2003-05-14 | 2004-12-02 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
JP2015052745A (ja) * | 2013-09-09 | 2015-03-19 | Necパーソナルコンピュータ株式会社 | 情報処理装置、制御方法、及びプログラム |
US20160163311A1 (en) * | 2014-12-09 | 2016-06-09 | Microsoft Technology Licensing, Llc | Communication system |
JP2017049427A (ja) * | 2015-09-01 | 2017-03-09 | カシオ計算機株式会社 | 対話制御装置、対話制御方法及びプログラム |
JP2018072560A (ja) * | 2016-10-28 | 2018-05-10 | 富士通株式会社 | 情報処理システム、情報処理装置及び情報処理方法 |
Non-Patent Citations (1)
Title |
---|
See also references of EP3905239A4 |
Also Published As
Publication number | Publication date |
---|---|
EP3905239A1 (en) | 2021-11-03 |
JPWO2020136733A1 (ja) | 2021-09-27 |
EP3905239A4 (en) | 2021-12-29 |
US20210304732A1 (en) | 2021-09-30 |
JP7160116B2 (ja) | 2022-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107918653B (zh) | 一种基于喜好反馈的智能播放方法和装置 | |
US8954849B2 (en) | Communication support method, system, and server device | |
Li et al. | A persona-based neural conversation model | |
CN109165302B (zh) | 多媒体文件推荐方法及装置 | |
CN115082602B (zh) | 生成数字人的方法、模型的训练方法、装置、设备和介质 | |
CN108153800B (zh) | 信息处理方法、信息处理装置以及记录介质 | |
JP5149737B2 (ja) | 自動会話システム、並びに会話シナリオ編集装置 | |
CN107040452B (zh) | 一种信息处理方法、装置和计算机可读存储介质 | |
Kaushik et al. | Automatic sentiment detection in naturalistic audio | |
US9684908B2 (en) | Automatically generated comparison polls | |
CN109313649B (zh) | 用于聊天机器人的基于语音的知识共享的方法和装置 | |
KR102340963B1 (ko) | Ai 기반의 영상 제작 방법 및 장치 | |
WO2017191696A1 (ja) | 情報処理システム、および情報処理方法 | |
WO2020052061A1 (zh) | 用于处理信息的方法和装置 | |
CN109710799B (zh) | 语音交互方法、介质、装置和计算设备 | |
WO2003085550A1 (en) | Conversation control system and conversation control method | |
US9786274B2 (en) | Analysis of professional-client interactions | |
Dumitrescu et al. | Crowd-sourced, automatic speech-corpora collection–Building the Romanian Anonymous Speech Corpus | |
JP2000207214A (ja) | 対話装置 | |
US11880866B2 (en) | Electronic apparatus for providing advertisement through voice assistant and control method thereof | |
JP7160116B2 (ja) | 対話装置、対話方法及び対話プログラム | |
JP2021039727A (ja) | テキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体 | |
CN109377988B (zh) | 用于智能音箱的交互方法、介质、装置和计算设备 | |
CN111490929A (zh) | 视频片段推送方法、装置、电子设备、存储介质 | |
JP6821542B2 (ja) | 複数種の対話を続けて実施可能な対話制御装置、プログラム及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18944489 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2020561999 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2018944489 Country of ref document: EP Effective date: 20210726 |