Nothing Special   »   [go: up one dir, main page]

WO2005076258A1 - ユーザ適応型装置およびその制御方法 - Google Patents

ユーザ適応型装置およびその制御方法 Download PDF

Info

Publication number
WO2005076258A1
WO2005076258A1 PCT/JP2005/001219 JP2005001219W WO2005076258A1 WO 2005076258 A1 WO2005076258 A1 WO 2005076258A1 JP 2005001219 W JP2005001219 W JP 2005001219W WO 2005076258 A1 WO2005076258 A1 WO 2005076258A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
response
unit
utterance
input
Prior art date
Application number
PCT/JP2005/001219
Other languages
English (en)
French (fr)
Inventor
Koji Morikawa
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to JP2005517657A priority Critical patent/JP3924583B2/ja
Publication of WO2005076258A1 publication Critical patent/WO2005076258A1/ja
Priority to US11/449,852 priority patent/US7684977B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • the present invention relates to an apparatus provided with an interface for providing information and services in response to an input from a user, and specifically relates to a home robot, an information terminal, Related to home appliances and the like.
  • An interface is required between a user and a device that is assumed to be used by the user.
  • One of the interfaces is an adaptive interface that adjusts the information and services provided based on the history of user-device interactions. This adaptive interface allows the equipment to adapt to the differences and personalities of each user, realizing the use, ease, and operation interface for each user.
  • Such an adaptive interface receives (1) a specific state or input of a user, (2) determines a state of a user, and (3) adjusts a service or an interface, thereby providing a user with a user.
  • the company has been aiming to provide use, ease and interface.
  • Patent Documents 1 and 2 disclose examples of conventional techniques related to the improvement of the adaptive interface.
  • Patent Document 1 proposes a method of adjusting a situation of user adaptation using a machine translation system as an example.
  • machine translation the dictionary and vocabulary of translation examples required for translation change depending on the genre of input documents (newspaper articles, manuals, etc.), and the genre is switched adaptively.
  • this genre switching is not always successful, so the user can see the genre switching candidates and improve the genre specification accuracy. It is something to try. This aims to address the possibility that adaptation may not be smooth in an adaptive interface.
  • Patent Document 2 taking the GUI interface of a WEB browser as an example, the arrangement of the interface and the like are determined based on a model called pseudo-emotion. That is, the elements of the interface are treated as generating pseudo-emotions, and the expression of the emotions is represented as the arrangement of the interfaces. It is said that the user interface can be adapted to the human senses by using the characteristics of human pseudo-emotional changes.
  • Non-Patent Documents 1 to 3 show remarkable findings regarding the interface between a human and a machine.
  • Non-Patent Document 1 when a user plays a game (siritori) with a human or a computer through a network, the same computer program is used when teaching that an opponent is a human and when teaching that the opponent is a computer. It has been reported that the user's interest duration and response were different even when dealing with the user.
  • Non-Patent Document 2 regarding the task of requesting a message by a user, in the case of a robot, a case of a computer screen, and a case of a human, in the case of an interview after the end of the task, The results indicate that the utterance changes.
  • Non-Patent Document 3 in human-to-human communication, nonverbal information such as speech surrounding language and nodding, blinking, facial expression, and gestures, which can only be communicated by verbal information, are communicated between the speaker and the listener. This causes a so-called phenomena of pulling in each other, which indicates that communication has been facilitated. It has also been pointed out that physiological retraction, such as heart rate variability and respiration, which are closely related to emotional variability, also play an important role.
  • Patent Document 1 JP-A-9-81350
  • Patent Document 2 JP-A-2000-330676 (particularly, paragraph 0062)
  • Patent Document 3 Japanese Patent Application Laid-Open No. 2003-150194 (especially paragraphs 0009—0011, 0072)
  • Non-Patent Document 1 Yoshinobu Yamamoto, Takao Matsui, Kazuo Kai, Satoshi Umeda, Yuichiro Anzai, “Interaction with a computing system A Study on Factors that Promote Awareness, " Knowledge Science, Vol. 1, No. 1, PP. 107-120, Kyoritsu Shuppan, May 1994
  • Non-Patent Document 2 Etsuko Harada, "The Effect of Agentity and Social Context in Voice Interface: Examination by Message Experiment", The 19th Annual Meeting of the Japanese Society for Cognitive Science, pp.14-15, June 2002
  • Non-Patent Document 3 Tomio Watanabe, "Through the Development of E-COSMIC, a Physical Communication System that Engages and Engages in Physical Communication", Baby Science, Vol.2, pp.4-12, 2002
  • the adaptive interface aims to realize a more user-friendly interface by adapting to the user, and many ideas have been devised for better adaptation to the user.
  • the device side was not always adaptable to the user.
  • the present invention considers that it is not always possible to adapt to a user who simply responds to the user as a device having an interface with the user.
  • the goal is to promote behavior and impression changes without awareness, and to realize smooth interaction between users and devices.
  • the present invention focuses on the following points.
  • the content of the information or service to be provided can be considered separately from the method of providing the information (method of responding to the user).
  • the behavior of the user and the impression that the user receives from the device may change.
  • Such a viewpoint is positively utilized in the present invention.
  • the utterance "Sorry” corresponds to the information content, and the utterance speed, intonation, and actions such as lowering the head of the agent displayed on the screen. And the like correspond to a method of responding to the user.
  • the utterance “Sorry” is given, depending on the information presentation method such as the utterance speed, intonation, movement of the body of the agent, etc., it is possible to make the user feel that he / she is not actually apologizing, or to make the user more displeased.
  • Non-Patent Document 1 suggests that, even when dealing with a device, humans may have a joyful or boring time depending on their own beliefs. are doing.
  • Non-Patent Document 2 also shows that the reaction of the user can change depending on the type of device the user faces. From these examples, it can be seen that (1) the user changes the form of reaction to the device based on his / her impression and belief in the device, and (2) the user's ease of use changes depending on the type of device facing the device.
  • the user's impression and reaction can be controlled by adjusting the interface part, which is the method of responding to the user. It is considered possible. This is the gist of the present invention. Adjusting the response method to the user can be said to be a secondary information transmission means.
  • index For example, it can be considered that how much internal processing of a device is completed, that is, the processing status of input signals is used as an index.
  • the processing of the device is not keeping up with the user, the information content is provided to the user, and the providing method is adjusted so that "I want you to speak more slowly” and "The device you are facing” Is not a device that can respond so quickly. " As a result, it is expected that the user will understand consciously or unconsciously that the processing of the device has not caught up, and will naturally change the response to the device.
  • the utterance speed is adjusted as an information providing method, and the internal processing of the device cannot keep up with the utterance from the user, etc.
  • the device adjusts the utterance speed to its own speed (slow speech)
  • the user will It is thought that the tempo of the utterance is reduced, for example, when the user feels that the device is coming, is coming, is not. This is intended to make the pull-in phenomenon in the communication between humans shown in Non-Patent Document 3 described above hold between the user and the device.
  • Patent Document 3 when the user's utterance is uttered too quickly and is erroneously recognized, the utterance from the system side is performed at an utterance speed slower than the user's utterance speed. It is disclosed that the user is naturally guided to speak at a slower and easier-to-recognize speech rate.
  • the method of responding to the user may be adjusted based on information such as the user's state and mood detected from the input signal, or may be adjusted according to the degree of interaction between the user and the device. You may. In addition, if the device learns knowledge about the user, the response method may be adjusted according to the learning degree.
  • the inventors of the present application have obtained a new finding from a test or the like described later that the user is not necessarily drawn into the guidance of the device even if the guidance is performed from the device side. From this new knowledge, we thought that it would be preferable to use a combination of natural guidance and forced guidance for the user. By combining the natural guidance and the forced guidance, it is possible to guide the user who can be guided naturally without being conscious of the user. can do. In other words, it is possible to reliably guide users while minimizing opportunities for giving discomfort.
  • the present invention provides a user-adaptive apparatus for communicating with a user, which obtains an input signal indicating at least one of a user operation, a state, and a request, and converts the obtained input signal.
  • a user which obtains an input signal indicating at least one of a user operation, a state, and a request, and converts the obtained input signal.
  • Process to detect information about the user determine the response to the user based on this detection result, and process the input signal, information about the user detected from the input signal, and knowledge about the user.
  • the method of responding to the user is adjusted, and the determined response content is output according to the adjusted response method. Then, the response of the user to the output is detected, and when the response of the user does not show a change expected by the adjusted response method, a response content for prompting the user to change is determined.
  • the content of the response to the user is determined from the information on the user detected by processing the input signal, and the method of responding to the user is determined by the processing state of the input signal and the detection from the input signal.
  • the adjustment is made based on at least one of the information on the user and the learning level of the knowledge about the user.
  • the response method can be adjusted so as to encourage a change in the user's behavior and impression, and the Natural guidance can be realized, and the ability to realize smooth interaction between the user and the device can be achieved.
  • the response content for prompting the user to change is determined, so that the user can be forcibly guided.
  • the conventional adaptive interface observes the situation of the user and attempts to improve the convenience by adapting to the user.
  • the present invention considers that it is not always possible to adapt to the user. Then, by adjusting the response method, the user's approach to the device and changes in the impression are promoted. As a result, even in a situation where the user is dissatisfied in the past, the user's dissatisfaction can be relieved by prompting a change in the user's impression, and it can serve as a smooth interface.
  • the device When the device utters in a voice dialogue, the utterance speed, vocabulary to be used, and intonation are adjusted as a response method to the user.
  • the operation speed of the actuator is adjusted as a response method to the user.
  • the device recommends useful information
  • the form of the agent displayed on the screen for example, the facial expression or clothes is adjusted as a response method to the user.
  • the present invention by adjusting the response method from the device side to the user, it is possible to promote a change in the user's impression and behavior of the device, thereby realizing smoother communication between the user and the device. can do. Furthermore, when the user's response does not change as expected by the adjusted response method, the user can be forcibly guided.
  • FIG. 1 is a conceptual diagram of the configuration of the present invention.
  • FIG. 2 is an image diagram of the first embodiment, in which a user removes a box from a home robot. It is a figure which shows the case where it has come.
  • FIG. 3 (a) is an example of a dialogue in the situation of FIG. 2, and FIG. 3 (b) is a graph showing the relationship between speech rate and recognition level.
  • FIG. 4 is a block diagram showing a configuration of an interface unit in the user adaptive device according to the first embodiment of the present invention.
  • FIG. 5 is a flowchart showing an operation of the configuration of FIG. 4.
  • FIG. 6 is a block diagram showing a configuration of an interface unit in a user adaptive device according to the second embodiment of the present invention.
  • FIG. 7 is a flowchart showing an operation of the configuration of FIG. 6.
  • FIG. 8 is an image diagram of the third embodiment, and shows a case where an information terminal recommends information to a user.
  • FIG. 9 is a block diagram showing a configuration of an interface unit in a user adaptive device according to the third embodiment of the present invention.
  • FIG. 10 shows the utterance speed of each subject when reading aloud a single utterance obtained in Experiment 1.
  • FIG. 11 is a schematic diagram showing classifications of changes in utterance speed.
  • FIG. 12 is a graph showing the results of Experiment 1.
  • FIG. 13 shows the dialog sequence in Experiment 2.
  • FIG. 14 is a graph showing the results of Experiment 2.
  • a user having an interface unit for interacting with a user is provided.
  • the interface unit obtains an input signal indicating at least one of a user's operation, state, and request, and processes an input signal obtained by the input unit.
  • An input processing unit that detects information about the user, a response content determination unit that determines the content of a response to the user based on a detection result by the input processing unit, a processing state in the input processing unit, and the input signal.
  • a response method adjustment unit that adjusts a response method to the user based on at least four of the detected information about the user and the learning degree of knowledge about the user; and determining the response content.
  • An output unit for outputting the response content determined by the unit according to the response method adjusted by the response method adjustment unit.
  • the processing unit is for detecting a response of the user to the output of the output unit, and when the response of the user does not show a change expected by the response method, the processing is performed by the response content determination unit.
  • an instruction is provided for instructing the user to determine a response content for prompting a change.
  • the user-adaptive device performs a voice dialogue with a user
  • the input unit acquires the utterance of the user as a voice signal
  • the input processing unit includes the voice signal.
  • the speech content of the user is detected, and the content of the utterance of the user is detected, and the response content determination unit determines the content of the utterance to the user based on the content of the utterance of the user detected by the input processing unit.
  • the response method adjustment unit provides the user adaptive apparatus according to the first aspect, which adjusts the utterance method based on the recognition state in the voice recognition processing.
  • the response method adjustment unit may be configured to use the user adaptive type apparatus according to the second aspect, which adjusts at least any four of utterance speed, vocabulary, and intonation as the utterance method. provide.
  • the response method adjustment section adjusts an utterance speed as the utterance method, and when the utterance speed of the user is lower than a target value, the utterance method.
  • a second aspect of the present invention provides a user-adaptive device in which the speed is set higher than the target value, or when the user's utterance speed is higher than the target value, the utterance speed is set lower than the target value.
  • the response method adjustment unit changes the utterance speed to approach the target value when the utterance speed of the user approaches the target value. To provide a user adaptive device.
  • the response method adjustment section adjusts the utterance speed as the utterance method, and determines a target value of the utterance speed of the user according to the user.
  • a user adaptive device according to a second aspect is provided.
  • the user adaptive device provides an operation to a user, and the input unit inputs a signal indicating a state and an operation of the user,
  • the input processing unit processes a signal input to the input unit to recognize the request of the user, and the response content determination unit responds to the request of the user recognized by the input processing unit.
  • the content of the operation to be provided to the user is determined, and the response method adjustment unit recognizes the degree of cooperation between the user and the user-adaptive device from the signal input to the input unit, and recognizes the recognized operation.
  • a user-adaptive device according to a first aspect, which adjusts a method of providing an operation according to a degree of cooperation.
  • the response method adjustment unit provides the user-adaptive apparatus according to the seventh aspect, which adjusts an operation speed as a method of providing an operation.
  • the user-adaptive device is for providing information to a user, and has a function of learning a preference model of the user.
  • a signal indicating a request from the user is obtained, the input processing unit determines a request from the user based on the signal obtained by the input unit, and the response content determination unit determines the user determined by the input processing unit.
  • the response method adjusting unit adjusts the information providing method based on the learning degree of the preference model by determining the information content to be provided to the user with reference to the preference model based on the request from the user.
  • the response method adjustment unit adjusts at least any one of a vocabulary and a form of an agent to be displayed on a screen as a method for providing information, by a user according to a ninth aspect.
  • An adaptive device is provided.
  • an interaction with a user is performed.
  • Control method for the user at least one of the user's operation, state and request
  • a first step of obtaining an input signal indicating one, a second step of processing the input signal obtained in the first step, and detecting information of the user, and a detection result in the second step A third step of determining the contents of a response to the user based on the information processing state of the input signal, information of the user detected from the input signal, and a degree of learning of knowledge about the user.
  • a fourth step of adjusting a response method to the user based on at least one of the following: a response method adjusted in the fourth step by adjusting the response content determined in the third step.
  • FIG. 1 is a diagram showing an outline of a configuration of an interface unit 10 in a user adaptive device according to the present invention.
  • An interface unit 10 as shown in FIG. 1 is incorporated as a part of a user-adaptive device that provides functions and information to a user 7 such as a robot and an information terminal. Then, information about the user 7 is provided to the other components of the apparatus, and output is received from the other components to respond to the user 7.
  • the input unit 1 inputs an action from the user 7.
  • the actions from the user 7 include utterance, gesture, facial expression, switch, keyboard, mouse operation, and physiological state of the user.
  • the input unit 1 is equipped with a sensor for taking in such information into the device or is communicable with the sensor, and acquires user information as an electric signal that can be processed inside the device. That is, the input unit 1 acquires an input signal indicating at least one of the operation, the state, and the request of the user 7.
  • the input processing unit 2 processes the input signal acquired by the input unit 1 and converts the input signal into an expression of a level such as the state, intention, and request of the user 7. That is, the information of the user 7 is detected.
  • the response content determination unit 3 determines the response of the device based on the user's state, intention, and request acquired by the input processing unit 2, and outputs the response to the output unit 6. That is, the content of the response to the user 7 is determined based on the detection result by the input processing unit 2.
  • the flow of a series of processes from the input unit 1 to the input processing unit 2, the response content determining unit 3, and the output unit 6 is the same as that of the conventional interface.
  • a response method adjustment unit 4 for adjusting the response method to the user 7 is provided.
  • the response method adjustment unit 4 adjusts a response method for the user 7.
  • the content of the information and services provided to User 7 and the method of providing them can be considered separately and can be controlled relatively independently.
  • One of the features of the present invention is that the response method is changed to promote adaptation on the user side. The user's adaptation at this time is made as a result of a natural reaction that is not intentional, and the response method is adjusted so as to promote the natural reaction.
  • the user 7 does not feel dissatisfied with the device, and can perform smooth communication with the device.
  • the adjustment of the response method is performed depending on how smoothly information and services are exchanged between the user and the apparatus.
  • the response method shall be adjusted according to the degree to which the user's request matches the possible operation of the device.
  • the processing may be performed according to the processing state of the input processing unit 2.
  • a response method such as an utterance speed is adjusted according to a processing state of a voice recognition process. From the processing state of the voice recognition processing, it is possible to detect whether the voice recognition is performed smoothly, whether the voice is strong, and whether the voice dialogue with the user is established.
  • the response method may be adjusted according to the information regarding the user 7 whose input signal strength has been detected.
  • the user's reaction to the output synthesized speech for example, adjustment may be made in accordance with the power to show signs that words are not communicated, and in the example of cooperative work with a mouth bot, , The degree of cooperation between the robot and the user (the movement is performed without any delay, and it must be adjusted according to the force of the movement).
  • the response method may be adjusted according to the learning degree.
  • the response method may be adjusted based on the information, or the determination may be made by combining a plurality of pieces of information.
  • a user speaks to a device by voice
  • the user has an expectation for some device operation. If the device is operating as expected, the user can use the device naturally, but if there are many operations that do not meet the expectations, the user may be distrusted with the device. Conceivable.
  • voice communication between the humanoid robot and the user is not always realized smoothly.
  • the humanoid robot is not as good as expected from the user due to its appearance and tone. You can't talk. This is in contrast to the phenomenon that a cat-type or dog-type robot seems to be able to communicate with the user, even though the vocabulary and utterance method are limited.
  • FIG. 2 is a diagram conceptually showing a case where the user has the home robot pick up the luggage.
  • 11 is a user
  • 12 is a home robot having an interface function according to the present embodiment
  • BX1, BX2, and BX3 are boxes.
  • the user 11 sends a request to the robot 12 by voice.
  • the user 11 requests the robot 12 to “take the white box BX1”.
  • the robot 12 responds to the user 11 by voice and performs an operation according to the request of the user 11. Further, the robot 12 adjusts its own utterance speed according to the recognition degree of the utterance of the user 11.
  • FIG. 3 (a) is an example of the dialogue in the situation of FIG.
  • FIG. 3A shows the utterance speed for each utterance content, and the utterance A of the user 11 indicates the degree of recognition indicating the goodness of the recognition processing of the robot 12.
  • FIG. 3 (b) is a graph showing the relationship between the speech rate and the degree of recognition.
  • the speech rate and the degree of recognition are given convenient numbers.
  • the user 11 requests the robot 12 to “bring a box”. Assume that the utterance speed at this time is 100 and the degree of recognition is 60. In general, in speech recognition processing, there is an appropriate utterance speed that can maximize the recognition performance. According to the relationship in FIG. 3 (b), the recognition performance is the best when the utterance speed is around 90. Here, the target value of the speech speed is set to 90. Since the current utterance speed of the user 12 is higher than this target value, the robot 12 takes measures to reduce the utterance speed of the user 12. Here, the utterance speed of the robot 12 that encourages the user 11 to adapt is reduced to 80, which is lower than the target value of 90.
  • the robot 12 since the robot 12 cannot specify which box BX1, BX2, or BX3 to bring, the robot 12 creates an utterance content for confirming which box the user wants to bring. As a result, the robot 12 asks the user 11 "Which box is it?"
  • the user 11 In response to the question of the robot 12, the user 11 answers "white box". At this time, the user 11 is affected by the utterance speed of the robot 12, and lowers the utterance speed without being particularly conscious of himself. As a result, the utterance speed changes to 90, and the recognition level is greatly improved to 80. That is, the utterance content is transmitted from the robot 12 to the user 11, and an action is performed so that the recognition process can be performed well.
  • the robot 12 accurately recognizes that the task requested by the user 11 is “take the white box BX1”, and performs the delivery of the white box BX1 while saying “Yes, please”. .
  • the utterance speed of the user 11 is an appropriate value that can perform the recognition process well, and it is no longer necessary to promote the adaptation. Therefore, the utterance speed of the user 11 is adjusted to the same 90 as the user 11.
  • the user 11 and the robot 12 can communicate with each other at an utterance speed appropriate for the recognition process. Further, when the speech speed of the user 11 changes and the degree of recognition decreases, the speech speed may be appropriately adjusted as described above. In this way, you To maintain the system so that the recognition process can always be performed properly by adjusting the utterance speed of the user and controlling the utterance speed of the user 12 to an appropriate range while performing the task requested by the user 11. Can be.
  • the utterance speed of the system is set to be lower than the target value, so that the utterance speed of the user can be made closer to the target value. can do.
  • the utterance speed of the system is set higher than this target value, so that the user's utterance speed can be made closer to the target value. can do. Also in this case, when the user's utterance speed approaches the target value, it is preferable to change the utterance speed on the system side from the initial setting so as to approach the target value. For example, after the user's utterance speed has been guided to near the target value, the system side does not need to derive the user's utterance speed. It is sufficient to reset the speech rate to the target value close to.
  • the target value of the user's utterance speed is not necessarily determined only by the convenience of the device side. As will be described later, since there is a great difference between individuals in the speech speed, it is preferable to determine the target value of the speech speed according to the user. In other words, by setting the target value to a value close to the user's utterance speed within a range in which the recognition performance can be appropriately obtained, the utterance speed can be guided so that the user does not feel uncomfortable with the utterance of the device. It becomes possible. For example, for a person having a very low utterance speed, the target value may be set near the lower limit of the utterance speed range in which recognition performance is not obtained at the optimum value on the device side. For a person with a high speech rate, the target value may be set near the upper limit of the range of the recognizable speech rate.
  • FIG. 4 is a block diagram showing a configuration of the interface unit 20 in the user adaptive device according to the present embodiment.
  • a recognition state detection unit 24 and a speech speed determination unit 25 correspond to a response method adjustment unit
  • a voice input unit 21, a voice recognition unit 22, a speech content determination unit 23, and a voice output unit 26 Correspond to an input unit, an input processing unit, a response content determination unit, and an output unit, respectively.
  • the voice input unit 21 is a unit that obtains a voice input from the user 11, and is usually configured by a microphone or the like for obtaining voice.
  • the voice uttered by the user 11 is converted by the voice input unit 21 into an electric signal that can be processed inside the interface unit 20.
  • the voice recognition unit 22 processes the voice electric signal acquired by the voice input unit 21 and converts it into the utterance content of the user 11. That is, a so-called voice recognition process is performed.
  • the utterance content determination unit 23 determines the utterance content for the user 11 based on the speech recognition result processed by the speech recognition unit 22.
  • the utterance content determination unit 23 stores various dialogue examples S, rules, and knowledge bases, such as "Thank you”, “Welcome to you,” "Where is one?" ing.
  • the recognition state detection unit 24 acquires a signal related to the recognition state from the voice recognition unit 22, and detects whether the recognition state is good or not. Since the utterance of the user 11 is not necessarily a speech recognition process, the processing result often includes an error. In most speech recognition processing, a signal indicating the reliability of the processing result is obtained. For example, in speech recognition using a neural network, an output value output together with each candidate for a recognition result can be treated as reliability for each recognition result. When this output value is obtained in the range of 0 to 1, for example, when the output value is 0.9, the recognition result is often not wrong, and conversely, when the output value is 0.5, the recognition result is Is low, but it is output for the time being. The recognition state detection unit 24 calculates the quality of the recognition state from such values obtained from the speech recognition unit 22.
  • the speech speed determination unit 25 determines the speech speed of the utterance to the user 11 based on the degree of the recognition state calculated by the recognition state detection unit 24. Specifically, for example, the value of the speech rate stored as an internal parameter in the interface unit 20 is adjusted. In speech recognition processing, it is generally known that there is an appropriate utterance speed at which the recognition rate is the highest, and that the recognition rate decreases as the speech rate increases.
  • the audio output unit 26 includes, for example, a circuit unit including a D / A conversion unit and a speaker, and outputs a synthesized voice indicating the utterance content determined by the utterance content determination unit 23 to the speech speed determination unit. Generate and output according to the speech rate determined by 25.
  • the voice is acquired by the voice input unit 21 and converted into an electric signal (S11). Then, the voice recognition unit 22 performs a voice recognition process using the electric signal generated in step S11 (S12).
  • the recognition state detection unit 24 determines whether or not the recognition state of the voice recognition is good based on the signal acquired from the voice recognition unit 22 (S13).
  • the determination is based on, for example, the degree of variation in data representing reliability, such as the output value in the neural network described above, relating to a plurality of recognition candidates identified in the speech recognition processing. And do it. In other words, if the reliability of only a specific candidate is high, the recognition state is determined to be good, while if the reliability of any candidate is low, the recognition state is determined to be bad. Also, when the recognition process itself is not successful and no recognition candidate is obtained, it is determined that the recognition state is bad.
  • step S13 when it is determined that the recognition state is good, the process proceeds to step S14.
  • step S14 it is assumed that the speech speed determination unit 25 does not control the speech speed for promoting adaptation. That is, for example, the utterance speed is set to the same value as the value set last time, or adjusted to the utterance speed of the user.
  • the reason for matching the user's utterance speed is that when communication is good, it is assumed that the utterance speed of both the user and the device is similar.
  • step S15 the recognition state detection unit 24 determines whether the utterance speed of the user 11 is too high. That is, the current utterance speed of the user 11 is calculated from the recognition state of the voice recognition unit 22, and the utterance speed is stored in the interface unit 20 in advance and compared with the optimum utterance speed. If the utterance speed of the user 11 is faster (Yes), the utterance speed determiner 25 sets the utterance speed lower than the current setting (S16). On the other hand, if the utterance speed of the user 11 is lower (No), the utterance speed determiner 25 sets the utterance speed higher than the current setting (S17). Adjustment of the speaking rate is, for example, to reduce or add a certain amount to the current speaking rate. Or by multiplying by a certain amount smaller or larger than one.
  • the utterance content determination unit 23 determines the user 11 recognized by the speech recognition unit 22. The content of the response to the utterance content is determined (S18). Then, the voice output unit 26 outputs the utterance content determined by the utterance content determination unit 23 to the user 11 at the utterance speed determined by the speech speed determination unit 25 (S19).
  • the utterance speed of the voice response of the apparatus slightly changes with respect to the utterance of the user 11.
  • User 11 also considers that during speech dialogue with the device, the user's own speech speed is naturally reduced or increased in accordance with the speech speed of the device due to the pull-in phenomenon seen during human-to-human communication. It is possible.
  • Such a change in the utterance speed is not consciously performed by the user 11 himself. That is, the utterance speed can be naturally controlled without the user 11 being conscious of anything, and this makes it possible to obtain an utterance input that is easy to recognize, thereby improving the recognition rate and improving the recognition rate.
  • the story can proceed smoothly.
  • the user is prompted to change the utterance speed without being conscious of it. Communication can be facilitated.
  • the user does not need to intentionally adapt to the device, and the mutual entrainment process that the user naturally goes with other people is realized. Therefore, the voice conversation between the user and the device can be performed smoothly without burdening the user.
  • the utterance speed is adjusted as the adjustment of the method of responding to the user, but the present invention is not limited to this.
  • the speech vocabulary may be adjusted. Adjusting the utterance vocabulary changes the impression when the user hears the utterance content That can be S. Examples of patterns that change the vocabulary include vocabulary spoken by children and vocabulary spoken by adults, vocabularies with different degrees of politeness (eg, polite and violent speaking), vocabulary with different intimacy (friendly speaking) And business-like style).
  • the intonation of the utterance may be adjusted. By adjusting the intonation, it is thought that the user's speech can be slowed down, calmed down, or calmed down even though the same language is used. Of course, all or some of the response methods such as speaking speed, vocabulary, intonation, etc. may be combined and adjusted.
  • the adjustment of the response method does not always change the user's response as expected on the system side. For example, as suggested by the results of experiments described later, in the dialogue between a person and the system, some users do not change their own speaking speed even if the system adjusts the speaking speed. Therefore, if the response of the user does not change as expected even if the response method is adjusted, it is preferable to output such that the request is directly transmitted to the user.
  • the input processing unit 2 detects the response of the user 7 to the output of the output unit 6, and the response of the user 7 has a change expected by the response method adjusted by the response method adjustment unit 4. If not, it is preferable to instruct the response content determination unit 3 to determine a response content for prompting the user 7 to make a change. For example, if there is no change in the utterance speed of the user 7 even when the utterance speed is changed, the input processing unit 2 causes the response content determination unit 3 to determine a response content that prompts a change in the utterance speed. Instruct. In response to this instruction, the response content determination unit 3 adds a message such as “Can you speak a little more slowly?” In addition to the utterance content for establishing a dialogue with the user 7. As a result, a request from the system, such as a request to lower the utterance speed, can be transmitted directly to the user 7.
  • each subject was asked to make a single utterance, such as reading a news manuscript, and the utterance speed at that time was compared with the standard utterance speed of that subject in the sense that it was not affected by the other party. did.
  • the utterance speed was calculated based on the number of characters uttered per second (the number of characters included in the uttered voice ⁇ the time required for utterance).
  • FIG. 10 shows the standard utterance speed of each subject. As can be seen from Fig. 10, in the group of subjects who participated in the experiment, the utterance speed was distributed up to 6.88 characters Z seconds-1.69 characters / second, and the difference between slow and fast utterers was 1 . More than 5 times, with considerable variation. The average speaking speed is 8.84 characters / sec.
  • the change in the utterance speed was classified into four types from the viewpoint of how it changed with respect to the other party.
  • the normal utterance speed of yourself (A) is Vda
  • the normal utterance speed of the other party (Mr. B) is Vdb
  • your utterance speed Vna at the time of dialogue example n is Vnb
  • the utterance speed is Vnb.
  • the axis of the speech rate is set in the vertical direction, and the positions of the speech rates Vda, Vna, and Vnb are shown on the axis.
  • D sign (Vnb—Vda) X sign (Vna-Vda) X abs (Vna-Vda)... (Equation 1) where sign is a function that extracts only plus and minus signs, and abs is an absolute value Function. When D> 0, it indicates that the utterance speed is synchronized with the partner, and when D> 0, it indicates that the utterance speed is not synchronized with the partner. Also, the magnitude of the value of D indicates how much the speech speed is synchronized.
  • FIG. 12 is a graph in which the values of the above discriminant D are plotted for the speech data obtained in Experiment 1.
  • the horizontal axis is the subject ID
  • the vertical axis is the value of the discriminant D
  • the unit is (character Z Seconds).
  • the discriminant D 2.
  • the automatic response system used in this experiment realizes dialogue with the subject by detecting the end of the utterance of the user and then playing back a voice file recorded in advance.
  • One woman sings a spoken dialogue as the audio played by the system
  • the recording of the voice during the operation was used.
  • a voice was created that expanded and contracted to 80% and 120% in the time direction while maintaining the pitch value.
  • the file with the utterance time converted to 80% has the highest utterance speed, with the order of 80% (fast utterance, High), 100% (as recorded, Middle), and 120% (slow utterance, Low). Audio files with three different utterance rates were prepared.
  • FIG. 13 is a table showing the order of conversation in Experiment 2.
  • the first number in each column indicates the number of the dialogue sentence, and the HML symbol indicates the utterance speed.
  • M indicates the speed of the recorded file, L indicates a slow utterance, and H indicates a fast utterance.
  • “2_H” indicates that the user has interacted with H (fast utterance) in the dialogue sentence 2.
  • the content of the dialogue was different for each subject every time.
  • FIG. 14 is a graph in which the values of the above discriminant D are plotted for the utterance data obtained in Experiment 2. From Fig. 14, it can be seen that the speech rate of the subject matches the system in most dialogues. Of the 18 dialogues obtained in the experiment, the discrimination formula D> 0 in 16 dialogues.
  • Robots used in homes and the like unlike information terminals and software agents, interface with users as well as exchange of languages and information, as well as exchange of physical objects and collaboration.
  • the device provides to the user
  • things such as operation of an object, gesture, work, and the like can be considered, and these are referred to as “operations” in the present embodiment.
  • operation there is a “method” aspect of how to provide the operation, in addition to the function provided by the operation itself, and the impression received by the user greatly changes depending on the “method”.
  • an example will be described in which the “method” for providing the “operation” is adjusted to prompt the user to adapt.
  • the utterance speed is adjusted according to the state of speech recognition inside the device.
  • the difference between the externally output “operation” and the user's operation or the degree of cooperation is greatly different from the first embodiment. Is different.
  • the robot In normal use, the robot must also operate at a speed similar to the user's operation speed for smooth cooperative operation. However, when the user is performing a very fast movement and the movement at the same speed exceeds the robot's ability due to the limitations of the mechanism etc., or when handing hot tea or a knife, for example, If it is not safe to operate at the same speed as the robot, the robot needs to encourage the user to adapt to the ideal operating speed required by the robot instead of operating at the same speed as the user. . Thereby, the user can take a cooperative action without always being dissatisfied with the operation speed of the robot.
  • various impressions can be additionally given to the user who can not only achieve smooth cooperative operation.
  • a fast motion can give an impression such as “moving and reliable”
  • a slow motion can give an impression such as “calm”.
  • the operation speed of the robot affects the action speed of the user.
  • a bow I pulling force S can occur between the robot and the user.
  • the robot passes the object in a slow motion, the user will receive the object in a slow motion, affected by the slow motion of the robot. .
  • FIG. 6 is a block diagram showing a configuration of an interface unit 30 in a robot as a user adaptive device according to the present embodiment.
  • a robot that has the ability to move autonomously and the ability to manipulate objects using arms, and that can move by itself and move objects.
  • the state input unit 31 and the operation input unit 33 correspond to an input unit
  • the operation shift recognition unit 35 and the operation speed determination unit 36 correspond to a response method adjustment unit.
  • the state recognition unit 32, the operation content determination unit 34, and the operation output unit 37 correspond to the input processing unit, the response content determination unit, and the output unit, respectively.
  • the state input unit 31 acquires the state of the user 11 facing the robot.
  • the state of the user 11 indicates a gesture instruction, a facial expression, an action, and the like to the robot.
  • the state input unit 31 includes, for example, a camera for photographing the user 11, a microphone for inputting speech, and the like, and a sensor for measuring the physiological state of the user 11 (3D position). Communication with sensors, perspiration sensors, electroencephalographs, etc.)
  • the state recognition unit 32 processes the signal acquired by the state input unit 31 to recognize and output the state of the user 11.
  • the output contents include the request contents of the user 11 for the robot and the physiological state of the user 11 such as being tired or having fun.
  • the operation content determination unit 34 receives the output of the state recognition unit 32 and determines what function or operation is actually output to the user 11.
  • the motion input unit 33 is provided to determine whether or not the robot and the user 11 are cooperatively operating well.
  • the motion input unit 33 is attached to a camera that reflects the motion of the user 11 or a robot hand. And a pressure sensor. Elements such as a camera constituting the operation input unit 33 may be shared with the state input unit 31.
  • the motion deviation recognition unit 35 receives the output of the motion input unit 33 and recognizes a deviation between the motion of the user 11 and the robot. This shift is used as an index indicating the degree of coordination of the motion between the user 11 and the robot.
  • the operation deviation recognition unit 35 for recognizing the deviation of the operation leading to such user dissatisfaction. Specifically, by measuring the operating speed of the user and the robot itself from the camera image, and measuring the time from when the robot completes the operation of passing the object to when the user receives the object, each other's operation is performed. The deviation can be recognized. The fact that the user has received the object can be detected by a pressure sensor or the like mounted on the robot hand.
  • the motion speed determination unit 36 uses the motion deviation between the user and the robot recognized by the motion deviation recognition unit 35 and the state of the user recognized from the state recognition unit 32 to determine how the robot performs.
  • the ideal cooperative movement speed is determined in consideration of the power at which the ideal speed is ideal and what kind of impression you want to give the impression of safety.
  • the operation output unit 37 outputs the operation or function determined by the operation content determination unit 34 to the user 37 according to the operation speed determined by the operation speed determination unit 36.
  • FIG. 7 is a flowchart showing the operation of the configuration of FIG. Comparing the flow of FIG. 7 with the flow of FIG. 5 in the first embodiment described above, there is a difference between the power of the interface with the user and the power of the operation and the voice (conversation). Is almost the same. 7.
  • FIG. 7 is different from FIG. That is, in the present embodiment, there is a step S23 for recognizing a difference between an ideal operation speed for the robot to determine the degree of cooperation with the robot and the current user operation speed. The robot's operating speed is adjusted accordingly.
  • smoother cooperative operation can be realized by adjusting the operation speed of the robot based on the deviation of the operation between the user and the robot. Can be.
  • an explanation will be given using an information terminal that recommends information to a user as an example.
  • an agent is displayed on the screen of the information terminal, and the agent presents information according to the user's preference by voice.
  • the output method such as the utterance speed is adjusted in accordance with the state of speech recognition.
  • the output method is adjusted in accordance with the shift in the cooperative work between the user and the robot. Output methods such as operating speed have been adjusted.
  • the user's preference model is learned on the information terminal side, and the method of providing information such as the form (look) and vocabulary of the agent is adjusted according to the learning degree. I do. That is, the point that the amount of knowledge about the user obtained from outside is reflected in the adjustment of the providing method is different from the first and second embodiments.
  • FIG. 8 is a diagram conceptually showing a case in which restaurant information is provided from an information terminal to a user by an agent.
  • 13 is an information terminal having an interface function according to the present embodiment
  • 14 is a display screen
  • 15A and 15B are agents.
  • (a) shows the state when the user's preference model has not been learned much
  • (b) shows the state after the user's preference model has been learned.
  • the information terminal 13 learns the user's preference model from the interaction with the user.
  • the preference model has not yet been sufficiently studied, so it is not clear what kind of recommendation information the user likes. For this reason, if the user has excessive expectations for the information recommendation function, the degree of discouragement increases when the user does not like the recommended one.
  • an agent 15A that looks like a toddler is displayed on the screen 14, and the vocabulary of the utterance is set to be "delicious chiyyo" and the toddler language.
  • the user may temporarily dislike the recommended information. Even when there is no information terminal, the impression of the information terminal 13 is not so bad. By doing so, it is thought that the user is less likely to get angry or uncomfortable.
  • FIG. 9 is a block diagram showing a configuration of an interface unit 40 in an information terminal as a user adaptive device according to the present embodiment.
  • a response method adjustment unit is configured by the processing state detection unit 43 and the response method determination unit 46.
  • the input unit 41, the input processing unit 42, the information content determining unit 45, and the output unit 47 correspond to the input unit, the input processing unit, the response content determining unit, and the output unit, respectively.
  • an input unit 41 receives a user's action through a keyboard touch panel, a microphone, or the like.
  • the input unit 41 converts the utterance or instruction of the user 11 into an electric signal.
  • the input unit 41 also acquires a user's response to information output from an output unit 47 described later.
  • the input processing unit 42 receives the signal from the input unit 41 and determines the content of the request from the user 11.
  • information on the reaction of the user 11 to the information output from the output unit 47 is also acquired.
  • the processing state detection unit 43 receives the output of the input processing unit 42 and updates the user 11's preference model stored in the storage unit 44. For example, the content of the request from the user, the content of the information provided to the user, and the reaction of the user at that time are stored together.
  • the past history may be simply stored, or may be stored in a categorized manner. That is, The preference model stored in the storage unit 44 gradually changes to a high-precision one by repeatedly interacting with the user 11.
  • the information content determination unit 45 determines the output content for the current user 11 request based on the request content of the user 11 determined by the input processing unit 42 and the preference model stored in the storage unit 44.
  • the response method determination unit 46 adjusts a method of providing information such as vocabulary / appearance of the agent according to the learning degree of the preference model stored in the storage unit 44. In other words, the method of providing information is adjusted depending on how accurately the preference model reflects the user's preference. Then, the output unit 47 outputs the information content determined by the information content determination unit 45 according to the providing method determined by the response method determination unit 46.
  • the adjustment of the information providing method indirectly indicates to the user 11 how much he or she knows the preference of the user 11.
  • the information is communicated by adjusting the providing method. For example, use a phrase such as "How about one?" Conversely, when the preferences of user 11 have been properly learned, this is also communicated by adjusting the provision method. For example, use a vocabulary such as "One is perfect.”
  • the recommended information is temporarily not suitable.
  • the user can naturally accept.
  • the user's preference is gradually learned while the user naturally repeats the interaction with the device without being particularly aware of the learning process on the information terminal side.
  • the present embodiment has been described by taking information recommendation as an example, the present invention can be applied to other cases, for example, even when a user acquires information through a dialogue from an information terminal.
  • a device having advanced functions such as the force S described as an individual case and a home robot, must also have a voice interaction capability, a cooperative work capability, an information recommendation capability, and the like. It can adjust the way of responding to users concurrently or in an integrated manner. By coordinating multiple response methods at the same time, users can communicate more naturally.
  • the device since communication between the device and the user becomes smoother, it is considered that it is effective to promote general adaptation of the device having a user interface, in particular, a home robot, an information terminal, Useful for home appliances.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Manipulator (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

 インタフェース部(10)において、入力部(1)はユーザ(7)の発話などの入力信号を取得し、入力処理部(2)がこの入力信号を処理して、ユーザ(7)に関する情報を検出する。この検出結果を基にして、応答内容決定部(3)はユーザ(7)への応答内容を決定する。一方、応答方法調整部(4)は入力信号の処理状態や入力信号から検出されたユーザ(7)に関する情報などに基づいて、発話速度などユーザ(7)への応答方法を調整する。

Description

明 細 書
ユーザ適応型装置およびその制御方法
技術分野
[0001] 本発明は、ユーザからの入力を受けて情報やサービスを提供するインタフェースを 備えた装置に関するものであり、具体的には、ユーザとの相互作用によって動作する 家庭用ロボット、情報端末、家電機器などに関する。
背景技術
[0002] ユーザに利用されることを前提とした機器とユーザとの間には、インタフェースが必 要である。インタフェースの 1つとして、ユーザと機器との相互作用の履歴から、提供 する情報やサービスを調整する適応型のインタフェースがある。この適応型インタフ エースによって、各ユーザの違いや個性に応じて機器が適応することができ、各ユー ザにとって使レ、やすレ、操作インタフェースが実現される。
[0003] 従来の適応型インタフェースとしては、例えば、ユーザの操作系列を観察して操作 を代行するものや、ユーザに擬似感情を提示して人間と親しみやすレ、インタフェース を構成するもの、生体情報に応じてインタフェースを適応させるもの、などがあった。 また広い意味では、情報推薦などの機能も、各ユーザに適した情報を提示するという 意味で適応型インタフェースであるとレ、える。
[0004] このような適応型インタフェースは、(1)ユーザの特定の状態や入力を受け、(2)ュ 一ザの状態を判定し、(3)サービスやインタフェースを調整する、ことによって、ユー ザにとって使レ、やすレ、インタフェースの提供を目指してきた。
[0005] この適応型インタフェースの改善に関する従来技術の例が、特許文献 1, 2に示さ れている。
[0006] 例えば特許文献 1では、機械翻訳システムを例にとって、ユーザ適応の状況を調整 する方法が提案されている。機械翻訳では、入力される文書のジャンル (新聞記事、 マニュアルなど)によって、翻訳に必要な翻訳例の辞書や語彙等が変化するので、そ のジャンルなどを適応的に切り替える。ところがこのジャンルの切換は必ずしもうまく いかないので、ジャンル切換の候補をユーザに見てもらレ、、ジャンル指定の精度を挙 げようとするものである。これは適応型インタフェースにおいて、適応がスムーズに行 かない可能性への対処を狙ったものである。
[0007] また特許文献 2では、 WEBブラウザの GUIインタフェースを例にとって、インタフエ ースの配置等を擬似感情というモデルを基にして決定している。すなわち、インタフヱ ースの要素を擬似的な感情を生起させるものとして扱レ、、その感情の表出をインタフ エースの配置として表す。人間の擬似感情変化の特性を利用しているために、人間 の感覚にあったユーザインタフェースの適応ができるとされている。
[0008] また、人間と機械とのインタフェースに関する注目すべき知見が、非特許文献 1一 3 に示されている。
[0009] 非特許文献 1では、ユーザがネットワークを通して人間またはコンピュータとゲーム( シリトリ)をする場合、対戦者が人間であると教示したときと、コンピュータであると教示 したときとにおいて、同じコンピュータプログラムを相手にした場合でも、ユーザの興 味の持続時間や反応が異なっていたことが報告されている。
[0010] また、非特許文献 2によると、ユーザが伝言を依頼するというタスクについて、ロボッ トに対するとき、コンピュータの画面に対するとき、そして人間に対するときの 3種類の 場合では、タスク終了後のインタビューで発話のしゃすさが変化したとレ、う結果が得 られている。
[0011] さらに、非特許文献 3では、人間同士のコミュニケーションにおいて、言葉によるバ 一バル情報だけでなぐ音声の周辺言語やうなずき、まばたき、表情、身振り'手振り などのノンバーバル情報が、話し手と聞き手とを相互に引き込むいわゆる引き込み現 象を起こしており、これによつてコミュニケーションが円滑になつていることが示されて いる。また、情動変動と密接に関連した心拍間隔変動や呼吸の引き込みなどの生理 的側面での引込も、重要な役割を果たしているとの指摘がある。
特許文献 1 :特開平 9 - 81350号公報
特許文献 2:特開 2000-330676号公報(特に、段落 0062)
特許文献 3 :特開 2003— 150194号公報(特に、段落 0009— 0011 , 0072) 非特許文献 1 :山本吉伸、松井孝雄、開一夫、梅田聡、安西祐一郎、「計算システム とのインタラクション一楽しさを促進する要因に関する一考察一」、 日本認知科学会「認 知科学」、第 1卷、第 1号、 PP. 107— 120、共立出版、 1994年 5月
非特許文献 2:原田悦子、「音声インタフェイスにおけるエイジェント性と社会的文脈 の効果:伝言実験による検討」、 日本認知科学会第 19回大会、 pp.14-15、 2002年 6 月
非特許文献 3 :渡辺富夫、「身体的コミュニケーションにおける引き込みと身体性一心 が通う身体的コミュニケーションシステム E-COSMICの開発を通して一」、ベビーサイ エンス、 Vol.2, pp.4- 12、 2002年
発明の開示
発明が解決しょうとする課題
[0012] 適応型インタフェースは、ユーザに適応することによって、より使いやすいインタフエ ースを実現しょうとするものであり、ユーザにより良く適応するための工夫も数多くなさ れてきた。し力、しながら、実世界のアプリケーションにおいては、機器の側が必ずしも 常に、ユーザに適応できるわけではなかった。
[0013] し力、しながら、従来の構成では、機器が想定した範囲内でユーザに適応できる工夫 はなされているものの、ユーザが想定範囲外の行動をした場合の対応については、 あまり検討されていなレ、。また、どのように適応すればよいかは分かる力 機器の能力 として実現不可能な場合もあり、このような場合の対応についても、十分な検討はさ れていない。提案されている技術としては、エラーメッセージに類する情報を提示す る程度のものにとどまつていた。
[0014] し力 ながら、ユーザに「知りません」「わかりません」「もう一度お願いします」などの メッセージを繰り返し提示するだけでは、ユーザは、装置に反応を期待して働きかけ ていた分、期待を裏切られた気分になり、落胆してしまう。この状態が繰り返されると、 ユーザは装置に対して働きかけても無駄と感じ、やがて装置自体を使わなくなつてし まフ。
[0015] 前記の問題に鑑み、本発明は、ユーザとのインタフェースを備えた機器として、ただ 単にユーザに応答するだけでなぐユーザに常に適応できるわけではないことを考慮 して、ユーザ自身にさほど意識させることなくその行動や印象の変化を促し、ユーザ と機器との円滑なインタラクションを実現することを課題とする。 課題を解決するための手段
[0016] 本発明では、次の点に着目している。すなわち、機器からユーザへの働きかけにお いては、提供する情報やサービスの内容そのものと、その提供方法(ユーザへの応 答方法)とは、分けて考えることができる。そして、ユーザへの応答方法を調整するこ とによって、ユーザの行動や、ユーザが機器から受ける印象が、変わり得る、と考えら れる。このような観点を、本発明では積極的に活用する。
[0017] 以下、順を追ってこれらの概念について説明する。
[0018] 装置がユーザに対して情報を提示する場合に、情報の内容が同じであっても、応 答方法が異なると、ユーザに与える印象やユーザの反応が変わってくることがある。
[0019] 例えば音声対話において、機器がユーザに謝る場合を考えると、「すみません」とい う発話が情報の内容に相当し、発話速度、イントネーション、画面に表示したエージ ェントの頭を下げる等の動作などがユーザへの応答方法に相当する。この場合、同じ 「すみません」という発話でも、その発話速度、イントネーション、エージェントの体の 動き等の情報提示方法によっては、実は謝っていないように感じさせたり、ユーザを さらに不機嫌にさせることもできる。
[0020] また、カーナビや情報端末におけるレストラン検索において、「何が食べたいですか 」という発話をユーザにする場合でも、発話速度やイントネーションの変化によって、 ユーザに様々な印象を与えることができる。例えば早口で尋ねることによって、「早く 答えて欲しい」というような言外の意味が付与されたり、イントネーションの付け方次第 では、「別に聞きたくないが聞いている」というような印象を与えることもあり得る。
[0021] また別の例として、家庭用ロボットがユーザにコップを渡すという場合を考えてみる。
「コップを取ってほしレ、」という要求に対するロボットの応答動作において、ユーザにコ ップを渡すときの手の動かし方や動作速度は、何通りもある。ユーザにコップを渡すと レ、うサービス機能自体は実現できても、その動作の仕方や速度などの応答方法によ つては、「いやいや動いている」「恐怖感を感じる」「無愛想に見える」などの印象を持 たれてしまう。
[0022] このように、同じ情報やサービスを提供する場合であっても、その応答方法の調整 次第では、ユーザに与える印象がガラリと変わることがある、と考えられる。 [0023] また、上述の非特許文献 1は、人間は、機器を相手にしているときでも、 自分の思い 込みによって、楽しく時間を過ごしたり、つまらなく時間を過ごしたりする可能 ¾がある ことを示唆している。また非特許文献 2も、ユーザが対面する機器の種類によって、ュ 一ザの反応が変化しうることを示している。これらの事例から、(1 )ユーザは機器に対 する印象や思い込みによって、機器に対する反応形態を変化させること、 (2)ユーザ は対面する機器の形態などによって使いやすさが変化することがわかる。
[0024] この知見を、インタフェース設計の観点から考え直すと、同じ情報やサービスを提供 する場合であっても、ユーザへの応答方法というインタフェースの部分を調整すること によって、ユーザの印象や反応は制御できると考えられる。これが、本発明の要点で ある。ユーザへの応答方法の調整は、いわば副次的な情報伝達手段といえる。
[0025] 次に、ユーザへの応答方法を何に基づいて調整するか、という点について考察す る。
[0026] 応答方法の調整の指標として用いる情報としては、何種類か考えられる。例えば、 機器の内部処理がどれぐらいできているか、すなわち入力信号の処理状態を指標と すること力と考えられる。
[0027] 例えば、機器の処理がユーザに追いついていないとき、情報内容をユーザに提供 するとともに、その提供方法を調整して、「もっとゆっくりと話して欲しい」「あなたが対 面している機器はそんなに早く対応できる機器ではない」という言外のメッセージをュ 一ザに伝えることができる。これにより、ユーザは、機器の処理が追いついていないこ とを意識的、無意識的を問わずに理解し、 自然に機器への対応を変更することが予 想される。例えば、情報提供方法として発話速度を調整するものとすると、機器の内 部処理がユーザからの発話等についていけないとき、機器が自らの発話速度を下げ る(ゆっくり話す)方向に調整すると、ユーザは、機器がっレ、てきてレ、なレ、ことを感じて 、発話のテンポを落としたりすると考えられる。これは、上述の非特許文献 3に示され た人間同士のコミュニケーションにおける引込現象を、ユーザと機器との間でも成り 立たせることを意図してレ、る。
[0028] なお、特許文献 3では、ユーザの発話が早口すぎて誤認識された場合に、システム 側からの発話をユーザの発話速度に比べてゆっくりした発話速度で行うことにより、も つとゆっくりした認識し易い発話速度で発話するように自然に誘導する旨が、開示さ れている。
[0029] また、入力信号から検出した、ユーザの状態や機嫌などの情報を基にして、ユーザ への応答方法を調整してもよいし、ユーザと機器のインタラクションの成立度合いに 応じて調整してもよい。また、ユーザに関する知識を学習する機器であれば、その学 習度合に応じて、応答方法を調整してもよい。
[0030] さらに、本願発明者らは、後述する実験等から、機器側から誘導を行ったとしても、 ユーザは必ずしも機器の誘導に引き込まれなレ、、という新たな知見を得た。そして、こ の新たな知見から、ユーザに対する自然誘導と、強制誘導とを、組み合わせて用い る構成が好ましい、と考えた。 自然誘導と強制誘導とを組み合わせることによって、自 然誘導できるユーザに対しては、ユーザに意識させないように誘導することができ、 一方、自然誘導できないユーザに対しては、強制誘導により確実に誘導することがで きる。つまり、不快感を与えるような機会を最小限に抑えつつ、かつ、確実に、ユーザ を誘導すること力 sできる。
[0031] すなわち、本発明は、ユーザとのやりとりを行うユーザ適応型装置において、ユー ザの動作、状態および要求のうち少なくともいずれか 1つを示す入力信号を取得し、 取得された入力信号を処理してユーザに関する情報を検出し、この検出結果を基に してユーザへの応答内容を決定し、かつ、入力信号の処理状態、入力信号から検出 されたユーザに関する情報、および、ユーザに関する知識の学習度合のうちの少なく ともいずれか 1つに基づいて、ユーザへの応答方法を調整し、決定された応答内容 を、調整された応答方法によって出力するものである。そして、出力に対するユーザ の反応を検出し、このユーザの反応に、調整した応答方法によって期待された変化 がみられないとき、ユーザに変化を促すための応答内容を決定するものである。
[0032] 本発明によると、入力信号を処理して検出されたユーザに関する情報から、ユーザ への応答内容が決定されるとともに、ユーザへの応答方法が、入力信号の処理状態 、入力信号から検出されたユーザに関する情報、および、ユーザに関する知識の学 習度合のうちの少なくともいずれ力、 1つに基づいて、調整される。これにより、ユーザ の行動や印象の変化を促すように、応答方法を調整することができるので、ユーザに 対する自然誘導が実現でき、ユーザと装置との間で円滑なインタラクションを実現す ること力 Sできる。さらに、ユーザの反応に、調整した応答方法によって期待された変化 がみられないときには、ユーザに変化を促すための応答内容が決定されるので、強 制的に、ユーザを誘導することができる。
[0033] 従来の適応型インタフェースは、ユーザの状況を観察して、そのユーザに合わせる ことによって利便性の向上を図っていたが、本発明では、必ずしも常にユーザに適応 できるわけではないことを考慮して、応答方法の調整によって、ユーザの機器に対す る働きかけ方や印象の変化を促進するようにしている。これにより、従来ではユーザ が不満に思うような状況であっても、ユーザの印象変化を促すことによってユーザの 不満をやわらげることができ、円滑なインタフェースとしての役割を果たすことができ る。
[0034] 次に、ユーザの行動変化や印象変容を促進するために調整する、ユーザへの応答 方法の例を示す。
[0035] 機器が音声対話において発話を行うとき、発話速度、用いる語彙、イントネーション をユーザへの応答方法として調整する。
[0036] ロボット等の機器が「つかむ」「持ち上げる」「渡す」とレ、つたァクチユエータの動作を 行うとき、ァクチユエータの動作速度をユーザへの応答方法として調整する。
[0037] 機器が有益な情報を推薦するとき、画面に表示したエージェントの形態、例えば顔 の表情や服装をユーザへの応答法として調整する。
発明の効果
[0038] 本発明によると、機器側からユーザへの応答方法を調整することによって、ユーザ の機器に対する印象や行動の変化を促すことができるので、ユーザと機器とのより円 滑なコミュニケーションを実現することができる。さらに、ユーザの反応に、調整した応 答方法によって期待された変化がみられないときには、強制的にユーザを誘導する こと力 Sできる。
図面の簡単な説明
[0039] [図 1]図 1は、本発明の構成の概念図である。
[図 2]図 2は、第 1の実施形態のイメージ図であり、ユーザが家庭用ロボットに箱をとつ てきてもらう場合を示す図である。
[図 3]図 3 (a)は図 2の状況における対話の例、図 3 (b)は発話速度と認識度との関係 を示すグラフである。
[図 4]図 4は、本発明の第 1の実施形態に係るユーザ適応型装置におけるインタフエ ース部の構成を示すブロック図である。
[図 5]図 5は、図 4の構成の動作を示すフローチャートである。
園 6]図 6は、本発明の第 2の実施形態に係るユーザ適応型装置におけるインタフエ ース部の構成を示すブロック図である。
[図 7]図 7は、図 6の構成の動作を示すフローチャートである。
園 8]図 8は、第 3の実施形態のイメージ図であり、情報端末からユーザに対して情報 推薦を行う場合を示す図である。
園 9]図 9は、本発明の第 3の実施形態に係るユーザ適応型装置におけるインタフエ ース部の構成を示すブロック図である。
[図 10]図 10は、実験 1において得られた、各被験者の文章読み上げの単独発話時 の発話速度である。
[図 11]図 11は、発話速度の変化の分類を示す模式図である。
園 12]図 12は、実験 1の結果を示すグラフである。
園 13]図 13は、実験 2における対話順序である。
[図 14]図 14は、実験 2の結果を示すグラフである。
符号の説明
1 入力部
2 入力処理部
3 応答内容決定部
4 応答方法調整部
6 出力部
7, 11 ユーザ
10 インタフェース咅
12 ロボッ卜 13 情報端末
14 画面
15A, 15B エージェ
20 インタフェースき
21 音声入力部
22 音声認識部
23 発話内容決定部
24 認識状態検出部
25 話速決定部
26 音声出力部
30 インタフェースき
31 状態入力部
32 状態認識部
33 動作入力部
34 動作内容決定部
35 動作ずれ認識部
36 動作速度決定部
37 動作出力部
40 インタフェース咅
41 入力部
42 入力処理部
43 処理状態検出部
44 記憶部
45 情報内容決定部
46 応答方法決定部
47 出力部
発明を実施するための最良の形態
本発明の第 1態様では、ユーザとのやりとりを行うインタフェース部を有するユーザ 適応型装置として、前記インタフェース部は、ユーザの動作、状態および要求のうち 少なくともいずれか 1つを示す入力信号を、取得する入力部と、前記入力部によって 取得された入力信号を処理し、前記ユーザに関する情報を検出する入力処理部と、 前記入力処理部による検出結果を基にして、前記ユーザへの応答内容を決定する 応答内容決定部と、前記入力処理部における処理状態、前記入力信号から検出さ れた前記ユーザに関する情報、および、前記ユーザに関する知識の学習度合のうち の少なくともいずれ力 4つに基づいて、前記ユーザへの応答方法を調整する応答方 法調整部と、前記応答内容決定部によって決定された応答内容を、前記応答方法 調整部によって調整された応答方法によって、出力する出力部とを備え、前記入力 処理部は、前記出力部の出力に対する前記ユーザの反応を検出するものであり、か つ、前記ユーザの反応に、前記応答方法によって期待された変化がみられないとき 、前記応答内容決定部に対し、前記ユーザに変化を促すための応答内容を決定す るよう、指示するものを提供する。
[0042] 本発明の第 2態様では、当該ユーザ適応型装置はユーザと音声対話を行うもので あり、前記入力部は前記ユーザの発話を音声信号として取得し、前記入力処理部は 前記音声信号に対して音声認識処理を行い、前記ユーザの発話内容を検出し、前 記応答内容決定部は前記入力処理部によって検出された前記ユーザの発話内容を 基にして、前記ユーザへの発話内容を決定し、前記応答方法調整部は前記音声認 識処理における認識状態を基にして発話方法を調整する第 1態様のユーザ適応型 装置を提供する。
[0043] 本発明の第 3態様では、前記応答方法調整部は、前記発話方法として、発話速度 、語彙およびイントネーションのうち少なくともいずれ力 4つを調整する第 2態様のュ 一ザ適応型装置を提供する。
[0044] 本発明の第 4態様では、前記応答方法調整部は、前記発話方法として、発話速度 を調整するものであり、かつ、前記ユーザの発話速度が目標値よりも低いときは、発 話速度を前記目標値よりも高く設定し、または、前記ユーザの発話速度が目標値より も高いときは、発話速度を前記目標値よりも低く設定する第 2態様のユーザ適応型装 置を提供する。 [0045] 本発明の第 5態様では、前記応答方法調整部は、前記ユーザの発話速度が前記 目標値に近づレ、たとき、発話速度を前記目標値に近づくように変更する第 4態様の ユーザ適応型装置を提供する。
[0046] 本発明の第 6態様では、前記応答方法調整部は、前記発話方法として、発話速度 を調整するものであり、かつ、ユーザの発話速度の目標値を、ユーザに応じて決定す る第 2態様のユーザ適応型装置を提供する。
[0047] 本発明の第 7態様では、当該ユーザ適応型装置はユーザに対して動作を提供する ものであり、前記入力部は前記ユーザの状態および動作を示す信号を入力するもの であり、前記入力処理部は前記入力部に入力された信号を処理して前記ユーザの 要求を認識するものであり、前記応答内容決定部は前記入力処理部によって認識さ れた前記ユーザの要求に応じて前記ユーザに提供する動作内容を決定し、前記応 答方法調整部は前記入力部に入力された信号から前記ユーザと当該ユーザ適応型 装置との間の動作の協調度合を認識し、認識した動作の協調度合に応じて動作の 提供方法を調整する第 1態様のユーザ適応型装置を提供する。
[0048] 本発明の第 8態様では、前記応答方法調整部は、動作の提供方法として動作速度 を調整する第 7態様のユーザ適応型装置を提供する。
[0049] 本発明の第 9態様では、当該ユーザ適応型装置は、ユーザに情報提供を行うもの であり、かつ、前記ユーザの嗜好モデルを学習する機能を有しており、前記入力部は 、ユーザからの要求を示す信号を取得し、前記入力処理部は、前記入力部によって 取得された信号からユーザからの要求を判断し、前記応答内容決定部は、前記入力 処理部によって判断されたユーザからの要求を基にして前記嗜好モデルを参照して 前記ユーザに提供する情報内容を決定し、前記応答方法調整部は、前記嗜好モデ ルの学習度合を基にして情報の提供方法を調整する第 1態様のユーザ適応型装置 を提供する。
[0050] 本発明の第 10態様では、前記応答方法調整部は、情報の提供方法として、語彙、 および、画面に表示するエージェントの形態のうち少なくともいずれ力 4つを調整する 第 9態様のユーザ適応型装置を提供する。
[0051] 本発明の第 11態様では、ユーザ適応型装置において、ユーザとのやりとりを行うた めの制御方法として、前記ユーザの動作、状態および要求のうち少なくともいずれか
1つを示す入力信号を取得する第 1のステップと、前記第 1のステップにおいて取得 した入力信号を処理し、前記ユーザの情報を検出する第 2のステップと、前記第 2の ステップにおける検出結果を基にして、前記ユーザへの応答内容を決定する第 3の ステップと、前記入力信号の処理状態、前記入力信号から検出された前記ユーザの 情報、および、前記ユーザに関する知識の学習度合のうちの少なくともいずれ力、 1つ に基づいて、前記ユーザへの応答方法を調整する第 4のステップと、前記第 3のステ ップにおいて決定した応答内容を、前記第 4のステップにおいて調整した応答方法 によって出力する第 5のステップと、前記第 5のステップにおける出力に対する前記ュ 一ザの反応を検出する第 6のステップと、前記第 6のステップにおレ、て検出した前記 ユーザの反応に、前記第 4のステップにおいて調整した応答方法によって期待され た変化がみられないとき、前記ユーザに変化を促すための応答内容を決定する第 7 のステップとを備えたものを提供する。
[0052] まず、本発明の主たる概念を、図 1の構成図を用いて説明する。図 1は本発明に係 るユーザ適応型装置におけるインタフェース部 10の構成の概要を示す図である。図 1に示すようなインタフェース部 10は、ロボットや情報端末などユーザ 7に対して機能 や情報を提供するユーザ適応型装置の一部として組み込まれる。そして、装置の他 の構成部分に対してユーザ 7に関する情報を提供し、また、他の構成部分からの出 力を受けて、ユーザ 7に応答する。
[0053] 入力部 1はユーザ 7からの働きかけを入力する。ユーザ 7からの働きかけとしては、 発話、仕草、表情、スィッチやキーボード、マウスの操作、ユーザの生理的状態など が考えられる。入力部 1は、これらの情報を機器に取り込むためのセンサが搭載され ているか、または当該センサと通信可能になっており、ユーザの情報を、機器内部で 処理可能な電気信号として取得する。すなわち、入力部 1は、ユーザ 7の動作、状態 および要求のうち少なくとも 1つを示す入力信号を取得する。
[0054] 入力処理部 2は、入力部 1によって取得された入力信号を処理して、ユーザ 7の状 態や意図や要求といったレベルの表現に変換する。すなわち、ユーザ 7の情報を検 出する。 [0055] 応答内容決定部 3は、入力処理部 2によって取得されたユーザの状態や意図や要 求から、機器の反応を決定して出力部 6に出力する。すなわち、入力処理部 2による 検出結果を基にして、ユーザ 7への応答内容を決定する。
[0056] 入力部 1から、入力処理部 2、応答内容決定部 3および出力部 6までの一連の処理 の流れは、従来のインタフェースと同様のものである。これに対して本発明では、ユー ザ 7への応答方法を調整する応答方法調整部 4が、設けられてレ、る。
[0057] 応答方法調整部 4は、ユーザ 7への応答方法を調整する。すでに述べたように、ュ 一ザ 7に提供する情報やサービスの内容そのものと、その提供方法とは分けて考える ことができ、比較的独立に制御可能である。本発明では、応答方法を変化させて、ュ 一ザ側の適応を促すのが特徴の 1つである。このときのユーザの適応は、意図的なも のではなぐ 自然な反応の結果としてなされるものであり、その自然な反応を促すよう に応答方法を調整する。これにより、ユーザ 7は、装置に対して不満を感じることがな くなり、円滑なコミュニケーションを装置と行うことができる。
[0058] ここで、応答方法の調整は、ユーザと装置との情報やサービスのやり取りが、どの程 度円滑に行われているかに応じて、行うものとする。あるいは、ユーザの要求と機器 の可能な動作とがー致している度合に応じて、応答方法を調整するものとする。
[0059] 具体的には例えば、入力処理部 2における処理状態に応じて行えばよい。例えば、 ユーザと音声対話を行う装置の場合には、音声認識処理の処理状態に応じて、発話 速度などの応答方法を調整する。音声認識処理の処理状態から、音声認識が順調 に行われてレ、る力、ユーザとの音声対話が成立してレ、るかどうかを検知することがで きる。
[0060] また、入力信号力 検出されたユーザ 7に関する情報に応じて、応答方法を調整し てもよい。例えば、音声対話の場合には、出力した合成音声に対するユーザの反応( 例えば、言葉が通じていないような兆候が見られる力 に応じて調整すればよいし、口 ボットとの協調作業の例では、ロボットとユーザとの間の動作の協調度合 (動作がず れなく行われてレ、る力 に応じて調整すればょレ、。
[0061] さらに、装置が、ユーザの好みなどユーザに関する知識を学習する機能を有する場 合には、その学習度合に応じて、応答方法を調整してもよい。もちろん、これ以外の 情報を基にして応答方法を調整してもよいし、複数の情報を組み合わせて判断して あよい。
[0062] 以下、本発明の実施の形態について、図面を参照しながら説明する。
[0063] (第 1の実施形態)
本発明の第 1の実施形態では、音声対話機能を搭載した機器を例にとって説明を 行う。本実施形態で想定しているのは、ユーザから音声によって働きかけることができ 、機器の方からもユーザに対して合成音声によって働きかけることができる、いわゆる 音声対話が可能な情報端末や家庭用ロボットなどの機器である。これらの機器では、 人間同士のコミュニケーションと同様に、ユーザと機器との間でコミュニケーションをと りながら、ユーザに対して所望の情報やサービスを提供する。
[0064] 一般に、ユーザが音声によって機器に話しかけるとき、なんらかの機器動作に対し て期待を持つ。そして、機器が期待通りに動作している場合は、ユーザは機器を自 然と利用できるが、一方、期待と異なる動作が多い場合は、ユーザは機器に対して不 信感を持ってしまうと考えられる。現在、人型ロボットとユーザとの間では、音声による コミュニケーションが必ずしも円滑に実現されていないが、その理由の 1つとして、人 型ロボットが、その外見や口調からユーザに期待されるほどには会話ができないこと が挙げられる。これは、ネコ型や犬型のロボットでは、語彙や発話方法が限定されて レ、るにもかかわらず、ユーザとのコミュニケーションが成り立っているように見える現象 とは対照的である。
[0065] まず、本実施形態が実現されたときのイメージを、図 2および図 3を用いて説明する
[0066] 図 2はユーザが家庭用ロボットに荷物をとつてきてもらう場合を概念的に示す図であ る。図 2において、 11はユーザ、 12は本実施形態に係るインタフェース機能を有する 家庭用ロボット、 BX1 , BX2, BX3は箱である。ユーザ 11はロボット 12に対して、音 声によって要求を伝える。ここでは、ユーザ 11は「白い箱 BX1をとつてくる」ことをロボ ット 12に対して要求するものとする。ロボット 12は音声によってユーザ 11に応えるとと もに、ユーザ 11の要求に従った動作を行う。またロボット 12は、ユーザ 11の発話の 認識度に応じて、 自己の発話速度を調整する。 [0067] 図 3 (a)は図 2の状況における対話の例であり、 Aはユーザ 11の発話、 Bはロボット 1 2の発話である。図 3 (a)では、各発話内容について発話速度を示しており、またユー ザ 11の発話 Aについては、ロボット 12の認識処理の良さを表す認識度を示している 。図 3 (b)は発話速度と認識度との関係を示すグラフである。ここでは、説明の簡易化 のために、発話速度と認識度には便宜的な数字を与えている。
[0068] まず、ユーザ 11が「箱を持ってきて」とロボット 12に要求する。このときの発話速度 は 100であり、認識度は 60であったとする。一般に音声認識処理では、認識性能が 最も発揮できる適切な発話速度があり、図 3 (b)の関係によると、認識性能が最も良 レ、のは発話速度が 90付近である。ここで、発話速度の目標値を 90と設定する。現在 のユーザ 12の発話速度はこの目標値よりも高いため、ロボット 12は、ユーザ 12の発 話速度を下げるような方策を採る。ここでは、ユーザ 11の適応を促すベぐロボット 12 自らの発話速度を、 目標値の 90よりも低ぐ 80に下げる。
[0069] また、ロボット 12は、どの箱 BX1 , BX2, BX3を持っていけばよいのか特定できな いので、どの箱を持ってきて欲しいかを確認するための発話内容を作成する。この結 果、ロボット 12はユーザ 11に対して、「どの箱ですか?」と発話速度を 80にして問い かける。
[0070] ロボット 12の問いかけに対して、ユーザ 11は「白い箱です」と答える。このときユー ザ 11は、ロボット 12の発話速度に影響されて、自分では特に意識することなぐ発話 速度を低下させる。この結果、発話速度が 90に変化し、認識度は 80に大きく改善さ れる。すなわち、ロボット 12からユーザ 11に対して、発話内容が伝達されるとともに、 認識処理が良好に行えるような働きかけがなされる。
[0071] ロボット 12は、ユーザ 11から要求されたタスクが「白い箱 BX1をとつてくる」ことであ ることを正確に認識し、白い箱 BX1の受け渡しを、「はいどうぞ」と言いながら行う。こ のとき、ユーザ 11の発話速度は認識処理が良好に行える適切な値になっており、適 応促進の必要がなくなつたので、 自己の発話速度をユーザ 11と同じ 90に調整する。
[0072] 以後、ユーザ 11とロボット 12は、認識処理に適切な発話速度で互いにコミュニケ一 シヨンが取れるようになる。また、ユーザ 11の発話速度に変化が見られ、認識度が低 下した場合は、適宜、上述したように、発話速度を調整すればよい。このように、ユー ザ 11から要求されたタスクをこなしつつ、 自己の発話速度を調整してユーザ 12の発 話速度を適切な範囲に制御することによって、認識処理が常に適切に行えるようにシ ステムを維持することができる。
[0073] なお、上述したように、ユーザの発話速度が目標値よりも高いときは、システム側の 発話速度をこの目標値よりも低く設定することにより、ユーザの発話速度を目標値に 近づけやすくすることができる。また、ユーザの発話速度が目標値に近づいたとき、 システム側の発話速度も、当初の設定から、 目標値に近づくように、変更するのが好 ましい。例えば、ユーザの発話速度が目標値付近に誘導された後は、システム側は、 ユーザの発話速度を誘導する必要がないので、コミュニケーションが行いやすいュ 一ザの発話速度に近い、 目標値に、発話速度を設定しなおせばよい。
[0074] また、ユーザの発話速度が、逆に、 目標値よりも低いときは、システム側の発話速度 をこの目標値よりも高く設定することにより、ユーザの発話速度を目標値に近づけや すくすることができる。この場合も、ユーザの発話速度が目標値に近づいたとき、シス テム側の発話速度も、当初の設定から、 目標値に近づくように、変更するのが好まし レ、。例えば、ユーザの発話速度が目標値付近に誘導された後は、システム側は、ュ 一ザの発話速度を誘導する必要がなレ、ので、コミュニケーションが行レ、やすレ、ユー ザの発話速度に近い、 目標値に、発話速度を設定しなおせばよい。
[0075] また、ユーザの発話速度の目標値は、必ずしも機器側の都合のみによって決定さ れるものではない。後述するように、発話速度には個人差が大きいので、発話速度の 目標値は、ユーザに応じて決定するのが好ましい。すなわち、認識性能が適切に得 られる範囲内で、ユーザの発話速度に近い値に目標値を設定することによって、ュ 一ザが機器の発話に対して違和感を感じないような発話速度の誘導が可能となる。 例えば、発話速度がとても遅い人には、機器側の最適値ではなぐ認識性能が得ら れる発話速度の範囲の下限付近に、 目標値を設定すればよい。また、発話速度が速 い人には、認識可能な発話速度の範囲の上限付近に、 目標値を設定すればよい。
[0076] 以下、本実施形態に係る制御方法について、具体的に説明する。図 4は本実施形 態に係るユーザ適応型装置におけるインタフェース部 20の構成を示すブロック図で ある。上述の例では、図 4に示すインタフェース部 20がロボット 12に内蔵されている。 図 4において、認識状態検出部 24および話速決定部 25が、応答方法調整部に相当 しており、また、音声入力部 21、音声認識部 22、発話内容決定部 23および音声出 力部 26が、入力部、入力処理部、応答内容決定部および出力部に、それぞれ相当 している。
[0077] 音声入力部 21はユーザ 11からの音声入力を取得する部分であり、通常は、音声を 取得するためのマイク等によって構成される。ユーザ 11が発した音声は、音声入力 部 21によって、インタフェース部 20内部で処理可能な電気信号に変換される。
[0078] 音声認識部 22は音声入力部 21によって取得された音声の電気信号を処理して、 ユーザ 11の発話内容に変換する。すなわち、いわゆる音声認識処理を行う。発話内 容決定部 23は、音声認識部 22によって処理された音声認識結果を基にして、ユー ザ 11に対する発話内容を決定する。発話内容決定部 23には、例えば、「ありがとう」 に対して「どういたしまして」、「一はどこにありますカ に対して「一にあります」など、 各種の対話例力 S、ルールや知識ベースとして格納されている。
[0079] 認識状態検出部 24は音声認識部 22から認識状態に関する信号を取得し、認識状 態の良否を検出する。ユーザ 11の発話は、必ずしも音声認識処理しやすいものばか りではないので、その処理結果は誤りを含むことが多い。また、大抵の音声認識処理 では、その処理結果に対する信頼度を表す信号が得られる。例えば、ニューラルネッ トワークを利用した音声認識では、各認識結果の候補とともに出力される出力値を、 各認識結果に対する信頼度として扱うことが可能である。この出力値が 0— 1の範囲 で得られるとき、例えば出力値が 0. 9のときは、その認識結果は間違っていないこと が多ぐ逆に出力値が 0. 5のときは、認識結果の信頼度は低いがとりあえず出力され ている、といったことが読み取れる。認識状態検出部 24は、音声認識部 22から得ら れるこのような値から、認識状態の良否の程度を算出する。
[0080] 話速決定部 25は、認識状態検出部 24が算出した認識状態の程度を基にして、ュ 一ザ 11に対する発話の発話速度を決定する。具体的には例えば、インタフェース部 20に内部パラメータとして記憶されている発話速度の値を、調整する。音声認識処 理では、一般に、認識率が最も高くなる適切な発話速度が存在し、これから離れるに つれて認識率が低下することが知られている。 [0081] 音声出力部 26は例えば、 D/A変換部を含む回路部とスピーカとによって構成さ れており、発話内容決定部 23によって決定された発話内容を示す合成音声を、話速 決定部 25によって決定された発話速度に従って作成し、出力する。
[0082] 図 4の構成の動作を、図 5のフローチャートを用いて説明する。
[0083] ユーザ 11が発話すると、まず音声入力部 21によって、その音声を取得し、電気信 号に変換する(Sl l)。そして、音声認識部 22によって、ステップ S11において生成さ れた電気信号を用いて音声認識処理を行う(S12)。
[0084] 次に、認識状態検出部 24が、音声認識部 22から取得した信号を基にして、音声認 識の認識状態が良いか否かを判断する(S13)。ここでの判断は例えば、音声認識処 理におレ、て特定された複数の認識候補に係る、例えば上述したニューラルネットヮー クにおける出力値のような信頼度を表すデータの、ばらつき具合を基にして行う。す なわち、特定の候補のみの信頼度が高い場合は、認識状態が良いと判断し、一方、 どの候補の信頼度も低い場合は、認識状態が悪いと判断する。また、認識処理その ものが成功せずに認識候補が得られない場合も、認識状態が悪いと判断する。
[0085] ステップ S13において、認識状態が良いと判断されたときは、ステップ S14に進む。
ステップ S14では、話速決定部 25において、適応促進のための発話速度の制御を 行わないものとする。すなわち、例えば発話速度を、前回設定された値と同じ値にし たり、ユーザの発話速度に合わせたりする。ユーザの発話速度に合わせるのは、コミ ュニケーシヨンが良好な場合は、ユーザも装置も発話速度は似ていると推測されるか らである。
[0086] 一方、認識状態が悪いと判断されたときは、ステップ S 15に進む。ステップ S 15では 、認識状態検出部 24によって、ユーザ 11の発話速度が速すぎるか否かが判断され る。すなわち、音声認識部 22における認識状態からユーザ 11の現在の発話速度を 計算し、この発話速度をインタフェース部 20が予め記憶してレ、る最適な発話速度と 比較する。そしてユーザ 11の発話速度の方が速いときは (Yes)、話速決定部 25が 発話速度を現在の設定よりも遅くする(S16)。一方、ユーザ 11の発話速度の方が遅 レ、ときは (No)、話速決定部 25が発話速度を現在の設定よりも速くする(S17)。発話 速度の調整は、例えば、現在の発話速度に対して一定量を減じたり加えたりすること によって、または、 1よりも小さな、若しくは大きな一定量を乗じたりすることによって、 実現できる。
[0087] ステップ S 14, S16, S 17によって発話速度が調整された後、または、発話速度の 調整と並行して、発話内容決定部 23が、音声認識部 22によって認識されたユーザ 1 1の発話内容に対する応答内容を決定する(S18)。そして、音声出力部 26は、発話 内容決定部 23によって決定された発話内容を、話速決定部 25によって決定された 発話速度でユーザ 11に対して出力する(S 19)。
[0088] 上述した動作をユーザ 11から見ると、ユーザ 11の発話に対して、装置の音声応答 の発話速度が若干変化することになる。ユーザ 11は、装置との音声対話に際しても、 人間同士のコミュニケーションの際に見られるような引き込み現象によって、装置の発 話速度に合わせて、 自分自身の発話速度を自然に落としたり速めたりすると考えられ る。このような発話速度の変化は、ユーザ 11が自分で意識的に行うものではない。す なわち、ユーザ 11には何ら意識させずに、 自然にその発話速度を制御することがで き、これにより、認識が容易な発話入力を得ることができるので、認識率も向上し、対 話を円滑に進めることができる。
[0089] 従来の音声対話型のインタフェースでは、音声認識ができない場合、「もう一度お 願いします」とか「ゆっくり話してください」等の発話を行い、ユーザに対して、意識的 に装置に合わせて話をするように促す対応をしていた。このため、それまでの対話の 流れが中断されてしまい、ユーザにとって利用しにくい面があった。
[0090] これに対して本実施形態によると、ユーザの発話が不明瞭なときでも、応対は継続 しながら発話速度を調整することによって、ユーザに意識させることなく発話速度の 変化を促して、コミュニケーションを円滑にすることができる。このとき、ユーザは機器 に対して何力 ら意図的に適応する必要はなぐユーザが他の人と自然に行ってい る相互引込のプロセスが実現されている。したがって、ユーザと機器との音声対話を 、ユーザに負担をかけることなぐ円滑に行うことができる。
[0091] なお、本実施形態では、ユーザへの応答方法の調整として、発話速度を調整する ものとしたが、本発明はこれに限られるものではない。例えば、発話語彙を調整しても よい。発話語彙の調整によって、ユーザが発話内容を聞いたときの印象を変化させる こと力 Sできる。語彙を変化させるパターンの例としては、例えば子供の話す語彙と大 人の話す語彙、丁寧度合の異なる語彙 (例えば、丁寧な話し方と乱暴な話し方)、親 密度合の異なる語彙 (親しげな話し方とビジネスライクな話し方)などが考えられる。
[0092] また、発話のイントネーションを調整してもよレ、。イントネーションの調整によって、同 じ文言であっても、ユーザの話し方をゆっくりにしたり、穏やかにしたり、落ち着かせた りすること力 引き込みによって可能になると考えられる。もちろん、発話速度、語彙、 イントネーションなどの応答方法の全部または一部を組み合わせて、調整してもよい
[0093] また、応答方法の調整によって、必ずしも、ユーザの反応がシステム側の想定通り に変化するとは限らない。例えば、後述する実験の結果から示唆されるように、人とシ ステムとの対話において、システム側が発話速度を調整しても、一部のユーザは自分 の発話速度を変化させない。したがって、応答方法を調整してもユーザの反応が期 待したようには変化しない場合は、直接的にユーザに要求を伝えるような出力を行う のが好ましい。
[0094] すなわち、入力処理部 2は、出力部 6の出力に対するユーザ 7の反応を検出し、ュ 一ザ 7の反応に、応答方法調整部 4によって調整された応答方法によって期待され た変化がみられないときは、応答内容決定部 3に対し、ユーザ 7に変化を促すための 応答内容を決定するよう、指示するのが好ましい。例えば、発話速度を変化させても ユーザ 7の発話速度に変化が見られない場合は、入力処理部 2は、発話速度の変化 を促すような応答内容を決定するよう、応答内容決定部 3に指示する。この指示を受 けて、応答内容決定部 3は、ユーザ 7との対話を成立させるための発話内容に加えて 、例えば「もう少しゆっくり話していただけませんか?」などといったメッセージを追加 する。これにより、発話速度を下げてほしい、というようなシステム側の要求を、ユーザ 7に対して直接的に伝えることができる。
[0095] 人間が応答方法の調整によって影響を受けることを実証するために、次の 2つの実 験を実施した。ここでは、対話における発話速度に着目し、人と人が対話しているとき に相手の発話速度の影響をどの程度受けるか (実験 1)、人と機器が対話していると きに機器の発話速度の影響をどの程度受ける力 ^実験 2)、という 2つの実験を行った [0096] <実験 1 >
実験 1では、人同士の対話状況を観察し、その発話速度を記録'解析することによ つて、被験者の発話速度が相手の発話速度によって変化するのかを観察した。実験 には、大学生を中心に 10人に被験者として参加してもらった。
[0097] まず、各被験者にニュース原稿の朗読などの単独発話をしてもらい、そのときの発 話速度を、相手の影響を受けていないという意味で、その被験者の標準的な発話速 度とした。なお、発話速度は、 1秒間に発声される文字数 (発話音声に含まれる文字 数 ÷発話に要した時間)によって算出することとした。
[0098] 図 10は各被験者の標準的な発話速度を示す。図 10から分かるように、実験に参加 した被験者群では、発話速度は 6. 88文字 Z秒一 10. 69文字/秒まで分布してお り、発話が遅い人と早い人との差は 1. 5倍以上あり、かなりのばらつきが見られる。発 話速度の平均は 8. 84文字/秒である。
[0099] 次に、被験者同士の対話実験を行った。実験に用いる対話文として、英会話等の 語学教材に使用されるような 9つの文例を用意した。各文例では、先に発話をする A さん役と Aさんに応答して発話を行う Bさん役とが設定されており、 Aさんと Bさんの発 話が交互に数回ずつ含まれている。このような文例を用いることによって、発話内容 のやりとりとともに、発話方法 (この実験では発話速度)の情報についてもやりとりが生 じるので、その影響を観察することができる。
[0100] 実験では、被験者 10人を 2人ずつに分け、その 2人の間で Aさん役と Bさん役を設 定して対話文例を読み上げてもらい、その対話を録音した。次に、被験者の組み合 わせを変えて、各被験者が、別の相手と別の対話文を読みようにした。 1人の被験者 力 見ると、 9人の相手と、内容が異なる 9つの文例を読むように、順番を設定した。こ の結果、毎回 5組の対話データが得られ、被験者の組み合わせを変えた 9回の対話 を行うことによって、合計 45対話の記録を得ることができた。個人ごとに見れば、計 9 0発話のデータを得ることができた。
[0101] そして、録音した対話データから、発話速度を算出した。このとき、対話中において 発話速度はわずかながら変化しているので、対話中の発話速度の平均を求め、これ を各対話における被験者の発話速度とみなした。したがって、この実験では、一回の 対話中における発話速度の変化は考慮していない。
[0102] 図 11に示すように、発話速度の変化を、相手に対してどのように変化したカ という 観点から 4とおりに分類した。ここで、 自分 (Aさん)の普段の発話速度を Vda、相手( Bさん)の普段の発話速度を Vdb、対話文例 nの時の自分の発話速度 Vna、対話文 例 nの時の相手の発話速度を Vnbとする。図 11では、上下方向に発話速度の軸をと つており、その軸上に発話速度 Vda、 Vna、 Vnbの位置を示している。
事例 1 (a):自分よりも発話速度の速い相手との対話 (Vdaく Vnb)において、 自分 の普段の発話速度よりも速く発話 (Vdaく Vna)した。
事例 2 (b):自分よりも発話速度の速い相手との対話 (Vdaく Vnb)において、 自分 の普段の発話速度よりも遅く発話 (Vda > Vna)した。
事例 3 (c):自分よりも発話速度の遅い相手との対話 (Vda > Vnb)において、 自分 の普段の発話速度よりも速く発話 (Vdaく Vna)した。
事例 4 (d):自分よりも発話速度の遅い相手との対話 (Vda > Vnb)において、 自分 の普段の発話速度よりも遅く発話 (Vda > Vna)した。
[0103] 発話速度の軸における、 自分の発話速度 Vda, Vnaと相手の発話速度 Vnbとの位 置関係によって、相手に合わせたかどうか、どの程度合わせたかを求めることができ る。発話速度は、引き込み現象が発生すると考えた場合、相手と同調する方向に変 化するはずであり、上の 4通りの事例のうち事例 1と事例 4が、相手に同調する方向に 変化した場合である。また自分の発話速度の変化量は、 (Vna-Vda)で求められる。
[0104] そこで、本願発明者は、次のような引き込み判別式を作成した。
D = sign (Vnb— Vda) X sign (Vna-Vda) X abs (Vna-Vda) …(数 1) ここで、 signはプラスやマイナスの符号のみを抽出する関数、 absは絶対値を抽出す る関数である。 D > 0のときは、発話速度が相手と同調したことを示し、 Dく 0のときは 、発話速度が相手と同調しなかったことを示す。また、 Dの値の大小は、発話速度が どの程度同調した力を示す。
[0105] 図 12は実験 1で得られた発話データについて上の判別式 Dの値をプロットしたダラ フである。図 12において、横軸は被験者 ID、縦軸は判別式 Dの値で単位は(文字 Z 秒)である。例えば、被験者 3 (横軸上)が被験者 6と対話したとき、判別式 D = 2であ つた。すなわち、被験者 3は被験者 6に対して、 2 [文字/秒]分だけ同調した、と考え られる。
[0106] 図 12から分かるように、多くの発話において、発話速度が相手に合わせるように変 化している。実験で取得された 90発話のうち、 57発話(63%)において、 D > 0となつ ている。また、この 90発話で構成される 45対話のうち、被験者がお互いに相手に合 わせようとしている場合(お互いの Dの値が正だった場合)は 18対話 (40%)、 Aさん 役は Bに合わせようとしてレ、るが Bさん役が合わせてレ、なレ、場合は 10対話(22%)、 その逆が 11対話(24%)、ぉ互レ、が合わせてレ、なレ、場合が 6対話(13%)であった。 よって、ほとんどの対話において、いずれかの被験者の発話速度が相手に合わせる 方向に変化していたことが観察された。
[0107] なお、一部の発話において、相手に合わせるような変化が見られなかった原因とし ては、例えば、対話文例の中に「え一つと」など普通の読上げ速度と異なる速度で読 む単語が含まれており、発話速度が的確に算出できなかったこと、被験者によっては 相手の発話速度による影響を受けにくい人がいること、などが考えられる。
[0108] このように、実験 1における人同士の対話実験によって、被験者は普段、様々な読 上げ速度で文章を読んでいるにも関わらず、その発話速度が、対話相手の発話速度 に合わせるように変化することが多いことが確認された。また、この現象は、対話文の 内容によらずに見られることも分かった。さらに、被験者によって適応特性などが異な ることも見受けられたことから、被験者ごとの適応特性なども考慮することによって、さ らに適応が促進されると考えられる。
[0109] <実験 2 >
上述の実験 1では、人同士の対話における発話速度の適応を観察したが、次に、 人が自動応答システムと対話を行った場合に、その発話速度がどの程度変化するか を観察した。実験には、大学生を中心に 6人に被験者として参加してもらった。
[0110] この実験で使用された自動応答システムは、ユーザの発話の終了を検出した後に 、予め録音しておいた音声ファイルを再生することによって、被験者との対話を実現 するものである。システムが再生する音声として、一人の女性が単独で対話文を朗読 している際の音声を録音したものを用いた。この録音した音声から音声編集ソフトゥェ ァを用いて、ピッチ値を保ったまま時間方向に対して 80% · 120%に伸縮した音声を 作成した。これによつて、発話時間を 80%に変換したファイルが発話速度が最も高く なり、順に 80% (速い発話、 High)、 100% (録音そのまま、 Middle)、 120% (遅い 発話、 Low)の三種類の発話速度の音声ファイルが用意された。
[0111] 被験者には、自動応答システムと三種類の対話を行うというタスクが与えられた。対 話文として、実験 1で用いた 9つの対話文のうちの対話 2, 5, 9を用いた。これらの対 話文は、実験 1において被験者にとって発話速度の同調が見られやすかつたもので ある。また、被験者には対話文における Bさんの役割力 対話システムには Aさんの 役割が与えられた。
[0112] 図 13は実験 2における対話順序を示す表である。図 13において、各欄の最初の数 字は、対話文の番号、 HMLの記号は発話速度を表している。 Mが録音ファイルその ままの速度、 Lは遅い発話、 Hが速い発話を示す。例えば「2_H」は、対話文 2の H ( 速い発話)と対話したことを表す。また図 13に示すように、各被験者にとって、対話文 の内容は毎回違うものにした。
[0113] 図 14は実験 2で得られた発話データについて上の判別式 Dの値をプロットしたダラ フである。この図 14から、ほとんどの対話において、被験者の発話速度がシステムに 合わせていることが分かる。実験で取得された 18対話のうち、 16対話において、判 別式 D > 0となっている。
[0114] 以上の二つの実験から、人間は、相手が実際の人間であっても、自動応答システム から流される音声であっても、その対話の内容によらず相手の発話速度に合わせる ように、 自分の発話速度が影響される、と考えることができる。また、この発話速度の 変化は、特に意識されなくても起きてレ、ると考えられる。
[0115] (第 2の実施形態)
本発明の第 2の実施形態では、ユーザとの協調動作を行うロボットを例にとって説 明を行う。家庭等において利用されるロボットは、情報端末やソフトウェアエージェント と異なり、ユーザとのインタフェースとしては、言語や情報のやり取りの他に、物理的 な物体のやりとりや共同作業も行う。この場合、機器(ロボット)からユーザに提供する ものとしては、情報以外にも、物の操作、ジエスチヤ、作業などが考えられ、これらを 本実施形態では「動作」と呼ぶ。この「動作」についても、動作自体が提供する機能の 他に、動作をどのように提供するかという「方法」の側面があり、この「方法」によっても 、ユーザが受け取る印象は大きく変化する。本実施形態では、「動作」を提供する「方 法」を調整することによって、ユーザの適応を促す例について説明する。
[0116] また、第 1の実施形態では、機器内部における音声認識の状態に応じて、発話速 度を調整した。これに対して本実施形態では、動作「方法」を調整する際に、外部に 出力した「動作」とユーザの動作とのずれ、または協調度合を参照する点が、第 1の 実施形態と大きく異なっている。
[0117] 次に、動作を提供する方法について追加説明する。通常の使用の場合は、協調動 作がスムーズに行われるためには、ロボットも、ユーザの動作速度と同じような速度で 動作することが必要になる。し力、しながら、ユーザがかなり速い動作をしていて、これ と同速度の動作が機構等の制約からロボットの能力を超えている場合や、例えば熱 いお茶や刃物を渡すときなど、ユーザと同等速度で動作すると安全が確保できない 場合は、ロボットは、ユーザと同等速度に動作するのではなぐロボットが要求する理 想的な動作速度になるように、ユーザの適応を促進させる必要がある。これによつて 、ユーザは、ロボットの動作速度に対して、常に不満を持つことなぐ協調的な行動を とることができる。
[0118] また、動作速度を調整することによって、スムーズな協調動作を実現できるだけでな ぐユーザに対して様々な印象を副次的に与えることができる。例えば、速い動作は 、「きびきび動いていて頼もしい」というような印象を与え、逆に、ゆっくりとした動作は 「落ち着いている」というような印象を与えることができる。
[0119] また、ロボットの動作速度はユーザの行動速度に影響を与える。すなわち、人間同 士なら互レ、に引き込まれる性質の動作であれば、ロボットとユーザの間でも弓 Iき込み 力 S起こりうる。例えば、物を渡すというタスクは、ロボットがゆったりとした動きで物を渡 せば、このロボットのゆったりとした動きに影響されて、ユーザの方もゆっくりとした動 作で物を受け取ると考えられる。
[0120] 以下、図 6および図 7を用いて、第 2の実施形態について説明する。 [0121] 図 6は本実施形態に係るユーザ適応型装置としてのロボットにおけるインタフェース 部 30の構成を示すブロック図である。ここでは、 自律的に移動する能力とアームによ る物体操作能力とを持ち、 自ら移動して物を動かすことができるロボットを想定してい る。図 6において、状態入力部 31および動作入力部 33が入力部に相当し、動作ず れ認識部 35および動作速度決定部 36が応答方法調整部に相当している。また、状 態認識部 32、動作内容決定部 34および動作出力部 37が、入力処理部、応答内容 決定部および出力部に、それぞれ対応している。
[0122] 状態入力部 31はロボットに向き合つているユーザ 11の状態を取得する。ユーザ 11 の状態とは、ロボットへのジエスチヤによる指示や、表情や、行動などを指す。状態入 力部 31は例えば、ユーザ 11を撮影するためのカメラや、発話を入力するためのマイ クなどによって構成されており、また、ユーザ 11の生理的状態を測定するセンサ(3次 元位置センサ、発汗センサ、脳波計など)との通信が可能になっているのが好ましレ、
[0123] 状態認識部 32は状態入力部 31によって取得された信号を処理して、ユーザ 11の 状態を認識して出力する。その出力内容は、ユーザ 11のロボットに対する要求内容 や、疲れている、楽しいなどといったユーザ 11の生理的状態などである。動作内容 決定部 34は状態認識部 32の出力を受けて、どんな機能や動作をユーザ 11に対し て実際に出力するかを決定する。
[0124] 動作入力部 33は、ロボットとユーザ 11との協調動作が良好に行われているか否か を判定するために設けられており、ユーザ 11の動作を映すカメラや、ロボットハンドに 装着された圧力センサ等によって構成されている。なお、動作入力部 33を構成する カメラなどの要素は、状態入力部 31と共用されてもかまわない。
[0125] 動作ずれ認識部 35は、動作入力部 33の出力を受けて、ユーザ 11とロボットの動き のずれを認識する。このずれは、ユーザ 11とロボットとの間の動作の協調度合を示す 指標として用レ、られる。
[0126] 例えば、ユーザが「雑誌を取って」とロボットに頼み、ロボットが指定された雑誌を取 つてきてユーザに渡す動作を考える。この場合、ロボットが雑誌を持った手を差し出 す動作と、ユーザが雑誌を受け取るために手を差し出す動作とで、そのスピードとタ イミングがー致しているとき、スムーズな雑誌の受け渡しが実現できる。もし、互いの 動作のスピードが一致していないときは、ユーザは雑誌を受け取るという単純な動作 でも、ストレスや不満を感じることが予想される。具体的には、もしロボットの手の動作 がユーザの動作よりもかなり速いときは、ユーザは危険を感じて手を出すどころか思 わず手を引っ込めてしまうだろうし、逆にロボットの動作がかなり遅いときは、ユーザは 出した手を、雑誌が手元に来るまで止めたままで待たなければならない。
[0127] 同様に、例えば、ユーザが「これ片付けておいて」とコップをロボットに渡す場合も、 互いの動作のスピードやタイミングがずれていると、スムーズな受け渡しができない。
[0128] このようなユーザの不満につながる動作のずれを認識するの力 動作ずれ認識部 3 5である。具体的には、カメラ画像からユーザとロボット自身の動作速度を測定したり、 ロボットが物を渡す動作を完了してからユーザが物を受け取るまでの時間を測定した りすることによって、互いの動作のずれは認識できる。ユーザが物を受け取つたことは 、ロボットハンドに装着された圧力センサ等で検出可能である。
[0129] 動作速度決定部 36は、動作ずれ認識部 35によって認識されたユーザとロボットと の動作のずれと、状態認識部 32から認識されたユーザの状態を用いながら、ロボット にとつてどのようなスピードが理想的である力、どんな印象を与えたいカ 安全の観点 力 はどのようなスピードが理想的であるか、などを勘案して、 目標の協調動作速度 を決定する。動作出力部 37は、動作内容決定部 34によって決定された動作や機能 を、動作速度決定部 36によって決定された動作速度によって、ユーザ 37に対して出 力する。
[0130] 図 7は図 6の構成の動作を示すフローチャートである。図 7のフローを上述の第 1の 実施形態における図 5のフローと比較すると、ユーザとのインタフェース力 動作によ るもの力、、音声(会話)によるものかという相違はある力 基本的な流れはほぼ同様で ある。ただし、図 7では、ユーザとロボットの協調動作における動作のずれを認識する ステップ S23を含む点力 図 5と異なる。すなわち本実施形態では、ロボットとの動作 の協調度合を判定すベぐロボットにとっての理想的な動作速度と現在のユーザの動 作速度とのずれを認識するステップ S23を有し、その動作のずれに応じて、ロボット の動作速度を調整するようにしてレ、る。 [0131] 以上のように本実施形態によると、ユーザとロボットが協調動作を行う際に、互いの 動作のずれからロボットの動作速度を調整することによって、よりスムーズな協調動作 を実現ですることができる。
[0132] (第 3の実施形態)
本発明の第 3の実施形態では、ユーザに情報を推薦する情報端末を例にとって説 明を行う。本実施形態では、情報端末の画面にエージェントを表示して、このエージ ヱントがユーザの好みに応じた情報を音声によって提示するものとする。
[0133] また、第 1の実施形態では、音声認識の状態に応じて発話速度等の出力方法を調 整し、第 2の実施形態では、ユーザとロボットの協調作業における動作のずれに応じ て動作速度等の出力方法を調整した。これに対して本実施形態では、情報端末側で ユーザの嗜好モデルを学習するものとし、その学習度合に応じて、エージヱントの形 態(見た目)や語彙等の情報の提供方法を調整するものとする。すなわち、外部から 得たユーザに関する知識の量を、提供方法の調整に反映させる点が、第 1および第 2の実施形態とは異なっている。
[0134] まず、本実施形態が実現されたときのイメージを、図 8を用いて説明する。
[0135] 図 8は情報端末からユーザに対してエージェントによってレストラン情報を提供する 場合を概念的に示す図である。図 8において、 13は本実施形態に係るインタフエ一 ス機能を有する情報端末、 14は表示画面、 15A, 15Bはエージェントである。同図 中、(a)はユーザの嗜好モデルがあまり学習されていないときの状態、(b)はユーザ の嗜好モデルが学習された後の状態である。
[0136] 情報端末 13では、ユーザとのやり取りの中から、ユーザの嗜好モデルを学習する。
学習の初期段階では、嗜好モデルはまだ十分には学習されていないため、ユーザが どのような推薦情報を好むか明確には分力 ない。このため、ユーザが情報推薦機 能に対して過大な期待を持っていると、推薦されたものが気に入らないとき、落胆す る度合が大きくなる。
[0137] 図 8 (a)の例では、幼児のような外見のエージェント 15Aを画面 14に出し、発話の 語彙も「おいしいでちゆよ」と幼児語にしている。すなわち、あた力も幼児が推薦する 力、のように情報提供方法を調整することによって、ユーザが仮に推薦情報を気に入ら ない場合でも、情報端末 13に対する印象をさほど悪くならないようにしている。これに より、ユーザが怒ったり不愉快になったりすることが少なくなると考えられる。
[0138] 逆に、図 8 (b)に示すように、ユーザとのやり取りによってその嗜好モデルが学習さ れた後は、情報端末 13は、ユーザの嗜好に合った情報をいわば自信を持って推薦 すること力 Sできる。この場合は、力、しこまった服装の大人の外見のエージェント 15Bを 画面 14に出し、発話の語彙も「〇〇様にふさわしいレストランです」という秘書や執事 のような言葉遣いにする。このときに幼児のような表現では、推薦内容に対する信頼 を損なう可能性もある。
[0139] このように、ユーザの嗜好モデルの学習度合に応じて、エージェントの外見や語彙 といった情報提供方法を調整することによって、ユーザの印象の変化を促すことがで きる。これにより、推薦情報が適切でない可能性があるときは、ユーザの不満を和ら げるような方法によって情報提供を行い、情報提供サービスの信頼を失わないように するとともに、推薦情報が適切であるときは、ユーザの受容度を高めることができる。
[0140] 図 9は本実施形態に係るユーザ適応型装置としての情報端末におけるインタフエ一 ス部 40の構成を示すブロック図である。図 9において、処理状態検出部 43および応 答方法決定部 46によって、応答方法調整部が構成されている。また、入力部 41、入 力処理部 42、情報内容決定部 45および出力部 47が、入力部、入力処理部、応答 内容決定部および出力部に、それぞれ相当してレ、る。
[0141] 図 9において、入力部 41はキーボードゃタツチパネル、マイク等を通してユーザか らの働きかけを受け付ける。入力部 41はユーザ 11の発話や指示を電気信号に変換 する。また入力部 41は、後述の出力部 47から出力された情報に対するユーザの反 応も取得する。入力処理部 42は、入力部 41からの信号を受けて、ユーザ 11の要求 内容を判定する。またユーザ 11が喜んでいるか、うれしく思っているかなど、出力部 4 7から出力された情報に対するユーザ 11の反応に関する情報も取得する。
[0142] 処理状態検出部 43は、入力処理部 42の出力を受けて、記憶部 44に格納されてい るユーザ 11の嗜好モデルを更新する。例えば、ユーザからの要求内容と、ユーザに 提供した情報内容と、そのときのユーザの反応とを、併せて記憶する。単純に、過去 の履歴を記憶するようにしてもよいし、カテゴリー化して記憶してもよい。すなわち、記 憶部 44に蓄えられた嗜好モデルは、ユーザ 11とのやりとりを重ねることによって、徐 々に精度の高いものに変化していく。
[0143] 情報内容決定部 45は、入力処理部 42によって判定されたユーザ 11の要求内容と 、記憶部 44に格納された嗜好モデルとから、今回のユーザ 11の要求に対する出力 内容を決定する。
[0144] 応答方法決定部 46は記憶部 44に格納された嗜好モデルの学習度合に応じて、語 彙ゃエージェントの外見といった情報の提供方法を調整する。すなわち、嗜好モデ ルが、ユーザの好みをどの程度正確に反映しているかによって、情報の提供方法を 調整する。そして、出力部 47は、情報内容決定部 45によって決定された情報内容を 、応答方法決定部 46によって決定された提供方法によって、出力する。
[0145] ここでは、情報の提供方法の調整によって、ユーザ 11に対して自分がどの程度ュ 一ザ 11の好みを把握しているかを間接的に示すものとする。すなわち、ユーザ 11の 好みがまだ正確には把握できておらず、推薦する情報が必ずしも適切ではない可能 性が高いときは、それを提供方法の調整によって伝える。例えば、「一などはいかが でしようか」というような言い回しを用いる。反対に、ユーザ 11の好みがきちんと学習 できているときは、それも提供方法の調整によって伝える。例えば、「一がぴったりだ よ」などといった語彙を用いる。
[0146] 人間同士のコミュニケーションにおいても、初対面でお互いによく知らない者同士 の対話の語彙と、旧知の仲の者同士の語彙とではかなり違っている。また、語彙の用 い方によって、「親しみやすい」「よそよそしい」などという印象も相手に与えてしまう。
[0147] 従来の手法でも、ユーザに親しみを感じてもらうために、親しげな話し方を導入した ものもある。ところ力 本実施形態で示したようなユーザの嗜好を学習する情報端末 では、学習初期には、ユーザの期待通りの情報を提供することが困難なために、親し げな話し方がユーザの不興を買レ、、カ^って逆効果になってしまうおそれがある。ま た、学習が進んだにもかかわらず、いつまでも丁寧に応答していると、ユーザが親し みを感じなレ、ことも予想される。
[0148] そこでここでは、ユーザの嗜好が十分に学習できていない初期の段階では、初対 面の人間同士が用いるような語彙で情報推薦を行う。これにより、仮に推薦情報が適 切でなくても、お互いのことをよく知らないために起きたことであり、しょうがないと理角军 してもらえる。また、ユーザの嗜好が十分に学習できた後は、親しげに情報推薦する ことによって、装置に対して親しみを感じてもらうことができる。
[0149] また、語彙以外でも、例えば、 CGで作成して画面に表示したエージェントの外見を 、学習初期では、フォーマルな格好をして登場させ、学習が進むにつれてカジュアル な格好に変化させるようにしてもよい。この場合も、ユーザが受ける印象が変化して、 スムーズなコミュニケーションが実現できると考えられる。
[0150] このように本実施形態によると、ユーザに提供できる情報推薦のレベルや、ユーザ に関する知識の量に応じて、情報の提供方法を調整することによって、仮に推薦情 報があまり適していないときでも、ユーザは自然に受け入れることができる。これにより 、ユーザは情報端末側の学習過程を特に意識することなぐ機器と自然に相互動作 を繰り返すうちに、ユーザの好みが次第に学習される。
[0151] なお、本実施形態では、情報推薦を例にとって説明を行ったが、それ以外でも例え ば、ユーザが情報端末から対話によって情報を取得する場合でも、応用可能である
[0152] また、各実施形態で示したインタフェース部における機能や処理は、ハードウェア 若しくはソフトウェア、またはこれらの組合せによって実現することができる。
[0153] なお、上述の実施形態では、個別の事例として説明した力 S、家庭用ロボットなどの 高度な機能を持つ機器は、音声対話能力、協調作業能力、情報推薦能力その他を 併せて持つことができ、同時並行的に、または統合的に、ユーザへの応答方法を調 整すること力 Sできる。複数の応答方法を同時に調整することによって、ユーザはより自 然なコミュニケーションを取ることができるようになる。
産業上の利用可能性
[0154] 本発明では、機器とユーザとのコミュニケーションがより円滑になるので、ユーザイン タフエースを有する機器全般、特に、ユーザ側の適応を促すのが効果的と考えられる 家庭用ロボット、情報端末、家電機器などに有用である。

Claims

請求の範囲
[1] ユーザとのやりとりを行うインタフェース部を有するユーザ適応型装置であって、 前記インタフェース部は、
ユーザの動作、状態および要求のうち少なくともいずれ力 4つを示す入力信号を、 取得する入力部と、
前記入力部によって取得された入力信号を処理し、前記ユーザに関する情報を検 出する入力処理部と、
前記入力処理部による検出結果を基にして、前記ユーザへの応答内容を決定する 応答内容決定部と、
前記入力処理部における処理状態、前記入力信号から検出された前記ユーザに 関する情報、および、前記ユーザに関する知識の学習度合のうちの少なくともいずれ 力 1つに基づいて、前記ユーザへの応答方法を調整する応答方法調整部と、 前記応答内容決定部によって決定された応答内容を、前記応答方法調整部によつ て調整された応答方法によって、出力する出力部とを備え、
前記入力処理部は、
前記出力部の出力に対する前記ユーザの反応を検出するものであり、かつ、 前記ユーザの反応に、前記応答方法によって期待された変化がみられないとき、 前記応答内容決定部に対し、前記ユーザに変化を促すための応答内容を決定する よう、指示するものである
ことを特徴とするユーザ適応型装置。
[2] 請求項 1において、
当該ユーザ適応型装置は、ユーザと音声対話を行うものであり、
前記入力部は、前記ユーザの発話を音声信号として取得し、
前記入力処理部は、前記音声信号に対して音声認識処理を行い、前記ユーザの 発話内容を検出し、
前記応答内容決定部は、前記入力処理部によって検出された前記ユーザの発話 内容を基にして、前記ユーザへの発話内容を決定し、
前記応答方法調整部は、前記音声認識処理における認識状態を基にして、発話 方法を調整する
ことを特徴とするユーザ適応型装置。
[3] 請求項 2において、
前記応答方法調整部は、前記発話方法として、発話速度、語彙およびイントネーシ ヨンのうち少なくともいずれか 1つを調整するものである
ことを特徴とするユーザ適応型装置。
[4] 請求項 2において、
前記応答方法調整部は、
前記発話方法として、発話速度を調整するものであり、かつ、
前記ユーザの発話速度が目標値よりも低いときは、発話速度を前記目標値よりも高 く設定し、または、前記ユーザの発話速度が目標値よりも高いときは、発話速度を前 記目標値よりも低く設定する
ことを特徴とするユーザ適応型装置。
[5] 請求項 4において、
前記応答方法調整部は、
前記ユーザの発話速度が前記目標値に近づいたとき、発話速度を、前記目標値に 近づくように、変更する
ことを特徴とするユーザ適応型装置。
[6] 請求項 2において、
前記応答方法調整部は、
前記発話方法として、発話速度を調整するものであり、かつ、
ユーザの発話速度の目標値を、ユーザに応じて、決定する
ことを特徴とするユーザ適応型装置。
[7] 請求項 1において、
当該ユーザ適応型装置は、ユーザに対して動作を提供するものであり、 前記入力部は、前記ユーザの状態および動作を示す信号を入力するものであり、 前記入力処理部は、前記入力部に入力された信号を処理して、前記ユーザの要求 を認識するものであり、 前記応答内容決定部は、前記入力処理部によって認識された前記ユーザの要求 に応じて、前記ユーザに提供する動作内容を決定し、
前記応答方法調整部は、前記入力部に入力された信号から、前記ユーザと当該ュ 一ザ適応型装置との間の動作の協調度合を認識し、認識した動作の協調度合に応 じて、動作の提供方法を調整する
ことを特徴とするユーザ適応型装置。
[8] 請求項 7において、
前記応答方法調整部は、動作の提供方法として、動作速度を調整する ことを特徴とするユーザ適応型装置。
[9] 請求項 1において、
当該ユーザ適応型装置は、ユーザに情報提供を行うものであり、かつ、前記ユーザ の嗜好モデルを学習する機能を有しており、
前記入力部は、ユーザからの要求を示す信号を取得し、
前記入力処理部は、前記入力部によって取得された信号から、ユーザからの要求 を判断し、
前記応答内容決定部は、前記入力処理部によって判断されたユーザからの要求を 基にして、前記嗜好モデルを参照して、前記ユーザに提供する情報内容を決定し、 前記応答方法調整部は、前記嗜好モデルの学習度合を基にして、情報の提供方 法を調整する
ことを特徴とするユーザ適応型装置。
[10] 請求項 9において、
前記応答方法調整部は、情報の提供方法として、語彙、および、画面に表示する エージェントの形態のうち少なくともいずれ力、 1つを、調整する
ことを特徴とするユーザ適応型装置。
[11] ユーザ適応型装置において、ユーザとのやりとりを行うための制御方法であって、 前記ユーザの動作、状態および要求のうち少なくともいずれ力 4つを示す入力信号 を、取得する第 1のステップと、
前記第 1のステップにおいて取得した入力信号を処理し、前記ユーザの情報を検 出する第 2のステップと、
前記第 2のステップにおける検出結果を基にして、前記ユーザへの応答内容を決 定する第 3のステップと、
前記入力信号の処理状態、前記入力信号から検出された前記ユーザの情報、およ び、前記ユーザに関する知識の学習度合のうちの少なくともいずれか 1つに基づい て、前記ユーザへの応答方法を調整する第 4のステップと、
前記第 3のステップにおいて決定した応答内容を、前記第 4のステップにおいて調 整した応答方法によって、出力する第 5のステップと、
前記第 5のステップにおける出力に対する前記ユーザの反応を検出する第 6のステ ップと、
前記第 6のステップにおいて検出した前記ユーザの反応に、前記第 4のステップに おいて調整した応答方法によって期待された変化がみられないとき、前記ユーザに 変化を促すための応答内容を決定する第 7のステップとを備えた
ことを特徴とする制御方法。
PCT/JP2005/001219 2004-02-03 2005-01-28 ユーザ適応型装置およびその制御方法 WO2005076258A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005517657A JP3924583B2 (ja) 2004-02-03 2005-01-28 ユーザ適応型装置およびその制御方法
US11/449,852 US7684977B2 (en) 2004-02-03 2006-06-08 User adaptive system and control method thereof

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2004-026647 2004-02-03
JP2004026647 2004-02-03
JP2004-275476 2004-09-22
JP2004275476 2004-09-22

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/449,852 Continuation US7684977B2 (en) 2004-02-03 2006-06-08 User adaptive system and control method thereof

Publications (1)

Publication Number Publication Date
WO2005076258A1 true WO2005076258A1 (ja) 2005-08-18

Family

ID=34840123

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/001219 WO2005076258A1 (ja) 2004-02-03 2005-01-28 ユーザ適応型装置およびその制御方法

Country Status (3)

Country Link
US (1) US7684977B2 (ja)
JP (1) JP3924583B2 (ja)
WO (1) WO2005076258A1 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016109897A (ja) * 2014-12-08 2016-06-20 シャープ株式会社 電子機器、発話制御方法、およびプログラム
KR20160074388A (ko) * 2014-12-18 2016-06-28 삼성전자주식회사 전자 장치의 제어 방법 및 장치
WO2017168936A1 (ja) * 2016-03-31 2017-10-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2019073668A1 (ja) * 2017-10-11 2019-04-18 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019211909A (ja) * 2018-06-01 2019-12-12 凸版印刷株式会社 情報提示システム、情報提示方法及びプログラム
JP2020018794A (ja) * 2018-08-03 2020-02-06 株式会社ニデック 眼科画像処理装置、oct装置、および眼科画像処理プログラム
JP2021503112A (ja) * 2017-09-29 2021-02-04 トルーク インコーポレイテッドTorooc Inc. 自律行動ロボットを利用して対話サービスを提供する方法、システム、及び非一時的なコンピュータ読み取り可能な記録媒体
CN112533526A (zh) * 2018-08-03 2021-03-19 尼德克株式会社 眼科图像处理装置、oct装置及眼科图像处理程序
JP2021117296A (ja) * 2020-01-23 2021-08-10 トヨタ自動車株式会社 エージェントシステム、端末装置およびエージェントプログラム
US11257459B2 (en) 2014-12-18 2022-02-22 Samsung Electronics Co., Ltd Method and apparatus for controlling an electronic device

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US20090209341A1 (en) * 2008-02-14 2009-08-20 Aruze Gaming America, Inc. Gaming Apparatus Capable of Conversation with Player and Control Method Thereof
JP5104448B2 (ja) * 2008-03-21 2012-12-19 富士通株式会社 業務改善支援装置および業務改善支援プログラム
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
TW201019288A (en) * 2008-11-13 2010-05-16 Ind Tech Res Inst System and method for conversation practice in simulated situations
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
WO2011059997A1 (en) 2009-11-10 2011-05-19 Voicebox Technologies, Inc. System and method for providing a natural language content dedication service
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9743820B2 (en) 2010-02-26 2017-08-29 Whirlpool Corporation User interface for dishwashing cycle optimization
FR2962048A1 (fr) * 2010-07-02 2012-01-06 Aldebaran Robotics S A Robot humanoide joueur, methode et systeme d'utilisation dudit robot
JP5842245B2 (ja) * 2011-04-28 2016-01-13 株式会社国際電気通信基礎技術研究所 コミュニケーションロボット
US8738364B2 (en) * 2011-12-14 2014-05-27 International Business Machines Corporation Adaptation of vocabulary levels for enhanced collaboration
US9443514B1 (en) * 2012-02-08 2016-09-13 Google Inc. Dynamic voice response control based on a weighted pace of spoken terms
TW201408052A (zh) * 2012-08-14 2014-02-16 Kentec Inc 電視裝置及其虛擬主持人顯示方法
US9223837B2 (en) * 2013-03-14 2015-12-29 Toyota Motor Engineering & Manufacturing North America, Inc. Computer-based method and system for providing active and automatic personal assistance using an automobile or a portable electronic device
EP2933067B1 (en) * 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
CN107003996A (zh) 2014-09-16 2017-08-01 声钰科技 语音商务
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
KR20170034154A (ko) 2015-09-18 2017-03-28 삼성전자주식회사 콘텐츠 제공 방법 및 이를 수행하는 전자 장치
WO2017100167A1 (en) * 2015-12-06 2017-06-15 Voicebox Technologies Corporation System and method of conversational adjustment based on user's cognitive state and/or situational state
JP6741504B2 (ja) * 2016-07-14 2020-08-19 株式会社ユニバーサルエンターテインメント 面接システム
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10276149B1 (en) * 2016-12-21 2019-04-30 Amazon Technologies, Inc. Dynamic text-to-speech output
US10628754B2 (en) * 2017-06-06 2020-04-21 At&T Intellectual Property I, L.P. Personal assistant for facilitating interaction routines
CN110278140B (zh) * 2018-03-14 2022-05-24 阿里巴巴集团控股有限公司 通讯方法及装置
US10573298B2 (en) * 2018-04-16 2020-02-25 Google Llc Automated assistants that accommodate multiple age groups and/or vocabulary levels
KR102228866B1 (ko) * 2018-10-18 2021-03-17 엘지전자 주식회사 로봇 및 그의 제어 방법
JP6993314B2 (ja) * 2018-11-09 2022-01-13 株式会社日立製作所 対話システム、装置、及びプログラム
JP2020119412A (ja) * 2019-01-28 2020-08-06 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US11425523B2 (en) * 2020-04-10 2022-08-23 Facebook Technologies, Llc Systems and methods for audio adjustment
CN112599151B (zh) * 2020-12-07 2023-07-21 携程旅游信息技术(上海)有限公司 语速评估方法、系统、设备及存储介质
CN114627876B (zh) * 2022-05-09 2022-08-26 杭州海康威视数字技术股份有限公司 基于音频动态调节的智能语音识别安全防御方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6173985A (ja) * 1984-09-19 1986-04-16 渡辺 富夫 教習装置
JPS62145322A (ja) * 1985-12-20 1987-06-29 Canon Inc 音声出力装置
JPH04344930A (ja) * 1991-05-23 1992-12-01 Nippon Telegr & Teleph Corp <Ntt> 音声ガイダンス出力方式
JP2000194386A (ja) * 1998-12-24 2000-07-14 Omron Corp 音声認識応答装置及び方法
JP2001034293A (ja) * 1999-06-30 2001-02-09 Internatl Business Mach Corp <Ibm> 音声を転写するための方法及び装置
JP2003150194A (ja) * 2001-11-14 2003-05-23 Seiko Epson Corp 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム
JP2003255991A (ja) * 2002-03-06 2003-09-10 Sony Corp 対話制御システム、対話制御方法及びロボット装置
JP2004258290A (ja) * 2003-02-26 2004-09-16 Sony Corp 音声処理装置および方法、記録媒体、並びにプログラム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US5717823A (en) * 1994-04-14 1998-02-10 Lucent Technologies Inc. Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
JPH0844520A (ja) 1994-07-29 1996-02-16 Toshiba Corp 対話装置及び同装置に適用される操作ガイダンス出力方法
JPH09212568A (ja) 1995-08-31 1997-08-15 Sanyo Electric Co Ltd ユーザ適応型応答装置
JPH0981350A (ja) 1995-09-11 1997-03-28 Toshiba Corp ヒューマンインタフェースシステム及びユーザ適応制御方法
JPH09152926A (ja) 1995-11-29 1997-06-10 Sanyo Electric Co Ltd 可変誘導入力機能付き画像情報処理装置
JPH10111786A (ja) * 1996-10-03 1998-04-28 Sharp Corp リズム制御対話装置
JP2000305585A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2000330676A (ja) 1999-05-19 2000-11-30 Nec Corp 適応ユーザインタフェース生成装置および生成方法
JP3514372B2 (ja) * 1999-06-04 2004-03-31 日本電気株式会社 マルチモーダル対話装置
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
US6795808B1 (en) * 2000-10-30 2004-09-21 Koninklijke Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and charges external database with relevant data
US20020150869A1 (en) * 2000-12-18 2002-10-17 Zeev Shpiro Context-responsive spoken language instruction
DE10138408A1 (de) * 2001-08-04 2003-02-20 Philips Corp Intellectual Pty Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf
US7295982B1 (en) * 2001-11-19 2007-11-13 At&T Corp. System and method for automatic verification of the understandability of speech
US20030163311A1 (en) * 2002-02-26 2003-08-28 Li Gong Intelligent social agents
US7096183B2 (en) * 2002-02-27 2006-08-22 Matsushita Electric Industrial Co., Ltd. Customizing the speaking style of a speech synthesizer based on semantic analysis
GB0228245D0 (en) * 2002-12-04 2003-01-08 Mitel Knowledge Corp Apparatus and method for changing the playback rate of recorded speech
US7337108B2 (en) * 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
US7412378B2 (en) * 2004-04-01 2008-08-12 International Business Machines Corporation Method and system of dynamically adjusting a speech output rate to match a speech input rate
US7865365B2 (en) * 2004-08-05 2011-01-04 Nuance Communications, Inc. Personalized voice playback for screen reader
TWI235823B (en) * 2004-09-30 2005-07-11 Inventec Corp Speech recognition system and method thereof
US8694319B2 (en) * 2005-11-03 2014-04-08 International Business Machines Corporation Dynamic prosody adjustment for voice-rendering synthesized data

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6173985A (ja) * 1984-09-19 1986-04-16 渡辺 富夫 教習装置
JPS62145322A (ja) * 1985-12-20 1987-06-29 Canon Inc 音声出力装置
JPH04344930A (ja) * 1991-05-23 1992-12-01 Nippon Telegr & Teleph Corp <Ntt> 音声ガイダンス出力方式
JP2000194386A (ja) * 1998-12-24 2000-07-14 Omron Corp 音声認識応答装置及び方法
JP2001034293A (ja) * 1999-06-30 2001-02-09 Internatl Business Mach Corp <Ibm> 音声を転写するための方法及び装置
JP2003150194A (ja) * 2001-11-14 2003-05-23 Seiko Epson Corp 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム
JP2003255991A (ja) * 2002-03-06 2003-09-10 Sony Corp 対話制御システム、対話制御方法及びロボット装置
JP2004258290A (ja) * 2003-02-26 2004-09-16 Sony Corp 音声処理装置および方法、記録媒体、並びにプログラム

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016109897A (ja) * 2014-12-08 2016-06-20 シャープ株式会社 電子機器、発話制御方法、およびプログラム
KR20160074388A (ko) * 2014-12-18 2016-06-28 삼성전자주식회사 전자 장치의 제어 방법 및 장치
US11257459B2 (en) 2014-12-18 2022-02-22 Samsung Electronics Co., Ltd Method and apparatus for controlling an electronic device
KR102362042B1 (ko) * 2014-12-18 2022-02-11 삼성전자주식회사 전자 장치의 제어 방법 및 장치
WO2017168936A1 (ja) * 2016-03-31 2017-10-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JPWO2017168936A1 (ja) * 2016-03-31 2019-02-07 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US11462213B2 (en) 2016-03-31 2022-10-04 Sony Corporation Information processing apparatus, information processing method, and program
JP2021503112A (ja) * 2017-09-29 2021-02-04 トルーク インコーポレイテッドTorooc Inc. 自律行動ロボットを利用して対話サービスを提供する方法、システム、及び非一時的なコンピュータ読み取り可能な記録媒体
JPWO2019073668A1 (ja) * 2017-10-11 2020-11-05 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2019073668A1 (ja) * 2017-10-11 2019-04-18 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019211909A (ja) * 2018-06-01 2019-12-12 凸版印刷株式会社 情報提示システム、情報提示方法及びプログラム
JP7180127B2 (ja) 2018-06-01 2022-11-30 凸版印刷株式会社 情報提示システム、情報提示方法及びプログラム
CN112533526A (zh) * 2018-08-03 2021-03-19 尼德克株式会社 眼科图像处理装置、oct装置及眼科图像处理程序
JP2020018794A (ja) * 2018-08-03 2020-02-06 株式会社ニデック 眼科画像処理装置、oct装置、および眼科画像処理プログラム
JP7210927B2 (ja) 2018-08-03 2023-01-24 株式会社ニデック 眼科画像処理装置、oct装置、および眼科画像処理プログラム
JP2023024614A (ja) * 2018-08-03 2023-02-16 株式会社ニデック 眼科画像処理装置、oct装置、および眼科画像処理プログラム
US11961229B2 (en) 2018-08-03 2024-04-16 Nidek Co., Ltd. Ophthalmic image processing device, OCT device, and non-transitory computer-readable storage medium
JP7521575B2 (ja) 2018-08-03 2024-07-24 株式会社ニデック 眼科画像処理装置、oct装置、および眼科画像処理プログラム
JP2021117296A (ja) * 2020-01-23 2021-08-10 トヨタ自動車株式会社 エージェントシステム、端末装置およびエージェントプログラム

Also Published As

Publication number Publication date
US20060287850A1 (en) 2006-12-21
JPWO2005076258A1 (ja) 2007-10-18
US7684977B2 (en) 2010-03-23
JP3924583B2 (ja) 2007-06-06

Similar Documents

Publication Publication Date Title
WO2005076258A1 (ja) ユーザ適応型装置およびその制御方法
JP6693111B2 (ja) 対話装置、ロボット、対話方法及びプログラム
JP3968133B2 (ja) 音声認識対話処理方法および音声認識対話装置
US5946658A (en) Cartridge-based, interactive speech recognition method with a response creation capability
KR101423258B1 (ko) 상담 대화 제공 방법 및 이를 이용하는 장치
JP2017049471A (ja) 対話制御装置、対話制御方法及びプログラム
JP6970413B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JPWO2017200072A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
Aneja et al. Understanding conversational and expressive style in a multimodal embodied conversational agent
WO2017175351A1 (ja) 情報処理装置
JP2009037050A (ja) 対話装置と対話用プログラム
Ward et al. Non-native differences in prosodic-construction use
Siegert et al. “Speech Melody and Speech Content Didn’t Fit Together”—Differences in Speech Behavior for Device Directed and Human Directed Interactions
JP3681145B2 (ja) 発話装置及び発話方法
CN115088033A (zh) 代表对话中的人参与者生成的合成语音音频数据
JP6682104B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6551793B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
McDonnell et al. “Easier or Harder, Depending on Who the Hearing Person Is”: Codesigning Videoconferencing Tools for Small Groups with Mixed Hearing Status
Hoque et al. Robust recognition of emotion from speech
Cowan et al. Does voice anthropomorphism affect lexical alignment in speech-based human-computer dialogue?
Noyes Talking and writing—how natural in human–machine interaction?
JP6601625B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6647636B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
JP7322374B2 (ja) ロボットの制御装置、ロボット、ロボットの制御方法およびプログラム
Nishimura et al. Chat-like spoken dialog system for a multi-party dialog incorporating two agents and a user

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2005517657

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11449852

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

WWP Wipo information: published in national office

Ref document number: 11449852

Country of ref document: US

122 Ep: pct application non-entry in european phase