WO2019225201A1 - 情報処理装置及び情報処理方法、並びに情報処理システム - Google Patents
情報処理装置及び情報処理方法、並びに情報処理システム Download PDFInfo
- Publication number
- WO2019225201A1 WO2019225201A1 PCT/JP2019/015875 JP2019015875W WO2019225201A1 WO 2019225201 A1 WO2019225201 A1 WO 2019225201A1 JP 2019015875 W JP2019015875 W JP 2019015875W WO 2019225201 A1 WO2019225201 A1 WO 2019225201A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- user
- agent
- information
- information processing
- control unit
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 67
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 238000004891 communication Methods 0.000 claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims description 36
- 230000003993 interaction Effects 0.000 claims description 11
- 239000003795 chemical substances by application Substances 0.000 description 535
- 230000015572 biosynthetic process Effects 0.000 description 28
- 238000003786 synthesis reaction Methods 0.000 description 28
- 238000005516 engineering process Methods 0.000 description 26
- 238000000034 method Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 18
- 238000003384 imaging method Methods 0.000 description 14
- 230000004044 response Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 7
- 230000007613 environmental effect Effects 0.000 description 6
- 238000007726 management method Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000005406 washing Methods 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003183 myoelectrical effect Effects 0.000 description 2
- 230000035900 sweating Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/251—Learning process for intelligent management, e.g. learning user preferences for recommending movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/4508—Management of client data or end-user data
- H04N21/4532—Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/654—Transmission by server directed to the client
- H04N21/6543—Transmission by server directed to the client for forcing some client operations, e.g. recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/658—Transmission by the client directed to the server
- H04N21/6582—Data stored in the client, e.g. viewing habits, hardware capabilities, credit card number
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Definitions
- the technology disclosed in the present specification relates to an information processing apparatus, an information processing method, and an information processing system for processing a voice-based agent interaction.
- agents that present various kinds of information to users according to usages and situations while interacting with users using voice or the like have begun to spread. For example, on behalf of turning on / off and adjusting home appliances such as lighting and air conditioners, responding with voice when asked about weather forecasts, stock / exchange information, news, accepting product orders, contents of purchased books Agents that read aloud are known.
- the agent function is generally provided by cooperation between an agent device installed around the user in a home or the like and an agent service built on the cloud (see, for example, Patent Document 1).
- the agent device mainly provides a user interface such as voice input for receiving voice uttered by the user and voice output for answering an inquiry from the user by voice.
- high-load processing such as recognition and semantic analysis of speech input by the agent device, processing such as information retrieval in response to a user inquiry, speech synthesis based on the processing result, and the like is executed.
- Agent devices that directly interact with users are dedicated devices, as well as various CE devices such as indoor television receivers, air conditioners, recorders, washing machines, IoT (Internet of Things) devices, and smartphones.
- Various information devices in which an application for an agent resides such as an information terminal that can be carried such as a tablet or a tablet, an interactive robot, or a car navigation system installed in a vehicle (see, for example, Patent Document 1).
- An object of the technology disclosed in the present specification is to provide an information processing apparatus, an information processing method, and an information processing system for processing a voice-based agent interaction.
- the first aspect of the technology disclosed in this specification is: A communication unit for receiving information related to a dialog with a user via an agent resident in the first device; A control unit for controlling the external agent service; Is an information processing apparatus.
- the control unit collects the information including at least one of a user's image or sound, information on the operation of the first device by the user, and sensor information detected by a sensor installed in the first device.
- control unit executes the call after converting the format so as to conform to the call specification of each external agent service. Specifically, the control unit synthesizes the content of the call to the first foreign agent service and calls the first foreign agent service, or the content of the call to the second foreign agent service Is voice-synthesized, and a call is made by voice from the first device to the external agent device subordinate to the second foreign agent service.
- a second aspect of the technology disclosed in the present specification is a communication unit that receives an answer to the user, which is generated by processing information related to a user interaction, An output unit for outputting the answer; Is an information processing apparatus.
- the third aspect of the technology disclosed in this specification is: A communication step of receiving information regarding a user interaction via an agent resident in the first device; Control steps for controlling the external agent service; Is an information processing method.
- the fourth aspect of the technology disclosed in this specification is: A communication step for receiving an answer to the user, which is generated by processing information related to the user interaction; An output step of outputting the answer; Is an information processing method.
- the fifth aspect of the technology disclosed in this specification is: A first device on which an agent interacting with the user resides; A communication unit that receives information about user interaction via the agent, a control unit that controls an external agent service, Is an information processing system.
- system here refers to a logical collection of a plurality of devices (or functional modules that realize specific functions), and each device or functional module is in a single housing. It does not matter whether or not.
- FIG. 1 is a diagram illustrating an example of an application environment of the technology disclosed in this specification.
- FIG. 2 is a diagram schematically illustrating a configuration example of the information device 100 that can operate as an agent device.
- FIG. 3 is a diagram schematically illustrating a configuration example of an agent cloud platform using a cloud.
- FIG. 4 is a diagram showing how the agent system 330 collects local information via the TV agent 310.
- FIG. 5 is a diagram showing how the agent system 330 calls the foreign agent services 340A, 340B, and 340C.
- FIG. 6 is a diagram illustrating a state in which the agent system 330 calls the foreign agent service 340.
- FIG. 1 is a diagram illustrating an example of an application environment of the technology disclosed in this specification.
- FIG. 2 is a diagram schematically illustrating a configuration example of the information device 100 that can operate as an agent device.
- FIG. 3 is a diagram schematically illustrating a configuration example of an agent cloud platform using a cloud.
- FIG. 7 is a flowchart showing a processing procedure when the agent system 330 calls the foreign agent service 340 using the user profile information.
- FIG. 8 is a flowchart showing a processing procedure when the agent system 330 calls the external agent service 340 while protecting the sensitive information of the user.
- FIG. 9 is a diagram illustrating an example of account management in the agent cloud platform 300.
- FIG. 10 is a diagram illustrating a state in which the agent system 330 controls the external agent services 340A, 340B, and 340C according to the user state.
- FIG. 1 shows a living room 1 as an example of an application environment of the technology disclosed in this specification.
- a television receiver 11 and an agent device 12 are installed on the side board 13.
- the television receiver 11 has an agent application resident and can also operate as an agent device.
- a sofa 14 is installed in the living room 1 so as to face the television receiver 11, and a sofa table 15 is provided in front of the sofa 14.
- each user can perform various remote control operations such as channel selection, volume adjustment, and input / output device switching of the television receiver 11 using a remote control (not shown).
- each user can instruct the agent resident in the television receiver 11 to perform various operations such as channel selection of the television receiver 11, volume adjustment, and input / output device switching by voice.
- the sound wave of the sound emitted from the television receiver 11 reaches directly to the three people sitting on the sofa 14 as well as a reflected wave from the wall surface, ceiling, or floor surface.
- the sound uttered from the television receiver 11 includes the sound of the television program currently being selected and the synthesized sound returned from the agent.
- the sound emitted from the agent device 12 reaches the three people sitting on the sofa 14 as a direct wave, and also reaches as a reflected wave from the wall surface, ceiling, or floor surface.
- the application environment of the technology disclosed in this specification is not limited to a living room shared by a family in a general home as shown in FIG.
- the technology disclosed in this specification can also be applied to various rooms in which a television receiver providing an agent function is installed, such as a private room or bedroom of a specific user such as a study. Further, the technology disclosed in this specification can be applied not only to homes but also to corporate offices.
- FIG. 2 schematically shows a configuration example of the information device 100 that can operate as an agent device.
- the television receiver 11 in FIG. 1 is assumed as the information device 100.
- the information device 100 includes a processing unit 101, a tuner 102, a communication unit 103, a display unit 104, an audio input unit 105, an audio output unit 106, an imaging unit 107, a sensor unit 108, and a remote control reception unit 109. And a recording unit 110.
- Tuner 102 selects and receives terrestrial and satellite broadcast signals.
- the communication unit 103 is connected to an external network such as the Internet using wired communication such as Ethernet (registered trademark) or wireless communication such as Wi-Fi (registered trademark). Further, the communication unit 103 may be interconnected with each CE device in the home via a home network in accordance with a standard such as DLNA (registered trademark) (Digital Living Network Alliance), or with an IoT device.
- the interface function may be further provided.
- the display unit 104 is composed of, for example, a liquid crystal or an organic EL element, and includes a screen having an aspect ratio of 16: 9.
- the program content video, EPG (Electronic Program Guide), and data broadcast content selected by the tuner 102 are displayed.
- OSD On Screen Display
- a touch sensor may be superimposed on a part of or the entire region of the screen of the display unit 104.
- the voice input unit 105 includes a sound collection element such as a microphone, and is used to input voice generated in a room where the information device 100 is installed. Speech generated in a room can be uttered by a television program viewer or a user using a voice agent.
- the voice input unit 105 may include a microphone array in which a plurality of microphones are combined (some or all of the microphones may be externally connected to the information device 100.
- the voice input unit 105 may be a television set. It may include a microphone mounted on a remote control for the receiver 11 or a microphone mounted on an external device of the television receiver 11 such as a smartphone or a wearable device).
- the voice input unit 105 includes a plurality of microphones
- the voice from the position of the desired sound source for example, the voice of the user talking to the voice agent
- the voice from the position of the unnecessary sound source for example, other user's voice or sound output from other AV equipment in the room.
- the audio output unit 106 includes a sound generating element such as a speaker.
- the sound output unit 106 is used for outputting audio of program content and data broadcast content selected and received by the tuner 102, and outputting synthesized speech returned from the audio agent.
- a flat panel type speaker see, for example, Patent Document 3
- the audio output unit 106 may include a speaker array (multi-channel speaker or super multi-channel speaker) in which a plurality of speakers are combined (a part or all of the speakers are externally connected to the information device 100). Also good).
- the sound image is localized at a desired position (for example, the sound image of the voice agent's voice is localized at a position that is a predetermined relative position to the inquired user, or It is possible to make it difficult to hear the sound from a place other than the desired position.
- a sound field such as “wavefront synthesis” (for example, see Patent Document 4) in which a sound wavefront in a sound field is picked up by a plurality of microphones and the sound field is reproduced based on the obtained sound pickup signal.
- a reproduction technique can also be used.
- the imaging unit 107 is configured by a camera including an image sensor such as a CMOS (Complementary Metal Oxide Semiconductor) or a CCD (Charge Coupled Device), and is mainly in the front direction of the information device 100 (for example, in front of the screen of the display unit 104). The user is imaged.
- the imaging unit 107 may be, for example, a stereo camera using two cameras or a multi-lens camera using three or more cameras. Some or all of the cameras may be externally connected to the information device 100.
- the sensor unit 108 mainly senses environmental information in the room where the information device 100 is installed.
- the configuration of the sensor unit 108 (that is, what kind of sensor element is included) is arbitrary.
- the sensor unit 108 may include an object detection sensor and a depth sensor. Based on the detection results of the object detection sensor and the depth sensor (when necessary, the image captured by the imaging unit 107 is combined with the image recognition result), the layout of the furniture installed in the room can be detected.
- the sensor unit 108 may include an environmental sensor that detects environmental information such as an illuminance sensor, a temperature sensor, and a humidity sensor.
- the sensor unit 108 may include an infrared sensor or a human sensor.
- the sensor unit 108 may include a biosensor that detects a user's pulse, sweating, brain waves, myoelectric potential, exhalation, and the like. A part or all of the sensor units constituting the sensor unit 108 may be externally connected to the information device 100.
- the remote control reception unit 109 receives and processes a remote control command transmitted from a remote control (not shown) using infrared communication or short-range wireless communication.
- the operator of the remote controller is, for example, a viewing user of the television receiver 11 in the living room shown in FIG.
- the recording unit 110 is configured by a large-capacity recording device such as an HDD (Hard Disc Drive), and is mainly used for recording program content received by the tuner 102.
- HDD Hard Disc Drive
- the recording unit 110 is disposed in the information device 100 or is externally connected to the information device 100 via an interface such as HDMI (registered trademark) (High Definition Multimedia Interface) or USB (Universal Serial Bus). There is also.
- the processing unit 101 includes a processor and a memory, executes a program loaded in the memory, performs various processes, and controls the operation in the information device 100 in an integrated manner.
- various applications are executed under an execution environment provided by an operating system (OS).
- OS operating system
- a multiprocessor is available, or when multithread execution is possible depending on the OS, all processing units that can be executed in parallel can be read into the memory and executed in parallel.
- operations in the device 100 such as channel selection, volume adjustment, recording, and image quality adjustment according to the remote control command received by the remote control receiving unit 109, and channel selection received by the tuner 102 are received.
- the information processing apparatus 100 can function as a plurality of agent devices by the processing unit 101 executing a plurality of agent applications in parallel.
- the agent function is generally provided by cooperation between an agent device installed around the user and an agent service built on the cloud.
- FIG. 3 schematically shows a configuration example of the agent cloud platform 300 using the cloud.
- the agent cloud platform 300 is divided into a local side and a cloud side.
- the local side of the agent cloud platform 300 corresponds to the living room 1 shown in FIG. 1 and includes a TV agent 310 and an external agent device 320.
- the TV agent 310 is an agent that is resident in the information device 100 (corresponding to the television receiver 11 in FIG. 1), and the audio input unit 105, the audio output unit 106, the imaging unit 107, and the sensor unit that the information device 100 is equipped with. Each functional module such as 108 can be utilized.
- the external agent device 320 corresponds to the agent device 12 in FIG.
- the external agent device 320 is a device dedicated to a voice agent, and includes a voice input unit 321 and a voice output unit 322 for interacting with a user.
- the external agent device 320 is not a device dedicated to a voice agent, which is also referred to as “smart speaker”, “AI speaker”, “AI assistant”, or the like, but is a CE device other than the television receiver 11, an IoT device, an information terminal, or the like. It may be a resident voice agent.
- the TV agent 310 and the external agent device 320 are no different from the user as agents that perform voice-based dialogue.
- the former is called “TV agent” because it interacts with the user via the television receiver 11 (or provides an agent service having high affinity with the TV), and the latter is called “TV agent” outside the television receiver 11. Since they interact with each other (or provide an agent service with little connection with the TV broadcast service), they are called “external agent devices” and are distinguished for convenience.
- the cloud side of the agent cloud platform 300 includes an agent system 330 and a plurality of external agent services 340A, 340B, 340C,.
- the agent system 330 and the external agent services 340A, 340B, 340C,... are all the same from the viewpoint of providing an agent service that answers inquiries from local users.
- the former provides an agent service in direct cooperation with the TV agent 310, it is referred to as an “agent system”, and the latter does not directly cooperate with the TV agent 310, and provides an agent service from outside the television receiver 11. It is called “foreign agent service” because it is provided, and for the sake of convenience, the two are distinguished.
- the agent system 330 may be constructed on a server device operated by, for example, a product manufacturer or a seller of the television receiver 11, but is not limited to a specific operation form. Further, at least a part of the external agent services 340A, 340B, 340C,... (In the example shown in FIG. 3, the external agent service 340C) is directly linked to the external agent device 320 installed on the local side.
- the agent system 330 includes a speech recognition unit 331, a semantic analysis unit 332, a speech synthesis unit 333, and a control unit 334.
- the voice recognition unit 331 recognizes the user's utterance collected by the voice input unit 105 on the TV agent 310 side and converts it into text information.
- the semantic analysis unit 332 performs semantic analysis of the user's speech data based on the speech-recognized text information.
- the speech synthesizer 333 converts text information that is an answer to the user into speech data.
- the audio data is sent to the TV agent 310 and output from the audio output unit 106 to the inquiring user.
- the TV agent 310 may output an answer to the inquiry from the user by using the video output of the screen of the display unit 104 in addition to the audio output. Further, the TV agent 310 may output an answer to the inquiry from the user by using the output function of other CE devices or IoT devices connected to the television receiver 11 via the home network. .
- the control unit 334 executes a process for answering an inquiry from the user of the TV agent 310. For example, the control unit 334 searches for information requested by the user, obtains the content requested by the user, or places an order for a product.
- a learning function or an AI (Artificial Intelligence) function may be installed.
- control unit 334 can further call the external agent services 340A, 340B, 340C,... To answer the inquiry from the user.
- the control unit 334 may call all the external agent services 340A, 340B, 340C,... That can be requested, or may select and call any part of the external agent devices. For example, when each of the external agent services 340A, 340B, 340C,... Has its own special field, the control unit 334 determines the request destination according to the inquiry content from the user, the profile information of the inquired user, and the like. The external agent service may be selected.
- the control unit 334 may request the external agent service corresponding to the input start word as it is, or the start word The request destination foreign agent service may be selected while considering the above.
- a processing result including text information may be sent to the agent service 330.
- voice data obtained by voice synthesis of processing results may be sent to the agent service 330.
- the agent service 330 further includes a voice recognition unit 335 for voice recognition of voice data transmitted from the external agent services 340A, 340C, and the like, and a semantic analysis unit 336 for semantic analysis of the voice recognition result.
- the control unit 334 aggregates the responses from the external agent services 340A, 340B, and 340C at the level of the semantic analysis result, and generates a response sentence for the inquiry from the user.
- the method of counting a plurality of answers is arbitrary.
- the response from the specific external agent service may be selected in comparison with the response obtained by the agent system 330 itself, or the response from the specific external agent service may be selected based on a predetermined selection criterion such as majority vote.
- answers from a plurality of external agent services may be combined to generate one answer sentence.
- the voice synthesizer 333 converts the answer sentence generated by the controller 334 into voice data and sends it to the TV agent 310. Then, in the TV agent 310, the voice of the answer to the inquiring user is output from the voice output unit 106 to the user.
- the functional modules of the speech recognition unit 331, the semantic analysis unit 332, the speech synthesis unit 333, the control unit 334, the speech recognition unit 335, and the semantic analysis unit 336 that are provided in the agent system 330 are TV. It may be taken into the agent 310. Alternatively, these functional modules 331 to 336 may be constructed on one server device, or may be distributed and arranged on a plurality of server devices.
- each external agent service 340A, 340B, 340C,... Is almost the same.
- the functional configuration of the foreign agent service 340C will be described.
- the external agent service 340C includes a speech recognition unit 341C, a semantic analysis unit 342C, a processing unit 343C, and a speech synthesis unit 344C.
- the voice recognition unit 341C recognizes the speech collected by the voice input unit 321 of the external agent device 320 and converts it into text information. Note that the voice collected by the voice input unit 321 may be a voice output from the voice output unit 106 of the TV agent 310 in addition to the user's utterance.
- the semantic analysis unit 342C performs semantic analysis of the user's utterance data based on the speech-recognized text information.
- the processing unit 343C executes processing for answering an inquiry from the user. For example, when it is found from the semantic analysis result that the “activation word” designating the external agent service 340C is input by the user, the processing unit 343C starts executing the process.
- the speech synthesizer 344C converts text information that is an answer to the user into speech data.
- the audio data is sent to the external agent device 320 and is output from the audio output unit 322 to the inquiring user.
- the voice data generated by the voice synthesizer 322 may be transmitted to the external agent device 320 and output as voice, or may be transmitted to the agent system 330 and input to the voice recognition unit 335.
- one agent system 330 on the cloud side is depicted as providing an agent service to one TV agent 310, but there are a plurality of agent systems 330. It is assumed that an agent service is simultaneously provided to a plurality of TV agents operating on one television receiver. That is, in reality, one agent system 330 simultaneously provides agent services to the TV agents of a large number of television receivers installed in each home.
- one external agent device 320 is depicted, but the external agent device is not necessarily an essential component for implementing the technology disclosed in this specification. Alternatively, it should be understood that even when two or more foreign agent devices coexist on the local side, the technology disclosed in this specification can be similarly realized.
- the external agent services 340A, 340B, and 340C are also called “AI agents” or “AI speakers”, for example, and are already widely used at the time of filing of the present application. is there.
- This type of external agent service is assumed to have a myriad of external agent devices (corresponding to the external agent device 320 in FIG. 3) that can be connected via a wide area network such as the Internet.
- Each user can log in to the foreign agent service through the foreign agent device that he owns.
- Each external agent service sets an account for each logged-in user, and manages the profile information and history information of each user in association with the account (hereinafter also referred to as “account switching” function).
- the external agent service provides a fine-grained service that is customized or personalized for each user by, for example, sequentially updating profile information and history information each time an inquiry is received from a user or adopting a learning function. Can do.
- the agent system 330 is assumed to be operated by, for example, a product manufacturer or distributor of the television receiver 11, and the agent service is directly linked with the TV agent 310 to execute the agent service. provide. There is no difference that the agent system 330 is also an AI agent, but the user of the TV agent 310 is basically limited to the user who views the television receiver 11.
- the agent system 330 identifies a user based on a result of recognizing and personally identifying an image or sound captured by the imaging unit 107 or the voice input unit 105 of the television receiver 11 (that is, the local side), and for each user. Manage your account.
- the agent system 330 updates the profile information and history information of each user based on a detection result from the sensor unit 108 (which may include the imaging unit 107 and the voice input unit 105) every time an inquiry is received from the user.
- a detection result from the sensor unit 108 which may include the imaging unit 107 and the voice input unit 105
- the agent system 330 updates the profile information and history information of each user based on a detection result from the sensor unit 108 (which may include the imaging unit 107 and the voice input unit 105) every time an inquiry is received from the user.
- the agent system 330 is directly linked to the TV agent resident in the television receiver 11, but the device that can be directly linked to the agent system 330 is used.
- the type is not limited to the television receiver.
- information terminals that can be carried by users such as smartphones and tablets, wearable devices worn by users, various CE devices such as air conditioners, recorders and washing machines, IoT devices, interactive robots, car navigation systems installed in cars, etc.
- a modification in which an agent resident in various information devices directly cooperates with the agent system 330 is also assumed.
- the external agent device 320 may be a voice agent resident in the television receiver.
- FIG. 4 shows how the agent system 330 collects local information via the TV agent 310.
- the TV agent 310 constantly displays a viewing history of a television program, a current viewing situation, a recording history of the television receiver 11 itself (on / off, volume, image quality setting, etc.), a remote control operation history for the television receiver 11, and the like. This information is monitored and transmitted to the agent system 330. On the agent system 330 side, such information relating to the viewing history of the user's television program on the television receiver 11 is constantly collected from the TV agent 310 and managed in association with, for example, user profile information and account information. In addition, the TV agent 310 receives information acquired from each CE device interconnected with the television receiver 11 via a home network in accordance with a standard such as DLNA (registered trademark) or an IoT device installed in the same room. It may be transmitted to the agent system 330.
- DLNA registered trademark
- IoT device installed in the same room.
- the TV agent 310 transmits the user's face image captured by the imaging unit 107 included in the television receiver 11 and the user's voice data input to the voice input unit 105 to the agent system 330.
- the agent system 330 side performs personal identification processing by recognizing the face received from the TV agent 310 or recognizing voice data.
- the TV agent 310 may recognize the image captured by the imaging unit 107 or recognize the input voice of the voice input unit 105 and transmit the personal identification processing result to the agent system 330.
- the agent system 330 may set a new user account each time a new person is identified.
- the agent system 330 may distribute information collected from the local side via the TV agent 310 for each user and manage the information by associating it with a user account.
- the agent system 330 is based on the image data and audio data received from the TV agent 310, and information on the user status (for example, whether or not the TV program currently selected and received by the television receiver 11 is being viewed). May be collected.
- the TV agent 310 transmits detection data detected by the sensor unit 108 included in the information device 100 to the agent system 330.
- the sensor unit 108 includes an object detection sensor, a depth sensor, and an environmental sensor (such as an illuminance sensor, a temperature sensor, and a humidity sensor) that detects environmental information
- the agent system 330 collects the sensor information and collects the user information.
- the environmental information may be managed.
- the sensor unit 108 includes a biological sensor that detects a user's pulse, sweating, brain wave, myoelectric potential, expiration, etc.
- the agent system 330 collects the sensor information from the TV agent 310.
- the biometric information for each user may be managed.
- the information acquired by the TV agent 310 through the television receiver 11 may include sensitive information of the user. For this reason, the TV agent 310 may mask the sensitive information of the user and provide local information to the agent system 330. Details of the masking of sensitive information will be given later.
- the TV agent 310 and the agent system 330 may divide a user's profile by personal identification and perform account management in units of individuals. For example, individual recognition can be performed by recognizing the face image of the user imaged by the imaging unit 107 or by recognizing the user's utterance input from the audio input unit 105. Further, the TV agent 310 and the agent system 330 may be personally identified based on a viewing history of a TV program, an operation history of a remote controller, and the like. For example, it is possible to separate the tendency of viewing preferences for each user from habituality such as day of the week and time zone when watching TV programs, and to separate the operation keys for each user of remote control and various devices and use them for personal identification can do.
- FIG. 9 shows an example of account management in the agent cloud platform 300.
- the TV agent 310 grasps the family structure including “dad”, “mother”, and “children” based on the result of face recognition of the user's image captured by the image capturing unit 107, so that “dad”, “ Set up an account for each of “Mom” and “Child” to manage the profiles of each family member.
- the agent system 330 shares user account information with the TV agent 310.
- the agent system 330 grasps the family structure including “dad”, “mother”, and “children”, and each of “dad”, “mother”, and “children”. Set up an account.
- the agent system 330 does not need to identify a user individually, and may manage an account based on, for example, family relationships.
- the external agent service 340C when the external agent service 340C receives a call from the agent system 330, for example, the external agent service 340C divides the user profile and receives a call from the external agent device 320 to divide the profile and set an account. May be.
- the foreign agent device 320 may set the account by identifying the voice when called by the user. In the example shown in FIG. 9, the external agent service 340C and the external agent device 320 share the account information “dad”.
- the agent system 330 is capable of setting a plurality of user accounts based on the personal identification in one TV agent 310 (in the example shown in FIG. 9, “dad”, “mother”, and Set up an account for each "child").
- each of the external agent services 340A, 340B, and 340C can perform arbitrary account management. For example, when only one account of a representative user is set for one external agent device 320, an account is assigned with one external agent device 320 as one user, and profiles of a plurality of users are assigned under the user account. May be registered, or a plurality of sub-users may be registered under one user's account.
- Each of the external agent services 340A, 340B, and 340C sets only one representative user account for the agent system 330 even when called from the agent system 330, and profiles of multiple users under one user account. It is possible to apply the same account management such as registering a plurality of sub-users under one user account.
- FIG. 5 shows how the agent system 330 calls the external agent services 340A, 340B, and 340C.
- the agent system 330 calls the external agent services 340A, 340B, and 340C.
- the voice input unit 105 picks up the voice of the user and transmits it to the agent system 330.
- the voice recognition unit 331 recognizes the user's voice and the semantic analysis unit 332 performs semantic analysis (S502).
- the control unit 334 calls the foreign agent services 340A, 340B, and 340C in order to answer the inquiry from the user.
- the control unit 334 may call all the foreign agent services 340A, 340B, and 340C that can be called, or may selectively call one of the foreign agent services. For example, the control unit 334 may select and call the external agent service in accordance with the inquiry contents from the user, the profile information of the inquired user, and the like. Further, when a “start word” designating a specific external agent service is input by the user, the control unit 334 may call the external agent service corresponding to the input start word as it is, or the start word In consideration, the foreign agent service may be selected and called.
- the agent system 330 is configured such that, when calling any external agent service, the control unit 334 conforms to the calling specifications of each external agent service after performing voice recognition and semantic analysis on the input voice from the user. Convert and then execute the call.
- the voice synthesizer 333 uses the voice synthesizer 333 to send the inquiry content to the external agent service 340A generated by the control unit 334. Then, it is transmitted to the foreign agent service 340A (S503).
- the voice data converted by the voice synthesizer 333 may be substantially the same as the voice data sent from the TV agent 310, or the contents etc. may be processed by the controller 334. .
- the voice data sent from the agent system 330 is voice-recognized by the voice recognition unit 341 A, and further semantic analysis is performed by the semantic analysis unit 342 A, and the processing unit 343 A is sent from the agent system 330.
- a process for answering the inquiry is executed.
- the text information that is the processing result for the inquiry from the agent system 330 is converted into speech data by the speech synthesizer 344A, and then returned to the agent system 330 (S506).
- the external agent service 340B supports the call based on the voice recognition result, so the inquiry content to the external agent service generated by the control unit 334 is used as it is (that is, It transmits to the external agent service 340B (without synthesizing the speech) (S504).
- the content of the inquiry to the external agent service generated by the control unit 334 may be substantially the same as the voice recognition result of the voice data sent from the TV agent 310, or the content or the like is processed by the control unit 334. It may be.
- the analysis unit 343B that makes an inquiry from the agent system 330 performs semantic analysis
- the processing unit 343B executes a process for answering the inquiry from the agent system 330
- the control unit 334 on the agent system 330 side prepares an API (Application Programming Interface) for receiving a response from the external agent device 320.
- the agent system 330 calls the external agent service 340C, it corresponds to the call from the external agent device 320 that cooperates, so the content of the inquiry to the external agent service generated by the control unit 334 is displayed by the speech synthesis unit 333. After being converted into voice data, it is transmitted to the TV agent 310, and the external agent device 320 is called by voice from the TV agent 310 (S505).
- the voice that calls the external agent device 320 from the TV agent 310 may be substantially the same as when the user inquired of the TV agent 310 in S501, or the content or the like was processed by the control unit 334. May be. Further, an “activation word” for activating the external agent device 320 may be included.
- the voice collected by the voice input unit 321 of the external agent device 320 is transmitted to the external agent service 340C (S508).
- the voice data sent from the external agent device 320 is voice-recognized by the voice recognition unit 341C and further semantic-analyzed by the semantic analysis unit 342C, and the processing unit 343C is sent from the agent system 330.
- a process for answering the inquiry is executed.
- the text information that is the processing result for the inquiry from the agent system 330 is converted into voice data by the voice synthesizer 344C, and then returned to the agent system 330 (S509).
- the speech recognition unit 335 recognizes speech processing results returned from the external agent service 340A and the external agent service 340C, and the semantic analysis unit 336 performs semantic analysis on the speech recognition results. And then supplied to the control unit 334. In addition, the control unit 334 receives an answer by an API call from the external agent service 340B.
- the control unit 334 aggregates the responses from the external agent services 340A, 340B, and 340C at the level of the semantic analysis result, and generates a response sentence for the inquiry from the user.
- the method of counting a plurality of answers is arbitrary.
- the answer from the specific external agent service may be selected in comparison with the answer obtained by the agent system 330 itself, or the answer from the specific external agent service may be selected based on a predetermined selection criterion such as majority vote. Also good.
- one answer sentence may be generated by combining answers from a plurality of external agent services.
- the voice synthesizer 333 converts the answer sentence generated by the controller 334 into voice data and sends it to the TV agent 310 (S511). Then, in the TV agent 310, the voice of the answer to the inquiring user is outputted from the voice output unit 106 to the user (S512).
- the agent system 330 uses the TV agent 310 resident on the television receiver 11 installed in the room where the user is present to provide an agent service mainly using voice dialogue. Further, the agent system 330 can call the external agent services 340A, 340B, and 340C and reply to the user by utilizing external resources, in addition to returning the result of processing the inquiry from the user to the user.
- the agent system 330 can call each foreign agent service 340A, 340B, 340C by converting it into a format that conforms to the call specification for each foreign agent service 340A, 340B, 340C.
- the agent system 330 is expected to return a higher quality answer to the user using a call to the external agent service 340A, 340B, 340C.
- one problem when the agent system 330 calls the external agent services 340A, 340B, and 340C is that a plurality of pieces of user information are mixed.
- the agent system 330 calls the external agent service 340, whoever inquires about the family, the agent system 330 makes an inquiry with the account of the same user “agent system 330”. Information). For example, no matter who in the family makes an inquiry to the TV agent 310, if the agent system 330 always synthesizes the same voice and calls the external agent service 340A, the external agent service 340A cannot grasp who the inquiry is from. As a result, even if the external agent service 340 is equipped with an account switching function, it is difficult to provide a detailed service corresponding to each inquiry source user.
- the agent system 330 recognizes the face of the user image captured by the image capturing unit 107, recognizes the sound input by the sound input unit 105, or views and remote control operation history collected via the television receiver 11. Alternatively, it is possible to identify the profile of the inquiring user based on the detection result of the sensor unit 108 or the like.
- the agent system 330 identifies the user profile inquired by voice, maps the user profile in accordance with the account switching function of the external agent service 340, and makes a call using the profile.
- the agent system 330 calls the external agent service 340A or 340C, if it is an inquiry from the father, the tone and voice of an adult man are synthesized and called, and if the inquiry is from a mother, the tone of an adult woman is called. If the inquiry is from a child, the tone and voice color of the child are synthesized and called.
- the agent system 330 calls the external agent service 340B, if it is an inquiry from the father, it is called with an adult masculine tone call, and if it is an inquiry from a child, it is called a childish tone call. Make a call.
- the agent system 330 may call the external agent service 340 by adding user profile information as metadata.
- Each of the external agent services 340A, 340B, and 340C identifies a user profile based on how to call the agent system 330, performs account switching as appropriate, and returns an answer to the inquiry to the agent system 330.
- each of the external agent services 340A, 340B, and 340C There are various account switching methods in each of the external agent services 340A, 340B, and 340C. For example, an individual user account may be assigned each time the profile when an inquiry is received from the agent system 330 is switched. Further, while assigning an account with the agent system 330 as one user, a plurality of profiles for each family member may be registered under the user account. Alternatively, an account may be assigned with the agent system 330 as one user, and each family member may be registered as a sub-user under the user account.
- FIG. 7 shows a processing procedure when the agent system 330 calls the foreign agent service 340 using the user profile information in the form of a flowchart.
- the agent system 330 receives the face recognition result of the user image captured by the imaging unit 107, the voice recognition result of the input voice, and the sensor unit. Based on the detection result by 108, the profile of the user is identified (step S702).
- the agent system 330 performs a semantic analysis on the voice input in step S701 and selects an external agent service to be called (step S703).
- the agent system 330 checks whether or not the selected external agent service has an account switching function (step S704).
- the agent system 330 uses the user profile identified in step S702 to match the external agent service.
- a call is generated and the call is executed (step S705).
- the agent system 330 makes a call to the external agent service with a tone or tone that matches a profile such as the user's age or gender.
- step S704 when the call destination external agent service does not have an account switching function (No in step S704), the agent system 330 uses the user profile identified in step S702 and does not use the profile of the external agent service by the representative user. The call is executed (step S706).
- agent system 330 calls the external agent services 340A, 340B, and 340C .
- the voice input unit 105 performs voice input on the television receiver 11 installed in the living room
- the family tends to unconsciously have a conversation including words related to sensitive information, and the user goes to the agent system 330. May contain sensitive information.
- the agent system 330 automatically determines the inquiry and starts the service.
- JIS Q 15001 2006 concerning the protection and management of personal information, “Matters related to thought, creed or religion”, “Race, ethnicity, gate, permanent address (excluding information on the prefecture where they are located), physical / mental disabilities, “Criminal history and other matters that cause social discrimination”, “Matters of workers' right to organize, collective bargaining and other acts of collective action”, “Participation in collective action, exercise of petition rights and other political rights” "Matters related to” and “Matters related to health care or sex life” are cited as sensitive information.
- various information having business, financial, or personal characteristics such as passwords and account numbers are sensitive personal information.
- an image obtained by the imaging unit 107 capturing an image of a situation in the home such as a living room often includes various sensitive person information to be protected including a face image.
- the agent system 330 calls the external agent services 340A, 340B, and 340C while including the sensitive information, the sensitive information may be diffused and used illegally starting from any of the external agent services.
- the agent system 330 simply hides the sensitive information portion of the information collected from the TV agent 310 by blacking out the content of the inquiry, the external agent services 340A, 340B, and 340C are normal. Agent service can no longer be provided.
- the agent system 330 replaces the sensitive information included in the inquiry from the user with other information, and calls the external agent services 340A, 340B, and 340C while keeping the content itself readable.
- a query from a user includes a disease name
- person”, “dad”, “he” (pronoun) “ If the word is replaced with a word that cannot be identified, such as “address”, the address and the name of the town / village are removed, and it cannot be completely identified, but the intent of the inquiry is kept legible.
- inquiries that include the user's video and audio replace the user's face image and sound with the average face image and sound of the same age and gender as the user, and maintain the user's profile while maintaining the user's profile. Make it unidentifiable.
- the agent system 330 may be provided with a database for replacing words, images, and sounds including sensitive information, or this type of external database may be available.
- FIG. 8 shows a processing procedure in the form of a flowchart when calling the foreign agent service 340 while protecting the sensitive information of the user.
- the agent system 330 When the agent system 330 receives an inquiry from the user via the TV agent 310 (step S801), the agent system 330 recognizes the video and audio included in the inquiry and analyzes the intent of the inquiry (step S802).
- the agent system 330 checks whether the sensitive information of the user is included in the video, audio, or inquiry based on the recognition result and analysis result in step S802 (step S803).
- step S803 If the user's sensitive information is included in the information input via the TV agent 310 (Yes in step S803), the intent of the inquiry is kept in a readable state, and the sensitive information is changed to another information. Replace with information (step S804).
- step S804 for example, when the name of the disease is included in the inquiry from the user, the word “disease” is substituted, and when the personal name is included, “person”, “dad”, “he” (pronoun), “ Replace it with a word that cannot be used to identify an individual, such as “Personal”, and remove the street address or town / village name if it contains “address”. Also, the user's face image and sound are replaced with an average face image and average sound of the same age and gender as the user.
- the agent system 330 calls the external agent services 340A, 340B, and 340C to answer inquiries from the user, it becomes a gateway to prevent sensitive information from leaking to the external agent services 340A, 340B, and 340C. Can be masked.
- FIG. 8 shows an example in which the sensitive information is masked when the agent system 330 calls the external agent services 340A, 340B, and 340C. However, when the agent system 330 collects local information, the TV agent 310 May mask the sensitive information of the user.
- the description has focused on the operation in which the agent system 330 and the external agent services 340A, 340B, and 340C respond to inquiries from users.
- the agent system 330 and the external agent services 340A, 340B, and 340C can spontaneously talk to the user.
- the user talks from the TV agent 310 or the external agent device 320 while watching the television program, it gets in the way.
- a user is watching a recorded program, or when using a device other than the television receiver 11 (when interfering with music, calling, or playing a game) The same applies to the above.
- the agent system 330 can determine the viewing state of the user through the TV agent 310 resident in the television receiver 11, and can appropriately control the timing of talking to the user based on the determination result.
- the external agent service 340 ⁇ / b> C can grasp the state of the user only through voice input to the voice input unit 321 of the foreign agent device 320. Even in a silent state where the user does not speak, it is impossible to determine whether the user can talk or whether the user is watching the television program silently.
- the agent system 330 determines the user state based on the local information collected through the TV agent 310 and controls the operation of the external agent according to the user state.
- the agent system 330 invalidates the external agent services 340A, 340B, and 340C while the user is watching a television program. On the other hand, when the user finishes watching the television program, the agent system 330 activates the external agent services 340A, 340B, and 340C.
- the external agent services 340A, 340B, and 340C can make an inquiry to the agent system 330
- the external agent services 340A, 340B, and 340C request the agent system 330 before executing the main action.
- the user may be inquired about the state of the user or whether or not the main action can be performed.
- the agent system 330 suppresses the user's call from the TV agent 310 or the external agent device 320 in response to the fact that the main action cannot be performed while the user is watching the television program. On the other hand, if the user has finished watching the television program, a response is made indicating that a proactive action is possible.
- the external agent services 340A, 340B, and 340C can make an inquiry to the agent system 330 by, for example, voice or API call.
- FIG. 10 shows a state in which the agent system 330 controls the external agent services 340A, 340B, and 340C according to the state of the user.
- the agent system 330 receives the local situation, that is, the viewing history of the TV program, the current viewing status, the state of the television receiver 11 itself (on / off, volume, image quality setting, etc.), recording history, television A remote control operation history for the receiver 11 is acquired (S1001), and the control unit 334 determines whether the user is viewing a television program.
- the control unit 334 invalidates the external agent services 340A, 340B, and 340C while the user is watching the television program.
- the invalidation process is performed by the control unit 334 in a format that conforms to the call specifications of each foreign agent service. Specifically, when the control unit 334 generates an instruction for invalidating the external agent service 340A, the voice synthesis unit 333 converts the voice data into voice data, and then transmits the voice data to the foreign agent service 340A (S1002). Also, the control unit 334 transmits an instruction for invalidating the external agent service 340B to the external agent service 340B as it is (that is, without voice synthesis) (S1003).
- the voice synthesis unit 333 converts the voice data into voice data, transmits the voice data to the TV agent 310, and transmits the TV agent 310 to the external agent device 320.
- the invalidation of the external agent service 340C is instructed by voice (S1004).
- the external agent services 340A, 340B, and 340C suppress the call of the proactive user during the period that is invalidated by the agent system 330 as described above.
- agent system 330 may invalidate only some of the external agent services in addition to invalidating all the external agent services 340A, 340B, and 340C all at once.
- the control unit 334 activates the external agent services 340A, 340B, and 340C.
- the validation process is performed by the control unit 334 in a format that conforms to the call specifications of each foreign agent service.
- the voice synthesis unit 333 converts the voice data into voice data, and then transmits the voice data to the foreign agent service 340A (S1002).
- the control unit 334 transmits an instruction for enabling the external agent service 340B to the external agent service 340B as it is (that is, without voice synthesis) (S1003).
- the voice synthesis unit 333 converts the voice data into voice data, and then transmits the voice data to the TV agent 310. From the TV agent 310 to the external agent device 320, On the other hand, the activation of the foreign agent service 340C is instructed by voice (S1004). When disabled, the foreign agent services 340A, 340B, and 340C can be reinitiated by the agent system 330 as described above.
- agent system 330 may activate only some of the external agent services in addition to the simultaneous activation of all the external agent services 340A, 340B, and 340C.
- each external agent service 340A, 340B, 340C can inquire of the agent system 330 about the user's state or whether or not to execute the main action before calling the main user.
- the processing unit 343A when the processing unit 343A generates an inquiry to the agent system 330, the text information is converted into speech data by the speech synthesis unit 344A and then transmitted to the agent system 330 (S1005).
- the voice synthesis unit 333 converts the voice data into voice data. After the conversion, it is transmitted to the external agent service 340A (S1002).
- the voice synthesis is performed when the control unit 334 generates an instruction to activate the external agent service 340A. After being converted into voice data by the unit 333, it is transmitted to the external agent service 340A (S1002).
- the processing unit 343B In the external agent service 340B, the processing unit 343B generates an inquiry to the agent system 330 and makes an inquiry to the agent system 330 by calling an API (S1006).
- the control unit 334 When the user is watching a TV program and the user's call by the foreign agent service 340B should be suppressed, the control unit 334 directly gives an instruction for invalidating the foreign agent service 340B (that is, without voice synthesis). ) Transmit to the external agent service 340B (S1003).
- control unit 334 directly gives an instruction to activate the external agent service 340B (ie, (Without synthesizing the speech), it is transmitted to the external agent service 340B (S1003).
- the processing unit 343C when the processing unit 343C generates an inquiry to the agent system 330, the text information is converted into speech data by the speech synthesis unit 344C and then transmitted to the agent system 330 (S1007).
- the voice synthesis unit 333 converts the voice data into voice data. After conversion, the data is transmitted to the TV agent 310, and the TV agent 310 instructs the external agent device 320 to invalidate the external agent service 340C by voice (S1004).
- the voice synthesizer is generated when the control unit 334 generates an instruction to activate the external agent service 340C.
- the data is transmitted to the TV agent 310, and the TV agent 310 instructs the external agent device 320 to validate the external agent service 340C by voice (S1004).
- Inquiries from each of the external agent services 340A, 340B, and 340C to the agent system 330 can be made at arbitrary timings. Of course, two or more external agent services make an inquiry to the agent system 330 in synchronization. You may do it.
- the technology disclosed in this specification has been described mainly with respect to an embodiment in which the technology disclosed in this specification is applied to a TV agent resident in a television receiver.
- the gist of the technology disclosed in this specification is limited to this. is not.
- Various CE equipment and IoT devices such as air conditioners, video recorders and washing machines, information terminals that can be carried by users such as smartphones and tablets, wearable equipment worn by users, interactive robots, various information equipment such as car navigation systems installed in cars
- the technology disclosed in this specification can be applied to various agent systems that use agents resident in the system so that the external agent service can be used as necessary.
- a communication unit that receives information related to a dialog with a user via an agent resident in the first device;
- a control unit for controlling the external agent service;
- An information processing apparatus comprising: (1-1) a speech recognition unit for recognizing speech input from the user, a semantic analysis unit for semantic analysis of the speech recognition result, and a speech synthesis unit for speech synthesis of an answer to the user; Outputting a voice synthesis result by the voice synthesis unit from the first device;
- the information processing apparatus includes the information including at least one of a user's image or sound, information on the operation of the first device by the user, and sensor information detected by a sensor installed in the first device.
- the first device is a television receiver;
- the control unit collects the information including a viewing history of a TV program by a user, a recording history, and a remote control operation history.
- the information processing apparatus according to any one of (1) or (2) above.
- the control unit manages a user account based on information collected from the first device.
- the information processing apparatus according to any of (2) or (3) above.
- the control unit controls calling of the foreign agent service.
- the control unit executes the call after converting the format so as to conform to the call specification of each foreign agent service.
- the control unit synthesizes the content of the call to the first foreign agent service, and calls the first foreign agent service.
- the control unit synthesizes the content of the call to the second external agent service, and makes a call by voice from the first device to the external agent device subordinate to the second external agent service.
- the information processing apparatus according to (6) above. (9) a speech recognition unit for recognizing an answer by speech from the external agent service, and a semantic analysis unit for semantic analysis of the speech recognition result;
- the information processing apparatus according to any one of (5) to (8).
- (10) Receive an answer from an external agent service by calling an API.
- the control unit selects or synthesizes answers from a plurality of external agent services, and generates an answer to the inquiry from the user to the agent.
- the information processing apparatus according to (5) above.
- (12) The control unit controls calling of the external agent service based on profile information of a user who has called the first device.
- the information processing apparatus according to any one of (1) to (11) above.
- (13) The control unit makes a call based on a profile identification result of a user who has called the first device, to an external agent service having a profile switching function.
- the control unit controls calling of an external agent service based on sensitive information of a user who has called the first device.
- the information processing apparatus according to any one of (1) to (13) above.
- the control unit performs processing for replacing the sensitive information included in the user's call with another information, and calls the external agent service.
- the control unit controls the foreign agent service based on a user state.
- (16-1) The control unit controls a foreign agent service based on a usage state of the first device by a user.
- (16-2) The control unit disables and enables the foreign agent service based on the user status.
- (16-3) The control unit responds to an inquiry about an agent call from an external agent service based on a user state.
- An information processing apparatus comprising: (18) a communication step of receiving information related to a dialog with a user via an agent resident in the first device; Control steps for controlling the external agent service;
- An information processing method comprising: (19) A communication step of receiving an answer to the user, which is generated by processing information related to a dialogue with the user; An output step of outputting the answer;
- An information processing method comprising: (20) a first device on which an agent that interacts with a user resides; A communication unit that receives information about user interaction via the agent, a control unit that controls an external agent service,
- An information processing system comprising: (20-1) The first device receives and outputs an answer to the user, which is generated by processing information related to the dialogue with the user.
- the information processing system according to (20) above.
- 100 Information equipment (TV receiver) DESCRIPTION OF SYMBOLS 101 ... Processing part, 102 ... Tuner, 103 ... Communication part 104 ... Display part, 105 ... Audio
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
音声をベースとするエージェントの対話を処理する情報処理装置及び情報処理方法、並びに情報処理システムを提供する。 情報処理装置は、第1の機器に常駐するエージェントを介したユーザとの対話に関する情報を受信する通信部と、外部エージェントサービスを制御する制御部を具備する。前記制御部は、ユーザの画像又は音声、ユーザによる前記第1の機器の操作に関する情報、前記第1の機器が装備するセンサが検出したセンサ情報のうち少なくとも1つを含む前記情報を収集する。前記制御部は、外部エージェントサービスの呼び出しを制御する。
Description
本明細書で開示する技術は、音声をベースとするエージェントの対話を処理する情報処理装置及び情報処理方法、並びに情報処理システムに関する。
最近、音声などを用いてユーザと対話を行いながら、用途や状況に応じて種々の情報をユーザに提示するエージェントが普及し始めている。例えば、照明やエアコンなどの家電機器のオンオフや調整操作を代行する他、天気予報や株・為替情報、ニュースについて聞かれると音声で回答したり、商品の注文を受け付けたり、購入した書籍の内容を読み上げたりするエージェントが知られている。
エージェント機能は、一般に、家庭内などでユーザの周囲に設置されるエージェントデバイスと、クラウド上に構築されるエージェントサービスの連携により提供される(例えば、特許文献1を参照のこと)。例えば、エージェントデバイスは、ユーザが発話する音声を受け付ける音声入力、並びにユーザからの問い合せに対して音声で回答する音声出力といったユーザインターフェースを主に提供する。一方のエージェントサービス側では、エージェントデバイスで入力された音声の認識や意味解析、ユーザの問い合わせに応じた情報検索などの処理、処理結果に基づく音声合成など、負荷の高い処理を実行する。
また、ユーザと直接対話を行うエージェントデバイスは、専用の装置である他、屋内に設置されたテレビ受像機、エアコン、録画機、洗濯機などの各種CE機器やIoT(Internet of Thing)デバイス、スマートフォンやタブレットなどの持ち運びが可能な情報端末、対話型ロボット、車内に設置されたカーナビなど、エージェント用アプリケーションが常駐する各種情報機器であってもよい(例えば、特許文献1を参照のこと)。
本明細書で開示する技術の目的は、音声をベースとするエージェントの対話を処理する情報処理装置及び情報処理方法、並びに情報処理システムを提供することにある。
本明細書で開示する技術の第1の側面は、
第1の機器に常駐するエージェントを介したユーザとの対話に関する情報を受信する通信部と、
外部エージェントサービスを制御する制御部と、
を具備する情報処理装置である。
第1の機器に常駐するエージェントを介したユーザとの対話に関する情報を受信する通信部と、
外部エージェントサービスを制御する制御部と、
を具備する情報処理装置である。
前記制御部は、ユーザの画像又は音声、ユーザによる前記第1の機器の操作に関する情報、前記第1の機器が装備するセンサが検出したセンサ情報のうち少なくとも1つを含む前記情報を収集する。
また、前記制御部は、各外部エージェントサービスの呼び出し仕様に適合するように形式変換してから、呼び出しを実行する。具体的には、前記制御部は、第1の外部エージェントサービスへの呼び出し内容を音声合成して、前記第1の外部エージェントサービスの呼び出しを行い、又は、第2の外部エージェントサービスへの呼び出し内容を音声合成し、前記第1の機器から前記第2の外部エージェントサービスの配下の外部エージェントデバイスに対して音声による呼び出しを行う。
また、本明細書で開示する技術の第2の側面は、ユーザとの対話に関する情報が処理されて生成された、前記ユーザへの回答を受信する通信部と、
前記回答を出力する出力部と、
を具備する情報処理装置である。
前記回答を出力する出力部と、
を具備する情報処理装置である。
また、本明細書で開示する技術の第3の側面は、
第1の機器に常駐するエージェントを介したユーザとの対話に関する情報を受信する通信ステップと、
外部エージェントサービスを制御する制御ステップと、
を有する情報処理方法である。
第1の機器に常駐するエージェントを介したユーザとの対話に関する情報を受信する通信ステップと、
外部エージェントサービスを制御する制御ステップと、
を有する情報処理方法である。
また、本明細書で開示する技術の第4の側面は、
ユーザとの対話に関する情報が処理されて生成された、前記ユーザへの回答を受信する通信ステップと、
前記回答を出力する出力ステップと、
を有する情報処理方法である。
ユーザとの対話に関する情報が処理されて生成された、前記ユーザへの回答を受信する通信ステップと、
前記回答を出力する出力ステップと、
を有する情報処理方法である。
また、本明細書で開示する技術の第5の側面は、
ユーザと対話するエージェントが常駐する第1の機器と、
前記エージェントを介したユーザとの対話に関する情報を受信する通信部と、 外部エージェントサービスを制御する制御部と、
を具備する情報処理システムである。
ユーザと対話するエージェントが常駐する第1の機器と、
前記エージェントを介したユーザとの対話に関する情報を受信する通信部と、 外部エージェントサービスを制御する制御部と、
を具備する情報処理システムである。
但し、ここで言う「システム」とは、複数の装置(又は特定の機能を実現する機能モジュール)が論理的に集合した物のことを言い、各装置や機能モジュールが単一の筐体内にあるか否かは特に問わない。
本明細書で開示する技術によれば、音声をベースとするエージェントの対話を処理する情報処理装置及び情報処理方法、並びに情報処理システムを提供することができる。
なお、本明細書に記載された効果は、あくまでも例示であり、本発明の効果はこれに限定されるものではない。また、本発明が、上記の効果以外に、さらに付加的な効果を奏する場合もある。
本明細書で開示する技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
以下、図面を参照しながら本明細書で開示する技術の実施形態について詳細に説明する。
図1には、本明細書で開示する技術の適用環境の一例として、リビングルーム1を示している。サイドボード13上には、テレビ受像機11と、エージェントデバイス12が設置されている。後述するように、テレビ受像機11は、エージェント用アプリケーションが常駐し、エージェントデバイスとしても動作することができる。
また、リビングルーム1内には、テレビ受像機11と対面するようにソファ14が設置され、ソファ14の前方にはソファテーブル15が備えられている。
図1に示す例では、親子3人がソファ14に座っている。3人は、テレビ受像機11に表示されているテレビ番組の視聴者であるとともに、テレビ受像機11上で動作するエージェント若しくはエージェントデバイス12のユーザであり、エージェントに対して問い合わせして、返答を待つ。また、各ユーザは、リモコン(図示しない)を使ってテレビ受像機11の選局、音量調整、入出力機器の切り替えなどさまざまなリモコン操作を行うことができるものとする。あるいは、各ユーザは、テレビ受像機11に常駐するエージェントに対して、テレビ受像機11の選局、音量調整、入出力機器の切り替えなどさまざまな操作を、音声により指示することもできる。
テレビ受像機11から発される音声の音波は、ソファ14に座っている3人に直接波として届く他、壁面や天井、床面からの反射波としても届く。テレビ受像機11から発される音声には、選局受信中のテレビ番組の音声と、エージェントから返信された合成音声が含まれる。エージェントデバイス12から発される音声も同様に、ソファ14に座っている3人に直接波として届く他、壁面や天井、床面からの反射波としても届く。
なお、本明細書で開示する技術の適用環境は、図1に示したような一般家庭内で家族が共有するリビングルームには限定されない。書斎などの特定のユーザの個室や寝室など、エージェント機能を提供するテレビ受像機が設置されるさまざまな部屋にも本明細書で開示する技術を適用可能である。また、家庭内だけでなく、企業のオフィスにも、本明細書で開示する技術を適用することができる。
図2には、エージェントデバイスとして動作することが可能な情報機器100の構成例を模式的に示している。ここでは情報機器100として、図1中のテレビ受像機11を想定している。情報機器100は、処理部101と、チューナ102と、通信部103と、表示部104と、音声入力部105と、音声出力部106と、撮像部107と、センサ部108と、リモコン受信部109と、記録部110を備えている。
チューナ102は、地上波放送並びに衛星放送の放送信号を選局受信する。また、通信部103は、イーサネット(登録商標)などの有線通信又はWi-Fi(登録商標)などの無線通信を利用して、インターネットなどの外部ネットワークに接続している。また、通信部103は、例えばDLNA(登録商標)(Digital Living Network Alliance)などの規格に則って、ホームネットワークを介して家庭内の各CE機器と相互接続していてもよいし、IoTデバイスとのインターフェース機能をさらに備えていてもよい。
表示部104は、例えば液晶や有機EL素子などで構成され、16:9の縦横比からなる画面を備え、チューナ102で選局受信した番組コンテンツの映像やEPG(Electronic Program Guide)、データ放送コンテンツを表示したり、OSD(On Screen Display)を表示したりするのに使用される。なお、表示部104の画面の一部又は全部の領域にタッチセンサが重畳されていてもよい。
音声入力部105は、マイクなどの収音素子で構成され、情報機器100が設置された室内で発生する音声の入力に用いられる。室内で発生する音声として、テレビ番組の視聴者若しくは音声エージェントを利用するユーザによる発話を挙げることができる。音声入力部105は、複数のマイクを組み合わせたマイクロフォンアレイを備えていてもよい(一部又は全部のマイクロホンが情報機器100に外付け接続されていてもよい。あるいは、音声入力部105は、テレビ受像機11用のリモコンに搭載されたマイクを含んでいてもよいし、スマートフォンやウェアラブル機器などテレビ受像機11の外部機器に搭載されたマイクを含んでいてもよい)。音声入力部105が複数のマイクロホンを備える場合、ビームフォーム処理により、所望する音源の位置からの音声(例えば、音声エージェントに話し掛けるユーザの音声)を高めたり、逆に不要な音源の位置からの音声(例えば、その他のユーザの音声や、室内の他のAV機器から出力される音響など)を抑圧したりすることができる。
音声出力部106は、スピーカーなどの音響発生素子で構成される。音響出力部106は、チューナ102で選局受信した番組コンテンツやデータ放送コンテンツの音声出力、並びに音声エージェントから返信された合成音声の出力などに用いられる。コーン型スピーカーの他、フラットパネル型スピーカー(例えば、特許文献3を参照のこと)を音声出力部106に用いることができる。また、音声出力部106は、複数のスピーカーを組み合わせたスピーカーアレイ(多チャンネルスピーカー若しくは超多チャンネルスピーカー)を備えていてもよい(一部又は全部のスピーカーが情報機器100に外付け接続されていてもよい)。音声出力部106が複数のスピーカーを備える場合、所望の位置に音像を定位させたり(例えば、音声エージェントの音声の音像を、問い合わせたユーザに対して所定の相対位置となる場所に定位させる、あるいは、テレビ番組の音声とは混ざらない場所に定位させる)、所望の位置以外の場所からは音声を聴こえ難くしたりすることができる。また、音場における音声の波面を複数のマイクロホンで収音し、得られた収音信号に基づいて音場を再現する「波面合成」(例えば、特許文献4を参照のこと)などの音場再現手法を利用することもできる。
撮像部107は、例えばCMOS(Complementary Metal Oxyde Semiconductor)やCCD(Charge Couopled Device)などのイメージセンサからなるカメラで構成され、主に情報機器100の正面方向(例えば、表示部104の画面前方)にいるユーザを撮像する。撮像部107は、例えば、2台のカメラを用いたステレオカメラや、3台以上のカメラを用いた多眼カメラであってもよい。また、一部又は全部のカメラが情報機器100に外付け接続されていてもよい。
センサ部108は、主に、情報機器100が設置されている室内の環境情報をセンシングする。センサ部108の構成(すなわち、どのようなセンサ素子を含むか)は任意である。例えば、センサ部108は、物体検出センサや深度センサを含んでいてもよい。物体検出センサや深度センサの検出結果に基づいて(必要に応じて、撮像部107で撮影した画像に画像認識結果と併せて)、室内に設置された家具のレイアウトを検出することができる。また、センサ部108は、照度センサや温度センサ、湿度センサなどの環境情報を検出する環境センサを備えていてもよい。また、センサ部108は、赤外線センサや人感センサを備えていてもよい。また、センサ部108は、ユーザの脈拍や発汗、脳波、筋電位、呼気などを検出する生体センサを備えていてもよい。センサ部108を構成するセンサ部の一部又は全部が情報機器100に外付け接続されていてもよい。
リモコン受信部109は、リモコン(図示しない)から赤外線通信や近距離無線通信などを利用して送信されるリモコンコマンドを受信処理する。リモコンの操作者は、例えば、図1に示したリビングにいるテレビ受像機11の視聴ユーザなどである。
記録部110は、例えばHDD(Hard Disc Drive)などの大容量記録装置で構成され、主にチューナ102で受信した番組コンテンツの録画に使用される。記録部110は、情報機器100内に配設される他、HDMI(登録商標)(High Definition Multimedia Interface)やUSB(Universal Serial Bus)などのインターフェースを介して情報機器100に外付け接続される場合もある。
処理部101は、プロセッサ及びメモリを含み、メモリにロードしたプログラムを実行して、各種処理を実施して、情報機器100内の動作を統括的にコントロールする。処理部101内では、基本的には、オペレーティングシステム(OS)が提供する実行環境下で、さまざまなアプリケーションが実行される。例えばマルチプロセッサが利用可能な場合、あるいはOSによってマルチスレッド実行が可能な場合においては、並列実行可能な処理単位はすべてメモリに読み出され並列実行させることができる。
処理部101において実行される処理として、リモコン受信部109で受信したリモコンコマンドに応じた選局、音量調整、録画、並びに画質調整などの機器100内の操作や、チューナ102で選局受信された番組コンテンツの映像及び音声出力処理、記録部110に録画した番組コンテンツの再生出力処理、チューナ102又は通信部103を介して受信したデータ放送アプリケーションの実行、音声エージェントなど各種アプリケーションの実行を挙げることができる。また、処理部101が複数のエージェント用アプリケーションを並列実行することにより、情報機器100が複数のエージェントデバイスとして機能することも可能である。
エージェント機能は、一般に、ユーザの周囲に設置されるエージェントデバイスと、クラウド上に構築されるエージェントサービスの連携により提供される。図3には、クラウドを利用したエージェントクラウドプラットフォーム300の構成例を模式的に示している。エージェントクラウドプラットフォーム300はローカル側とクラウド側に区分される。
エージェントクラウドプラットフォーム300のローカル側は、図1に示したリビングルーム1などに相当し、TVエージェント310と、外部エージェントデバイス320を含んでいる。
TVエージェント310は、情報機器100(図1中のテレビ受像機11に対応)に常駐するエージェントであり、情報機器100が装備する音声入力部105、音声出力部106、撮像部107、及びセンサ部108などの各機能モジュールを活用することができる。
外部エージェントデバイス320は、図1中のエージェントデバイス12に対応する。外部エージェントデバイス320は、音声エージェント専用のデバイスであり、ユーザと対話するための音声入力部321及び音声出力部322を備えている。但し、外部エージェントデバイス320は、「スマートスピーカー」、「AIスピーカー」、「AIアシスタント」などとも呼ばれる音声エージェント専用のデバイスではなく、テレビ受像機11以外のCE機器や、IoTデバイス、情報端末などに常駐する音声エージェントであってもよい。
TVエージェント310も外部エージェントデバイス320も、ユーザから見れば、音声ベースで対話を行うエージェントとして相違ない。但し、前者はテレビ受像機11を介してユーザと対話する(若しくは、TVと親和性の高いエージェントサービスを提供する)ことから「TVエージェント」と呼び、後者はテレビ受像機11の外部でユーザと対話する(若しくは、TV放送サービスとは結び付きの少ないエージェントサービスを提供する)ことから「外部エージェントデバイス」と呼んで、便宜上、両者を区別する。
一方、エージェントクラウドプラットフォーム300のクラウド側は、エージェントシステム330と、複数の外部エージェントサービス340A、340B、340C、…を含んでいる。エージェントシステム330並びに外部エージェントサービス340A、340B、340C、…はいずれも、ローカル側のユーザからの問い合わせに回答するエージェントサービスを提供するという観点からは、ユーザから見れば相違しない。但し、前者はTVエージェント310と直接連携してエージェントサービスを提供することから「エージェントシステム」と呼び、後者はTVエージェント310とは直接には連携せず、テレビ受像機11の外部からエージェントサービスを提供することから「外部エージェントサービス」と呼んで、便宜上、両者を区別する。エージェントシステム330は、例えばテレビ受像機11の製品製造元又は販売元が運営するサーバ装置上に構築されることもあるが、特定の運営形態には限定されない。また、外部エージェントサービス340A、340B、340C、…の少なくとも一部(図3に示す例では、外部エージェントサービス340C)は、ローカル側に設置された外部エージェントデバイス320と直接連携している。
エージェントシステム330は、音声認識部331と、意味解析部332と、音声合成部333と、制御部334を備えている。
音声認識部331は、TVエージェント310側の音声入力部105で収音されたユーザの発話を音声認識して、テキスト情報に変換する。意味解析部332は、音声認識されたテキスト情報に基づいて、ユーザの発話データの意味解析を行う。また、音声合成部333は、ユーザに対する回答となるテキスト情報を音声データに変換する。音声データは、TVエージェント310に送られ、音声出力部106から問い合わせ元のユーザに対して音声出力される。なお、TVエージェント310は、音声出力以外に、表示部104の画面の映像出力を併せて用いて、ユーザからの問い合わせに対する回答を出力するようにしてもよい。また、TVエージェント310は、テレビ受像機11とホームネットワーク経由で接続される他のCE機器やIoTデバイスの出力機能などを併せて用いて、ユーザからの問い合わせに対する回答を出力するようにしてもよい。
制御部334は、TVエージェント310のユーザからの問い合わせに回答するための処理を実行する。例えば、制御部334は、ユーザが問い合わせた情報を検索したり、ユーザが要求したコンテンツを取得したり、商品の注文を行ったりする、ユーザからの問い合わせに回答するために、制御部334は、学習機能やAI(Artificial Intelligence)機能を搭載していてもよい。
また、制御部334は、ユーザからの問い合わせに回答するために、さらに外部エージェントサービス340A、340B、340C、…を呼び出すことができる。制御部334は、リクエストすることが可能なすべての外部エージェントサービス340A、340B、340C、…を呼び出してもよいし、いずれか一部の外部エージェントデバイスを選択して呼び出すようにしてもよい。例えば、各外部エージェントサービス340A、340B、340C、…がそれぞれ固有の得意分野を有する場合には、制御部334は、ユーザからの問い合わせ内容や問い合わせしたユーザのプロファイル情報などに応じて、リクエスト先の外部エージェントサービスを取捨選択するようにしてもよい。また、ユーザから特定の外部エージェントサービスを指定する「起動ワード」が音声入力されたときには、制御部334は、入力された起動ワードに対応する外部エージェントサービスにそのままリクエストしてもよいし、起動ワードを考慮しつつ、リクエスト先の外部エージェントサービスを取捨選択するようにしてもよい。
また、エージェントシステム330から外部エージェントサービス340A、340B、340C、…を呼び出す方法はいくつか考えられる。例えば、ユーザからの問い合わせを意味解析部332で意味解析して得たテキスト情報を、外部エージェントサービス340Bに送信してもよいし、そのテキスト情報を音声合成部333で音声合成した音声データを外部エージェントサービス340Aに送信して、ユーザからの音声入力のような形態で問い合わせしてもよい。あるいは、エージェントシステム330が外部エージェントサービス340Cにリクエストする場合には、音声合成部333で音声合成した音声データをTVエージェント310に送信して、TVエージェント310の音声出力部106から、あたかも室内のユーザが問い合わせるような音声を出力して、外部エージェントデバイス320を通じて問い合わせするようにすることもできる。
また、リクエスト先の外部エージェントサービス340A、340B、340C、…からエージェントシステム100に対して回答する方法もいくつか考えられる。例えば、外部エージェントサービス340Bのように、テキスト情報などからなる(若しくは、音声合成前の)処理結果がエージェントサービス330に送られてくる場合がある。また、外部エージェントサービス340A、340Cのように、処理結果を音声合成した音声データが、エージェントサービス330に送られてくる場合もある。エージェントサービス330は、外部エージェントサービス340A、340Cなどから送られてきた音声データを音声認識するための音声認識部335と、その音声認識結果を意味解析する意味解析部336をさらに備えている。
そして、制御部334は、各外部エージェントサービス340A、340B、340Cからの回答を意味解析結果のレベルで集計して、ユーザからの問い合わせに対する回答文を生成する。複数の回答を集計する方法は任意である。エージェントシステム330自身が得た回答と照らし合わせて特定の外部エージェントサービスからの回答を選択してもよいし、多数決など所定の選択基準に基づいて特定の外部エージェントサービスからの回答を選択してもよいし、複数の外部エージェントサービスからの回答を合成して1つの回答文を生成するようにしてもよい。いずれにせよ、音声合成部333は、制御部334で生成した回答文を音声データに変換して、TVエージェント310に送られる。そして、TVエージェント310では、問い合わせ元のユーザに対する回答の音声が、音声出力部106から ユーザに対して音声出力される。
なお、エージェントシステム330が装備する音声認識部331と、意味解析部332と、音声合成部333と、制御部334、音声認識部335、意味解析部336のうち一部又は全部の機能モジュールがTVエージェント310に取り込まれていてもよい。あるいは、これらの機能モジュール331~336が1台のサーバ装置上に構築されていてもよいし、複数台のサーバ装置に分散して配置されてもよい。
各外部エージェントサービス340A、340B、340C、…の機能的構成はほぼ同様である。以下では、代表して、外部エージェントサービス340Cの機能的構成について説明する。
外部エージェントサービス340Cは、音声認識部341Cと、意味解析部342Cと、処理部343Cと、音声合成部344Cを備えている。
音声認識部341Cは、外部エージェントデバイス320の音声入力部321で収音された発話を音声認識して、テキスト情報に変換する。なお、音声入力部321で収音する音声は、ユーザの発話の他、TVエージェント310の音声出力部106から出力する音声である場合も想定される。
意味解析部342Cは、音声認識されたテキスト情報に基づいて、ユーザの発話データの意味解析を行う。処理部343Cは、ユーザからの問い合わせに回答するための処理を実行する。例えば、外部エージェントサービス340Cを指定する「起動ワード」がユーザから音声入力されたことが意味解析結果により分かると、処理部343Cは処理実行を開始する。
音声合成部344Cは、ユーザに対する回答となるテキスト情報を音声データに変換する。音声データは、外部エージェントデバイス320に送られ、音声出力部322から問い合わせ元のユーザに対して音声出力される。なお、音声合成部322で生成した音声データは、外部エージェントデバイス320に送信して音声出力される他、エージェントシステム330に送信され、音声認識部335に入力される場合も想定される。
なお、図3では、図面の簡素化のため、クラウド側の1つのエージェントシステム330が1台のTVエージェント310に対してエージェントサービスを提供するように描いているが、1つのエージェントシステム330が複数台のテレビ受像機上で動作している複数のTVエージェントに対して同時にエージェントサービスを提供することが想定される。すなわち、現実には、1つのエージェントシステム330が各家庭に設置された多数のテレビ受像機のTVエージェントに対して、同時にエージェントサービスを提供する。
また、図3では、紙面の都合上、3つの外部エージェントサービス340A、340B、340Cを描いているが、エージェントシステム330と連携する外部エージェントサービスの数は3つに限定されず、2以下又は4以上の外部エージェントサービスと連携することが想定される。
また、図3では、1台の外部エージェントデバイス320を描いているが、本明細書で開示する技術を実装する上で、外部エージェントデバイスは必ずしも必須の構成要素ではない。あるいは、ローカル側に2台以上の外部エージェントデバイスが併存していても、同様に、本明細書で開示する技術を実現可能である点を理解されたい。
図3中に示した複数のエージェントサービスのうち、外部エージェントサービス340A、340B、340Cは、例えば「AIエージェント」や「AIスピーカー」とも呼ばれ、本願の出願時点において既に広く利用されているサービスである。この種の外部エージェントサービスは、インターネットなどの広域ネットワーク経由で接続可能な無数の外部エージェントデバイス(図3中の、外部エージェントデバイス320に相当)を配下に置くことが想定されている。各ユーザは、自分が所有する外部エージェントデバイスを通じて外部エージェントサービスにログインすることができる。各外部エージェントサービスは、ログインしてきたユーザ毎にアカウントを設定し、各ユーザのプロファイル情報や履歴情報をアカウントに対応付けて管理する(以下、「アカウント切替え」機能とも呼ぶ)。そして、外部エージェントサービスは、例えばユーザから問い合わせを受ける度にプロファイル情報や履歴情報を逐次的に更新し又は学習機能を採り入れることで、個々のユーザにカスタマイズ又はパーソナライズした粒度の細かいサービスを提供することができる。
また、図3中に示した複数のエージェントサービスのうち、エージェントシステム330は、例えばテレビ受像機11の製品製造元又は販売元が運営することが想定され、TVエージェント310と直接連携してエージェントサービスを提供する。エージェントシステム330もAIエージェントであることに相違はないが、TVエージェント310のユーザは、基本的にはテレビ受像機11を視聴するユーザに限定されるものとする。エージェントシステム330は、テレビ受像機11(すなわち、ローカル側)の撮像部107や音声入力部105で捕捉した画像や音声を認識して個人識別した結果に基づいてユーザを特定して、ユーザ毎のアカウントを管理する。そして、エージェントシステム330は、ユーザから問い合わせを受ける度、あるいは、センサ部108(撮像部107や音声入力部105を含んでもよい)による検出結果に基づいて、各ユーザのプロファイル情報や履歴情報を更新し又は学習機能を採り入れることで、個々のユーザにカスタマイズ又はパーソナライズした粒度の細かいサービスを提供することができる。
なお、図3に示したエージェントクラウドプラットフォーム300では、エージェントシステム330がテレビ受像機11に常駐するTVエージェントと直接連携する構成となっているが、エージェントシステム330が直接連携することが可能な機器の種別はテレビ受像機には限定されない。例えば、スマートフォンやタブレットなどのユーザが持ち運び可能な情報端末、ユーザが着用するウェアラブル機器、あるいはエアコン、録画機、洗濯機などの各種CE機器やIoTデバイス、対話型ロボット、車内に設置されたカーナビなど各種情報機器に常駐するエージェントがエージェントシステム330と直接連携するといった変形例も想定される。また、エージェントシステム330がテレビ受像機以外の機器と連携する場合には、外部エージェントデバイス320はテレビ受像機に常駐する音声エージェントであってもよい。
続いて、エージェントクラウドプラットフォーム300の動作例について説明する。
図4には、エージェントシステム330が、TVエージェント310を介してローカル側の情報を収集する様子を示している。
TVエージェント310は、テレビ番組の視聴履歴や、現在の視聴状況、テレビ受像機11自体の状態(オン/オフ、音量、画質設定など)録画履歴、テレビ受像機11に対するリモコンの操作履歴などを常時モニタしており、これらの情報をエージェントシステム330に送信する。エージェントシステム330側では、TVエージェント310から、テレビ受像機11におけるユーザのテレビ番組の視聴履歴などに関するこれらの情報を常時収集して、例えばユーザのプロファイル情報やアカウント情報と紐付けして管理する。また、TVエージェント310は、DLNA(登録商標)などの規格に従ってホームネットワーク経由でテレビ受像機11と相互接続している各CE機器や、同じ室内に設置されているIoTデバイスから取得した情報を、エージェントシステム330に送信するようにしてもよい。
また、TVエージェント310は、テレビ受像機11が備える撮像部107で撮像したユーザの顔画像や、音声入力部105に入力されたユーザの音声データを、エージェントシステム330に送信する。エージェントシステム330側では、TVエージェント310から受信した画像を顔認識したり、音声データを音声認識したりして、個人識別処理を行う。あるいは、TVエージェント310は、撮像部107による撮像画像を画像認識し、若しくは音声入力部105の入力音声を音声認識して、個人識別処理した結果をエージェントシステム330に送信するようにしてもよい。エージェントシステム330は、新たに人物を識別する度に、新規のユーザアカウントを設定するようにしてもよい。また、エージェントシステム330は、TVエージェント310を介してローカル側から収集した情報を、ユーザ毎に振分けして、ユーザアカウントに紐付けして管理するようにしてもよい。また、エージェントシステム330は、TVエージェント310から受信した画像データや音声データに基づいて、ユーザの状態(例えば、テレビ受像機11で選局受信しているテレビ番組を視聴中か否か)に関する情報を収集するようにしてもよい。
また、TVエージェント310は、情報機器100が備えるセンサ部108で検出された検出データを、エージェントシステム330に送信する。センサ部108が、物体検出センサや深度センサ、環境情報を検出する環境センサ(照度センサや温度センサ、湿度センサなど)を含む場合には、エージェントシステム330はこれらのセンサ情報を収集して、ユーザの環境情報を管理するようにしてもよい。また、センサ部108がユーザの脈拍や発汗、脳波、筋電位、呼気などを検出する生体センサを備えていている場合には、エージェントシステム330は、これらのセンサ情報をTVエージェント310から収集して、ユーザ毎の生体情報を管理するようにしてもよい。
なお、TVエージェント310がテレビ受像機11を通じて取得した情報の中には、ユーザの機微情報を含む場合もある。このため、TVエージェント310がユーザの機微情報をマスキングして、ローカル側の情報をエージェントシステム330に提供するようにしてもよい。機微情報のマスキングの詳細に関しては、後述に譲る。
TVエージェント310やエージェントシステム330は、個人識別によりユーザのプロファイルを分割して、個人単位でアカウント管理を行うようにしてもよい。例えば、撮像部107で撮像したユーザの顔画像を顔認識したり、音声入力部105から入力されたユーザの発話を音声認識したりして、個人識別を行うことができる。また、TVエージェント310やエージェントシステム330は、テレビ番組の視聴履歴やリモコンの操作履歴などに基づいて、個人識別するようにしてもよい。例えば、テレビ番組を視聴する曜日や時間帯などの習慣性から、ユーザ毎の視聴趣向の傾向を分離することができ、リモコンや各種機器のユーザ毎の操作癖を分離して、個人識別に利用することができる。
図9には、エージェントクラウドプラットフォーム300におけるアカウント管理の一例を示している。
TVエージェント310は、撮像部107で撮像したユーザの画像を顔認識した結果などに基づいて、「お父さん」、「お母さん」、及び「子供」からなる家族構成を把握して、「お父さん」、「お母さん」、及び「子供」の各々のアカウントを設定して、各家族メンバーのプロファイルを管理する。
また、エージェントシステム330は、TVエージェント310とはユーザのアカウント情報を共有する。すなわち、図9に示す例では、エージェントシステム330は、「お父さん」、「お母さん」、及び「子供」からなる家族構成を把握するとともに、「お父さん」、「お母さん」、及び「子供」の各々のアカウントを設定する。但し、エージェントシステム330は、ユーザを個人識別する必要はなく、例えば、家族の続柄などでアカウントを管理するようにしてもよい。
一方、外部エージェントサービス340Cは、例えばエージェントシステム330からの呼び出しを受けたときに、ユーザのプロファイルを分割して外部エージェントデバイス320から呼び出しを受けたときに、プロファイルを分割して、アカウントを設定してもよい。また、外部エージェントデバイス320は、ユーザから呼び出されたときの音声を識別して、アカウントを設定するようにしてもよい。図9に示す例では、外部エージェントサービス340Cと外部エージェントデバイス320は、「お父さん」というアカウント情報を共有している。
なお、本願の出願時点において、エージェントによるユーザのアカウント管理方法に関して特段の取り決めは存在ない。本実施形態では、エージェントシステム330は、1つのTVエージェント310において、個人識別に基づいて複数ユーザのアカウントを設定できるものとする(図9に示した例では、「お父さん」、「お母さん」、及び「子供」の各々のアカウントを設定する)。
また、各外部エージェントサービス340A、340B、340Cは、それぞれ任意のアカウント管理を行うことができるものとする。例えば、1台の外部エージェントデバイス320に対して代表ユーザの1つのアカウントしか設定しない場合や、1台の外部エージェントデバイス320を1ユーザとしてアカウントを割り当てつつ、そのユーザアカウントの下に複数ユーザのプロファイルを登録できるようにしたり、1ユーザのアカウントの下に複数のサブユーザを登録できるようにしたりしてもよい。また、各外部エージェントサービス340A、340B、340Cは、エージェントシステム330から呼び出された場合にも、エージェントシステム330に対し、代表ユーザの1アカウントのみを設定する、1ユーザアカウントの下に複数ユーザのプロファイルを割り当てる、1ユーザアカウントの下に複数のサブユーザを登録するといった、同様のアカウント管理を適用することができる。
図5には、エージェントシステム330が外部エージェントサービス340A、340B、340Cを呼び出す様子を示している。例えば、ユーザがTVエージェント310に対して問い合わせを行った際に、エージェントシステム330は外部エージェントサービス340A、340B、340Cの呼び出しを実施する。
ユーザが音声によりTVエージェント310に対して問い合わせると(S501)、音声入力部105は、ユーザの音声を収音して、エージェントシステム330に送信する。そして、エージェントシステム330内では、音声認識部331がユーザの音声を音声認識し、意味解析部332が意味解析を行う(S502)。そして、制御部334は、ユーザからの問い合わせに回答するために、外部エージェントサービス340A、340B、340Cを呼び出す。
このとき、制御部334は、呼び出し可能なすべての外部エージェントサービス340A、340B、340Cを呼び出すようにしてもよいし、いずれかの外部エージェントサービスを選択的に呼び出すようにしてもよい。例えば、制御部334は、ユーザからの問い合わせ内容や問い合わせしたユーザのプロファイル情報などに応じて、外部エージェントサービスを取捨選択して呼び出すようにしてもよい。また、ユーザから特定の外部エージェントサービスを指定する「起動ワード」が音声入力されたときには、制御部334は、入力された起動ワードに対応する外部エージェントサービスをそのまま呼び出してもよいし、起動ワードを考慮しつつ、外部エージェントサービスを取捨選択して呼び出すようにしてもよい。
エージェントシステム330は、いずれの外部エージェントサービスを呼び出す場合にも、ユーザからの入力音声を音声認識及び意味解析を行った上で、制御部334が各外部エージェントサービスの呼び出し仕様に適合するように形式変換してから、呼び出しを実行する。
エージェントシステム330が外部エージェントサービス340Aを呼び出す場合、外部エージェントサービス340Aは音声による呼び出しに対応しているので、制御部334が生成した外部エージェントサービス340Aへの問い合わせ内容を、音声合成部333で音声データに変換してから、外部エージェントサービス340Aに送信する(S503)。音声合成部333で変換された音声データは、TVエージェント310から送られた音声データと実質的に同じものであってもよいし、制御部334によって内容などが加工されたものであってもよい。
この場合、外部エージェントサービス340A内では、エージェントシステム330から送られてきた音声データを音声認識部341Aで音声認識し、さらに意味解析部342Aで意味解析して、処理部343Aがエージェントシステム330からの問い合わせに回答するための処理を実行する。そして、エージェントシステム330からの問い合わせに対する処理結果となるテキスト情報を音声合成部344Aで音声データに変換してから、エージェントシステム330に返される(S506)。
また、エージェントシステム330が外部エージェントサービス340Bを呼び出す場合、外部エージェントサービス340Bは音声認識結果による呼び出しに対応しているので、制御部334が生成した外部エージェントサービスへの問い合わせ内容を、そのまま(すなわち、音声合成せずに)外部エージェントサービス340Bに送信する(S504)。制御部334が生成した外部エージェントサービスへの問い合わせ内容は、TVエージェント310から送られた音声データの音声認識結果と実質的に同じものであってもよいし、制御部334によって内容などが加工されたものであってもよい。
この場合、外部エージェントサービス340B内では、エージェントシステム330からの問い合わせを行く解析部343Bで意味解析し、処理部343Bがエージェントシステム330からの問い合わせに回答するための処理を実行して、その処理結果をそのまま(すなわち、音声合成せずに)エージェントシステム330に返す(S507)。エージェントシステム330側の制御部334は、外部エージェントデバイス320からの回答を受け取るためのAPI(Application Programming Interface)を用意しておく。
また、エージェントシステム330が外部エージェントサービス340Cを呼び出す場合、連携する外部エージェントデバイス320からの呼び出しに対応しているので、制御部334が生成した外部エージェントサービスへの問い合わせ内容を、音声合成部333で音声データに変換してから、TVエージェント310に送信し、TVエージェント310から外部エージェントデバイス320を音声により呼び出す(S505)。TVエージェント310から外部エージェントデバイス320を呼び出す音声は、S501においてユーザがTVエージェント310に問い合わせしたときと実質的に同じものであってもよいし、制御部334によって内容などが加工されたものであってもよい。また、外部エージェントデバイス320を起動するための「起動ワード」を含ませてもよい。
この場合、外部エージェントデバイス320の音声入力部321で収音された音声が外部エージェントサービス340Cに送信される(S508)。そして、外部エージェントサービス340C内では、外部エージェントデバイス320から送られてきた音声データを音声認識部341Cで音声認識し、さらに意味解析部342Cで意味解析して、処理部343Cがエージェントシステム330からの問い合わせに回答するための処理を実行する。そして、エージェントシステム330からの問い合わせに対する処理結果となるテキスト情報を音声合成部344Cで音声データに変換してから、エージェントシステム330に返される(S509)。
エージェントシステム330内では、外部エージェントサービス340A及び外部エージェントサービス340Cの各々から返された音声データの処理結果を音声認識部335で音声認識し、さらに意味解析部336でその音声認識結果を意味解析してから、制御部334に供給される。また、制御部334は、外部エージェントサービス340BからのAPI呼び出しによる回答を受け取る。
制御部334は、各外部エージェントサービス340A、340B、340Cからの回答を意味解析結果のレベルで集計して、ユーザからの問い合わせに対する回答文を生成する。複数の回答を集計する方法は任意である。エージェントシステム330自身が得た回答と照らし合わせて、特定の外部エージェントサービスからの回答を選択してもよいし、多数決など所定の選択基準に基づいて特定の外部エージェントサービスからの回答を選択してもよい。あるいは、複数の外部エージェントサービスからの回答を合成して1つの回答文を生成するようにしてもよい。
音声合成部333は、制御部334で生成した回答文を音声データに変換して、TVエージェント310に送られる(S511)。そして、TVエージェント310では、問い合わせ元のユーザに対する回答の音声が、音声出力部106から ユーザに対して音声出力される(S512)。
要するに、エージェントシステム330は、ユーザがいる室内に設置されたテレビ受像機11上に常駐しているTVエージェント310を使って、主に音声による対話を利用してエージェントサービスを提供する。また、エージェントシステム330は、ユーザからの問い合わせを自ら処理した結果をユーザに返す以外に、外部エージェントサービス340A、340B、340Cを呼び出し、外部のリソースも活用してユーザに返答することができる。エージェントシステム330は、各外部エージェントサービス340A、340B、340Cへの呼び出し仕様に適合する形式に変換して、各外部エージェントサービス340A、340B、340Cを呼び出することができる。エージェントシステム330は、外部エージェントサービス340A、340B、340Cの呼び出しを利用して、より高品質な回答をユーザに返すことが期待される。
ここで、エージェントシステム330が外部エージェントサービス340A、340B、340Cを呼び出す際の1つの課題として、複数のユーザ情報が混在してしまうことが挙げられる。
図6に例示するようにリビングで家族がテレビ受像機11で選局受信しているテレビ番組を視聴しているときに、ひとりがTVエージェント310に問い合わせを行ったとする。エージェントシステム330が外部エージェントサービス340を呼び出す際に、家族のうち誰が問い合わせた場合であっても、「エージェントシステム330」という同一ユーザのアカウントで問い合わせることになり、家族全員の情報(プロファイル情報や履歴情報など)が混ざってしまう。例えば、家族のうち誰がTVエージェント310に問い合わせても、エージェントシステム330が常に同じ音声を合成して外部エージェントサービス340Aを呼び出すと、外部エージェントサービス340Aは誰からの問い合わせかを把握できない。この結果、外部エージェントサービス340は、アカウント切替え機能を装備していたとしても、問い合わせ元のユーザ毎に対応した細やかなサービスを提供することが難しくなる。
エージェントシステム330は、撮像部107で撮像したユーザの画像を顔認識したり、音声入力部105で入力した音声を音声認識したり、テレビ受像機11を介して収集した視聴履歴やリモコン操作履歴、あるいはセンサ部108の検出結果などに基づいて、問い合わせ元のユーザのプロファイルを識別することができる。
そこで、エージェントシステム330は、音声で問い合わせたユーザのプロファイルを識別して、ユーザのプロファイルを外部エージェントサービス340のアカウント切替え機能に合わせてマッピングして、プロファイルを利用した呼び分けを行うようにする。
例えば、エージェントシステム330が外部エージェントサービス340A又は340Cを呼び出す場合には、父親からの問い合わせであれば大人の男性の口調及び声色を合成して呼び出し、母親からの問い合わせであれば大人の女性の口調及び声色を合成して呼び出し、子供からの問い合わせであれば子供の口調及び声色を合成して呼び出しを行う。また、エージェントシステム330が外部エージェントサービス340Bを呼び出す場合には、父親からの問い合わせであれば大人の男性っぽい口調の呼び出し文で呼び出し、子供からの問い合わせであれば子供っぽい口調の呼び出し文で呼び出しを行う。もちろん、エージェントシステム330は、ユーザのプロファイル情報をメタデータとして付加して、外部エージェントサービス340の呼び出しを行うようにしてもよい。
各外部エージェントサービス340A、340B、340Cは、エージェントシステム330の呼び出し方に基づいてユーザのプロファイルを識別して、アカウント切替えを適宜行うとともに、問い合わせに対する回答をエージェントシステム330に返す。
各外部エージェントサービス340A、340B、340Cにおけるアカウント切替えの方法はさまざまである。例えば、エージェントシステム330から問い合わせを受けたときのプロファイルが切り替わる度に、個別のユーザアカウントを割り当ててもよい。また、エージェントシステム330を1ユーザとしてアカウントを割り当てつつ、そのユーザアカウントの下に家族のメンバー毎の複数のプロファイルを登録するようにしてもよい。あるいは、エージェントシステム330を1ユーザとしてアカウントを割り当てつつ、そのユーザアカウントの下に家族のメンバー毎をサブユーザとして登録するようにしてもよい。
図7には、エージェントシステム330がユーザのプロファイル情報を利用して外部エージェントサービス340を呼び分ける際の処理手順をフローチャートの形式で示している。
エージェントシステム330は、TVエージェント310を介して、ユーザからの音声を入力すると(ステップS701)、撮像部107で撮像したユーザの画像の顔認識結果や、入力音声の音声認識結果、さらにはセンサ部108による検出結果に基づいて、そのユーザのプロファイルを識別する(ステップS702)。
次いで、エージェントシステム330は、ステップS701で入力した音声を意味解析して、呼び出すべき外部エージェントサービスを選択する(ステップS703)。
次いで、エージェントシステム330は、選択した外部エージェントサービスにアカウント切替え機能があるかどうかをチェックする(ステップS704)。
ここで、呼び出し先の外部エージェントサービスにアカウント切替え機能がある場合には(ステップS704のYes)、エージェントシステム330は、ステップS702で識別したユーザのプロファイルを利用して、その外部エージェントサービスに適合した呼び出しを生成して、呼び出しを実行する(ステップS705)。例えば、エージェントシステム330は、外部エージェントサービスに対して、ユーザの年齢や性別などのプロファイルに合った口調や声色をした呼び出しを行う。
一方、呼び出し先の外部エージェントサービスにアカウント切替え機能がない場合には(ステップS704のNo)、エージェントシステム330は、ステップS702で識別したユーザのプロファイルを利用することなく、代表ユーザによる外部エージェントサービスの呼び出しを実行する(ステップS706)。
また、エージェントシステム330が外部エージェントサービス340A、340B、340Cを呼び出す際の他の課題として、ユーザの機微情報が外部に漏えいしてしまうことが挙げられる。
リビングに設置されたテレビ受像機11で音声入力部105が音声入力するといった使用形態では、家族は無意識のうちに機微情報に関わるワードを含んだ会話を行いがちであり、ユーザからエージェントシステム330への問い合わせに機微情報を含んでしまうことがある。あるいは、ユーザは問い合わせたつもりではないが、エージェントシステム330側で問合せと自動的に判断して、サービスを開始する可能性もある。
個人情報の保護管理に関する規格JIS Q 15001:2006では、「思想,信条又は宗教に関する事項」、「人種,民族,門地,本籍地(所在都道府県に関する情報を除く。),身体・精神障害,犯罪歴その他社会的差別の原因となる事項」、「勤労者の団結権,団体交渉その他団体行動の行為に関する事項」、「集団示威行為への参加,請願権の行使その他の政治的権利の行使に関する事項」、「保健医療又は性生活に関する事項」が機微情報として挙げられている。また、上記のような規格で規定された事項の他にも、パスワードや口座番号などビジネス的、金融的又は個人的な性質を持つさまざまな情報も、機微な個人情報である。このような機微情報が不正者によって引き出されたり、使用されたり、拡散されたりしてしまうと、個人の人格や財産が侵害されるなどさまざまな危険にさらされる。付言すれば、撮像部107がリビングなど家庭内の様子を撮像した映像は、顔画像を始めとして、保護すべきさまざまな機微人情報を含むことが多い。
例えば、機微情報を格納するデバイスをセキュリティレベルの高いモードで動作させるなど、機微情報を保護するいくつかの技術が知られている。しかしながら、リビングに設置されたテレビ受像機11に内蔵された(若しくは外付け接続された)音声入力部105や撮像部107、センサ部108などを用いて情報収集を行う場合、機微情報が混ざってしまうことは避けられない。
エージェントシステム330が、機微情報を含んだまま外部エージェントサービス340A、340B、340Cを呼び出すと、いずれかの外部エージェントサービスを起点として機微情報が拡散して、不正に利用されてしまうおそれがある。また、エージェントシステム330が、TVエージェント310から収集した情報のうち機微情報の部分を単純に黒く塗り潰して隠すという方法では、問い合わせの内容を判読できなくなり、外部エージェントサービス340A、340B、340Cが正常なエージェントサービスを提供できなくなってしまう。
そこで、エージェントシステム330は、ユーザからの問い合わせに含まれる機微情報を他の情報に置き換えて、内容自体は判読可能な状態を保ちながら、外部エージェントサービス340A、340B、340Cを呼び出すようにする。
例えば、ユーザからの問い合わせに病名が含まれる場合には「病気」という言葉に置き換え、個人名が含まれる場合には「人」、「お父さん」、「彼」(代名詞)、「○○な人」のように個人を特定できない言葉に置き換え、「住所」を含む場合には、番地や町村名を取り除いて、完全には特定できないが、問い合わせの意図は判読可能な状態を保つようにする。また、ユーザの映像や音声を含む問い合わせの場合には、ユーザの顔画像や音声を、ユーザと同じ年齢や性別の平均的な顔画像や音声に置き換えて、ユーザのプロファイルを保ちながら、個人を特定できないようにする。
また、エージェントシステム330は、上記のように、機微情報を含む文言や画像、音声を置き換えるためのデータベースを備えておいてもよいし、この種の外部データベースを利用可能であってもよい。
図8には、ユーザの機微情報を保護しながら外部エージェントサービス340を呼び分ける際の処理手順をフローチャートの形式で示している。
エージェントシステム330は、TVエージェント310を介して、ユーザからの問い合わせを入力すると(ステップS801)、その問い合わせに含まれる映像や音声を認識処理するとともに、問い合わせの意図を解析する(ステップS802)。
次いで、エージェントシステム330は、ステップS802における認識結果や解析結果に基づいて、映像や音声、問い合わせの中にユーザの機微情報が含まれているかどうかをチェックする(ステップS803)。
そして、TVエージェント310を介して入力した情報の中にユーザの機微情報が含まれている場合には(ステップS803のYes)、問い合わせの意図は判読可能な状態を保ちながら、機微情報を別の情報に置き換える(ステップS804)。
ステップS804では、例えば、ユーザからの問い合わせに病名が含まれる場合には「病気」という言葉に置き換え、個人名が含まれる場合には「人」、「お父さん」、「彼」(代名詞)、「○○な人」のように個人を特定できない言葉に置き換え、「住所」を含む場合には、番地や町村名を取り除く。また、ユーザの顔画像や音声を、ユーザと同じ年齢や性別の平均的な顔画像や平均的な音声に置き換える。
要するに、エージェントシステム330は、外部エージェントサービス340A、340B、340Cを呼び出して、ユーザからの問い合わせに回答する際に、言わばゲートウェイとなって、外部エージェントサービス340A、340B、340Cに機微情報が流出しないようにマスク処理することができる。
なお、図8にはエージェントシステム330が外部エージェントサービス340A、340B、340Cを呼び出す際に機微情報をマスキングする例を示したが、エージェントシステム330がローカル側の情報を収集する際に、TVエージェント310がユーザの機微情報をマスキングするようにしてもよい。
ここまでの説明では、エージェントシステム330や外部エージェントサービス340A、340B、340Cがユーザからの問い合わせに対して応答する動作を中心に説明してきた。エージェントシステム330や外部エージェントサービス340A、340B、340Cは、自発的にユーザに話し掛けることも可能である。ところが、ユーザがテレビ番組を視聴中に、TVエージェント310や外部エージェントデバイス320から話し掛けられると、邪魔になる。また、ユーザが録画番組を視聴している場合や、テレビ受像機11以外の機器を利用しているとき(音楽を干渉しているときや、電話しているとき、ゲームをプレイしているときなど)にも、同様のことが当てはまる。
エージェントシステム330は、テレビ受像機11に常駐しているTVエージェント310を通じて、ユーザの視聴状態を判定することが可能であり、その判定結果に基づいてユーザに話し掛けるタイミングを適切に制御することができる。他方、外部エージェントサービス340Cは、外部エージェントデバイス320の音声入力部321への入力音声を通じてしかユーザの状態を把握することができない。ユーザが発話しない無音状態であっても、話し掛けてよい状態であるのか、テレビ番組を黙って視聴しているのかを判定することができない。
そこで、エージェントシステム330は、TVエージェント310を通じて収集したローカル側の情報に基づいてユーザの状態を判定するとともに、ユーザの状態に応じて外部エージェントの動作を制御するようにする。
具体的には、エージェントシステム330は、ユーザがテレビ番組を視聴中には、外部エージェントサービス340A、340B、340Cを無効化する。他方、ユーザがテレビ番組の視聴を終了すると、エージェントシステム330は、外部エージェントサービス340A、340B、340Cを有効化する。
また、外部エージェントサービス340A、340B、340Cからエージェントシステム330に対して問い合わせが可能な場合には、外部エージェントサービス340A、340B、340Cは、主体的なアクションを実行する前に、エージェントシステム330に対してユーザの状態若しくは主体的なアクションの実施の可否を問い合わせるようにしてもよい。エージェントシステム330は、ユーザがテレビ番組を視聴中には、主体的なアクションの実施が不可である旨を応答して、TVエージェント310又は外部エージェントデバイス320からのユーザの呼び出しを抑制する。他方、ユーザがテレビ番組の視聴を終了していれば、主体的なアクションが可能である旨を応答する。なお、外部エージェントサービス340A、340B、340Cは、エージェントシステム330に対して、例えば音声又はAPI呼び出しにより問い合わせが可能である。
図10には、エージェントシステム330がユーザの状態に応じて外部エージェントサービス340A、340B、340Cを制御する様子を示している。
エージェントシステム330は、TVエージェント310を通じて、ローカル側の状況、すなわちテレビ番組の視聴履歴や、現在の視聴状況、テレビ受像機11自体の状態(オン/オフ、音量、画質設定など)録画履歴、テレビ受像機11に対するリモコンの操作履歴などを取得して(S1001)、制御部334において、ユーザがテレビ番組を視聴中かであるどうかを判定する。
制御部334は、ユーザがテレビ番組を視聴中には、外部エージェントサービス340A、340B、340Cを無効化する。無効化処理は、制御部334が各外部エージェントサービスの呼び出し仕様に適合する形式で実施する。具体的には、制御部334が外部エージェントサービス340Aを無効化するための指示を生成すると、音声合成部333で音声データに変換してから、外部エージェントサービス340Aに送信する(S1002)。また、制御部334は、外部エージェントサービス340Bを無効化するための指示を、そのまま(すなわち、音声合成せずに)外部エージェントサービス340Bに送信する(S1003)。また、制御部334が外部エージェントサービス340Cを無効化するための指示を生成すると、音声合成部333で音声データに変換してから、TVエージェント310に送信し、TVエージェント310から外部エージェントデバイス320に対して音声により外部エージェントサービス340Cの無効化を指示する(S1004)。外部エージェントサービス340A、340B、340Cは、上記のようにしてエージェントシステム330によって無効化されている期間は、主体的なユーザの呼び出しを抑制する。
なお、エージェントシステム330がすべての外部エージェントサービス340A、340B、340Cを一斉に無効化する以外に、いずれか一部の外部エージェントサービスのみを無効化する場合もある。
他方、ユーザがテレビ番組の視聴を終了すると、制御部334は、外部エージェントサービス340A、340B、340Cを有効化する。有効化処理は、制御部334が各外部エージェントサービスの呼び出し仕様に適合する形式で実施する。具体的には、制御部334が外部エージェントサービス340Aを有効化するための指示を生成すると、音声合成部333で音声データに変換してから、外部エージェントサービス340Aに送信する(S1002)。また、制御部334は、外部エージェントサービス340Bを有効化するための指示を、そのまま(すなわち、音声合成せずに)外部エージェントサービス340Bに送信する(S1003)。また、制御部334が外部エージェントサービス340Cを有効化するための指示を生成すると、音声合成部333で音声データに変換してから、TVエージェント310に送信し、TVエージェント310から外部エージェントデバイス320に対して音声により外部エージェントサービス340Cの有効化を指示する(S1004)。無効化された状態の外部エージェントサービス340A、340B、340Cは、上記のようにしてエージェントシステム330によって有効化されると、主体的なユーザの呼び出しを再開することができる。
なお、エージェントシステム330がすべての外部エージェントサービス340A、340B、340Cを一斉に有効化する以外に、いずれか一部の外部エージェントサービスのみを有効化する場合もある。
また、各外部エージェントサービス340A、340B、340Cは、主体的なユーザの呼び出しを行う前に、エージェントシステム330に対してユーザの状態若しくは主体的なアクションの実施の可否を問い合わせることができる。
外部エージェントサービス340A内では、処理部343Aがエージェントシステム330に対する問い合わせを生成すると、テキスト情報を音声合成部344Aで音声データに変換してから、エージェントシステム330に送信する(S1005)。ユーザがテレビ番組を視聴中で、外部エージェントサービス340Aによるユーザの呼び出しを抑制すべきときには、制御部334が外部エージェントサービス340Aを無効化するための指示を生成すると、音声合成部333で音声データに変換してから、外部エージェントサービス340Aに送信する(S1002)。一方、ユーザがテレビ番組の視聴を終了しており、外部エージェントサービス340Aによるユーザの呼び出しを許可する場合には、制御部334が外部エージェントサービス340Aを有効化するための指示を生成すると、音声合成部333で音声データに変換してから、外部エージェントサービス340Aに送信する(S1002)。
また、外部エージェントサービス340B内では、処理部343Bは、エージェントシステム330に対する問い合わせを生成して、API呼び出しによりエージェントシステム330に対して問い合わせを行う(S1006)。ユーザがテレビ番組を視聴中で、外部エージェントサービス340Bによるユーザの呼び出しを抑制すべきときには、制御部334は、外部エージェントサービス340Bを無効化するための指示を、そのまま(すなわち、音声合成せずに)外部エージェントサービス340Bに送信する(S1003)。一方、ユーザがテレビ番組の視聴を終了しており、外部エージェントサービス340Bによるユーザの呼び出しを許可する場合には、制御部334は、外部エージェントサービス340Bを有効化するための指示を、そのまま(すなわち、音声合成せずに)外部エージェントサービス340Bに送信する(S1003)。
また、外部エージェントサービス340C内では、処理部343Cがエージェントシステム330に対する問い合わせを生成すると、テキスト情報を音声合成部344Cで音声データに変換してから、エージェントシステム330に送信する(S1007)。ユーザがテレビ番組を視聴中で、外部エージェントサービス340Cによるユーザの呼び出しを抑制すべきときには、制御部334が外部エージェントサービス340Cを無効化するための指示を生成すると、音声合成部333で音声データに変換してから、TVエージェント310に送信し、TVエージェント310から外部エージェントデバイス320に対して音声により外部エージェントサービス340Cの無効化を指示する(S1004)。一方、ユーザがテレビ番組の視聴を終了しており、外部エージェントサービス340Cによるユーザの呼び出しを許可する場合には、制御部334が外部エージェントサービス340Cを有効化するための指示を生成すると、音声合成部333で音声データに変換してから、TVエージェント310に送信し、TVエージェント310から外部エージェントデバイス320に対して音声により外部エージェントサービス340Cの有効化を指示する(S1004)。
なお、各外部エージェントサービス340A、340B、340Cからエージェントシステム330への問い合わせは、それぞれ任意のタイミングで行うことができるが、もちろん2以上の外部エージェントサービスが同期してエージェントシステム330への問い合わせを行うようにしてもよい。
以上、特定の実施形態を参照しながら、本明細書で開示する技術について詳細に説明してきた。しかしながら、本明細書で開示する技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
本明細書では、本明細書で開示する技術をテレビ受像機に常駐するTVエージェントに適用した実施形態を中心に説明してきたが、本明細書で開示する技術の要旨はこれに限定されるものではない。エアコン、録画機、洗濯機などの各種CE機器やIoTデバイス、スマートフォンやタブレットなどのユーザが持ち運び可能な情報端末、ユーザが着用するウェアラブル機器、対話型ロボット、車内に設置されたカーナビなど各種情報機器に常駐するエージェントを利用したさまざまなエージェントシステムに対しても、同様に本明細書で開示する技術を適用して、必要に応じて外部エージェントサービスを利用できるようにすることができる。
要するに、例示という形態により本明細書で開示する技術について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本明細書で開示する技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。
なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
(1)第1の機器に常駐するエージェントを介したユーザとの対話に関する情報を受信する通信部と、
外部エージェントサービスを制御する制御部と、
を具備する情報処理装置。
(1-1)ユーザから入力された音声を認識する音声認識部と、その音声認識結果を意味解析する意味解析部と、ユーザに対する回答を音声合成する音声合成部をさらに備え、
前記音声合成部による音声合成結果を前記第1の機器から音声出力させる、
上記(1)に記載の情報処理装置。
(2)前記制御部は、ユーザの画像又は音声、ユーザによる前記第1の機器の操作に関する情報、前記第1の機器が装備するセンサが検出したセンサ情報のうち少なくとも1つを含む前記情報を収集する、
上記(1)に記載の情報処理装置。
(3)前記第1の機器はテレビ受像機であり、
前記制御部は、ユーザによるテレビ番組の視聴履歴、録画履歴、リモコン操作履歴を含む前記情報を収集する、
上記(1)又は(2)のいずれかに記載の情報処理装置。
(4)前記制御部は、前記第1の機器から収集した情報に基づいてユーザのアカウントを管理する、
上記(2)又は(3)のいずれかに記載の情報処理装置。
(5)前記制御部は、外部エージェントサービスの呼び出しを制御する、
上記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)前記制御部は、各外部エージェントサービスの呼び出し仕様に適合するように形式変換してから、呼び出しを実行する、
上記(5)に記載の情報処理装置。
(7)前記制御部は、第1の外部エージェントサービスへの呼び出し内容を音声合成して、前記第1の外部エージェントサービスの呼び出しを行う、
上記(6)に記載の情報処理装置。
(8)前記制御部は、第2の外部エージェントサービスへの呼び出し内容を音声合成し、前記第1の機器から前記第2の外部エージェントサービスの配下の外部エージェントデバイスに対して音声による呼び出しを行う、
上記(6)に記載の情報処理装置。
(9)外部エージェントサービスからの音声による回答を認識する音声認識部、及びその音声認識結果を意味解析する意味解析部をさらに備える、
上記(5)乃至(8)のいずれかに記載の情報処理装置。
(10)外部エージェントサービスからAPI呼び出しにより回答を受け取る、
上記(5)乃至(8)のいずれかに記載の情報処理装置。
(11)前記制御部は、複数の外部エージェントサービスからの回答を選択又は合成して、ユーザから前記エージェントへの問い合わせに対する回答を生成する、
上記(5)に記載の情報処理装置。
(12)前記制御部は、前記第1の機器を呼び出したユーザのプロファイル情報に基づいて、外部エージェントサービスの呼び出しを制御する、
上記(1)乃至(11)のいずれかに記載の情報処理装置。
(13)前記制御部は、プロファイル切替え機能を有する外部エージェントサービスに対して、前記第1の機器を呼び出したユーザのプロファイル識別結果に基づく呼び出しを行う、
上記(12)に記載の情報処理装置。
(14)前記制御部は、前記第1の機器を呼び出したユーザの機微情報に基づいて、外部エージェントサービスの呼び出しを制御する、
上記(1)乃至(13)のいずれかに記載の情報処理装置。
(15)前記制御部は、ユーザの呼び出しに含まれる機微情報を別の情報に置換処理して、外部エージェントサービスの呼び出しを行う、
上記(14)に記載の情報処理装置。
(16)前記制御部は、ユーザの状態に基づいて外部エージェントサービスを制御する、
上記(1)乃至(15)のいずれかに記載の情報処理装置。
(16-1)前記制御部は、ユーザによる前記第1の機器の使用状態に基づいて外部エージェントサービスを制御する、
上記(16)に記載の情報処理装置。
(16-2)前記制御部は、ユーザの状態に基づいて、外部エージェントサービスを無効化及び有効化する、
上記(16)に記載の情報処理装置。
(16-3)前記制御部は、ユーザの状態に基づいて、外部エージェントサービスからのエージェントの呼び出しに関する問い合わせに応答する、
上記(16)に記載の情報処理装置。
(17)ユーザとの対話に関する情報が処理されて生成された、前記ユーザへの回答を受信する通信部と、
前記回答を出力する出力部と、
を具備する情報処理装置。
(18)第1の機器に常駐するエージェントを介したユーザとの対話に関する情報を受信する通信ステップと、
外部エージェントサービスを制御する制御ステップと、
を有する情報処理方法。
(19)ユーザとの対話に関する情報が処理されて生成された、前記ユーザへの回答を受信する通信ステップと、
前記回答を出力する出力ステップと、
を有する情報処理方法。
(20)ユーザと対話するエージェントが常駐する第1の機器と、
前記エージェントを介したユーザとの対話に関する情報を受信する通信部と、 外部エージェントサービスを制御する制御部と、
を具備する情報処理システム。
(20-1)前記第1の機器は、ユーザとの対話に関する情報が処理されて生成された、前記ユーザへの回答を受信して出力する、
上記(20)に記載の情報処理システム。
(1)第1の機器に常駐するエージェントを介したユーザとの対話に関する情報を受信する通信部と、
外部エージェントサービスを制御する制御部と、
を具備する情報処理装置。
(1-1)ユーザから入力された音声を認識する音声認識部と、その音声認識結果を意味解析する意味解析部と、ユーザに対する回答を音声合成する音声合成部をさらに備え、
前記音声合成部による音声合成結果を前記第1の機器から音声出力させる、
上記(1)に記載の情報処理装置。
(2)前記制御部は、ユーザの画像又は音声、ユーザによる前記第1の機器の操作に関する情報、前記第1の機器が装備するセンサが検出したセンサ情報のうち少なくとも1つを含む前記情報を収集する、
上記(1)に記載の情報処理装置。
(3)前記第1の機器はテレビ受像機であり、
前記制御部は、ユーザによるテレビ番組の視聴履歴、録画履歴、リモコン操作履歴を含む前記情報を収集する、
上記(1)又は(2)のいずれかに記載の情報処理装置。
(4)前記制御部は、前記第1の機器から収集した情報に基づいてユーザのアカウントを管理する、
上記(2)又は(3)のいずれかに記載の情報処理装置。
(5)前記制御部は、外部エージェントサービスの呼び出しを制御する、
上記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)前記制御部は、各外部エージェントサービスの呼び出し仕様に適合するように形式変換してから、呼び出しを実行する、
上記(5)に記載の情報処理装置。
(7)前記制御部は、第1の外部エージェントサービスへの呼び出し内容を音声合成して、前記第1の外部エージェントサービスの呼び出しを行う、
上記(6)に記載の情報処理装置。
(8)前記制御部は、第2の外部エージェントサービスへの呼び出し内容を音声合成し、前記第1の機器から前記第2の外部エージェントサービスの配下の外部エージェントデバイスに対して音声による呼び出しを行う、
上記(6)に記載の情報処理装置。
(9)外部エージェントサービスからの音声による回答を認識する音声認識部、及びその音声認識結果を意味解析する意味解析部をさらに備える、
上記(5)乃至(8)のいずれかに記載の情報処理装置。
(10)外部エージェントサービスからAPI呼び出しにより回答を受け取る、
上記(5)乃至(8)のいずれかに記載の情報処理装置。
(11)前記制御部は、複数の外部エージェントサービスからの回答を選択又は合成して、ユーザから前記エージェントへの問い合わせに対する回答を生成する、
上記(5)に記載の情報処理装置。
(12)前記制御部は、前記第1の機器を呼び出したユーザのプロファイル情報に基づいて、外部エージェントサービスの呼び出しを制御する、
上記(1)乃至(11)のいずれかに記載の情報処理装置。
(13)前記制御部は、プロファイル切替え機能を有する外部エージェントサービスに対して、前記第1の機器を呼び出したユーザのプロファイル識別結果に基づく呼び出しを行う、
上記(12)に記載の情報処理装置。
(14)前記制御部は、前記第1の機器を呼び出したユーザの機微情報に基づいて、外部エージェントサービスの呼び出しを制御する、
上記(1)乃至(13)のいずれかに記載の情報処理装置。
(15)前記制御部は、ユーザの呼び出しに含まれる機微情報を別の情報に置換処理して、外部エージェントサービスの呼び出しを行う、
上記(14)に記載の情報処理装置。
(16)前記制御部は、ユーザの状態に基づいて外部エージェントサービスを制御する、
上記(1)乃至(15)のいずれかに記載の情報処理装置。
(16-1)前記制御部は、ユーザによる前記第1の機器の使用状態に基づいて外部エージェントサービスを制御する、
上記(16)に記載の情報処理装置。
(16-2)前記制御部は、ユーザの状態に基づいて、外部エージェントサービスを無効化及び有効化する、
上記(16)に記載の情報処理装置。
(16-3)前記制御部は、ユーザの状態に基づいて、外部エージェントサービスからのエージェントの呼び出しに関する問い合わせに応答する、
上記(16)に記載の情報処理装置。
(17)ユーザとの対話に関する情報が処理されて生成された、前記ユーザへの回答を受信する通信部と、
前記回答を出力する出力部と、
を具備する情報処理装置。
(18)第1の機器に常駐するエージェントを介したユーザとの対話に関する情報を受信する通信ステップと、
外部エージェントサービスを制御する制御ステップと、
を有する情報処理方法。
(19)ユーザとの対話に関する情報が処理されて生成された、前記ユーザへの回答を受信する通信ステップと、
前記回答を出力する出力ステップと、
を有する情報処理方法。
(20)ユーザと対話するエージェントが常駐する第1の機器と、
前記エージェントを介したユーザとの対話に関する情報を受信する通信部と、 外部エージェントサービスを制御する制御部と、
を具備する情報処理システム。
(20-1)前記第1の機器は、ユーザとの対話に関する情報が処理されて生成された、前記ユーザへの回答を受信して出力する、
上記(20)に記載の情報処理システム。
100…情報機器(テレビ受像機)
101…処理部、102…チューナ、103…通信部
104…表示部、105…音声入力部、106…音声出力部
107…撮像部、108…センサ部
109…リモコン受信部、110…記録部
300…エージェントクラウドプラットフォーム
310…TVエージェント、320…外部エージェントデバイス
321…音声入力部、322…音声出力部
330…エージェントシステム
331…音声認識部、332…意味解析部、333…音声合成部
334…制御部、335…音声認識部、336…意味解析部
101…処理部、102…チューナ、103…通信部
104…表示部、105…音声入力部、106…音声出力部
107…撮像部、108…センサ部
109…リモコン受信部、110…記録部
300…エージェントクラウドプラットフォーム
310…TVエージェント、320…外部エージェントデバイス
321…音声入力部、322…音声出力部
330…エージェントシステム
331…音声認識部、332…意味解析部、333…音声合成部
334…制御部、335…音声認識部、336…意味解析部
Claims (20)
- 第1の機器に常駐するエージェントを介したユーザとの対話に関する情報を受信する通信部と、
外部エージェントサービスを制御する制御部と、
を具備する情報処理装置。 - 前記制御部は、ユーザの画像又は音声、ユーザによる前記第1の機器の操作に関する情報、前記第1の機器が装備するセンサが検出したセンサ情報のうち少なくとも1つを含む前記情報を収集する、
請求項1に記載の情報処理装置。 - 前記第1の機器はテレビ受像機であり、
前記制御部は、ユーザによるテレビ番組の視聴履歴、録画履歴、リモコン操作履歴を含む前記情報を収集する、
請求項1に記載の情報処理装置。 - 前記制御部は、前記第1の機器から収集した情報に基づいてユーザのアカウントを管理する、
請求項2に記載の情報処理装置。 - 前記制御部は、外部エージェントサービスの呼び出しを制御する、
請求項1に記載の情報処理装置。 - 前記制御部は、各外部エージェントサービスの呼び出し仕様に適合するように形式変換してから、呼び出しを実行する、
請求項5に記載の情報処理装置。 - 前記制御部は、第1の外部エージェントサービスへの呼び出し内容を音声合成して、前記第1の外部エージェントサービスの呼び出しを行う、
請求項6に記載の情報処理装置。 - 前記制御部は、第2の外部エージェントサービスへの呼び出し内容を音声合成し、前記第1の機器から前記第2の外部エージェントサービスの配下の外部エージェントデバイスに対して音声による呼び出しを行う、
請求項6に記載の情報処理装置。 - 外部エージェントサービスからの音声による回答を認識する音声認識部、及びその音声認識結果を意味解析する意味解析部をさらに備える、
請求項5に記載の情報処理装置。 - 外部エージェントサービスからAPI呼び出しにより回答を受け取る、
請求項5に記載の情報処理装置。 - 前記制御部は、複数の外部エージェントサービスからの回答を選択又は合成して、ユーザから前記エージェントへの問い合わせに対する回答を生成する、
請求項5に記載の情報処理装置。 - 前記制御部は、前記第1の機器を呼び出したユーザのプロファイル情報に基づいて、外部エージェントサービスの呼び出しを制御する、
請求項1に記載の情報処理装置。 - 前記制御部は、プロファイル切替え機能を有する外部エージェントサービスに対して、前記第1の機器を呼び出したユーザのプロファイル識別結果に基づく呼び出しを行う、
請求項12に記載の情報処理装置。 - 前記制御部は、前記第1の機器を呼び出したユーザの機微情報に基づいて、外部エージェントサービスの呼び出しを制御する、
請求項1に記載の情報処理装置。 - 前記制御部は、ユーザの呼び出しに含まれる機微情報を別の情報に置換処理して、外部エージェントサービスの呼び出しを行う、
請求項14に記載の情報処理装置。 - 前記制御部は、ユーザの状態に基づいて外部エージェントサービスを制御する、
請求項1に記載の情報処理装置。 - ユーザとの対話に関する情報が処理されて生成された、前記ユーザへの回答を受信する通信部と、
前記回答を出力する出力部と、
を具備する情報処理装置。 - 第1の機器に常駐するエージェントを介したユーザとの対話に関する情報を受信する通信ステップと、
外部エージェントサービスを制御する制御ステップと、
を有する情報処理方法。 - ユーザとの対話に関する情報が処理されて生成された、前記ユーザへの回答を受信する通信ステップと、
前記回答を出力する出力ステップと、
を有する情報処理方法。 - ユーザと対話するエージェントが常駐する第1の機器と、
前記エージェントを介したユーザとの対話に関する情報を受信する通信部と、
外部エージェントサービスを制御する制御部と、
を具備する情報処理システム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020207032537A KR20210014625A (ko) | 2018-05-25 | 2019-04-11 | 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템 |
CN201980033449.9A CN112136102B (zh) | 2018-05-25 | 2019-04-11 | 信息处理装置、信息处理方法以及信息处理系统 |
US17/055,140 US11869496B2 (en) | 2018-05-25 | 2019-04-11 | Information processing device and information processing method, and information processing system |
EP19806770.4A EP3805914A4 (en) | 2018-05-25 | 2019-04-11 | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND INFORMATION PROCESSING SYSTEM |
JP2020521087A JP7342862B2 (ja) | 2018-05-25 | 2019-04-11 | 情報処理装置及び情報処理方法、並びに情報処理システム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018100418 | 2018-05-25 | ||
JP2018-100418 | 2018-05-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019225201A1 true WO2019225201A1 (ja) | 2019-11-28 |
Family
ID=68615574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/015875 WO2019225201A1 (ja) | 2018-05-25 | 2019-04-11 | 情報処理装置及び情報処理方法、並びに情報処理システム |
Country Status (6)
Country | Link |
---|---|
US (1) | US11869496B2 (ja) |
EP (1) | EP3805914A4 (ja) |
JP (1) | JP7342862B2 (ja) |
KR (1) | KR20210014625A (ja) |
CN (1) | CN112136102B (ja) |
WO (1) | WO2019225201A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022158665A1 (ko) * | 2021-01-19 | 2022-07-28 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US20230161901A1 (en) * | 2020-06-03 | 2023-05-25 | Mindwareworks Co., Ltd. | System for providing personal information-based speech information processing service |
WO2023188806A1 (ja) * | 2022-03-31 | 2023-10-05 | ソニーグループ株式会社 | センサ装置 |
US11915691B2 (en) | 2021-01-19 | 2024-02-27 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
JP7524807B2 (ja) | 2021-03-24 | 2024-07-30 | トヨタ自動車株式会社 | ロボット、コミュニケーションシステム、コミュニケーション方法及びプログラム |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11531821B2 (en) * | 2020-08-13 | 2022-12-20 | Salesforce, Inc. | Intent resolution for chatbot conversations with negation and coreferences |
US11978453B2 (en) * | 2021-06-14 | 2024-05-07 | Amazon Technologies, Inc. | Natural language processing routing |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001034616A (ja) * | 1999-07-16 | 2001-02-09 | Fujitsu Ltd | 情報仲介・統合装置 |
JP2002082748A (ja) * | 2000-09-06 | 2002-03-22 | Sanyo Electric Co Ltd | ユーザ支援装置 |
JP2005167628A (ja) * | 2003-12-02 | 2005-06-23 | Sony Corp | 情報処理装置及び情報処理方法、並びにコンピュータ・プログラム |
JP2007143010A (ja) | 2005-11-22 | 2007-06-07 | Sony Corp | テレビジョン装置 |
JP2008090545A (ja) * | 2006-09-29 | 2008-04-17 | Toshiba Corp | 音声対話装置および音声対話方法 |
WO2014203495A1 (ja) | 2013-06-19 | 2014-12-24 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声対話方法、及び機器 |
WO2015064072A1 (ja) * | 2013-10-30 | 2015-05-07 | パナソニックIpマネジメント株式会社 | 情報提供システム、特定情報生成装置、および特定情報生成方法 |
JP2016100613A (ja) | 2014-11-18 | 2016-05-30 | ソニー株式会社 | 信号処理装置、信号処理方法、およびプログラム |
JP2017527844A (ja) | 2014-08-11 | 2017-09-21 | アマゾン テクノロジーズ インコーポレイテッド | 音声アプリケーション・アーキテクチャ |
JP2018055422A (ja) * | 2016-09-29 | 2018-04-05 | 株式会社東芝 | 情報処理システム、情報処理装置、情報処理方法、及びプログラム |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7398209B2 (en) * | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
WO2012150602A1 (en) * | 2011-05-03 | 2012-11-08 | Yogesh Chunilal Rathod | A system and method for dynamically monitoring, recording, processing, attaching dynamic, contextual & accessible active links & presenting of physical or digital activities, actions, locations, logs, life stream, behavior & status |
US9288421B2 (en) * | 2012-07-12 | 2016-03-15 | Samsung Electronics Co., Ltd. | Method for controlling external input and broadcast receiving apparatus |
CA2823835C (en) | 2012-08-15 | 2018-04-24 | Homer Tlc, Inc. | Voice search and response based on relevancy |
US9230560B2 (en) * | 2012-10-08 | 2016-01-05 | Nant Holdings Ip, Llc | Smart home automation systems and methods |
CN104050966B (zh) * | 2013-03-12 | 2019-01-01 | 百度国际科技(深圳)有限公司 | 终端设备的语音交互方法和使用该方法的终端设备 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
CN105490890A (zh) * | 2014-09-16 | 2016-04-13 | 中兴通讯股份有限公司 | 智能家庭终端及其控制方法 |
CN106469040B (zh) * | 2015-08-19 | 2019-06-21 | 华为终端有限公司 | 通信方法、服务器及设备 |
CN105161106A (zh) * | 2015-08-20 | 2015-12-16 | 深圳Tcl数字技术有限公司 | 智能终端的语音控制方法、装置及电视机系统 |
US10714081B1 (en) * | 2016-03-07 | 2020-07-14 | Amazon Technologies, Inc. | Dynamic voice assistant interaction |
US9848082B1 (en) * | 2016-03-28 | 2017-12-19 | Noble Systems Corporation | Agent assisting system for processing customer enquiries in a contact center |
US10049663B2 (en) * | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10217453B2 (en) * | 2016-10-14 | 2019-02-26 | Soundhound, Inc. | Virtual assistant configured by selection of wake-up phrase |
-
2019
- 2019-04-11 CN CN201980033449.9A patent/CN112136102B/zh active Active
- 2019-04-11 US US17/055,140 patent/US11869496B2/en active Active
- 2019-04-11 EP EP19806770.4A patent/EP3805914A4/en active Pending
- 2019-04-11 KR KR1020207032537A patent/KR20210014625A/ko not_active Application Discontinuation
- 2019-04-11 WO PCT/JP2019/015875 patent/WO2019225201A1/ja unknown
- 2019-04-11 JP JP2020521087A patent/JP7342862B2/ja active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001034616A (ja) * | 1999-07-16 | 2001-02-09 | Fujitsu Ltd | 情報仲介・統合装置 |
JP2002082748A (ja) * | 2000-09-06 | 2002-03-22 | Sanyo Electric Co Ltd | ユーザ支援装置 |
JP2005167628A (ja) * | 2003-12-02 | 2005-06-23 | Sony Corp | 情報処理装置及び情報処理方法、並びにコンピュータ・プログラム |
JP2007143010A (ja) | 2005-11-22 | 2007-06-07 | Sony Corp | テレビジョン装置 |
JP2008090545A (ja) * | 2006-09-29 | 2008-04-17 | Toshiba Corp | 音声対話装置および音声対話方法 |
WO2014203495A1 (ja) | 2013-06-19 | 2014-12-24 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声対話方法、及び機器 |
WO2015064072A1 (ja) * | 2013-10-30 | 2015-05-07 | パナソニックIpマネジメント株式会社 | 情報提供システム、特定情報生成装置、および特定情報生成方法 |
JP2017527844A (ja) | 2014-08-11 | 2017-09-21 | アマゾン テクノロジーズ インコーポレイテッド | 音声アプリケーション・アーキテクチャ |
JP2016100613A (ja) | 2014-11-18 | 2016-05-30 | ソニー株式会社 | 信号処理装置、信号処理方法、およびプログラム |
JP2018055422A (ja) * | 2016-09-29 | 2018-04-05 | 株式会社東芝 | 情報処理システム、情報処理装置、情報処理方法、及びプログラム |
Non-Patent Citations (1)
Title |
---|
See also references of EP3805914A4 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230161901A1 (en) * | 2020-06-03 | 2023-05-25 | Mindwareworks Co., Ltd. | System for providing personal information-based speech information processing service |
JP2023526736A (ja) * | 2020-06-03 | 2023-06-23 | マインドウェアワークス カンパニー リミテッド | 個人情報保護に基づく音声情報処理サービス提供システム |
JP7471691B2 (ja) | 2020-06-03 | 2024-04-22 | マインドウェアワークス カンパニー リミテッド | 個人情報保護に基づく音声情報処理サービス提供システム |
EP4163811A4 (en) * | 2020-06-03 | 2024-06-12 | Mindwareworks Co.,Ltd. | SYSTEM FOR PROVIDING VOICE INFORMATION PROCESSING SERVICE BASED ON PERSONAL INFORMATION PROTECTION |
WO2022158665A1 (ko) * | 2021-01-19 | 2022-07-28 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11915691B2 (en) | 2021-01-19 | 2024-02-27 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
JP7524807B2 (ja) | 2021-03-24 | 2024-07-30 | トヨタ自動車株式会社 | ロボット、コミュニケーションシステム、コミュニケーション方法及びプログラム |
WO2023188806A1 (ja) * | 2022-03-31 | 2023-10-05 | ソニーグループ株式会社 | センサ装置 |
Also Published As
Publication number | Publication date |
---|---|
JP7342862B2 (ja) | 2023-09-12 |
EP3805914A4 (en) | 2021-06-30 |
CN112136102A (zh) | 2020-12-25 |
KR20210014625A (ko) | 2021-02-09 |
CN112136102B (zh) | 2024-04-02 |
JPWO2019225201A1 (ja) | 2021-07-08 |
US20210217414A1 (en) | 2021-07-15 |
EP3805914A1 (en) | 2021-04-14 |
US11869496B2 (en) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019225201A1 (ja) | 情報処理装置及び情報処理方法、並びに情報処理システム | |
EP3496091B1 (en) | Device and method for privacy-preserving vocal interaction | |
JP6416752B2 (ja) | 家電機器の制御方法、家電機器制御システム、及びゲートウェイ | |
KR101883301B1 (ko) | 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버 | |
JP2004280824A (ja) | ユビキタスサービス機能を備えたプライベートネットワークシステム、及び当該ネットワークシステムにおける情報処理方法 | |
US10368112B2 (en) | Technologies for immersive user sensory experience sharing | |
KR102638946B1 (ko) | 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템 | |
WO2017175442A1 (ja) | 情報処理装置、および情報処理方法 | |
KR20220053795A (ko) | 인공지능 비서 서비스 제공 시스템 및 방법 | |
JP2019145944A (ja) | 音響出力システム、音響出力方法及びプログラム | |
JPWO2018043115A1 (ja) | 情報処理装置、情報処理方法、並びにプログラム | |
JP2004221736A (ja) | ドアホン装置 | |
WO2019017033A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2023505986A (ja) | ユーザ入力に基づく複数出力制御 | |
US20200151796A1 (en) | Information processing device, information processing method, and program | |
JP7284204B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
US11347462B2 (en) | Information processor, information processing method, and program | |
JP7351642B2 (ja) | 音声処理システム、会議システム、音声処理方法、及び音声処理プログラム | |
US20150163342A1 (en) | Context-aware filter for participants in persistent communication | |
JP2024072183A (ja) | 情報端末、インターホンシステム、音声認識システム、制御方法、及びプログラム | |
JP2024042515A (ja) | 伝送システム、伝送方法及び伝送プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19806770 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2020521087 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2019806770 Country of ref document: EP Effective date: 20210111 |