Nothing Special   »   [go: up one dir, main page]

JP7199451B2 - 感情コンピューティングユーザインターフェースに基づく感性的インタラクションシステム、装置及び方法 - Google Patents

感情コンピューティングユーザインターフェースに基づく感性的インタラクションシステム、装置及び方法 Download PDF

Info

Publication number
JP7199451B2
JP7199451B2 JP2020562804A JP2020562804A JP7199451B2 JP 7199451 B2 JP7199451 B2 JP 7199451B2 JP 2020562804 A JP2020562804 A JP 2020562804A JP 2020562804 A JP2020562804 A JP 2020562804A JP 7199451 B2 JP7199451 B2 JP 7199451B2
Authority
JP
Japan
Prior art keywords
emotional
user
emotion
interaction
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020562804A
Other languages
English (en)
Other versions
JP2021514514A (ja
Inventor
ホンガン ワン
ホイ ワン
ホイ チン
ユニン ワン
ズイハオ リ
ピンピン ジュー
ナイミン ヤオ
ジアキー ジュー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Shanghai Xiaoi Robot Technology Co Ltd
Original Assignee
Institute of Software of CAS
Shanghai Xiaoi Robot Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201810077175.0A external-priority patent/CN108334583B/zh
Priority claimed from CN201810079432.4A external-priority patent/CN108227932B/zh
Priority claimed from CN201810078132.4A external-priority patent/CN110110169A/zh
Application filed by Institute of Software of CAS, Shanghai Xiaoi Robot Technology Co Ltd filed Critical Institute of Software of CAS
Publication of JP2021514514A publication Critical patent/JP2021514514A/ja
Application granted granted Critical
Publication of JP7199451B2 publication Critical patent/JP7199451B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Description

本願は、2018年1月26日に出願された3つの中国特許出願「No.201810077175.0」(発明名称が「感性的インタラクション方法及び装置、コンピュータ読取可能な記憶媒体及び計算装置」である)、「No.201810079432.4」(発明名称が「インタラクション意図の確定方法、装置、計算装置及び記憶媒体」である)及び「No.201810078132.4」(発明名称が「ヒューマンマシンインタラクション方法及び装置」である)の優先権を主張し、それらのすべての内容を参照より本明細書に組み込む。
本発明は、感性的インタラクションコンピューティング技術分野に関し、特に感情コンピューティングユーザインターフェース(Affective computing User Interface, AUI)に基づいてユーザと感性的インタラクションを行うためのシステム、装置及び方法に関する。
ヒューマンマシンインタラクションは、人(ユーザ)とコンピュータとの間のインターフェースに関わる。従来のヒューマンマシンインタラクションは、命令、対話、ナビゲーション、閲覧、検索などのような情報コミュニケーションを重要視する。感情は、我々の日常コミュニケーションにおいては基本的な構成部分であるにもかかわらず、ヒューマンマシンインタラクション技術においては長い間無視されてきた。感性的なコミュニケーションの欠落は、様々な面において、技術を利用するユーザに失望感を与えている。人間がインタラクション会話を通じて情報コミュニケーションを行うとき、感情と感性的情報は同時に存在する。ユーザを満足させるインタラクションを提供することができるスマートマシンを構築するためには、正確な情報交換及び感性的インタラクションを行う機能をマシンに具備させることが大切である。
以上に鑑みて、人間の感情を収集して認識し、感情に含まれるインタラクション及び感情意図を認識して戦略を形成し、さらにヒューマンとマシンの感性的インタラクションにおける回答として、様々なモダリティを有する感情表出を生成することができる、一般的且つ標準化した感性的インタラクションシステム、装置及び方法が必要とされている。
本発明は、例示的な感性的インタラクション装置を提供する。本発明によると、例示的な感性的インタラクション装置は感性的インタラクション計算モジュールを備える。当該感性的インタラクション計算モジュールはユーザ意図計算ユニットを備え、当該ユーザ意図計算ユニットは、感情関連データ及びユーザの感情状態を受信し、感情関連データ及び感情状態に基づいてユーザ意図を認識する。ここで、ユーザ意図は感情意図及び/又はインタラクション意図を含み、感情意図は感情状態に対応し且つ感情状態の感情ニーズを含み、インタラクション意図は1つ又は複数のトランザクション意図を含む。
一部の実施例において、例示的な装置は、感性的インタラクション計算モジュールに接続されるマルチチャンネルフロントエンド端末を更に備える。当該マルチチャンネルフロントエンド端末は、ユーザから感情関連データを取得するデータ収集部を備える。例示的な装置は、感性的インタラクション計算モジュールの中にある感情認識部を更に備える。当該感情認識部は、データ収集部とユーザ意図計算ユニットとのそれぞれに接続されて、感情関連データを受信し、感情関連データに基づいて感情状態を認識する。
一部の実施例において、例示的な装置は、感性的インタラクション計算モジュールの中にある感情戦略形成ユニットを更に備える。当該感情戦略形成ユニットは、ユーザ意図計算ユニットに接続されて、感情状態及びユーザ意図に基づいて感性的命令を生成する。感性的命令は実行可能な指令を含み、実行可能な指令は、ユーザ意図に対応する1つ又は複数のモダリティによって感情表出を生成するために用いられる。
本発明は、例示的な感性的インタラクション方法を更に提供する。本発明に係る例示的な方法は、ユーザ意図計算ユニットによってユーザからの感情関連データ及び感情状態を受信するステップと、感情関連データ及び感情状態に基づいてユーザ意図を認識するステップと、を含む。ここで、ユーザ意図は感情意図及び/又はインタラクション意図を含み、感情意図は感情状態に対応し且つ感情状態の感情ニーズを含み、インタラクション意図は1つ又は複数のトランザクション意図を含む。
本発明は、AUIに基づく例示的な感性的インタラクションシステムを更に提供する。本発明に係る例示的なシステムは、感情関連データ及びユーザの感情状態を受信し且つ感情関連データ及び感情状態に基づいてユーザ意図を認識するユーザ意図計算ユニットを備えた感性的インタラクション計算モジュールと、感性的インタラクション計算モジュールの中にあり、ユーザ意図計算ユニットに接続されて感情状態及びユーザ意図に基づいて感性的命令を生成する感情戦略形成ユニットと、を備える。ここで、ユーザ意図は感情意図及び/又はインタラクション意図を含み、感情意図は感情状態に対応し且つ感情状態の感情ニーズを含み、インタラクション意図は1つ又は複数のトランザクション意図を含み、感性的命令は実行可能な指令を含み、前記実行可能な指令は、ユーザ意図に対応する1つ又は複数のモダリティによって感情表出を生成するために用いられる。
一部の実施例において、例示的な感性的インタラクションシステムは、データ収集部を備えたマルチチャンネルフロントエンド端末を更に備える。当該データ収集部は、ユーザから1つ又は複数のモダリティを有する感情関連データを取得する。例示的なシステムは、感性的インタラクション計算モジュールの中にある感情認識部を更に備える。感情認識部は、データ収集部に接続されて感情関連データを受信し、感情関連データに基づいて感情状態を認識する。ここで、感情状態は離散的な感情分類及び/又は次元における感情数値を含む。一部の実施例において、例示的なシステムは、感情戦略形成ユニットに接続される感情計算表出生成部を更に備える。当該感情計算表出生成部は、感性的命令に基づいて感情表出を生成し、さらに生成した感情表出をユーザに表現する。
なお、本発明の請求範囲は請求項の通りであり、以上の一般的な説明及び以下の詳しい説明はすべて例示的又は説明的なものに過ぎず、本発明を制限するものではない。
本発明の一実施例に係る例示的な感性的インタラクションシステムのブロック図である。 本発明の一実施例によるマルチチャンネルフロントエンド端末及び感性的インタラクション計算モジュールを備えた、図1に係る例示的な感性的インタラクションシステムのブロック図である。 本発明の一実施例に係る例示的な感性的インタラクションシステムの機能図である。 本発明の一実施例に係る例示的なマルチチャンネルフロントエンド端末の機能図である。 本発明の一実施例に係る例示的な感性的インタラクション計算モジュールの機能図である。 本発明の一実施例に係る例示的な感性的インタラクションシステムをユーザ視点で示す機能図である。 本発明の一実施例に係る例示的な感性的インタラクションシステムを感性的インタラクションシステム視点で示す機能図である。 本発明の一実施例に係る例示的なデータ収集部のブロック図である。 本発明の一実施例に係る例示的な感情認識部のブロック図である。 本発明の一実施例に係る例示的なユーザ意図計算ユニットのブロック図である。 本発明の一実施例に係る例示的な感情戦略形成ユニットのブロック図である。 本発明の一実施例に係る感性的インタラクションシステムにおいて行われる例示的な感性的インタラクションのプロセスを示すフローチャートである。 本発明の一実施例に係るユーザ意図計算ユニットにおいて行われる例示的な意図認識のプロセスを示すフローチャートである。 本発明の一実施例に係るベイジアンネットワークに基づくユーザ意図計算ユニットの機能図である。 本発明の一実施例に係るベイジアンネットワークに基づく例示的なユーザ意図認識のプロセスを示すフローチャートである。 本発明の一実施例に係るベイジアンネットワークに基づく例示的なユーザ意図認識のプロセスを示すフローチャートである。 本発明の一実施例に係るベイジアンネットワークに基づく例示的なユーザ意図認識のプロセスを示すフローチャートである。 本発明の一実施例に係る感情戦略形成ユニットにおいて行われる戦略形成のプロセスを示すフローチャートである。 本発明の一実施例に係る3Dモーフィングモデルに基づいて顔面表情を認識する例示的なプロセスである。 本発明の一実施例に係る畳み込みニューラルネットワークに基づいて視聴データに対して感情認識を行う例示的なプロセスである。 本発明の一実施例に係る変分オートエンコーダーを用いて顔ランドマーク処理に基づいて顔面表情を生成することの例示的な機械学習プロセスである。
以下、図面に示された例としての具体的な実施例を説明する。図面全体においては、可能な限り、同一の符号によって同一又は類似のパーツを表示する。
感情コンピューティングユーザインターフェース(「AUI」)に基づく感性的インタラクションシステムは、感情関連データ収集、感情認識、ユーザ意図計算、感情戦略形成及び感情計算表出生成などのプロセスを実行することによって、ユーザが1つ又は複数のモダリティによって当該システムと感性的インタラクションを行い且つ当該システムから感情フィードバックを受信することができるようにする。
感性的インタラクションシステムは、調和したヒューマンマシンインタラクション環境を構築するために、システム及びマシンが人間の感情を認識、解釈及び模擬することができるようにするシステムである。従来のユーザインタラクションシステムと異なり、感性的インタラクションシステムは共感を模擬することができる。感性的インタラクションシステムは、感情関連データ収集、感情認識、意図認識計算、戦略形成及び感情計算表出を含む感性的インタラクションのフィードバック回路を構築することによって、人間の感情状態を解釈することができるとともに、人間に適応する行為を取ることができるため、それらの感情に適切な応答を行うことができる。
AUIは、ユーザが感性的インタラクションシステムと感性的インタラクションを行うために用いるユーザインターフェースである。ユーザは、任意の可能な操作及び制御手段によってAUIに対して自分の感情を表して、感性的インタラクションを起動することができる。AUIは、任意の関連する命令、感情、情報、データ、ユーザ入力、リクエストなどの情報を感性的インタラクションシステムにおける計算モジュールへ送信するとともに、感性的インタラクションシステムにより生成された結果及び出力フィードバックをユーザに伝えることができる。例えば、AUIはインスタントメッセージAPP(アプリケーション)のチャット窓、ウェブページ、操作パネル、介護ロボットの通信チャンネル、スマートウェアラブル装置のタッチパネルなどであってもよい。
本発明の実施例によると、感性的インタラクションシステムは様々なモダリティによって感性的インタラクションを系統的に処理することができる。当該システムは1つの完全な感性的インタラクションプロセスを実行し、当該プロセスは意図理解/計算及び戦略形成を含むが、それらに限られない。以下において説明される一部の実施例において、感情情報はインタラクション回路全体に関連される。一部の実施例において、システムは一部の感性的インタラクションプロセスのみにおいて感情関連データを使用してもよい。例えば、システムはユーザの感情関連データを分析することによってユーザの好みを確定するか又はサービス品質の指標を取得することができるが、必ずしも感情戦略を形成すること又はフィードバックとして感情表出を生成することを実行するわけではない。
図1は、例示的な感性的インタラクションシステム100を示すブロック図である。例示的なシステム100は、AUIに基づいてユーザに感性的インタラクションを提供する任意タイプのシステム、例えば、サービスロボット、介護ロボット、スマートウェアラブル装置、スマート家具、スマート家庭用デバイスなどであってもよい。システム100は、マルチチャンネルフロントエンド端末116、ネットワーク118及び感性的インタラクション計算モジュール120を備えることができる。一部の実施例において、マルチチャンネルフロントエンド端末116はネットワーク118を介して感性的インタラクション計算モジュール120に接続される。モジュール120は、端末116と同じハードウェア装置に配置されてもよく、他の実施例においては異なるデザインを有する独立したハードウェア装置に配置されてもよい。例えば、端末116は感情コミュニケーション102を収集してから、受信したデータ及び処理リクエストを、ネットワーク118を介してモジュール120に送信するか又は割り当てることができる。以下において説明される通り、モジュール120は、データに含まれている感情を認識し、ユーザの意図を認識し、さらに当該意図に基づいて戦略を形成することができる。端末116は、モジュール120からの命令を受信して、感情表出を生成してユーザにフィードバックすることができる。
マルチチャンネルフロントエンド端末116はハードウェアデバイスであってもよく、例えば、ロボット、スマート端末、スマートフォン、インスタントメッセージ(「IM」)のプラットフォーム、又は、人間ユーザとシステム100とが感性的インタラクションを行うためのインターフェースを提供することができる任意の電子デバイスであってもよい。端末116の感情インターフェースを介して、ユーザは1つ又は複数のモダリティを有する感情コミュニケーション102(例えば、テキスト104、音声106、顔面表情108、ジェスチャ110、生理信号112、マルチモダリティ114などのうちの少なくとも1つ)を入力することができるとともに、1つ又は複数のモダリティを有する感性的フィードバックを受信することができる。テキスト104は、人間又はコンピュータの読取可能な言語で作成された任意の書面情報又は表現であってもよく、例えば、単語、テキストメッセージ、絵文字などであってもよい。音声106は、人間が声帯を使って話すこと、歌うこと、泣くこと、又は叫ぶことによって出す任意の声であってもよい。顔面表情108は、ユーザの顔面皮膚に覆われる筋肉の1つ又は複数の運動又は位置を反映した、観察可能な顔面の動きであってもよく、例えば、悲しい表情、大笑い、眉毛上げ、アイコンタクトなどであってもよい。ジェスチャ110は、非言語的且つ目に見える任意の身体動作であってもよく、例えば、ハンドジェスチャ、頭を振ること、頷き、肩をすくめること、歩き回ることなどであってもよい。生理信号112は、人の中枢神経系システム及び/又は自律神経系において生成された検出可能な生理信号であってもよく、心拍、血圧、心電図、脳波、筋電図、体温、容積脈波率、ガルバニック皮膚反応などを含む。
端末116は、感情コンピューティングユーザインターフェースを提供する。当該ユーザインターフェースは、ユーザの感情コミュニケーションを収集し、後続のプロセスにおける処理において用いられる感情関連データを取得することができる。感性的インタラクション会話の後の段階において、端末116は他の装置(例えば、モジュール120)からの命令を受信し、それらの命令を実行して感情表出を生成してユーザにフィードバックすることができる。例えば、図1による実施例において、端末116はユーザからの感情コミュニケーション102を収集することができる。次に、後続の処理のために、端末116は受信した感情コミュニケーション102を、ネットワーク118を介してモジュール120に送信することができる。モジュール120は当該処理を遂行して結果を端末116に返送し、それを受けて端末116は対応する感情表出を生成してフィードバックとしてユーザに提供する。
ネットワーク118は、ノード間のリソースシェアを可能にするデジタル電信ネットワークであってもよく、データ及び情報の共有に適する広域ネットワーク(WANs)、ローカルエリアネットワーク(LANs)、ワイヤレスネットワーク、パーソナルエリアネットワーク(PANs)、メトロポリタンエリアネットワーク(MANs)、エンタープライズプライベートネットワーク(EPNs)、バーチャルプライベートネットワーク(VPNs)などの任意の組合せを含むことができる。
感性的インタラクション計算モジュール120はユーザとAUIシステムとの間の感性的インタラクション会話において必要とされる任意の計算を処理するための1つ又は複数のコンピューティング装置を備えた計算モジュールであってもよい。モジュール120は1つ又は複数のハードウェア装置に配分されることができる。図1による例示的な実施例において、モジュール120は端末116に接続され、ネットワーク118を介して端末116からデータ又はリクエストを受信することができる。例えば、端末116は、感情コミュニケーション102を受信したあと、受信したデータ及び処理リクエストを、ネットワーク118を介してモジュール120に送信することができる。モジュール120は、認識データに含まれている感情を認識し、ユーザの意図を確認し、当該意図に基づいて戦略を形成し、さらに当該戦略から取得する感性的命令を端末116に返送することができる。なお、以下において説明されるよう、当該感性的命令は感情表出の生成に用いられる。
図2は、例示的な感性的インタラクションシステム100を示すブロック図である。例示的な感性的インタラクションシステム100は、本発明の実施例の通り、マルチチャンネルフロントエンド端末116及び感性的インタラクション計算モジュール120を備える。端末116はデータ収集部202及び感情計算表出生成部210などを備えてもよく、モジュール122は感情認識部204、ユーザ意図計算ユニット206及び感情戦略形成ユニット208などを備えてもよい。なお、これらの構成部分は任意の順によって配列されることができる。
データ収集部202は、ハードウェア装置として配置されて、1つ又は複数の計算プログラムを実行することによってユーザからの感情コミュニケーションを捕獲し、捕獲した感情コミュニケーションデータを分析して感情関連データを取得することができる。一部の実施例において、収集部202は複数のモダリティを有する感情表現を捕獲することができる。このようなマルチモーダルな感情表現に基づいて、収集部202は、捕獲した感情コミュニケーションを分析して、異なる形式を有する感情関連データを生成することができる。収集部202は、マルチチャンネルフロントエンド端末116におけるデータ収集及び分析の道具として、感性的インタラクションシステム100において行われるデータ入力プロセスを促進することができる。
感情認識部204は、ハードウェア装置として配置されて、1つ又は複数の計算プログラムを実行することによって感情関連データを受信し、異なる形式を有する感情関連データに基づいて感情特徴を認識することができる。さらに、感情認識部204は、認識できた感情特徴を融合してマルチモーダルな感情特徴を生成することができる。次に、感情認識部204はマルチモーダルな感情を分類し、及び/又は、復帰させることができる。最終的に、感情認識部204は1つの感情状態を取得することができる。感情状態とは、ユーザにより表出されて感性的インタラクションシステムにより感知及び認識される感情の状態に対する定義である。感情状態304は複数の形式によって表現されることができる。一部の実施例において、感情状態は感情分類によって表現されることができる。例えば、感情状態は6つの基本的な分類(例えば、嬉しい、悲しい、怒り、驚き、恐怖、嫌悪)によって表わされてもよい。これらの分類は互いに独立しており、人間の感情の異なる種類及び側面を記述する。さらに、感情は22個の感情分類のうちの1つに分類されてもよい。これらの感情分類は、それぞれが代表している重要な心理状況によって区別される。当該22個の分類は、事件、行動及び事物への各分類の集中程度を評価することによって構築されるものである。一部の他の実施例において、感情状態は、次元における感情モデルによって表されることができる。感情理論における次元モデルにおいて、感情は複数の次元によって定義される。例えば、「快と不快」、「覚醒と非覚醒」及び「支配と服従」は感情の3つの次元になることができ、「快と不快」及び「覚醒と非覚醒」は感情の2つの次元になることができる。感情状態は、各次元におけるそれらの座標値によって記述されることができ、当該座標値は次元における対応する感情状態の位置を指す。
ユーザ意図計算ユニット206は、ハードウェア装置として配置されて、1つ又は複数の計算プログラムを実行することによって1つ又は複数の入力パラメータに基づいてインタラクション意図及び/又は感情意図を含んだユーザ意図を認識することができる。一部の実施例において、インタラクション意図は1つ又は複数のトランザクション意図を含んでもよい。トランザクションとは、ヒューマンマシンインタラクションにおいて完成又は実行される必要がある任意の事項、行動又はミッションである。入力パラメータは、感情関連データ、感情状態、場面内容、インタラクティブ文脈、個人化情報、語義データ、一般知識データ、分野知識データなどを含むことができる。
感情戦略形成ユニット208は、ハードウェア装置として配置されて、1つ又は複数の計算プログラムを実行することによってインタラクション意図及び感情意図に対する戦略を形成し、複数の入力パラメータに基づいて感性的命令を生成することができる。以下において説明されるよう、入力パラメータは、ユーザ意図、場面内容、インタラクティブ文脈、分野知識データ及び一般知識データなどを含むことができる。
感情計算表出生成部210は、モニター、スピーカー、携帯電話のスクリーン及びスピーカー、ロボットなどのハードウェア装置として配置されて、1つ又は複数のコンピュータプログラムを実行することによって、感性的命令に基づいて感情表出を生成して感情表出をユーザに伝えることができる。生成部210は、1つ又は複数のモダリティを有する感情表出(例えば、感性的命令における特定の指令に基づいて生成されるテキスト、音声、符号、顔面表情、ジェスチャ、マルチモダリティなどのうちの少なくとも1つ)を生成することができる。例えば、生成部210は感情情報を含んだ自然言語テキストをスクリーンにおいて生成することができる。一部の実施例において、生成部210は、感情表出語彙データベース及び/又は語義データベースに基づいて、生成するテキストと感性的命令に含まれている要求との一貫性を確保することができる。他の一部の実施例において、生成部210はディープラーニングによって、生成するテキストと感性的命令に含まれている要求との一貫性を確保することができる。マシンはディープラーニングを受けることによって、ある1つの感性的命令を実行するときにどの特定のテキストを生成すればよいか、が分かるようになる。さらに、生成部210は、言葉がスピーカーから流される方式に対応する感情情報を含んだ合成音声スピーチを生成することができる。生成部210は、まず、感性的命令に基づいて音声スピーチのテキスト内容を確定し、テキスト生成のプロセスと類似するプロセスによって感性的命令との一貫性を確保することができる。次に、生成部210は、感性的命令により要求された適切な音声特徴パラメータに基づいて音声スピーチを合成することができる。ここで、音声スピーチは音素、リズム、音声の平滑度などを含む。さらに、生成部210は、顔面表情を生成して、合成した画像又はビデオの形、例えば人間を模擬した表情又は漫画の表情によってスクリーン又はモニターで表示することができる。感性的命令に含まれている要求に従って人間の顔面筋肉の運動を模擬することによって、生成された顔面表情は、一定の強度を有する一定の感情を含むことができる。例えば、感性的命令により指示されて「楽しい」の感情をユーザにフィードバックする必要がある場合、生成部210は合成した笑顔を画像又はビデオにおいて生成することができる。一部の実施例において、生成部210はマルチモーダルな感情表出を生成してもよく、当該マルチモーダルな感情表出はテキスト、音声、符号、顔面表情及び他の任意の関連するモダリティから構成される組合せであってもよい。生成した感情表出を複数のモダリティによって表すために、生成部210はすべてのモダリティにおいてハイレベルな共同動作を維持しなければならない。生成部210は、各モダリティの内容及び強度の正確度と、指令が正確に実行されることと、を確保することによって、生成した影響210が感性的命令に一致するように確保することができる。
一部の実施例において、システム100はデータ収集部202、感情認識部204、ユーザ意図計算ユニット206、感情戦略形成ユニット208及び計算表出生成部210を備えることができる。これらの実施例において、ユーザと感性的インタラクションシステムとの間には、データ収集、感情認識、意図認識、戦略形成及び感情表出の生成を含んだ完全な感性的インタラクション回路が存在する。例えば、このようなシステムを具備した家庭ロボットは、マイクロフォン及びタッチパネルを入力装置として提供し、スピーカー及びモニターを出力装置として提供することができる。例えば、ユーザが家庭ロボットに対して「一日中ずっと会議だった。頭が痛い。音楽を再生してください。」と話すとき、家庭ロボットのデータ収集部はマイクロフォンによってユーザの音声を捕獲し、処理を行うために音声をオーディオファイルに変換することができる。データ収集部はオーディオファイルを家庭ロボットの感情認識部に送信することができる。感情認識部は、オーディオをテキストファイルに変換し、テキストファイルの言語特徴とオーディオファイルの音響特徴とを分析することによって、オーディオファイルに含まれている感情特徴を認識することができる。そのあと、感情認識部は認識した感情特徴に基づいてユーザの感情状態「疲れ」を取得することができる。感情状態、ユーザの音声スピーチの語義及び分野知識データに基づいて、家庭ロボットのユーザ意図計算ユニットは、ユーザのインタラクション意図が「音楽再生」であり、感情意図が「慰められることを望む」であると、認識することができる。感情意図とインタラクション意図を合わせると、ユーザ意図計算ユニットは、1つのユーザ意図「音楽再生によって慰められることを望む」を取得して、当該ユーザ意図を家庭ロボットの感情戦略形成ユニットに送信することができる。ユーザ意図及び感情状態に基づいて、戦略形成ユニットは、強度レベルが「中レベル」である「慰める曲を再生する」を、感情戦略及びインタラクション戦略として形成することができる。感情戦略、インタラクション戦略、場面内容及び出力装置の使用可能性に基づいて、戦略形成ユニットは、「中レベルの強度を有する慰める曲を再生するとともに、慰めるトーンで曲の名称をユーザに放送する」というような感性的命令を生成して、当該感性的命令を家庭ロボットの感情計算表出生成部に送信することができる。そのあと、生成部は感性的命令を実行して、感性的命令による基準に基づいて曲を選択して感情表出を生成することができる。さらに、生成部は音声アナウンスの内容、トーン及びスピードを調整することによって、慰める効果を向上させることができる。そのあと、生成部は、穏やかなトーンと遅いスピードで音声アナウンス「これから、あなたをリラックスさせる曲を再生させていただきます」をスピーカーによってユーザに放送してから、慰める曲を再生して、感情表出をユーザに伝えることができる。普通の曲を再生して普通のトーンでユーザにアナウンスする一般的な家庭ロボット(感性的インタラクションシステムを備えない)とは異なり、本実施例による家庭ロボットは、感性的インタラクションシステムに基づいてユーザの感情意図を理解して満足させることができる。
他の一部の実施例において、システム100はユーザ意図計算ユニット206を備えることができる。このような実施例において、感性的インタラクションシステムは、データ収集及び感情認識を行わずにユーザの感情意図及びインタラクション意図を認識することができる。例えば、ショッピングセンターにあるサービスロボットはこのような感性的インタラクションシステムを具備してもよい。ユーザが情報を入力するか又は感情を表現する前、サービスロボットのユーザ意図計算ユニットは、近づいているユーザをサービスロボットがセンサーによって感知したときに既に予め設定された規則に基づいて、ユーザのインタラクション意図を「顧客サービスを受けたい」であると認識し、ユーザの感情意図を「歓迎されたい」であると認識していることができる。
他の一部の実施例において、システム100はユーザ意図計算ユニット206及び感情戦略形成ユニット208を備えることができる。このような実施例において、感性的インタラクションシステムは、データ収集及び感情認識を行わずにユーザの感情意図及びインタラクション意図を認識するとともに、感性的命令を形成することができる。例えば、ショッピングセンターのサービスロボットはこのような感性的インタラクションシステムを採用してもよい。ユーザが情報を入力するか又は感情を表現する前、サービスロボットのユーザ意図計算ユニットは、近づいているユーザをサービスロボットがセンサーによって感知したときに既に予め設定された規則に基づいて、ユーザのインタラクション意図を「顧客サービスを受けたい」であると認識し、ユーザの感情意図を「歓迎されたい」であると認識していることができる。サービスロボットの感情戦略形成ユニットは、インタラクション意図及び感情意図に基づいて感性的命令(例えば、「ユーザに歓迎挨拶をする」、「ユーザに笑顔を見せる」など)を形成することができる。
他の一部の実施例において、システム100は、ユーザ意図計算ユニット206、感情戦略形成ユニット208及び感情計算表出生成部210を備えることができる。このような実施例において、感性的インタラクションシステムは、データ収集及び感情認識を行わずにユーザの感情意図及びインタラクション意図を認識するとともに、感性的命令を形成し、感情表出を生成することができる。例えば、ショッピングセンターのサービスロボットはこのような感性的インタラクションシステムを採用してもよい。ユーザが情報を入力するか又は感情を表現する前、サービスロボットのユーザ意図計算ユニットは、サービスロボットが近づいているユーザをセンサーによって感知したときに既に予め設定された規則に基づいて、ユーザのインタラクション意図を「顧客サービスを受けたい」であると認識し、ユーザの感情意図を「歓迎されたい」であると認識していることができる。サービスロボットの感情戦略形成ユニットは、インタラクション意図及び感情意図に基づいて感性的命令(例えば、「ユーザに歓迎挨拶をアナウンスする」、「ユーザに笑顔を見せる」など)を形成することができる。サービスロボットの感情計算表出生成部は感性的命令を受信、実行して、感情表出(例えば、スピーカーによって歓迎挨拶をアナウンスすること、スクリーンにおいて笑顔を表示することなど)を生成することができる。
他の一部の実施例において、システム100はユーザ意図計算ユニット206及び感情計算表出生成部210を備えることができる。このような実施例において、感性的インタラクションシステムは、データ収集及び感情認識を行わずにユーザのインタラクション及び感情の意図を認識するとともに、戦略形成を行わずに感情表出を生成することができる。例えば、ショッピングセンターのサービスロボットはこのような感性的インタラクションシステムを採用してもよい。ユーザが情報を入力するか又は感情を表現する前、サービスロボットのユーザ意図計算ユニットは、近づいているユーザをサービスロボットがセンサーによって感知したときに既に予め設定された規則に基づいて、ユーザのインタラクション意図を「顧客サービスを受けたい」であると認識し、ユーザの感情意図を「歓迎されたい」であると認識していることができる。そのあと、サービスロボットの感情計算表出生成部は、感情意図及びインタラクション意図に基づいて、歓迎を表す感情表出(例えば、「ユーザに歓迎挨拶をアナウンスする」)を直接生成することができる。
他の一部の実施例において、システム100は、データ収集部202、感情認識部204及びユーザ意図計算ユニット206を備えることができる。このような実施例において、感性的インタラクションシステムは、戦略形成と感情表出の生成より、意図認識に重点を置く。これらの実施例において、感情意図は、感情戦略や感情表出の生成において用いられなくてもよいが、インタラクション意図の認識プロセスの改善、付加サービスの提供、及び/又はユーザ感情意図に対する学習のみにおいて用いられることができる。例えば、学校の学生監視システムはこのような感性的インタラクションシステムを備えることができる。データ収集部のカメラによって学生の顔面表情を収集し且つ感情認識部によって「嬉しい」、「焦り」、「緊張」などのユーザ感情状態を認識することによって、監視システムのユーザ意図計算ユニットは学生の感情意図、例えば、「励まされたい」、「慰められたい」、「交流したい」などを認識することができる。このような感情意図は、感性的命令を形成するか又は感情表出を生成するために感性的インタラクションシステムにより使用されないかもしれないが、インタラクション意図の認識プロセスを促進し、及び/又は、学校が学生の現在の感情意図を把握するように支援することができる。
図3Aは、本発明の実施例に一致する例示的な感性的インタラクションシステム100の機能図である。例示的な実施例を逸脱しない前提で、当該例示的なプロセスのステップは削除されてもよく、変更されてもよく、又は追加されてもよい。
図3Aによる例示的な実施例において、感性的インタラクションシステムは、マルチチャンネルフロントエンド端末116により提供される感情コンピューティングユーザインターフェースを介してユーザと感性的インタラクション会話を行うとともに、感性的インタラクション計算モジュール122によって感性的インタラクションを処理することができる。例えば、ユーザは、端末116に配置された感情コンピューティングユーザインターフェースに対して感情コミュニケーション102を入力することができる。データ収集部202は端末116からの指示を受けて、感情コミュニケーション102を捕獲、処理して、感情関連データ302を取得することができる。図3Bに示すよう、端末116はデータ収集部202及び感情計算表出生成部210を備えて、感性的インタラクション会話を支えるための感情コンピューティングユーザインターフェースを提供することができる。収集部202は、1つ又は複数のモダリティによって感性的インタラクション102を捕獲する。例えば、テキスト104と、音声106と、顔面表情108と、ジェスチャ110と、生理信号112と、マルチモダリティ114とのうちの少なくとも1つを含んでもよい。収集部202は、感性的インタラクション会話の開始段階において、ユーザにとってはインターフェースとして用いられ、感性的インタラクションシステムにとってはユーザからデータ及び感情を収集するための通信チャンネルとして用いられる。収集部202の出力は、1つ又は複数のモダリティを有する感情関連データ302、例えば、テキスト感情関連データ312と、音声感情関連データ314と、顔面表情感情関連データ316と、ジェスチャ感情関連データ318と、生理感情関連データ320と、マルチモダリティ感情関連データ322とのうちの少なくとも1つを含むことができる。そのあと、感情関連データ302が処理されるよう、収集部202は感情関連データ302を感性的インタラクション計算モジュール120などに送信することができる。テキスト感情関連データ312は感情認識部204及びユーザ意図計算ユニット206により使用されることができる。テキスト感情関連データ312は、将来の感性的インタラクション会話の履歴データとして用いられてインタラクティブ文脈を取得するか、又は現在の場面情報に基づいて場面内容を取得するために用いられることができる。さらに、感情認識部204は音声感情関連データ314によって、ユーザの身分を確認するとともに、ユーザの個人情報及び習慣データを収集してシステムがより正確的にユーザの音声を認識してユーザの音声に含まれている感情を理解するように支援を提供することができる。音声感情関連データ314から変換されたテキストは、履歴データとして記憶されて、ユーザ意図計算ユニット206が将来のインタラクションからインタラクティブ文脈を取得するときに用いられることができる。また、音声感情関連データ314から変換されたテキストは、場面内容を取得するために用いられることができる。さらに、顔面表情感情関連データ316及びジェスチャ感情関連データ318を含んだ画像やビデオなどの視覚データは、感情認識部204がユーザの身分を記録と確認する(例えば、顔IDによるロック解除)ために用いられることができる。一部の実施例において、このような視覚データは、場面内容を取得するために用いられることができる。さらに、感情認識部204及びユーザ意図計算ユニット206は、生理感情関連データ320を使ってユーザの個人情報を蓄積することによって、システムがより正確的にユーザの感情を理解できるように支援することができる。生理感情関連データ320は履歴データとして記憶されて、インタラクションにおけるインタラクティブ文脈を取得するために用いられることができる。
図6に示すよう、一部の実施例において、データ収集部202はデータ捕獲部602及びデータ分析部618などを備えることができる。データ捕獲部602は、1つ又は複数のモダリティ、例えば、テキスト104と、音声106と、顔面表情108と、ジェスチャ110と、生理信号112と、マルチモダリティ114とのうちの少なくとも1つによって感情コミュニケーション102を捕獲することができる。データ捕獲部602は、感情コミュニケーション102のモダリティによって、異なる機能を具備することができる。例えば、テキスト104を捕獲するために、データ捕獲部602はキーボード、タッチパネルなどのテキスト捕獲部604として配置されてもよい。さらに、音声106を捕獲するために、データ捕獲部602はマイクロフォンなどの音声捕獲部606として配置されてもよい。さらに、顔面表情108を捕獲するために、データ捕獲部602はカメラ、センサー、赤外線LEDなどのうちの少なくとも1つの顔面表情捕獲部608として配置されてもよい。さらに、ジェスチャ110を捕獲するために、データ捕獲部602はカメラ、センサー、赤外線LEDなどのうちの少なくとも1つのジェスチャ捕獲部610として配置されてもよい。さらに、生理信号112を捕獲するために、データ捕獲部602は生理信号捕獲部612として配置されてもよく、例えば、心拍データを採集する心拍計と、血圧データを採集する血圧計と、心電図データを採集する心電計と、脳波データを採集する脳波計と、筋電図データを採集する筋電計と、体温データを採集する温度計と、容積脈波データを採集する容積脈波計測器と、ガルバニック皮膚反応データを採集するガルバニック皮膚反応計測器とのうちの少なくとも1つとして配置されてもよい。さらに、マルチモダリティ114を捕獲するために、データ捕獲部602はマルチモダリティ捕獲部614として配置されてもよく、例えば、当該システムは複数のデータ捕獲部によって複数のモダリティを有する感情コミュニケーションを同時に捕獲することができる。
図6に示すよう、一部の実施例において、感情関連データ302を取得するために、データ収集部202は、捕獲した感情コミュニケーションデータ616を分析するデータ分析部618を更に備えることができる。データ分析部618は、感情のモダリティ、場面及び更なる処理の必要性に従って、捕獲した感情コミュニケーションデータ616をコンパイルして、所望の構造、フォーマット、注釈、記憶方式及び問合せモードを有する感情関連データ302を取得することができる。例えば、感情関連データ302はテキスト感情関連データ312、音声感情関連データ314、顔面表情感情関連データ316、ジェスチャ感情関連データ318、生理感情関連データ320又はマルチモダリティ感情関連データ322であってもよい。感情関連データ302は静的データ又は動的データであってもよい。静的な感情関連データは、特定の時刻に発生したユーザと感性的インタラクションシステム間の感性的インタラクションを記録した特定タイプのデータ、例えば、写真、テキスト、心電図及び絵文字などであってもよい。動的な感情関連データは、1つの時間帯に渡って発生したユーザと感性的インタラクションシステム間の感性的インタラクションを記録した特定タイプのストリーミングデータ、例えば、ビデオセグメント、超音波ビデオ及びオーディオセグメントなどであってもよい。動的データは、1つの時間帯中に発生する感性的インタラクションの動的な変化を反映することができる。静的又は動的データを取得/使用するか否かは、感情コミュニケーション102のモダリティ及び/又は更なる処理の必要性によって決められる。感情関連データ302のフォーマットは、構造化によって得られたデータレコードなどであってもよく、又は構造化されていないビデオ、オーディオ、信号、テキストなどであってもよい。
図3Aを再び参照すると、データ収集部202は次に、感情関連データ302を感性的インタラクション計算モジュール120における感情認識部204に送信することができる。図7に示すよう、感情認識部204は、それぞれ異なる形式を有する認識部と、マルチモーダル融合プロセッサー512と、感情分類部712と、回帰計算機714とを備えることができる。
図7に示すよう、感情認識部204は、感情関連データ302の形式によって異なる機能を具備することができ、例えば、テキスト感情関連データ312を認識するテキスト感情認識部702、音声感情関連データ314を認識する音声感情認識部704、顔面表情データ316を認識する顔面表情感情認識部706、ジェスチャ感情関連データ318を認識するジェスチャ感情認識部708、生理感情関連データ320を認識する生理感情認識部710などとして配置されることができる。
一部の実施例において、テキスト感情認識部702は機械学習に基づいて実現されることができる。特定タイプのテキスト感情関連データとそれにマッチする感情状態とを含むデータベースに基づいて、テキスト感情認識部702は認識及び出力のパターンを学習することができる。そのため、テキスト感情認識部702は、入力された特定のテキスト感情関連データに基づいて、期待される感情状態を取得することができる。他の一部の実施例において、テキスト感情認識部702は自然言語処理の方法に基づいて実現されることができる。このようなテキスト感情認識部は、感情語義データベース及び感情表出語彙データベースに依拠してキーワードを抽出し、特定の単語の属性を確定し、文の構造を分析することによって、テキストに含まれている感情を認識することができる。ここで、感情語義データベースは特定の多義語の語義情報及び当該多義語の各意味の使い方を含むことができ、したがってテキスト感情認識部は曖昧さを回避してそれらの単語に含まれている本当の感情表出を確定することができる。感情表出語彙データベースは、様々な感情表出語彙のマッチング規則を含むことができ、したがってテキスト感情認識部はマッチングを行うときに異なる言葉により表現された感情を認識することができる。感情表出語彙データベースの例示的な一実施例は以下の構造を有することができる。
Figure 0007199451000001
図7に示すよう、音声感情認識部704は、音声感情関連データ314に含まれている音響特徴及び/又は言語特徴を個別に又は総合的に分析することによって、音声感情関連データ314の感情を認識することができる。ここで、音響特徴はエネルギー、フレーム数、基本周波数、フォルマント、高調波ノイズ比などの特徴を含む。これらの特徴は、例示的な値、平均値、最大値、中央値、標準偏差などの形式によって表されることができる。音声感情関連データの言語特徴は、音声感情関連データにおいて採用された言葉及び言語の特徴であってもよい。一部の実施例において、音声感情認識部704は、言語特徴に対する分析に基づいて実現されることができる。音声感情認識部704は、音声感情関連データをテキストに変換して、テキスト感情関連データ312と同様な方式によって処理を行う。ただし、可能な例外として、話し言葉における表現と書き言葉における表現が相違する場合は除外される。一部の他の実施例において、音声感情認識部704は、音響特徴を機械学習によって分析することに基づいて実現されることができる。学習を行うとき、音声感情認識部は、トレーニングデータベースから特定の音声感情関連データの音響特徴を抽出し、これらの音響特徴とこれらの音響特徴にマッチする感情との間のマッチング規則を理解することができる。よって、後続のプロセスにおいて、音声感情認識部は学習段階において学習したマッチング規則に基づいて、1つの特定タイプの音響特徴と1つの特定の感情とに対してマッチングを行うことができる。さらに、一部の実施例において、音声感情認識部704は、音声感情関連データ314の音響特徴及び言語特徴の両方に対する分析に基づいて実現されることができる。なお、複数の出力が存在する場合、以上の実施例による音声感情認識部は、各出力の確信度及び偏向する度合いを分析することによって選択を行って、最終的な出力を確定することができる。
図6に示すよう、顔面表情感情関連データ316とジェスチャ感情関連データ318とは、同様のツールにより捕獲され、同様なデータフォーマットによってコンパイルされることができる。そこで、図7に示すよう、顔面表情感情関連データ316とジェスチャ感情関連データ318とが類似するため、顔面表情感情認識部706とジェスチャ感情認識部708とは、類似した方式によって、画像及びビデオに対する処理に基づいて実現されることができる。例えば、一部の実施例において、顔面表情感情認識部706は顔面特徴に対する認識に基づいて実現されることができる。これらの実施例において、顔面表情感情認識部は、画像やビデオなどの顔面表情感情関連データを取得してから、画像から静的な顔面特徴を抽出し、ビデオから一連の静的な顔面特徴及び/又は顔面運動特徴を抽出することができる。抽出した特徴に基づいて、顔面表情感情認識部706はマッチングモデルと、確率モデルと、サポートベクターマシンとのうちの少なくとも1つを用いて、顔面表情感情関連データに含まれている感情特徴を認識することができる。また、他の一部の実施例において、顔面表情感情認識部706は、図14に示すような3Dモーフィングモデル(3DMM)によって行われる人間の顔面表情に対する機械学習に基づいて実現されることができる。3DMMは3次元の顔形状及びテクスチャーの統計モデルであり、モデル係数によって1つの新しい顔を画像において再現することができ、並びに、レンダリング又はシーンパラメータに基づいて独立した画像を用いて1つの3D顔(顔形状及び画像テクスチャーを含む)を再構築することができる。
一部の実施例において、図14に示すよう、事前訓練された3DMM1404は、前処理された画像1402を受信し、画像1402に含まれている顔の3Dモデルを含む画像を再構築するとともに、3Dモデルと画像1402に含まれている顔との対応関係を維持する。事前訓練された3DMM1404は係数によってパラメータ化されることができる。ここで、当該3Dモデルは、深度情報(例えば、深度図1406)、テクスチャー情報及びランドマーク情報などを含んでもよい。次に、畳み込み層1408は画像1402を受信して処理することによって画像特徴を取得することができる。このような画像特徴と、3Dモデルに含まれているテクスチャー情報とを結合(「cat」)させることによって、新しいテクスチャー1410を取得することができる。テクスチャー1410と、ランドマーク点に隣接する周辺領域の幾何学的情報(例えば、深度パッチ1412)とを結合(「cat」)させることによって、新しい特徴を取得することができる。ここで、3Dモデルにおける深度情報及び/又はランドマーク情報から深度パッチ1412を取得することができる。次に、結合されたデータ(すなわち、新しい特徴)は、インセプション残差ネットワークv4(resnet-inception-v4)1414及びインセプション残差ネットワークv4 1416に送入されることができる。インセプション残差ネットワークv4 1414は、結合されたデータから表出情報1418を抽出することができ、インセプション残差ネットワークv4 1416は結合されたデータから識別情報1420を抽出することができる。このような3次元モーフィングモデルは以下の特性を有する。
(1)パラメータ化された3DMMを用いて、3次元モデルと元の画像に含まれている顔との対応関係を構築する。
(2)画像、テクスチャー及び深度情報を用いて顔の全体的な特徴を表現する。
(3)ランドマーク点に隣接する周辺領域の幾何学的情報(例えば、深度パッチ1412)を用いる。
(4)身分識別と顔面表情認識との間においてマルチタスキング対抗関係を構築することによって表情特徴を洗練する。
図7に示すよう、生理信号感情認識部710は、フーリエ変換のパワースペクトル、特徴選択、遺伝的アルゴリズム、ウェーブレット変換、独立成分分析、公共空間パターン(common spatial pattern)、順序的フローティングフォワード選択(sequential floating forward selection)、分散の分析などを行うことによって、生理情関連データ320から統計データを抽出することができる。当該統計データは生理情関連データ320の特徴に対応しており、更なる処理において用いられることができる。
複数のタイプの感情関連データを同時に受信する場合、感情認識部204は、前述した様々な形式を有する感情認識部として配置されて、これらの感情関連データを同時にそれぞれ認識することができる。また、認識した感情特徴を融合してマルチモーダルな感情特徴を取得するために、感情認識部204はマルチモーダル融合プロセッサー512を更に備えてもよい。一部の実施例において、感情特徴データが同一の構造及びフォーマットを有する場合、マルチモーダル融合プロセッサー512は感情特徴データを直接融合すればよい。しかしながら、一部の他の実施例において、マルチモーダル融合プロセッサー512は、異なるモダリティを有する感情関連データから取得された感情特徴を整列し、整列された特徴のベクトル量を構築することができる。例えば、ビデオ及びオーディオから感情特徴を抽出する場合、マルチモーダル融合プロセッサーは時間軸に基づいてこれらの特徴を同期することができる。そのあと、マルチモーダル融合プロセッサーは、2つの感情特徴が後続のプロセスにおいて1つの全体として処理されることができるよう、2つの感情特徴のためにベクトル量を形成することができる。例えば、図15に示すよう、マルチモーダル融合プロセッサー512は、オーディオ及びビデオから抽出された感情特徴を畳み込みニューラルネットワークに基づいて融合するよう、配置されることができる。
一部の実施例において、図15に示すよう、ビデオは複数の短いセグメントに分けられることができる。例えば、ビデオセグメント1からビデオセグメントNまであってもよい。ビデオセグメントのいずれのフレームも、1枚の画像として抽出されることができる。各ビデオセグメントから抽出された単独の画像から画素レベルの平均値(例えば、画素レベルの平均値1502ないし画素レベルの平均値1512)を取得することができる。さらに、抽出された画像の画素レベルの平均値に基づいて、各ビデオセグメントから抽出した画像から構成されたアレイを1枚の画像にマージすることができる。そのあと、マージした各画像を畳み込みニューラルネットワーク(例えば、VGG16 1504ないしVGG16 1514)に送って処理を行うことができる。VGG16(OxfordNetとも称される)は、16層の畳み込みニューラルネットワーク構造であり、オックスフォード大学の視覚幾何学グループ(Visual Geometry Group)で命名されている。VGG16は、数百万枚の画像によってトレーニングされることができるとともに、大規模の画像に対する認識することができる。例えば、画像を数百ないし数千のカテゴリに分類することができる。
図15において、VGG16 1504の5つ目のプーリング層は、マージした各画像の視覚特徴を出力することができる。それとともに、各ビデオセグメントのオーディオはダブル層の畳み込みニューラルネットワーク(例えば、ネットワーク1506ないし1516)に送られて、1回目の畳み込み、1回目のマックスプーリング、2回目の畳み込み及び2回目のマックスプーリングが施されて処理されることができる。そのあと、ネットワーク1506はオーディオのオーディオ特徴を取得することができる。さらに、オーディオ特徴とビデオ特徴はリンクされて、1つのビデオセグメントの1つの視聴特徴ベクトル(例えば、視聴特徴1508ないし視聴特徴1518)となる。視聴特徴は、双方向の長短期記憶(LSTM)ネットワーク1510に送信されて、フォワード処理及びバックワード処理が施される。各ビデオセグメントの視聴特徴を受信したあと、平均プーリング1520は視聴特徴を平均化して1つのベクトルを取得することができる。取得されたベクトルは、softmax関数(例えば、softmax 1522)に送られて分類されることができる。softmax関数は各クラスラベルの確率を提供し、一般的にはニューラルネットワークの分類部の最後の層において用いられる。そこで、オーディオ特徴と視覚特徴とは1つのマルチモーダル特徴になるように融合される。
図7を再び参照すると、他の一部の実施例において、マルチモーダル融合プロセッサー512は、互いに連結されている各モダリティの感情特徴モデルに基づいて実現されることができる。例えば、処理上の必要に応じて2つのモダリティの感情特徴の間の連結関係及び相補関係を構築するためには、隠れマルコフモデルによってビデオとオーディオに対して処理を行うことができる。また、他の一部の実施例において、マルチモーダル融合プロセッサー512は、各モダリティの独立した感情特徴モデルに基づいて実現されてもよい。このような実施例において、各モデルは単独で感情特徴を認識して、認識した感情特徴をすべて最終的に出力する。例えば、音声感情関連データ、顔面表情感情関連データ及び生理信号感情関連データから認識された感情特徴は、加重加算(線形)、畳み込みニューラルネットワークにおける多層パーセプトロン(非線形)などの方式によって一緒に出力されてもよい。
図7に示すよう、感情認識部204は、マルチモーダルな感情特徴を分類して離散的な感情分類716を取得する感情分類部712を更に備えることができる。離散的な感情分類716は、異なるカテゴリに属する感情を表現することができる。これらのカテゴリは人間の核心的又は基本的な感情であるため、その表現と認知は根本的に、民族や文化の差異に関わらず、すべての個体にとっても同じである。例えば、感情認識部204は、次元における感情数値718などを取得する回帰計算機714を更に備えることができる。その結果、感情認識部204は離散的な感情分類716及び/又は次元における感情数値718を含んだ感情状態304を生成することができる。
図3Aを再び参照すると、感情認識部204は、感情関連データ302に基づいて感情状態304を取得してから、感情状態304をモジュール120におけるユーザ意図計算ユニット206に送信することができる。図8に示すよう、プロセッサー206は、入力データ802に基づいてインタラクション意図808を認識/確定するインタラクション意図計算プロセッサー804と、入力データ802に基づいて感情意図810を認識/確定する感情意図計算プロセッサー806と、を備えることができる。インタラクション意図808は、ユーザの明確な行動リクエストであってもよく、例えば、「ユーザは特定の質問を聞いている」、「ユーザは特定のサービスを要求している」又は「ユーザは気楽なチャットのセッションを始める」などであってもよい。感情意図810は、ユーザが感性的応答又は感情管理を求めるための感情的なリクエストであってもよい。例えば、ユーザが特定の質問を心配そうに聞いているとき、彼/彼女の感情は不安であり且つ彼/彼女の感情意図は「慰め」の応答に対する期待である可能性がある。一部の実施例において、インタラクション意図808及び感情意図810は、同時のものであってもよく、任意の順によってシーケンスを構成してもよい。そのあと、プロセッサー206は、インタラクション意図808及び感情意図810を含んだユーザ意図306を取得することができる。
図3Aを再び参照すると、ユーザ意図計算ユニット206は、感情状態304に基づいてユーザ意図306を認識し、ユーザ意図306をモジュール120における感情戦略形成ユニット208に送信することができる。感情戦略形成ユニット208は、ユーザ意図306に基づいて感性的命令308を取得することができる。図9に示すよう、感情戦略形成ユニット208は、インタラクション意図戦略808を形成するインタラクション意図戦略形成ユニット904と、データ入力902に基づいて感情意図戦略810を形成する感情意図戦略形成ユニット906と、インタラクション戦略及び感情戦略に基づいて入力許可及び優先度についての規則を調節する動的命令調節部910と、を備えることができる。したがって、感情戦略形成ユニット208は、形成された戦略に基づいて感性的命令308を取得することができる。さらに、一部の実施例において、感情意図とインタラクション意図とは互いに、相手の戦略形成プロセスに影響を与えるかもしれない。例えば、ユーザがスマートウェアラブル装置に対して「30分のトレーニング時間を予め設定する」という指令を出した場合、当該指令は非常に明確である。感性的インタラクションシステムを具備しないスマートウェアラブル装置であれば、要求された時間を指令に従って設定するかもしれないが、感性的インタラクションシステムを具備したスマートウェアラブル装置であれば、例えば、過度の事前トレーニングによってユーザの血圧及び心拍が既に高いレベルになっているため、ユーザの感情状態が「過度に興奮している」と検出することができる。このとき、トレーニング時間を予め設定するというユーザのインタラクション意図に対してスマートウェアラブル装置が行う応答は、ユーザの感情状態により影響される可能性がある。したがって、スマートウェアラブル装置は指令を実行する前、時間の長さを変更するか又は警告を出すことができる。同じく、インタラクション意図も感情意図の戦略形成に影響を与えることができる。例えば、ユーザが悲しい感情を込めて感性的インタラクションシステムに対して、ビデオゲームを止めてユーザの勉強スケジュールに従って毎日のオンライン勉強ソフトウェアを実行する、という命令を出した場合、ユーザのインタラクション意図は明確になっており、すなわちビデオゲームをシャットダウンして毎日のオンライン勉強ソフトウェアを実行することである。正常の場合であれば、システムは「ユーザの悲しい感情を慰める」というようなユーザの感情意図を検出して、対応する「慰める」という戦略を形成するが、ここでは、ユーザのインタラクション意図から明らかにわかるよう、ユーザが勉強ソフトウェアに切り替えるという指令を出したのは自分の利益のためであるため、感性的インタラクションシステムはユーザを「慰める」の代わりに、ユーザを「励ます」ことができる。
図9に示すよう、感性的命令308は、ユーザのインタラクション意図906に対する応答と、ユーザ感情意図908に対応する感情表出と、を含むことができる。ここで、ユーザ感情意図908は、モダリティ、内容、感情表出及び実行命令の強度(選択的)などの情報を含むが、それらに限られない。感情表出のモダリティは、テキスト、音声、顔面表情、ジェスチャ及びマルチモーダルなどうちの1つ又は複数のモダリティを含んでもよい。それは、採用可能な感情表出の装置及びチャンネル(表示可能なモダリティがどれか?)、場面内容(例えば、日常会話、ビジネス問合せなど)、感性的インタラクションの性質(例えば、テキストはユーザの質問に答えるために用いられ、音声は地図のナビゲーションに用いられることができる)及び他の任意の関連要素を考慮することによって確定される。一般的には、ユーザの感性的インタラクションシステムへの感情コミュニケーションのモダリティが優先的に考慮されてもよい。実行命令は、感性的命令308が実行されるように指導する命令を含むことができ、特にユーザのインタラクション意図810に応答すること、例えば、ユーザの問合せに応答すること、ユーザによる特定の命令を実行することなど、を指導する命令を含むことができる。感情表出の内容は、ユーザ意図に対する応答として表出される明確な感情に対する記述(感情のカテゴリ及び/又は感情の数値などを含むがそれらに限られない)であってもよい。感情表出の強度は感情表出の内容の強度レベルであってもよい。
感性的命令308は、期待される感情表出の操作指令及びインターフェースの実行方法として考えられることができ、必要とされる感情表出の詳しい情報を含む。動的な感情関連データの場合、感情状態304は所定の時間帯中に時々変化する。それを受けて、感情戦略形成ユニット208は、変化する感情状態304に対応する所定の時間間隔に従って断続的な感性的命令を生成するか、又は、感情状態304の変化が閾値に達して新しい感性的インタラクション計算会話をトリガーするまで、現段階の感性的インタラクション会話のみのために1つの感性的命令を生成することができる。
図9に示すように、一部の実施例において、感情戦略形成ユニット208は語義データベースに基づいて実現されることができる。感情戦略形成ユニット208は、特定の戦略とマッチングするために、ユーザ意図を含んだ語義情報を参考として用いることができる。したがって、感情戦略形成ユニット208は当該戦略に基づいて感性的命令を形成することができる。一部の他の実施例において、感情戦略形成ユニット208は、状態データ(感情関連データ、感情状態及び/又は語義データ)の集合、アクション(一般的には指令を指す)の集合、状態変換分布関数(特定のアクションが行われたあとにユーザの感情状態が変化する確率)、報酬関数(感性的インタラクション会話の最終的目的を確定し、例えば、ロボットとチャットするとき、対話の時間が長ければ長いほど、報酬関数が高くなる)に基づく強化学習によって、マルコフ決定プロセス(MDP)モデルを構築する。このような実施例において、よく訓練されたモデルは、感情及びインタラクションの戦略を策定することができるとともに、ユーザの様々な入力から感性的命令を直接取得することができる。これらの実施例において、ユーザ意図計算ユニット206は、状態変換分布関数における潜在的な部分として配置されることができる。
図3Aを再び参照すると、形成ユニット208は、感性的命令308をマルチチャンネルフロントエンド端末116における感情計算表出生成部210に送信することができる。生成部210は感性的命令308に基づいて感情表出310を生成し、さらに感情表出310をユーザに返送することができる。生成部210は感性的インタラクション会話の後期において用いられて、ユーザと直接にインタラクションを行いながら、生成した感情表出310を、その先の感情コミュニケーション102に対する応答としてユーザに伝えることができる。感情表出310は、ユーザからのより多くの感情表出を誘い出すことができ、したがってもう1つの感性的インタラクション会話が開始する可能性がある。
一部の実施例において、感情計算表出生成部210は図16に示すよう、可変オートエンコーダー(VAE)ネットワークを用いて、顔ランドマークを処理することによって顔面表情を生成することができる。一部の実施例において、図16に示すよう、生成部210は、ターゲット顔面表情の画像におけるターゲットランドマーク1602を、事前訓練されたVAEネットワーク1604への入力として用いることができる。ここで、エンコーダー1606はターゲットランドマーク1602を処理することによって特徴表現式、すなわちボトルネック1608を取得することができる。ボトルネック1608の次元数はターゲットランドマーク1602の次元数より遥かに低いため、ターゲットランドマーク1602と顔画像1614とは特徴空間において簡単に結合されることができる。一部の実施例において、ネットワーク1604におけるデコーダー1610は、このような特徴表現式に基づいて、再構築されたランドマーク1612を取得することができる。このような再構築によって、ボトルネック1608は、ターゲットランドマーク1602を再構築するための十分な情報を有するようになる。さらに、生成部210は顔画像1614を入力として、もう1つのVAEネットワーク1616に与えることができる。ネットワーク1616におけるエンコーダー1618は画像1614を処理することによって他の特徴表現式、すなわちボトルネック1620を取得することができる。生成部210は、ボトルネック1608とボトルネック1620とをカスケード接続するか又は結合させるとともに、それらをネットワーク1616におけるデコーダー1622に送入して顔画像1624を生成することができる。また、生成するターゲット顔画像1624の信頼性を向上させるために、生成部210は弁別部1628を用いて、生成したターゲット顔画像1624と本当のターゲット顔画像1626とを比較して、生成したターゲット顔画像1624の真偽を確認することができる。
図3Cは、本発明の実施例による例示的な感性的インタラクション計算モジュール120の機能図である。例示的な実施例から逸脱しない前提で、当該例示的なプロセスのステップは削除されてもよく、変更されてもよく、又は追加されてもよい。
モジュール120は、感性的インタラクションの計算プロセスを実行するよう、感情認識部204、感性的インタラクション計算プロセッサー206及び感情戦略形成ユニット208を備えることができる。ここで、感情認識部204は、入力として感情関連データ302を受信し、出力として感情状態304を生成することができる。そのあと、感情認識部204は感情状態304をプロセッサー206に送信することができる。プロセッサー206は、感情状態304、個人化情報336、場面内容342、インタラクティブ文脈344、語義データ348、一般知識データ356及び分野知識データ352などの入力を受信することができる。
個人化モデル構築部334は、ユーザの身分を認識するハードウェア装置として配置されて、履歴データ、ユーザの好み及びユーザのフィードバックに基づいてユーザの個人化モデルを構築することができる。個人化情報336はユーザのデータ入力及び履歴データに基づいてもよい。個人化モデル構築部334はまず、パスワード、音声認識に基づく音声ロック、顔面認識に基づく顔IDロック、指紋ロックや目スキャンロックなどの生体認証ロックなどに基づいて、ユーザの身分を認証することができる。ユーザの身分に基づいて、個人化モデル構築部334は、最初の感性的インタラクションが始まったあとにユーザのために個人化モデルを構築することができる。さらに、継続的な機械学習及び集積されたユーザの履歴データ、好み及び/又はサービスに対するフィードバックに基づいて、当該モデルは改善されて調整されることができる。個人化モデル構築部334は、個人化モデルに基づいて、個人化情報336を取得することができる。個人化情報336は、個人情報と、感性的インタラクションに関するユーザの好みと、個人的な感情特徴とを含んだパラメータから構成されるアレイであってもよい。個人化情報336に基づいて、感性的インタラクションシステムはユーザの習慣を学習し、ユーザの好みを把握することができる。そこで、システムは、コンピューティング処理を行うときに感情情報、意図及び命令オプションに対して優先順位をつけて、意図認識プロセスに対して調整と改善を行うことができる。ユーザの感情意図が不明確又は複数の可能な感情意図/感情戦略が存在するとき、システムは個人化情報により指導されて、重複した回数が最も多い又は最も好まれるオプションを選択することができる。個人化情報336は、継続的な機械学習と、集積されたユーザの履歴データ、好み及び/又はサービスに対するフィードバックと、に基づいて形成されることができる。
場面内容分析部338は、場面内容342を取得することができる。一部の実施例において、分析部338は、ユーザが予め設定された場面オプションを選択することを許可するように配置されることができる。選定された場面内容は比較的に長い時間にわたって存在する可能性があり、感性的インタラクションの計算プロセスに影響を与えるかもしれない。一部の他の実施例において、分析部338は、採用可能なデータ入力から場面情報を抽出して分析することによって、場面内容344を取得することができる。例えば、ユーザの1つのビデオセグメントを捕獲した場合、システムは、ユーザのジェスチャ及び顔面表情を処理するだけではなく、ユーザが位置している環境を分析して、感性的インタラクションの場面内容を確定することもできる。場面内容342は、感性的インタラクションが発生する場面における任意の関連する情報又はデータであってもよく、予め設定された場面情報と、インタラクションのシーンと、予め設定されたロジックと、環境と、環境及び装置の動的変化と、を含むことができる。場面内容によって、同一の意図に対する感情戦略が変わる可能性があるため、場面内容342は、戦略形成プロセスに緊密に関連することができる。例えば、病院環境において「悲しい」感情を表すユーザと、ビジネス場所環境において「悲しい」感情を表すユーザとに対して、感性的インタラクションシステムはそれぞれの環境によって異なる感情戦略をフィードバックとして策定することができる。当該システムは、ビジネス場所においてユーザに「励まし」感情を表し、病院においてユーザに「慰め」感情を表すことができる。
インタラクティブ文脈分析部340は、インタラクティブ文脈344を取得することができる。インタラクティブ文脈344はインタラクティブ文脈情報であってもよく、インタラクティブ文脈情報に対応するインタラクティブ文脈に含まれている感情状態及び感情意図を含む。一部の実施例において、インタラクティブ文脈344は、感性的インタラクション会話における過去の感性的インタラクション及び感情状態の、任意の履歴データであってもよく、インタラクションの履歴データに対する記録及び検索に関わることができる。なお、履歴データに対して検索及び分析を行うことによってインタラクティブ文脈344を取得することができる。
語義データベース246は語義データ348を提供することができる。語義データ348は構文を理解するための規則を提供するデータであり、それによって、モジュール120におけるいずれの装置も任意の情報の意味を理解することができる。
一般知識データベース354は一般知識データ356を提供することができる。一般知識データベース354は、語義ネットワーク、オントロジー言語構造及び/又はベイジアンネットワークによって実現されて、一般知識データ356を提供することができる。さらに、それは事件進化グラフ、機械学習などによって実現されてもよい。一般知識データ356は一般人が通常把握している知識の集合である。ユーザとインタラクション会話を行うとき、感性的インタラクションシステムは一般知識データ356によりサポートされて、基本的な事実情報を理解することができる。このようなデータ(例えば、常識)は、分野や場面によって変化するか又は影響を受けることがない。
分野知識データベース350は、分野知識データ352を提供することができる。分野知識データベース350は、検索並びに推理すること又はクエリ方法によって分野知識データ352を記述する知識モデルに基づいて実現されることができる。分野知識データ352は、特定のビジネス分野(例えば、通信分野、金融分野、電子政務分野、電子コマース分野、日常生活分野、スマートホーム分野、スマート交通分野など)におけるビジネスロジックのような、専門領域における有効知識の集合を指すことができる。分野知識データは、1つの標準問と、表現方式が異なるが語義が同一である1つ又は複数の拡張問を含むことができるとともに、標準問及び1つ又は複数の拡張問に対応する回答を更に含むことができる。そこで、分野知識データは、分野知識データにおける質問又は情報を検索することによって、任意の具体的な質問の答え又は専門領域における不確定の情報を見つけることができる。つまり、感性的インタラクションシステムは分野知識データによりサポートされて、専門分野における用語や論点をよりうまく理解することができる。
図3Cに示すよう、感性的インタラクション計算プロセッサー206は、ユーザ意図306を出力し、さらにユーザ意図306を場面内容342及びインタラクティブ文脈344と一緒に感情戦略形成ユニット208に送信することができる。感情戦略形成ユニット208により受信されることができる入力は、ユーザ意図306、場面内容342、インタラクティブ文脈344、一般知識データ356及び分野知識データ352を含む。感情戦略形成ユニット208は感性的命令308を生成して、当該命令を感情表出の実行命令としてAUIなどに送信することができる。
図4は、本発明の実施例に係る例示的な感性的インタラクションシステムをユーザ視点から説明するための機能図である。例示的な実施例を逸脱しない前提で、当該例示的なプロセスのステップは削除されてもよく、変更されてもよく、又は新規追加されてもよい。
当該プロセスは、ユーザがAUIを通じて感性的インタラクションシステムとの感性的インタラクション会話を如何に見るかを示す。ユーザは、1つ又は複数のモダリティ(例えば、音声104、テキスト106、顔面表情108など)を有する感情をマルチチャンネルフロントエンド端末116に提供することによって、感情コミュニケーション102を開始することができる。ユーザの視点からみると、端末116はユーザがインタラクションを直接行うことができるユーザインターフェースである。前述した通り、端末116はユーザにAUIを提供して、ユーザの感情コミュニケーション102を収集することができる。例えば、端末116はロボット404、スマート端末406、スマートフォン408、インスタントメッセージ(IM)プラットフォーム410などであってもよい。端末116は感性的インタラクション計算モジュール120に接続される。モジュール120は、感情認識部204、ユーザ意図計算ユニット206及び感情戦略形成ユニット208を備えて、感情表現に基づいてユーザの感情状態を取得し、感情状態及びデータ410(構造化されたもの又はされていないもの)などの他の入力に基づいてインタラクション意図及び感情意図を認識し、インタラクション意図及び感情意図に対する戦略を策定し、感性的命令を生成することができる。そのあと、モジュール120は感性的命令を端末116に送信し、端末116は最初の感情コミュニケーション102に対する応答として、1つ又は複数のモダリティを有する感情表出310を生成してユーザに提供することができる。ユーザからみると、モジュール120の動作はすべてバックステージにおいて発生するため、ユーザにとっては不可視である。端末116及びモジュール120を備えた全体的な感性的インタラクションシステムは、システム訓練及び学習プロセス412によって改善されることができる。
図5は、本発明の実施例に係る例示的な感性的インタラクションシステムを感性的インタラクションシステム視点で示す機能図である。このプロセスは、1つの感性的インタラクションシステムがAUIを通じて感性的インタラクション会話を如何に見るかを示す。システムは、ユーザ入力502(例えば、視覚データ506、聴覚データ508、触覚データ510など)からマルチモーダルデータ504を捕獲することができる。システムは、様々な装置及び方法を用いてマルチモーダルデータ504を収集し認識することができ、さらに、更なる処理のために、マルチモーダル融合プロセッサー512によってデータ504を融合することができる。意図理解プロセッサー414は、融合されたデータに基づいてユーザの感情状態を取得し、感情状態と、知識データベース514からの他の入力とに基づいてインタラクション意図及び感情意図を認識することができる。感情戦略形成ユニット208は、インタラクション意図及び感情意図のために戦略を策定し、インタラクティブ命令516を生成することができるとともに、アプリケーションロジック518を呼び出すことによって、感情表出などのフィードバック出力520をユーザに提供することができる。感性的インタラクションシステムの視点から見ると、ユーザのデータ入力のモダリティを認識して、対応する装置及び方法を用いて当該データを処理することは非常に重要なことである。さらに、感性的インタラクションの一致性を維持し且つユーザのコミュニケーション習慣に適応するために、システムは複数のモダリティを有するフィードバックを生成することができる。
図10は、本発明の実施例に係る感性的インタラクションシステムにおいて行われる例示的な感性的インタラクションのフローチャートである。例示的な実施例を逸脱しない前提で、当該例示的なプロセスのステップは削除されてもよく、変更されてもよく、又は追加されてもよい。
感性的インタラクションシステム(例えば、図3Aによる感性的インタラクションシステム100)は、感性的インタラクション会話を開始するステップ(1000)のあと、ユーザからの感情コミュニケーションを受信するステップ(1002)と、収集した感情コミュニケーションに基づいてデータ収集部(例えば、図3A及び3Bによるデータ収集部202)を用いて感情関連データを取得するステップ(1004)と、を行うことができる。
システムは、例えば、ユーザパスワード又は命令、ユーザ音声パスワード、ユーザ顔面、ユーザ指紋、ユーザ虹彩などによって、感情関連データに基づいてユーザの身分を認証するステップ(1006)と、個人化モデル構築部(例えば、図3Cによる個人化モデル構築部334)を用いてユーザの身分データを取得するステップ(1006)と、を行うことができる。ユーザの身分データに基づいて、システムはユーザの履歴データ、ユーザの好み及びユーザのフィードバックに基づいて、個人化情報を取得する(1008)ことによって、ユーザの好みを指示するとともに意図認識のプロセスを調整と修正することができる。ステップ1010において、システムは、更なる処理のために、インタラクティブ文脈分析部(例えば、図3Cによるインタラクティブ文脈分析部340)を用いてインタラクティブ文脈を取得する(1010)ことができる。ステップ1012において、システムはさらに、更なる処理のために、場面内容分析部(例えば、図3Cによる場面内容分析部338)を用いて場面内容を取得する(1012)ことができる。
ステップ1014において、システムは感情認識部(例えば、図3A及び3Cによる感情認識部204)を用いて、感情関連データに基づいて感情特徴を認識する(1014)ことができる。そのあと、システムは感情認識部を用いて、認識された感情特徴に基づいて感情状態を取得する(1016)ことができる。さらに、システムは複数の入力パラメータを受信することができ、語義データベース(例えば、図3Cによる語義データベース346)から語義データを受信するステップ(1018)と、分野知識データベース(例えば、図3Cによる分野知識データベース350)から分野知識データを受信するステップ(1020)と、一般知識データベース(例えば、図3Cによる一般知識データベース354)から一般知識データを受信するステップ(1022)と、を行うとともに、個人化情報、感情状態、インタラクティブ文脈及び場面内容を受信することができる。以上の受信した入力パラメータに基づいて、システムは、ユーザ意図計算ユニット(例えば、図3A及び3Cによるユーザ意図計算ユニット206)を用いて感情意図及びインタラクション意図を認識する(1024)ことができる。
その後のステップ1026において、システムは、感情意図及びインタラクション意図を含むユーザ意図を取得して送信する(1026)ことができる。システムは、分野知識データ、一般知識データ及びユーザ意図に基づいて、感情戦略形成ユニット(例えば、図3A及び3Cによる感情戦略形成ユニット208)を用いて、感情意図のための感情戦略と、インタラクション意図のためのインタラクション戦略と、を形成する(1028)ことができる。次に、感情戦略形成ユニットは感情戦略及びインタラクション戦略に基づいて感性的命令を生成する(1030)ことができる。感性的命令に基づいて、システムは感情計算表出生成部210(例えば、図3A及び3Bによる感情計算表出生成部210)を用いて、感情表出を提供する(1032)とともに、感情表出をユーザに伝える(1034)ことができる。そのあと、システムは、最初に戻って他の1つの感性的インタラクション会話を開始する(1000)か、又は会話を続けることができる。なお、システムは、任意の順番で以上のプロセスの全体又は一部を実行することができ、ステップが追加されてもよく、追加されなくてもよい。
図11は、本発明の実施例に係るユーザ意図計算ユニットにおいて行われる例示的な意図認識プロセスのフローチャートである。例示的な実施例を逸脱しない前提で、当該例示的なプロセスのステップは削除されてもよく、変更されてもよく、又は追加されてもよい。
インタラクティブ文脈を受信するステップ(1102)と、感情関連データを受信するステップ(1104)と、場面内容を受信するステップ(1106)と、を含むプロセスによって複数の入力パラメータを受信したあと、ユーザ意図計算ユニット(例えば、図3A及び3Cによるユーザ意図計算ユニット206)は、インタラクションシーケンスを分析するステップ(1108)と、焦点を抽出するステップ(1110)と、語義情報を抽出するステップ(1112)と、を行うことができる。ここで、複数の可能な感情が存在する場合、インタラクションシーケンスを分析する(1108)ためには、プロセッサーはユーザの感情関連データのシーケンスを分析する。現在のインタラクション会話において、複数の操作又は意図が表現されることができる可能性がある。各意図の意味は、意図の並び順番によって異なるように理解される可能性がある。ここで、プロセッサーは、現在のインタラクション会話に含まれている感情関連データに基づいて、当該会話における後期の意図トレンドを予測することができる。同様に、プロセッサーは、過去のインタラクション会話の履歴データに基づいて、新しいインタラクション会話における意図トレンドを予測することができる。こうすることによって、可能な正しい意図の範囲が局限され、したがってプロセッサーがより早く意図を認識することができる。
プロセッサーが感情関連データから焦点(例えば、ユーザが注目すること又は興味を持つ焦点)を抽出する(1110)ステップを行うのは、意図認識プロセスにおける特定の情報の重みを確定することによって、ユーザ意図を認識するために行われる選択プロセスをより容易にするためである。テキスト感情関連データについて、一部の実施例において、プロセッサーは用語重み付け技術を用いて、単語(特別注目の単語など)の1つ又は複数の属性に基づいて焦点を有するテキスト又は特定の単語を抽出する。一部の実施例において、焦点抽出は、単語の出現頻度-逆文書頻度(Term Frequency-Inverse Document Frequency,TFIDF)技術に基づいた独立したモジュールとして構築されることができる。他に、テキスト感情関連データについて、他の一部の実施例において、焦点抽出は、エンコーダー-デコーダーモデルにおいて行われる語義データ又は意図認識に対する処理と結合されて、注目モデルを構築することができる。このような実施例において、処理される語義データ又は認識される意図は、様々な重みを有する単語を含むことができる。なお、焦点の抽出は、他の2つの処理プロセスから分割できない部分になることができる。
前述した通り、オーディオ感情関連データはテキストに変換されることができる。また、変換されたテキストにおける焦点も、上述したテキスト感情関連データと同様な方式によって抽出されることができる。さらに、一部の他の実施例において、プロセッサーは、オーディオの音響学リズム特性(トーン、ストレス、休止、イントネーションなどを含む)からも焦点を抽出することができる。これらの特性は、曖昧さを避けることと、キーワードへの注目度及び意図認識の正確度を向上させることをサポートすることができる。
画像やビデオなどの視覚感情関連データについては、コンピュータ視覚方法によって焦点を抽出することができる。データに対して前処理(例えば、二値化処理)を行って画素分布情報を取得したあと、プロセッサーは、画素分布情報を確認することによって視覚データにおける対象を認識することができる。視覚データにおいて人間の存在を含んだエリアが存在する場合、プロセッサーは、人間の注目するポイント、手足の動き方向又はジェスチャの方向に基づいて視覚データの焦点位置を取得することができる。焦点部分を取得したあと、プロセッサーは語義変換によって画像又はビデオの実質をテキスト又は符号に変換して、焦点部分として後続の処理において用いる。
一部の実施例において、語義情報を抽出する(1112)とき、プロセッサーは、履歴データや文脈情報より、現在の感情関連データにもっと高い優先度を付与する。現在の感情関連データが漏れた場合、又はユーザの意図を認識することが失敗した場合、履歴情報又は文脈情報を参考することができる。語義情報の抽出は、自然言語の処理と、場面内容に基づく語義分析と、を含むことができる。一部の実施例において、語義ライブラリは語義情報の抽出において用いられることができる。一部の実施例において、特定の語義操作は、マルチ意図の認識、文脈意図の充填などの、特定の語義についての分析課題を解決するために行われる。なお、語義抽出のプロセスと意図認識のプロセスとは分割されることができない。一部の実施例においては、語義ライブラリに基づいて特定の意図を認識することができる。プロセッサーは、他の任意のモダリティ(例えば、ビデオ、画像(どのようなテキストも含まない画像)など)の感情関連データに関するテキスト記述を取得し、テキスト記述から語義情報を抽出することができる。認識を行うプロセッサーにとって、感情関連データの語義を理解すれば、ユーザの意図もより理解しやすくなる。ゆえに、語義情報の抽出は意図認識プロセスにおける大切な一環である。1つのインタラクション意図と1つの感性的意図とは、同時に、又は任意の順番、又は任意の順序で認識されることができる。
図11を再び参照すると、プロセッサーは、個人化情報を受信するステップ(1114)と、感情状態を受信するステップ(1116)と、一般知識データを受信するステップ(1118)と、分野知識データを受信するステップ(1120)と、を行うことができる。一部の実施例において、プロセッサーは分析されたインタラクションシーケンスと、抽出された焦点と、抽出された語義情報と、個人化情報と、感情状態と、一般知識データと、場面内容と、分野知識データとのうちの少なくとも1つに基づいて、ユーザの感情意図及びインタラクション意図を認識する(1122)ことができる。
一部の実施例において、ユーザ意図計算ユニット(例えば、図2、3A、3C及び8によるユーザ意図計算ユニット206)は図12Aに示すよう、ベイジアンネットワークに基づいて実現されて、ユーザのユーザ意図を認識することができる。ベイジアンネットワーク(ビリーフネットワーク、因果ネットワーク、又は確率的非循環有向グラフィカルモデルとも称される)は確率的グラフィカルモデルであり、非循環有向グラフによって1セットの変数及び各変数の間の条件付き依存関係を表す。例えば、ベイジアンネットワークは、感情意図と、焦点感情タイプ及び感情状態シーケンスと、の間の確率的関係を表すことができる。焦点感情タイプ及び感情状態シーケンスが与えられた場合、当該ネットワークは各種の感情意図の存在確率を計算することができる。非循環有向グラフのノードは変数を表し、グラフの辺は条件付き依頼関係を表す。連結されていないノードは、条件付きで互いに独立する変数を表す。いずれのノードも1つの確率関数と関連し、当該確率関数の入力は当該ノードの親変数の特定の1セットの数値であり、出力は当該ノードにより表される変数の確率又は確率分布である。ジョイント確率分布マトリックスは条件付きの確率テーブルであり、確率上のノードの数値的特性に相関する。
図12Aに示すよう、感情意図計算プロセッサー806は、ベイジアンネットワークを用いて、感情意図規則データベースから取得された感情状態シーケンス1202、焦点感情タイプ1204及び感情意図規則1206に基づいて、ジョイント確率分布マトリックスで表される感情意図確率組合せ1208を取得することができる。ジョイント確率分布マトリックスは感情意図規則によって初期化されることができる。当該マトリックスは、意思決定フィードバック又はヒューマンマシン協調の調整に基づいて、自主的な機械学習によって更なる更新と最適化を実現することができる。組合せ1208は一連の既に認識された感情意図を含み、これらの感情意図はそれらが本当のユーザ意図になる確率に基づいてまとめられたものである。
感情意図規則データベースは、感情意図変数とその他の関連変数との間のジョイント確率分布を提供する。一部の実施例において、データベースは、ジョイント確率分布を推定するために用いられる基本的規則を提供する。焦点感情タイプは、焦点内容に対応する感情タイプ(例えば、ユーザが注目する画像、テキスト段落など)である。焦点感情タイプは、異なる次元における感情状態シーケンスによって定義されることができ、感情共通知識データベースに基づいて焦点内容とのマッピングによって直接得られることができる。感情状態シーケンスは、ユーザインタラクションの間に発生する感情変化のシーケンスである。各感情状態は、異なる次元における感情数値の組合せであってもよく、又は1種の感情確率であってもよい。
意思決定フィードバックは、意思決定結果に対するユーザのフィードバックであり、黙示的なフィードバック(又は受動的なフィードバック)及び明示的なフィードバックを含む。黙示的なフィードバックは、意思決定結果(例えば、音声、感情、動作など)に対するユーザの応答(システムにより自動的に取得される)である。一方、明示的なフィードバックは、意思決定結果に対するユーザの自発的な評価意見であり、例えば評価点数であってもよく、評価コメントであってもよい。決定フィードバックモジュールは、意図に対する推理又は計算を更新するメカニズムである。つまり、意図の推理又は計算メカニズムは、システム管理人によるヒューマンマシン協調によって実現されることができるとともに、その推理又は計算の精度は意思決定フィードバックに基づく機械学習によって向上されることができる。
図12Aに示すよう、インタラクション意図計算プロセッサー804は、分野知識データベース又は写像から得られる入力パラメータに基づいて、インタラクション意図確率組合せ1212を取得することができる。ここで、入力パラメータは、語義データ348、焦点1210、インタラクティブ文脈344、場面内容342及び分野知識データ352を含む。分野知識データベース又は写像は、1つの分野における概念及び例と、概念と例との関連又は関係と、を提供する。プロセッサー804は、入力パラメータに対応する分野知識データベース又は写像をクエリし、インタラクション意図確率組合せ1212を取得することができる。
ユーザ意図規則データベースから取得したユーザ意図規則1214、感情意図確率組合せ1208、インタラクション意図確率組合せ1212及び個人化情報336に基づいて、感性的インタラクション意図フィルタ1216は、ジョイント確率分布マトリックスによって表されるユーザ意図確率組合せを取得することができる。ジョイント確率分布マトリックスは、ユーザ意図規則によって初期化されることができる。当該マトリックスは、意思決定フィードバック、又はユーザのフィードバックに従うヒューマンマシン協調の調整に基づいて、自主的な機械学習によって更なる更新と最適化を実現することができる。
例えば、図12B乃至12Dはいずれも、ベイジアンネットワークに基づいた例示的なユーザ意図認識プロセスのフローチャートである。それらは、例示的な3つの連続する感性的インタラクション会話を示す。各会話において、ユーザ意図計算ユニット(例えば、図2、3A、3C及び8によるユーザ意図計算ユニット206)はベイジアンネットワークによってユーザ意図を認識することができる。例示的な感性的インタラクション会話は以下のように記述されることができる。
例示的な感性的インタラクション会話Aにおいて、ユーザは例示的な感性的インタラクションシステムに「長い会議のせいで頭が痛い。音楽を再生してください。」と伝えると、感性的インタラクションシステムはユーザからの情報を処理したあと、ユーザのために穏やかな音楽を再生することができる。
例示的な感性的インタラクション会話Aの次に行われる例示的な感性的インタラクション会話Bにおいて、ユーザは例示的な感性的インタラクションシステムに「この音楽を聴くと眠くなる。ダメだよ。他の音楽に変えてください。後で残業しなければならないから。」と伝えると、感性的インタラクションシステムはユーザからの情報を処理したあと、ユーザのために明るい音楽を再生することができる。
例示的な感性的インタラクション会話Bの次に行われる例示的な感性的インタラクション会話Cにおいて、ユーザは例示的な感性的インタラクションシステムに「音楽は素敵だが、出かけることを30分後にリマインドしてください」と伝えることができる。感性的インタラクションシステムは明るい音楽を続いて再生しながら、ユーザからの情報を処理してから、30分後に出かけるアラームをユーザのために設定することができる。
会話Aは、図12Bに示されるベイジアンネットワークにより処理されることができる。前処理されたデータに基づいて、ユーザ意図計算ユニット206は以下通りの変数又はパラメータの確率組合せを取得することができる。
・感情状態1218A:中立(0.1)、疲労(0.5)、悲しい(0.4)
・焦点1220A:会議(0.1)、音楽再生(0.5)、頭痛(0.4)
・感情意図のインタラティブ文脈1222A:(null)
・語義データ1224A:今日、会議、頭痛及び音楽再生
・場面内容1226A:時間(6:50)及び場所(事務室)
・インタラクション意図のインタラクティブ文脈1228A:(null)。
感情意図のインタラクティブ文脈1222A及びインタラクション意図のインタラクティブ文脈1228Aは、感性的インタラクション会話の開始であり、且つインタラクティブ文脈を生成するための使用可能な履歴データがないため、(null)として記述されることができる。これらの実施例において、感情状態1218Aは離散的な感情分類によって表現される。場面内容1226Aは、現在の場面が発生する場所が「事務室」であると確定するとともに、分野知識データベースが現在の場面に適するように調整することができる。焦点1220Aは、ユーザの言葉の単純な意味に基づいて抽出された焦点であってもよい。プロセッサー206は、焦点1220Aに基づいて、焦点1220Aを感情共通知識データベースにおける焦点感情タイプにマッピングすることによって、焦点感情タイプ1230Aが(具合が悪い)(1)になる確率組合せを取得することができる。ここで、マッピング規則は、開始のときに予め設定されかつ/又は初期化され、さらに機械学習によって調整されることができる。プロセッサー206は、感情状態1218Aと、感情意図のインタラクティブ文脈1222Aと、焦点感情タイプ1230Aとの確率組合せに基づいて、入力確率組合せを感情意図の確率分布マトリックス1232にマッチングし、感性的インタラクション組合せ1234Aを取得することができる。この実施例において、マトリックス1232は予め設定された確率分布マトリックスのほんの一部であってもよく、特定の条件における潜在的な感情意図の確率数値を含み、疲労、不具合/慰め(0.8)、疲労、疲れ切り/慰め(0.3)、退屈、怒り/慰め(0.4)、疲労、不具合/励まし(0.2)、疲労、疲れ切り/励まし(0.7)及び退屈、怒り/励まし(0.6)と記述されることができる。焦点感情タイプ1230Aが「具合が悪い」(1)であるため、プロセッサー206はマトリックス1232において「具合が悪い」を見つけて、「慰め」の確率数値0.8及び「励まし」の確率数値0.2を含む感情意図1234Aの確率組合せを取得することができる。
また、プロセッサー206は、インタラクション意図に対応する焦点1220A、語義データ1224A、場面内容1226A及びインタラクティブ文脈1228Aに基づいて、入力データと、分野知識データベースから形成された分野知識写像とに対して確率マッチングを行うことによって、インタラクション意図1236Aの確率組合せとして音楽再生(0.8)及び休憩(0.2)を取得することができる。プロセッサー206は個人化情報1238Aを更に受信することができる。個人化情報1238Aは、ユーザの好みが「システムがフィードバックを提供しないことが嫌い」であることを示すことができる。プロセッサー206は、インタラクション意図1236Aと、感情意図1234Aと、個人化情報1238Aに基づいて、入力確率組合せと、ユーザ意図1240の確率分布マトリックスとに対してマッチングを行うことによって、ヒューマンマシン協調による調整を通じて、ユーザ意図1242Aを取得することができる。本実施例において、マトリックス1240は、特定の条件にマッチする潜在的なユーザ意図の確率数値を含んだ予め設定された確率分布マトリックスの一部であってもよく、慰め、音楽再生/穏やかな音楽を再生(0.9)、励まし、音楽再生/穏やかな音楽を再生(0.1)、N/A、アラーム設定/穏やかな音楽を再生(0)、慰め、音楽再生/明るい音楽を再生(0.1)、励まし、音楽再生/明るい音楽を再生(0.9)、N/A、アラーム設定/明るい音楽を再生(0)、慰め、音楽再生/アラーム設定(0)、励まし、音楽再生/アラーム設定(0)、N/A、アラーム設定/アラーム設定(1)と記述されることができる。感性的インタラクション会話において個人化情報が存在しない場合、プロセッサー206は以下の計算によって入力確率組合せとマトリックス1240とに対してマッチングすることができる。
P(穏やかな音楽を再生)(「穏やかな音楽を再生」の確率数値)=(P(慰め、音楽再生/穏やかな音楽を再生)×P(慰め)+P(励まし、音楽再生/穏やかな音楽を再生)×P(励まし)×P(音楽再生)=(0.9×0.8+0.1×0.2)×0.8=0.592、及び、
P(明るい音楽を再生)=(P(慰め、音楽再生/明るい音楽を再生)×P(慰め)+P(励まし、音楽再生/明るい音楽を再生)×P(励まし))×P(音楽再生)=(0.1×0.8+0.9×0.2)×0.8=0.208。
よって、「穏やかな音楽を再生」の確率が0.592となり、「明るい音楽を再生」の確率が0.208となる。しかしながら、本実施例において、個人化情報1238Aは計算プロセスに影響を与えるかもしれない。例えば個人化情報1238Aで前述した通り、システムが応答しないと、ユーザはシステムが嫌いかもしれない。そこで、プロセッサー206は、インタラクション意図1236Aの確率組合せから「休止」の確率を除去して「音楽再生」の確率を(1)にすることができる。そこで、入力確率組合せとマトリックス1240とをマッチングすることによって感性的インタラクション1242Aを取得するための計算は、個人化情報1238Aの影響を受けて、以下の通りになることができる。
P(穏やかな音楽を再生)=(P(慰め、音楽再生/穏やかな音楽を再生)×P(慰め)+P(励まし、音楽再生/穏やかな音楽を再生)×P(励まし)×P(音楽再生)=(0.9×0.8+0.1×0.2)×1=0.74、及び、
P(明るい音楽を再生)=(P(慰め、音楽再生/明るい音楽を再生)×P(慰め)+P(励まし、音楽再生/明るい音楽を再生)×P(励まし)×P(音楽再生)=(0.1×0.8+0.9×0.2)×1=0.26。
次に、プロセッサー206は、穏やかな音楽を再生し(0.74)、明るい音楽を再生すること(0.26)をユーザ意図1242Aとして取得することができる。認識された複数のユーザ意図が互いに排他的になっている場合、最も高い確率を有するユーザ意図(例えば、穏やかな音楽を再生)は現在の感性的インタラクション会話に含まれているユーザ意図1242Aとして選定されることができる。取得された感情意図1234A、インタラクション意図1236A及びユーザ意図1242Aは、感性的インタラクションシステムにおいて記憶されて、システムの計算プロセスのアップデート及び最適化のために行われる機械学習及び/又はヒューマンマシン協調による調整において用いられることができる。
さらに、会話Bは図12Cに示されるベイジアンネットワークに基づいて処理されることができる。前処理されたデータに基づいて、ユーザ意図計算ユニット206は以下の変数又はパラメータの確率組合せを取得することができる。
・感情状態1218B:中立(0.1)、疲労(0.5)、悲しい(0.4)
・焦点1220B:睡眠(0.2)、音楽変更(0.6)、残業(0.2)
・感情意図のインタラクティブ文脈1222B:慰め(0.8)及び励まし(0.2)
・語義データ1224B:睡眠、ダメ、音楽変更、残業
・場面内容1226B:時間(6:50)、場所(事務室)
・インタラクション意図のインタラクティブ文脈1228B:音楽再生(0.8)及び休憩(0.2)。
プロセッサー206は、図12Bによる感性的インタラクション1234Aから感情意図のインタラクティブ文脈1222Bの確率組合せを取得するとともに、図12Bによるインタラクション意図1236Aからインタラクション意図のインタラクティブ文脈1228Bの確率組合せを取得する。プロセッサー206は、焦点1220Bに基づいて、焦点1220Bを感情共通知識データベースにおける焦点感情タイプにマッピングすることによって、焦点感情タイプ1230Bの確率組合せとして疲労(0.7)及び怒り(0.3)を取得することができる。プロセッサー206は図12Bに示すよう、感情状態1218Bと、感情意図に対応するインタラクティブ文脈1222Bと、焦点感情タイプ1230Bとの確率組合せに基づいて、入力確率組合せと感情意図1232に対応する確率分布マトリックスとに対してマッチングを行い、感性的インタラクション1234Bとして慰め(0.3)及び励まし(0.7)を取得することができる。
また、プロセッサー206は、焦点1220Bと、語義データ1224Bと、インタラクション意図に対応するインタラクティブ文脈1228Bと、場面内容1226Bとに基づいて、入力データと、分野知識データベースから取得された分野知識写像とに対して確率マッチングを行うことによって、インタラクション意図1236Bの確率組合せとして音楽再生(0.9)及び休止(0.1)を取得することができる。プロセッサー206は図12Bに示すように、インタラクション意図1236B、感情意図1234B及び個人化情報1238Bに基づいて、入力確率組合せと、ユーザ意図1240に対応する確率分布マトリックスとに対してマッチングを行い、ユーザ意図組合せ1242Bとして(穏やかな音楽を再生)(0.34)及び(明るい音楽を再生)(0.66)を取得することができる。図12Bに示すよう、個人化情報1238Bによって、インタラクション意図1236Bにおける休止(0.1)の確率が削除されることができる。最も高い確率を有するユーザ意図(例えば、明るい音楽を再生)は、現在のユーザ意図であるユーザ意図1242Bとして確定されることができる。
さらに、会話Cは図12Cに示されるベイジアンネットワークによって処理されることができる。前処理されたデータに基づいて、ユーザ意図計算ユニット206は以下の変数又はパラメータの確率組合せを取得することができる。
・感情状態1218C:中立(0.2)、楽しい(0.7)、退屈(0.1)
・焦点1220C:素敵(0.2)、30分(0.6)、出かける(0.2)
・感情意図に対応するインタラクティブ文脈1222C:慰め(0.3)、励まし(0.7)
・語義データ1224C:この、素敵、30分、出かけるリマインド
・場面内容1226C:時間(7:00)、場所(事務室)
・インタラクション意図に対応するインタラクティブ文脈1228C:音楽再生(0.9)、休憩(0.1)。
プロセッサー206は、図12Cによる感性的インタラクション1234Bから感情意図に対応するインタラクティブ文脈1222Cの確率組合せを取得するとともに、図12Cによるインタラクション意図1236Bからインタラクション意図に対応するインタラクティブ文脈1228Cの確率組合せを取得する。プロセッサー206は焦点1220Cに基づいて、焦点1220Cを感情共通知識データベースにおける焦点感情タイプにマッピングすることによって、焦点感情タイプ1230Cの確率組合せとして疲労(null)を取得することができる。ただし、感性的インタラクションCにおいてマッチする項目が存在しないため、焦点感情タイプ1230Cは(null)と示されることができる。プロセッサー206は、感情状態1218C、インタラクティブ文脈1222C及び焦点感情タイプ1230Cの確率組合せに基づいて、図12Cに示すよう、入力確率組合せと感情意図に対応する確率分布マトリックス1232とに対してマッチングを行い、感性的インタラクション組合せ1234Cとして慰め(0.3)及び励まし(0.7)を取得することができる。
また、プロセッサー206は、焦点1220C、語義データ1224C、インタラクション意図に対応するインタラクティブ文脈1228C、場面内容1226C及びそれらの確率組合せに基づいて、入力データと、分野知識データベースから取得された分野知識写像とに対して確率マッピングを行うことによって、インタラクション意図組合せ1236Cの確率組合せとして(音楽再生)(0.4)及び(アラーム設定)(0.6)を取得することができる。インタラクション意図1236Cと感情意図1234C、及びそれらの確率組合せ、加えて個人化情報1238Cに基づいて、プロセッサー206は図12Cに示すよう、入力確率組合せと、ユーザ意図に対応する確率分布マトリックス1240とに対してマッチングを行い、ユーザ意図1242Cとして(穏やかな音楽を再生)(0.12)、(明るい音楽を再生)(0.26)及び(アラーム設定)(0.6)を取得することができる。最も高い確率を有するユーザ意図(例えば、アラーム設定と明るい音楽を再生(この両者は互いに排他的ではないため))は、現在のユーザ意図であるユーザ意図1242Cとして形成されることができる。
図12Aを再び参照すると、プロセッサーは語義データベースに基づいて実現されて、ユーザ意図を認証することができる。このような語義データベースによって、プロセッサーは、特定の語義情報をデータベースにおける具体的にリンクされた意図にマッチングすることができる。インタラクション意図の場合、特定の語義情報は通常、特有のインタラクション意図にマッチする。プロセッサーは、マッチングモデルにおいてキーアクションワードを見つけてから、対応するインタラクション意図を見つけることができる。キーアクションワードがモデルにおける複数の語義情報オプションにマッチする場合、プロセッサーは、近似度に従って選定し、近似度が最も高いオプションを参照としてインタラクション意図にマッチさせることができる。当該マッチングモデルは、機械学習によって予め設定されるか又は累積されることができる。感情意図の場合、プロセッサーは、特定の場面内容における感情状態と感情意図との間で関係を構築する感情語義データベースを利用することができる。プロセッサーは、マトリックスにおける感情状態と認識されたインタラクション意図との間の関係を分析することによって、インタラクション意図及び感情状態を参考として、マトリックスにおいて正確な感情意図を見つけることができる。
以下の感情語義データベースにおけるマトリックス(表)を例とすると、ユーザ意図計算ユニット206は、感情状態を受信し且つインタラクション意図を認識したあと、受信した感情状態をマトリックスの最初の行に入れ、認識したインタラクション意図をマトリックスの最初の列に入れることによって、感情状態と認識したインタラクション意図との間の関係を取得することができる。プロセッサー206はこのような関係に従って、現在の感性的インタラクションに対応する感情意図を見つけることができる。例えば、プロセッサー206が「焦り」の感情状態を受信し且つ「クレジットカードの限度額をチェック」というインタラクション意図を認識した場合、感情状態と認識したインタラクション意図との間の関係が「残りの限度額が足りない」であると推定することができ、さらにそれによって感情意図が「慰められたい」であると認識することができる。当該マトリックスは、感情状態及びインタラクション意図に基づいて感情意図を取得する他の例を更に提供する。
Figure 0007199451000002
一部の実施例において、プロセッサーは機械学習に基づいて実現されて、ユーザ意図を認証することができる。インタラクション意図の場合、プロセッサーは、過去の感情関連データ及びそれにマッチするインタラクション意図を学習することによって、対応するマッチング規則の学習モデルを取得することができる。したがって将来の認識プロセスにおいて、プロセッサーは学習モデルにおけるマッチング規則に基づいて、ユーザデータを用いて関連するインタラクション意図を見つけることができる。感情意図の場合、プロセッサーは過去の感情状態及びそれにマッチする感情意図を学習することによって、対応するマッチング規則の他の1つの学習モデルを取得することができる。したがって将来の認識プロセスにおいて、プロセッサーは学習モデルにおけるマッチング規則に基づいて、感情状態を用いて関連する感情意図を見つけることができる。
一部の実施例において、プロセッサーは検索アルゴリズムに基づいて実現されて、ユーザ意図を認証することができる。プロセッサーは、意図辞書を備えることができ、当該意図辞書はインタラクション意図及び感情意図の目録を含む。このような辞書は、予め設定されるか又は開発されることができ、さらにオンライン機械学習(例えば、Q&Aデータを学習する)によって継続的に補足されることができる。プロセッサーは、マッチする意図を見つけるために、検索アルゴリズムを用いて、任意の入力されたデータをキーワードとして辞書において検索を行うことができる。
図13は、本発明の一実施例に係る感情戦略形成ユニットにおいて行われる戦略形成のプロセスのフローチャートである。図13に示すよう、感情意図戦略形成ユニット(例えば、図9による感情意図戦略形成ユニット906)は、入力パラメータを受信することに基づいて、感情意図戦略を形成する(1314)ことができる。入力パラメータを受信することは、場面内容を受信するステップ(1302)と、個人化情報を受信するステップ(1304)と、規則及びロジックデータを受信するステップ(1306)と、ユーザ意図を受信するステップ(1308)と、一般知識を受信するステップ(1310)と、分野知識を受信するステップ(1312)と、を含む。インタラクション意図戦略形成ユニット(例えば、図9によるインタラクション意図戦略形成ユニット904)は、前記1つ又は複数の入力パラメータに基づいて、インタラクション意図戦略を形成する(1316)ことができる。感情戦略形成ユニット(例えば、図2、3A、3C及び9による形成ユニット208)は、形成された戦略に基づいて、アクション命令を生成する(1318)ことができる。入力許可規則を受信した(1320)あと、感情戦略形成ユニットはアクション命令における動的命令を調整する(1322)ことによって、感性的命令を生成する(1324)ことができる。
当業者であれば理解できる通り、説明された方法は、ステップの削除、ステップ順番の変更又は新規のステップの追加などによって変更されることができる。また、説明されたシステム又は装置は、構成部分の削除、シーケンス又は順番の変更、又は新規の構成部分の追加などによって変更されることができる。本発明により開示されるシステム、装置及び方法は、コンピュータプログラム製品として実現されてもよく、すなわち情報メディア(例えば、マシン読取可能な記憶装置)において実現される実体を有するコンピュータプログラムとして実現されて、データ処理装置(例えば、プログラマブルプロセッサー、コンピュータ又はマルチコンピュータ)により実行されるか、又はそれらの操作を制御する。コンピュータプログラムは、任意の形式を有するプログラミング言語(コンパイルされた言語又は解釈された言語を含む)によって編集されてもよく、任意の形式(独立したプログラム、モジュール、コンポーネント、サブルーチン、又は他のコンピューティング環境において使用可能なユニット)によって配置されてもよい。コンピュータプログラムは、1台のコンピュータ又は1つのサイトにおける複数台のコンピュータにより実行されてもよく、又は、複数のサイトに配置されて通信ネットワークを介して互いに接続してもよい。
本発明により開示される一部又はすべての方法は、特定用途向け集積回路(ASIC)、現場で構成可能な回路アレイ(FPGA)、コンプレックスプログラマブルロジックデバイス(CPLD)、プリント基板(PCB)、デジタル信号プロセッサー(DSP)、プログラマブルロジックデバイス及びプログラマブル インターコネクトの組合せ、単独セントラルプロセッサーユニット(CPU)チップ、マザーボードにおけるCPUチップの組合せ、汎用コンピュータ、又はインテリジェント知識ベースを構築可能な装置やモジュールの任意の他の組合せ(例えば、語義近似度計算及び/又は本発明により開示された抽象的語義推薦に基づくQ&A知識ベース)によって実現されることができる。
以上の明細書においては既に具体的な例示的な実施例によって本発明について説明を行ったが、明らかに、以下の請求範囲で示す通り、本発明のより広い精神および範囲から逸脱しなくても、本発明に対して様々な変動や変更を行うことができる。つまり、明細書及び図面は説明的なものであり、制限的なものではない。本発明による明細書及び実際の実現からみると、本発明の他の実施例は当業者にとっては明らかなものである可能性がある。

Claims (15)

  1. ユーザ意図計算ユニットと、前記ユーザ意図計算ユニットに接続される感情戦略形成ユニットと、前記ユーザ意図計算ユニットに接続される場面内容分析部と、前記ユーザ意図計算ユニットに接続され、前記ユーザ意図計算ユニットがユーザからの入力の意味を理解するよう、語義データを提供する語義データベースと、前記ユーザ意図計算ユニットに接続され、前記ユーザとインタラクション会話を行うときに前記ユーザ意図計算ユニットが基本的な事実情報を理解するよう、一般知識データを提供する一般知識データベースと、前記ユーザ意図計算ユニットに接続され、特定のビジネス分野のビジネスロジックを含んだ分野知識データを提供する分野知識データベースと、を備え、
    前記場面内容分析部は、感性的インタラクションが発生する場面に関する情報を含む場面内容を提供し、
    前記ユーザ意図計算ユニットは、感情関連データ及び前記ユーザの感情状態を受信し、前記場面内容分析部から前記場面内容を取得し、前記場面内容、前記感情関連データ及び前記感情状態と、前記語義データ、前記一般知識データ及び前記分野知識データのうちの少なくとも1つとに基づいてユーザ意図を認識し、
    前記ユーザ意図は感情意図及び/又はインタラクション意図を含み、前記感情意図は前記感情状態に対応し、前記インタラクション意図は1つ又は複数のトランザクション意図を含み、
    前記感情戦略形成ユニットは、前記ユーザ意図に基づいて感性的命令を生成し、
    前記感性的命令は実行可能な指令を含み、前記実行可能な指令は、前記ユーザ意図に対応する1つ又は複数のモダリティによって感情表出を生成するために用いられる
    ことを特徴とする感性的インタラクションシステム。
  2. 前記ユーザ意図計算ユニットに接続されてインタラクティブ文脈情報を提供するインタラクティブ文脈分析部を更に備え、
    前記ユーザ意図計算ユニットは、
    前記インタラクティブ文脈分析部から前記インタラクティブ文脈情報を取得し、
    前記感情関連データの時間シーケンスを取得し、
    前記場面内容、前記時間シーケンス、前記感情状態及び前記インタラクティブ文脈情報に基づいて、前記ユーザ意図を認識する
    ことを特徴とする請求項1に記載の感性的インタラクションシステム。
  3. 前記ユーザ意図計算ユニットに接続されてインタラクティブ文脈情報を提供するインタラクティブ文脈分析部を更に備え、
    前記ユーザ意図計算ユニットは、
    前記インタラクティブ文脈分析部から前記インタラクティブ文脈情報を取得し、
    前記場面内容、前記感情関連データ、前記感情状態及び前記インタラクティブ文脈情報に基づいて、ベイジアンネットワークを用いて前記ユーザ意図を認識するか、又は、
    前記場面内容、前記感情関連データ、前記感情状態及び前記インタラクティブ文脈情報を、感情語義データベースにおける予め設定されたユーザ意図にマッチングすることによって、前記ユーザ意図を認識するか、又は、
    前記場面内容、前記感情関連データ、前記感情状態及び前記インタラクティブ文脈情報に基づいて、1つ又は複数のユーザ意図を含んでいる意図ライブラリにおいて検索することによって、前記ユーザ意図を認識する
    ことを特徴とする請求項に記載の感性的インタラクションシステム。
  4. 前記感情戦略形成ユニットは、
    以前の感性的インタラクション会話において生成された他の1つの感性的命令が既に遂行された場合、前記ユーザ意図に基づいて前記感性的命令を生成するか、又は、
    前記感情状態の変化が予め設定された閾値を超えた場合、動的に変化した前記感情状態に対応する前記ユーザ意図に基づいて前記感性的命令を生成するか、又は、
    前記感情状態が動的に変化している場合、予め設定された時間間隔内の前記感情状態に対応する前記ユーザ意図に基づいて前記感性的命令を生成する
    ことを特徴とする請求項1ないし3のいずれか一項に記載の感性的インタラクションシステム。
  5. 前記感性的命令は、
    前記ユーザに対して表される前記感情表出の感情モダリティと、前記ユーザに対して表される前記感情表出の出力感情状態と、前記ユーザに対して表される前記感情表出の感情強度と、のうちの少なくとも1つを更に含み、
    前記感情モダリティは、前記ユーザのデータの1つ又は複数のモダリティによって決められる
    ことを特徴とする請求項1ないし4のいずれか一項に記載の感性的インタラクションシステム。
  6. データ収集部を備えるマルチチャンネルフロントエンド端末と、感情認識部と、を更に備え、
    前記データ収集部は、前記ユーザから1つ又は複数のモダリティを有する前記感情関連データを捕獲し、
    前記感情認識部は前記データ収集部と前記ユーザ意図計算ユニットとのそれぞれに接続されて、前記感情関連データを受信し、前記感情関連データに基づいて前記感情状態を認識する
    ことを特徴とする請求項1乃至5のいずれか一項に記載の感性的インタラクションシステム。
  7. 前記マルチチャンネルフロントエンド端末は、前記感情戦略形成ユニットに接続される感情計算表出生成部を更に備え、
    前記感情計算表出生成部は、前記感性的命令に基づいて前記感情表出を生成し、さらに生成した前記感情表出を前記ユーザに伝える
    ことを特徴とする請求項6に記載の感性的インタラクションシステム。
  8. 感性的インタラクションが発生する場面に関する情報を含む場面内容を取得するステップと、
    ユーザからの感情関連データ及び感情状態を受信するステップと、
    前記場面内容、前記感情関連データ及び前記感情状態に基づいてユーザ意図を認識するステップと、
    前記ユーザ意図に基づいて感性的命令を生成するステップと、を含み、
    前記ユーザ意図は感情意図及び/又はインタラクション意図を含み、前記感情意図は前記感情状態に対応し、前記インタラクション意図は1つ又は複数のトランザクション意図を含み、
    前記感性的命令は実行可能な指令を含み、前記実行可能な指令は、前記ユーザ意図に対応する1つ又は複数のモダリティによって感情表出を生成するために用いられ
    前記場面内容、前記感情関連データ及び前記感情状態に基づいてユーザ意図を認識する前記ステップは、
    前記場面内容、前記感情関連データ及び前記感情状態と、語義データ、一般知識データ及び分野知識データのうちの少なくとも1つとに基づいて、前記ユーザ意図を認識するステップを含み、
    前記語義データは、前記ユーザからの入力の意味が理解されるために語義データベースにより提供され、
    前記一般知識データは、インタラクション会話における基本的な事実情報が理解されるために一般知識データベースにより提供され、
    前記分野知識データは、特定のビジネス分野のビジネスロジックを含んでおり、分野知識データベースにより提供される
    ことを特徴とする感性的インタラクション方法。
  9. 前記場面内容、前記感情関連データ及び前記感情状態に基づいて前記ユーザ意図を認識する前記ステップは、
    インタラクティブ文脈情報を受信するステップと、
    前記感情関連データの時間シーケンスを取得するステップと、
    前記場面内容、前記時間シーケンス、前記感情状態及び前記インタラクティブ文脈情報に基づいて前記ユーザ意図を認識するステップと、を含む
    ことを特徴とする請求項に記載の感性的インタラクション方法。
  10. 前記場面内容、前記感情関連データ及び前記感情状態に基づいて前記ユーザ意図を認識する前記ステップは、
    インタラクティブ文脈情報を取得するステップと、
    前記場面内容、前記感情関連データ、前記感情状態及び前記インタラクティブ文脈情報に基づいて、ベイジアンネットワークを用いて前記ユーザ意図を認識するステップ、又は前記場面内容、前記感情関連データ、前記感情状態及び前記インタラクティブ文脈情報を、感情語義データベースにおける予め設定されたユーザ意図にマッチングすることによって、前記ユーザ意図を認識するステップ、又は前記場面内容、前記感情関連データ、前記感情状態及び前記インタラクティブ文脈情報に基づいて、1つ又は複数のユーザ意図を含んでいる意図ライブラリにおいて検索することによって前記ユーザ意図を認識するステップと、を含む
    ことを特徴とする請求項に記載の感性的インタラクション方法。
  11. 前記ユーザ意図に基づいて感性的命令を生成する前記ステップは、
    以前の感性的インタラクション会話において生成された他の1つの感性的命令が既に遂行された場合、前記ユーザ意図に基づいて前記感性的命令を生成するステップ、又は、
    前記感情状態の変化が予め設定された閾値を超えた場合、動的に変化した前記感情状態に対応する前記ユーザ意図に基づいて前記感性的命令を生成するステップ、又は、
    前記感情状態が動的に変化している場合、予め設定された時間間隔内の前記感情状態に対応する前記ユーザ意図に基づいて前記感性的命令を生成するステップ、を含む
    ことを特徴とする請求項ないし10のいずれか一項に記載の感性的インタラクション方法。
  12. 前記感性的命令は、
    前記ユーザに対して表される前記感情表出の感情モダリティと、前記ユーザに対して表される前記感情表出の出力感情状態と、前記ユーザに対して表される前記感情表出の感情強度と、のうちの少なくとも1つを更に含み、
    前記感情モダリティは、前記ユーザのデータの1つ又は複数のモダリティによって決められる
    ことを特徴とする請求項ないし11のいずれか一項に記載の感性的インタラクション方法。
  13. 前記ユーザから1つ又は複数のモダリティを有する前記感情関連データを捕獲するステップと、
    前記感情関連データに基づいて前記感情状態を認識するステップと、を更に含む
    ことを特徴とする請求項ないし12のいずれか一項に記載の感性的インタラクション方法。
  14. 前記感性的命令に基づいて前記感情表出を生成するステップと、
    前記感情表出を前記ユーザに伝えるステップと、を更に含む
    ことを特徴とする請求項ないし13のいずれか一項に記載の感性的インタラクション方法。
  15. 前記場面内容、前記感情関連データ及び前記感情状態に基づいてユーザ意図を認識する前記ステップは、
    1つの感性的インタラクション会話において先に認識された意図に基づいて将来のインタラクション意図及び/又は将来の感情意図のトレンドを予測するか、又は過去の感性的インタラクション会話の履歴データに基づいて感性的インタラクション会話におけるインタラクション意図及び/又は感情意図のトレンドを予測するために、インタラクションシーケンスを分析するステップと、
    前記感情関連データにおける情報の重みを確定して最大重みを有する情報を抽出するために、前記感情関連データから注目される焦点を抽出するステップと、
    語義規則に基づいて語義情報を抽出して感情関連データの語義を取得するステップと、を含む
    ことを特徴とする請求項乃至14のいずれか一項に記載の感性的インタラクション方法。
JP2020562804A 2018-01-26 2018-05-25 感情コンピューティングユーザインターフェースに基づく感性的インタラクションシステム、装置及び方法 Active JP7199451B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
CN201810078132.4 2018-01-26
CN201810077175.0A CN108334583B (zh) 2018-01-26 2018-01-26 情感交互方法及装置、计算机可读存储介质、计算机设备
CN201810077175.0 2018-01-26
CN201810079432.4A CN108227932B (zh) 2018-01-26 2018-01-26 交互意图确定方法及装置、计算机设备及存储介质
CN201810079432.4 2018-01-26
CN201810078132.4A CN110110169A (zh) 2018-01-26 2018-01-26 人机交互方法及人机交互装置
PCT/CN2018/088389 WO2019144542A1 (en) 2018-01-26 2018-05-25 Affective interaction systems, devices, and methods based on affective computing user interface

Publications (2)

Publication Number Publication Date
JP2021514514A JP2021514514A (ja) 2021-06-10
JP7199451B2 true JP7199451B2 (ja) 2023-01-05

Family

ID=67395738

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020562804A Active JP7199451B2 (ja) 2018-01-26 2018-05-25 感情コンピューティングユーザインターフェースに基づく感性的インタラクションシステム、装置及び方法

Country Status (3)

Country Link
US (1) US11226673B2 (ja)
JP (1) JP7199451B2 (ja)
WO (1) WO2019144542A1 (ja)

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11188840B1 (en) * 2017-12-29 2021-11-30 Intuit, Inc. Machine-learning models to facilitate user retention for software applications
US11551042B1 (en) * 2018-08-27 2023-01-10 Snap Inc. Multimodal sentiment classification
KR102252195B1 (ko) * 2018-09-14 2021-05-13 엘지전자 주식회사 감성 인식기 및 이를 포함하는 로봇, 서버
WO2020117358A2 (en) * 2018-09-27 2020-06-11 Brown University Systems and methods for operating robots using object-oriented partially observable markov decision processes
JP6993314B2 (ja) * 2018-11-09 2022-01-13 株式会社日立製作所 対話システム、装置、及びプログラム
US11557297B2 (en) 2018-11-09 2023-01-17 Embodied, Inc. Systems and methods for adaptive human-machine interaction and automatic behavioral assessment
CA3061745A1 (en) * 2018-11-16 2020-05-16 Royal Bank Of Canada System and method for generative model for stochastic point processes
WO2020181119A1 (en) * 2019-03-07 2020-09-10 Alibaba Group Holding Limited Video reconstruction method, system, device, and computer readable storage medium
US11842729B1 (en) * 2019-05-08 2023-12-12 Apple Inc. Method and device for presenting a CGR environment based on audio data and lyric data
US20220236945A1 (en) * 2019-05-16 2022-07-28 Sony Group Corporation Information processing device, information processing method, and program
JP2021068065A (ja) * 2019-10-18 2021-04-30 富士ゼロックス株式会社 クエリ生成システム、検索システム及びプログラム
CN110827312B (zh) * 2019-11-12 2023-04-28 北京深境智能科技有限公司 一种基于协同视觉注意力神经网络的学习方法
WO2021092935A1 (zh) * 2019-11-15 2021-05-20 深圳海付移通科技有限公司 基于图像数据的消息推送方法、设备及计算机存储介质
US11429869B2 (en) * 2019-11-21 2022-08-30 International Business Machines Corporation Artificially intelligent interaction agent
JP7123028B2 (ja) * 2019-11-27 2022-08-22 Tis株式会社 情報処理システム、情報処理方法、及びプログラム
CN111164601B (zh) * 2019-12-30 2023-07-18 深圳市优必选科技股份有限公司 情感识别方法、智能装置和计算机可读存储介质
US11386712B2 (en) * 2019-12-31 2022-07-12 Wipro Limited Method and system for multimodal analysis based emotion recognition
JP7413055B2 (ja) * 2020-02-06 2024-01-15 本田技研工業株式会社 情報処理装置、車両、プログラム、及び情報処理方法
US11335342B2 (en) * 2020-02-21 2022-05-17 International Business Machines Corporation Voice assistance system
CN115461198A (zh) * 2020-02-29 2022-12-09 具象有限公司 管理用户与机器人之间的会话
EP4111332A4 (en) 2020-02-29 2024-05-01 Embodied, Inc. SYSTEMS AND METHODS FOR CREATING AND MODIFYING PRESENTATION CONVERSATION FILES FOR MULTIMODAL INTERACTIVE COMPUTING DEVICES / ARTIFICIAL COMPANIONS
WO2021174162A1 (en) 2020-02-29 2021-09-02 Embodied, Inc. Multimodal beamforming and attention filtering for multiparty interactions
CN115461749A (zh) 2020-02-29 2022-12-09 具象有限公司 用于机器人计算设备/数字伴侣与用户之间的短期和长期对话管理的系统和方法
CN111274490B (zh) * 2020-03-26 2024-01-19 北京百度网讯科技有限公司 咨询信息的处理方法和装置
WO2021218614A1 (zh) * 2020-04-30 2021-11-04 陈永聪 通用人工智能的体系建立
US20220036554A1 (en) * 2020-08-03 2022-02-03 Healthcare Integrated Technologies Inc. System and method for supporting the emotional and physical health of a user
CN111859925B (zh) * 2020-08-06 2023-08-08 东北大学 一种基于概率情感词典的情感分析系统及方法
CN112348640B (zh) * 2020-11-12 2021-08-13 北京科技大学 一种基于面部情感状态分析的在线购物系统及方法
CN113014471B (zh) * 2021-01-18 2022-08-19 腾讯科技(深圳)有限公司 会话处理方法,装置、终端和存储介质
CN113095185B (zh) * 2021-03-31 2024-09-10 新疆爱华盈通信息技术有限公司 人脸表情识别方法、装置、设备及存储介质
CN113127708B (zh) * 2021-04-20 2024-06-07 中国科学技术大学 信息交互方法、装置、设备及存储介质
WO2022233421A1 (en) * 2021-05-06 2022-11-10 Optimum Health Ltd Systems and methods for real-time determinations of mental health disorders using multi-tier machine learning models based on user interactions with computer systems
CN113331839A (zh) * 2021-05-28 2021-09-03 武汉科技大学 一种基于多源信息融合的网络学习注意力监测方法及系统
CN113239693B (zh) * 2021-06-01 2023-10-27 平安科技(深圳)有限公司 意图识别模型的训练方法、装置、设备及存储介质
US20220391732A1 (en) * 2021-06-04 2022-12-08 International Business Machines Corporation Continuous optimization of human-algorithm collaboration performance
CN113435518B (zh) * 2021-06-29 2024-03-22 青岛海尔科技有限公司 特征融合基于多模态的交互方法及装置
CN113421546B (zh) * 2021-06-30 2024-03-01 平安科技(深圳)有限公司 基于跨被试多模态的语音合成方法及相关设备
CN113421594B (zh) * 2021-06-30 2023-09-22 平安科技(深圳)有限公司 语音情感识别方法、装置、设备及存储介质
US20230008868A1 (en) * 2021-07-08 2023-01-12 Nippon Telegraph And Telephone Corporation User authentication device, user authentication method, and user authentication computer program
CN113268994B (zh) * 2021-07-16 2021-10-01 中国平安人寿保险股份有限公司 基于胶囊网络的意图识别方法及装置
CN113593521B (zh) * 2021-07-29 2022-09-20 北京三快在线科技有限公司 语音合成方法、装置、设备及可读存储介质
CN113749656B (zh) * 2021-08-20 2023-12-26 杭州回车电子科技有限公司 基于多维生理信号的情感识别方法和装置
CN113722505B (zh) * 2021-08-30 2023-04-18 海南大学 面向dikw资源的情感表达映射、度量与优化传输系统
CN113705732B (zh) * 2021-09-26 2024-02-02 华东理工大学 基于通用模型的减少p300训练时间的方法及装置
CN114035686B (zh) * 2021-11-10 2024-04-16 浙江大学 融合触觉的多模态微动效广告情境构建方法
CN114093028A (zh) * 2021-11-19 2022-02-25 济南大学 一种基于意图分析的人机协同方法、系统及机器人
CN114374664B (zh) * 2021-12-15 2022-09-23 海南大学 基于公平性导向的情感内容dikw化映射与传输方法
CN113946673B (zh) * 2021-12-20 2022-04-08 深圳市一号互联科技有限公司 一种基于语义的客服智能路由处理方法和装置
CN114357135B (zh) * 2021-12-31 2024-11-01 科大讯飞股份有限公司 交互方法、交互装置、电子设备以及存储介质
CN117648411A (zh) * 2022-08-19 2024-03-05 华为技术有限公司 一种表情生成方法以及装置
EP4375156A1 (en) * 2022-11-22 2024-05-29 Toyota Jidosha Kabushiki Kaisha Method and data processing device for controlling a device based on a state of its user
CN116271786B (zh) * 2023-02-08 2023-10-13 广州市邦杰软件科技有限公司 一种动漫游戏机的界面交互控制方法及装置
CN115793865B (zh) * 2023-02-09 2023-04-14 中用科技有限公司 一种减少计算阻塞的人工智能交互方法
CN117575013B (zh) * 2023-09-12 2024-08-06 田帅领 应用于网络安全平台的交互挖掘方法及人工智能预测系统
CN117972160B (zh) * 2024-02-21 2024-09-06 暗物智能科技(广州)有限公司 一种多模态信息处理方法及装置
CN117852553B (zh) * 2024-03-07 2024-05-10 深圳华强电子网集团股份有限公司 基于聊天记录提取元器件交易场景信息的语言处理系统
CN117933269B (zh) * 2024-03-22 2024-06-18 合肥工业大学 一种基于情感分布的多模态深度模型构建方法及系统
CN118446230B (zh) * 2024-07-02 2024-09-27 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种捕捉情感支持对话中动态因果关系的方法
CN118467848B (zh) * 2024-07-10 2024-09-10 山东亚微软件股份有限公司 基于情境识别的用户类型识别与交互系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005346471A (ja) 2004-06-03 2005-12-15 Canon Inc 情報処理方法、情報処理装置
JP2014174988A (ja) 2013-03-11 2014-09-22 Immersion Corp 自動ハプティック効果調整システム
JP2017156854A (ja) 2016-02-29 2017-09-07 Kddi株式会社 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981632A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 情報公開装置
US6510412B1 (en) * 1998-06-02 2003-01-21 Sony Corporation Method and apparatus for information processing, and medium for provision of information
KR20130084543A (ko) 2012-01-17 2013-07-25 삼성전자주식회사 사용자 인터페이스 제공 장치 및 방법
US20150278783A1 (en) * 2014-03-31 2015-10-01 Comr.Se Corp. Native e-commerce transactables for familiar user environments
US9978362B2 (en) * 2014-09-02 2018-05-22 Microsoft Technology Licensing, Llc Facet recommendations from sentiment-bearing content
US10334158B2 (en) * 2014-11-03 2019-06-25 Robert John Gove Autonomous media capturing
CN105843381B (zh) 2016-03-18 2020-07-28 北京光年无限科技有限公司 用于实现多模态交互的数据处理方法及多模态交互系统
CN105843118B (zh) 2016-03-25 2018-07-27 北京光年无限科技有限公司 一种机器人交互方法及机器人系统
CN107291654A (zh) * 2016-03-31 2017-10-24 深圳光启合众科技有限公司 机器人的智能决策系统和方法
CN106537294A (zh) 2016-06-29 2017-03-22 深圳狗尾草智能科技有限公司 一种机器人交互内容的生成方法、系统及机器人
CN106773923B (zh) 2016-11-30 2020-04-21 北京光年无限科技有限公司 面向机器人的多模态情感数据交互方法及装置
CN106683672B (zh) 2016-12-21 2020-04-03 竹间智能科技(上海)有限公司 一种基于情感和语义的智能对话方法及系统
CN106649762A (zh) * 2016-12-27 2017-05-10 竹间智能科技(上海)有限公司 基于追问问题与反馈信息的意图识别方法、系统
CN107562816B (zh) 2017-08-16 2021-02-09 苏州狗尾草智能科技有限公司 用户意图自动识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005346471A (ja) 2004-06-03 2005-12-15 Canon Inc 情報処理方法、情報処理装置
JP2014174988A (ja) 2013-03-11 2014-09-22 Immersion Corp 自動ハプティック効果調整システム
JP2017156854A (ja) 2016-02-29 2017-09-07 Kddi株式会社 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法

Also Published As

Publication number Publication date
US20210191506A1 (en) 2021-06-24
WO2019144542A1 (en) 2019-08-01
JP2021514514A (ja) 2021-06-10
US11226673B2 (en) 2022-01-18

Similar Documents

Publication Publication Date Title
JP7199451B2 (ja) 感情コンピューティングユーザインターフェースに基づく感性的インタラクションシステム、装置及び方法
CN111459290B (zh) 交互意图确定方法及装置、计算机设备及存储介质
Marechal et al. Survey on AI-Based Multimodal Methods for Emotion Detection.
CN108334583B (zh) 情感交互方法及装置、计算机可读存储介质、计算机设备
US10884503B2 (en) VPA with integrated object recognition and facial expression recognition
Lee et al. Study on emotion recognition and companion Chatbot using deep neural network
Pantic et al. Toward an affect-sensitive multimodal human-computer interaction
Vinola et al. A survey on human emotion recognition approaches, databases and applications
CN110110169A (zh) 人机交互方法及人机交互装置
Sheth et al. Cognitive services and intelligent chatbots: current perspectives and special issue introduction
Geetha et al. Multimodal Emotion Recognition with deep learning: advancements, challenges, and future directions
Pan et al. A review of multimodal emotion recognition from datasets, preprocessing, features, and fusion methods
Griol et al. Modeling the user state for context-aware spoken interaction in ambient assisted living
Zhu et al. Emotion recognition based on brain-like multimodal hierarchical perception
Gladys et al. Survey on multimodal approaches to emotion recognition
Zhang et al. Holistic affect recognition using PaNDA: paralinguistic non-metric dimensional analysis
Pham et al. Speech emotion recognition using overlapping sliding window and Shapley additive explainable deep neural network
Bakhshi et al. Multimodal emotion recognition based on speech and physiological signals using deep neural networks
Garay-Vitoria et al. Application of an ontology-based platform for developing affective interaction systems
Wang et al. Touch-text answer for human-robot interaction via supervised adversarial learning
O'Dwyer et al. Affective computing using speech and eye gaze: a review and bimodal system proposal for continuous affect prediction
Bi et al. A state of the art technology with machine intelligence in human emotion recognition
Bhatia Bi-modal deep neural network for gait emotion recognition
Shoumy Multimodal emotion recognition using data augmentation and fusion
CN111971670A (zh) 在对话中生成响应

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200817

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221220

R150 Certificate of patent or registration of utility model

Ref document number: 7199451

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150