JP2013219495A - Emotion-expressing animation face display system, method, and program - Google Patents
Emotion-expressing animation face display system, method, and program Download PDFInfo
- Publication number
- JP2013219495A JP2013219495A JP2012087503A JP2012087503A JP2013219495A JP 2013219495 A JP2013219495 A JP 2013219495A JP 2012087503 A JP2012087503 A JP 2012087503A JP 2012087503 A JP2012087503 A JP 2012087503A JP 2013219495 A JP2013219495 A JP 2013219495A
- Authority
- JP
- Japan
- Prior art keywords
- emotion
- animation
- face
- estimated
- animation face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は感情表現アニメーション顔表示システム、方法及びプログラムに関し、特に、コールセンター用の感情表現アニメーション顔表示システム、方法及びプログラムに関するものである。 The present invention relates to an emotion expression animation face display system, method and program, and more particularly to an emotion expression animation face display system, method and program for a call center.
顧客(「クライアント」又は「ユーザ」ともいう)からの電話による問合せや注文などに対応するため、コールセンターが設置されている。通常、コールセンターでは、複数のオペレータがクライアントからの電話に効率よく対応するために、コールセンター用システムが構築、使用されている。コールセンター用システムは、例えば、電話交換機、複数のオペレータ端末、管理者(「スーパーバイザ」ともいう)用の端末などを備える。また、多くのコールセンター用システムでは、クライアントとオペレータとのやり取りをスーパーバイザが通話モニタリングによって監視し、通話の状況を確認し、必要に応じてオペレータにアドバイスを送るための機能が備わっている。 In order to respond to telephone inquiries and orders from customers (also referred to as “clients” or “users”), a call center is set up. Usually, in a call center, a system for a call center is constructed and used so that a plurality of operators can efficiently handle calls from clients. The call center system includes, for example, a telephone exchange, a plurality of operator terminals, a manager (also referred to as “supervisor”) terminal, and the like. In many call center systems, the supervisor monitors the communication between the client and the operator through call monitoring, confirms the state of the call, and has a function for sending advice to the operator as necessary.
上述した従来のコールセンター用システムでは、オペレータの電話対応に対するスーパーバイザの監視は音声のモニタリングによって行われており、スーパーバイザ1人に対してオペレータ1人の電話対応しか一度に監視することができず、能率的でない、という課題があった。 In the above-described conventional call center system, supervisor monitoring of the operator's telephone response is performed by voice monitoring, and only one operator's telephone response can be monitored at a time for one supervisor. There was a problem that it was not right.
また、オペレータからヘルプ要請がない限り、その時点で通話モニタリングをしていない通話に対してスーパーバイザの助言が必要なのかどうか、スーパーバイザからは判断がつかず、その結果対応の遅れが発生する、という課題があった。 Also, unless there is a request for help from the operator, it is not possible for the supervisor to determine whether the supervisor's advice is necessary for calls that are not being monitored at that time, resulting in delays in response. There was a problem.
したがって、本発明の目的は、上述した課題を解決し、複数のオペレータの電話対応を能率よく監視できる感情表現アニメーション顔表示システム、方法及びプログラムを提供することである。 Accordingly, an object of the present invention is to provide an emotion expression animated face display system, method, and program that can solve the above-described problems and can efficiently monitor telephone correspondences of a plurality of operators.
上記目的を達成するために、本発明のシステムは、複数のユーザであって、そのそれぞれが複数のオペレータのそれぞれと少なくとも音声を用いて通話をしている複数のユーザのそれぞれの感情を前記通話で用いられるユーザの音声を基に推定する感情推定手段と、前記感情推定手段により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されているアニメーション顔を合成するアニメーション顔合成手段と、前記アニメーション顔合成手段により合成されたユーザ毎のアニメーション顔を視覚的にまとめて確認できるように並べて表示する表示手段とを備える。 In order to achieve the above object, the system of the present invention provides a plurality of users, each of which communicates the feelings of a plurality of users who are talking with each of a plurality of operators using at least voice. Emotion estimation means for estimating based on the user's voice used in the game, and animation face synthesis for synthesizing an animation face expressing the estimated emotion for each user based on the emotion estimated by the emotion estimation means Means and display means for displaying the animation faces synthesized by the animation face synthesis means side by side so that they can be visually confirmed together.
また、本発明の方法は、複数のユーザであって、そのそれぞれが複数のオペレータのそれぞれと少なくとも音声を用いて通話をしている複数のユーザのそれぞれの感情を前記通話で用いられるユーザの音声を基に推定する感情推定ステップと、前記感情推定ステップにより推定された感情に基づいて、ユーザ毎に、推定された感情が表現されているアニメーション顔を合成するアニメーション顔合成ステップと、前記アニメーション顔合成ステップにより合成されたユーザ毎のアニメーション顔を視覚的にまとめて確認できるように並べて表示する表示ステップとを含む。 In addition, the method of the present invention provides the voices of the users who are the users of the plurality of users, each of whom is talking with each of the plurality of operators using at least the voice. An emotion estimation step based on the emotion, an animation face synthesis step for synthesizing an animation face expressing the estimated emotion for each user based on the emotion estimated by the emotion estimation step, and the animation face And a display step for displaying the animation faces for each user synthesized in the synthesis step side by side so that they can be visually confirmed together.
また、本発明のプログラムは、コンピュータに、複数のユーザであって、そのそれぞれが複数のオペレータのそれぞれと少なくとも音声を用いて通話をしている複数のユーザのそれぞれの感情を前記通話で用いられるユーザの音声を基に推定する感情推定手順と、前記感情推定手順により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されているアニメーション顔を合成するアニメーション顔合成手順と、前記アニメーション顔合成手順により合成されたユーザ毎のアニメーション顔を視覚的にまとめて確認できるように並べて表示する表示手順とを実行させる。 In addition, the program of the present invention can use the emotions of a plurality of users who are communicating with each of a plurality of operators using a voice at least in the computer. An emotion estimation procedure for estimating based on the user's voice; an animation face synthesis procedure for synthesizing an animation face expressing the estimated emotion for each user based on the emotion estimated by the emotion estimation procedure; A display procedure for displaying the animation faces synthesized for each user by the animation face synthesis procedure side by side so as to be visually confirmed together is executed.
本発明の上記構成により、コールセンターにおける複数のオペレータの電話対応を一度に能率よく監視できる。 With the above configuration of the present invention, it is possible to efficiently monitor the telephone correspondence of a plurality of operators at a call center at a time.
以下、図面を参照して本発明を実施するための形態について詳細に説明する。
図1は、本発明が適用されたシステムの構成例を示す。このシステムは、交換機(図示せず)と、コールセンターシステム101と、クライアント端末105と、オペレータ端末107と、スーパーバイザ端末109から構成される。クライアント端末105、オペレータ端末107及びスーパーバイザ端末109はそれぞれ複数存在してもよい。クライアント端末105とスーパーバイザ端末109は、それぞれ、SIP(Session Initiation Protocol)制御部121、RTP(Real-time Transport Protocol)制御部123及びインターフェース部125を備えている。インターフェース部125は、例えば、マイク、スピーカ、機能ボタン、マウス、キーボード等とのインターフェース機能を有し、スーパーバイザ端末109については、それらに加え、映像を表示する表示器とのインターフェース機能を備えている。クライアント端末105及びスーパーバイザ端末109がそれぞれ、マイク、スピーカ、機能ボタン、マウス、キーボード、表示器等を含んで構成されてもよい。
DESCRIPTION OF EMBODIMENTS Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings.
FIG. 1 shows a configuration example of a system to which the present invention is applied. This system includes an exchange (not shown), a call center system 101, a
図1のシステムにおいて、クライアント端末105は、ゲートウェイ103を通じてコールセンターシステム101と音声のRTPパケットのやり取りを行う。コールセンターシステム101は、オペレータ端末107及びスーパーバイザ端末109とSIP接続されており、各端末107及び109はSIP制御部121によってSIPのやりとりを行う機能を備えている。オペレータ端末107の備えているRTP制御部123は、インターフェース部125を介してマイクから入力された音声をエンコードし、音声のRTPパケットとして目的のアドレスに送信し、また、送られてきたパケットをデコードし、インターフェース部125を介してスピーカに送る機能を持つ。スーパーバイザ端末109の備えているRTP制御部123は、コールセンターシステム101から送られてきた映像のRTPパケットをデコードし、インターフェース部125を介して映像表示器(図示せず)に送る機能を持つ。
In the system of FIG. 1, the
図1のシステムでは、クライアントが発声した音声が、マイクからクライアント端末105に入力され、音声RTPパケットにエンコードされる。この音声RTPパケットがゲートウェイ103を介してコールセンターシステム101に送られる。コールセンターシステム101は、クライアント端末105から送られた音声RTPパケットを、担当のオペレータのオペレータ端末107に送る。オペレータ端末107では、コールセンターシステム101から送られて来た音声RTPパケットがデコードされ、インターフェース部125を介してスピーカからオペレータの耳に届けられる。オペレータが発声した音声は、その逆のルートを辿ってクライアント端末105に接続されたスピーカからクライアントの耳に届けられる。このようにして、クライアントとオペレータが通話を行う。
In the system of FIG. 1, the voice uttered by the client is input from the microphone to the
コールセンターシステム101は、後で詳細に説明するように、クライアントからの音声RTPパケットを用いてクライアントの音声を分析して感情を推定し、推定した感情を表現したアニメーション顔の映像を合成し、それをRTPパケットにエンコードしてスーパーバイザ端末109に送る。スーパーバイザ端末109では、コールセンターシステム101から受信した映像RTPパケットをRTP制御部123でデコードし、インターフェース部125を介して表示器に表示する。スーパーバイザは表示された画像からクライアントとオペレータの通話状況を把握し、必要なら適切な助言を与えることもできる。
As will be described in detail later, the call center system 101 analyzes the voice of the client using voice RTP packets from the client to estimate emotions, and synthesizes an animated face image representing the estimated emotions. Is encoded into an RTP packet and sent to the
スーパーバイザ端末109が、コールセンターシステム101にクライアントの音声RTPパケットからアニメーション顔を生成するための要求を行い、コールセンターシステム101からの映像RTPパケット受信が開始されるようにしてもよい。
The
このようにして、クライアントとオペレータがコールセンターシステム101を通じて音声通話を開始し、その間にスーパーバイザがクライアントの音声の状態から生成されるアニメーション顔を確認し、クライアントの状況を把握する。 In this way, the client and the operator start a voice call through the call center system 101, and during that time, the supervisor confirms the animated face generated from the voice state of the client and grasps the status of the client.
次に、本発明の第1の実施形態について、図2、3、4、5及び6を参照して詳細に説明する。 Next, a first embodiment of the present invention will be described in detail with reference to FIGS.
図2は、本発明の第1の実施形態の全体構成を示す。本発明の第1の実施形態には、コールセンターシステム101と、第1、第2,・・・,第Nクライアント端末(105−1,105−2,・・・,105−N)と、第1、第2,・・・,第Nオペレータ端末(107−1,107−2,・・・,107−N)と、スーパーバイザ端末109とが含まれる。図2では、第1クライアント端末105−1と第1オペレータ端末107−1、第2クライアント端末105−2と第2オペレータ端末107−2、・・・、第Nクライアント端末105−Nと第Nオペレータ端末107−Nが、コールセンター101を介して通話できるように構成されている。クライアント端末とオペレータ端末の組合せは、固定的でもよいし、適宜変更できる構成でもよい。コールセンターシステム101には、第1、第2,・・・,第Nクライアント端末(105−1,105−2,・・・,105−N)にそれぞれ対応してアニメーション顔生成部(229−1,229−2,・・・,229−N)が設けられている。アニメーション顔生成部229はそれぞれ対応するクライアント端末105から送られるクライアントの音声データに基づいてクライアントの感情を推定し、その感情を表現したアニメーション顔を生成し、生成したアニメーション顔データをスーパーバイザ端末109に送る。
FIG. 2 shows the overall configuration of the first embodiment of the present invention. The first embodiment of the present invention includes a call center system 101, first, second,..., Nth client terminals (105-1, 105-2,..., 105-N), The first, second,..., Nth operator terminals (107-1, 107-2,..., 107-N) and the
図2では、それぞれのクライアント端末から送られるクライアントの音声データと、その相手のオペレータ端末から送られるオペレータの音声データとが足し合された後に選択部245に送られる。選択部245では、スーパーバイザ端末109から送られた選択信号に基づいてスーパーバイザが所望するクライアントとその相手のオペレータの通話音声が選択されてスーパーバイザ端末109に送られる。
In FIG. 2, the client voice data sent from each client terminal and the operator voice data sent from the partner operator terminal are added to each other and sent to the
図3は、本発明の第1の実施形態におけるコールセンターシステム101の構成を示す。コールセンターシステム101は、音声データ送受信部221、デコーダ223、エンコーダ225、音声データ受入/送出部227を備えている。音声データ送受信部221は、クライアント端末105から送られてきた音声パケットを受信する。また、音声データ送受信部221は、オペレータ端末107から送られてきた音声データがエンコーダ225によりエンコードされた後、クライアント端末105に向けて送信する。デコーダ223は、クライアント端末から受信した音声パケットをデコードする。エンコーダ225は、デコードされた音声データを所定のプロトコルやフォーマットに変換する。音声データ受入/送出部227は、エンコーダ225により生成された音声パケットを送出すると共に、オペレータ端末107から音声データを受け入れる。
FIG. 3 shows the configuration of the call center system 101 according to the first embodiment of the present invention. The call center system 101 includes an audio data transmission /
コールセンターシステム101は、更に、アニメーション顔生成部229、エンコーダ237、映像データ送出部239を備えている。アニメーション顔生成部229は、感情推定部231、アニメーション顔合成用データベース233及びアニメーション顔合成部235を含む。
The call center system 101 further includes an animation
感情推定部231は、デコーダ223によりデコードされたクライアントの音声データからクライアントの感情を推定する。例えば、クライアントの音声が怒っているのか、笑っているのかなど、例えば予め用意したプログラム等に従ってどの傾向に近いのかを推定する。
The
アニメーション顔合成用データベース233は、アニメーション顔を生成するためのデータベースであり、ユーザやシステム管理者が手動でシステムにアップロードした画像ファイルや、システム内に予め用意されたファイルや、過去のビデオ会議の映像をデータベースとして保管しておいたファイルなどを登録して利用してもよい。
The animation
アニメーション顔合成部235は、感情推定部231による推定結果と、アニメーション顔合成用データベース233に格納されたアニメーション顔合成用データを基に、アニメーション顔を合成する。例えば、現在「怒っている」と推測される場合は、その間怒っているアニメーションを生成し、「笑っている」と推測される場合は、その笑いの大きさに応じて笑っているアニメーションを生成する。
The animation
アニメーション顔合成部235により合成して得られたアニメーション顔は、エンコーダ237により映像RTPパケットにエンコードされ、映像データ送出部239からスーパーバイザ端末109に送出される。
The animation face obtained by the synthesis by the animation
上述したように、コールセンターシステム101から送出された音声パケットはオペレータ端末107に送られ、また、映像パケットはスーパーバイザ端末109に送られ、各端末のRTP制御部123によりデコードされ、聞こえる、もしくは見える形で再生される。
As described above, the voice packet sent from the call center system 101 is sent to the
複数のクライアントの状況をスーパーバイザが把握したいとき、クライアント毎にアニメーション顔生成処理(図2、図3参照)によって作成される複数の映像データが、スーパーバイザを指定する同一のIPアドレスまで送信されることになる。 When the supervisor wants to know the status of multiple clients, multiple video data created by the animation face generation process (see FIGS. 2 and 3) for each client is sent to the same IP address that designates the supervisor. become.
次に、感情推定部231について説明する。感情推定部231による感情の推定では、クライアントの音声についての音強度分析に基づく方法や、音素解析に基づく方法など様々な方法が採用できる。
Next, the
まず、音強度分析に基づく感情推定方法について説明する。この方法では、デコーダ223から送られてきたクライアントの音声データに対して音声解析部(図示せず)が音声解析を行い、特に音強度(又はパワー)に関する情報から感情を推定する。感情は、例えば、感情の種類と感情の強度により指定できる。感情の種類は、例えば「喜」、「怒」、「哀」などとしてもよい。感情の強度は、例えば「強」、「中」、「弱」などに分類してもよい。音声解析では、例えば、音声データを所定のフレームごとに時系列に分離し、これらのフレーム間のパワー偏差、パワー差分の平均値及び/又はパワー差分の偏差を求め、その解析結果から音強度の程度やそのパターンなどの感情に関する情報を抽出して、これらの情報に基づいて感情の種類と強度を推定してもよい。
First, an emotion estimation method based on sound intensity analysis will be described. In this method, a voice analysis unit (not shown) performs voice analysis on the client voice data sent from the
例えば、感情推定部231は、音声解析部(図示せず)から送られてきた音声解析結果を、所定の期間分だけ記憶し、記憶された解析データを用いて感情を推定してもよい。例えば、所定の基準期間の3回分の期間の音声データの強度が、「強・中・強」ならば「喜」、「強・強・強」ならば「怒」、「弱・中・弱」ならば「哀」、とするテンプレートを用意しておく。記憶された解析データのうち、基準期間3回分のデータについて、その強度パターンをテンプレートと比較し、それらのマッチングを調べることにより、その時点での感情を推定できる。
For example, the
別法として、記憶した基準期間3回分の音声データに対して、各強度値の差の絶対値の和(ヒルベルト距離)や各強度の差の2乗和(ユークリッド距離)を計算して、最も近いものをその時の感情として判定してもよい。 As an alternative method, the sum of absolute values of differences in intensity values (Hilbert distance) and the sum of squares of differences in intensity (Euclidean distance) are calculated for the stored audio data for three reference periods, You may judge the near thing as the emotion at that time.
次に、音素解析に基づく感情推定方法を説明する。この方法では、感情を表すキーワードを辞書テンプレートとして持っておき、音素解析の結果と辞書テンプレートのマッチングを行って感情の推定を行う。例えば、「怒」の感情の場合、怒りを表す単語(例えば「怒る」、「殴る」など)を辞書テンプレートとして用意しておく。「喜」、「哀」などの感情についても、同様に辞書テンプレートを用意しておく。そして、音素解析結果から得られる音素データとこれらの辞書テンプレートを比較してマッチングを調べることにより、感情を推定する。 Next, an emotion estimation method based on phoneme analysis will be described. In this method, a keyword representing emotion is held as a dictionary template, and the emotion is estimated by matching the result of phoneme analysis with the dictionary template. For example, in the case of the emotion of “anger”, a word representing anger (for example, “anger”, “talk”) is prepared as a dictionary template. Dictionary templates are similarly prepared for emotions such as “joy” and “sorrow”. Then, the phoneme data obtained from the phoneme analysis result is compared with these dictionary templates to check the matching, thereby estimating the emotion.
音強度分析に基づく方法と、音素解析に基づく方法を組み合わせてもよい。例えば、どちらも同じ感情を推定した場合は、その感情を選択し、異なる場合は、乱数によって確率的にどちらかの感情を選択してもよい。 A method based on sound intensity analysis and a method based on phoneme analysis may be combined. For example, if both estimate the same emotion, the emotion may be selected, and if different, either emotion may be selected probabilistically by a random number.
また、別の感情推定手法として、音声信号の周波数や振幅に関する特徴量に基づいて話者の感情を推定する方法もある。例えば、発話中の音声の基本周波数の最大値や振幅の最大値を特徴量として使用できる。感情推定部231は、各感情について事前に取得しておいた特徴量の基準データと、音声解析部により取得した特徴量のデータとを比較することにより、話者の感情を推定する。
As another emotion estimation method, there is also a method for estimating a speaker's emotion based on a feature amount related to the frequency and amplitude of a voice signal. For example, the maximum value of the fundamental frequency and the maximum value of the amplitude of the voice being spoken can be used as the feature amount. The
感情推定部231において上記種々の方法のいずれかにより得られた感情推定結果(感情の種類や強度など)が、アニメーション顔合成部235に送られる。
Emotion estimation results (such as emotion type and intensity) obtained by any of the above-described various methods in the
次に、アニメーション顔合成用データベース233について説明する。アニメーション顔合成用データベース233には、例えば、CGキャラクタを基にした顔の形状データや、写真を基にした顔の形状データが格納されている。この顔形状データは、例えば、目、鼻、口、眉、耳、頭髪などの部品で構成される。
Next, the animation
アニメーション顔合成用データベース233には、顔形状データの他にも、表情データ、表情動作データ、表情パターンデータなどを格納してもよい。表情データとは、テクスチャを貼り変える合成方法において、笑った表情のテクスチャ、泣いた表情のテクスチャ、その途中段階のテクスチャなどが表情データである。表情パターンデータは、ある表情データから別の表情データへの移行に関するデータであり、ある表情データから移行可能な表情データの情報やその移行確率の情報などを含む。表情動作データは、CGキャラクタの顔の表情を生成するためのデータである。具体的には、顔の形状を変形する場合に、顔の形状データのうち、表情を生成する眉、目や口などの端点に対応する頂点座標の移動量の時系列データが表情動作データである。
The animation
次に、アニメーション顔合成部235について説明する。アニメーション顔合成部235は、感情推定部231により推定された通話中のクライアントの感情に基づいて、推定された感情が表現されているアニメーション顔を合成する。合成の際、アニメーション合成用データベース233に格納されているデータを用いてもよい。各種の感情を表現したアニメーション顔を生成するには、例えば、いわゆるフェイシャルアニメーション技術を用いることができる。具体的には、顔の形状を変形したり、顔のテクスチャを貼り変えることにより感情を表現したアニメーション顔を生成してもよい。顔の形状を変形する手法では、例えば、上記の表情動作データに基づき、眉、目、口、鼻、耳、顔等の形状を変形させることにより各感情を表現する。顔のテクスチャを貼り変える手法では、表情パターンデータを考慮に入れて表情データを用いてテクスチャの貼り変えを行うこともできる。
Next, the animation
図4は、本発明のアニメーション顔生成部229により生成されるアニメーション顔を例示する。図4の(a)、(b)、(c)のアニメーション顔は、それぞれ、「喜」、「怒」、「哀」の感情を表現している。アニメーション顔合成部235は、感情推定部231により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されている色を選択し、選択された色を背景色としてアニメーション顔に付加してもよい。例えば、スーパーバイザに分かりやすいように、クライアントの声が穏やかな状態であればアニメーションの背景を青色、クライアントの声が怒っている状態であればアニメーションの背景を赤色、などの効果を追加してもよい。
FIG. 4 illustrates an animation face generated by the animation
図5は、本発明の第1の実施形態におけるスーパーバイザ端末の構成を示す。スーパーバイザ端末109は、画面合成部301と表示部303と選択入力受付部305と選択信号出力部307と音声処理部309と音声出力部311から構成されている。画面合成部301は、コールセンターシステム101のアニメーション顔生成部229−1,・・・,229−Nから送られてくる夫々のクライアントのアニメーション顔の映像データを受信し、画面を合成する。合成された画面データは表示部303に送られ、表示装置に合成画面を表示する。図6は、表示装置にアニメーション顔を表示した例を示す。通話している12人のクライアントの感情を表現したアニメーション顔が、縦4列、横3列に並べて表示されている。図6の表示例では、怒っているアニメーション顔の背景には、他の感情の顔の背景色とは異なる背景色(この場合は赤色)が付加され、スーパーバイザに分かりやすくなっている。
FIG. 5 shows the configuration of the supervisor terminal in the first embodiment of the present invention. The
このように並べて一覧表示することにより、スーパーバイザは、複数のクライアントの喜怒哀楽の状況を一度に、リアルタイムで把握することができる。スーパーバイザは、アニメーションの表情を見て、例えばクライアントの怒りが強く緊急度が高いと判断できるものを優先して音声のモニタリングを開始するなど、効率的にオペレータにアドバイスを送ることができる。 By displaying the list side by side in this way, the supervisor can grasp the state of emotions of a plurality of clients at a time in real time. The supervisor can efficiently send advice to the operator, for example, by starting voice monitoring by giving priority to a client who can determine that the client's anger is strong and the degree of urgency is high.
例えば、第kクライアント(kは1〜Nの任意の番号)のアニメーション顔が怒った表情をしている場合に、スーパーバイザは第kクライアントと第kオペレータとの通話をモニターできるように構成してもよい。通話をモニターする場合、まず、スーパーバイザは、マウス、キーボード、タッチパネル、ボタンなど適当な入力手段により、通話モニターしたいクライアントを選択する。その選択入力が選択入力受付部305により受け付けられ、選択対象を示す選択信号が選択信号出力部307からコールセンターシステム101の選択部245(図2)に送られる。選択部245では、選択信号が示すクライアントとその相手のオペレータの通話音声データが選択されてスーパーバイザ端末109の音声処理部309に送られる。図5では、第kクライアントが選択されているので、第kクライアントの音声データと第kオペレータの音声データとが加え合わされた音声データ(図2参照)が音声処理部309に送られる。音声処理部309においてデコード等の処理が行われ、音声出力部311を介してスピーカから第kクライアントと第kオペレータの通話音声が出力される。このようにして、スーパーバイザは任意のクライアントとその相手のオペレータの通話をモニターすることができる。
For example, when the animated face of the kth client (k is an arbitrary number from 1 to N) has an angry expression, the supervisor can be configured to monitor the call between the kth client and the kth operator. Also good. When monitoring a call, first, the supervisor selects a client to be monitored by an appropriate input means such as a mouse, keyboard, touch panel, or button. The selection input is received by the selection
上述したように、本発明の第1の実施態様では、コールセンターシステム内に、クライアント側から入力された音声を基に感情を推定する感情推定機能、及び推定した結果をもとにアニメーション映像を生成する機能をクライアント毎に備え、生成されたアニメーションを、スーパーバイザの監視するモニタ上に映し出すことで、スーパーバイザにとって一目見て分かりやすくクライアントの様子を把握し、効率良くオペレータに指示を出すことができる。 As described above, in the first embodiment of the present invention, in the call center system, an emotion estimation function for estimating an emotion based on voice input from the client side, and an animation image based on the estimation result are generated. This function is provided for each client, and the generated animation is displayed on a monitor monitored by the supervisor, so that the supervisor can grasp the state of the client at a glance and can efficiently instruct the operator.
感情推定部231では、予めサーバに設定されていた情報を基に、アニメーションを生成する必要のあるクライアントの音声を解析し、解析結果から感情を推定してもよい。また、推定結果に合わせてアニメーション顔を生成する際の元となる画像は、リアル感を出すために人の写真を元としても良いし、キャラクターのような画像が元であっても良い。
The
次に、本発明の第2の実施形態について、図7、8及び9を参照して詳細に説明する。 Next, a second embodiment of the present invention will be described in detail with reference to FIGS.
図7は、本発明の第2の実施形態の全体構成を示す。図2に示された本発明の第1の実施形態と比べて、コールセンターシステム101内にアニメーション生成の機能を備えず、オペレータの使用する端末(107−1,107−2,・・・,107−N)にそれぞれアニメーション顔生成部(229−1,229−2,・・・,229−N)が設けられている点、及びコールセンターシステム101内に設けられていたクライアントの通話音声の選択部245が、スーパーバイザ端末109内に選択部315(図9)として設けられている点で異なり、その他の構成は同じである。
FIG. 7 shows the overall configuration of the second embodiment of the present invention. Compared with the first embodiment of the present invention shown in FIG. 2, the call center system 101 does not have an animation generation function, and terminals (107-1, 107-2,... -N) are provided with animation face generation units (229-1, 229-2,..., 229-N), respectively, and a client call voice selection unit provided in the call center system 101. 245 is provided as a selection unit 315 (FIG. 9) in the
図8は、本発明の第2の実施形態におけるオペレータ端末の構成を示す。図8のオペレータ端末107は、図3のコールセンターシステム101の構成と比べて、合成されたアニメーション顔がエンコーダ237により映像パケットにエンコードされたデータと、クライアントとその相手のオペレータの通話音声をエンコーダ225により音声パケットにエンコードされたデータとが、多重化/送出部239Aによって多重化されてスーパーバイザ端末109に送られる点で異なり、その他の構造は同じである。
FIG. 8 shows the configuration of the operator terminal in the second embodiment of the present invention. Compared to the configuration of the call center system 101 in FIG. 3, the
次に、図8を参照して、本発明の第2の実施形態におけるオペレータ端末107の動作について説明する。コールセンターシステム101からオペレータの端末107に送られてくる音声を音声データ送受信部221で受信し、デコーダ223でデコードする。デコーダ223でデコードされた音声データは複製され、エンコーダ225と感情推定部231とに分けて送られる。感情推定部231では、入力された音声が現在怒っているのか、笑っているのかなど感情を推定し、その推定結果をアニメーション顔合成部235に送出する。アニメーション顔合成部235では、感情推定部231から送られた推定結果をもとにアニメーション顔合成用DB233に格納された各種データを使用してアニメーション顔の生成を行う。生成したアニメーション顔はエンコーダ237によって映像パケットデータにエンコードされ、多重化/送出部239Aに送られる。また、クライアントとその相手のオペレータの通話音声をエンコーダ225により音声パケットにエンコードされた音声パケットデータが、多重化/送出部239Aに送られる。多重化/送出部239Aでは、これらの映像パケットデータと音声パケットデータが多重化され、スーパーバイザ端末109に送られる。
Next, the operation of the
オペレータ端末107をこのように構成することによって、アニメーション生成の機能を備えたコールセンターシステムを介す必要がなく、ピアツーピアなクライアントとオペレータのやりとりであってもスーパーバイザがアニメーションによって状況を把握することができる。
By configuring the
図9は、本発明の第2の実施形態におけるスーパーバイザ端末の構成を示す。図9のスーパーバイザ端末109は、図5のスーパーバイザ端末と比べて、選択信号出力部307がなく、多重分離部313と選択部315が加わっている点で異なり、その他の構成は同じである。それぞれのオペレータ端末107から、各クライアントの音声データとアニメーション顔データとが多重化された信号が多重分離部313に送られる。多重分離部313では、それぞれのオペレータ端末からの信号を、アニメーション顔データとクライアントの音声データとに分離する。この場合のクライアントの音声データとは、クライアントの音声にその相手のオペレータの音声が加えられた音声データを意味する。それぞれのクライアントの顔データは画面合成部301に送られて画面が合成され、表示部303を介して表示装置に合成画面が表示される。また、多重分離部313により分離された夫々のクライアント及びオペレータの通話音声は、選択部315に送られる。選択部315では、選択入力受付部305が受け付けた選択入力に対応したクライアント(この場合は第kクライアント)及びその相手のオペレータの通話音声が選択され、音声処理部309に送られる。音声処理部309においてデコード等の処理を行い、音声出力部311を介してマイクから第kクライアントと第kオペレータの音声を出力する。
FIG. 9 shows a configuration of a supervisor terminal according to the second embodiment of the present invention. The
本発明により得られる第1の効果は、クライアントの喜怒哀楽等の感情を、スーパーバイザがリアルタイムで、複数のクライアントに対して同時に把握できることである。 The first effect obtained by the present invention is that a supervisor can simultaneously grasp a client's emotions such as emotions with respect to a plurality of clients in real time.
その理由は、各クライアントの音声を基に作り出したアニメーション顔を1つの画面上に複数並べて表示することで、一人ひとりのオペレータの対応状況をその通話をモニターして確認しなくても、一目で把握できるためである。通常のコールセンターにおけるスーパーバイザの通話モニタリングでは、一人ひとりのオペレータの対応を音声を通じて監視しており、複数のオペレータに対して1人のスーパーバイザが同時に監視することができないため、効率的に状況を判断することができなかった。 The reason is that multiple animated faces created based on each client's voice are displayed side-by-side on a single screen, so it is possible to grasp each operator's response status at a glance without monitoring the call. This is because it can. In supervisor call monitoring in a normal call center, each operator's response is monitored through voice, and one supervisor cannot simultaneously monitor multiple operators, so the situation can be judged efficiently. I could not.
第2の効果は、クライアントがオペレータの気付かない内に徐々に怒ってきている場合や、急に怒り出した場合であっても、スーパーバイザがその様子を把握し、早めの対応が可能になることである。 The second effect is that even if the client is gradually getting angry without the operator's knowledge or suddenly getting angry, the supervisor can grasp the situation and take early action. It is.
その理由は、スーパーバイザが動きのあるアニメーションを基にクライアントの状況を判断することが可能になるためである。これにより、スーパーバイザはオペレータの判断のみに頼ることなく、状況を把握できるようになる。 The reason is that it becomes possible for the supervisor to judge the situation of the client based on a moving animation. As a result, the supervisor can grasp the situation without relying only on the judgment of the operator.
なお、上記の感情表現アニメーション顔表示システムは、ハードウェア、ソフトウェア又はこれらの組合わせにより実現することができる。また、上記の感情表現アニメーション顔表示システムにより行なわれる感情表現アニメーション顔表示方法も、ハードウェア、ソフトウェア又はこれらに組合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。 The emotion expression animated face display system described above can be realized by hardware, software, or a combination thereof. Also, the emotion expression animation face display method performed by the emotion expression animation face display system can be realized by hardware, software, or a combination thereof. Here, “realized by software” means realized by a computer reading and executing a program.
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。 The program may be stored using various types of non-transitory computer readable media and supplied to the computer. Non-transitory computer readable media include various types of tangible storage media. Examples of non-transitory computer readable media include magnetic recording media (for example, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (for example, magneto-optical disks), CD-ROMs (Read Only Memory), CD- R, CD-R / W, semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (random access memory)). The program may also be supplied to the computer by various types of transitory computer readable media. Examples of transitory computer readable media include electrical signals, optical signals, and electromagnetic waves. The temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
複数のユーザであって、そのそれぞれが複数のオペレータのそれぞれと少なくとも音声を用いて通話をしている複数のユーザのそれぞれの感情を前記通話で用いられるユーザの音声を基に推定する感情推定手段と、
前記感情推定手段により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されているアニメーション顔を合成するアニメーション顔合成手段と、
前記アニメーション顔合成手段により合成されたユーザ毎のアニメーション顔を視覚的にまとめて確認できるように並べて表示する表示手段と、
を備えることを特徴とする感情表現アニメーション顔表示システム。
A part or all of the above-described embodiment can be described as in the following supplementary notes, but is not limited thereto.
(Appendix 1)
Emotion estimation means for estimating the emotions of a plurality of users, each of which communicates with each of a plurality of operators using at least voice based on the voices of the users used in the call When,
Based on the emotion estimated by the emotion estimation unit, for each user, an animation face synthesis unit that synthesizes an animation face expressing the estimated emotion;
Display means for displaying the animation faces for each user synthesized by the animation face synthesizing means side by side so that they can be visually confirmed together;
An emotion expression animated face display system characterized by comprising:
(付記2)
付記1に記載の感情表現アニメーション顔表示システムであって、
前記アニメーション顔合成手段は、アニメーション合成用データベースに格納されているデータを、前記感情推定手段により合成された感情に基づいて、合成することにより、推定された感情が表現されているアニメーション顔を合成することを特徴とする感情表現アニメーション顔表示システム。
(Appendix 2)
An emotion expression animated face display system according to appendix 1,
The animation face synthesizing unit synthesizes the animation face expressing the estimated emotion by synthesizing the data stored in the animation synthesis database based on the emotion synthesized by the emotion estimation unit. Emotion expression animated face display system characterized by doing.
(付記3)
付記1又は2に記載の感情表現アニメーション顔表示システムであって、
前記アニメーション顔合成手段は、前記感情推定手段により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されている色を選択し、選択された色を背景色としてアニメーション顔に付加することを特徴とする感情表現アニメーション顔表示システム。
(Appendix 3)
The emotion expression animated face display system according to appendix 1 or 2,
The animation face synthesizing unit selects a color expressing the estimated emotion for each user based on the emotion estimated by the emotion estimation unit, and adds the selected color to the animation face as a background color Emotion expression animated face display system characterized by doing.
(付記4)
付記1乃至3の何れか1に記載の感情表現アニメーション顔表示システムであって、
前記感情推定手段と前記アニメーション顔合成手段は、コールセンターシステムに含まれ、
前記表示手段は、スーパーバイザが利用する端末に含まれることを特徴とする感情表現アニメーション顔表示システム。
(Appendix 4)
The emotion expression animated face display system according to any one of appendices 1 to 3,
The emotion estimation means and the animation face synthesis means are included in a call center system,
The emotion expression animated face display system, wherein the display means is included in a terminal used by a supervisor.
(付記5)
付記1乃至3の何れか1に記載の感情表現アニメーション顔表示システムであって、
前記感情推定手段と前記アニメーション顔合成手段は、前記オペレータが利用する端末に含まれ、
前記表示手段は、スーパーバイザが利用する端末に含まれることを特徴とする感情表現アニメーション顔表示システム。
(Appendix 5)
The emotion expression animated face display system according to any one of appendices 1 to 3,
The emotion estimation means and the animation face synthesis means are included in a terminal used by the operator,
The emotion expression animated face display system, wherein the display means is included in a terminal used by a supervisor.
(付記6)
付記1乃至6の何れか1に記載のアニメーション顔表示システムであって、
スーパーバイザが利用する端末が、スーパーバイザにより選択されたオペレータとその相手のユーザとの通話をモニタして出力するためのモニタ手段を更に備えることを特徴とする感情表現アニメーション顔表示システム。
(Appendix 6)
The animation face display system according to any one of appendices 1 to 6,
The emotion expression animation face display system, wherein the terminal used by the supervisor further comprises monitor means for monitoring and outputting a call between the operator selected by the supervisor and the other user.
(付記7)
複数のユーザであって、そのそれぞれが複数のオペレータのそれぞれと少なくとも音声を用いて通話をしている複数のユーザのそれぞれの感情を前記通話で用いられるユーザの音声を基に推定する感情推定ステップと、
前記感情推定ステップにより推定された感情に基づいて、ユーザ毎に、推定された感情が表現されているアニメーション顔を合成するアニメーション顔合成ステップと、
前記アニメーション顔合成ステップにより合成されたユーザ毎のアニメーション顔を視覚的にまとめて確認できるように並べて表示する表示ステップと、
を含むことを特徴とする感情表現アニメーション顔表示方法。
(Appendix 7)
Emotion estimation step of estimating the emotions of a plurality of users, each of which is talking with each of a plurality of operators using at least voice based on the voices of the users used in the call When,
Based on the emotion estimated by the emotion estimation step, for each user, an animation face synthesis step for synthesizing an animation face expressing the estimated emotion;
A display step for displaying the animation faces for each user synthesized in the animation face synthesis step side by side so that they can be visually confirmed together;
An emotion expression animated face display method characterized by comprising:
(付記8)
付記7に記載の感情表現アニメーション顔表示方法であって、
前記アニメーション顔合成ステップは、アニメーション合成用データベースに格納されているデータを、前記感情推定ステップにより推定された感情に基づいて、合成することにより、推定された感情が表現されているアニメーション顔を合成することを特徴とする感情表現アニメーション顔表示方法。
(Appendix 8)
The emotion expression animated face display method according to appendix 7,
The animation face synthesis step combines the data stored in the animation synthesis database based on the emotion estimated by the emotion estimation step, thereby synthesizing the animation face expressing the estimated emotion. An emotion expression animated face display method characterized by:
(付記9)
付記7又は8に記載の感情表現アニメーション顔表示方法であって、
前記アニメーション顔合成ステップは、前記感情推定ステップにより推定された感情に基づいて、ユーザ毎に、推定された感情が表現されている色を選択し、選択された色を背景色としてアニメーション顔に付加することを特徴とする感情表現アニメーション顔表示方法。
(Appendix 9)
The emotion expression animated face display method according to appendix 7 or 8,
The animation face synthesis step selects a color expressing the estimated emotion for each user based on the emotion estimated by the emotion estimation step, and adds the selected color to the animation face as a background color An emotion expression animated face display method characterized by:
(付記10)
付記7乃至9の何れか1に記載の感情表現アニメーション顔表示方法であって、
前記感情推定ステップと前記アニメーション顔合成ステップは、コールセンターシステムにより実行され、
前記表示ステップは、スーパーバイザが利用する端末により実行されることを特徴とする感情表現アニメーション顔表示方法。
(Appendix 10)
The emotion expression animated face display method according to any one of appendices 7 to 9,
The emotion estimation step and the animation face synthesis step are executed by a call center system,
The emotion expression animated face display method, wherein the display step is executed by a terminal used by a supervisor.
(付記11)
付記7乃至9の何れか1に記載の感情表現アニメーション顔表示方法であって、
前記感情推定ステップと前記アニメーション顔合成ステップは、前記オペレータが利用する端末により実行され、
前記表示ステップは、スーパーバイザが利用する端末により実行されることを特徴とする感情表現アニメーション顔表示方法。
(Appendix 11)
The emotion expression animated face display method according to any one of appendices 7 to 9,
The emotion estimation step and the animation face synthesis step are executed by a terminal used by the operator,
The emotion expression animated face display method, wherein the display step is executed by a terminal used by a supervisor.
(付記12)
付記7乃至11の何れか1に記載のアニメーション顔表示方法であって、
スーパーバイザが利用する端末において、スーパーバイザにより選択されたオペレータとその相手のユーザとの通話をモニタして出力するモニタステップを更に含むことを特徴とする感情表現アニメーション顔表示方法。
(Appendix 12)
The animation face display method according to any one of appendices 7 to 11,
An emotion expression animated face display method characterized by further comprising a monitor step of monitoring and outputting a call between an operator selected by the supervisor and a user of the other party at a terminal used by the supervisor.
(付記13)
コンピュータに、
複数のユーザであって、そのそれぞれが複数のオペレータのそれぞれと少なくとも音声を用いて通話をしている複数のユーザのそれぞれの感情を前記通話で用いられるユーザの音声を基に推定する感情推定手順と、
前記感情推定手順により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されているアニメーション顔を合成するアニメーション顔合成手順と、
前記アニメーション顔合成手順により合成されたユーザ毎のアニメーション顔を視覚的にまとめて確認できるように並べて表示する表示手順と、
を実行させることを特徴とする感情表現アニメーション顔表示プログラム。
(Appendix 13)
On the computer,
Emotion estimation procedure for estimating the emotions of a plurality of users who are communicating with each of a plurality of operators using at least voice based on the voices of the users used in the call When,
Based on the emotion estimated by the emotion estimation procedure, for each user, an animation face synthesis procedure for synthesizing an animated face expressing the estimated emotion;
A display procedure for displaying the animation faces for each user synthesized by the animation face synthesis procedure side by side so that they can be visually confirmed together;
Emotion expression animation face display program characterized by running.
(付記14)
付記13に記載の感情表現アニメーション顔表示プログラムであって、
前記アニメーション顔合成手順は、アニメーション合成用データベースに格納されているデータを、前記感情推定手順により推定された感情に基づいて、合成することにより、推定された感情が表現されているアニメーション顔を合成することを特徴とする感情表現アニメーション顔表示プログラム。
(Appendix 14)
An emotion expression animated face display program according to attachment 13,
The animation face synthesis procedure combines the data stored in the animation synthesis database based on the emotion estimated by the emotion estimation procedure, thereby synthesizing the animation face expressing the estimated emotion. Emotion expression animated face display program characterized by doing.
(付記15)
付記13又は14に記載の感情表現アニメーション顔表示プログラムであって、
前記アニメーション顔合成手順は、前記感情推定手順により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されている色を選択し、選択された色を背景色としてアニメーション顔に付加することを特徴とする感情表現アニメーション顔表示プログラム。
(Appendix 15)
An emotion expression animated face display program according to appendix 13 or 14,
The animation face synthesis procedure selects a color expressing the estimated emotion for each user based on the emotion estimated by the emotion estimation procedure, and adds the selected color to the animation face as a background color Emotion expression animated face display program characterized by doing.
(付記16)
付記13乃至15の何れか1に記載の感情表現アニメーション顔表示プログラムであって、
前記感情推定手順と前記アニメーション顔合成手順は、コールセンターシステムにおいて実行させ、
前記表示手順は、スーパーバイザが利用する端末において実行させることを特徴とする感情表現アニメーション顔表示プログラム。
(Appendix 16)
The emotion expression animation face display program according to any one of appendices 13 to 15,
The emotion estimation procedure and the animation face synthesis procedure are executed in a call center system,
An emotion expression animated face display program characterized in that the display procedure is executed in a terminal used by a supervisor.
(付記17)
付記13乃至15の何れか1に記載の感情表現アニメーション顔表示プログラムであって、
前記感情推定手順と前記アニメーション顔合成手順は、前記オペレータが利用する端末において実行させ、
前記表示手順は、スーパーバイザが利用する端末において実行させることを特徴とする感情表現アニメーション顔表示プログラム。
(Appendix 17)
The emotion expression animation face display program according to any one of appendices 13 to 15,
The emotion estimation procedure and the animation face synthesis procedure are executed in a terminal used by the operator,
An emotion expression animated face display program characterized in that the display procedure is executed in a terminal used by a supervisor.
(付記18)
付記13乃至17の何れか1に記載のアニメーション顔表示プログラムであって、
スーパーバイザが利用する端末において、スーパーバイザにより選択されたオペレータとその相手のユーザとの通話をモニタして出力するモニタ手順を更に実行させることを特徴とする感情表現アニメーション顔表示システム。
(Appendix 18)
The animation face display program according to any one of appendices 13 to 17,
An emotion expression animated face display system, further comprising a monitor procedure for monitoring and outputting a call between an operator selected by a supervisor and a user of the other party at a terminal used by the supervisor.
本発明はコールセンターに利用できるほか、テレビ電話、ビデオ会議システム、及びそれらに用いられる各種アプリケーションに利用できる。 The present invention can be used for a call center, a video phone, a video conference system, and various applications used for them.
101 コールセンターシステム
103 ゲートウェイ
105 クライアント端末
107 オペレータ端末
109 スーパーバイザ端末
121 SIP制御部
123 RTP制御部
125 インターフェース部
221 音声データ送受信部
223 デコーダ
225 エンコーダ
227 音声データ受入/送出部
229 アニメーション顔生成部
231 感情推定部
233 アニメーション顔合成用データベース
235 アニメーション顔合成部
237 エンコーダ
239 映像データ送出部
239A 多重化/送出部
245 選択部
301 画面合成部
303 表示部
305 選択入力受付部
307 選択信号出力部
309 音声処理部
311 音声出力部
313 多重分離部
101
Claims (10)
前記感情推定手段により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されているアニメーション顔を合成するアニメーション顔合成手段と、
前記アニメーション顔合成手段により合成されたユーザ毎のアニメーション顔を視覚的にまとめて確認できるように並べて表示する表示手段と、
を備えることを特徴とする感情表現アニメーション顔表示システム。 Emotion estimation means for estimating the emotions of a plurality of users, each of which communicates with each of a plurality of operators using at least voice based on the voices of the users used in the call When,
Based on the emotion estimated by the emotion estimation unit, for each user, an animation face synthesis unit that synthesizes an animation face expressing the estimated emotion;
Display means for displaying the animation faces for each user synthesized by the animation face synthesizing means side by side so that they can be visually confirmed together;
An emotion expression animated face display system characterized by comprising:
前記アニメーション顔合成手段は、アニメーション合成用データベースに格納されているデータを、前記感情推定手段により推定された感情に基づいて、合成することにより、推定された感情が表現されているアニメーション顔を合成することを特徴とする感情表現アニメーション顔表示システム。 The emotion expression animated face display system according to claim 1,
The animation face synthesizing unit synthesizes the data stored in the animation synthesis database based on the emotion estimated by the emotion estimation unit, thereby synthesizing the animation face expressing the estimated emotion. Emotion expression animated face display system characterized by doing.
前記アニメーション顔合成手段は、前記感情推定手段により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されている色を選択し、選択された色を背景色としてアニメーション顔に付加することを特徴とする感情表現アニメーション顔表示システム。 The emotion expression animated face display system according to claim 1 or 2,
The animation face synthesizing unit selects a color expressing the estimated emotion for each user based on the emotion estimated by the emotion estimation unit, and adds the selected color to the animation face as a background color Emotion expression animated face display system characterized by doing.
前記感情推定手段と前記アニメーション顔合成手段は、コールセンターシステムに含まれ、
前記表示手段は、スーパーバイザが利用する端末に含まれることを特徴とする感情表現アニメーション顔表示システム。 The emotion expression animated face display system according to any one of claims 1 to 3,
The emotion estimation means and the animation face synthesis means are included in a call center system,
The emotion expression animated face display system, wherein the display means is included in a terminal used by a supervisor.
前記感情推定手段と前記アニメーション顔合成手段は、前記オペレータが利用する端末に含まれ、
前記表示手段は、スーパーバイザが利用する端末に含まれることを特徴とする感情表現アニメーション顔表示システム。 The emotion expression animated face display system according to any one of claims 1 to 3,
The emotion estimation means and the animation face synthesis means are included in a terminal used by the operator,
The emotion expression animated face display system, wherein the display means is included in a terminal used by a supervisor.
スーパーバイザが利用する端末が、スーパーバイザにより選択されたオペレータとその相手のユーザとの通話をモニタして出力するためのモニタ手段を更に備えることを特徴とする感情表現アニメーション顔表示システム。 The animation face display system according to any one of claims 1 to 5,
The emotion expression animation face display system, wherein the terminal used by the supervisor further comprises monitor means for monitoring and outputting a call between the operator selected by the supervisor and the other user.
前記感情推定ステップにより推定された感情に基づいて、ユーザ毎に、推定された感情が表現されているアニメーション顔を合成するアニメーション顔合成ステップと、
前記アニメーション顔合成ステップにより合成されたユーザ毎のアニメーション顔を視覚的にまとめて確認できるように並べて表示する表示ステップと、
を含むことを特徴とする感情表現アニメーション顔表示方法。 Emotion estimation step of estimating the emotions of a plurality of users, each of which is talking with each of a plurality of operators using at least voice based on the voices of the users used in the call When,
Based on the emotion estimated by the emotion estimation step, for each user, an animation face synthesis step for synthesizing an animation face expressing the estimated emotion;
A display step for displaying the animation faces for each user synthesized in the animation face synthesis step side by side so that they can be visually confirmed together;
An emotion expression animated face display method characterized by comprising:
前記アニメーション顔合成ステップは、アニメーション合成用データベースに格納されているデータを、前記感情推定ステップにより推定された感情に基づいて、合成することにより、推定された感情が表現されているアニメーション顔を合成することを特徴とする感情表現アニメーション顔表示方法。 The emotion expression animated face display method according to claim 7,
The animation face synthesis step combines the data stored in the animation synthesis database based on the emotion estimated by the emotion estimation step, thereby synthesizing the animation face expressing the estimated emotion. An emotion expression animated face display method characterized by:
前記アニメーション顔合成ステップは、前記感情推定ステップにより推定された感情に基づいて、ユーザ毎に、推定された感情が表現されている色を選択し、選択された色を背景色としてアニメーション顔に付加することを特徴とする感情表現アニメーション顔表示方法。 The emotion expression animated face display method according to claim 7 or 8,
The animation face synthesis step selects a color expressing the estimated emotion for each user based on the emotion estimated by the emotion estimation step, and adds the selected color to the animation face as a background color An emotion expression animated face display method characterized by:
複数のユーザであって、そのそれぞれが複数のオペレータのそれぞれと少なくとも音声を用いて通話をしている複数のユーザのそれぞれの感情を前記通話で用いられるユーザの音声を基に推定する感情推定手順と、
前記感情推定手順により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されているアニメーション顔を合成するアニメーション顔合成手順と、
前記アニメーション顔合成手順により合成されたユーザ毎のアニメーション顔を視覚的にまとめて確認できるように並べて表示する表示手順と、
を実行させることを特徴とする感情表現アニメーション顔表示プログラム。 On the computer,
Emotion estimation procedure for estimating the emotions of a plurality of users who are communicating with each of a plurality of operators using at least voice based on the voices of the users used in the call When,
Based on the emotion estimated by the emotion estimation procedure, for each user, an animation face synthesis procedure for synthesizing an animated face expressing the estimated emotion;
A display procedure for displaying the animation faces for each user synthesized by the animation face synthesis procedure side by side so that they can be visually confirmed together;
Emotion expression animation face display program characterized by running.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012087503A JP2013219495A (en) | 2012-04-06 | 2012-04-06 | Emotion-expressing animation face display system, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012087503A JP2013219495A (en) | 2012-04-06 | 2012-04-06 | Emotion-expressing animation face display system, method, and program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014234111A Division JP2015092347A (en) | 2014-11-19 | 2014-11-19 | Emotion-expressing animation face display system, method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013219495A true JP2013219495A (en) | 2013-10-24 |
Family
ID=49591160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012087503A Pending JP2013219495A (en) | 2012-04-06 | 2012-04-06 | Emotion-expressing animation face display system, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013219495A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018170611A (en) * | 2017-03-29 | 2018-11-01 | 株式会社日立情報通信エンジニアリング | Call center system and telephone call monitoring method |
JP2019012506A (en) * | 2017-06-29 | 2019-01-24 | ネイバー コーポレーションNAVER Corporation | Method and system for automatic activation of machine |
CN110379430A (en) * | 2019-07-26 | 2019-10-25 | 腾讯科技(深圳)有限公司 | Voice-based cartoon display method, device, computer equipment and storage medium |
CN112614212A (en) * | 2020-12-16 | 2021-04-06 | 上海交通大学 | Method and system for realizing video-audio driving human face animation by combining tone and word characteristics |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002298155A (en) * | 2001-03-29 | 2002-10-11 | Hic:Kk | Emotion-oriented three-dimensional computer graphics expression model forming system |
JP2004252668A (en) * | 2003-02-19 | 2004-09-09 | Fujitsu Ltd | Contact center managing and controlling program, device and method |
JP2009294647A (en) * | 2008-05-09 | 2009-12-17 | Agi:Kk | Action analysis device and call center system |
JP2010068341A (en) * | 2008-09-11 | 2010-03-25 | Hitachi Information & Control Solutions Ltd | Call center system |
JP2011029688A (en) * | 2009-07-21 | 2011-02-10 | Oki Networks Co Ltd | Method of recording and reproducing call and call recorder |
-
2012
- 2012-04-06 JP JP2012087503A patent/JP2013219495A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002298155A (en) * | 2001-03-29 | 2002-10-11 | Hic:Kk | Emotion-oriented three-dimensional computer graphics expression model forming system |
JP2004252668A (en) * | 2003-02-19 | 2004-09-09 | Fujitsu Ltd | Contact center managing and controlling program, device and method |
JP2009294647A (en) * | 2008-05-09 | 2009-12-17 | Agi:Kk | Action analysis device and call center system |
JP2010068341A (en) * | 2008-09-11 | 2010-03-25 | Hitachi Information & Control Solutions Ltd | Call center system |
JP2011029688A (en) * | 2009-07-21 | 2011-02-10 | Oki Networks Co Ltd | Method of recording and reproducing call and call recorder |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018170611A (en) * | 2017-03-29 | 2018-11-01 | 株式会社日立情報通信エンジニアリング | Call center system and telephone call monitoring method |
JP2019012506A (en) * | 2017-06-29 | 2019-01-24 | ネイバー コーポレーションNAVER Corporation | Method and system for automatic activation of machine |
CN110379430A (en) * | 2019-07-26 | 2019-10-25 | 腾讯科技(深圳)有限公司 | Voice-based cartoon display method, device, computer equipment and storage medium |
CN110379430B (en) * | 2019-07-26 | 2023-09-22 | 腾讯科技(深圳)有限公司 | Animation display method and device based on voice, computer equipment and storage medium |
CN112614212A (en) * | 2020-12-16 | 2021-04-06 | 上海交通大学 | Method and system for realizing video-audio driving human face animation by combining tone and word characteristics |
CN112614212B (en) * | 2020-12-16 | 2022-05-17 | 上海交通大学 | Method and system for realizing video-audio driving human face animation by combining tone and word characteristics |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110446000B (en) | Method and device for generating dialogue figure image | |
US6882971B2 (en) | Method and apparatus for improving listener differentiation of talkers during a conference call | |
CN112312297B (en) | Audio bandwidth reduction | |
JP2015092347A (en) | Emotion-expressing animation face display system, method and program | |
JP2006330958A (en) | Image composition device, communication terminal using the same, and image communication system and chat server in the system | |
US20080151786A1 (en) | Method and apparatus for hybrid audio-visual communication | |
CN106063238B (en) | Mixing continuous perceptually in videoconference | |
JP2004289254A (en) | Videophone terminal | |
EP2574050A1 (en) | Method, apparatus and remote video conference system for playing audio of remote participator | |
US11632627B2 (en) | Systems and methods for distinguishing audio using positional information | |
US20040249967A1 (en) | Primary data stream communication | |
JP2013219495A (en) | Emotion-expressing animation face display system, method, and program | |
JP2000231644A (en) | Speaker, specifying method for virtual space and recording medium where program thereof is recorded | |
CN109802968B (en) | Conference speaking system | |
JP2011118632A (en) | Method, device and program for detecting and transmitting preliminary motion of speech | |
WO2022137547A1 (en) | Communication assistance system | |
Skowronek | Quality of experience of multiparty conferencing and telemeeting systems | |
Altunbasak et al. | Realizing the Vision of Immersive Communication [From the Guest Editors] | |
JP2023155921A (en) | Information processing device, information processing terminal, information processing method, and program | |
JP2009112027A (en) | Video telephone terminal | |
JP5164911B2 (en) | Avatar generating apparatus, method and program | |
WO2018088210A1 (en) | Information processing device and method, and program | |
JP2001357414A (en) | Animation communicating method and system, and terminal equipment to be used for it | |
US11764984B2 (en) | Teleconference method and teleconference system | |
Skowronek | Quality of experience of multiparty conferencing and telemeeting systems: methods and models for assessment and prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130912 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131017 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140328 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140902 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141119 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20141128 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20150130 |