Nothing Special   »   [go: up one dir, main page]

JP2013219495A - Emotion-expressing animation face display system, method, and program - Google Patents

Emotion-expressing animation face display system, method, and program Download PDF

Info

Publication number
JP2013219495A
JP2013219495A JP2012087503A JP2012087503A JP2013219495A JP 2013219495 A JP2013219495 A JP 2013219495A JP 2012087503 A JP2012087503 A JP 2012087503A JP 2012087503 A JP2012087503 A JP 2012087503A JP 2013219495 A JP2013219495 A JP 2013219495A
Authority
JP
Japan
Prior art keywords
emotion
animation
face
estimated
animation face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012087503A
Other languages
Japanese (ja)
Inventor
Akina Kato
明菜 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Infrontia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Infrontia Corp filed Critical NEC Infrontia Corp
Priority to JP2012087503A priority Critical patent/JP2013219495A/en
Publication of JP2013219495A publication Critical patent/JP2013219495A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an emotion-expressing animation face display system, method, and program allowing for efficient monitoring of telephone correspondence by plural operators.SOLUTION: The emotion-expressing animation face display system comprises: emotion estimation means which estimates the emotion of each of users who are speaking with each of operators at least with voice, on the basis of the voice of each user used for the speech; animation face synthesis means which synthesizes an animation face expressing an estimated emotion for each user on the basis of the emotion estimated by the emotion estimation means; and display means which arranges and displays the animation face of each user synthesized by the animation face synthesis means such that the animation faces can visually be checked together.

Description

本発明は感情表現アニメーション顔表示システム、方法及びプログラムに関し、特に、コールセンター用の感情表現アニメーション顔表示システム、方法及びプログラムに関するものである。   The present invention relates to an emotion expression animation face display system, method and program, and more particularly to an emotion expression animation face display system, method and program for a call center.

顧客(「クライアント」又は「ユーザ」ともいう)からの電話による問合せや注文などに対応するため、コールセンターが設置されている。通常、コールセンターでは、複数のオペレータがクライアントからの電話に効率よく対応するために、コールセンター用システムが構築、使用されている。コールセンター用システムは、例えば、電話交換機、複数のオペレータ端末、管理者(「スーパーバイザ」ともいう)用の端末などを備える。また、多くのコールセンター用システムでは、クライアントとオペレータとのやり取りをスーパーバイザが通話モニタリングによって監視し、通話の状況を確認し、必要に応じてオペレータにアドバイスを送るための機能が備わっている。   In order to respond to telephone inquiries and orders from customers (also referred to as “clients” or “users”), a call center is set up. Usually, in a call center, a system for a call center is constructed and used so that a plurality of operators can efficiently handle calls from clients. The call center system includes, for example, a telephone exchange, a plurality of operator terminals, a manager (also referred to as “supervisor”) terminal, and the like. In many call center systems, the supervisor monitors the communication between the client and the operator through call monitoring, confirms the state of the call, and has a function for sending advice to the operator as necessary.

特開2006−330958号公報JP 2006-330958 A 特開2003−248841号公報JP 2003-248841 A

上述した従来のコールセンター用システムでは、オペレータの電話対応に対するスーパーバイザの監視は音声のモニタリングによって行われており、スーパーバイザ1人に対してオペレータ1人の電話対応しか一度に監視することができず、能率的でない、という課題があった。   In the above-described conventional call center system, supervisor monitoring of the operator's telephone response is performed by voice monitoring, and only one operator's telephone response can be monitored at a time for one supervisor. There was a problem that it was not right.

また、オペレータからヘルプ要請がない限り、その時点で通話モニタリングをしていない通話に対してスーパーバイザの助言が必要なのかどうか、スーパーバイザからは判断がつかず、その結果対応の遅れが発生する、という課題があった。   Also, unless there is a request for help from the operator, it is not possible for the supervisor to determine whether the supervisor's advice is necessary for calls that are not being monitored at that time, resulting in delays in response. There was a problem.

したがって、本発明の目的は、上述した課題を解決し、複数のオペレータの電話対応を能率よく監視できる感情表現アニメーション顔表示システム、方法及びプログラムを提供することである。   Accordingly, an object of the present invention is to provide an emotion expression animated face display system, method, and program that can solve the above-described problems and can efficiently monitor telephone correspondences of a plurality of operators.

上記目的を達成するために、本発明のシステムは、複数のユーザであって、そのそれぞれが複数のオペレータのそれぞれと少なくとも音声を用いて通話をしている複数のユーザのそれぞれの感情を前記通話で用いられるユーザの音声を基に推定する感情推定手段と、前記感情推定手段により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されているアニメーション顔を合成するアニメーション顔合成手段と、前記アニメーション顔合成手段により合成されたユーザ毎のアニメーション顔を視覚的にまとめて確認できるように並べて表示する表示手段とを備える。   In order to achieve the above object, the system of the present invention provides a plurality of users, each of which communicates the feelings of a plurality of users who are talking with each of a plurality of operators using at least voice. Emotion estimation means for estimating based on the user's voice used in the game, and animation face synthesis for synthesizing an animation face expressing the estimated emotion for each user based on the emotion estimated by the emotion estimation means Means and display means for displaying the animation faces synthesized by the animation face synthesis means side by side so that they can be visually confirmed together.

また、本発明の方法は、複数のユーザであって、そのそれぞれが複数のオペレータのそれぞれと少なくとも音声を用いて通話をしている複数のユーザのそれぞれの感情を前記通話で用いられるユーザの音声を基に推定する感情推定ステップと、前記感情推定ステップにより推定された感情に基づいて、ユーザ毎に、推定された感情が表現されているアニメーション顔を合成するアニメーション顔合成ステップと、前記アニメーション顔合成ステップにより合成されたユーザ毎のアニメーション顔を視覚的にまとめて確認できるように並べて表示する表示ステップとを含む。   In addition, the method of the present invention provides the voices of the users who are the users of the plurality of users, each of whom is talking with each of the plurality of operators using at least the voice. An emotion estimation step based on the emotion, an animation face synthesis step for synthesizing an animation face expressing the estimated emotion for each user based on the emotion estimated by the emotion estimation step, and the animation face And a display step for displaying the animation faces for each user synthesized in the synthesis step side by side so that they can be visually confirmed together.

また、本発明のプログラムは、コンピュータに、複数のユーザであって、そのそれぞれが複数のオペレータのそれぞれと少なくとも音声を用いて通話をしている複数のユーザのそれぞれの感情を前記通話で用いられるユーザの音声を基に推定する感情推定手順と、前記感情推定手順により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されているアニメーション顔を合成するアニメーション顔合成手順と、前記アニメーション顔合成手順により合成されたユーザ毎のアニメーション顔を視覚的にまとめて確認できるように並べて表示する表示手順とを実行させる。   In addition, the program of the present invention can use the emotions of a plurality of users who are communicating with each of a plurality of operators using a voice at least in the computer. An emotion estimation procedure for estimating based on the user's voice; an animation face synthesis procedure for synthesizing an animation face expressing the estimated emotion for each user based on the emotion estimated by the emotion estimation procedure; A display procedure for displaying the animation faces synthesized for each user by the animation face synthesis procedure side by side so as to be visually confirmed together is executed.

本発明の上記構成により、コールセンターにおける複数のオペレータの電話対応を一度に能率よく監視できる。   With the above configuration of the present invention, it is possible to efficiently monitor the telephone correspondence of a plurality of operators at a call center at a time.

本発明が適用されたシステムの構成例を示す。1 shows a configuration example of a system to which the present invention is applied. 本発明の第1の実施形態のシステム全体の構成を示すブロック図である。1 is a block diagram illustrating a configuration of an entire system according to a first embodiment of this invention. 本発明の第1の実施形態におけるコールセンターシステムの構成を示すブロック図である。It is a block diagram which shows the structure of the call center system in the 1st Embodiment of this invention. アニメーション顔生成部により生成されたアニメーション顔を例示しており、(a)、(b)、(c)のアニメーション顔はそれぞれ「喜」、「怒」、「哀」の感情を表現している。The animation faces generated by the animation face generation unit are illustrated, and the animation faces of (a), (b), and (c) represent emotions of “joy”, “anger”, and “sorrow”, respectively. . 本発明の第1の実施形態のスーパーバイザ端末の構成を示すブロック図である。It is a block diagram which shows the structure of the supervisor terminal of the 1st Embodiment of this invention. スーパーバイザの表示装置における表示例である。It is an example of a display in the display apparatus of a supervisor. 本発明の第2の実施形態のシステム全体の構成を示すブロック図である。It is a block diagram which shows the structure of the whole system of the 2nd Embodiment of this invention. 本発明の第2の実施形態におけるオペレータ端末の構成を示すブロック図である。It is a block diagram which shows the structure of the operator terminal in the 2nd Embodiment of this invention. 本発明の第2の実施形態のスーパーバイザ端末の構成を示すブロック図である。It is a block diagram which shows the structure of the supervisor terminal of the 2nd Embodiment of this invention.

以下、図面を参照して本発明を実施するための形態について詳細に説明する。
図1は、本発明が適用されたシステムの構成例を示す。このシステムは、交換機(図示せず)と、コールセンターシステム101と、クライアント端末105と、オペレータ端末107と、スーパーバイザ端末109から構成される。クライアント端末105、オペレータ端末107及びスーパーバイザ端末109はそれぞれ複数存在してもよい。クライアント端末105とスーパーバイザ端末109は、それぞれ、SIP(Session Initiation Protocol)制御部121、RTP(Real-time Transport Protocol)制御部123及びインターフェース部125を備えている。インターフェース部125は、例えば、マイク、スピーカ、機能ボタン、マウス、キーボード等とのインターフェース機能を有し、スーパーバイザ端末109については、それらに加え、映像を表示する表示器とのインターフェース機能を備えている。クライアント端末105及びスーパーバイザ端末109がそれぞれ、マイク、スピーカ、機能ボタン、マウス、キーボード、表示器等を含んで構成されてもよい。
DESCRIPTION OF EMBODIMENTS Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings.
FIG. 1 shows a configuration example of a system to which the present invention is applied. This system includes an exchange (not shown), a call center system 101, a client terminal 105, an operator terminal 107, and a supervisor terminal 109. A plurality of client terminals 105, operator terminals 107, and supervisor terminals 109 may exist. Each of the client terminal 105 and the supervisor terminal 109 includes a SIP (Session Initiation Protocol) control unit 121, an RTP (Real-time Transport Protocol) control unit 123, and an interface unit 125. The interface unit 125 has an interface function with, for example, a microphone, a speaker, a function button, a mouse, a keyboard, and the like, and the supervisor terminal 109 has an interface function with a display device that displays an image in addition to them. . Each of the client terminal 105 and the supervisor terminal 109 may include a microphone, a speaker, a function button, a mouse, a keyboard, a display, and the like.

図1のシステムにおいて、クライアント端末105は、ゲートウェイ103を通じてコールセンターシステム101と音声のRTPパケットのやり取りを行う。コールセンターシステム101は、オペレータ端末107及びスーパーバイザ端末109とSIP接続されており、各端末107及び109はSIP制御部121によってSIPのやりとりを行う機能を備えている。オペレータ端末107の備えているRTP制御部123は、インターフェース部125を介してマイクから入力された音声をエンコードし、音声のRTPパケットとして目的のアドレスに送信し、また、送られてきたパケットをデコードし、インターフェース部125を介してスピーカに送る機能を持つ。スーパーバイザ端末109の備えているRTP制御部123は、コールセンターシステム101から送られてきた映像のRTPパケットをデコードし、インターフェース部125を介して映像表示器(図示せず)に送る機能を持つ。   In the system of FIG. 1, the client terminal 105 exchanges voice RTP packets with the call center system 101 through the gateway 103. The call center system 101 is connected to the operator terminal 107 and the supervisor terminal 109 by SIP, and each of the terminals 107 and 109 has a function of exchanging SIP by the SIP control unit 121. The RTP control unit 123 provided in the operator terminal 107 encodes the voice input from the microphone via the interface unit 125, transmits it as a voice RTP packet to the target address, and decodes the sent packet. And has a function of sending to the speaker via the interface unit 125. The RTP control unit 123 provided in the supervisor terminal 109 has a function of decoding a video RTP packet sent from the call center system 101 and sending it to a video display (not shown) via the interface unit 125.

図1のシステムでは、クライアントが発声した音声が、マイクからクライアント端末105に入力され、音声RTPパケットにエンコードされる。この音声RTPパケットがゲートウェイ103を介してコールセンターシステム101に送られる。コールセンターシステム101は、クライアント端末105から送られた音声RTPパケットを、担当のオペレータのオペレータ端末107に送る。オペレータ端末107では、コールセンターシステム101から送られて来た音声RTPパケットがデコードされ、インターフェース部125を介してスピーカからオペレータの耳に届けられる。オペレータが発声した音声は、その逆のルートを辿ってクライアント端末105に接続されたスピーカからクライアントの耳に届けられる。このようにして、クライアントとオペレータが通話を行う。   In the system of FIG. 1, the voice uttered by the client is input from the microphone to the client terminal 105 and encoded into a voice RTP packet. This voice RTP packet is sent to the call center system 101 via the gateway 103. The call center system 101 sends the voice RTP packet sent from the client terminal 105 to the operator terminal 107 of the operator in charge. In the operator terminal 107, the voice RTP packet sent from the call center system 101 is decoded and delivered from the speaker to the operator's ear via the interface unit 125. The voice uttered by the operator follows the reverse route and is delivered to the client's ear from the speaker connected to the client terminal 105. In this way, the client and the operator make a call.

コールセンターシステム101は、後で詳細に説明するように、クライアントからの音声RTPパケットを用いてクライアントの音声を分析して感情を推定し、推定した感情を表現したアニメーション顔の映像を合成し、それをRTPパケットにエンコードしてスーパーバイザ端末109に送る。スーパーバイザ端末109では、コールセンターシステム101から受信した映像RTPパケットをRTP制御部123でデコードし、インターフェース部125を介して表示器に表示する。スーパーバイザは表示された画像からクライアントとオペレータの通話状況を把握し、必要なら適切な助言を与えることもできる。   As will be described in detail later, the call center system 101 analyzes the voice of the client using voice RTP packets from the client to estimate emotions, and synthesizes an animated face image representing the estimated emotions. Is encoded into an RTP packet and sent to the supervisor terminal 109. In the supervisor terminal 109, the video RTP packet received from the call center system 101 is decoded by the RTP control unit 123 and displayed on the display unit via the interface unit 125. The supervisor can grasp the call status of the client and the operator from the displayed image, and can give appropriate advice if necessary.

スーパーバイザ端末109が、コールセンターシステム101にクライアントの音声RTPパケットからアニメーション顔を生成するための要求を行い、コールセンターシステム101からの映像RTPパケット受信が開始されるようにしてもよい。   The supervisor terminal 109 may request the call center system 101 to generate an animation face from the client's voice RTP packet and start receiving the video RTP packet from the call center system 101.

このようにして、クライアントとオペレータがコールセンターシステム101を通じて音声通話を開始し、その間にスーパーバイザがクライアントの音声の状態から生成されるアニメーション顔を確認し、クライアントの状況を把握する。   In this way, the client and the operator start a voice call through the call center system 101, and during that time, the supervisor confirms the animated face generated from the voice state of the client and grasps the status of the client.

次に、本発明の第1の実施形態について、図2、3、4、5及び6を参照して詳細に説明する。   Next, a first embodiment of the present invention will be described in detail with reference to FIGS.

図2は、本発明の第1の実施形態の全体構成を示す。本発明の第1の実施形態には、コールセンターシステム101と、第1、第2,・・・,第Nクライアント端末(105−1,105−2,・・・,105−N)と、第1、第2,・・・,第Nオペレータ端末(107−1,107−2,・・・,107−N)と、スーパーバイザ端末109とが含まれる。図2では、第1クライアント端末105−1と第1オペレータ端末107−1、第2クライアント端末105−2と第2オペレータ端末107−2、・・・、第Nクライアント端末105−Nと第Nオペレータ端末107−Nが、コールセンター101を介して通話できるように構成されている。クライアント端末とオペレータ端末の組合せは、固定的でもよいし、適宜変更できる構成でもよい。コールセンターシステム101には、第1、第2,・・・,第Nクライアント端末(105−1,105−2,・・・,105−N)にそれぞれ対応してアニメーション顔生成部(229−1,229−2,・・・,229−N)が設けられている。アニメーション顔生成部229はそれぞれ対応するクライアント端末105から送られるクライアントの音声データに基づいてクライアントの感情を推定し、その感情を表現したアニメーション顔を生成し、生成したアニメーション顔データをスーパーバイザ端末109に送る。   FIG. 2 shows the overall configuration of the first embodiment of the present invention. The first embodiment of the present invention includes a call center system 101, first, second,..., Nth client terminals (105-1, 105-2,..., 105-N), The first, second,..., Nth operator terminals (107-1, 107-2,..., 107-N) and the supervisor terminal 109 are included. In FIG. 2, the first client terminal 105-1 and the first operator terminal 107-1, the second client terminal 105-2 and the second operator terminal 107-2,..., The Nth client terminal 105-N and the Nth The operator terminal 107-N is configured to be able to make a call via the call center 101. The combination of the client terminal and the operator terminal may be fixed or may be changed as appropriate. The call center system 101 includes animation face generation units (229-1) corresponding to the first, second,..., Nth client terminals (105-1, 105-2,..., 105-N), respectively. , 229-2,..., 229-N). The animation face generation unit 229 estimates the client's emotion based on the client's voice data sent from the corresponding client terminal 105, generates an animation face expressing the emotion, and sends the generated animation face data to the supervisor terminal 109. send.

図2では、それぞれのクライアント端末から送られるクライアントの音声データと、その相手のオペレータ端末から送られるオペレータの音声データとが足し合された後に選択部245に送られる。選択部245では、スーパーバイザ端末109から送られた選択信号に基づいてスーパーバイザが所望するクライアントとその相手のオペレータの通話音声が選択されてスーパーバイザ端末109に送られる。   In FIG. 2, the client voice data sent from each client terminal and the operator voice data sent from the partner operator terminal are added to each other and sent to the selection unit 245. Based on the selection signal sent from the supervisor terminal 109, the selection unit 245 selects the client's desired voice and the call voice of the partner operator and sends it to the supervisor terminal 109.

図3は、本発明の第1の実施形態におけるコールセンターシステム101の構成を示す。コールセンターシステム101は、音声データ送受信部221、デコーダ223、エンコーダ225、音声データ受入/送出部227を備えている。音声データ送受信部221は、クライアント端末105から送られてきた音声パケットを受信する。また、音声データ送受信部221は、オペレータ端末107から送られてきた音声データがエンコーダ225によりエンコードされた後、クライアント端末105に向けて送信する。デコーダ223は、クライアント端末から受信した音声パケットをデコードする。エンコーダ225は、デコードされた音声データを所定のプロトコルやフォーマットに変換する。音声データ受入/送出部227は、エンコーダ225により生成された音声パケットを送出すると共に、オペレータ端末107から音声データを受け入れる。   FIG. 3 shows the configuration of the call center system 101 according to the first embodiment of the present invention. The call center system 101 includes an audio data transmission / reception unit 221, a decoder 223, an encoder 225, and an audio data reception / transmission unit 227. The voice data transmission / reception unit 221 receives a voice packet transmitted from the client terminal 105. The voice data transmitting / receiving unit 221 transmits the voice data sent from the operator terminal 107 to the client terminal 105 after the encoder 225 encodes the voice data. The decoder 223 decodes the voice packet received from the client terminal. The encoder 225 converts the decoded audio data into a predetermined protocol or format. The voice data receiving / sending unit 227 sends the voice packet generated by the encoder 225 and accepts voice data from the operator terminal 107.

コールセンターシステム101は、更に、アニメーション顔生成部229、エンコーダ237、映像データ送出部239を備えている。アニメーション顔生成部229は、感情推定部231、アニメーション顔合成用データベース233及びアニメーション顔合成部235を含む。   The call center system 101 further includes an animation face generation unit 229, an encoder 237, and a video data transmission unit 239. The animation face generation unit 229 includes an emotion estimation unit 231, an animation face synthesis database 233, and an animation face synthesis unit 235.

感情推定部231は、デコーダ223によりデコードされたクライアントの音声データからクライアントの感情を推定する。例えば、クライアントの音声が怒っているのか、笑っているのかなど、例えば予め用意したプログラム等に従ってどの傾向に近いのかを推定する。   The emotion estimation unit 231 estimates client emotions from the client audio data decoded by the decoder 223. For example, it is estimated whether the client's voice is angry or laughing, for example, according to a program prepared in advance or the like.

アニメーション顔合成用データベース233は、アニメーション顔を生成するためのデータベースであり、ユーザやシステム管理者が手動でシステムにアップロードした画像ファイルや、システム内に予め用意されたファイルや、過去のビデオ会議の映像をデータベースとして保管しておいたファイルなどを登録して利用してもよい。   The animation face synthesis database 233 is a database for generating an animation face, and is an image file manually uploaded to the system by a user or a system administrator, a file prepared in advance in the system, a past video conference file, or the like. You may register and use a file that stores video as a database.

アニメーション顔合成部235は、感情推定部231による推定結果と、アニメーション顔合成用データベース233に格納されたアニメーション顔合成用データを基に、アニメーション顔を合成する。例えば、現在「怒っている」と推測される場合は、その間怒っているアニメーションを生成し、「笑っている」と推測される場合は、その笑いの大きさに応じて笑っているアニメーションを生成する。   The animation face synthesis unit 235 synthesizes an animation face based on the estimation result from the emotion estimation unit 231 and the animation face synthesis data stored in the animation face synthesis database 233. For example, if you are currently estimated to be angry, generate an angry animation during that time, and if you are estimated to be laughing, generate a laughing animation depending on the size of the laugh To do.

アニメーション顔合成部235により合成して得られたアニメーション顔は、エンコーダ237により映像RTPパケットにエンコードされ、映像データ送出部239からスーパーバイザ端末109に送出される。   The animation face obtained by the synthesis by the animation face synthesis unit 235 is encoded into a video RTP packet by the encoder 237 and sent from the video data sending unit 239 to the supervisor terminal 109.

上述したように、コールセンターシステム101から送出された音声パケットはオペレータ端末107に送られ、また、映像パケットはスーパーバイザ端末109に送られ、各端末のRTP制御部123によりデコードされ、聞こえる、もしくは見える形で再生される。   As described above, the voice packet sent from the call center system 101 is sent to the operator terminal 107, and the video packet is sent to the supervisor terminal 109, decoded by the RTP control unit 123 of each terminal, and can be heard or seen. It is played with.

複数のクライアントの状況をスーパーバイザが把握したいとき、クライアント毎にアニメーション顔生成処理(図2、図3参照)によって作成される複数の映像データが、スーパーバイザを指定する同一のIPアドレスまで送信されることになる。   When the supervisor wants to know the status of multiple clients, multiple video data created by the animation face generation process (see FIGS. 2 and 3) for each client is sent to the same IP address that designates the supervisor. become.

次に、感情推定部231について説明する。感情推定部231による感情の推定では、クライアントの音声についての音強度分析に基づく方法や、音素解析に基づく方法など様々な方法が採用できる。   Next, the emotion estimation unit 231 will be described. In the estimation of emotions by the emotion estimation unit 231, various methods such as a method based on sound intensity analysis of a client's voice and a method based on phoneme analysis can be adopted.

まず、音強度分析に基づく感情推定方法について説明する。この方法では、デコーダ223から送られてきたクライアントの音声データに対して音声解析部(図示せず)が音声解析を行い、特に音強度(又はパワー)に関する情報から感情を推定する。感情は、例えば、感情の種類と感情の強度により指定できる。感情の種類は、例えば「喜」、「怒」、「哀」などとしてもよい。感情の強度は、例えば「強」、「中」、「弱」などに分類してもよい。音声解析では、例えば、音声データを所定のフレームごとに時系列に分離し、これらのフレーム間のパワー偏差、パワー差分の平均値及び/又はパワー差分の偏差を求め、その解析結果から音強度の程度やそのパターンなどの感情に関する情報を抽出して、これらの情報に基づいて感情の種類と強度を推定してもよい。   First, an emotion estimation method based on sound intensity analysis will be described. In this method, a voice analysis unit (not shown) performs voice analysis on the client voice data sent from the decoder 223, and in particular, emotions are estimated from information related to sound intensity (or power). The emotion can be specified by, for example, the type of emotion and the strength of the emotion. The type of emotion may be, for example, “joy”, “anger”, “sorrow”, or the like. The intensity of emotion may be classified into, for example, “strong”, “medium”, “weak”, and the like. In the voice analysis, for example, the voice data is separated into time series for each predetermined frame, and the power deviation between these frames, the average value of the power difference and / or the deviation of the power difference are obtained, and the sound intensity is calculated from the analysis result. Information related to emotions such as the degree and the pattern may be extracted, and the type and intensity of emotion may be estimated based on the information.

例えば、感情推定部231は、音声解析部(図示せず)から送られてきた音声解析結果を、所定の期間分だけ記憶し、記憶された解析データを用いて感情を推定してもよい。例えば、所定の基準期間の3回分の期間の音声データの強度が、「強・中・強」ならば「喜」、「強・強・強」ならば「怒」、「弱・中・弱」ならば「哀」、とするテンプレートを用意しておく。記憶された解析データのうち、基準期間3回分のデータについて、その強度パターンをテンプレートと比較し、それらのマッチングを調べることにより、その時点での感情を推定できる。   For example, the emotion estimation unit 231 may store the voice analysis result sent from the voice analysis unit (not shown) for a predetermined period and estimate the emotion using the stored analysis data. For example, if the strength of the voice data for three periods of the predetermined reference period is “strong / medium / strong”, “joy”, if “strong / strong / strong”, “anger”, “weak / medium / weak” "If so, prepare a template for" Sorrow. " Of the stored analysis data, for the data for three reference periods, the intensity pattern is compared with the template, and the matching is examined to estimate the emotion at that time.

別法として、記憶した基準期間3回分の音声データに対して、各強度値の差の絶対値の和(ヒルベルト距離)や各強度の差の2乗和(ユークリッド距離)を計算して、最も近いものをその時の感情として判定してもよい。   As an alternative method, the sum of absolute values of differences in intensity values (Hilbert distance) and the sum of squares of differences in intensity (Euclidean distance) are calculated for the stored audio data for three reference periods, You may judge the near thing as the emotion at that time.

次に、音素解析に基づく感情推定方法を説明する。この方法では、感情を表すキーワードを辞書テンプレートとして持っておき、音素解析の結果と辞書テンプレートのマッチングを行って感情の推定を行う。例えば、「怒」の感情の場合、怒りを表す単語(例えば「怒る」、「殴る」など)を辞書テンプレートとして用意しておく。「喜」、「哀」などの感情についても、同様に辞書テンプレートを用意しておく。そして、音素解析結果から得られる音素データとこれらの辞書テンプレートを比較してマッチングを調べることにより、感情を推定する。   Next, an emotion estimation method based on phoneme analysis will be described. In this method, a keyword representing emotion is held as a dictionary template, and the emotion is estimated by matching the result of phoneme analysis with the dictionary template. For example, in the case of the emotion of “anger”, a word representing anger (for example, “anger”, “talk”) is prepared as a dictionary template. Dictionary templates are similarly prepared for emotions such as “joy” and “sorrow”. Then, the phoneme data obtained from the phoneme analysis result is compared with these dictionary templates to check the matching, thereby estimating the emotion.

音強度分析に基づく方法と、音素解析に基づく方法を組み合わせてもよい。例えば、どちらも同じ感情を推定した場合は、その感情を選択し、異なる場合は、乱数によって確率的にどちらかの感情を選択してもよい。   A method based on sound intensity analysis and a method based on phoneme analysis may be combined. For example, if both estimate the same emotion, the emotion may be selected, and if different, either emotion may be selected probabilistically by a random number.

また、別の感情推定手法として、音声信号の周波数や振幅に関する特徴量に基づいて話者の感情を推定する方法もある。例えば、発話中の音声の基本周波数の最大値や振幅の最大値を特徴量として使用できる。感情推定部231は、各感情について事前に取得しておいた特徴量の基準データと、音声解析部により取得した特徴量のデータとを比較することにより、話者の感情を推定する。   As another emotion estimation method, there is also a method for estimating a speaker's emotion based on a feature amount related to the frequency and amplitude of a voice signal. For example, the maximum value of the fundamental frequency and the maximum value of the amplitude of the voice being spoken can be used as the feature amount. The emotion estimation unit 231 estimates the speaker's emotion by comparing the reference data of the feature amount acquired in advance for each emotion with the feature amount data acquired by the speech analysis unit.

感情推定部231において上記種々の方法のいずれかにより得られた感情推定結果(感情の種類や強度など)が、アニメーション顔合成部235に送られる。   Emotion estimation results (such as emotion type and intensity) obtained by any of the above-described various methods in the emotion estimation unit 231 are sent to the animation face synthesis unit 235.

次に、アニメーション顔合成用データベース233について説明する。アニメーション顔合成用データベース233には、例えば、CGキャラクタを基にした顔の形状データや、写真を基にした顔の形状データが格納されている。この顔形状データは、例えば、目、鼻、口、眉、耳、頭髪などの部品で構成される。   Next, the animation face synthesis database 233 will be described. The animation face synthesis database 233 stores, for example, face shape data based on CG characters and face shape data based on photographs. This face shape data is composed of parts such as eyes, nose, mouth, eyebrows, ears, and hair.

アニメーション顔合成用データベース233には、顔形状データの他にも、表情データ、表情動作データ、表情パターンデータなどを格納してもよい。表情データとは、テクスチャを貼り変える合成方法において、笑った表情のテクスチャ、泣いた表情のテクスチャ、その途中段階のテクスチャなどが表情データである。表情パターンデータは、ある表情データから別の表情データへの移行に関するデータであり、ある表情データから移行可能な表情データの情報やその移行確率の情報などを含む。表情動作データは、CGキャラクタの顔の表情を生成するためのデータである。具体的には、顔の形状を変形する場合に、顔の形状データのうち、表情を生成する眉、目や口などの端点に対応する頂点座標の移動量の時系列データが表情動作データである。   The animation face synthesis database 233 may store facial expression data, facial expression motion data, facial expression pattern data, etc. in addition to facial shape data. The expression data is expression data including a texture of a laughing expression, a texture of a crying expression, a texture in the middle of the expression, and the like in a composition method for pasting textures. The facial expression pattern data is data relating to transition from one facial expression data to another facial expression data, and includes information on facial expression data that can be transitioned from certain facial expression data, information on the transition probability, and the like. The expression motion data is data for generating a facial expression of the CG character. Specifically, when transforming the shape of the face, the time series data of the amount of movement of the vertex coordinates corresponding to the end points such as the eyebrows, eyes, and mouth that generate the facial expression of the facial shape data is the facial expression action data. is there.

次に、アニメーション顔合成部235について説明する。アニメーション顔合成部235は、感情推定部231により推定された通話中のクライアントの感情に基づいて、推定された感情が表現されているアニメーション顔を合成する。合成の際、アニメーション合成用データベース233に格納されているデータを用いてもよい。各種の感情を表現したアニメーション顔を生成するには、例えば、いわゆるフェイシャルアニメーション技術を用いることができる。具体的には、顔の形状を変形したり、顔のテクスチャを貼り変えることにより感情を表現したアニメーション顔を生成してもよい。顔の形状を変形する手法では、例えば、上記の表情動作データに基づき、眉、目、口、鼻、耳、顔等の形状を変形させることにより各感情を表現する。顔のテクスチャを貼り変える手法では、表情パターンデータを考慮に入れて表情データを用いてテクスチャの貼り変えを行うこともできる。   Next, the animation face synthesis unit 235 will be described. The animation face synthesis unit 235 synthesizes an animation face in which the estimated emotion is expressed based on the client's emotion during the call estimated by the emotion estimation unit 231. At the time of composition, data stored in the animation composition database 233 may be used. In order to generate an animation face expressing various emotions, for example, a so-called facial animation technique can be used. Specifically, an animated face expressing an emotion may be generated by changing the shape of the face or pasting the texture of the face. In the method of deforming the shape of the face, for example, each emotion is expressed by deforming the shape of the eyebrows, eyes, mouth, nose, ears, face, etc. based on the expression motion data. In the method of changing the texture of the face, the expression pattern data can be taken into account and the texture can be changed using the expression data.

図4は、本発明のアニメーション顔生成部229により生成されるアニメーション顔を例示する。図4の(a)、(b)、(c)のアニメーション顔は、それぞれ、「喜」、「怒」、「哀」の感情を表現している。アニメーション顔合成部235は、感情推定部231により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されている色を選択し、選択された色を背景色としてアニメーション顔に付加してもよい。例えば、スーパーバイザに分かりやすいように、クライアントの声が穏やかな状態であればアニメーションの背景を青色、クライアントの声が怒っている状態であればアニメーションの背景を赤色、などの効果を追加してもよい。   FIG. 4 illustrates an animation face generated by the animation face generation unit 229 of the present invention. The animation faces in FIGS. 4A, 4B, and 4C express emotions of “joy”, “anger”, and “sorrow”, respectively. The animation face synthesis unit 235 selects a color expressing the estimated emotion for each user based on the emotion estimated by the emotion estimation unit 231 and adds the selected color to the animation face as a background color. May be. For example, if the client's voice is calm, the animation background is blue, and if the client's voice is angry, the animation background is red. Good.

図5は、本発明の第1の実施形態におけるスーパーバイザ端末の構成を示す。スーパーバイザ端末109は、画面合成部301と表示部303と選択入力受付部305と選択信号出力部307と音声処理部309と音声出力部311から構成されている。画面合成部301は、コールセンターシステム101のアニメーション顔生成部229−1,・・・,229−Nから送られてくる夫々のクライアントのアニメーション顔の映像データを受信し、画面を合成する。合成された画面データは表示部303に送られ、表示装置に合成画面を表示する。図6は、表示装置にアニメーション顔を表示した例を示す。通話している12人のクライアントの感情を表現したアニメーション顔が、縦4列、横3列に並べて表示されている。図6の表示例では、怒っているアニメーション顔の背景には、他の感情の顔の背景色とは異なる背景色(この場合は赤色)が付加され、スーパーバイザに分かりやすくなっている。   FIG. 5 shows the configuration of the supervisor terminal in the first embodiment of the present invention. The supervisor terminal 109 includes a screen composition unit 301, a display unit 303, a selection input reception unit 305, a selection signal output unit 307, an audio processing unit 309, and an audio output unit 311. The screen synthesis unit 301 receives the video data of the animation faces of the respective clients sent from the animation face generation units 229-1, ..., 229-N of the call center system 101, and synthesizes the screen. The synthesized screen data is sent to the display unit 303, and the synthesized screen is displayed on the display device. FIG. 6 shows an example in which an animated face is displayed on the display device. Animated faces that express the emotions of the 12 clients who are talking are displayed side by side in 4 columns and 3 columns. In the display example of FIG. 6, a background color (in this case, red) different from the background color of other emotional faces is added to the background of the angry animated face, making it easier for the supervisor to understand.

このように並べて一覧表示することにより、スーパーバイザは、複数のクライアントの喜怒哀楽の状況を一度に、リアルタイムで把握することができる。スーパーバイザは、アニメーションの表情を見て、例えばクライアントの怒りが強く緊急度が高いと判断できるものを優先して音声のモニタリングを開始するなど、効率的にオペレータにアドバイスを送ることができる。   By displaying the list side by side in this way, the supervisor can grasp the state of emotions of a plurality of clients at a time in real time. The supervisor can efficiently send advice to the operator, for example, by starting voice monitoring by giving priority to a client who can determine that the client's anger is strong and the degree of urgency is high.

例えば、第kクライアント(kは1〜Nの任意の番号)のアニメーション顔が怒った表情をしている場合に、スーパーバイザは第kクライアントと第kオペレータとの通話をモニターできるように構成してもよい。通話をモニターする場合、まず、スーパーバイザは、マウス、キーボード、タッチパネル、ボタンなど適当な入力手段により、通話モニターしたいクライアントを選択する。その選択入力が選択入力受付部305により受け付けられ、選択対象を示す選択信号が選択信号出力部307からコールセンターシステム101の選択部245(図2)に送られる。選択部245では、選択信号が示すクライアントとその相手のオペレータの通話音声データが選択されてスーパーバイザ端末109の音声処理部309に送られる。図5では、第kクライアントが選択されているので、第kクライアントの音声データと第kオペレータの音声データとが加え合わされた音声データ(図2参照)が音声処理部309に送られる。音声処理部309においてデコード等の処理が行われ、音声出力部311を介してスピーカから第kクライアントと第kオペレータの通話音声が出力される。このようにして、スーパーバイザは任意のクライアントとその相手のオペレータの通話をモニターすることができる。   For example, when the animated face of the kth client (k is an arbitrary number from 1 to N) has an angry expression, the supervisor can be configured to monitor the call between the kth client and the kth operator. Also good. When monitoring a call, first, the supervisor selects a client to be monitored by an appropriate input means such as a mouse, keyboard, touch panel, or button. The selection input is received by the selection input receiving unit 305, and a selection signal indicating the selection target is sent from the selection signal output unit 307 to the selection unit 245 (FIG. 2) of the call center system 101. In the selection unit 245, the call voice data of the client and the partner operator indicated by the selection signal are selected and sent to the voice processing unit 309 of the supervisor terminal 109. In FIG. 5, since the kth client is selected, the voice data (see FIG. 2) obtained by adding the voice data of the kth client and the voice data of the kth operator is sent to the voice processing unit 309. The voice processing unit 309 performs processing such as decoding, and the voices of the kth client and the kth operator are output from the speaker via the voice output unit 311. In this way, the supervisor can monitor the call between any client and its counterpart operator.

上述したように、本発明の第1の実施態様では、コールセンターシステム内に、クライアント側から入力された音声を基に感情を推定する感情推定機能、及び推定した結果をもとにアニメーション映像を生成する機能をクライアント毎に備え、生成されたアニメーションを、スーパーバイザの監視するモニタ上に映し出すことで、スーパーバイザにとって一目見て分かりやすくクライアントの様子を把握し、効率良くオペレータに指示を出すことができる。   As described above, in the first embodiment of the present invention, in the call center system, an emotion estimation function for estimating an emotion based on voice input from the client side, and an animation image based on the estimation result are generated. This function is provided for each client, and the generated animation is displayed on a monitor monitored by the supervisor, so that the supervisor can grasp the state of the client at a glance and can efficiently instruct the operator.

感情推定部231では、予めサーバに設定されていた情報を基に、アニメーションを生成する必要のあるクライアントの音声を解析し、解析結果から感情を推定してもよい。また、推定結果に合わせてアニメーション顔を生成する際の元となる画像は、リアル感を出すために人の写真を元としても良いし、キャラクターのような画像が元であっても良い。   The emotion estimation unit 231 may analyze the voice of a client that needs to generate an animation based on information previously set in the server, and estimate the emotion from the analysis result. In addition, an image that is a base for generating an animation face in accordance with the estimation result may be based on a person's photograph in order to give a real feeling, or may be based on an image such as a character.

次に、本発明の第2の実施形態について、図7、8及び9を参照して詳細に説明する。   Next, a second embodiment of the present invention will be described in detail with reference to FIGS.

図7は、本発明の第2の実施形態の全体構成を示す。図2に示された本発明の第1の実施形態と比べて、コールセンターシステム101内にアニメーション生成の機能を備えず、オペレータの使用する端末(107−1,107−2,・・・,107−N)にそれぞれアニメーション顔生成部(229−1,229−2,・・・,229−N)が設けられている点、及びコールセンターシステム101内に設けられていたクライアントの通話音声の選択部245が、スーパーバイザ端末109内に選択部315(図9)として設けられている点で異なり、その他の構成は同じである。   FIG. 7 shows the overall configuration of the second embodiment of the present invention. Compared with the first embodiment of the present invention shown in FIG. 2, the call center system 101 does not have an animation generation function, and terminals (107-1, 107-2,... -N) are provided with animation face generation units (229-1, 229-2,..., 229-N), respectively, and a client call voice selection unit provided in the call center system 101. 245 is provided as a selection unit 315 (FIG. 9) in the supervisor terminal 109, and the other configurations are the same.

図8は、本発明の第2の実施形態におけるオペレータ端末の構成を示す。図8のオペレータ端末107は、図3のコールセンターシステム101の構成と比べて、合成されたアニメーション顔がエンコーダ237により映像パケットにエンコードされたデータと、クライアントとその相手のオペレータの通話音声をエンコーダ225により音声パケットにエンコードされたデータとが、多重化/送出部239Aによって多重化されてスーパーバイザ端末109に送られる点で異なり、その他の構造は同じである。   FIG. 8 shows the configuration of the operator terminal in the second embodiment of the present invention. Compared to the configuration of the call center system 101 in FIG. 3, the operator terminal 107 in FIG. 8 encodes the data in which the synthesized animation face is encoded into video packets by the encoder 237 and the call voice of the client and the partner operator. Thus, the data encoded in the voice packet is multiplexed by the multiplexing / sending unit 239A and sent to the supervisor terminal 109, and the other structures are the same.

次に、図8を参照して、本発明の第2の実施形態におけるオペレータ端末107の動作について説明する。コールセンターシステム101からオペレータの端末107に送られてくる音声を音声データ送受信部221で受信し、デコーダ223でデコードする。デコーダ223でデコードされた音声データは複製され、エンコーダ225と感情推定部231とに分けて送られる。感情推定部231では、入力された音声が現在怒っているのか、笑っているのかなど感情を推定し、その推定結果をアニメーション顔合成部235に送出する。アニメーション顔合成部235では、感情推定部231から送られた推定結果をもとにアニメーション顔合成用DB233に格納された各種データを使用してアニメーション顔の生成を行う。生成したアニメーション顔はエンコーダ237によって映像パケットデータにエンコードされ、多重化/送出部239Aに送られる。また、クライアントとその相手のオペレータの通話音声をエンコーダ225により音声パケットにエンコードされた音声パケットデータが、多重化/送出部239Aに送られる。多重化/送出部239Aでは、これらの映像パケットデータと音声パケットデータが多重化され、スーパーバイザ端末109に送られる。   Next, the operation of the operator terminal 107 according to the second embodiment of the present invention will be described with reference to FIG. The voice sent from the call center system 101 to the operator's terminal 107 is received by the voice data transmission / reception unit 221 and decoded by the decoder 223. The audio data decoded by the decoder 223 is duplicated and sent separately to the encoder 225 and the emotion estimation unit 231. The emotion estimation unit 231 estimates emotions such as whether the input voice is currently angry or laughing, and sends the estimation result to the animation face synthesis unit 235. The animation face synthesis unit 235 generates an animation face using various data stored in the animation face synthesis DB 233 based on the estimation result sent from the emotion estimation unit 231. The generated animation face is encoded into video packet data by the encoder 237 and sent to the multiplexing / sending unit 239A. Also, voice packet data obtained by encoding the voice of the call between the client and the operator of the client into voice packets by the encoder 225 is sent to the multiplexing / sending unit 239A. In the multiplexing / sending unit 239A, these video packet data and audio packet data are multiplexed and sent to the supervisor terminal 109.

オペレータ端末107をこのように構成することによって、アニメーション生成の機能を備えたコールセンターシステムを介す必要がなく、ピアツーピアなクライアントとオペレータのやりとりであってもスーパーバイザがアニメーションによって状況を把握することができる。   By configuring the operator terminal 107 in this way, it is not necessary to go through a call center system having an animation generation function, and the supervisor can grasp the situation by animation even in the case of a peer-to-peer client-operator exchange. .

図9は、本発明の第2の実施形態におけるスーパーバイザ端末の構成を示す。図9のスーパーバイザ端末109は、図5のスーパーバイザ端末と比べて、選択信号出力部307がなく、多重分離部313と選択部315が加わっている点で異なり、その他の構成は同じである。それぞれのオペレータ端末107から、各クライアントの音声データとアニメーション顔データとが多重化された信号が多重分離部313に送られる。多重分離部313では、それぞれのオペレータ端末からの信号を、アニメーション顔データとクライアントの音声データとに分離する。この場合のクライアントの音声データとは、クライアントの音声にその相手のオペレータの音声が加えられた音声データを意味する。それぞれのクライアントの顔データは画面合成部301に送られて画面が合成され、表示部303を介して表示装置に合成画面が表示される。また、多重分離部313により分離された夫々のクライアント及びオペレータの通話音声は、選択部315に送られる。選択部315では、選択入力受付部305が受け付けた選択入力に対応したクライアント(この場合は第kクライアント)及びその相手のオペレータの通話音声が選択され、音声処理部309に送られる。音声処理部309においてデコード等の処理を行い、音声出力部311を介してマイクから第kクライアントと第kオペレータの音声を出力する。   FIG. 9 shows a configuration of a supervisor terminal according to the second embodiment of the present invention. The supervisor terminal 109 in FIG. 9 is different from the supervisor terminal in FIG. 5 in that the selection signal output unit 307 is not provided, a demultiplexing unit 313 and a selection unit 315 are added, and the other configurations are the same. From each operator terminal 107, a signal obtained by multiplexing the voice data and animation face data of each client is sent to the demultiplexing unit 313. The demultiplexing unit 313 separates the signal from each operator terminal into animation face data and client voice data. In this case, the voice data of the client means voice data obtained by adding the voice of the partner operator to the voice of the client. The face data of each client is sent to the screen composition unit 301 to compose the screen, and the composition screen is displayed on the display device via the display unit 303. The call voices of the respective clients and operators separated by the demultiplexing unit 313 are sent to the selection unit 315. In the selection unit 315, the call voice of the client (in this case, the k-th client) corresponding to the selection input received by the selection input reception unit 305 and the operator of the other party is selected and sent to the voice processing unit 309. The voice processing unit 309 performs processing such as decoding, and outputs voices of the kth client and the kth operator from the microphone via the voice output unit 311.

本発明により得られる第1の効果は、クライアントの喜怒哀楽等の感情を、スーパーバイザがリアルタイムで、複数のクライアントに対して同時に把握できることである。   The first effect obtained by the present invention is that a supervisor can simultaneously grasp a client's emotions such as emotions with respect to a plurality of clients in real time.

その理由は、各クライアントの音声を基に作り出したアニメーション顔を1つの画面上に複数並べて表示することで、一人ひとりのオペレータの対応状況をその通話をモニターして確認しなくても、一目で把握できるためである。通常のコールセンターにおけるスーパーバイザの通話モニタリングでは、一人ひとりのオペレータの対応を音声を通じて監視しており、複数のオペレータに対して1人のスーパーバイザが同時に監視することができないため、効率的に状況を判断することができなかった。   The reason is that multiple animated faces created based on each client's voice are displayed side-by-side on a single screen, so it is possible to grasp each operator's response status at a glance without monitoring the call. This is because it can. In supervisor call monitoring in a normal call center, each operator's response is monitored through voice, and one supervisor cannot simultaneously monitor multiple operators, so the situation can be judged efficiently. I could not.

第2の効果は、クライアントがオペレータの気付かない内に徐々に怒ってきている場合や、急に怒り出した場合であっても、スーパーバイザがその様子を把握し、早めの対応が可能になることである。   The second effect is that even if the client is gradually getting angry without the operator's knowledge or suddenly getting angry, the supervisor can grasp the situation and take early action. It is.

その理由は、スーパーバイザが動きのあるアニメーションを基にクライアントの状況を判断することが可能になるためである。これにより、スーパーバイザはオペレータの判断のみに頼ることなく、状況を把握できるようになる。   The reason is that it becomes possible for the supervisor to judge the situation of the client based on a moving animation. As a result, the supervisor can grasp the situation without relying only on the judgment of the operator.

なお、上記の感情表現アニメーション顔表示システムは、ハードウェア、ソフトウェア又はこれらの組合わせにより実現することができる。また、上記の感情表現アニメーション顔表示システムにより行なわれる感情表現アニメーション顔表示方法も、ハードウェア、ソフトウェア又はこれらに組合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。 The emotion expression animated face display system described above can be realized by hardware, software, or a combination thereof. Also, the emotion expression animation face display method performed by the emotion expression animation face display system can be realized by hardware, software, or a combination thereof. Here, “realized by software” means realized by a computer reading and executing a program.

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。   The program may be stored using various types of non-transitory computer readable media and supplied to the computer. Non-transitory computer readable media include various types of tangible storage media. Examples of non-transitory computer readable media include magnetic recording media (for example, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (for example, magneto-optical disks), CD-ROMs (Read Only Memory), CD- R, CD-R / W, semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (random access memory)). The program may also be supplied to the computer by various types of transitory computer readable media. Examples of transitory computer readable media include electrical signals, optical signals, and electromagnetic waves. The temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
複数のユーザであって、そのそれぞれが複数のオペレータのそれぞれと少なくとも音声を用いて通話をしている複数のユーザのそれぞれの感情を前記通話で用いられるユーザの音声を基に推定する感情推定手段と、
前記感情推定手段により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されているアニメーション顔を合成するアニメーション顔合成手段と、
前記アニメーション顔合成手段により合成されたユーザ毎のアニメーション顔を視覚的にまとめて確認できるように並べて表示する表示手段と、
を備えることを特徴とする感情表現アニメーション顔表示システム。
A part or all of the above-described embodiment can be described as in the following supplementary notes, but is not limited thereto.
(Appendix 1)
Emotion estimation means for estimating the emotions of a plurality of users, each of which communicates with each of a plurality of operators using at least voice based on the voices of the users used in the call When,
Based on the emotion estimated by the emotion estimation unit, for each user, an animation face synthesis unit that synthesizes an animation face expressing the estimated emotion;
Display means for displaying the animation faces for each user synthesized by the animation face synthesizing means side by side so that they can be visually confirmed together;
An emotion expression animated face display system characterized by comprising:

(付記2)
付記1に記載の感情表現アニメーション顔表示システムであって、
前記アニメーション顔合成手段は、アニメーション合成用データベースに格納されているデータを、前記感情推定手段により合成された感情に基づいて、合成することにより、推定された感情が表現されているアニメーション顔を合成することを特徴とする感情表現アニメーション顔表示システム。
(Appendix 2)
An emotion expression animated face display system according to appendix 1,
The animation face synthesizing unit synthesizes the animation face expressing the estimated emotion by synthesizing the data stored in the animation synthesis database based on the emotion synthesized by the emotion estimation unit. Emotion expression animated face display system characterized by doing.

(付記3)
付記1又は2に記載の感情表現アニメーション顔表示システムであって、
前記アニメーション顔合成手段は、前記感情推定手段により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されている色を選択し、選択された色を背景色としてアニメーション顔に付加することを特徴とする感情表現アニメーション顔表示システム。
(Appendix 3)
The emotion expression animated face display system according to appendix 1 or 2,
The animation face synthesizing unit selects a color expressing the estimated emotion for each user based on the emotion estimated by the emotion estimation unit, and adds the selected color to the animation face as a background color Emotion expression animated face display system characterized by doing.

(付記4)
付記1乃至3の何れか1に記載の感情表現アニメーション顔表示システムであって、
前記感情推定手段と前記アニメーション顔合成手段は、コールセンターシステムに含まれ、
前記表示手段は、スーパーバイザが利用する端末に含まれることを特徴とする感情表現アニメーション顔表示システム。
(Appendix 4)
The emotion expression animated face display system according to any one of appendices 1 to 3,
The emotion estimation means and the animation face synthesis means are included in a call center system,
The emotion expression animated face display system, wherein the display means is included in a terminal used by a supervisor.

(付記5)
付記1乃至3の何れか1に記載の感情表現アニメーション顔表示システムであって、
前記感情推定手段と前記アニメーション顔合成手段は、前記オペレータが利用する端末に含まれ、
前記表示手段は、スーパーバイザが利用する端末に含まれることを特徴とする感情表現アニメーション顔表示システム。
(Appendix 5)
The emotion expression animated face display system according to any one of appendices 1 to 3,
The emotion estimation means and the animation face synthesis means are included in a terminal used by the operator,
The emotion expression animated face display system, wherein the display means is included in a terminal used by a supervisor.

(付記6)
付記1乃至6の何れか1に記載のアニメーション顔表示システムであって、
スーパーバイザが利用する端末が、スーパーバイザにより選択されたオペレータとその相手のユーザとの通話をモニタして出力するためのモニタ手段を更に備えることを特徴とする感情表現アニメーション顔表示システム。
(Appendix 6)
The animation face display system according to any one of appendices 1 to 6,
The emotion expression animation face display system, wherein the terminal used by the supervisor further comprises monitor means for monitoring and outputting a call between the operator selected by the supervisor and the other user.

(付記7)
複数のユーザであって、そのそれぞれが複数のオペレータのそれぞれと少なくとも音声を用いて通話をしている複数のユーザのそれぞれの感情を前記通話で用いられるユーザの音声を基に推定する感情推定ステップと、
前記感情推定ステップにより推定された感情に基づいて、ユーザ毎に、推定された感情が表現されているアニメーション顔を合成するアニメーション顔合成ステップと、
前記アニメーション顔合成ステップにより合成されたユーザ毎のアニメーション顔を視覚的にまとめて確認できるように並べて表示する表示ステップと、
を含むことを特徴とする感情表現アニメーション顔表示方法。
(Appendix 7)
Emotion estimation step of estimating the emotions of a plurality of users, each of which is talking with each of a plurality of operators using at least voice based on the voices of the users used in the call When,
Based on the emotion estimated by the emotion estimation step, for each user, an animation face synthesis step for synthesizing an animation face expressing the estimated emotion;
A display step for displaying the animation faces for each user synthesized in the animation face synthesis step side by side so that they can be visually confirmed together;
An emotion expression animated face display method characterized by comprising:

(付記8)
付記7に記載の感情表現アニメーション顔表示方法であって、
前記アニメーション顔合成ステップは、アニメーション合成用データベースに格納されているデータを、前記感情推定ステップにより推定された感情に基づいて、合成することにより、推定された感情が表現されているアニメーション顔を合成することを特徴とする感情表現アニメーション顔表示方法。
(Appendix 8)
The emotion expression animated face display method according to appendix 7,
The animation face synthesis step combines the data stored in the animation synthesis database based on the emotion estimated by the emotion estimation step, thereby synthesizing the animation face expressing the estimated emotion. An emotion expression animated face display method characterized by:

(付記9)
付記7又は8に記載の感情表現アニメーション顔表示方法であって、
前記アニメーション顔合成ステップは、前記感情推定ステップにより推定された感情に基づいて、ユーザ毎に、推定された感情が表現されている色を選択し、選択された色を背景色としてアニメーション顔に付加することを特徴とする感情表現アニメーション顔表示方法。
(Appendix 9)
The emotion expression animated face display method according to appendix 7 or 8,
The animation face synthesis step selects a color expressing the estimated emotion for each user based on the emotion estimated by the emotion estimation step, and adds the selected color to the animation face as a background color An emotion expression animated face display method characterized by:

(付記10)
付記7乃至9の何れか1に記載の感情表現アニメーション顔表示方法であって、
前記感情推定ステップと前記アニメーション顔合成ステップは、コールセンターシステムにより実行され、
前記表示ステップは、スーパーバイザが利用する端末により実行されることを特徴とする感情表現アニメーション顔表示方法。
(Appendix 10)
The emotion expression animated face display method according to any one of appendices 7 to 9,
The emotion estimation step and the animation face synthesis step are executed by a call center system,
The emotion expression animated face display method, wherein the display step is executed by a terminal used by a supervisor.

(付記11)
付記7乃至9の何れか1に記載の感情表現アニメーション顔表示方法であって、
前記感情推定ステップと前記アニメーション顔合成ステップは、前記オペレータが利用する端末により実行され、
前記表示ステップは、スーパーバイザが利用する端末により実行されることを特徴とする感情表現アニメーション顔表示方法。
(Appendix 11)
The emotion expression animated face display method according to any one of appendices 7 to 9,
The emotion estimation step and the animation face synthesis step are executed by a terminal used by the operator,
The emotion expression animated face display method, wherein the display step is executed by a terminal used by a supervisor.

(付記12)
付記7乃至11の何れか1に記載のアニメーション顔表示方法であって、
スーパーバイザが利用する端末において、スーパーバイザにより選択されたオペレータとその相手のユーザとの通話をモニタして出力するモニタステップを更に含むことを特徴とする感情表現アニメーション顔表示方法。
(Appendix 12)
The animation face display method according to any one of appendices 7 to 11,
An emotion expression animated face display method characterized by further comprising a monitor step of monitoring and outputting a call between an operator selected by the supervisor and a user of the other party at a terminal used by the supervisor.

(付記13)
コンピュータに、
複数のユーザであって、そのそれぞれが複数のオペレータのそれぞれと少なくとも音声を用いて通話をしている複数のユーザのそれぞれの感情を前記通話で用いられるユーザの音声を基に推定する感情推定手順と、
前記感情推定手順により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されているアニメーション顔を合成するアニメーション顔合成手順と、
前記アニメーション顔合成手順により合成されたユーザ毎のアニメーション顔を視覚的にまとめて確認できるように並べて表示する表示手順と、
を実行させることを特徴とする感情表現アニメーション顔表示プログラム。
(Appendix 13)
On the computer,
Emotion estimation procedure for estimating the emotions of a plurality of users who are communicating with each of a plurality of operators using at least voice based on the voices of the users used in the call When,
Based on the emotion estimated by the emotion estimation procedure, for each user, an animation face synthesis procedure for synthesizing an animated face expressing the estimated emotion;
A display procedure for displaying the animation faces for each user synthesized by the animation face synthesis procedure side by side so that they can be visually confirmed together;
Emotion expression animation face display program characterized by running.

(付記14)
付記13に記載の感情表現アニメーション顔表示プログラムであって、
前記アニメーション顔合成手順は、アニメーション合成用データベースに格納されているデータを、前記感情推定手順により推定された感情に基づいて、合成することにより、推定された感情が表現されているアニメーション顔を合成することを特徴とする感情表現アニメーション顔表示プログラム。
(Appendix 14)
An emotion expression animated face display program according to attachment 13,
The animation face synthesis procedure combines the data stored in the animation synthesis database based on the emotion estimated by the emotion estimation procedure, thereby synthesizing the animation face expressing the estimated emotion. Emotion expression animated face display program characterized by doing.

(付記15)
付記13又は14に記載の感情表現アニメーション顔表示プログラムであって、
前記アニメーション顔合成手順は、前記感情推定手順により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されている色を選択し、選択された色を背景色としてアニメーション顔に付加することを特徴とする感情表現アニメーション顔表示プログラム。
(Appendix 15)
An emotion expression animated face display program according to appendix 13 or 14,
The animation face synthesis procedure selects a color expressing the estimated emotion for each user based on the emotion estimated by the emotion estimation procedure, and adds the selected color to the animation face as a background color Emotion expression animated face display program characterized by doing.

(付記16)
付記13乃至15の何れか1に記載の感情表現アニメーション顔表示プログラムであって、
前記感情推定手順と前記アニメーション顔合成手順は、コールセンターシステムにおいて実行させ、
前記表示手順は、スーパーバイザが利用する端末において実行させることを特徴とする感情表現アニメーション顔表示プログラム。
(Appendix 16)
The emotion expression animation face display program according to any one of appendices 13 to 15,
The emotion estimation procedure and the animation face synthesis procedure are executed in a call center system,
An emotion expression animated face display program characterized in that the display procedure is executed in a terminal used by a supervisor.

(付記17)
付記13乃至15の何れか1に記載の感情表現アニメーション顔表示プログラムであって、
前記感情推定手順と前記アニメーション顔合成手順は、前記オペレータが利用する端末において実行させ、
前記表示手順は、スーパーバイザが利用する端末において実行させることを特徴とする感情表現アニメーション顔表示プログラム。
(Appendix 17)
The emotion expression animation face display program according to any one of appendices 13 to 15,
The emotion estimation procedure and the animation face synthesis procedure are executed in a terminal used by the operator,
An emotion expression animated face display program characterized in that the display procedure is executed in a terminal used by a supervisor.

(付記18)
付記13乃至17の何れか1に記載のアニメーション顔表示プログラムであって、
スーパーバイザが利用する端末において、スーパーバイザにより選択されたオペレータとその相手のユーザとの通話をモニタして出力するモニタ手順を更に実行させることを特徴とする感情表現アニメーション顔表示システム。
(Appendix 18)
The animation face display program according to any one of appendices 13 to 17,
An emotion expression animated face display system, further comprising a monitor procedure for monitoring and outputting a call between an operator selected by a supervisor and a user of the other party at a terminal used by the supervisor.

本発明はコールセンターに利用できるほか、テレビ電話、ビデオ会議システム、及びそれらに用いられる各種アプリケーションに利用できる。   The present invention can be used for a call center, a video phone, a video conference system, and various applications used for them.

101 コールセンターシステム
103 ゲートウェイ
105 クライアント端末
107 オペレータ端末
109 スーパーバイザ端末
121 SIP制御部
123 RTP制御部
125 インターフェース部
221 音声データ送受信部
223 デコーダ
225 エンコーダ
227 音声データ受入/送出部
229 アニメーション顔生成部
231 感情推定部
233 アニメーション顔合成用データベース
235 アニメーション顔合成部
237 エンコーダ
239 映像データ送出部
239A 多重化/送出部
245 選択部
301 画面合成部
303 表示部
305 選択入力受付部
307 選択信号出力部
309 音声処理部
311 音声出力部
313 多重分離部
101 Call Center System 103 Gateway 105 Client Terminal 107 Operator Terminal 109 Supervisor Terminal 121 SIP Control Unit 123 RTP Control Unit 125 Interface Unit 221 Audio Data Transmit / Receive Unit 223 Decoder 225 Encoder 227 Audio Data Reception / Transmission Unit 229 Animation Face Generation Unit 231 Emotion Estimation Unit 233 Animation face synthesis database 235 Animation face synthesis unit 237 Encoder 239 Video data transmission unit 239A Multiplex / transmission unit 245 Selection unit 301 Screen synthesis unit 303 Display unit 305 Selection input reception unit 307 Selection signal output unit 309 Audio processing unit 311 Audio Output unit 313 Demultiplexing unit

Claims (10)

複数のユーザであって、そのそれぞれが複数のオペレータのそれぞれと少なくとも音声を用いて通話をしている複数のユーザのそれぞれの感情を前記通話で用いられるユーザの音声を基に推定する感情推定手段と、
前記感情推定手段により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されているアニメーション顔を合成するアニメーション顔合成手段と、
前記アニメーション顔合成手段により合成されたユーザ毎のアニメーション顔を視覚的にまとめて確認できるように並べて表示する表示手段と、
を備えることを特徴とする感情表現アニメーション顔表示システム。
Emotion estimation means for estimating the emotions of a plurality of users, each of which communicates with each of a plurality of operators using at least voice based on the voices of the users used in the call When,
Based on the emotion estimated by the emotion estimation unit, for each user, an animation face synthesis unit that synthesizes an animation face expressing the estimated emotion;
Display means for displaying the animation faces for each user synthesized by the animation face synthesizing means side by side so that they can be visually confirmed together;
An emotion expression animated face display system characterized by comprising:
請求項1に記載の感情表現アニメーション顔表示システムであって、
前記アニメーション顔合成手段は、アニメーション合成用データベースに格納されているデータを、前記感情推定手段により推定された感情に基づいて、合成することにより、推定された感情が表現されているアニメーション顔を合成することを特徴とする感情表現アニメーション顔表示システム。
The emotion expression animated face display system according to claim 1,
The animation face synthesizing unit synthesizes the data stored in the animation synthesis database based on the emotion estimated by the emotion estimation unit, thereby synthesizing the animation face expressing the estimated emotion. Emotion expression animated face display system characterized by doing.
請求項1又は2に記載の感情表現アニメーション顔表示システムであって、
前記アニメーション顔合成手段は、前記感情推定手段により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されている色を選択し、選択された色を背景色としてアニメーション顔に付加することを特徴とする感情表現アニメーション顔表示システム。
The emotion expression animated face display system according to claim 1 or 2,
The animation face synthesizing unit selects a color expressing the estimated emotion for each user based on the emotion estimated by the emotion estimation unit, and adds the selected color to the animation face as a background color Emotion expression animated face display system characterized by doing.
請求項1乃至3の何れか1項に記載の感情表現アニメーション顔表示システムであって、
前記感情推定手段と前記アニメーション顔合成手段は、コールセンターシステムに含まれ、
前記表示手段は、スーパーバイザが利用する端末に含まれることを特徴とする感情表現アニメーション顔表示システム。
The emotion expression animated face display system according to any one of claims 1 to 3,
The emotion estimation means and the animation face synthesis means are included in a call center system,
The emotion expression animated face display system, wherein the display means is included in a terminal used by a supervisor.
請求項1乃至3の何れか1項に記載の感情表現アニメーション顔表示システムであって、
前記感情推定手段と前記アニメーション顔合成手段は、前記オペレータが利用する端末に含まれ、
前記表示手段は、スーパーバイザが利用する端末に含まれることを特徴とする感情表現アニメーション顔表示システム。
The emotion expression animated face display system according to any one of claims 1 to 3,
The emotion estimation means and the animation face synthesis means are included in a terminal used by the operator,
The emotion expression animated face display system, wherein the display means is included in a terminal used by a supervisor.
請求項1乃至5の何れか1項に記載のアニメーション顔表示システムであって、
スーパーバイザが利用する端末が、スーパーバイザにより選択されたオペレータとその相手のユーザとの通話をモニタして出力するためのモニタ手段を更に備えることを特徴とする感情表現アニメーション顔表示システム。
The animation face display system according to any one of claims 1 to 5,
The emotion expression animation face display system, wherein the terminal used by the supervisor further comprises monitor means for monitoring and outputting a call between the operator selected by the supervisor and the other user.
複数のユーザであって、そのそれぞれが複数のオペレータのそれぞれと少なくとも音声を用いて通話をしている複数のユーザのそれぞれの感情を前記通話で用いられるユーザの音声を基に推定する感情推定ステップと、
前記感情推定ステップにより推定された感情に基づいて、ユーザ毎に、推定された感情が表現されているアニメーション顔を合成するアニメーション顔合成ステップと、
前記アニメーション顔合成ステップにより合成されたユーザ毎のアニメーション顔を視覚的にまとめて確認できるように並べて表示する表示ステップと、
を含むことを特徴とする感情表現アニメーション顔表示方法。
Emotion estimation step of estimating the emotions of a plurality of users, each of which is talking with each of a plurality of operators using at least voice based on the voices of the users used in the call When,
Based on the emotion estimated by the emotion estimation step, for each user, an animation face synthesis step for synthesizing an animation face expressing the estimated emotion;
A display step for displaying the animation faces for each user synthesized in the animation face synthesis step side by side so that they can be visually confirmed together;
An emotion expression animated face display method characterized by comprising:
請求項7に記載の感情表現アニメーション顔表示方法であって、
前記アニメーション顔合成ステップは、アニメーション合成用データベースに格納されているデータを、前記感情推定ステップにより推定された感情に基づいて、合成することにより、推定された感情が表現されているアニメーション顔を合成することを特徴とする感情表現アニメーション顔表示方法。
The emotion expression animated face display method according to claim 7,
The animation face synthesis step combines the data stored in the animation synthesis database based on the emotion estimated by the emotion estimation step, thereby synthesizing the animation face expressing the estimated emotion. An emotion expression animated face display method characterized by:
請求項7又は8に記載の感情表現アニメーション顔表示方法であって、
前記アニメーション顔合成ステップは、前記感情推定ステップにより推定された感情に基づいて、ユーザ毎に、推定された感情が表現されている色を選択し、選択された色を背景色としてアニメーション顔に付加することを特徴とする感情表現アニメーション顔表示方法。
The emotion expression animated face display method according to claim 7 or 8,
The animation face synthesis step selects a color expressing the estimated emotion for each user based on the emotion estimated by the emotion estimation step, and adds the selected color to the animation face as a background color An emotion expression animated face display method characterized by:
コンピュータに、
複数のユーザであって、そのそれぞれが複数のオペレータのそれぞれと少なくとも音声を用いて通話をしている複数のユーザのそれぞれの感情を前記通話で用いられるユーザの音声を基に推定する感情推定手順と、
前記感情推定手順により推定された感情に基づいて、ユーザ毎に、推定された感情が表現されているアニメーション顔を合成するアニメーション顔合成手順と、
前記アニメーション顔合成手順により合成されたユーザ毎のアニメーション顔を視覚的にまとめて確認できるように並べて表示する表示手順と、
を実行させることを特徴とする感情表現アニメーション顔表示プログラム。
On the computer,
Emotion estimation procedure for estimating the emotions of a plurality of users who are communicating with each of a plurality of operators using at least voice based on the voices of the users used in the call When,
Based on the emotion estimated by the emotion estimation procedure, for each user, an animation face synthesis procedure for synthesizing an animated face expressing the estimated emotion;
A display procedure for displaying the animation faces for each user synthesized by the animation face synthesis procedure side by side so that they can be visually confirmed together;
Emotion expression animation face display program characterized by running.
JP2012087503A 2012-04-06 2012-04-06 Emotion-expressing animation face display system, method, and program Pending JP2013219495A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012087503A JP2013219495A (en) 2012-04-06 2012-04-06 Emotion-expressing animation face display system, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012087503A JP2013219495A (en) 2012-04-06 2012-04-06 Emotion-expressing animation face display system, method, and program

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2014234111A Division JP2015092347A (en) 2014-11-19 2014-11-19 Emotion-expressing animation face display system, method and program

Publications (1)

Publication Number Publication Date
JP2013219495A true JP2013219495A (en) 2013-10-24

Family

ID=49591160

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012087503A Pending JP2013219495A (en) 2012-04-06 2012-04-06 Emotion-expressing animation face display system, method, and program

Country Status (1)

Country Link
JP (1) JP2013219495A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018170611A (en) * 2017-03-29 2018-11-01 株式会社日立情報通信エンジニアリング Call center system and telephone call monitoring method
JP2019012506A (en) * 2017-06-29 2019-01-24 ネイバー コーポレーションNAVER Corporation Method and system for automatic activation of machine
CN110379430A (en) * 2019-07-26 2019-10-25 腾讯科技(深圳)有限公司 Voice-based cartoon display method, device, computer equipment and storage medium
CN112614212A (en) * 2020-12-16 2021-04-06 上海交通大学 Method and system for realizing video-audio driving human face animation by combining tone and word characteristics

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002298155A (en) * 2001-03-29 2002-10-11 Hic:Kk Emotion-oriented three-dimensional computer graphics expression model forming system
JP2004252668A (en) * 2003-02-19 2004-09-09 Fujitsu Ltd Contact center managing and controlling program, device and method
JP2009294647A (en) * 2008-05-09 2009-12-17 Agi:Kk Action analysis device and call center system
JP2010068341A (en) * 2008-09-11 2010-03-25 Hitachi Information & Control Solutions Ltd Call center system
JP2011029688A (en) * 2009-07-21 2011-02-10 Oki Networks Co Ltd Method of recording and reproducing call and call recorder

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002298155A (en) * 2001-03-29 2002-10-11 Hic:Kk Emotion-oriented three-dimensional computer graphics expression model forming system
JP2004252668A (en) * 2003-02-19 2004-09-09 Fujitsu Ltd Contact center managing and controlling program, device and method
JP2009294647A (en) * 2008-05-09 2009-12-17 Agi:Kk Action analysis device and call center system
JP2010068341A (en) * 2008-09-11 2010-03-25 Hitachi Information & Control Solutions Ltd Call center system
JP2011029688A (en) * 2009-07-21 2011-02-10 Oki Networks Co Ltd Method of recording and reproducing call and call recorder

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018170611A (en) * 2017-03-29 2018-11-01 株式会社日立情報通信エンジニアリング Call center system and telephone call monitoring method
JP2019012506A (en) * 2017-06-29 2019-01-24 ネイバー コーポレーションNAVER Corporation Method and system for automatic activation of machine
CN110379430A (en) * 2019-07-26 2019-10-25 腾讯科技(深圳)有限公司 Voice-based cartoon display method, device, computer equipment and storage medium
CN110379430B (en) * 2019-07-26 2023-09-22 腾讯科技(深圳)有限公司 Animation display method and device based on voice, computer equipment and storage medium
CN112614212A (en) * 2020-12-16 2021-04-06 上海交通大学 Method and system for realizing video-audio driving human face animation by combining tone and word characteristics
CN112614212B (en) * 2020-12-16 2022-05-17 上海交通大学 Method and system for realizing video-audio driving human face animation by combining tone and word characteristics

Similar Documents

Publication Publication Date Title
CN110446000B (en) Method and device for generating dialogue figure image
US6882971B2 (en) Method and apparatus for improving listener differentiation of talkers during a conference call
CN112312297B (en) Audio bandwidth reduction
JP2015092347A (en) Emotion-expressing animation face display system, method and program
JP2006330958A (en) Image composition device, communication terminal using the same, and image communication system and chat server in the system
US20080151786A1 (en) Method and apparatus for hybrid audio-visual communication
CN106063238B (en) Mixing continuous perceptually in videoconference
JP2004289254A (en) Videophone terminal
EP2574050A1 (en) Method, apparatus and remote video conference system for playing audio of remote participator
US11632627B2 (en) Systems and methods for distinguishing audio using positional information
US20040249967A1 (en) Primary data stream communication
JP2013219495A (en) Emotion-expressing animation face display system, method, and program
JP2000231644A (en) Speaker, specifying method for virtual space and recording medium where program thereof is recorded
CN109802968B (en) Conference speaking system
JP2011118632A (en) Method, device and program for detecting and transmitting preliminary motion of speech
WO2022137547A1 (en) Communication assistance system
Skowronek Quality of experience of multiparty conferencing and telemeeting systems
Altunbasak et al. Realizing the Vision of Immersive Communication [From the Guest Editors]
JP2023155921A (en) Information processing device, information processing terminal, information processing method, and program
JP2009112027A (en) Video telephone terminal
JP5164911B2 (en) Avatar generating apparatus, method and program
WO2018088210A1 (en) Information processing device and method, and program
JP2001357414A (en) Animation communicating method and system, and terminal equipment to be used for it
US11764984B2 (en) Teleconference method and teleconference system
Skowronek Quality of experience of multiparty conferencing and telemeeting systems: methods and models for assessment and prediction

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140328

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140902

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141119

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20141128

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20150130