JP2020071676A - Speech summary generation apparatus, speech summary generation method, and program - Google Patents
Speech summary generation apparatus, speech summary generation method, and program Download PDFInfo
- Publication number
- JP2020071676A JP2020071676A JP2018205371A JP2018205371A JP2020071676A JP 2020071676 A JP2020071676 A JP 2020071676A JP 2018205371 A JP2018205371 A JP 2018205371A JP 2018205371 A JP2018205371 A JP 2018205371A JP 2020071676 A JP2020071676 A JP 2020071676A
- Authority
- JP
- Japan
- Prior art keywords
- text
- voice
- dialogue
- unit
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 77
- 230000008451 emotion Effects 0.000 claims abstract description 125
- 230000002996 emotional effect Effects 0.000 claims abstract description 62
- 230000014509 gene expression Effects 0.000 claims abstract description 49
- 238000000926 separation method Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 71
- 230000008569 process Effects 0.000 claims description 54
- 238000012937 correction Methods 0.000 claims description 18
- 230000008030 elimination Effects 0.000 claims description 12
- 238000003379 elimination reaction Methods 0.000 claims description 12
- 230000007704 transition Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 description 29
- 230000000670 limiting effect Effects 0.000 description 28
- 238000012805 post-processing Methods 0.000 description 28
- 230000004044 response Effects 0.000 description 28
- 238000007781 pre-processing Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 16
- 230000000877 morphologic effect Effects 0.000 description 12
- 238000004904 shortening Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 101100189471 Mus musculus Pbx1 gene Proteins 0.000 description 7
- 238000012790 confirmation Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 101100365087 Arabidopsis thaliana SCRA gene Proteins 0.000 description 2
- 241000238631 Hexapoda Species 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 101000610107 Homo sapiens Pre-B-cell leukemia transcription factor 1 Proteins 0.000 description 1
- 102100028423 MAP6 domain-containing protein 1 Human genes 0.000 description 1
- 101710163760 MAP6 domain-containing protein 1 Proteins 0.000 description 1
- 241000277269 Oncorhynchus masou Species 0.000 description 1
- 241001122315 Polites Species 0.000 description 1
- 102100040171 Pre-B-cell leukemia transcription factor 1 Human genes 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002940 repellent Effects 0.000 description 1
- 239000005871 repellent Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、対話要約生成装置、対話要約生成成方法およびプログラムに関する。より詳細には、本発明は、例えば顧客と応対担当者の電話もしくは対面でなされた対話を録音蓄積して管理するCustomer Relationship Management(CRM)システムに利用可能な、録音された対話音声から要約を作成し、生成された要約を出力するための技術に関する。 The present invention relates to a dialogue summary generation device, a dialogue summary generation method, and a program. More particularly, the present invention provides a summary from recorded dialogue voices available in, for example, a Customer Relationship Management (CRM) system that records and manages telephone or face-to-face dialogues between customers and contacts. A technique for creating and outputting a generated summary.
顧客と事業者との間でなされた対話音声を事業者側において録音して管理する各種技術が提案されている。近年では、事業者のコンプライアンス遵守、顧客からのクレーム対策、および事業者側オペレータの評価や教育等の目的のため、電話での通話に限らず、対面による対話を含めて、あらゆる場面で対話内容の録音蓄積が要請されている。 Various technologies have been proposed for recording and managing a dialogue voice made between a customer and a business on the business side. In recent years, for the purpose of compliance with business operators, measures against complaints from customers, and evaluation and education of business operators, the content of dialogue is not limited to telephone calls but also includes face-to-face dialogue. Is requested to be recorded.
一例として、顧客からの電話応対部署であるコールセンタにおけるオペレータの通話内容をデータ化して録音するとともに検索するための通話録音システムにおいては、一般に、事業者が運営するコールセンタ等の構内には、公衆電話交換回線網(Publi Switched Telephone Network:PSTN)からの発信および受信が集中する交換機(PBX)が設置され、この交換機により音声通話がコールセンタ構内の固定電話に分配される。 As an example, in a call recording system for recording and searching the contents of an operator's call in a call center, which is a department for responding to a call from a customer, generally, a public telephone is installed on the premises of a call center operated by an operator. An exchange (PBX) is installed in which calls and receptions from a public switched telephone network (PSTN) are concentrated, and a voice call is distributed to a fixed telephone in a call center by this exchange.
このため、この交換機から分岐する通話録音サーバを設ければ、通話を音声データファイルに録音蓄積することができる。オペレータ側には、音声応対用内線電話とともに、PC(Personal Computer)等の端末装置が設けられてよく、このオペレータ端末装置には、例えば、発話者が告げた顧客名をキーとして顧客情報を検索する機能や、当該顧客の過去の通話履歴を表示する機能が備えられてよい。 Therefore, if a call recording server branching from this exchange is provided, the call can be recorded and stored in a voice data file. On the operator side, a terminal device such as a PC (Personal Computer) may be provided together with a voice response extension telephone. For example, the operator terminal device retrieves customer information by using a customer name announced by a speaker as a key. The function of displaying the past call history of the customer may be provided.
このように音声データファイルに録音蓄積された顧客とオペレータとの間の音声通話につき、1回の電話応対ごと、その概要を応対履歴として記録保持し、通話終了後にこの応対履歴を閲覧およびレポートとして出力可能とすることが要請される。この応対履歴の内容を迅速に確認および照査するため、録音された音声通話からテキスト化された要約を生成することが望まれる。
このような音声データから要約テキストを作成する技術において、音声データファイル中の音声を音声認識処理により文字コード化し、文字コード化された音声テキストデータから要約テキストを生成する技術がある。テキスト化された要約を生成することで、応対履歴の内容の把握が容易となり、一覧性が提供され、さらにテキスト中の単語をキーワードに用いて検索を実行できる等、コンピュータとの柔軟な連携が可能となる。
For each voice call between the customer and operator recorded and accumulated in the voice data file in this way, an outline of the call history is recorded and retained for each telephone call, and after the call ends, this history is viewed and used as a report. Output is required. It is desirable to generate a textual summary from the recorded voice call in order to quickly verify and review the contents of this history of responses.
As a technique for creating a summary text from such voice data, there is a technique for converting the voice in a voice data file into a character code by a voice recognition process and generating a summary text from the character-coded voice text data. By generating a textual summary, the contents of the response history can be easily grasped, a list is provided, and the words in the text can be used as keywords to perform a search. It will be possible.
例えば、特許文献1は、ビデオテープレコーダ(VTR)により記録媒体に録音された音声を音声認識して文字コード列に変換し、この音声認識された文字コード列中の文の構成要素の重要度、典型的には名詞・動詞・助詞・形容詞等の品詞別、主格・目的格・述部等の句別に付与された重要度、を予め登録された重要度テーブルを参照することにより判定し、重要度が高いと判定された文中構成要素を組み合わせることで要約文を自動生成する技術を開示する。
For example, in
また、特許文献2は、音声から重要区間を抽出し、抽出された重要区間の出現分布を用いて話題境界を検出し、それぞれの話題区間に含まれる重要区間を意味分類して、重要区間の音声から話題ごとに分割されたテキストによる要約を生成する技術を開示する。
Further, in
しかしながら、上記各特許文献に開示される技術を、例えばコールセンタにおける電話応対業務に直ちに適用することは困難である。なぜなら、顧客とオペレータ間の音声通話は、通常、顧客情報の取得・確認、問い合わせ内容の取得・確認、問い合わせへの回答内容の取得・確認、顧客の理解度および免責内容の提示・確認等、多くの段階を経るため不可避的に冗長であり、また、同じ発話内容が繰り返された結果、対話が長時間に亘ることも多いからである。加えて、多数のオペレータについて終日録音蓄積される通話録音データは膨大なものとなるため、応対履歴の迅速な確認および照査を困難にする。 However, it is difficult to immediately apply the technology disclosed in each of the above patent documents to, for example, telephone answering work in a call center. Because the voice call between the customer and the operator is usually the acquisition / confirmation of the customer information, the acquisition / confirmation of the inquiry content, the acquisition / confirmation of the reply content to the inquiry, the presentation / confirmation of the customer's understanding level and the exemption content, etc. This is because it is inevitably redundant because it goes through many stages, and as a result of repeating the same utterance content, the dialogue often takes a long time. In addition, call recording data that is recorded and accumulated all day long for many operators makes it difficult to promptly check and check the response history.
このため、音声通話をそのまま音声認識して得られる音声通話テキストに公知の要約文作成技術を適用しても、生成される要約文もまた不可避的に冗長かつ長文となってしまう不都合があり、利便性が乏しかった。 Therefore, even if a well-known abstract sentence creating technique is applied to a voice call text obtained by directly recognizing a voice call, there is an inconvenience that the generated summary sentence is inevitably redundant and long. It was not convenient.
一方、対話中の話者の感情は一律ではない。例えば、対話中に「はい」との発話が音声認識された場合、当該発話の話者が、快諾して発話した「はい」であるのか、渋々同意を余儀なくされた「はい」であるのか、異なる感情に基づく発話であり得る。
しかしながら、従来の技術では、対話中の話者の発話における感情を要約に反映することはできなかった。
On the other hand, the emotions of the speaker during the dialogue are not uniform. For example, if the utterance of "yes" is voice-recognized during the dialogue, is it the "yes" that the speaker of the utterance consented and uttered, or was the "yes" forced to consent, It can be an utterance based on different emotions.
However, with the conventional technology, it is not possible to reflect the emotion in the utterance of the speaker during the dialogue in the summary.
本発明は、上記課題に鑑みてなされたものであり、その目的は、対話音声から、十分に短縮化され、かつ対話中の話者の発話における感情が十分に反映された高精度な要約文を生成することが可能な対話要約生成装置、対話要約生成方法およびプログラムを提供することにある。 The present invention has been made in view of the above problems, and an object thereof is a highly accurate summary sentence that is sufficiently shortened from a dialogue voice and sufficiently reflects the emotion in the utterance of the speaker during the dialogue. It is an object of the present invention to provide a dialogue summary generation device, a dialogue summary generation method and a program capable of generating a dialogue.
上記課題を解決するために、本発明のある態様によれば 対話音声データから対話の話者を識別する話者識別部と、前記話者識別部により識別された話者ごとに、前記対話音声データを発話単位に分離する音声分離部と、前記対話音声データを、前記音声分離部により分離された前記発話単位で音声認識して対話音声テキストを生成する音声認識部と、前記音声認識部により生成された前記対話音声テキストを要約して要約文テキストを生成する要約生成部と、前記発話単位で前記対話音声データを解析して話者ごとの感情表現を導出し、導出された前記感情表現を前記要約文テキストに付加しまたは前記感情表現で前記要約文テキストの一部を置き換え、または前記要約文テキストに対応付けて出力する感情解析部と、を備える対話要約生成装置が提供される。 In order to solve the above problems, according to an aspect of the present invention, a speaker identification unit that identifies a speaker of a dialogue from dialogue voice data, and the dialogue voice for each speaker identified by the speaker identification unit. A voice separating unit for separating data into utterance units, a voice recognizing unit for recognizing the dialogue voice data in the utterance units separated by the voice separating unit to generate a dialogue voice text, and the voice recognizing unit. A summary generation unit that summarizes the generated dialogue voice text to generate a summary text, and analyzes the dialogue voice data for each utterance to derive an emotional expression for each speaker, and the derived emotional expression To the summary sentence text, replace part of the summary sentence text with the emotion expression, or output in association with the summary sentence text. Apparatus is provided.
前記感情解析部はさらに、前記発話単位で前記対話音声データを解析することにより、1つの対話における話者ごとの時系列上の感情の遷移を導出し、話者ごとに導出された前記感情の遷移を、前記要約文テキストに対応付けて出力してよい。 The emotion analysis unit further analyzes time-series emotional transitions for each speaker in one dialogue by analyzing the conversation voice data in units of the utterance, and the emotions derived for each speaker are analyzed. The transition may be output in association with the summary text.
前記対話要約生成装置はさらに、前記音声認識部により生成された前記対話音声テキストから、話者ごとの感情を示す感情語を抽出し、抽出された前記感情語を対応する感情表現に変換し、変換された前記感情表現で、前記要約文テキストの少なくとも一部を置き換える第2の感情解析部を備えてよい。
前記対話音声生成装置はさらに、1つの対話の単位の対話音声テキスト中に、同一ないし類似するテキストが複数回出現するか否かを判定し、同一ないし類似するテキストが複数回出現する場合には、時系列上前方に出現するテキストを削除する冗長性排除部をさらに備えてよい。
前記冗長性排除部は、さらに、予め重要語を定義する重要語テーブルを参照して、前記対話音声テキスト中から前記重要語テーブルに定義されるテキストを抽出し、抽出されたテキストの直前に位置するとともに抽出されたテキストの読みが少なくとも部分一致する第2のテキストを検索し、検索されたテキストを前記対話音声テキストから削除してよい。
The dialogue summary generation device further extracts from the dialogue voice text generated by the voice recognition unit, an emotional word indicating an emotion of each speaker, and converts the extracted emotional word into a corresponding emotional expression, A second emotion analysis unit that replaces at least a part of the summary text with the converted emotion expression may be provided.
The dialogue voice generation device further determines whether the same or similar text appears multiple times in the dialogue voice text of one dialogue unit, and when the same or similar text appears multiple times. A redundancy elimination unit may be further provided for deleting a text that appears ahead in time series.
The redundancy eliminating unit further refers to an important word table that defines important words in advance, extracts the text defined in the important word table from the dialogue voice text, and positions the text immediately before the extracted text. And extracting the second text in which the reading of the extracted text at least partially matches the reading, and deleting the searched text from the dialogue voice text.
前記対話要約生成装置はさらに、前記音声認識部により生成される前記対話音声テキストを解析して数詞を抽出し、抽出された数詞の種別に応じて異なる単位および重みを付与して、前記要約生成部へ供給するテキスト補正部を備えてよい。
前記対話要約生成装置はさらに、通話音声または対面での対話音声を録音して前記対話音声データを取得する音声取得部を備えてよい。
The dialogue summary generation device further analyzes the dialogue voice text generated by the voice recognition unit to extract a number, assigns different units and weights depending on the type of the extracted number, and generates the summary. A text correction unit may be provided to supply the unit.
The dialogue summary generation device may further include a voice acquisition unit that records a conversation voice or a face-to-face conversation voice to acquire the conversation voice data.
本発明の他の態様によれば、対話音声データから対話の話者を識別するステップと、識別された話者ごとに、前記対話音声データを発話単位に分離するステップと、前記対話音声データを、分離された前記発話単位で音声認識して対話音声テキストを生成するステップと、生成された前記対話音声テキストを要約して要約文テキストを生成するステップと、前記発話単位で前記対話音声データを解析して話者ごとの感情表現を導出し、導出された前記感情表現を前記要約文テキストに付加しまたは前記感情表現で前記要約文テキストの一部を置き換え、または前記要約文テキストに対応付けて出力するステップと、を含む対話要約生成方法が提供される。 According to another aspect of the present invention, a step of identifying a speaker of the dialogue from the dialogue voice data, a step of separating the dialogue voice data for each identified speaker into utterance units, and a step of separating the dialogue voice data A step of generating a dialogue voice text by performing voice recognition on the separated utterance unit, a step of summarizing the generated dialogue voice text to generate a summary text, and a step of generating the dialogue voice data on the utterance unit basis. Derives emotional expressions for each speaker by analysis, adds the derived emotional expressions to the summary sentence text, replaces a part of the summary sentence text with the emotion expression, or associates with the summary sentence text. And a step of outputting as a dialogue summary generation method.
本発明のさらに他の態様によれば、対話要約生成処理をコンピュータに実行させるための対話音声要約生成プログラムであって、該プログラムは、前記コンピュータに、話音声データから対話の話者を識別する話者識別処理と、識別された話者ごとに、前記対話音声データを発話単位に分離する音声分離処理と、前記対話音声データを、分離された前記発話単位で音声認識して対話音声テキストを生成する音声認識処理と、生成された前記対話音声テキストを要約して要約文テキストを生成する要約生成処理と、前記発話単位で前記対話音声データを解析して話者ごとの感情表現を導出し、導出された前記感情表現を前記要約文テキストに付加しまたは前記感情表現で前記要約文テキストの一部を置き換え、または前記要約文テキストに対応付けて出力する感情解析処理と、を含む処理を実行させるためのものである、対話要約生成プログラムが提供される。 According to still another aspect of the present invention, there is provided a dialogue voice summary generation program for causing a computer to execute a dialogue summary generation process, wherein the program identifies the speaker of the dialogue from the talk voice data. Speaker identification processing, voice separation processing for separating the dialogue voice data into utterance units for each identified speaker, and voice recognition of the dialogue voice data in the separated utterance units to obtain dialogue voice text. A voice recognition process to generate, a summary generation process to summarize the generated dialogue voice text to generate a summary sentence text, and analyze the dialogue voice data for each utterance unit to derive an emotional expression for each speaker. , Adding the derived emotional expression to the summary text or replacing part of the summary text with the emotional expression, or corresponding to the summary text And emotion analysis to only output is intended for causing a process including execution, interactive summarization program is provided.
本発明に係る対話要約生成装置、対話要約生成方法およびプログラムによれば、対話音声から、十分に短縮化され、かつ対話中の話者の発話における感情が十分に反映された高精度な要約文を生成することができる。よって、対話音声の要約の有用性向上に資する。 According to the dialogue summary generation device, the dialogue summary generation method, and the program according to the present invention, a highly accurate summary sentence that is sufficiently shortened from the dialogue voice and sufficiently reflects the emotion in the utterance of the speaker during the dialogue. Can be generated. Therefore, it contributes to improving the usefulness of the summary of the dialogue voice.
以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。なお、以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施形態に必ずしも限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。 Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the accompanying drawings. The embodiment described below is an example as a means for realizing the present invention, and should be appropriately modified or changed depending on the configuration of the device to which the present invention is applied and various conditions. It is not necessarily limited to the embodiment. Further, not all of the combinations of features described in the present embodiment are essential to the solving means of the present invention. The same configurations will be described with the same reference numerals.
<本実施形態の音声処理システムのネットワーク構成>
以下では、顧客と、コールセンタのオペレータとの間で電話網を介してなされた通話を録音する例を説明するが、本実施形態はこれに限定されない。本実施形態は、例えば、通話に替えて、対面での対話をマイクロフォン等の集音装置により集音し録音した対話音声についても、同様に要約文を生成することができる。
図1は、本実施形態に係る音声処理システムのネットワーク構成の非限定的一例を示す図である。図1を参照して、音声処理システムは、PBX(交換機)1、音声取得サーバ2、通話録音サーバ3、制御サーバ4、音声認識サーバ5、感情解析サーバ6、要約生成サーバ7、および対話要約照会用に利用可能なPC(Personal Computer)9を備える。PBX1、音声取得サーバ2、通話録音サーバ3、制御サーバ4、音声認識サーバ5、感情解析サーバ6、要約生成サーバ7、およびPC9の全部または一部は、コールセンタ構内に設置され、LAN(Local Area Network)/WAN(Wide Area Network)等のイントラネット8等のIP(Internet Protocol)ネットワークにより相互接続されてよい。
<Network configuration of voice processing system of this embodiment>
Hereinafter, an example of recording a call made between the customer and the operator of the call center through the telephone network will be described, but the present embodiment is not limited to this. In this embodiment, for example, instead of a call, a summary sentence can be similarly generated also for a dialogue voice that is recorded by collecting a face-to-face dialogue with a sound collection device such as a microphone.
FIG. 1 is a diagram showing a non-limiting example of a network configuration of a voice processing system according to this embodiment. Referring to FIG. 1, the voice processing system includes a PBX (exchange) 1, a
或いは代替的に、音声取得サーバ2、通話録音サーバ3、制御サーバ4、音声認識サーバ5、感情解析サーバ6、要約生成サーバ7、およびPC9の全部または一部は、インターネット等の遠隔IP接続を介して適宜コールセンタ外部に設置されてもよい。
特に、コールセンタのオペレータ以外の管理者等が対話要約照会用PC9を操作して要約文データベース内の応対履歴である対話音声要約の照会ないし更新処理を行う場合には、当該対話要約照会PC9は、オペレータ近傍に設置される必要はなく、遠隔IP接続を介して適宜コールセンタ外部に設置されることが好適である。
Alternatively, all or part of the
In particular, when an administrator other than the operator of the call center operates the dialogue
音声処理システムは、さらに、イントラネット8或いはインターネットを介して音声処理システムに接続される、マイクロフォンを接続または内蔵する他のPC10を備えてよい。このように構成すれば、PC10のマイクロフォンで集音した対面でなされた対話音声を、本実施形態に係る音声処理システムに入力し、対面でなされた対話音声の要約文を生成することができる。
The voice processing system may further include another
PBX1は、コールセンタ内の内線電話を収容し、これら内線電話同士を接続するとともに、各オペレータの電話端末12を、構内回線11a、11b、11c・・・を介してPSTN(公衆電話網)13に回線交換接続して、各オペレータの電話端末12と、PSTN13に接続される顧客の電話端末14との間の通話を実現する。
The
なお、図1におけるPBX1は、PSTN13等の公衆電話交換回線網を介して顧客の電話端末14に接続されているが、これに替えて、或いはこれに加えて、IP網接続機能を備えることにより、VoIP(Voice Over Internet Protocol)ネットワーク等の音声パケット通信ネットワークを介して、IP電話機能を備える顧客のIP通話端末に接続されてよく、この場合、後述する音声取得サーバ2は、顧客のIP通話端末およびオペレータの電話端末12の間の音声通話を取得することができる。顧客の電話端末14は、固定電話機或いは携帯電話機やスマートフォンのいずれであってもよい。
<各サーバ装置の機能構成>
The
<Functional configuration of each server device>
音声取得サーバ2は、PBX1に分岐接続され、各オペレータの電話端末12と顧客の電話端末14との通話音声を取得するとともに、取得された通話音声をオペレータの電話端末12の識別子(例えば内線番号)と対応付けて各サーバに供給する。代替的に、この音声取得サーバ2は、PSTN13の終端装置(DSU)とPBX1との間の回線に分岐接続されてもよい。
The
通話録音サーバ3は、制御サーバ4の制御の下、着呼後に音声取得サーバ2から供給される通話音声を必要に応じて圧縮し、取得された音声データを、例えばNAS(Network Appliance Storage)等の大規模外部記憶装置により構成される対話音声ファイル(図2の対話音声ファイル31)のデータベースに蓄積記憶する。
好適には、通話録音サーバ3は、音声取得サーバ2からアナログ音声が供給された場合、このアナログ音声波形を電圧で表したものを所定のビット深度と所定のサンプリング周波数でサンプリングすることによりデジタル音声に変換し、対話音声ファイル31に蓄積保存する。
Under the control of the
Preferably, the call recording server 3, when analog voice is supplied from the
このデジタル音声データは、圧縮後に対話音声ファイル31に蓄積保存されてよい。録音音声の圧縮には、種々の公知の手法を種々の圧縮率で用いることができ、非限定的一例として、モノラル5分の1圧縮、モノラル10分の1圧縮、或いはステレオ無圧縮等により録音音声が圧縮される。代替的に、通話録音サーバ3は、音声取得サーバ2から供給される音声データを変換圧縮することなく、通話音声ファイル31に蓄積保存してもよい。
This digital voice data may be stored in the
通話録音サーバ3はまた、対話音声ファイル31内に蓄積保存された1通話単位ごとの対話音声データに関連付けて、呼情報ファイル(不図示)に通話の制御情報として取得される呼情報を書き出す。この呼情報は、PBX1により供給される。
通話録音サーバ3により取得される呼情報は、例えば、着信開始情報(着信開始タイムスタンプを含む)、発信開始情報(発信開始タイムスタンプを含む)、通話開始情報(通話開始タイムスタンプを含む)、通話終了情報(通話終了タイムスタンプを含む)等の呼制御情報と、発信元電話番号、発信先電話番号、発信元チャネル番号、発信者番号、着信チャネル番号、着信電話番号(着信先内線番号等)等の呼識別情報とを含む。
The call recording server 3 also writes call information acquired as call control information in a call information file (not shown) in association with the call voice data stored in the
The call information acquired by the call recording server 3 includes, for example, incoming call start information (including the incoming call start time stamp), outgoing call start information (including the outgoing call start time stamp), call start information (including the call start time stamp), Call control information such as call end information (including call end time stamp), caller telephone number, callee telephone number, caller channel number, caller number, callee channel number, callee telephone number (callee extension number, etc.) ) And other call identification information.
この呼情報はさらに、録音された通話内の発話が、インバウンド、すなわち顧客側からの発話であるか、アウトバウンド、すなわちオペレータ側からの発話であるかの極性を識別する話者識別情報を含む。この話者識別情報は、PBX1により取得可能であり、例えばSIP(Session Initiation Protocol)の場合には、呼生成の際のセッション構成時に把握可能であり、具体的には、例えば、セッション構成時に、発呼側から着呼側に送信されるInviteコマンド中で、セッション開始に必要な情報を記述するSDP(Session Description Protocol)内に発呼側が受信に使用するIPアドレスとポート番号を指定し、一方これに応答して着呼側から発呼側へ送信される200 OKメッセージ中のSDP内に着呼側が受信に使用するIPアドレスとポート番号を指定し、このそれぞれ指定されたIPアドレスとポート番号を使用してRTP(Realtime Transport Protocol)プロトコル上音声データが送受信される。このため、これら発呼側および着呼側がそれぞれ受信に使用するIPアドレスとポート番号を取得することにより、1通話内の発話それぞれの話者識別情報を得ることができ、1通話内の顧客の発話とオペレータの発話とを必要に応じて区別或いは分離することができる。
ISDNの場合には、話者識別情報は、回線終端装置(Digital Service Unit:DSU)の物理的なピン位置として取得可能である。
The call information further includes speaker identification information that identifies the polarity of whether the utterance in the recorded call is inbound, that is, from the customer side or outbound, that is, from the operator side. This speaker identification information can be acquired by the
In the case of ISDN, the speaker identification information can be acquired as a physical pin position of a line terminating device (Digital Service Unit: DSU).
これら呼情報は、好適には、CTI(Computer Telephony Integration)プロトコルを実装した制御サーバ4上ないしオペレータのPC9上で稼動するCTIプログラムと連携して、これらの表示装置上に呼情報をリアルタイムに表示してよい。
These call information are preferably displayed in real time on these display devices in cooperation with a CTI program running on the
通話録音サーバ3はまた、すでに応対履歴のある顧客を中心とする顧客の情報が事前登録された顧客情報データベース(不図示)を備える。この顧客情報は、顧客を識別する個人情報を含み、例えば顧客氏名、住所、登録された顧客電話番号、生年月日、年齢層、性別、その他顧客属性、製品購入履歴、応対履歴等を含むものとし、オペレータが操作可能な端末装置に、オペレータの指示入力に応じて適宜出力され得る。 The call recording server 3 also includes a customer information database (not shown) in which customer information centering on customers who already have a contact history is pre-registered. This customer information includes personal information that identifies the customer, such as customer name, address, registered customer phone number, date of birth, age group, gender, other customer attributes, product purchase history, and response history. , Can be appropriately output to a terminal device that can be operated by an operator in response to an instruction input by the operator.
なお、通話録音サーバ3は、構内回線8に接続するのに替えて、例えば、PSTN13とPBX1との間に接続されてよく、このように構成すれば、通話録音サーバ3は、上記の話者識別情報を直接取得することができる。さらに代替的に、音声取得サーバ2を別途設置することなく、通話録音サーバ3は、構内回線8に接続され、構内回線8に供給される通話音声を直接取得してよい。
The call recording server 3 may be connected, for example, between the
制御サーバ4は、音声取得サーバ2、通話録音サーバ3、音声認識サーバ5、感情解析サーバ6、および要約生成サーバ7から供給されるデータおよび制御情報に基づいて、これらサーバが実行する処理、これらサーバ間のデータトラフィックおよび制御情報の送受信を制御する。代替的に、音声認識サーバ5および要約生成サーバ7は、通話録音サーバ3が保有する通話音声ファイル31や呼情報ファイルへのアクセスや対話要約照会用PC9へのインターフェースを、制御サーバ4を介することなく直接提供してもよい。この場合、音声処理システムは、別途制御サーバ4を備えなくてよい。
The
音声認識サーバ5は、制御サーバ4の制御の下、対話音声ファイル31に蓄積保存された対話音声データを、オフフックからオンフックまでの1通話分ごと読み出し、1通話分の対話音声を複数の発話単位に分離する。この発話単位への分離は、無音区間を識別して対話音声をこの無音区間で区切るものであり、図5を参照して後述する。
本実施形態において、音声認識サーバ5は、分離された発話単位ごとに対話音声データを解析して特徴量を抽出し、音声認識辞書(図2の音声認識辞書32)等の各種認識用辞書を参照し、公知の音声認識技術を適用して対話音声データを文字コード列に変換し、さらに変換された文字コード列を対話音声テキストとしてファイルに出力する。本実施形態において、音声認識サーバ5が出力する対話音声テキストは、要約単位に区切られたテキスト(図2の要約単位テキスト)を含む。この対話音声テキストを要約単位に区切る処理は、図4、図7、および図8を参照して後述する。
Under the control of the
In the present embodiment, the
感情解析サーバ6は、通話録音サーバ3から供給される対話音声データを入力として、話者ごとに例えば、喜怒、満足度、ストレス度、信頼度等の話者の感情を示す定量的指標を話者の感情解析結果として出力する。この感情解析結果は、1通話内あるいは終日等、所定期間における各感情指標の変化として出力することができる。感情解析サーバ6が実行するこの感情解析処理の詳細は、図6、図22ないし図24を参照して後述する。
The
要約生成サーバ7は、対話音声テキストファイル33に格納された、要約単位に区切られた対話音声テキストを1通話分ごと読み出して、要約生成処理を実行し、生成された対話要約文を、要約文テキスト(図3の要約文テキスト38)として出力する。この要約生成処理の詳細は、図6を参照して後述する。
The
要約生成サーバ7は、1通話内の一方の話者、例えばオペレータの発話の対話音声テキストを読み出して要約文を生成してもよく、他方の話者、例えば顧客の発話から抽出された受け答え部分(後述)を要約文に付加してもよく、双方の話者の対話音声テキストから要約文を作成してもよい。後者の場合、話者の識別情報を対話音声テキストに対応付けることが好適である。
The
この1通話ごとに生成される要約文は、適宜、照会入力に応答して、対話要約照会用のPC9等のディスプレイ装置やプリンタ装置等の出力装置に出力可能であり、好適には、呼情報からデコードされた通話開始時間、通話終了時間、通話の発信者識別情報(顧客から着信した通話か、オペレータから発信した通話かを識別する情報)等と関連付けて出力されてよい。
好適には、PC9等に表示出力される要約文は、操作者の修正入力により、適宜更新され得る。この更新結果を学習し、要約文生成の際に参照されるべき重要語テーブル、不要語テーブル、各種変換テーブル等を適宜更新することにより、より高精度かつ簡明な要約文を生成することが可能となる。
本実施形態において、要約生成サーバ7はさらに、音声認識サーバ5から供給される対話音声テキストを入力として、感情語テーブル(図3の感情語テーブル37)等を参照して、対話音声テキスト中の感情表現部分を抽出し、要約文に含めるべき感情表現語に変換する。
The summary text generated for each call can be appropriately output to an output device such as a display device such as the
Preferably, the summary sentence displayed and output on the
In the present embodiment, the
なお、図1に示すネットワークおよびハードウエアの構成は非限定的一例に過ぎず、各サーバおよびデータベースを必要に応じて一体としてもよく、或いは各コンポーネントをASP(Application Service Provide)等の外部設備に設置してもよい。 The network and hardware configurations shown in FIG. 1 are merely non-limiting examples, and each server and database may be integrated as needed, or each component may be connected to external equipment such as an ASP (Application Service Provide). May be installed.
<音声認識サーバ5の機能構成例>
図2は、本実施形態に係る音声認識サーバ5の機能構成の非限定的一例を示す図である。
図2に示す音声認識サーバ5の各機能モジュールのうち、ソフトウエアにより実現される機能については、各機能モジュールの機能を提供するためのプログラムがROM等のメモリに記憶され、RAMに読み出してCPUが実行することにより実現される。ハードウエアにより実現される機能については、例えば、所定のコンパイラを用いることで、各機能モジュールの機能を実現するためのプログラムからFPGA上に自動的に専用回路を生成すればよい。FPGAとは、Field Programmable Gate Arrayの略である。また、FPGAと同様にしてGate Array回路を形成し、ハードウエアとして実現するようにしてもよい。また、ASIC(Application Specific Integrated Circuit)により実現するようにしてもよい。なお、図2に示した機能ブロックの構成は一例であり、複数の機能ブロックが1つの機能ブロックを構成するようにしてもよいし、いずれかの機能ブロックが複数の機能を行うブロックに分かれてもよい。図3に示す要約生成サーバ7、および他のサーバ装置の機能構成についても同様である。
図2を参照して、音声認識サーバ5は、音声認識前処理部51、音声認識部52、音声認識後処理部53、および相槌解析部54を備える。
<Functional configuration example of the
FIG. 2 is a diagram showing a non-limiting example of a functional configuration of the
Among the function modules of the
Referring to FIG. 2, the
音声認識前処理部51は、通話録音サーバ3が蓄積保存した対話音声ファイル31から1通話ごとの対話音声のファイルを読み出して、読み出された1通話の対話音声ファイルから無音区間を検出し、検出された無音区間を境界として、対話における発話単位に区切る。音声認識前処理部51はまた、1通話の対話音声ファイルから区切られた複数の発話単位を、発話単位ごとに音声認識部52へ供給して、音声認識部52に発話単位での音声認識処理を実行させる。
The voice
音声認識部52は、音声認識前処理部51から供給される発話単位ごとの対話音声を入力として、音声認識処理を実行し、発話単位ごとの対話音声テキストを音声認識後処理部53へ供給する。音声認識部52は、例えば正確に認識されるべき重要語や重要文を定義可能な音声認識辞書32を参照して、対話音声の音声データを対話音声テキストに変換することができる。なお、音声認識部52を公知の音声認識エンジンに実装し、一方、音声認識前処理部51、音声認識後処理部53、および相槌解析部54を例えば制御サーバ4に実装してもよい。
The
音声認識後処理部53は、音声認識部52が出力する発話単位ごとの対話音声テキストに対して、構文解析および形態素解析等を実行して、対話音声テキストを要約単位に区切り、要約単位に区切られた対話音声テキスト33として出力する。構文解析結果および形態素解析結果は、要約単位に区切られた通話音声テキストに対応付けられてよい。この要約単位とは、発話単位の通話音声テキストから要約文生成を容易かつ高精度化できるよう、要約生成処理の処理単位としてさらに細分化された区切りの単位であり、その詳細は図8を参照して後述する。
The speech
音声認識後処理部53はまた、各重要語について重み付けを定義する音声認識用辞書32を参照して、抽出した要約単位ごとに重み付けを付与してもよい。例えば、日付、時間、住所、電話番号等は要約文に残すべき重要語であることが多く、音声認識後処理部53によりこれらの語を重み付けすることにより、誤変換を低減することができる。
The speech
相槌解析部54は、音声認識後処理部53により供給される要約単位に区切られた対話音声テキストから、例えば「はい」、「いいえ」等の受け答えと推定されるテキストを検出し、検出されたテキストが相槌か、或いは受け答えかを判定する。相槌解析部54は、この判定結果に基づいて、相槌と判定されたテキストを、音声認識後処理部53が出力する要約単位に区切られた対話音声テキスト33から削除する。
一方、相槌解析部54はまた、受け答えと判定されたテキストは、要約生成サーバ7が生成する要約文に含まれるよう、対話音声テキスト33に含めるとともに、対話音声テキスト中で当該テキストに「受け答え」である旨をタグ付けする。この相槌解析処理の詳細は、図13および図14を参照して後述する。
The
On the other hand, the
<要約生成サーバ7の機能構成例>
図3は、本実施形態に係る要約生成サーバ7の機能構成の非限定的一例を示す図である。
図3を参照して、要約生成サーバ7は、テキスト補正部71、冗長性排除部72、要約文生成部73、感情解析部74、および要約文短縮部75を備える。
<Example of Functional Configuration of
FIG. 3 is a diagram showing a non-limiting example of the functional configuration of the
Referring to FIG. 3, the
テキスト補正部71は、要約単位に区切られた対話音声テキスト33を読み出して、構文解析結果および形態素解析結果に基づいて、要約文生成を容易化するため、対話音声テキストを補正し、補正された対話音声テキストを冗長性排除部72へ出力する。
The
冗長性排除部72は、テキスト補正部71から供給される補正された対話音声テキストの冗長性を排除する。具体的には、冗長性排除部72は、例えば不要語テーブル35を参照することにより、対話音声テキストから不要語や重複する文等を削除して、要約文生成部73に供給すべき対話音声テキストを短縮化する。冗長性排除部72は、冗長性が排除された短縮化対話音声テキストを、要約文生成部73へ出力する。
The
要約文生成部73は、冗長性排除部72から供給される短縮化対話音声テキストを読み出し、重要語テーブル34、不要語テーブル35、および各種変換テーブル36を参照して、要約文テキストを生成する。要約文生成部73は、1通話ごとに1つの要約文テキストを生成してよい。要約文生成部73が出力する要約文は、例えば、通話音声テキストの話し言葉を変換して得られる報告調の簡潔な文体、例えば体言止めの文体であってよい。
The summary
本実施形態において、要約文生成部73は、感情解析サーバ6から、対話中の話者の感情を示す定量的指標を、話者の感情解析結果として取得し、取得された話者の感情解析結果を、生成すべき要約文テキストに含めたり、要約文テキストと同時にまたは関連して表示装置上に表示させたりすることができる。感情解析サーバ6から供給される話者の感情解析結果は、話者ごとに例えば、喜怒、満足度、ストレス度、信頼度等の定量的指標を含む。
In the present embodiment, the summary
感情解析部74は、要約文生成部73が生成する要約文から、感情語テーブル37を参照して、要約文テキスト中の感情表現部分を抽出し、要約文に含めるべき端的な感情表現語に変換して、変換された感情表現語で、要約文テキスト中で抽出された感情表現部分を置き換える。
要約文短縮部75は、要約文生成部73から供給される要約文が、所定長、例えば所定文字数の閾値を超えた場合に、当該閾値内の要約文長となるよう、要約文を短縮し、短縮化された要約文を要約文テキスト38として出力する。
The
The summary
<音声認識サーバ5における音声認識処理の処理手順>
図4は、音声認識サーバ5の各部が実行する音声認識処理の処理手順の非限定的一例を示すフローチャートである。
S1で、音声認識サーバ5の音声認識前処理部51は、対話音声ファイル31から、1通話ごとにファイル化された対話音声データを読み出す。
S2で、音声認識サーバ5の音声認識前処理部51は、S1で読み出された対話音声中の話者を識別する。具体的には、音声認識前処理部51は、対話音声ファイルに対応付けられた呼情報の話者識別情報を参照することにより、対話音声から話者、例えば顧客とオペレータ、を識別することができる。
<Processing procedure of speech recognition processing in the
FIG. 4 is a flowchart showing a non-limiting example of the processing procedure of the voice recognition processing executed by each unit of the
In S1, the voice
In S2, the voice
具体的には、音声認識前処理部51は、呼情報データベース(不図示)を参照して、1通話内の話者識別情報を判別することにより、1通話内の発話のそれぞれの発話者が顧客であるかオペレータであるかを識別することができる。
後段の音声認識部52では、識別された話者ごとに、対話音声データが音声認識されるとともに、音声認識された対話音声テキストから要約を生成する要約生成サーバ7の要約文生成部73では、対話録音のタイムスタンプを参照して、双方の話者の認識結果のテキストを対応付けることができる。
Specifically, the voice
In the
音声認識前処理部51は、一方の話者、例えばオペレータの発話であると識別された発話の対話音声データを他方の話者、例えば顧客の発話であると識別された発話の対話音声データより優先して、要約生成サーバ7に供給してもよい。これは、要約文生成源として、一方の発話者、典型的にはオペレータの発話の方が、応対履歴を要約するに足る情報がより効率的に得られるとの知見に基づく。
代替的に、音声認識前処理部51は、一方の話者のみ、例えばオペレータの発話であると識別された発話の対話音声データのみを音声認識して、対話音声テキストに変換してもよい。音声認識の対象を制限することで、高負荷な音声認識を行う音声認識サーバ5内におけるハードウエア資源が低減でき、音声認識処理や要約文生成処理のリアルタイム性が向上するとともに、対話音声テキストファイル等のリソース容量も削減できる。
The voice
Alternatively, the voice
S3で、音声認識サーバ5の音声認識前処理部51は、1通話ごとに読み出された話者が分離された対話音声データを、発話単位に分離して、発話単位に分離された対話音声を、音声認識部52に供給する。
具体的には、音声認識前処理部51は、対話音声データ中で一定の無音区間を検出し、検出された無音区間で音声を区切ることにより、有音区間を切り出して発話単位の対話音声として分離する。
In S3, the voice
Specifically, the voice
図5に示すように、1通話分の対話音声ファイルは、CH1とCH2の2チャネルで構成される。CH1の音声は例えば顧客の発話であり、CH2の音声は例えばオペレータの発話であるものとする。
音声認識前処理部51は、一定の長さの無音区間を検出する。検出すべき無音区間は、例えば、1.5秒以上の無音区間であってよく、例えば1秒から2秒の間でその下限値が調整されてよい。この無音区間の下限値を、第1の閾値という。この無音区間の下限値は、例えば息継ぎに要する時間を考慮して設定することができる。また、この無音区間の下限値は、例えば「言ったよね」の発話中の撥音「っ」を誤って無音区間として検出しないよう設定されることが好適である。
As shown in FIG. 5, the conversation voice file for one call is composed of two channels, CH1 and CH2. The voice of CH1 is, for example, the utterance of the customer, and the voice of CH2 is, for example, the utterance of the operator.
The voice
図5を参照して、音声認識前処理部51は、CH1の顧客の音声から、第1の閾値以上の長さの無音区間(SL11、SL12、・・・、SL16)を検出し、検出された2つの無音区間の間にある有音区間(SP11、SP12、・・・、S17)を抽出する。抽出された有音区間(SP11、SP12、・・・、S17)のそれぞれが、顧客として識別された音声中の1つの発話単位となり、本実施形態において、音声認識部52に供給される音声認識単位となる。有音区間のそれぞれは、息継ぎなしで発話された区間と見做すことができる。
同様に、図5を参照して、音声認識前処理部51は、CH2のオペレータの音声から、第1の閾値を下限値とする無音区間(SL21、SL22、・・・、SL26)を検出し、検出された2つの無音区間の間にある有音区間(SP21、SP22、・・・、S27)を抽出する。抽出された有音区間(SP21、SP22、・・・、S27)のそれぞれが、オペレータとして識別された音声中の1つの発話単位となる。
With reference to FIG. 5, the voice
Similarly, with reference to FIG. 5, the voice
図4に戻り、S4で、音声認識サーバ5の音声認識部52は、音声認識前処理部51から発話単位で入力される対話音声データに対して、識別された話者ごとに音声認識処理を実行して、テキスト化された対話音声である対話音声テキストを出力する。
本実施形態においては、このように対話音声データを発話単位で音声認識処理を実行する。上記の無音区間は、当該無音区間中に話者が切り替わったこと、あるいは同一の話者が話題ないし内容を転換したことを推認させる。このため、無音区間の前後では発話内容における連続性が乏しいと推定でき、発話単位で対話音声テキストを音声認識することで、認識精度の向上が期待できる。
Returning to FIG. 4, in S4, the
In the present embodiment, the speech recognition processing is performed on the conversational voice data in units of utterances as described above. The silent section makes it possible to infer that the speaker has switched during the silent section, or that the same speaker has changed the topic or content. Therefore, it can be estimated that the continuity of the utterance content is poor before and after the silent section, and the recognition accuracy can be expected to be improved by recognizing the dialogue voice text by the utterance unit.
この音声認識処理には、公知の音声認識エンジンを適用することができる。
音声認識部52が実行する音声認識処理における文字コード列への変換の一例として、例えば、対話音声データ中の、必要に応じて各種変換処理された音声波形から抽出される特徴量を、予め定義されている音素ごとの参照音響パターンと比較処理することにより、音声波形データを文字コード列に変換することができる。
A known voice recognition engine can be applied to this voice recognition process.
As an example of conversion into a character code string in the voice recognition process executed by the
音声認識部52および音声認識後処理部53により参照される音声認識辞書32には、予め音声認識の対象と想定され、かつ要約文に含まれるべき重要情報を含む重要語(ないし重要文)のデータが定義されているため、この音声認識辞書32に定義された重要語に相当する対話音声データの音素列のみが抽出されて意味づけされてよい。また、音声認識辞書32に定義される重要語(ないし重要文)には重み付けが付与されてよい。音声認識部52により読み出された対話音声データのうち、この定義された重要語に相当する対話音声データ箇所が対話音声テキストに変換され、音声認識結果として出力されてよい。
In the
図9は、S4で音声認識部52が出力する、対話音声データから生成される発話単位の音声認識結果である対話音声テキストの非限定的一例を示す。図9の例では、「対話要約処理は不要な発言や表現の削除のほか話し言葉から書き言葉への変換などで構成されますなお処理対象データの特性に応じて選択することができます」が、2つの無音区間の間で抽出された発話単位となる。図9に示すように、S4で出力される発話単位の音声認識結果は、句読点等で区切られない複数の文章を1つのまとまりとして含み得る。
FIG. 9 shows a non-limiting example of the dialogue voice text which is the speech recognition result of the utterance unit generated from the dialogue voice data, which is output by the
図4に戻り、S5で、音声認識サーバ5の音声認識後処理部53は、S4で音声認識部52が出力する音声認識結果を自然発話へ変換するとともに、要約単位に区切る。音声認識後処理部53はまた、S5で区切った要約単位の対話音声テキストに、構文解析や形態素解析結果に基づいて、種別や重み付けを付与することができる。
なお、S5における変換処理の詳細は、図7および図8を参照して後述する。
Returning to FIG. 4, in S5, the voice
The details of the conversion process in S5 will be described later with reference to FIGS. 7 and 8.
S6で、音声認識サーバ5の相槌解析部54は、要約単位に区切られた対話音声テキストから、例えば「はい」、「いいえ」等の受け答えと推定されるテキストを検出し、検出されたテキストが相槌か、或いは受け答えかを判定する。
相槌解析部54は、この判定結果に基づいて、相槌と判定されたテキストを、音声認識後処理部53が出力する要約単位に区切られた対話音声テキスト33から削除する。一方、相槌解析部54は、受け答えと判定されたテキストを、要約生成サーバ7が生成する要約文に含まれるよう、通話音声テキスト33に含めるとともに、対話音声テキスト中で当該テキスト要素に「受け答え」である旨をタグ付け(種別付与)する。なお、S6における相槌解析処理の詳細は、図13および図14を参照して後述する。
S7で、相槌解析部54は、受け答えと判定されたテキストを付加した要約単位に区切られた対話音声テキストを出力する。
In S6, the
Based on this determination result, the
In step S7, the
<音声認識後処理部53における音声認識後処理の詳細処理手順>
図7は、図4のS5で音声認識後処理部53が実行する音声認識後処理の詳細処理手順の一例を示すフローチャートである。
図7を参照して、S51で、音声認識サーバ5の音声認識後処理部53は、音声認識辞書32を参照して、S4で音声認識部52が出力する音声認識結果である発話単位の対話音声テキストの構文解析を実行する。
S52で、音声認識後処理部53は、音声認識辞書32を参照して、発話単位の対話音声テキストの形態素解析を実行する。なお、S51の構文解析およびS52の形態素解析は、いずれかを先に実行してもよく、同時並行的に実行されてよい。
<Detailed Processing Procedure of Speech Recognition Post-Processing in Speech
FIG. 7 is a flowchart showing an example of a detailed processing procedure of the voice recognition post-processing executed by the voice
Referring to FIG. 7, in S51, the speech
In S52, the voice
図10は、図9に示す発話単位の対話音声テキストに対して、S51における構文解析処理を実行して得られる構文解析結果の非限定的一例を示す。図10に示すように、S51で出力される構文解析結果では、テキスト中の形態素間の関係が構造化されている。
図11は、図9に示す発話単位の対話音声テキストに対して、S52における形態素解析処理を実行して得られる形態素解析結果の非限定的一例を示す。図11に示すように、形態素解析結果は、抽出された形態素ごとに、書字、読み、取得された品詞種別(大分類、中分類、小分類)を含んでよい。
FIG. 10 shows a non-limiting example of the syntactic analysis result obtained by executing the syntactic analysis process in S51 on the dialogue voice text of the utterance unit shown in FIG. As shown in FIG. 10, in the syntax analysis result output in S51, the relationship between morphemes in the text is structured.
FIG. 11 shows a non-limiting example of a morpheme analysis result obtained by executing the morpheme analysis processing in S52 on the dialogue voice text of the utterance unit shown in FIG. As shown in FIG. 11, the morpheme analysis result may include the written character, the reading, and the acquired part-of-speech classification (large classification, middle classification, small classification) for each extracted morpheme.
図7に戻り、S53で、音声認識後処理部53は、S51およびS52の構文解析および形態素解析の解析結果に基づいて、発話単位の対話音声テキストを、要約単位に細分する。
図8は、図7のS53で音声認識後処理部53が実行する要約単位への分離処理の詳細処理手順の一例を示すフローチャートである。
S531で、音声認識後処理部53は、形態素解析および構文解析の結果得られた区切り単位の品詞種別が、名詞か否かを判定する。解析の結果得られた区切り単位の品詞種別が名詞である場合S(S531:Y)、S532に進む。一方、解析の結果得られた区切り単位の品詞種別が名詞以外である場合、S532以降の処理をスキップして処理を終了し、S6へ進む。
Returning to FIG. 7, in S53, the voice
FIG. 8 is a flowchart showing an example of a detailed processing procedure of the separation processing into summary units executed by the speech
In S531, the speech
S532で、音声認識後処理部53は、形態素解析および構文解析結果得られた区切り単位の群(まとまり)の先頭が、名詞以外か否かを判定する。区切り単位の群の先頭が名詞以外である場合(S532:Y)、S533以降の処理をスキップして処理を終了し、S6へ進む。一方、区切り単位の群の先頭が名詞である場合(S5323:N)、S533に進む。
In S532, the speech
S533で、音声認識後処理部53は、形態素解析および構文解析の結果得られた区切り単位が名詞+αであるか否かを判定する。区切り単位が名詞+αである場合、すなわち末尾に助詞等、名詞以外を含む場合(S533:Y)、S534で、音声認識後処理部53は、当該区切り単位を直前の区切り単位に結合して、処理を終了し、S6に進む。一方、区切り単位が名詞+αでない場合、すなわち名詞のみである場合(S533:N)、S535で、音声認識後処理部53は、当該区切り単位を直前の区切り単位に結合した上で、S532に戻り、S532およびS533の区切り単位の判定を繰り返す。
In S533, the speech
図12は、図9に示す発話単位の対話音声テキストを入力とし、図10に示す構文解析結果および図11に示す形態素解析結果を経て、図4のS5で、音声認識後処理部43が出力する対話音声テキストの一例である。
図12中の四角記号は、それぞれ要約単位の区切りを示す。図12に示すように、S5の自然発話への変換および要約単位への分離処理を実行することにより、連続する「対話」、「要約」、「処理は」が1つの要約単位に、また、連続する「処理」、「対象」、「データの」が他の1つの要約単位に、それぞれ結合されて、要約単位を構成している。
音声認識サーバ5の音声認識後処理部43はさらに、分離された要約単位の対話音声テキストのそれぞれに、音声認識辞書32を参照することにより、種別や重み付けを付加してよい。図12では、要約単位「対話要約処理は」および要約単位「処理対象データの」が、それぞれ要約文に含められるべき重要要約単位として重み付けされている。
In FIG. 12, the speech recognition post-processing unit 43 is output in S5 of FIG. 4 after the dialog speech text of the utterance unit shown in FIG. 9 is input and the syntactic analysis result shown in FIG. 10 and the morphological analysis result shown in FIG. It is an example of a dialogue voice text to be performed.
Square symbols in FIG. 12 indicate delimiters of summary units. As shown in FIG. 12, by performing the conversion into natural utterance and the separation processing into summary units in S5, consecutive "dialogue", "summary", and "processing" are combined into one summary unit, and A series of "processing", "object", and "data" are combined into another summary unit, respectively, to form a summary unit.
The voice recognition post-processing unit 43 of the
<相槌解析部54における相槌解析処理の詳細処理手順>
図13は、図4のS6で音声認識サーバ5の相槌解析部54が実行する相槌解析処理の詳細処理手順の非限定的一例を示すフローチャートである。
図13を参照して、S61で、音声認識サーバ5の相槌解析部54は、双方の話者、例えば顧客およびオペレータの対話音声を対話音声ファイル31から取得する。対話音声ファイル31には、1通話ごとに双方の話者を対応付けることが可能なタイムスタンプが付与されているため、相槌解析部44は、1通話単位を構成する双方の話者の対話音声を取得することができる。或いは、通話単位ごとに当該通話単位を構成する話者の対話音声それぞれに共通の識別子が付与されることにより、双方の話者の対話音声を対応付けてもよい。S61では、取得された双方の話者の対話音声とともに、当該対話音声を音声認識して得られた対話音声テキストが入力される。
<Detailed Processing Procedure of Ajai Analysis Processing in
FIG. 13 is a flowchart showing a non-limiting example of a detailed processing procedure of the matching analysis processing executed by the matching
With reference to FIG. 13, in S61, the
S62で、相槌解析部54は、顧客およびオペレータの双方の対話音声を対比し、対話の相手が発話している間に短い発話が検出できるか否かを判定する。
図14(a)を参照して、CH1の顧客の対話音声中の短い発話(SP14)は、対話の相手であるCH2のオペレータの発話(SP24)の間になされた短い発話であるため、S62で検出される。S62で検出すべき短い発話とは、例えば2秒未満であってよい。
相手が発話中に短い発話が検出されない場合(S62:N)、S63からS68の処理をスキップして処理を終了し、S7へ進む。一方、相手が発話中に短い発話が検出された場合(S62:Y)、S63に進む。
In S62, the
Referring to FIG. 14A, since the short utterance (SP14) in the conversation voice of the customer of CH1 is a short utterance made during the utterance (SP24) of the operator of CH2 who is the other party of the dialogue, S62. Detected in. The short utterance to be detected in S62 may be, for example, less than 2 seconds.
When a short utterance is not detected while the other party is uttering (S62: N), the processes of S63 to S68 are skipped, the process is terminated, and the process proceeds to S7. On the other hand, when a short utterance is detected while the other party is uttering (S62: Y), the process proceeds to S63.
S63で、相槌解析部54は、S62で検出された短い発話と同一のタイムスタンプを有する音声認識結果の対話音声テキストを検索し、当該短い発話の音声認識結果が受け答えと推定できるか否か、すなわち受け答えの候補となるか否かを判定する。例えば、短い発話が「はい」、「ええ」、「いいえ」、「いや」等のテキストであれば、受け答えの候補と判定できる。例えばこの受け答え候補は予め相槌解析部54に設定しておけばよい。
In S63, the
短い発話の音声認識結果が受け答え候補でない場合(S63:N)、S64に進んで、当該短い発話は相槌であると判定して、要約生成に入力すべき対話音声テキストから削除する。すなわち、S64で相槌と判定された短い発話は、要約作成において意味のない相槌であるため、要約文生成源とされない。一方、短い発話の音声認識結果が受け答え候補である場合(S63:Y)、S65に進む。 When the voice recognition result of the short utterance is not a received answer candidate (S63: N), the process proceeds to S64, it is determined that the short utterance is a cooperation, and the short utterance is deleted from the dialogue voice text to be input for the summary generation. In other words, the short utterance determined to be an amulet in S64 is a meaningless adjusent in the creation of the abstract, and is therefore not a source of the abstract sentence generation. On the other hand, when the voice recognition result of the short utterance is the answer candidate (S63: Y), the process proceeds to S65.
S65では、相槌解析部54はさらに、S63で検出された受け答え候補である短い発話の発話中に、対話の相手の音声に短い無音期間があるか否かを判定する。
図14(a)を参照して、CH1の顧客の音声中の短い発話(SP14)に対応するCH2のオペレータの発話では、図4のS3で音声認識前処理部41により、第1の閾値以上の長さの無音区間を含まないため、1つの発話単位SP24として検出されている。S65では、この第1の閾値より小さい第2の閾値を用いて、対話の相手の音声に短い無音区間が検出できるか否かが判定される。この第2の閾値は、第1の閾値より小さい値を持ち、例えば、1秒であり、0.5秒から1.5秒の間で調整されてよい。
In S65, the
With reference to FIG. 14A, in the utterance of the operator of CH2 corresponding to the short utterance (SP14) in the voice of the customer of CH1, the voice recognition preprocessing unit 41 in S3 of FIG. Since it does not include a silent section of the length of, it is detected as one utterance unit SP24. In S65, a second threshold value smaller than the first threshold value is used to determine whether or not a short silent section can be detected in the voice of the other party of the dialogue. This second threshold has a value smaller than the first threshold, for example 1 second and may be adjusted between 0.5 and 1.5 seconds.
S65で、受け答え候補である短い発話の発話中に、対話の相手の発話単位(有音区間)中に、第2の閾値以上の長さを持つ短い無音区間が検出された場合(S65:Y)、S66で当該短い発話は受け答えであると判定してS67に進む。一方、受け答え候補である短い発話の発話中に、対話の相手の発話単位(有音区間)中に、第2の閾値以上の長さを持つ短い無音区間が検出されない場合(S65:N)、S64に進んで、受け答え候補であった当該短い発話は、相槌であると判定して、要約生成に入力すべき対話音声テキストから削除する。
S67で、相槌解析部54は、S66で受け答えと判定された短い発話の前後で、対話の相手の音声を2つの発話単位に分離する。
In S65, during the utterance of the short utterance that is the answer candidate, in the utterance unit (voiced section) of the other party of the dialogue, a short silent section having a length of the second threshold or more is detected (S65: Y ), It is determined in S66 that the short utterance is an answer and the process proceeds to S67. On the other hand, during the utterance of the short utterance that is the answer candidate, when a short silent section having a length equal to or greater than the second threshold value is not detected in the utterance unit (voiced section) of the conversation partner (S65: N), Proceeding to S64, the short utterance, which was a response candidate, is determined to be a humor, and is deleted from the dialogue voice text to be input for the summary generation.
In S67, the
図14(b)を参照して、CH1の顧客の短い発話区間(SP14)の音声認識結果が受け答え候補と判定されたものとすると、この発話(SP14)中に、CH2のオペレータの発話区間(SP24)には、第2の閾値以上かつ第1の閾値より小さい無音区間(SL24a)が検出できる。この場合、相槌解析部54は、検出されたこの無音区間(SL24a)の前後で、オペレータの発話区間(SP24)を分離して、無音区間(SL24a)直前の発話区間(SP24a)と無音区間(SL24a)直後の発話区間(SP24b)とを取得する。
With reference to FIG. 14B, if it is determined that the voice recognition result of the short speech period (SP14) of the customer of CH1 is determined as the answer candidate, the speech period of the operator of CH2 ( In SP24), a silent section (SL24a) that is equal to or larger than the second threshold and smaller than the first threshold can be detected. In this case, the
S68で、相槌解析部54は、S67で分離された、短い無音区間(SL24a)直前の発話区間(SP24a)を音声認識して得られた対話音声テキストを、S66で受け答えと判定された音声テキストと対になるべき対話音声テキストであると判定し、この対のテキストを、受け答えのテキストと、当該受け答えを促した、何に対する受け答えであるかを特定するテキストとして、相互に対応付けて「受け答え」の種別を付与して、要約単位の対話音声テキストファイル33へ出力する。
In S68, the
<要約生成サーバ7における要約生成処理の処理手順>
図6は、要約生成サーバ7の各部が実行する要約生成処理の処理手順の非限定的一例を示すフローチャートである。
図6を参照して、S10で、要約生成サーバ7のテキスト補正部71は、要約単位に区切られた対話音声テキスト33から1通話単位の対話音声テキストを読み出す。
<Processing Procedure of Summary Generation Processing in
FIG. 6 is a flowchart showing a non-limiting example of the processing procedure of the summary generation processing executed by each unit of the
With reference to FIG. 6, in S10, the
S11で、テキスト補正部71は、S10で読み出した対話音声テキストを補正する。具体的には、テキスト補正部71は、図12に示すように要約単位(要約生成の処理単位)で区切られた1つの発話単位の対話音声テキストに、句読点を挿入した上で、句点の位置で改行を挿入する。
図15は、テキスト補正部71が参照する句読点テーブルの非限定的一例を示す。図15の句読点テーブルは、句点または読点を直後に挿入すべき用語を定義する。図15において、「1」は読点の挿入、「0」は句点の挿入を示す。テキスト補正部71は、図15の句読点テーブルを参照して、要約単位の区切り記号から後方一致で、句読点テーブルに定義される「ますが」、「ますか」、「ます」、「はい」等の語を検索し、検索された語の直後に、句読点テーブルの定義に従って句点または読点を挿入していく。テキスト補正部71は、図15の句読点テーブルに定義される検索語のうち、字数の多いものから順に検索してよい。
In S11, the
FIG. 15 shows a non-limiting example of the punctuation mark table referred to by the
テキスト補正部71はさらに、形態素解析で抽出された数詞を検索し、検索された数値の意味を解析する。応対履歴のための要約文生成においては、数詞が要約におけるキーワードとなる重要語であることが多い。このため、テキスト補正部71は、検索された数詞の意味を解析して、解析された数詞の意味に応じた種別を取得し、取得された種別に応じた単位や重みを付与する。
数詞の意味としては、例えば、「日付」、「時間」、「金額」、「電話番号」、「個数」等が付与され得るがこれに限定されない。
The
As the meaning of the numerical words, for example, “date”, “time”, “amount of money”, “telephone number”, “number of pieces” and the like can be given, but the number is not limited thereto.
図16は、テキスト補正部71が、解析された数詞の要素へ、種別、単位(表記)、重み付けをそれぞれ付与するために参照する数詞種別テーブルである。図16を参照して、例えば日付や時刻や金額(円)には、個数(個)や温度(度)より高い重みが付与されている。
一方、テキスト補正部71は、対話音声テキスト中に前後の語に関連しない数詞が検索された場合、誤認識と判定して、対話音声テキストから当該数詞を削除してよい。また、テキスト補正部71は、要約文中における視認性および明瞭性向上のため、検索された数詞を半角数字に変換してよい。
FIG. 16 is a number-word type table that the
On the other hand, the
図6に戻り、S12で、要約生成サーバ7の冗長性排除部72は、音声認識された対話音声テキスト中の冗長性を排除してより簡明化ないし単純化された対話音声テキストを出力する。
具体的には、冗長性排除部72は、不要語テーブル35を参照して、対話音声テキストから不要語を削除する。
図17は、冗長性排除部72が参照する不要語テーブル35の非限定的一例を示す。図17を参照して、不要語テーブル35には、「えー」等の間投詞、「いつもお世話になっております。」等の定型挨拶文等が不要語として定義されている。
Returning to FIG. 6, in S12, the
Specifically, the
FIG. 17 shows a non-limiting example of the unnecessary word table 35 referred to by the
冗長性排除部72はさらに、1通話分の対話音声テキストから、同一ないし類似内容を記述する文(ないし句、語等の意味を有するまとまりであってもよい)が複数回出現した場合に、重複する文を対話音声テキストから適宜削除してよい。好適には、冗長性排除部72は、1通話分の対話音声テキスト中に同一ないし類似内容を記述する文等が複数回出願した場合には、通話開始から終了までの時系列上前方に出現した文を削除し、最後に出現した文を残してよい。通話終了時点に近い文が、より応対における最終的な結論を記述する蓋然性が高いからである。また、最後に出現した文は、オペレータによる復唱であると推定でき、この場合、復唱された文がより応対履歴として要約に残すべき正確な内容を記述してものであると期待できるからである。
The
冗長性排除部72は、さらに、重要語テーブル34を参照し、重要語テーブル34に登録済みであるキーワードの言い淀みや繰り返しを削除してもよい。
例えば、重要語テーブル34にキーワードとして表記「eVoice」、読み「イーボイス」と登録されていたものとする。
この場合、認識結果が「明日の10時にいいeVoiceへ伺います。」であったとすると、冗長性排除部72は、登録済みのキーワードの直前に読みが先頭から部分一致するものを検索し、検索された語を削除する。これにより、言い淀み箇所を対話音声テキストから削除することができる。
同様に、認識結果が「明日の10時にeVoiceへeVoiceにお伺いします。」であったとすると、冗長性排除部72は、上記のように、登録済みのキーワードの繰り返しは前方を削除する。これにより、繰り返し箇所を対話音声テキストから削除することができる。
The
For example, it is assumed that the keyword “eVoice” and the reading “Evoice” are registered in the important word table 34 as keywords.
In this case, if the recognition result is "I will visit a good eVoice at 10 o'clock tomorrow.", The
Similarly, if the recognition result is "I will ask eVoice to eVoice at 10 o'clock tomorrow", the
図6に戻り、S13で、要約生成サーバ7の要約文生成部73は、冗長性排除部72が出力する対話音声テキストから、応対履歴の要約文を生成する。具体的には、要約文生成部73は、会話体で記述された対話音声テキストを文章体に整形する。好適には、要約文生成部73は、会話体で記述された対話音声テキストを体言止めの文章体に整形する。
Returning to FIG. 6, in S13, the summary
図18は、要約文生成部73が参照する文体変換テーブル36の非限定的一例を示す。図18を参照して、文体変換テーブル36には、左欄に変換元の会話体の語(「ございますね」、「と申します」、「おっしゃっていました」等)が、右欄に変換先の文章体の語(「ですね」、「です」、「言っていた」等)が、それぞれ定義されている。要約文生成部72は、対話音声テキストから、文体変換テーブル36に定義された変換元の会話体の語を検索し、検索された会話体の語を文体変換テーブル36に定義される対応する文章体の語に変換する。これにより、対話音声テキスト中の丁寧語が簡潔な報告調の文章体に変換される。
なお、図19の文体変換テーブル36中、変換元の「ちょっと」の語には対応する変換先の文章体の語が定義されていない。この場合、要約文生成部72は、変換元の語を対話音声テキストから削除すればよい。
FIG. 18 shows a non-limiting example of the style conversion table 36 referred to by the
It should be noted that in the style conversion table 36 of FIG. 19, the word of the conversion destination corresponding to the word "little" of the conversion source is not defined. In this case, the abstract
図6に戻り、S13で、要約文生成部73はさらに、対話音声テキストから予め定義された重要語を検索し、検索された重要語を出力すべき要約文に含める。
図19、図20および図21はそれぞれ、要約文生成部73が参照する重要語テーブル34の非限定的一例を示す。図17を参照して、重要語テーブル34には、「連絡」、および「確認」の語が重要語として定義されている。重要語テーブル34には、重要語を可変の重み(ポイント)とともに定義してよい。図19には、「連絡」、および「確認」の語には、いずれも重み「1」が定義されている。また、ユーザが追加や削除等の編集可能な他の重要語テーブル34を提供し、固有名詞等を適宜定義可能としてよい。
要約文生成部73は、対話音声テキストから、重要語テーブル34に定義された重要語を検索し、検索された重要語を対応する重みに応じて重み付けして、生成すべき要約文に含める。
Returning to FIG. 6, in S13, the abstract
19, 20 and 21 each show a non-limiting example of the important word table 34 referred to by the abstract
The abstract
図20は、肯定表現である重要語(「はい」、「わかった」、「いいよ」、)了解」等)を定義する重要語テーブル34の非限定的一例を示し、図21は、否定表現である重要語(「いいえ」、「やだよ」、「断る」、「承認しない」等)を定義する重要語テーブル34の非限定的一例を示す。要約文生成部73は、これらの重要語テーブル34も参照して、対話音声テキストから重要語を検索し、検索された重要語を対応する重みに応じて重み付けして、生成すべき要約文に含める。図20および図21に含まれる肯定ないし否定表現としての重要語は、適宜文章体(「承諾」、「拒否」等)に変換されてよい。
なお、好適には、要約文生成部73は、冗長性排除部72から複数の文が供給された場合と単独の文が供給された場合のいずれであっても、1つの通話単位について1つの要約文を生成してよい。
FIG. 20 shows a non-limiting example of the important word table 34 that defines important words that are positive expressions (“Yes”, “Understood”, “Iiyo”, ok) etc.), and FIG. A non-limiting example of the important word table 34 that defines important words that are expressions (“No”, “No”, “Refuse”, “No approval”, etc.) is shown. The abstract
It should be noted that, preferably, the summary
図6に戻り、S14で、要約生成サーバ7の要約文短縮部75は、要約文生成部73により生成された要約文が、所定長、例えば所定文字数の閾値を超えた場合に、該閾値内の要約文長となるよう、要約文を短縮する。
好適には、要約文短縮部75は、対話要約文が一覧表示される照会結果表示画面において、1通話単位の要約文表示用に設けられた出力欄に要約文全文がスクロールを要することなく一瞥して可読な範囲の文字数を閾値として設定してよい。これにより、要約文確認のための追加的操作が不要となり、要約文全体の迅速な視認が可能となる。
Returning to FIG. 6, in S14, if the summary sentence generated by the summary
Preferably, the summary
より詳細には、要約文短縮部75は、各種重要語テーブル34を参照して、要約文中に出現する重要語に付与された重み(重要度ポイント)に基づいて、要約文を短縮してよい。
一例として、要約文短縮部75は、冗長性排除部72から供給される対話音声テキストを、句点(「。」)ごとに区切り、1つの対話音声テキスト文ごとに、文中に出現する重要語の重要度ポイントを加算し、高い重要度が算出された通話テキスト文を優先的に選択してよい。
要約文短縮部75は、短縮された要約文を、要約文テキスト38のファイルへ出力する。
More specifically, the summary
As an example, the summary
The summary
図6のS15で、本実施形態において、要約文生成部73は、音声認識サーバ5の相槌解析部54が生成した、「受け答え」の種別が付与された対のテキストを、出力すべき要約文に付加する。
音声認識サーバ5の相槌解析部54により実行された図13の相槌解析処理により、一方の話者(例えば、顧客)により発話された、受け答えと判定された対話音声テキストと、当該受け答えの直前に他方の話者(例えば、オペレータ)により発話された、当該受け答えを促した、何に対する受け答えであるかを特定する対話音声テキストとが対となり、「受け答え」の種別が付与されて、一問一答形式の対話として対話音声テキストに含まれている。
In S15 of FIG. 6, in the present embodiment, the summary
The dialogue analysis text of FIG. 13 executed by the
要約文生成部73は、この「受け答え」の種別が付与された対話音声テキストの対を重要語として取り扱い、各種変換テーブル36を参照して、要約文用の文体に変換した上で、出力すべき要約文に付加する。例えば、「受け答え」の種別が付与された対話音声テキストが「発送は二三日後でよろしかったでしょうか(オペレータの問い)」と「はい(顧客の受け答え)」の対であるとする。この場合、要約文生成部73は、この対話音声テキストの対から「二三日後の発送を了承」等に変換し、変換後のテキストを応対履歴における重要語(重要文)として出力すべき要約文に含める。
The summary
他の例として、「受け答え」の種別が付与された対話音声テキストが「ご注文の品は対話要約eV−Outlineでよろしいでしょうか(オペレータの問い)」と「はい、お願いします(顧客の受け答え)」の対であるとする。この場合、要約文生成部73は、この対話音声テキストの対から「注文の品は対話要約eV−Outlineを確認」等に変換し、変換後のテキストを応対履歴における重要語(重要文)として出力すべき要約文に含める。
As another example, the dialogue voice text to which the type of “answer” is given is “Is the item you ordered in the dialogue summary eV-Outline OK (operator's question)” and “Yes, please (customer answer ) ”. In this case, the abstract
S16で、要約生成サーバ7の感情解析部74は、対話音声テキストに基づいて、対話の話者の感情解析処理を実行する。また、感情解析部74は、要約生成部73から感情解析サーバ6へのインターフェースを提供し、感情解析サーバ6に感情解析処理を実行させ、感情解析処理の実行結果を要約文生成部73へ供給してもよい。あるいは感情解析サーバ6を別途設けることなく、感情解析部74が要約文を生成すべき対話の話者の感情解析処理を実行してもよい。以下では、前者の感情解析サーバ6を使用して感情解析処理を実行する例を説明する。
In S16, the
感情解析処理は、対話音声データを使用した非言語的感情解析処理と、音声認識結果である対話音声テキストを使用した言語的感情解析処理とを含む。
前者の対話音声データに基づく感情解析処理において、感情解析部74から呼び出された感情解析サーバ6は、通話録音サーバ3から供給される対話音声データを入力として、話者ごとに例えば、喜怒、満足度、ストレス度、信頼度等の話者の感情を数値化した定量的指標を話者の感情解析結果として出力する。
The emotion analysis process includes a non-verbal emotion analysis process using the conversation voice data and a linguistic emotion analysis process using the conversation voice text that is the voice recognition result.
In the former emotion analysis processing based on the conversation voice data, the
感情解析サーバ6が提供するこの感情解析処理は、話者の脳波の動きと声帯の動きとが連動するものであり、発話のプロセスにおいて人間は感情を制御することができず感情が声に現れるとの知見に基づくものである。このため、感情解析サーバ6は、話者の発話の言語に依存することなく、対話音声データから話者の感情を数値化することができる。
後者の対話音声テキストに基づく感情解析処理において、要約生成サーバ7の感情解析部74は、音声認識サーバ5から供給される対話音声テキストを入力として、対話音声テキスト中の感情語を抽出し、感情語テーブル37を参照して、要約文に含めるべき感情表現に変換する。
In this emotion analysis processing provided by the
In the latter emotion analysis process based on the dialogue voice text, the
図22は、感情解析サーバ6が、1つの通話単位の一方の話者(顧客)の対話音声データに対して、感情解析処理を実行した結果の非限定的出力例を示す。図22を参照して、顧客(CS)の1通話中の顧客の感情の遷移が時系列上出力されている。図22は、顧客からのクレーム対応で、通話中にオペレータが顧客を納得させた例を示す。図22において、「喜怒」および「満足度」の感情指標は、中盤から後半にかけてともに数値が上昇しており、一方、「ストレス度」の感情指標は、中盤から後半にかけて数値が減少しており、1つの通話単位の中盤から後半にかけて、顧客の怒りおよびストレスが低下して不満が満足に転化しているとの感情の遷移を読み取ることができる。
FIG. 22 shows a non-limiting output example of the result of the
また、図22に例示される顧客の感情解析結果から、他方の話者であるオペレータの応対の品質を評価する指標を得ることができる。
例えば、通話の始めから「喜怒」の感情指標がマイナスで「怒り」が高いが、通話の最後には、「喜怒」の感情指標が0またはプラスに転化して「喜び」の傾向を示し、かつ「満足度」の感情指標も0またはプラスに転化して「満足」の傾向を示している場合、オペレータの応対履歴の評価は、優れた応対を示す「応対優良」としてよい。
ただし、通話の最後に、例えば顧客の「信頼度」の感情指標がマイナスで「不信」の傾向を示している場合、当該顧客の発話内容の信頼度が低いと評価することができるため、当該顧客の発言につき要注意であることを示す「顧客注意」を注記してもよい。
In addition, an index for evaluating the quality of the response of the operator who is the other speaker can be obtained from the customer emotion analysis result illustrated in FIG.
For example, the emotional index of "joy and anger" is negative and "anger" is high from the beginning of the call, but at the end of the call, the emotional index of "joy and anger" is converted to 0 or positive and the tendency of "joy" is increased. In addition, when the emotional index of “satisfaction” is also converted to 0 or positive and shows a tendency of “satisfaction”, the evaluation of the response history of the operator may be “excellent response” indicating excellent response.
However, at the end of a call, for example, if the customer's “credibility” emotional index shows a negative tendency to “distrust”, it can be evaluated that the customer's utterance content is low in reliability. A “customer attention” may be noted to indicate that the customer's remarks need attention.
一方、通話の途中で突然「喜怒」の感情指標がマイナスに大きく転化するとともに「満足度」の感情指標もマイナスに大きく転化し、「怒り」かつ「不満」の傾向がその後も継続した場合、マイナス転化の直前のオペレータの発言が顧客の怒りや不満を誘発したと評価することができるため、当該オペレータの応対を確認することが必要であることを示す「応対注意」としてよい。
この場合も、通話の最後に、例えば顧客の「信頼度」の感情指標がマイナスで「不信」の傾向を示している場合、当該顧客の発話内容の信頼度が低いと評価することができるため、当該顧客の発言につき要注意であることを示す「顧客注意」を注記してもよい。
また、上記のような傾向が示されなかった場合には、妥当な応対であることを示す「応対通常」としてよい。
On the other hand, in the middle of a call, the emotional index of "anger and anger" suddenly turned to a large negative value, and the emotional index of "satisfaction" also turned to a large negative value, and the tendency of "anger" and "dissatisfaction" continued thereafter. Since it can be evaluated that the operator's remark just before the conversion to minus has caused the customer's anger or dissatisfaction, it may be a “response caution” indicating that it is necessary to confirm the response of the operator.
Also in this case, at the end of the call, for example, if the customer's "reliability" emotional index shows a negative tendency to "distrust", it can be evaluated that the reliability of the utterance content of the customer is low. , "Customer attention" indicating that the customer's remarks need attention may be noted.
Moreover, when the above tendency is not shown, it may be set as “reception normal” indicating that the reception is appropriate.
図23は、感情解析サーバ6が、1つの通話単位の他方の話者(オペレータ)の対話音声データに対して、感情解析処理を実行した結果の非限定的出力例を示す。図23は、顧客との通話でオペレータがストレスを感じている例を示す。図23において、「ストレス度」の感情指標は、通話の始めから終わりにかけて数値が上昇しており、オペレータのストレスが高まっているとの感情の遷移を読み取ることができる。
この場合、例えば、前回までのストレス度の感情指標の数値の遷移と比較して今回の通話でのストレスが高まっている場合には、オペレータの評価指標を、当該オペレータのストレス状態を引き続き監視すべきであることを示す「応対注意」としてよい。
FIG. 23 shows a non-limiting output example of the result of the
In this case, for example, when the stress in this call is higher than the transition of the numerical value of the emotion index of the stress level up to the previous time, the operator's evaluation index is continuously monitored for the operator's stress index. It may be used as "response caution" indicating that it should be done.
図24は、ある期間内(1日、1週間等)における複数回(図24では15回)の通話間での感情の遷移を示す。図24において、通話回数が増加するにつれて、オペレータの「ストレス度」の感情指標の平均数値が徐々に上昇しており、通話回数が増加するにつれて、オペレータのストレスが高まっているとの感情の遷移を読み取ることができる。
この場合、オペレータの評価指標を、当該オペレータの応対を中止させ、直ちにヒヤリングを実施すべきであることを示す「応対中止」としてよい。
FIG. 24 shows a transition of emotions between a plurality of calls (15 times in FIG. 24) within a certain period (one day, one week, etc.). In FIG. 24, the average value of the emotional index of the operator's “stress level” gradually increases as the number of calls increases, and the emotional transition that the operator's stress increases as the number of calls increases Can be read.
In this case, the operator's evaluation index may be "stop receiving", which indicates that the operator's reception should be stopped and hearing should be performed immediately.
図25は、要約生成サーバ7の感情解析部74が参照する感情語テーブル37の非限定的一例を示す。図25を参照して、感情語テーブル37には、左欄に変換元の感情語(「まあいいか」、「それでいいよ。ありがとう」、「がっかりしたよ」、「大丈夫だよな」、「なんとかしろよ」、「いい加減にしろよ」等)が、右欄に変換先の感情表現(「渋々承諾」、「快諾」、「落胆」、「不安」、「不快」等)が、それぞれ定義されている。要約生成サーバ7の感情解析部74は、対話音声テキストから、感情語テーブル37に定義された変換元の感情語を検索し、検索された感情語を感情語テーブル37に定義される対応する感情表現に変換する。これにより、対話音声テキスト中の感情語が簡潔な感情表現に変換される。
FIG. 25 shows a non-limiting example of the emotion word table 37 referred to by the
図27は、図25の感情語テーブル37を参照して、感情解析部74が音声認識結果である対話音声テキストから感情表現を組み入れた要約文を生成する非限定的一例を示す。 図26を参照して、感情解析部74は、図27上段の対話音声テキスト「機器を交換したけど、また壊れて、がっかりだよ」を、図27下段の「機器交換したが故障し落胆」の要約文へ変換する。出力すべき要約文に音声認識結果である対話音声テキストから把握される感情表現を含めることができる。変換後の「落胆」の語が話者(顧客)の感情表現を示すものであり、出力される要約文に含められる。
FIG. 27 shows a non-limiting example in which the
一方、図26は、感情解析サーバ7が対話音声データ(声色)から感情解析処理を実行して得られた感情表現を、要約文テキストに括弧書で付加した非限定的一例を示す。図26を参照して、感情解析サーバ7は、図26上段の対話音声テキスト「食品に虫が入っているんだよ」の基となった対話音声データに対して感情解析処理を実行し、例えば当該音声データの「信頼度」の感情指標がマイナスで「不信」の傾向を示している場合、当該顧客の発言につき要注意であることを示す「顧客注意」の感情表現を生成して、要約生成サーバ7の感情解析部74を解して要約文生成部73へ供給する。要約生成サーバ7の要約文生成部73は、図26上段の対話音声テキストから生成された図26下段の要約文「食品に虫が混入」に、感情解析サーバ6から供給された「顧客注意」を括弧書で付加する。
上記のように、生成される要約文に話者の感情表現を反映させることにより、話者の感情遷移の状況把握や、対策を取るべき問題通話の自動抽出が容易に可能となる。
On the other hand, FIG. 26 shows a non-limiting example in which the emotion expression obtained by the
As described above, by reflecting the emotional expression of the speaker in the generated summary sentence, it becomes possible to easily grasp the situation of the emotional transition of the speaker and automatically extract the problematic call for which countermeasures should be taken.
図6に戻り、要約生成サーバ7の要約生成部73は、S17で、上記のような感情解析結果を用いて、図27に示すように、要約文中の感情語からより端的でカテゴライズされた感情表現に置き換え、および図26に示すように、出力すべき要約文に付加する。
S18で、要約文生成部73または要約文短縮部75は、最終的に生成された要約文を要約文テキスト38のファイルへ出力する。
Returning to FIG. 6, the
In S18, the summary
図28ないし図30を参照して、音声認識サーバ5が出力する要約単位に区切られた対話音声テキストから最終的に出力される要約文を生成するまでの抽出変換処理の一例を説明する。
図28は、音声認識サーバ5が出力し、要約生成サーバ7に入力される1つの通話単位の対話音声テキストの非限定的一例を示す。図28の対話音声テキストは、識別された話者(オペレータ(OP)または顧客(CS))ごとに、各行に1つの発話単位の対話音声テキストが示されており、各行の対話音声テキストは、四角で示される要約単位の区切りが挿入されている。
図29は、図28に示す対話音声テキストから、要約生成サーバ7の要約文生成部73が中間的に出力する要約文テキストの非限定的一例を示す。図29に示すように、図28の20発話単位のテキストから、6発話単位のテキスト(3番目、6番目、9番目、11番目、14番目、および15番目の発話単位のテキスト)が抽出されるとともに、抽出された発話単位のテキストのそれぞれが、要約文用のより簡潔なテキストに変換されている。要約文生成部73は、重要語テーブル34、不要語テーブル35、および各種変換テーブル36を参照することにより、図28の1通話全体の対話音声テキストから図29の中間的要約文テキストに変換する。
With reference to FIGS. 28 to 30, an example of the extraction conversion process from the dialogue voice text divided by the summary unit output by the
FIG. 28 shows a non-limiting example of the conversation voice text of one call unit which is output by the
FIG. 29 shows a non-limiting example of the summary sentence text intermediately output by the summary
図30は、図29の中間的に出力する要約文テキストから、要約文生成部73ないし要約文短縮部75が最終的に出力する要約文テキストの非限定的一例を示す。図30に示すように、図29で抽出され変換された6発話単位のテキストから、5行の要約文が生成されており、各要約文の末尾は体言止めの「希望」、「確認」等に変換されている。特に、図29の5行目のオペレータの発話(問い)と6行目の顧客の発話(受け答え)との対は、図30において、「作成し郵送するので二三日待つ事を快諾」と1つの要約文に集約されている。要約文生成部73は、重要語テーブル34や各種変換テーブル36を参照することにより、応対履歴として機能する図30の最終的に出力される要約文テキストを生成する。図30の5行目の要約文の文末は、上記の感情解析処理を適用して、話者(顧客)の感情表現を反映した「快諾」に変換されている。
FIG. 30 shows a non-limiting example of the summary sentence text finally output from the summary
図31は、図28の対話音声テキストを照会した結果表示装置等に出力されるユーザインタフェースの非限定的一例を示す。図31を参照して、ユーザインタフェースは、識別された話者311、発話単位の応対内容312、再生ボタン313、および話者の感情解析結果アイコン314を含んでよい。所望する発話に対応する再生ボタン313を選択することにより、当該発話の音声ファイルが再生される。
図32は、感情解析結果として、図31で照会された通話単位についての、話者ごとの感情指標について、感情指標の数値から得られる感情解析結果が、「喜怒」が「通常」、満足感が「普通」ないし「やや高い」、ストレスが「なし」、「若干あり」等と示されている。図31と図32は同時に視認可能に表示装置上表示されてよい。
FIG. 31 shows a non-limiting example of the user interface output to the result display device or the like as a result of querying the dialogue voice text of FIG. 28. With reference to FIG. 31, the user interface may include the identified
FIG. 32 shows, as the emotion analysis result, the emotion analysis result obtained from the numerical value of the emotion index for each talker in the call unit inquired in FIG. The feeling is "normal" to "slightly high", stress is "none", "somewhat", etc. 31 and 32 may be displayed on the display device so as to be visible at the same time.
図33は、1通話単位(録音時間1.25.716)について話者識別された発話単位の対話音声の音声認識結果、対応するユーザ辞書等を参照した自然言語処理結果、および音声ファイルのリンク、開始および終了時間を一覧で示す非限定的表示例である。図33左下にあるように、当該通話単位について生成された要約文が表示されており、各処理結果と要約文との間の相互参照を容易にしている。図33のユーザインタフェースは、音声ファイルを再生した後、音声認識結果や自然言語処理結果を、ユーザにエラー訂正させるべく、編集可能に表示してもよい。
また、図33左下の生成された要約文には、対話において最終的に「サクサファンドの目論見書をインターネットで見ることを了承」したことが示されているが、当該要約文部分のうち「了承」に対して、複数の感情指標の数値から得られる感情解析結果を、例えば、「了承(快諾)」または「了承(渋々承諾)」のように括弧書等で付加してもよく、「了承」を「快諾」ないし「渋々承諾」等の感情解析結果を含む表現で置き換えてもよい。
本実施形態によれば、このように対話録音データ、対話音声の音声認識結果、自然言語処理結果、感情解析結果、および生成された要約文を統合して出力することができる。
FIG. 33 shows a voice recognition result of conversational voice of an utterance unit identified as a speaker for one call unit (recording time of 1.25.716), a natural language processing result by referring to a corresponding user dictionary, and a link of a voice file. , Is a non-limiting display example showing a list of start and end times. As shown in the lower left of FIG. 33, the summary generated for the call unit is displayed, which facilitates cross-reference between each processing result and the summary. The user interface of FIG. 33 may display the voice recognition result and the natural language processing result editable after the voice file is played back so that the user can correct the error.
In addition, the generated summary in the lower left of FIG. 33 shows that in the dialogue, “approved to view Saxa Fund's prospectus on the Internet” was finally accepted. ”, The emotion analysis result obtained from the numerical values of a plurality of emotion indexes may be added in parentheses such as“ acceptance (please consent) ”or“ acceptance (reluctance acceptance) ”. May be replaced with an expression including the emotional analysis result such as "pleasant consent" or "reluctant consent".
According to the present embodiment, it is possible to integrate and output the dialogue recording data, the speech recognition result of the dialogue voice, the natural language processing result, the emotion analysis result, and the generated summary sentence as described above.
(各装置のハードウエア構成の一例)
図34は、音声処理システムにおける各装置が備えるハードウエア構成の一例を示す図である。音声取得サーバ2、通話録音サーバ3、制御サーバ4、音声認識サーバ5、感情解析サーバ6、要約生成サーバ7、およびPC9,10は、図34に示すハードウエアコンポーネントの全部又は一部を備える。図34に示す各装置100は、CPU101、ROM102、RAM103、外部メモリ104、入力部105、表示部106、通信I/F107及びシステムバス108を備えてよい。
(Example of hardware configuration of each device)
FIG. 34 is a diagram showing an example of the hardware configuration of each device in the voice processing system. The
CPU101は、装置における動作を統括的に制御するものであり、システムバス1088を介して各構成部(102〜107)を制御する。CPU101は音声認識処理、要約生成処理または感情解析処理等の各処理を実行する処理部として機能する。ROM102は、CPU101が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは外部メモリ104や着脱可能な記憶媒体(図示せず)に記憶されていてもよい。RAM103は、CPU101の主メモリ、ワークエリア等として機能する。よって、CPU101は、処理の実行に際してROM102から必要なプログラム等をRAM103にロードし、当該プログラム等を実行することで各種の機能動作を実現する。
The
外部メモリ104は例えば、CPU101がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶する。また、外部メモリ104には例えば、CPU101がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。入力部105はキーボード、タブレット等各種入力デバイスから構成される。表示部106は例えば液晶ディスプレイ等からなる。通信I/F107は、外部装置と通信するためのインターフェースであり、例えば無線LAN(Wi−Fi)インターフェースやBluetooth(登録商標)インターフェースを備える。システムバス108は、CPU101、ROM102、RAM103、外部メモリ104、入力部105、表示部106及び通信I/F107を通信可能に接続する。
The
以上説明したように、本実施形態によれば、対話音声から、十分に短縮化され、かつ対話中の話者の発話における感情が十分に反映された高精度な要約文を生成することができる。よって、対話音声の要約の有用性向上に資する。
なお、上述した各実施形態は、その複数を組み合わせて実現することが可能である。
また、本発明は、上述の実施形態の一部または1以上の機能を実現するプログラムによっても実現可能である。すなわち、そのプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータ(またはCPUやMPU等)における1つ以上のプロセッサがプログラムを読出し実行する処理により実現可能である。また、そのプログラムをコンピュータ可読な記録媒体に記録して提供してもよい。
また、コンピュータが読みだしたプログラムを実行することにより、実施形態の機能が実現されるものに限定されない。例えば、プログラムの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって上記した実施形態の機能が実現されてもよい。
As described above, according to the present embodiment, it is possible to generate a highly accurate summary sentence that is sufficiently shortened and sufficiently reflects the emotion in the utterance of the speaker during the dialogue from the dialogue voice. .. Therefore, it contributes to improving the usefulness of the summary of the dialogue voice.
Each of the above-described embodiments can be realized by combining a plurality of them.
The present invention can also be realized by a program that realizes a part of the above-described embodiments or one or more functions. That is, the program is supplied to a system or device via a network or a storage medium, and one or more processors in the computer (or CPU, MPU, etc.) of the system or device can read and execute the program. is there. Further, the program may be recorded in a computer-readable recording medium and provided.
Further, the functions of the embodiments are not limited to being realized by executing the program read by the computer. For example, an operating system (OS) running on a computer may perform some or all of the actual processing based on the instructions of the program, and the processing may realize the functions of the above-described embodiments.
以上、本発明の実施形態について詳細に説明したが、上記実施形態は、本発明を実施するにあたっての具体例を示したに過ぎない。本発明の技術的範囲は、前記実施形態に限定されるものではない。本発明は、その趣旨を逸脱しない範囲において種々の変更が可能であり、それらも本発明の技術的範囲に含まれる。 Although the embodiments of the present invention have been described in detail above, the above embodiments merely show specific examples for carrying out the present invention. The technical scope of the present invention is not limited to the above embodiment. The present invention can be variously modified without departing from the spirit thereof, and these are also included in the technical scope of the present invention.
1 PBX
2 音声取得サーバ
3 通話録音サーバ
4 制御サーバ
5 音声認識サーバ
6 感情解析サーバ
7 要約生成サーバ
8 構内回線
9、10 PC
31 対話音声
32 音声認識辞書
33 要約単位テキスト
34 重用語テーブル
35 不要語テーブル
36 変換テーブル
37 感情語テーブル
51 音声認識前処理部
52 音声認識部
53 音声認識後処理部
54 相槌解析部
71 テキスト補正部
72 冗長性排除部
73 要約文生成部
74 感情解析部
75 要約文短縮部
1 PBX
2 voice acquisition server 3
31
Claims (9)
前記話者識別部により識別された話者ごとに、前記対話音声データを発話単位に分離する音声分離部と、
前記対話音声データを、前記音声分離部により分離された前記発話単位で音声認識して対話音声テキストを生成する音声認識部と、
前記音声認識部により生成された前記対話音声テキストを要約して要約文テキストを生成する要約生成部と、
前記発話単位で前記対話音声データを解析して話者ごとの感情表現を導出し、導出された前記感情表現を前記要約文テキストに付加しまたは前記感情表現で前記要約文テキストの一部を置き換え、または前記要約文テキストに対応付けて出力する感情解析部と、
を備えることを特徴とする対話要約生成装置。 A speaker identification unit for identifying the speaker of the dialogue from the dialogue voice data,
For each speaker identified by the speaker identification unit, a voice separation unit that separates the conversation voice data into utterance units,
A voice recognition unit that voice-recognizes the dialogue voice data in the utterance unit separated by the voice separation unit to generate a dialogue voice text;
A summary generation unit that summarizes the dialogue voice text generated by the voice recognition unit to generate a summary sentence text;
Analyzing the dialogue voice data for each utterance to derive an emotional expression for each speaker, adding the derived emotional expression to the summary text, or replacing a part of the summary text with the emotional expression. , Or an emotion analysis unit which outputs the summary text in association with the summary text,
A dialogue abstract generating apparatus comprising:
ことを特徴とする請求項1に記載の対話要約生成装置。 The emotion analysis unit further analyzes time-series emotional transitions for each speaker in one dialogue by analyzing the conversation voice data in units of the utterance, and the emotions derived for each speaker are analyzed. Output the transition in association with the summary text,
The dialogue summary generation device according to claim 1, wherein
ことを特徴とする請求項1または2に記載の対話要約生成装置。 From the dialogue voice text generated by the voice recognition unit, extract an emotional word indicating an emotion for each speaker, convert the extracted emotional word into a corresponding emotional expression, and in the converted emotional expression, A second emotion analysis unit that replaces at least a part of the summary text;
The dialogue summary generating device according to claim 1 or 2, characterized in that.
ことを特徴とする請求項1から3のいずれか1項に記載の対話要約生成装置。 It is determined whether or not the same or similar text appears multiple times in the dialogue voice text of one dialogue unit. When the same or similar text appears multiple times, they appear forward in time series. A redundancy elimination unit for deleting text,
The dialogue summary generation device according to any one of claims 1 to 3, characterized in that:
ことを特徴とする請求項4に記載の対話要約生成装置。 The redundancy eliminating unit further refers to an important word table that defines important words in advance, extracts the text defined in the important word table from the dialogue voice text, and positions the text immediately before the extracted text. And searching for a second text in which the reading of the extracted text at least partially matches, and deleting the searched text from the dialogue voice text.
The dialogue summary generation device according to claim 4, wherein
ことを特徴とする請求項1から5のいずれか1項に記載の対話要約生成装置。 A text correction unit that analyzes the dialogue voice text generated by the voice recognition unit to extract a number, assigns different units and weights depending on the type of the extracted number, and supplies the unit to the summary generation unit. To prepare further,
The dialogue abstraction generation device according to any one of claims 1 to 5, characterized in that:
ことを特徴とする請求項1から6のいずれか1項に記載の対話要約生成装置。 Further comprising a voice acquisition unit for recording a conversation voice or a face-to-face conversation voice to acquire the conversation voice data.
The dialogue abstraction generation device according to any one of claims 1 to 6, characterized in that.
識別された話者ごとに、前記対話音声データを発話単位に分離するステップと、
前記対話音声データを、分離された前記発話単位で音声認識して対話音声テキストを生成するステップと、
生成された前記対話音声テキストを要約して要約文テキストを生成するステップと、
前記発話単位で前記対話音声データを解析して話者ごとの感情表現を導出し、導出された前記感情表現を前記要約文テキストに付加しまたは前記感情表現で前記要約文テキストの一部を置き換え、または前記要約文テキストに対応付けて出力するステップと、
を含むことを特徴とする対話要約生成方法。 Identifying the speaker of the dialogue from the dialogue voice data,
Separating the dialogue voice data into utterance units for each identified speaker;
Generating a dialogue voice text by recognizing the dialogue voice data in units of the separated utterances;
Generating a summary text by summarizing the generated dialogue voice text,
Analyzing the dialogue voice data for each utterance to derive an emotional expression for each speaker, adding the derived emotional expression to the summary text, or replacing a part of the summary text with the emotional expression. , Or outputting in association with the summary text,
A method for generating a dialogue summary, comprising:
対話音声データから対話の話者を識別する話者識別処理と、
識別された話者ごとに、前記対話音声データを発話単位に分離する音声分離処理と、
前記対話音声データを、分離された前記発話単位で音声認識して対話音声テキストを生成する音声認識処理と、
生成された前記対話音声テキストを要約して要約文テキストを生成する要約生成処理と、
前記発話単位で前記対話音声データを解析して話者ごとの感情表現を導出し、導出された前記感情表現を前記要約文テキストに付加しまたは前記感情表現で前記要約文テキストの一部を置き換え、または前記要約文テキストに対応付けて出力する感情解析処理と、を含む処理を実行させるためのものである、
ことを特徴とする対話要約生成プログラム。
A dialogue abstract generation program for causing a computer to execute a dialogue abstract generation process, the program comprising:
Speaker identification processing for identifying the speaker of the dialogue from the dialogue voice data,
Voice separation processing for separating the dialogue voice data into utterance units for each identified speaker;
A voice recognition process of generating voice dialogue text by voice-recognizing the dialogue voice data in the separated utterance units;
A summary generation process for generating a summary sentence text by summarizing the generated dialogue voice text,
Analyzing the dialogue voice data for each utterance to derive an emotional expression for each speaker, adding the derived emotional expression to the summary text, or replacing a part of the summary text with the emotional expression. , Or an emotion analysis process of outputting the summary text in association with each other, and executing a process including:
A dialogue summary generation program characterized by the following.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018205371A JP6513869B1 (en) | 2018-10-31 | 2018-10-31 | Dialogue summary generation apparatus, dialogue summary generation method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018205371A JP6513869B1 (en) | 2018-10-31 | 2018-10-31 | Dialogue summary generation apparatus, dialogue summary generation method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6513869B1 JP6513869B1 (en) | 2019-05-15 |
JP2020071676A true JP2020071676A (en) | 2020-05-07 |
Family
ID=66530744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018205371A Active JP6513869B1 (en) | 2018-10-31 | 2018-10-31 | Dialogue summary generation apparatus, dialogue summary generation method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6513869B1 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220004272A (en) * | 2020-07-03 | 2022-01-11 | 한국과학기술원 | Cyclic Learning Method and Apparatus for Speech Emotion Recognition and Synthesis |
CN114049902A (en) * | 2021-10-27 | 2022-02-15 | 广东万丈金数信息技术股份有限公司 | Aricloud-based recording uploading recognition and emotion analysis method and system |
WO2022180721A1 (en) * | 2021-02-25 | 2022-09-01 | 三菱電機株式会社 | Information processing device, summary sentence output method, and summary sentence output program |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111223498A (en) * | 2020-01-10 | 2020-06-02 | 平安科技(深圳)有限公司 | Intelligent emotion recognition method and device and computer readable storage medium |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3309896B2 (en) * | 1996-09-04 | 2002-07-29 | 日本電信電話株式会社 | Utterance analysis device |
JP2009175336A (en) * | 2008-01-23 | 2009-08-06 | Seiko Epson Corp | Database system of call center, and its information management method and information management program |
JP2010086380A (en) * | 2008-10-01 | 2010-04-15 | Nippon Kyoiku System Kaihatsu Kyokai:Kk | Diary analyzing device, computer program for diary analysis and method thereof |
JP2010117797A (en) * | 2008-11-11 | 2010-05-27 | Hitachi Ltd | Numeric representation processing apparatus |
JP2011087005A (en) * | 2009-10-13 | 2011-04-28 | Neikusu:Kk | Telephone call voice summary generation system, method therefor, and telephone call voice summary generation program |
JP2013222347A (en) * | 2012-04-17 | 2013-10-28 | Canon Inc | Minute book generation device and minute book generation method |
JP2015100054A (en) * | 2013-11-20 | 2015-05-28 | 日本電信電話株式会社 | Voice communication system, voice communication method and program |
JP2017199254A (en) * | 2016-04-28 | 2017-11-02 | 日本電気株式会社 | Conversation analysis device, conversation analysis method and conversation analysis program |
WO2018079332A1 (en) * | 2016-10-31 | 2018-05-03 | ソニー株式会社 | Information processing device and information processing method |
-
2018
- 2018-10-31 JP JP2018205371A patent/JP6513869B1/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3309896B2 (en) * | 1996-09-04 | 2002-07-29 | 日本電信電話株式会社 | Utterance analysis device |
JP2009175336A (en) * | 2008-01-23 | 2009-08-06 | Seiko Epson Corp | Database system of call center, and its information management method and information management program |
JP2010086380A (en) * | 2008-10-01 | 2010-04-15 | Nippon Kyoiku System Kaihatsu Kyokai:Kk | Diary analyzing device, computer program for diary analysis and method thereof |
JP2010117797A (en) * | 2008-11-11 | 2010-05-27 | Hitachi Ltd | Numeric representation processing apparatus |
JP2011087005A (en) * | 2009-10-13 | 2011-04-28 | Neikusu:Kk | Telephone call voice summary generation system, method therefor, and telephone call voice summary generation program |
JP2013222347A (en) * | 2012-04-17 | 2013-10-28 | Canon Inc | Minute book generation device and minute book generation method |
JP2015100054A (en) * | 2013-11-20 | 2015-05-28 | 日本電信電話株式会社 | Voice communication system, voice communication method and program |
JP2017199254A (en) * | 2016-04-28 | 2017-11-02 | 日本電気株式会社 | Conversation analysis device, conversation analysis method and conversation analysis program |
WO2018079332A1 (en) * | 2016-10-31 | 2018-05-03 | ソニー株式会社 | Information processing device and information processing method |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220004272A (en) * | 2020-07-03 | 2022-01-11 | 한국과학기술원 | Cyclic Learning Method and Apparatus for Speech Emotion Recognition and Synthesis |
KR102382191B1 (en) | 2020-07-03 | 2022-04-04 | 한국과학기술원 | Cyclic Learning Method and Apparatus for Speech Emotion Recognition and Synthesis |
WO2022180721A1 (en) * | 2021-02-25 | 2022-09-01 | 三菱電機株式会社 | Information processing device, summary sentence output method, and summary sentence output program |
JPWO2022180721A1 (en) * | 2021-02-25 | 2022-09-01 | ||
JP7305077B2 (en) | 2021-02-25 | 2023-07-07 | 三菱電機株式会社 | Information processing device, abstract output method, and abstract output program |
CN114049902A (en) * | 2021-10-27 | 2022-02-15 | 广东万丈金数信息技术股份有限公司 | Aricloud-based recording uploading recognition and emotion analysis method and system |
Also Published As
Publication number | Publication date |
---|---|
JP6513869B1 (en) | 2019-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6517419B1 (en) | Dialogue summary generation apparatus, dialogue summary generation method and program | |
US11594221B2 (en) | Transcription generation from multiple speech recognition systems | |
US11935540B2 (en) | Switching between speech recognition systems | |
US10672383B1 (en) | Training speech recognition systems using word sequences | |
US11170761B2 (en) | Training of speech recognition systems | |
US8676586B2 (en) | Method and apparatus for interaction or discourse analytics | |
US8301447B2 (en) | Associating source information with phonetic indices | |
US8145482B2 (en) | Enhancing analysis of test key phrases from acoustic sources with key phrase training models | |
US7788095B2 (en) | Method and apparatus for fast search in call-center monitoring | |
US7275032B2 (en) | Telephone call handling center where operators utilize synthesized voices generated or modified to exhibit or omit prescribed speech characteristics | |
JP6513869B1 (en) | Dialogue summary generation apparatus, dialogue summary generation method and program | |
US20100217591A1 (en) | Vowel recognition system and method in speech to text applictions | |
US20110004473A1 (en) | Apparatus and method for enhanced speech recognition | |
JP5311348B2 (en) | Speech keyword collation system in speech data, method thereof, and speech keyword collation program in speech data | |
US9401145B1 (en) | Speech analytics system and system and method for determining structured speech | |
US20100100378A1 (en) | Method of and system for improving accuracy in a speech recognition system | |
KR20070090745A (en) | Communicating across voice and text channels with emotion preservation | |
JP2011087005A (en) | Telephone call voice summary generation system, method therefor, and telephone call voice summary generation program | |
US11721324B2 (en) | Providing high quality speech recognition | |
CN114328867A (en) | Intelligent interruption method and device in man-machine conversation | |
US10872615B1 (en) | ASR-enhanced speech compression/archiving | |
Westall et al. | Speech technology for telecommunications | |
Wu et al. | Intelligent Call Manager Based on the Integration of Computer Telephony, Internet and Speech Processing | |
EP1103954A1 (en) | Digital speech acquisition, transmission, storage and search system and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181031 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20181101 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20181119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181127 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190307 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190410 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6513869 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |