JP6513869B1 - Dialogue summary generation apparatus, dialogue summary generation method and program - Google Patents
Dialogue summary generation apparatus, dialogue summary generation method and program Download PDFInfo
- Publication number
- JP6513869B1 JP6513869B1 JP2018205371A JP2018205371A JP6513869B1 JP 6513869 B1 JP6513869 B1 JP 6513869B1 JP 2018205371 A JP2018205371 A JP 2018205371A JP 2018205371 A JP2018205371 A JP 2018205371A JP 6513869 B1 JP6513869 B1 JP 6513869B1
- Authority
- JP
- Japan
- Prior art keywords
- speech
- text
- unit
- dialogue
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 70
- 230000008451 emotion Effects 0.000 claims abstract description 159
- 238000004458 analytical method Methods 0.000 claims abstract description 147
- 230000014509 gene expression Effects 0.000 claims abstract description 46
- 230000002996 emotional effect Effects 0.000 claims abstract description 33
- 238000000926 separation method Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims description 80
- 230000002452 interceptive effect Effects 0.000 claims description 48
- 230000008569 process Effects 0.000 claims description 46
- 238000012937 correction Methods 0.000 claims description 19
- 230000007717 exclusion Effects 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 11
- 230000007704 transition Effects 0.000 claims description 11
- 230000004044 response Effects 0.000 description 33
- 238000012805 post-processing Methods 0.000 description 27
- 238000006243 chemical reaction Methods 0.000 description 26
- 238000007781 pre-processing Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 17
- 230000000877 morphologic effect Effects 0.000 description 15
- 238000004904 shortening Methods 0.000 description 10
- 101100189471 Mus musculus Pbx1 gene Proteins 0.000 description 8
- 238000012790 confirmation Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000002955 isolation Methods 0.000 description 3
- 101100365087 Arabidopsis thaliana SCRA gene Proteins 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 102100028423 MAP6 domain-containing protein 1 Human genes 0.000 description 1
- 101710163760 MAP6 domain-containing protein 1 Proteins 0.000 description 1
- 241001122315 Polites Species 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000002940 repellent Effects 0.000 description 1
- 239000005871 repellent Substances 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】対話音声から、十分に短縮化され、かつ対話中の話者の発話における感情が十分に反映された高精度な要約文を生成する。【解決手段】対話音声要約生成装置は、対話音声データから対話の話者を識別する話者識別部と、話者識別部により識別された話者ごとに、対話音声データを発話単位に分離する音声分離部と、記対話音声データを、前声分離部により分離された発話単位で音声認識して対話音声テキストを生成する音声認識部と、音声認識部により生成された対話音声テキストを要約して要約文テキストを生成する要約文生成部と、発話単位で対話音声データを解析して話者ごとの感情表現を導出し、導出された感情表現を要約文テキストに付加するか、感情表現で要約文テキストの一部を置き換えるかまたは要約文テキストに対応付けて出力する感情解析部と、を備える。【選択図】図3[PROBLEMS] To generate a highly accurate summary sentence which is sufficiently shortened and which sufficiently reflects emotions in a speaker's speech during dialogue from dialogue speech. A dialog speech summary generation apparatus separates dialog speech data into utterance units for each speaker identified by a speaker identification unit that identifies a speaker of dialog from conversation speech data. A speech separation unit, a speech recognition unit that generates speech speech text by speech recognition of speech speech data in units of speech separated by the speech separation unit, and speech speech text generated by the speech recognition unit is summarized. A summary sentence generation unit for generating a summary sentence text, analyzing dialogue speech data in units of speech to derive an emotional expression for each speaker, and adding the derived emotional expression to the summary text, or And an emotion analysis unit that replaces a part of the summary text or outputs it in association with the summary text. [Selected figure] Figure 3
Description
本発明は、対話要約生成装置、対話要約生成成方法およびプログラムに関する。より詳細には、本発明は、例えば顧客と応対担当者の電話もしくは対面でなされた対話を録音蓄積して管理するCustomer Relationship Management(CRM)システムに利用可能な、録音された対話音声から要約を作成し、生成された要約を出力するための技術に関する。 The present invention relates to a dialogue summary generation apparatus, dialogue summary generation method and program. More particularly, the present invention provides a summary from recorded dialog speech available to, for example, a Customer Relationship Management (CRM) system that records, stores and manages customer and agent calls or face-to-face interactions. The present invention relates to a technique for creating and outputting a generated summary.
顧客と事業者との間でなされた対話音声を事業者側において録音して管理する各種技術が提案されている。近年では、事業者のコンプライアンス遵守、顧客からのクレーム対策、および事業者側オペレータの評価や教育等の目的のため、電話での通話に限らず、対面による対話を含めて、あらゆる場面で対話内容の録音蓄積が要請されている。 Various techniques have been proposed for recording and managing on the business operator side dialogue voices made between the customer and the business operator. In recent years, for the purpose of compliance compliance of business operators, measures against customer complaints, evaluation and education of business operators, conversation contents in all situations, including not only telephone calls but also face-to-face dialogues It is requested that recordings of
一例として、顧客からの電話応対部署であるコールセンタにおけるオペレータの通話内容をデータ化して録音するとともに検索するための通話録音システムにおいては、一般に、事業者が運営するコールセンタ等の構内には、公衆電話交換回線網(Publi Switched Telephone Network:PSTN)からの発信および受信が集中する交換機(PBX)が設置され、この交換機により音声通話がコールセンタ構内の固定電話に分配される。 As an example, in a call recording system for digitizing, recording and searching the call contents of an operator in a call center which is a section handling a call from a customer, a public telephone generally operates a public telephone at a premises such as a call center operated by a business operator. A switch (PBX) is installed to concentrate call origination and reception from a switched switched telephone network (PSTN), and this switch distributes voice calls to fixed telephones in a call center site.
このため、この交換機から分岐する通話録音サーバを設ければ、通話を音声データファイルに録音蓄積することができる。オペレータ側には、音声応対用内線電話とともに、PC(Personal Computer)等の端末装置が設けられてよく、このオペレータ端末装置には、例えば、発話者が告げた顧客名をキーとして顧客情報を検索する機能や、当該顧客の過去の通話履歴を表示する機能が備えられてよい。 Therefore, if a call recording server branching from the exchange is provided, it is possible to record and store a call in an audio data file. On the operator side, a terminal device such as a PC (Personal Computer) may be provided along with an extension telephone for voice response, and this operator terminal device is searched for customer information using, for example, a customer name told by a speaker as a key And a function to display the past call history of the customer.
このように音声データファイルに録音蓄積された顧客とオペレータとの間の音声通話につき、1回の電話応対ごと、その概要を応対履歴として記録保持し、通話終了後にこの応対履歴を閲覧およびレポートとして出力可能とすることが要請される。この応対履歴の内容を迅速に確認および照査するため、録音された音声通話からテキスト化された要約を生成することが望まれる。
このような音声データから要約テキストを作成する技術において、音声データファイル中の音声を音声認識処理により文字コード化し、文字コード化された音声テキストデータから要約テキストを生成する技術がある。テキスト化された要約を生成することで、応対履歴の内容の把握が容易となり、一覧性が提供され、さらにテキスト中の単語をキーワードに用いて検索を実行できる等、コンピュータとの柔軟な連携が可能となる。
The voice call between the customer and the operator recorded and stored in the voice data file in this way is recorded and maintained as a call history for each call, and the call history is viewed and reported after the call ends. It is required to enable output. In order to quickly verify and verify the contents of this response history, it is desirable to generate a textified summary from the recorded voice call.
As a technique for creating a summary text from such voice data, there is a technique for converting the voice in the voice data file into a character code by speech recognition processing and generating a summary text from the character coded voice text data. The creation of a text-based summary makes it easy to understand the contents of the response history, provides a list-like feature, and enables flexible collaboration with a computer, such as executing a search using words in the text as keywords. It becomes possible.
例えば、特許文献1は、ビデオテープレコーダ(VTR)により記録媒体に録音された音声を音声認識して文字コード列に変換し、この音声認識された文字コード列中の文の構成要素の重要度、典型的には名詞・動詞・助詞・形容詞等の品詞別、主格・目的格・述部等の句別に付与された重要度、を予め登録された重要度テーブルを参照することにより判定し、重要度が高いと判定された文中構成要素を組み合わせることで要約文を自動生成する技術を開示する。
For example,
また、特許文献2は、音声から重要区間を抽出し、抽出された重要区間の出現分布を用いて話題境界を検出し、それぞれの話題区間に含まれる重要区間を意味分類して、重要区間の音声から話題ごとに分割されたテキストによる要約を生成する技術を開示する。
Further,
しかしながら、上記各特許文献に開示される技術を、例えばコールセンタにおける電話応対業務に直ちに適用することは困難である。なぜなら、顧客とオペレータ間の音声通話は、通常、顧客情報の取得・確認、問い合わせ内容の取得・確認、問い合わせへの回答内容の取得・確認、顧客の理解度および免責内容の提示・確認等、多くの段階を経るため不可避的に冗長であり、また、同じ発話内容が繰り返された結果、対話が長時間に亘ることも多いからである。加えて、多数のオペレータについて終日録音蓄積される通話録音データは膨大なものとなるため、応対履歴の迅速な確認および照査を困難にする。 However, it is difficult to immediately apply the techniques disclosed in the above-mentioned patent documents to, for example, telephone service operations in a call center. Because voice communication between the customer and the operator usually involves acquisition / confirmation of customer information, acquisition / confirmation of inquiry content, acquisition / confirmation of response content to inquiry, presentation / confirmation of customer's understanding level and disclaimer content, etc. It is inevitably redundant because there are many steps, and as the same utterance content is repeated, the dialogue often takes a long time. In addition, the call recording data that is recorded and accumulated all day for a large number of operators becomes enormous, which makes it difficult to quickly confirm and check the response history.
このため、音声通話をそのまま音声認識して得られる音声通話テキストに公知の要約文作成技術を適用しても、生成される要約文もまた不可避的に冗長かつ長文となってしまう不都合があり、利便性が乏しかった。 For this reason, there is a disadvantage that the generated summary also inevitably becomes redundant and long even if a known summary creation technology is applied to the voice call text obtained by speech recognition of the voice call as it is, The convenience was poor.
一方、対話中の話者の感情は一律ではない。例えば、対話中に「はい」との発話が音声認識された場合、当該発話の話者が、快諾して発話した「はい」であるのか、渋々同意を余儀なくされた「はい」であるのか、異なる感情に基づく発話であり得る。
しかしながら、従来の技術では、対話中の話者の発話における感情を要約に反映することはできなかった。
On the other hand, the speaker's emotion during the conversation is not uniform. For example, if the utterance "Yes" is recognized during the dialogue, whether the speaker of the utterance is "Yes" who uttered in a comfortable manner or "Yes" who was compelled to agree compelled, It may be an utterance based on different emotions.
However, according to the prior art, it was not possible to reflect the emotion in the utterance of the speaker during dialogue in the summary.
本発明は、上記課題に鑑みてなされたものであり、その目的は、対話音声から、十分に短縮化され、かつ対話中の話者の発話における感情が十分に反映された高精度な要約文を生成することが可能な対話要約生成装置、対話要約生成方法およびプログラムを提供することにある。 The present invention has been made in view of the above problems, and an object thereof is a high-accuracy summary sentence sufficiently shortened from dialogue speech and sufficiently reflecting emotions in a speaker's speech during dialogue. A dialogue summary generation apparatus, a dialogue summary generation method, and a program capable of generating
上記課題を解決するために、本発明のある態様によれば 対話音声データから対話の話者を識別する話者識別部と、前記話者識別部により識別された話者ごとに、前記対話音声データを発話単位に分離する音声分離部と、前記対話音声データを、前記音声分離部により分離された前記発話単位で音声認識して対話音声テキストを生成する音声認識部と、前記音声認識部により生成された前記対話音声テキストを要約して要約文テキストを生成する要約生成部と、前記発話単位で前記対話音声データを解析して話者ごとの感情表現を導出し、導出された前記感情表現を前記要約文テキストに付加しまたは前記感情表現で前記要約文テキストの一部を置き換え、または前記要約文テキストに対応付けて出力する感情解析部と、を備える対話要約生成装置が提供される。 According to an aspect of the present invention, there is provided a speaker identifying unit for identifying a speaker of a dialog from dialog voice data, and the dialog voice for each speaker identified by the speaker identifying unit. A speech separation unit for separating data into speech units; a speech recognition unit for speech recognition of the dialogue speech data by the speech units separated by the speech separation unit to generate dialogue speech text; and the speech recognition unit A summary generation unit for summarizing the generated dialog voice text to generate a summary text, and analyzing the dialog voice data by the utterance unit to derive an emotional expression for each speaker, and the derived emotional expression An emotion analysis unit which appends to the summary sentence text or replaces a part of the summary sentence text with the emotion expression, or outputs it in association with the summary sentence text; Apparatus is provided.
前記感情解析部はさらに、前記発話単位で前記対話音声データを解析することにより、1つの対話における話者ごとの時系列上の感情の遷移を導出し、話者ごとに導出された前記感情の遷移を、前記要約文テキストに対応付けて出力してよい。 The emotion analysis unit further analyzes the dialogue speech data in units of the utterance to derive a transition of emotions in time series of each speaker in one dialogue, and the emotion analysis unit extracts the emotion derived for each speaker. A transition may be output in association with the summary text.
前記対話要約生成装置はさらに、前記音声認識部により生成された前記対話音声テキストから、話者ごとの感情を示す感情語を抽出し、抽出された前記感情語を対応する感情表現に変換し、変換された前記感情表現で、前記要約文テキストの少なくとも一部を置き換える第2の感情解析部を備えてよい。
前記対話音声生成装置はさらに、1つの対話の単位の対話音声テキスト中に、同一ないし類似するテキストが複数回出現するか否かを判定し、同一ないし類似するテキストが複数回出現する場合には、時系列上前方に出現するテキストを削除する冗長性排除部をさらに備えてよい。
前記冗長性排除部は、さらに、予め重要語を定義する重要語テーブルを参照して、前記対話音声テキスト中から前記重要語テーブルに定義されるテキストを抽出し、抽出されたテキストの直前に位置するとともに抽出されたテキストの読みが少なくとも部分一致する第2のテキストを検索し、検索されたテキストを前記対話音声テキストから削除してよい。
The dialogue summary generation apparatus further extracts an emotion word indicating an emotion of each speaker from the dialogue speech text generated by the speech recognition unit, and converts the extracted emotion word into a corresponding emotion expression. A second emotion analysis unit may be provided that replaces at least a portion of the abstract sentence text with the transformed emotion expression.
The dialog voice generation apparatus further determines whether the same or similar text appears multiple times in the dialog voice text of one dialog unit, and when the same or similar text appears multiple times. The method may further comprise a redundancy exclusion unit that deletes text appearing forward in time series.
The redundancy exclusion unit further refers to the keyword table which defines keywords in advance, extracts the text defined in the keyword table from the interactive speech text, and positions the text immediately before the extracted text. In addition, the second text may be searched for at least partially matching the reading of the extracted text, and the searched text may be deleted from the interactive speech text.
前記対話要約生成装置はさらに、前記音声認識部により生成される前記対話音声テキストを解析して数詞を抽出し、抽出された数詞の種別に応じて異なる単位および重みを付与して、前記要約生成部へ供給するテキスト補正部を備えてよい。
前記対話要約生成装置はさらに、通話音声または対面での対話音声を録音して前記対話音声データを取得する音声取得部を備えてよい。
The dialogue summary generation apparatus further analyzes the dialogue speech text generated by the speech recognition unit to extract a number sentence, and adds a different unit and weight according to the type of the extracted number sentence, and generates the summary. A text correction unit for supplying to a unit may be provided.
The dialogue summary generation apparatus may further include a voice acquisition unit for recording a talk voice or a face-to-face dialogue voice to acquire the dialogue voice data.
本発明の他の態様によれば、対話音声データから対話の話者を識別するステップと、識別された話者ごとに、前記対話音声データを発話単位に分離するステップと、前記対話音声データを、分離された前記発話単位で音声認識して対話音声テキストを生成するステップと、生成された前記対話音声テキストを要約して要約文テキストを生成するステップと、前記発話単位で前記対話音声データを解析して話者ごとの感情表現を導出し、導出された前記感情表現を前記要約文テキストに付加しまたは前記感情表現で前記要約文テキストの一部を置き換え、または前記要約文テキストに対応付けて出力するステップと、を含む対話要約生成方法が提供される。 According to another aspect of the present invention, there is provided the steps of: identifying a speaker of a dialog from dialog voice data; separating the dialog voice data into utterance units for each identified speaker; and Speech recognition in the separated speech unit to generate dialogue speech text, summarizing the generated dialogue speech text to generate a summary text, and speech information in the speech unit The analysis is performed to derive an emotional expression for each speaker, and the derived emotional expression is added to the summary text, or a part of the summary text is replaced with the emotion expression, or the abstract text is associated with the summary text And outputting the dialog summary generation method.
本発明のさらに他の態様によれば、対話要約生成処理をコンピュータに実行させるための対話音声要約生成プログラムであって、該プログラムは、前記コンピュータに、話音声データから対話の話者を識別する話者識別処理と、識別された話者ごとに、前記対話音声データを発話単位に分離する音声分離処理と、前記対話音声データを、分離された前記発話単位で音声認識して対話音声テキストを生成する音声認識処理と、生成された前記対話音声テキストを要約して要約文テキストを生成する要約生成処理と、前記発話単位で前記対話音声データを解析して話者ごとの感情表現を導出し、導出された前記感情表現を前記要約文テキストに付加しまたは前記感情表現で前記要約文テキストの一部を置き換え、または前記要約文テキストに対応付けて出力する感情解析処理と、を含む処理を実行させるためのものである、対話要約生成プログラムが提供される。 According to still another aspect of the present invention, there is provided an interactive speech summary generation program for causing a computer to execute a dialog summarizing process, wherein the program identifies the speaker of the dialogue from the spoken speech data in the computer. A speaker identification process, a speech separation process for separating the dialogue speech data into speech units for each identified speaker, and speech speech recognition by speech recognition of the dialogue speech data in the separated speech units A speech recognition process to be generated, a summary generation process of summarizing the generated dialog speech text to generate a summary text, and analysis of the dialog speech data on a speech basis to derive an emotional expression for each speaker Adding the derived emotion expression to the summary sentence text or replacing part of the summary sentence text with the emotion expression or corresponding to the summary sentence text And emotion analysis to only output is intended for causing a process including execution, interactive summarization program is provided.
本発明に係る対話要約生成装置、対話要約生成方法およびプログラムによれば、対話音声から、十分に短縮化され、かつ対話中の話者の発話における感情が十分に反映された高精度な要約文を生成することができる。よって、対話音声の要約の有用性向上に資する。 According to the dialog summary generation apparatus, the dialog summary generation method, and the program according to the present invention, a highly accurate summary sentence sufficiently shortened from the dialog speech and sufficiently reflecting the emotion in the speaker's speech during the dialog Can be generated. Therefore, it contributes to the improvement of the usefulness of the summary of dialogue speech.
以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。なお、以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施形態に必ずしも限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。 Hereinafter, an embodiment for carrying out the present invention will be described in detail with reference to the attached drawings. The embodiment described below is an example as a realization means of the present invention, and should be appropriately corrected or changed according to the configuration of the apparatus to which the present invention is applied and various conditions. It is not necessarily limited to the embodiment. Moreover, not all combinations of the features described in the present embodiment are essential to the solution means of the present invention. In addition, about the same structure, the same code | symbol is attached | subjected and demonstrated.
<本実施形態の音声処理システムのネットワーク構成>
以下では、顧客と、コールセンタのオペレータとの間で電話網を介してなされた通話を録音する例を説明するが、本実施形態はこれに限定されない。本実施形態は、例えば、通話に替えて、対面での対話をマイクロフォン等の集音装置により集音し録音した対話音声についても、同様に要約文を生成することができる。
図1は、本実施形態に係る音声処理システムのネットワーク構成の非限定的一例を示す図である。図1を参照して、音声処理システムは、PBX(交換機)1、音声取得サーバ2、通話録音サーバ3、制御サーバ4、音声認識サーバ5、感情解析サーバ6、要約生成サーバ7、および対話要約照会用に利用可能なPC(Personal Computer)9を備える。PBX1、音声取得サーバ2、通話録音サーバ3、制御サーバ4、音声認識サーバ5、感情解析サーバ6、要約生成サーバ7、およびPC9の全部または一部は、コールセンタ構内に設置され、LAN(Local Area Network)/WAN(Wide Area Network)等のイントラネット8等のIP(Internet Protocol)ネットワークにより相互接続されてよい。
<Network Configuration of Speech Processing System of This Embodiment>
The following describes an example of recording a call made between a customer and an operator of a call center via a telephone network, but the present embodiment is not limited to this. In the present embodiment, for example, instead of a call, a summary can be similarly generated also for dialogue voice in which a face-to-face dialogue is collected and recorded by a sound collection device such as a microphone.
FIG. 1 is a diagram showing a non-limiting example of the network configuration of the voice processing system according to the present embodiment. Referring to FIG. 1, the speech processing system includes a PBX (switching machine) 1,
或いは代替的に、音声取得サーバ2、通話録音サーバ3、制御サーバ4、音声認識サーバ5、感情解析サーバ6、要約生成サーバ7、およびPC9の全部または一部は、インターネット等の遠隔IP接続を介して適宜コールセンタ外部に設置されてもよい。
特に、コールセンタのオペレータ以外の管理者等が対話要約照会用PC9を操作して要約文データベース内の応対履歴である対話音声要約の照会ないし更新処理を行う場合には、当該対話要約照会PC9は、オペレータ近傍に設置される必要はなく、遠隔IP接続を介して適宜コールセンタ外部に設置されることが好適である。
Alternatively, all or part of the
In particular, when an administrator other than the call center operator operates the dialogue
音声処理システムは、さらに、イントラネット8或いはインターネットを介して音声処理システムに接続される、マイクロフォンを接続または内蔵する他のPC10を備えてよい。このように構成すれば、PC10のマイクロフォンで集音した対面でなされた対話音声を、本実施形態に係る音声処理システムに入力し、対面でなされた対話音声の要約文を生成することができる。
The voice processing system may further comprise another
PBX1は、コールセンタ内の内線電話を収容し、これら内線電話同士を接続するとともに、各オペレータの電話端末12を、構内回線11a、11b、11c・・・を介してPSTN(公衆電話網)13に回線交換接続して、各オペレータの電話端末12と、PSTN13に接続される顧客の電話端末14との間の通話を実現する。
The
なお、図1におけるPBX1は、PSTN13等の公衆電話交換回線網を介して顧客の電話端末14に接続されているが、これに替えて、或いはこれに加えて、IP網接続機能を備えることにより、VoIP(Voice Over Internet Protocol)ネットワーク等の音声パケット通信ネットワークを介して、IP電話機能を備える顧客のIP通話端末に接続されてよく、この場合、後述する音声取得サーバ2は、顧客のIP通話端末およびオペレータの電話端末12の間の音声通話を取得することができる。顧客の電話端末14は、固定電話機或いは携帯電話機やスマートフォンのいずれであってもよい。
<各サーバ装置の機能構成>
Although the
<Functional configuration of each server device>
音声取得サーバ2は、PBX1に分岐接続され、各オペレータの電話端末12と顧客の電話端末14との通話音声を取得するとともに、取得された通話音声をオペレータの電話端末12の識別子(例えば内線番号)と対応付けて各サーバに供給する。代替的に、この音声取得サーバ2は、PSTN13の終端装置(DSU)とPBX1との間の回線に分岐接続されてもよい。
The
通話録音サーバ3は、制御サーバ4の制御の下、着呼後に音声取得サーバ2から供給される通話音声を必要に応じて圧縮し、取得された音声データを、例えばNAS(Network Appliance Storage)等の大規模外部記憶装置により構成される対話音声ファイル(図2の対話音声ファイル31)のデータベースに蓄積記憶する。
好適には、通話録音サーバ3は、音声取得サーバ2からアナログ音声が供給された場合、このアナログ音声波形を電圧で表したものを所定のビット深度と所定のサンプリング周波数でサンプリングすることによりデジタル音声に変換し、対話音声ファイル31に蓄積保存する。
The call recording server 3 compresses the call voice supplied from the
Preferably, when analog voice is supplied from the
このデジタル音声データは、圧縮後に対話音声ファイル31に蓄積保存されてよい。録音音声の圧縮には、種々の公知の手法を種々の圧縮率で用いることができ、非限定的一例として、モノラル5分の1圧縮、モノラル10分の1圧縮、或いはステレオ無圧縮等により録音音声が圧縮される。代替的に、通話録音サーバ3は、音声取得サーバ2から供給される音声データを変換圧縮することなく、通話音声ファイル31に蓄積保存してもよい。
The digital audio data may be stored in the
通話録音サーバ3はまた、対話音声ファイル31内に蓄積保存された1通話単位ごとの対話音声データに関連付けて、呼情報ファイル(不図示)に通話の制御情報として取得される呼情報を書き出す。この呼情報は、PBX1により供給される。
通話録音サーバ3により取得される呼情報は、例えば、着信開始情報(着信開始タイムスタンプを含む)、発信開始情報(発信開始タイムスタンプを含む)、通話開始情報(通話開始タイムスタンプを含む)、通話終了情報(通話終了タイムスタンプを含む)等の呼制御情報と、発信元電話番号、発信先電話番号、発信元チャネル番号、発信者番号、着信チャネル番号、着信電話番号(着信先内線番号等)等の呼識別情報とを含む。
The call recording server 3 also writes call information acquired as call control information in a call information file (not shown) in association with the dialogue voice data for each call unit stored and stored in the
The call information acquired by the call recording server 3 includes, for example, incoming call start information (including incoming call start time stamp), outgoing call start information (including outgoing call start time stamp), call start information (including call start time stamp), Call control information such as call termination information (including call termination time stamp), source phone number, destination phone number, source channel number, sender number, incoming channel number, incoming phone number (destination extension number etc. And call identification information.
この呼情報はさらに、録音された通話内の発話が、インバウンド、すなわち顧客側からの発話であるか、アウトバウンド、すなわちオペレータ側からの発話であるかの極性を識別する話者識別情報を含む。この話者識別情報は、PBX1により取得可能であり、例えばSIP(Session Initiation Protocol)の場合には、呼生成の際のセッション構成時に把握可能であり、具体的には、例えば、セッション構成時に、発呼側から着呼側に送信されるInviteコマンド中で、セッション開始に必要な情報を記述するSDP(Session Description Protocol)内に発呼側が受信に使用するIPアドレスとポート番号を指定し、一方これに応答して着呼側から発呼側へ送信される200 OKメッセージ中のSDP内に着呼側が受信に使用するIPアドレスとポート番号を指定し、このそれぞれ指定されたIPアドレスとポート番号を使用してRTP(Realtime Transport Protocol)プロトコル上音声データが送受信される。このため、これら発呼側および着呼側がそれぞれ受信に使用するIPアドレスとポート番号を取得することにより、1通話内の発話それぞれの話者識別情報を得ることができ、1通話内の顧客の発話とオペレータの発話とを必要に応じて区別或いは分離することができる。
ISDNの場合には、話者識別情報は、回線終端装置(Digital Service Unit:DSU)の物理的なピン位置として取得可能である。
The call information further includes speaker identification information identifying the polarity of whether the speech in the recorded call is inbound, ie speech from the customer side or outbound, ie speech from the operator side. This speaker identification information can be acquired by the
In the case of ISDN, the speaker identification information can be obtained as a physical pin position of a digital service unit (DSU).
これら呼情報は、好適には、CTI(Computer Telephony Integration)プロトコルを実装した制御サーバ4上ないしオペレータのPC9上で稼動するCTIプログラムと連携して、これらの表示装置上に呼情報をリアルタイムに表示してよい。
The call information is preferably displayed in real time on the display device in cooperation with a CTI program running on the
通話録音サーバ3はまた、すでに応対履歴のある顧客を中心とする顧客の情報が事前登録された顧客情報データベース(不図示)を備える。この顧客情報は、顧客を識別する個人情報を含み、例えば顧客氏名、住所、登録された顧客電話番号、生年月日、年齢層、性別、その他顧客属性、製品購入履歴、応対履歴等を含むものとし、オペレータが操作可能な端末装置に、オペレータの指示入力に応じて適宜出力され得る。 The call recording server 3 also has a customer information database (not shown) in which information of customers mainly of customers who already have a response history has been registered. This customer information includes personal information identifying the customer, and includes, for example, customer name, address, registered customer telephone number, date of birth, age group, gender, other customer attributes, product purchase history, response history, etc. And the terminal device that can be operated by the operator can be appropriately output according to the instruction input by the operator.
なお、通話録音サーバ3は、構内回線8に接続するのに替えて、例えば、PSTN13とPBX1との間に接続されてよく、このように構成すれば、通話録音サーバ3は、上記の話者識別情報を直接取得することができる。さらに代替的に、音声取得サーバ2を別途設置することなく、通話録音サーバ3は、構内回線8に接続され、構内回線8に供給される通話音声を直接取得してよい。
Note that the call recording server 3 may be connected between, for example, the
制御サーバ4は、音声取得サーバ2、通話録音サーバ3、音声認識サーバ5、感情解析サーバ6、および要約生成サーバ7から供給されるデータおよび制御情報に基づいて、これらサーバが実行する処理、これらサーバ間のデータトラフィックおよび制御情報の送受信を制御する。代替的に、音声認識サーバ5および要約生成サーバ7は、通話録音サーバ3が保有する通話音声ファイル31や呼情報ファイルへのアクセスや対話要約照会用PC9へのインターフェースを、制御サーバ4を介することなく直接提供してもよい。この場合、音声処理システムは、別途制御サーバ4を備えなくてよい。
The
音声認識サーバ5は、制御サーバ4の制御の下、対話音声ファイル31に蓄積保存された対話音声データを、オフフックからオンフックまでの1通話分ごと読み出し、1通話分の対話音声を複数の発話単位に分離する。この発話単位への分離は、無音区間を識別して対話音声をこの無音区間で区切るものであり、図5を参照して後述する。
本実施形態において、音声認識サーバ5は、分離された発話単位ごとに対話音声データを解析して特徴量を抽出し、音声認識辞書(図2の音声認識辞書32)等の各種認識用辞書を参照し、公知の音声認識技術を適用して対話音声データを文字コード列に変換し、さらに変換された文字コード列を対話音声テキストとしてファイルに出力する。本実施形態において、音声認識サーバ5が出力する対話音声テキストは、要約単位に区切られたテキスト(図2の要約単位テキスト)を含む。この対話音声テキストを要約単位に区切る処理は、図4、図7、および図8を参照して後述する。
The
In the present embodiment, the
感情解析サーバ6は、通話録音サーバ3から供給される対話音声データを入力として、話者ごとに例えば、喜怒、満足度、ストレス度、信頼度等の話者の感情を示す定量的指標を話者の感情解析結果として出力する。この感情解析結果は、1通話内あるいは終日等、所定期間における各感情指標の変化として出力することができる。感情解析サーバ6が実行するこの感情解析処理の詳細は、図6、図22ないし図24を参照して後述する。
The
要約生成サーバ7は、対話音声テキストファイル33に格納された、要約単位に区切られた対話音声テキストを1通話分ごと読み出して、要約生成処理を実行し、生成された対話要約文を、要約文テキスト(図3の要約文テキスト38)として出力する。この要約生成処理の詳細は、図6を参照して後述する。
The
要約生成サーバ7は、1通話内の一方の話者、例えばオペレータの発話の対話音声テキストを読み出して要約文を生成してもよく、他方の話者、例えば顧客の発話から抽出された受け答え部分(後述)を要約文に付加してもよく、双方の話者の対話音声テキストから要約文を作成してもよい。後者の場合、話者の識別情報を対話音声テキストに対応付けることが好適である。
The
この1通話ごとに生成される要約文は、適宜、照会入力に応答して、対話要約照会用のPC9等のディスプレイ装置やプリンタ装置等の出力装置に出力可能であり、好適には、呼情報からデコードされた通話開始時間、通話終了時間、通話の発信者識別情報(顧客から着信した通話か、オペレータから発信した通話かを識別する情報)等と関連付けて出力されてよい。
好適には、PC9等に表示出力される要約文は、操作者の修正入力により、適宜更新され得る。この更新結果を学習し、要約文生成の際に参照されるべき重要語テーブル、不要語テーブル、各種変換テーブル等を適宜更新することにより、より高精度かつ簡明な要約文を生成することが可能となる。
本実施形態において、要約生成サーバ7はさらに、音声認識サーバ5から供給される対話音声テキストを入力として、感情語テーブル(図3の感情語テーブル37)等を参照して、対話音声テキスト中の感情表現部分を抽出し、要約文に含めるべき感情表現語に変換する。
The abstract generated for each call can be output appropriately to an output device such as a display device such as a
Preferably, the summary displayed and output on the
In the present embodiment, the
なお、図1に示すネットワークおよびハードウエアの構成は非限定的一例に過ぎず、各サーバおよびデータベースを必要に応じて一体としてもよく、或いは各コンポーネントをASP(Application Service Provide)等の外部設備に設置してもよい。 The configuration of the network and hardware shown in FIG. 1 is only a non-limiting example, and each server and database may be integrated as required, or each component may be integrated into an external facility such as ASP (Application Service Provide). You may install it.
<音声認識サーバ5の機能構成例>
図2は、本実施形態に係る音声認識サーバ5の機能構成の非限定的一例を示す図である。
図2に示す音声認識サーバ5の各機能モジュールのうち、ソフトウエアにより実現される機能については、各機能モジュールの機能を提供するためのプログラムがROM等のメモリに記憶され、RAMに読み出してCPUが実行することにより実現される。ハードウエアにより実現される機能については、例えば、所定のコンパイラを用いることで、各機能モジュールの機能を実現するためのプログラムからFPGA上に自動的に専用回路を生成すればよい。FPGAとは、Field Programmable Gate Arrayの略である。また、FPGAと同様にしてGate Array回路を形成し、ハードウエアとして実現するようにしてもよい。また、ASIC(Application Specific Integrated Circuit)により実現するようにしてもよい。なお、図2に示した機能ブロックの構成は一例であり、複数の機能ブロックが1つの機能ブロックを構成するようにしてもよいし、いずれかの機能ブロックが複数の機能を行うブロックに分かれてもよい。図3に示す要約生成サーバ7、および他のサーバ装置の機能構成についても同様である。
図2を参照して、音声認識サーバ5は、音声認識前処理部51、音声認識部52、音声認識後処理部53、および相槌解析部54を備える。
<Example of Functional Configuration of
FIG. 2 is a diagram showing one non-limiting example of the functional configuration of the
Among the function modules of the
Referring to FIG. 2, the
音声認識前処理部51は、通話録音サーバ3が蓄積保存した対話音声ファイル31から1通話ごとの対話音声のファイルを読み出して、読み出された1通話の対話音声ファイルから無音区間を検出し、検出された無音区間を境界として、対話における発話単位に区切る。音声認識前処理部51はまた、1通話の対話音声ファイルから区切られた複数の発話単位を、発話単位ごとに音声認識部52へ供給して、音声認識部52に発話単位での音声認識処理を実行させる。
The voice
音声認識部52は、音声認識前処理部51から供給される発話単位ごとの対話音声を入力として、音声認識処理を実行し、発話単位ごとの対話音声テキストを音声認識後処理部53へ供給する。音声認識部52は、例えば正確に認識されるべき重要語や重要文を定義可能な音声認識辞書32を参照して、対話音声の音声データを対話音声テキストに変換することができる。なお、音声認識部52を公知の音声認識エンジンに実装し、一方、音声認識前処理部51、音声認識後処理部53、および相槌解析部54を例えば制御サーバ4に実装してもよい。
The
音声認識後処理部53は、音声認識部52が出力する発話単位ごとの対話音声テキストに対して、構文解析および形態素解析等を実行して、対話音声テキストを要約単位に区切り、要約単位に区切られた対話音声テキスト33として出力する。構文解析結果および形態素解析結果は、要約単位に区切られた通話音声テキストに対応付けられてよい。この要約単位とは、発話単位の通話音声テキストから要約文生成を容易かつ高精度化できるよう、要約生成処理の処理単位としてさらに細分化された区切りの単位であり、その詳細は図8を参照して後述する。
The speech
音声認識後処理部53はまた、各重要語について重み付けを定義する音声認識用辞書32を参照して、抽出した要約単位ごとに重み付けを付与してもよい。例えば、日付、時間、住所、電話番号等は要約文に残すべき重要語であることが多く、音声認識後処理部53によりこれらの語を重み付けすることにより、誤変換を低減することができる。
The voice
相槌解析部54は、音声認識後処理部53により供給される要約単位に区切られた対話音声テキストから、例えば「はい」、「いいえ」等の受け答えと推定されるテキストを検出し、検出されたテキストが相槌か、或いは受け答えかを判定する。相槌解析部54は、この判定結果に基づいて、相槌と判定されたテキストを、音声認識後処理部53が出力する要約単位に区切られた対話音声テキスト33から削除する。
一方、相槌解析部54はまた、受け答えと判定されたテキストは、要約生成サーバ7が生成する要約文に含まれるよう、対話音声テキスト33に含めるとともに、対話音声テキスト中で当該テキストに「受け答え」である旨をタグ付けする。この相槌解析処理の詳細は、図13および図14を参照して後述する。
The
On the other hand, the
<要約生成サーバ7の機能構成例>
図3は、本実施形態に係る要約生成サーバ7の機能構成の非限定的一例を示す図である。
図3を参照して、要約生成サーバ7は、テキスト補正部71、冗長性排除部72、要約文生成部73、感情解析部74、および要約文短縮部75を備える。
<Example of Functional Configuration of
FIG. 3 is a diagram showing one non-limiting example of a functional configuration of the
Referring to FIG. 3,
テキスト補正部71は、要約単位に区切られた対話音声テキスト33を読み出して、構文解析結果および形態素解析結果に基づいて、要約文生成を容易化するため、対話音声テキストを補正し、補正された対話音声テキストを冗長性排除部72へ出力する。
The
冗長性排除部72は、テキスト補正部71から供給される補正された対話音声テキストの冗長性を排除する。具体的には、冗長性排除部72は、例えば不要語テーブル35を参照することにより、対話音声テキストから不要語や重複する文等を削除して、要約文生成部73に供給すべき対話音声テキストを短縮化する。冗長性排除部72は、冗長性が排除された短縮化対話音声テキストを、要約文生成部73へ出力する。
The
要約文生成部73は、冗長性排除部72から供給される短縮化対話音声テキストを読み出し、重要語テーブル34、不要語テーブル35、および各種変換テーブル36を参照して、要約文テキストを生成する。要約文生成部73は、1通話ごとに1つの要約文テキストを生成してよい。要約文生成部73が出力する要約文は、例えば、通話音声テキストの話し言葉を変換して得られる報告調の簡潔な文体、例えば体言止めの文体であってよい。
The summary
本実施形態において、要約文生成部73は、感情解析サーバ6から、対話中の話者の感情を示す定量的指標を、話者の感情解析結果として取得し、取得された話者の感情解析結果を、生成すべき要約文テキストに含めたり、要約文テキストと同時にまたは関連して表示装置上に表示させたりすることができる。感情解析サーバ6から供給される話者の感情解析結果は、話者ごとに例えば、喜怒、満足度、ストレス度、信頼度等の定量的指標を含む。
In the present embodiment, the abstract
感情解析部74は、要約文生成部73が生成する要約文から、感情語テーブル37を参照して、要約文テキスト中の感情表現部分を抽出し、要約文に含めるべき端的な感情表現語に変換して、変換された感情表現語で、要約文テキスト中で抽出された感情表現部分を置き換える。
要約文短縮部75は、要約文生成部73から供給される要約文が、所定長、例えば所定文字数の閾値を超えた場合に、当該閾値内の要約文長となるよう、要約文を短縮し、短縮化された要約文を要約文テキスト38として出力する。
The
The summary
<音声認識サーバ5における音声認識処理の処理手順>
図4は、音声認識サーバ5の各部が実行する音声認識処理の処理手順の非限定的一例を示すフローチャートである。
S1で、音声認識サーバ5の音声認識前処理部51は、対話音声ファイル31から、1通話ごとにファイル化された対話音声データを読み出す。
S2で、音声認識サーバ5の音声認識前処理部51は、S1で読み出された対話音声中の話者を識別する。具体的には、音声認識前処理部51は、対話音声ファイルに対応付けられた呼情報の話者識別情報を参照することにより、対話音声から話者、例えば顧客とオペレータ、を識別することができる。
<Processing Procedure of Speech Recognition Processing in
FIG. 4 is a flowchart showing a non-limiting example of the processing procedure of the speech recognition process performed by each unit of the
In step S1, the speech
At S2, the speech
具体的には、音声認識前処理部51は、呼情報データベース(不図示)を参照して、1通話内の話者識別情報を判別することにより、1通話内の発話のそれぞれの発話者が顧客であるかオペレータであるかを識別することができる。
後段の音声認識部52では、識別された話者ごとに、対話音声データが音声認識されるとともに、音声認識された対話音声テキストから要約を生成する要約生成サーバ7の要約文生成部73では、対話録音のタイムスタンプを参照して、双方の話者の認識結果のテキストを対応付けることができる。
Specifically, the speech
In the
音声認識前処理部51は、一方の話者、例えばオペレータの発話であると識別された発話の対話音声データを他方の話者、例えば顧客の発話であると識別された発話の対話音声データより優先して、要約生成サーバ7に供給してもよい。これは、要約文生成源として、一方の発話者、典型的にはオペレータの発話の方が、応対履歴を要約するに足る情報がより効率的に得られるとの知見に基づく。
代替的に、音声認識前処理部51は、一方の話者のみ、例えばオペレータの発話であると識別された発話の対話音声データのみを音声認識して、対話音声テキストに変換してもよい。音声認識の対象を制限することで、高負荷な音声認識を行う音声認識サーバ5内におけるハードウエア資源が低減でき、音声認識処理や要約文生成処理のリアルタイム性が向上するとともに、対話音声テキストファイル等のリソース容量も削減できる。
The speech
Alternatively, the speech
S3で、音声認識サーバ5の音声認識前処理部51は、1通話ごとに読み出された話者が分離された対話音声データを、発話単位に分離して、発話単位に分離された対話音声を、音声認識部52に供給する。
具体的には、音声認識前処理部51は、対話音声データ中で一定の無音区間を検出し、検出された無音区間で音声を区切ることにより、有音区間を切り出して発話単位の対話音声として分離する。
In S3, the speech
Specifically, the speech
図5に示すように、1通話分の対話音声ファイルは、CH1とCH2の2チャネルで構成される。CH1の音声は例えば顧客の発話であり、CH2の音声は例えばオペレータの発話であるものとする。
音声認識前処理部51は、一定の長さの無音区間を検出する。検出すべき無音区間は、例えば、1.5秒以上の無音区間であってよく、例えば1秒から2秒の間でその下限値が調整されてよい。この無音区間の下限値を、第1の閾値という。この無音区間の下限値は、例えば息継ぎに要する時間を考慮して設定することができる。また、この無音区間の下限値は、例えば「言ったよね」の発話中の撥音「っ」を誤って無音区間として検出しないよう設定されることが好適である。
As shown in FIG. 5, the interactive voice file for one call is composed of two channels CH1 and CH2. The sound of CH1 is, for example, the speech of a customer, and the sound of CH2 is, for example, the speech of an operator.
The speech
図5を参照して、音声認識前処理部51は、CH1の顧客の音声から、第1の閾値以上の長さの無音区間(SL11、SL12、・・・、SL16)を検出し、検出された2つの無音区間の間にある有音区間(SP11、SP12、・・・、S17)を抽出する。抽出された有音区間(SP11、SP12、・・・、S17)のそれぞれが、顧客として識別された音声中の1つの発話単位となり、本実施形態において、音声認識部52に供給される音声認識単位となる。有音区間のそれぞれは、息継ぎなしで発話された区間と見做すことができる。
同様に、図5を参照して、音声認識前処理部51は、CH2のオペレータの音声から、第1の閾値を下限値とする無音区間(SL21、SL22、・・・、SL26)を検出し、検出された2つの無音区間の間にある有音区間(SP21、SP22、・・・、S27)を抽出する。抽出された有音区間(SP21、SP22、・・・、S27)のそれぞれが、オペレータとして識別された音声中の1つの発話単位となる。
Referring to FIG. 5, speech
Similarly, referring to FIG. 5, speech
図4に戻り、S4で、音声認識サーバ5の音声認識部52は、音声認識前処理部51から発話単位で入力される対話音声データに対して、識別された話者ごとに音声認識処理を実行して、テキスト化された対話音声である対話音声テキストを出力する。
本実施形態においては、このように対話音声データを発話単位で音声認識処理を実行する。上記の無音区間は、当該無音区間中に話者が切り替わったこと、あるいは同一の話者が話題ないし内容を転換したことを推認させる。このため、無音区間の前後では発話内容における連続性が乏しいと推定でき、発話単位で対話音声テキストを音声認識することで、認識精度の向上が期待できる。
Returning to FIG. 4, in S4, the
In the present embodiment, the speech recognition process is performed on the basis of the dialogue speech data in this manner. The silent section above recognizes that the speaker has switched during the silent section or that the same speaker has changed the topic or content. Therefore, it can be estimated that the continuity in the uttered content is poor before and after the silent section, and improvement in the recognition accuracy can be expected by speech recognition of the dialog speech text on an utterance basis.
この音声認識処理には、公知の音声認識エンジンを適用することができる。
音声認識部52が実行する音声認識処理における文字コード列への変換の一例として、例えば、対話音声データ中の、必要に応じて各種変換処理された音声波形から抽出される特徴量を、予め定義されている音素ごとの参照音響パターンと比較処理することにより、音声波形データを文字コード列に変換することができる。
A known speech recognition engine can be applied to this speech recognition process.
As an example of conversion to a character code string in the speech recognition process performed by the
音声認識部52および音声認識後処理部53により参照される音声認識辞書32には、予め音声認識の対象と想定され、かつ要約文に含まれるべき重要情報を含む重要語(ないし重要文)のデータが定義されているため、この音声認識辞書32に定義された重要語に相当する対話音声データの音素列のみが抽出されて意味づけされてよい。また、音声認識辞書32に定義される重要語(ないし重要文)には重み付けが付与されてよい。音声認識部52により読み出された対話音声データのうち、この定義された重要語に相当する対話音声データ箇所が対話音声テキストに変換され、音声認識結果として出力されてよい。
The
図9は、S4で音声認識部52が出力する、対話音声データから生成される発話単位の音声認識結果である対話音声テキストの非限定的一例を示す。図9の例では、「対話要約処理は不要な発言や表現の削除のほか話し言葉から書き言葉への変換などで構成されますなお処理対象データの特性に応じて選択することができます」が、2つの無音区間の間で抽出された発話単位となる。図9に示すように、S4で出力される発話単位の音声認識結果は、句読点等で区切られない複数の文章を1つのまとまりとして含み得る。
FIG. 9 shows a non-limiting example of interactive speech text which is a speech recognition result of a speech unit generated from the dialogue speech data, which is output from the
図4に戻り、S5で、音声認識サーバ5の音声認識後処理部53は、S4で音声認識部52が出力する音声認識結果を自然発話へ変換するとともに、要約単位に区切る。音声認識後処理部53はまた、S5で区切った要約単位の対話音声テキストに、構文解析や形態素解析結果に基づいて、種別や重み付けを付与することができる。
なお、S5における変換処理の詳細は、図7および図8を参照して後述する。
Returning to FIG. 4, in S5, the speech
The details of the conversion process in S5 will be described later with reference to FIGS. 7 and 8.
S6で、音声認識サーバ5の相槌解析部54は、要約単位に区切られた対話音声テキストから、例えば「はい」、「いいえ」等の受け答えと推定されるテキストを検出し、検出されたテキストが相槌か、或いは受け答えかを判定する。
相槌解析部54は、この判定結果に基づいて、相槌と判定されたテキストを、音声認識後処理部53が出力する要約単位に区切られた対話音声テキスト33から削除する。一方、相槌解析部54は、受け答えと判定されたテキストを、要約生成サーバ7が生成する要約文に含まれるよう、通話音声テキスト33に含めるとともに、対話音声テキスト中で当該テキスト要素に「受け答え」である旨をタグ付け(種別付与)する。なお、S6における相槌解析処理の詳細は、図13および図14を参照して後述する。
S7で、相槌解析部54は、受け答えと判定されたテキストを付加した要約単位に区切られた対話音声テキストを出力する。
In S6, the
Based on the determination result, the
In S7, the
<音声認識後処理部53における音声認識後処理の詳細処理手順>
図7は、図4のS5で音声認識後処理部53が実行する音声認識後処理の詳細処理手順の一例を示すフローチャートである。
図7を参照して、S51で、音声認識サーバ5の音声認識後処理部53は、音声認識辞書32を参照して、S4で音声認識部52が出力する音声認識結果である発話単位の対話音声テキストの構文解析を実行する。
S52で、音声認識後処理部53は、音声認識辞書32を参照して、発話単位の対話音声テキストの形態素解析を実行する。なお、S51の構文解析およびS52の形態素解析は、いずれかを先に実行してもよく、同時並行的に実行されてよい。
<Detailed Processing Procedure of Speech Recognition Post Processing in Speech Recognition
FIG. 7 is a flowchart showing an example of a detailed processing procedure of the speech recognition post-processing performed by the speech
Referring to FIG. 7, in S51, the speech
In step S52, the speech
図10は、図9に示す発話単位の対話音声テキストに対して、S51における構文解析処理を実行して得られる構文解析結果の非限定的一例を示す。図10に示すように、S51で出力される構文解析結果では、テキスト中の形態素間の関係が構造化されている。
図11は、図9に示す発話単位の対話音声テキストに対して、S52における形態素解析処理を実行して得られる形態素解析結果の非限定的一例を示す。図11に示すように、形態素解析結果は、抽出された形態素ごとに、書字、読み、取得された品詞種別(大分類、中分類、小分類)を含んでよい。
FIG. 10 shows one non-limiting example of the parsing result obtained by performing the parsing process in S51 on the dialog voice text of the utterance unit shown in FIG. As shown in FIG. 10, in the parsing result output in S51, the relationship between morphemes in the text is structured.
FIG. 11 shows one non-limiting example of the morphological analysis result obtained by performing the morphological analysis processing in S52 on the dialog speech text of the utterance unit shown in FIG. As shown in FIG. 11, the morpheme analysis result may include, for each extracted morpheme, writing, reading, and acquired part-of-speech classification (major classification, middle classification, minor classification).
図7に戻り、S53で、音声認識後処理部53は、S51およびS52の構文解析および形態素解析の解析結果に基づいて、発話単位の対話音声テキストを、要約単位に細分する。
図8は、図7のS53で音声認識後処理部53が実行する要約単位への分離処理の詳細処理手順の一例を示すフローチャートである。
S531で、音声認識後処理部53は、形態素解析および構文解析の結果得られた区切り単位の品詞種別が、名詞か否かを判定する。解析の結果得られた区切り単位の品詞種別が名詞である場合S(S531:Y)、S532に進む。一方、解析の結果得られた区切り単位の品詞種別が名詞以外である場合、S532以降の処理をスキップして処理を終了し、S6へ進む。
Referring back to FIG. 7, in step S53, the speech
FIG. 8 is a flowchart showing an example of a detailed processing procedure of separation processing into summary units which is executed by the speech
In step S531, the speech
S532で、音声認識後処理部53は、形態素解析および構文解析結果得られた区切り単位の群(まとまり)の先頭が、名詞以外か否かを判定する。区切り単位の群の先頭が名詞以外である場合(S532:Y)、S533以降の処理をスキップして処理を終了し、S6へ進む。一方、区切り単位の群の先頭が名詞である場合(S5323:N)、S533に進む。
In step S532, the speech
S533で、音声認識後処理部53は、形態素解析および構文解析の結果得られた区切り単位が名詞+αであるか否かを判定する。区切り単位が名詞+αである場合、すなわち末尾に助詞等、名詞以外を含む場合(S533:Y)、S534で、音声認識後処理部53は、当該区切り単位を直前の区切り単位に結合して、処理を終了し、S6に進む。一方、区切り単位が名詞+αでない場合、すなわち名詞のみである場合(S533:N)、S535で、音声認識後処理部53は、当該区切り単位を直前の区切り単位に結合した上で、S532に戻り、S532およびS533の区切り単位の判定を繰り返す。
In S533, the speech
図12は、図9に示す発話単位の対話音声テキストを入力とし、図10に示す構文解析結果および図11に示す形態素解析結果を経て、図4のS5で、音声認識後処理部43が出力する対話音声テキストの一例である。
図12中の四角記号は、それぞれ要約単位の区切りを示す。図12に示すように、S5の自然発話への変換および要約単位への分離処理を実行することにより、連続する「対話」、「要約」、「処理は」が1つの要約単位に、また、連続する「処理」、「対象」、「データの」が他の1つの要約単位に、それぞれ結合されて、要約単位を構成している。
音声認識サーバ5の音声認識後処理部43はさらに、分離された要約単位の対話音声テキストのそれぞれに、音声認識辞書32を参照することにより、種別や重み付けを付加してよい。図12では、要約単位「対話要約処理は」および要約単位「処理対象データの」が、それぞれ要約文に含められるべき重要要約単位として重み付けされている。
FIG. 12 receives as an input the dialogue speech text of the utterance unit shown in FIG. 9 and passes through the syntactic analysis result shown in FIG. 10 and the morphological analysis result shown in FIG. Is an example of interactive speech text.
Square symbols in FIG. 12 indicate the division of the summary unit. As shown in FIG. 12, by performing conversion to S5 into natural speech and separation processing into summary units, continuous "dialogue", "summary", "process" into one summary unit, or Consecutive "processes", "objects" and "data" are respectively combined into one other summary unit to constitute a summary unit.
The speech recognition post-processing unit 43 of the
<相槌解析部54における相槌解析処理の詳細処理手順>
図13は、図4のS6で音声認識サーバ5の相槌解析部54が実行する相槌解析処理の詳細処理手順の非限定的一例を示すフローチャートである。
図13を参照して、S61で、音声認識サーバ5の相槌解析部54は、双方の話者、例えば顧客およびオペレータの対話音声を対話音声ファイル31から取得する。対話音声ファイル31には、1通話ごとに双方の話者を対応付けることが可能なタイムスタンプが付与されているため、相槌解析部44は、1通話単位を構成する双方の話者の対話音声を取得することができる。或いは、通話単位ごとに当該通話単位を構成する話者の対話音声それぞれに共通の識別子が付与されることにより、双方の話者の対話音声を対応付けてもよい。S61では、取得された双方の話者の対話音声とともに、当該対話音声を音声認識して得られた対話音声テキストが入力される。
<Detailed Processing Procedure of Sumo Analysis Processing in
FIG. 13 is a flowchart showing a non-limiting example of the detailed processing procedure of the competition analysis process performed by the
Referring to FIG. 13, in S61, the
S62で、相槌解析部54は、顧客およびオペレータの双方の対話音声を対比し、対話の相手が発話している間に短い発話が検出できるか否かを判定する。
図14(a)を参照して、CH1の顧客の対話音声中の短い発話(SP14)は、対話の相手であるCH2のオペレータの発話(SP24)の間になされた短い発話であるため、S62で検出される。S62で検出すべき短い発話とは、例えば2秒未満であってよい。
相手が発話中に短い発話が検出されない場合(S62:N)、S63からS68の処理をスキップして処理を終了し、S7へ進む。一方、相手が発話中に短い発話が検出された場合(S62:Y)、S63に進む。
In S62, the
Referring to FIG. 14A, since the short utterance (SP14) in the dialogue voice of the customer of CH1 is a short utterance made during the utterance (SP24) of the operator of CH2 which is the other party of the dialogue, S62. Is detected. The short utterance to be detected in S62 may be, for example, less than 2 seconds.
When a short utterance is not detected while the other party is speaking (S62: N), the processing of S63 to S68 is skipped and the processing is ended, and the processing proceeds to S7. On the other hand, if a short utterance is detected while the other party is speaking (S62: Y), the process proceeds to S63.
S63で、相槌解析部54は、S62で検出された短い発話と同一のタイムスタンプを有する音声認識結果の対話音声テキストを検索し、当該短い発話の音声認識結果が受け答えと推定できるか否か、すなわち受け答えの候補となるか否かを判定する。例えば、短い発話が「はい」、「ええ」、「いいえ」、「いや」等のテキストであれば、受け答えの候補と判定できる。例えばこの受け答え候補は予め相槌解析部54に設定しておけばよい。
In step S63, the
短い発話の音声認識結果が受け答え候補でない場合(S63:N)、S64に進んで、当該短い発話は相槌であると判定して、要約生成に入力すべき対話音声テキストから削除する。すなわち、S64で相槌と判定された短い発話は、要約作成において意味のない相槌であるため、要約文生成源とされない。一方、短い発話の音声認識結果が受け答え候補である場合(S63:Y)、S65に進む。 If the speech recognition result of the short utterance is not the answer candidate (S63: N), the process proceeds to S64, determines that the short utterance is a compliment, and deletes it from the interactive speech text to be input for summary generation. That is, the short utterance determined to be a sumo wrestling in S64 is not a summary sentence generation source because it is a meaningless compliment in the summarization. On the other hand, if the speech recognition result of the short utterance is an answer candidate (S63: Y), the process proceeds to S65.
S65では、相槌解析部54はさらに、S63で検出された受け答え候補である短い発話の発話中に、対話の相手の音声に短い無音期間があるか否かを判定する。
図14(a)を参照して、CH1の顧客の音声中の短い発話(SP14)に対応するCH2のオペレータの発話では、図4のS3で音声認識前処理部41により、第1の閾値以上の長さの無音区間を含まないため、1つの発話単位SP24として検出されている。S65では、この第1の閾値より小さい第2の閾値を用いて、対話の相手の音声に短い無音区間が検出できるか否かが判定される。この第2の閾値は、第1の閾値より小さい値を持ち、例えば、1秒であり、0.5秒から1.5秒の間で調整されてよい。
In S65, the
Referring to FIG. 14A, in the utterance of the operator of CH2 corresponding to the short utterance (SP14) in the voice of the customer of CH1, the voice recognition pre-processing unit 41 in S3 of FIG. Since it does not include a silent section having a length of, it is detected as one utterance unit SP24. In S65, it is determined whether or not a short silent interval can be detected in the voice of the conversation partner using a second threshold smaller than the first threshold. The second threshold has a value smaller than the first threshold, and may be, for example, 1 second and adjusted between 0.5 and 1.5 seconds.
S65で、受け答え候補である短い発話の発話中に、対話の相手の発話単位(有音区間)中に、第2の閾値以上の長さを持つ短い無音区間が検出された場合(S65:Y)、S66で当該短い発話は受け答えであると判定してS67に進む。一方、受け答え候補である短い発話の発話中に、対話の相手の発話単位(有音区間)中に、第2の閾値以上の長さを持つ短い無音区間が検出されない場合(S65:N)、S64に進んで、受け答え候補であった当該短い発話は、相槌であると判定して、要約生成に入力すべき対話音声テキストから削除する。
S67で、相槌解析部54は、S66で受け答えと判定された短い発話の前後で、対話の相手の音声を2つの発話単位に分離する。
When a short silent interval having a length equal to or greater than the second threshold is detected in the utterance unit (speech zone) of the other party of the dialogue during the utterance of the short utterance which is the answer candidate in S65 (S65: Y It is determined at S66 that the short utterance is an answer, and the process proceeds to S67. On the other hand, when a short silent segment having a length equal to or greater than the second threshold is not detected in the utterance unit (speech segment) of the other party of the dialogue during the utterance of the short utterance which is the answer candidate (S65: N) Proceeding to S64, the short utterance that was the answer candidate is determined to be a compliment, and is deleted from the dialog speech text to be input for summary generation.
In S67, the
図14(b)を参照して、CH1の顧客の短い発話区間(SP14)の音声認識結果が受け答え候補と判定されたものとすると、この発話(SP14)中に、CH2のオペレータの発話区間(SP24)には、第2の閾値以上かつ第1の閾値より小さい無音区間(SL24a)が検出できる。この場合、相槌解析部54は、検出されたこの無音区間(SL24a)の前後で、オペレータの発話区間(SP24)を分離して、無音区間(SL24a)直前の発話区間(SP24a)と無音区間(SL24a)直後の発話区間(SP24b)とを取得する。
Referring to FIG. 14B, assuming that the speech recognition result of the short utterance section (SP14) of the customer of CH1 is determined as the answer candidate, the utterance section of the operator of CH2 during this utterance (SP14) In SP24), a silent interval (SL24a) which is equal to or greater than the second threshold and smaller than the first threshold can be detected. In this case, the
S68で、相槌解析部54は、S67で分離された、短い無音区間(SL24a)直前の発話区間(SP24a)を音声認識して得られた対話音声テキストを、S66で受け答えと判定された音声テキストと対になるべき対話音声テキストであると判定し、この対のテキストを、受け答えのテキストと、当該受け答えを促した、何に対する受け答えであるかを特定するテキストとして、相互に対応付けて「受け答え」の種別を付与して、要約単位の対話音声テキストファイル33へ出力する。
In S68, the
<要約生成サーバ7における要約生成処理の処理手順>
図6は、要約生成サーバ7の各部が実行する要約生成処理の処理手順の非限定的一例を示すフローチャートである。
図6を参照して、S10で、要約生成サーバ7のテキスト補正部71は、要約単位に区切られた対話音声テキスト33から1通話単位の対話音声テキストを読み出す。
<Processing Procedure of Summary Generation Processing in
FIG. 6 is a flowchart showing a non-limiting example of the processing procedure of the abstract generation process performed by each section of the
Referring to FIG. 6, in S10, the
S11で、テキスト補正部71は、S10で読み出した対話音声テキストを補正する。具体的には、テキスト補正部71は、図12に示すように要約単位(要約生成の処理単位)で区切られた1つの発話単位の対話音声テキストに、句読点を挿入した上で、句点の位置で改行を挿入する。
図15は、テキスト補正部71が参照する句読点テーブルの非限定的一例を示す。図15の句読点テーブルは、句点または読点を直後に挿入すべき用語を定義する。図15において、「1」は読点の挿入、「0」は句点の挿入を示す。テキスト補正部71は、図15の句読点テーブルを参照して、要約単位の区切り記号から後方一致で、句読点テーブルに定義される「ますが」、「ますか」、「ます」、「はい」等の語を検索し、検索された語の直後に、句読点テーブルの定義に従って句点または読点を挿入していく。テキスト補正部71は、図15の句読点テーブルに定義される検索語のうち、字数の多いものから順に検索してよい。
In S11, the
FIG. 15 shows one non-limiting example of the punctuation mark table to which the
テキスト補正部71はさらに、形態素解析で抽出された数詞を検索し、検索された数値の意味を解析する。応対履歴のための要約文生成においては、数詞が要約におけるキーワードとなる重要語であることが多い。このため、テキスト補正部71は、検索された数詞の意味を解析して、解析された数詞の意味に応じた種別を取得し、取得された種別に応じた単位や重みを付与する。
数詞の意味としては、例えば、「日付」、「時間」、「金額」、「電話番号」、「個数」等が付与され得るがこれに限定されない。
Furthermore, the
For example, “date”, “time”, “amount of money”, “telephone number”, “number of pieces” and the like may be given as the meaning of the numeral, but the present invention is not limited thereto.
図16は、テキスト補正部71が、解析された数詞の要素へ、種別、単位(表記)、重み付けをそれぞれ付与するために参照する数詞種別テーブルである。図16を参照して、例えば日付や時刻や金額(円)には、個数(個)や温度(度)より高い重みが付与されている。
一方、テキスト補正部71は、対話音声テキスト中に前後の語に関連しない数詞が検索された場合、誤認識と判定して、対話音声テキストから当該数詞を削除してよい。また、テキスト補正部71は、要約文中における視認性および明瞭性向上のため、検索された数詞を半角数字に変換してよい。
FIG. 16 is a number classification type table that the
On the other hand, when the dialogue speech text is searched for the number conjunction that is not related to the preceding and following words, the
図6に戻り、S12で、要約生成サーバ7の冗長性排除部72は、音声認識された対話音声テキスト中の冗長性を排除してより簡明化ないし単純化された対話音声テキストを出力する。
具体的には、冗長性排除部72は、不要語テーブル35を参照して、対話音声テキストから不要語を削除する。
図17は、冗長性排除部72が参照する不要語テーブル35の非限定的一例を示す。図17を参照して、不要語テーブル35には、「えー」等の間投詞、「いつもお世話になっております。」等の定型挨拶文等が不要語として定義されている。
Returning to FIG. 6, in S12, the
Specifically, the
FIG. 17 shows one non-limiting example of the unnecessary word table 35 to which the
冗長性排除部72はさらに、1通話分の対話音声テキストから、同一ないし類似内容を記述する文(ないし句、語等の意味を有するまとまりであってもよい)が複数回出現した場合に、重複する文を対話音声テキストから適宜削除してよい。好適には、冗長性排除部72は、1通話分の対話音声テキスト中に同一ないし類似内容を記述する文等が複数回出願した場合には、通話開始から終了までの時系列上前方に出現した文を削除し、最後に出現した文を残してよい。通話終了時点に近い文が、より応対における最終的な結論を記述する蓋然性が高いからである。また、最後に出現した文は、オペレータによる復唱であると推定でき、この場合、復唱された文がより応対履歴として要約に残すべき正確な内容を記述してものであると期待できるからである。
The
冗長性排除部72は、さらに、重要語テーブル34を参照し、重要語テーブル34に登録済みであるキーワードの言い淀みや繰り返しを削除してもよい。
例えば、重要語テーブル34にキーワードとして表記「eVoice」、読み「イーボイス」と登録されていたものとする。
この場合、認識結果が「明日の10時にいいeVoiceへ伺います。」であったとすると、冗長性排除部72は、登録済みのキーワードの直前に読みが先頭から部分一致するものを検索し、検索された語を削除する。これにより、言い淀み箇所を対話音声テキストから削除することができる。
同様に、認識結果が「明日の10時にeVoiceへeVoiceにお伺いします。」であったとすると、冗長性排除部72は、上記のように、登録済みのキーワードの繰り返しは前方を削除する。これにより、繰り返し箇所を対話音声テキストから削除することができる。
The
For example, it is assumed that "eVoice" and "E-voice" are registered as keywords in the important word table 34.
In this case, if the recognition result is "I'm going to a good eVoice at 10 o'clock tomorrow", the
Similarly, assuming that the recognition result is "I ask eVoice to 10 o'clock tomorrow," the
図6に戻り、S13で、要約生成サーバ7の要約文生成部73は、冗長性排除部72が出力する対話音声テキストから、応対履歴の要約文を生成する。具体的には、要約文生成部73は、会話体で記述された対話音声テキストを文章体に整形する。好適には、要約文生成部73は、会話体で記述された対話音声テキストを体言止めの文章体に整形する。
Returning to FIG. 6, in S13, the
図18は、要約文生成部73が参照する文体変換テーブル36の非限定的一例を示す。図18を参照して、文体変換テーブル36には、左欄に変換元の会話体の語(「ございますね」、「と申します」、「おっしゃっていました」等)が、右欄に変換先の文章体の語(「ですね」、「です」、「言っていた」等)が、それぞれ定義されている。要約文生成部72は、対話音声テキストから、文体変換テーブル36に定義された変換元の会話体の語を検索し、検索された会話体の語を文体変換テーブル36に定義される対応する文章体の語に変換する。これにより、対話音声テキスト中の丁寧語が簡潔な報告調の文章体に変換される。
なお、図19の文体変換テーブル36中、変換元の「ちょっと」の語には対応する変換先の文章体の語が定義されていない。この場合、要約文生成部72は、変換元の語を対話音声テキストから削除すればよい。
FIG. 18 shows one non-limiting example of the style conversion table 36 to which the abstract
It should be noted that in the sentence conversion table 36 of FIG. 19, the word of the sentence of the conversion destination corresponding to the word of “conversion” is not defined. In this case, the abstract
図6に戻り、S13で、要約文生成部73はさらに、対話音声テキストから予め定義された重要語を検索し、検索された重要語を出力すべき要約文に含める。
図19、図20および図21はそれぞれ、要約文生成部73が参照する重要語テーブル34の非限定的一例を示す。図17を参照して、重要語テーブル34には、「連絡」、および「確認」の語が重要語として定義されている。重要語テーブル34には、重要語を可変の重み(ポイント)とともに定義してよい。図19には、「連絡」、および「確認」の語には、いずれも重み「1」が定義されている。また、ユーザが追加や削除等の編集可能な他の重要語テーブル34を提供し、固有名詞等を適宜定義可能としてよい。
要約文生成部73は、対話音声テキストから、重要語テーブル34に定義された重要語を検索し、検索された重要語を対応する重みに応じて重み付けして、生成すべき要約文に含める。
Returning to FIG. 6, in S13, the summary
FIG. 19, FIG. 20 and FIG. 21 respectively show one non-limiting example of the important word table 34 to which the abstract
The summary
図20は、肯定表現である重要語(「はい」、「わかった」、「いいよ」、)了解」等)を定義する重要語テーブル34の非限定的一例を示し、図21は、否定表現である重要語(「いいえ」、「やだよ」、「断る」、「承認しない」等)を定義する重要語テーブル34の非限定的一例を示す。要約文生成部73は、これらの重要語テーブル34も参照して、対話音声テキストから重要語を検索し、検索された重要語を対応する重みに応じて重み付けして、生成すべき要約文に含める。図20および図21に含まれる肯定ないし否定表現としての重要語は、適宜文章体(「承諾」、「拒否」等)に変換されてよい。
なお、好適には、要約文生成部73は、冗長性排除部72から複数の文が供給された場合と単独の文が供給された場合のいずれであっても、1つの通話単位について1つの要約文を生成してよい。
FIG. 20 shows a non-limiting example of the key word table 34 defining key words ("Yes", "OK", "Good", "OK", etc.) which are positive expressions, and FIG. One non-limiting example of the key word table 34 defining key words ("No", "Yadayo", "Any", "Do not approve", etc.) that are expressions is shown. The summary
Note that, preferably, the
図6に戻り、S14で、要約生成サーバ7の要約文短縮部75は、要約文生成部73により生成された要約文が、所定長、例えば所定文字数の閾値を超えた場合に、該閾値内の要約文長となるよう、要約文を短縮する。
好適には、要約文短縮部75は、対話要約文が一覧表示される照会結果表示画面において、1通話単位の要約文表示用に設けられた出力欄に要約文全文がスクロールを要することなく一瞥して可読な範囲の文字数を閾値として設定してよい。これにより、要約文確認のための追加的操作が不要となり、要約文全体の迅速な視認が可能となる。
Returning to FIG. 6, in S14, when the abstract sentence generated by the abstract
Preferably, in the query result display screen on which the dialogue summary is displayed in a list, the
より詳細には、要約文短縮部75は、各種重要語テーブル34を参照して、要約文中に出現する重要語に付与された重み(重要度ポイント)に基づいて、要約文を短縮してよい。
一例として、要約文短縮部75は、冗長性排除部72から供給される対話音声テキストを、句点(「。」)ごとに区切り、1つの対話音声テキスト文ごとに、文中に出現する重要語の重要度ポイントを加算し、高い重要度が算出された通話テキスト文を優先的に選択してよい。
要約文短縮部75は、短縮された要約文を、要約文テキスト38のファイルへ出力する。
More specifically, the summary
As an example, the summary
The summary
図6のS15で、本実施形態において、要約文生成部73は、音声認識サーバ5の相槌解析部54が生成した、「受け答え」の種別が付与された対のテキストを、出力すべき要約文に付加する。
音声認識サーバ5の相槌解析部54により実行された図13の相槌解析処理により、一方の話者(例えば、顧客)により発話された、受け答えと判定された対話音声テキストと、当該受け答えの直前に他方の話者(例えば、オペレータ)により発話された、当該受け答えを促した、何に対する受け答えであるかを特定する対話音声テキストとが対となり、「受け答え」の種別が付与されて、一問一答形式の対話として対話音声テキストに含まれている。
In S15 of FIG. 6, in the present embodiment, the abstract
In the speech analysis process of FIG. 13 executed by the
要約文生成部73は、この「受け答え」の種別が付与された対話音声テキストの対を重要語として取り扱い、各種変換テーブル36を参照して、要約文用の文体に変換した上で、出力すべき要約文に付加する。例えば、「受け答え」の種別が付与された対話音声テキストが「発送は二三日後でよろしかったでしょうか(オペレータの問い)」と「はい(顧客の受け答え)」の対であるとする。この場合、要約文生成部73は、この対話音声テキストの対から「二三日後の発送を了承」等に変換し、変換後のテキストを応対履歴における重要語(重要文)として出力すべき要約文に含める。
The summary
他の例として、「受け答え」の種別が付与された対話音声テキストが「ご注文の品は対話要約eV−Outlineでよろしいでしょうか(オペレータの問い)」と「はい、お願いします(顧客の受け答え)」の対であるとする。この場合、要約文生成部73は、この対話音声テキストの対から「注文の品は対話要約eV−Outlineを確認」等に変換し、変換後のテキストを応対履歴における重要語(重要文)として出力すべき要約文に含める。
As another example, the dialogue voice text given the type of “Answer” is “Is the order item acceptable with the dialogue summary eV-Outline (operator question)” and “Yes, please (customer's answer It is assumed that it is a pair of "). In this case, the abstract
S16で、要約生成サーバ7の感情解析部74は、対話音声テキストに基づいて、対話の話者の感情解析処理を実行する。また、感情解析部74は、要約生成部73から感情解析サーバ6へのインターフェースを提供し、感情解析サーバ6に感情解析処理を実行させ、感情解析処理の実行結果を要約文生成部73へ供給してもよい。あるいは感情解析サーバ6を別途設けることなく、感情解析部74が要約文を生成すべき対話の話者の感情解析処理を実行してもよい。以下では、前者の感情解析サーバ6を使用して感情解析処理を実行する例を説明する。
In S16, the
感情解析処理は、対話音声データを使用した非言語的感情解析処理と、音声認識結果である対話音声テキストを使用した言語的感情解析処理とを含む。
前者の対話音声データに基づく感情解析処理において、感情解析部74から呼び出された感情解析サーバ6は、通話録音サーバ3から供給される対話音声データを入力として、話者ごとに例えば、喜怒、満足度、ストレス度、信頼度等の話者の感情を数値化した定量的指標を話者の感情解析結果として出力する。
The emotion analysis process includes a non-verbal emotion analysis process using dialogue speech data and a linguistic emotion analysis process using dialogue speech text which is a speech recognition result.
In the emotion analysis process based on the former dialogue speech data, the
感情解析サーバ6が提供するこの感情解析処理は、話者の脳波の動きと声帯の動きとが連動するものであり、発話のプロセスにおいて人間は感情を制御することができず感情が声に現れるとの知見に基づくものである。このため、感情解析サーバ6は、話者の発話の言語に依存することなく、対話音声データから話者の感情を数値化することができる。
後者の対話音声テキストに基づく感情解析処理において、要約生成サーバ7の感情解析部74は、音声認識サーバ5から供給される対話音声テキストを入力として、対話音声テキスト中の感情語を抽出し、感情語テーブル37を参照して、要約文に含めるべき感情表現に変換する。
The emotion analysis processing provided by the
In emotion analysis processing based on the latter dialog voice text, the
図22は、感情解析サーバ6が、1つの通話単位の一方の話者(顧客)の対話音声データに対して、感情解析処理を実行した結果の非限定的出力例を示す。図22を参照して、顧客(CS)の1通話中の顧客の感情の遷移が時系列上出力されている。図22は、顧客からのクレーム対応で、通話中にオペレータが顧客を納得させた例を示す。図22において、「喜怒」および「満足度」の感情指標は、中盤から後半にかけてともに数値が上昇しており、一方、「ストレス度」の感情指標は、中盤から後半にかけて数値が減少しており、1つの通話単位の中盤から後半にかけて、顧客の怒りおよびストレスが低下して不満が満足に転化しているとの感情の遷移を読み取ることができる。
FIG. 22 shows a non-limiting example output of the result of the emotion analysis processing performed by the
また、図22に例示される顧客の感情解析結果から、他方の話者であるオペレータの応対の品質を評価する指標を得ることができる。
例えば、通話の始めから「喜怒」の感情指標がマイナスで「怒り」が高いが、通話の最後には、「喜怒」の感情指標が0またはプラスに転化して「喜び」の傾向を示し、かつ「満足度」の感情指標も0またはプラスに転化して「満足」の傾向を示している場合、オペレータの応対履歴の評価は、優れた応対を示す「応対優良」としてよい。
ただし、通話の最後に、例えば顧客の「信頼度」の感情指標がマイナスで「不信」の傾向を示している場合、当該顧客の発話内容の信頼度が低いと評価することができるため、当該顧客の発言につき要注意であることを示す「顧客注意」を注記してもよい。
Further, from the emotion analysis result of the customer illustrated in FIG. 22, it is possible to obtain an index for evaluating the quality of the response of the operator who is the other speaker.
For example, although the emotion index of "Kio" is negative and "Anger" is high from the beginning of the call, at the end of the call, the emotion index of "Kio" is converted to 0 or positive and tends to "Joy" In the case where the feeling level of "satisfaction" is also converted to 0 or positive and indicates a tendency of "satisfaction", the evaluation of the operator's response history may be "good for response" indicating an excellent response.
However, if, for example, the customer's “confidence level” sentiment indicator is negative and indicates a tendency of “distrust” at the end of the call, it can be evaluated that the credibility of the uttered content of the customer is low. You may note "Customer Caution", which indicates that the customer's remarks require caution.
一方、通話の途中で突然「喜怒」の感情指標がマイナスに大きく転化するとともに「満足度」の感情指標もマイナスに大きく転化し、「怒り」かつ「不満」の傾向がその後も継続した場合、マイナス転化の直前のオペレータの発言が顧客の怒りや不満を誘発したと評価することができるため、当該オペレータの応対を確認することが必要であることを示す「応対注意」としてよい。
この場合も、通話の最後に、例えば顧客の「信頼度」の感情指標がマイナスで「不信」の傾向を示している場合、当該顧客の発話内容の信頼度が低いと評価することができるため、当該顧客の発言につき要注意であることを示す「顧客注意」を注記してもよい。
また、上記のような傾向が示されなかった場合には、妥当な応対であることを示す「応対通常」としてよい。
On the other hand, when the emotion index of "Kiring" is largely converted to minus while the emotion index of "satisfaction" is also significantly converted to minus during the call, and the tendency of "anger" and "dissatisfaction" continues thereafter Since it can be evaluated that the statement of the operator immediately before the minus conversion induced the customer's anger and dissatisfaction, it may be considered as "response attention" indicating that it is necessary to confirm the operator's response.
Also in this case, for example, if the customer's "reliability" emotion indicator is negative and indicates a tendency of "distrust" at the end of the call, it can be evaluated that the credibility of the uttered content of the customer is low. , You may note "customer notice" to indicate that the customer's remarks require caution.
In addition, when the above tendency is not indicated, it may be set as "a response normal" indicating that the response is a reasonable response.
図23は、感情解析サーバ6が、1つの通話単位の他方の話者(オペレータ)の対話音声データに対して、感情解析処理を実行した結果の非限定的出力例を示す。図23は、顧客との通話でオペレータがストレスを感じている例を示す。図23において、「ストレス度」の感情指標は、通話の始めから終わりにかけて数値が上昇しており、オペレータのストレスが高まっているとの感情の遷移を読み取ることができる。
この場合、例えば、前回までのストレス度の感情指標の数値の遷移と比較して今回の通話でのストレスが高まっている場合には、オペレータの評価指標を、当該オペレータのストレス状態を引き続き監視すべきであることを示す「応対注意」としてよい。
FIG. 23 shows a non-limiting output example of the result of the
In this case, for example, when the stress in the current call is increased compared to the transition of the numerical value of the stress level to the previous time, the evaluation index of the operator is continuously monitored for the stress state of the operator. It may be a "careful attention" indicating that it should be done.
図24は、ある期間内(1日、1週間等)における複数回(図24では15回)の通話間での感情の遷移を示す。図24において、通話回数が増加するにつれて、オペレータの「ストレス度」の感情指標の平均数値が徐々に上昇しており、通話回数が増加するにつれて、オペレータのストレスが高まっているとの感情の遷移を読み取ることができる。
この場合、オペレータの評価指標を、当該オペレータの応対を中止させ、直ちにヒヤリングを実施すべきであることを示す「応対中止」としてよい。
FIG. 24 shows the transition of emotions between multiple calls (15 times in FIG. 24) within a certain period (1 day, 1 week, etc.). In FIG. 24, as the number of calls increases, the average value of the operator's “stress level” emotional index gradually rises, and as the number of calls increases, transition of emotion that the operator's stress increases. Can read.
In this case, the evaluation index of the operator may be set as “cancellation of response” which indicates that the response of the operator is suspended and that the interview should be performed immediately.
図25は、要約生成サーバ7の感情解析部74が参照する感情語テーブル37の非限定的一例を示す。図25を参照して、感情語テーブル37には、左欄に変換元の感情語(「まあいいか」、「それでいいよ。ありがとう」、「がっかりしたよ」、「大丈夫だよな」、「なんとかしろよ」、「いい加減にしろよ」等)が、右欄に変換先の感情表現(「渋々承諾」、「快諾」、「落胆」、「不安」、「不快」等)が、それぞれ定義されている。要約生成サーバ7の感情解析部74は、対話音声テキストから、感情語テーブル37に定義された変換元の感情語を検索し、検索された感情語を感情語テーブル37に定義される対応する感情表現に変換する。これにより、対話音声テキスト中の感情語が簡潔な感情表現に変換される。
FIG. 25 shows a non-limiting example of the emotional word table 37 to which the
図27は、図25の感情語テーブル37を参照して、感情解析部74が音声認識結果である対話音声テキストから感情表現を組み入れた要約文を生成する非限定的一例を示す。 図26を参照して、感情解析部74は、図27上段の対話音声テキスト「機器を交換したけど、また壊れて、がっかりだよ」を、図27下段の「機器交換したが故障し落胆」の要約文へ変換する。出力すべき要約文に音声認識結果である対話音声テキストから把握される感情表現を含めることができる。変換後の「落胆」の語が話者(顧客)の感情表現を示すものであり、出力される要約文に含められる。
FIG. 27 shows a non-limiting example of generating a summary sentence incorporating emotion expression from dialogue speech text which is a speech recognition result by referring to the emotion word table 37 of FIG. Referring to FIG. 26, the
一方、図26は、感情解析サーバ7が対話音声データ(声色)から感情解析処理を実行して得られた感情表現を、要約文テキストに括弧書で付加した非限定的一例を示す。図26を参照して、感情解析サーバ7は、図26上段の対話音声テキスト「食品に虫が入っているんだよ」の基となった対話音声データに対して感情解析処理を実行し、例えば当該音声データの「信頼度」の感情指標がマイナスで「不信」の傾向を示している場合、当該顧客の発言につき要注意であることを示す「顧客注意」の感情表現を生成して、要約生成サーバ7の感情解析部74を解して要約文生成部73へ供給する。要約生成サーバ7の要約文生成部73は、図26上段の対話音声テキストから生成された図26下段の要約文「食品に虫が混入」に、感情解析サーバ6から供給された「顧客注意」を括弧書で付加する。
上記のように、生成される要約文に話者の感情表現を反映させることにより、話者の感情遷移の状況把握や、対策を取るべき問題通話の自動抽出が容易に可能となる。
On the other hand, FIG. 26 shows a non-limiting example in which the emotion expression obtained by the
As described above, by reflecting the speaker's emotional expression in the generated summary text, it becomes possible to easily grasp the situation of the speaker's emotional transition and automatically extract the problem call for which measures should be taken.
図6に戻り、要約生成サーバ7の要約生成部73は、S17で、上記のような感情解析結果を用いて、図27に示すように、要約文中の感情語からより端的でカテゴライズされた感情表現に置き換え、および図26に示すように、出力すべき要約文に付加する。
S18で、要約文生成部73または要約文短縮部75は、最終的に生成された要約文を要約文テキスト38のファイルへ出力する。
Returning to FIG. 6, the
In S18, the abstract
図28ないし図30を参照して、音声認識サーバ5が出力する要約単位に区切られた対話音声テキストから最終的に出力される要約文を生成するまでの抽出変換処理の一例を説明する。
図28は、音声認識サーバ5が出力し、要約生成サーバ7に入力される1つの通話単位の対話音声テキストの非限定的一例を示す。図28の対話音声テキストは、識別された話者(オペレータ(OP)または顧客(CS))ごとに、各行に1つの発話単位の対話音声テキストが示されており、各行の対話音声テキストは、四角で示される要約単位の区切りが挿入されている。
図29は、図28に示す対話音声テキストから、要約生成サーバ7の要約文生成部73が中間的に出力する要約文テキストの非限定的一例を示す。図29に示すように、図28の20発話単位のテキストから、6発話単位のテキスト(3番目、6番目、9番目、11番目、14番目、および15番目の発話単位のテキスト)が抽出されるとともに、抽出された発話単位のテキストのそれぞれが、要約文用のより簡潔なテキストに変換されている。要約文生成部73は、重要語テーブル34、不要語テーブル35、および各種変換テーブル36を参照することにより、図28の1通話全体の対話音声テキストから図29の中間的要約文テキストに変換する。
An example of extraction and conversion processing up to the generation of a final output summary sentence from interactive speech text divided into summary units output by the
FIG. 28 shows a non-limiting example of interactive speech text of one call unit output from the
FIG. 29 shows one non-limiting example of the summary text output in an intermediate manner by the
図30は、図29の中間的に出力する要約文テキストから、要約文生成部73ないし要約文短縮部75が最終的に出力する要約文テキストの非限定的一例を示す。図30に示すように、図29で抽出され変換された6発話単位のテキストから、5行の要約文が生成されており、各要約文の末尾は体言止めの「希望」、「確認」等に変換されている。特に、図29の5行目のオペレータの発話(問い)と6行目の顧客の発話(受け答え)との対は、図30において、「作成し郵送するので二三日待つ事を快諾」と1つの要約文に集約されている。要約文生成部73は、重要語テーブル34や各種変換テーブル36を参照することにより、応対履歴として機能する図30の最終的に出力される要約文テキストを生成する。図30の5行目の要約文の文末は、上記の感情解析処理を適用して、話者(顧客)の感情表現を反映した「快諾」に変換されている。
FIG. 30 shows one non-limiting example of the summary text finally output from the
図31は、図28の対話音声テキストを照会した結果表示装置等に出力されるユーザインタフェースの非限定的一例を示す。図31を参照して、ユーザインタフェースは、識別された話者311、発話単位の応対内容312、再生ボタン313、および話者の感情解析結果アイコン314を含んでよい。所望する発話に対応する再生ボタン313を選択することにより、当該発話の音声ファイルが再生される。
図32は、感情解析結果として、図31で照会された通話単位についての、話者ごとの感情指標について、感情指標の数値から得られる感情解析結果が、「喜怒」が「通常」、満足感が「普通」ないし「やや高い」、ストレスが「なし」、「若干あり」等と示されている。図31と図32は同時に視認可能に表示装置上表示されてよい。
FIG. 31 shows one non-limiting example of a user interface outputted to a result display device etc. in which the interactive voice text of FIG. 28 is inquired. Referring to FIG. 31, the user interface may include the identified
FIG. 32 shows that the emotion analysis result obtained from the numerical value of the emotion index is “normal” for the emotion index, “normal” for the emotion index for each speaker for the speech unit inquired in FIG. The feeling is shown as "normal" to "somewhat high", stress as "no", "somewhat", etc. 31 and 32 may be displayed on the display device so as to be visible simultaneously.
図33は、1通話単位(録音時間1.25.716)について話者識別された発話単位の対話音声の音声認識結果、対応するユーザ辞書等を参照した自然言語処理結果、および音声ファイルのリンク、開始および終了時間を一覧で示す非限定的表示例である。図33左下にあるように、当該通話単位について生成された要約文が表示されており、各処理結果と要約文との間の相互参照を容易にしている。図33のユーザインタフェースは、音声ファイルを再生した後、音声認識結果や自然言語処理結果を、ユーザにエラー訂正させるべく、編集可能に表示してもよい。
また、図33左下の生成された要約文には、対話において最終的に「サクサファンドの目論見書をインターネットで見ることを了承」したことが示されているが、当該要約文部分のうち「了承」に対して、複数の感情指標の数値から得られる感情解析結果を、例えば、「了承(快諾)」または「了承(渋々承諾)」のように括弧書等で付加してもよく、「了承」を「快諾」ないし「渋々承諾」等の感情解析結果を含む表現で置き換えてもよい。
本実施形態によれば、このように対話録音データ、対話音声の音声認識結果、自然言語処理結果、感情解析結果、および生成された要約文を統合して出力することができる。
FIG. 33 shows the speech recognition result of the dialog speech of the speech unit identified as the speaker for one speech unit (recording time 1.25.716), the natural language processing result with reference to the corresponding user dictionary, etc., and the link of the speech file It is a non-limiting display example showing the start and end times in a list. As shown in the lower left of FIG. 33, a summary generated for the call unit is displayed to facilitate cross reference between each processing result and the summary. After reproducing the voice file, the user interface of FIG. 33 may display the voice recognition result and the natural language processing result in an editable manner to cause the user to correct the error.
In addition, the generated summary in the lower left of Fig. 33 indicates that the dialogue "approved to see the prospectus of the Saxa Fund on the Internet" is finally shown in the dialogue. For example, the emotion analysis result obtained from the numerical value of a plurality of emotion indicators may be added in parenthesis as in “acknowledgement” or “acknowledgement”. "" May be replaced with an expression including emotion analysis results such as "favorable" or "faintly consent".
According to this embodiment, it is possible to integrate and output the dialogue recording data, the speech recognition result of the dialogue speech, the natural language processing result, the emotion analysis result, and the generated summary sentence.
(各装置のハードウエア構成の一例)
図34は、音声処理システムにおける各装置が備えるハードウエア構成の一例を示す図である。音声取得サーバ2、通話録音サーバ3、制御サーバ4、音声認識サーバ5、感情解析サーバ6、要約生成サーバ7、およびPC9,10は、図34に示すハードウエアコンポーネントの全部又は一部を備える。図34に示す各装置100は、CPU101、ROM102、RAM103、外部メモリ104、入力部105、表示部106、通信I/F107及びシステムバス108を備えてよい。
(Example of hardware configuration of each device)
FIG. 34 is a diagram illustrating an example of a hardware configuration provided in each device in the speech processing system. The
CPU101は、装置における動作を統括的に制御するものであり、システムバス1088を介して各構成部(102〜107)を制御する。CPU101は音声認識処理、要約生成処理または感情解析処理等の各処理を実行する処理部として機能する。ROM102は、CPU101が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは外部メモリ104や着脱可能な記憶媒体(図示せず)に記憶されていてもよい。RAM103は、CPU101の主メモリ、ワークエリア等として機能する。よって、CPU101は、処理の実行に際してROM102から必要なプログラム等をRAM103にロードし、当該プログラム等を実行することで各種の機能動作を実現する。
The
外部メモリ104は例えば、CPU101がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶する。また、外部メモリ104には例えば、CPU101がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。入力部105はキーボード、タブレット等各種入力デバイスから構成される。表示部106は例えば液晶ディスプレイ等からなる。通信I/F107は、外部装置と通信するためのインターフェースであり、例えば無線LAN(Wi−Fi)インターフェースやBluetooth(登録商標)インターフェースを備える。システムバス108は、CPU101、ROM102、RAM103、外部メモリ104、入力部105、表示部106及び通信I/F107を通信可能に接続する。
The
以上説明したように、本実施形態によれば、対話音声から、十分に短縮化され、かつ対話中の話者の発話における感情が十分に反映された高精度な要約文を生成することができる。よって、対話音声の要約の有用性向上に資する。
なお、上述した各実施形態は、その複数を組み合わせて実現することが可能である。
また、本発明は、上述の実施形態の一部または1以上の機能を実現するプログラムによっても実現可能である。すなわち、そのプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータ(またはCPUやMPU等)における1つ以上のプロセッサがプログラムを読出し実行する処理により実現可能である。また、そのプログラムをコンピュータ可読な記録媒体に記録して提供してもよい。
また、コンピュータが読みだしたプログラムを実行することにより、実施形態の機能が実現されるものに限定されない。例えば、プログラムの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって上記した実施形態の機能が実現されてもよい。
As described above, according to this embodiment, it is possible to generate a highly accurate summary sentence which is sufficiently shortened and in which the emotion of the speaker's utterance in the dialogue is sufficiently reflected from the dialogue voice. . Therefore, it contributes to the improvement of the usefulness of the summary of dialogue speech.
In addition, it is possible to implement | achieve each embodiment mentioned above combining the plurality.
The present invention can also be realized by a program that implements part or one or more functions of the above-described embodiment. That is, it can be implemented by processing that the program is supplied to a system or apparatus via a network or storage medium, and one or more processors in a computer (or CPU, MPU, etc.) of the system or apparatus read and execute the program. is there. Alternatively, the program may be provided by being recorded on a computer readable recording medium.
Further, the functions of the embodiment are not limited to those realized by executing the program read by the computer. For example, an operating system (OS) or the like operating on a computer may perform part or all of the actual processing based on the instructions of the program, and the functions of the above-described embodiment may be realized by the processing.
以上、本発明の実施形態について詳細に説明したが、上記実施形態は、本発明を実施するにあたっての具体例を示したに過ぎない。本発明の技術的範囲は、前記実施形態に限定されるものではない。本発明は、その趣旨を逸脱しない範囲において種々の変更が可能であり、それらも本発明の技術的範囲に含まれる。 As mentioned above, although embodiment of this invention was described in detail, the said embodiment only showed the specific example in practicing this invention. The technical scope of the present invention is not limited to the above embodiment. The present invention can be modified in various ways without departing from the scope of the invention, which are also included in the technical scope of the present invention.
1 PBX
2 音声取得サーバ
3 通話録音サーバ
4 制御サーバ
5 音声認識サーバ
6 感情解析サーバ
7 要約生成サーバ
8 構内回線
9、10 PC
31 対話音声
32 音声認識辞書
33 要約単位テキスト
34 重用語テーブル
35 不要語テーブル
36 変換テーブル
37 感情語テーブル
51 音声認識前処理部
52 音声認識部
53 音声認識後処理部
54 相槌解析部
71 テキスト補正部
72 冗長性排除部
73 要約文生成部
74 感情解析部
75 要約文短縮部
1 PBX
2 voice acquisition server 3
Claims (8)
前記話者識別部により識別された話者ごとに、前記対話音声データを発話単位に分離する音声分離部と、
前記対話音声データを、前記音声分離部により分離された前記発話単位で音声認識して対話音声テキストを生成する音声認識部と、
前記音声認識部により生成された前記対話音声テキストを要約して要約文テキストを生成する要約生成部と、
前記発話単位で前記対話音声データを解析して話者ごとの感情表現を導出し、導出された前記感情表現を前記要約文テキストに付加し、または前記要約文テキストに対応付けて出力する第1の感情解析部と、
前記音声認識部により生成された前記対話音声テキストから、話者ごとの感情を示す感情語を抽出し、抽出された前記感情語を対応する感情表現に変換し、変換された前記感情表現で、前記要約文テキストの少なくとも一部を置き換える第2の感情解析部と、
を備えることを特徴とする対話要約生成装置。 A speaker identification unit for identifying a speaker of dialogue from dialogue speech data;
A speech separation unit for separating the dialogue speech data into speech units for each of the speakers identified by the speaker identification unit;
A speech recognition unit that generates speech speech text by speech recognition of the speech speech data in units of the speech separated by the speech separation unit;
A summary generation unit for summarizing the dialogue speech text generated by the speech recognition unit to generate a summary text;
The dialogue voice data is analyzed in the utterance unit to derive an emotional expression for each speaker, and the derived emotional expression is added to the abstract sentence text or output in association with the abstract sentence text . The emotion analysis department of
An emotion word indicating an emotion of each speaker is extracted from the dialogue speech text generated by the speech recognition unit, the extracted emotion word is converted into a corresponding emotion expression, and the converted emotion expression is obtained. A second emotion analysis unit that replaces at least a part of the summary sentence text;
An interactive summary generator comprising:
ことを特徴とする請求項1に記載の対話要約生成装置。 The first emotion analysis unit further derives the transition of emotions in time series of each speaker in one dialogue by analyzing the dialogue speech data in the utterance unit, and is derived for each speaker Outputting the transition of the emotion in association with the summary text;
The dialogue abstract generation device according to claim 1, characterized in that:
ことを特徴とする請求項1または2に記載の対話要約生成装置。 Determine whether the same or similar text appears multiple times in the dialogue speech text of one dialogue unit, and when the same or similar text appears multiple times, it appears forward in time series Further comprising a redundancy remover for deleting text,
The dialogue abstract generation device according to claim 1 or 2 characterized by things.
ことを特徴とする請求項3に記載の対話要約生成装置。 The redundancy exclusion unit further refers to the keyword table which defines keywords in advance, extracts the text defined in the keyword table from the interactive speech text, and positions the text immediately before the extracted text. Searching for a second text at least partially matching the reading of the extracted text, and deleting the searched text from the interactive speech text,
The dialogue abstract generation device according to claim 3 , characterized in that:
ことを特徴とする請求項1から4のいずれか1項に記載の対話要約生成装置。 A text correction unit which analyzes the dialogue speech text generated by the speech recognition unit, extracts a number of speech, assigns different units and weights according to the type of the extracted number speech, and supplies the summarizing unit with the text correction unit; Furthermore,
The dialogue abstract generation device according to any one of claims 1 to 4 , characterized in that:
ことを特徴とする請求項1から5のいずれか1項に記載の対話音声要約生成装置。 It further comprises a voice acquisition unit for recording a talk voice or a face-to-face dialogue voice to acquire the dialogue voice data.
An interactive speech summary generator according to any one of claims 1 to 5 , characterized in that.
前記話者識別部が、対話音声データから対話の話者を識別するステップと、
前記音声分離部が、識別された話者ごとに、前記対話音声データを発話単位に分離するステップと、
前記音声認識部が、前記対話音声データを、分離された前記発話単位で音声認識して対話音声テキストを生成するステップと、
前記要約生成部が、生成された前記対話音声テキストを要約して要約文テキストを生成するステップと、
前記第1の感情解析部が、前記発話単位で前記対話音声データを解析して話者ごとの感情表現を導出し、導出された前記感情表現を前記要約文テキストに付加し、または前記要約文テキストに対応付けて出力するステップと、
前記第2の感情解析部が、生成された前記対話音声テキストから、話者ごとの感情を示す感情語を抽出し、抽出された前記感情語を対応する感情表現に変換し、変換された前記感情表現で、前記要約文テキストの少なくとも一部を置き換えるステップと、
を含むことを特徴とする対話要約生成方法。 Dialogue summary generation method executed by a dialogue summary generation apparatus comprising a speaker identification unit, a speech separation unit, a speech recognition unit, a summary generation unit, a first emotion analysis unit, and a second emotion analysis unit And
The speaker identification unit identifies a speaker of dialog from the dialog voice data;
The speech separation unit separating the dialogue speech data into speech units for each of the identified speakers;
The speech recognition unit performs speech recognition of the dialogue speech data by the separated speech unit to generate dialogue speech text;
The summary generation unit sums up the generated dialog voice text to generate summary text;
The first emotion analysis unit analyzes the dialogue speech data in the utterance unit to derive an emotion expression for each speaker, adds the derived emotion expression to the summary text , or the summary text Outputting in correspondence with the text;
The second emotion analysis unit extracts an emotion word indicating an emotion of each speaker from the generated dialogue speech text, converts the extracted emotion word into a corresponding emotion expression, and converts the emotion word. Replacing at least a portion of the abstract sentence text with an emotional expression;
A method of generating a dialog summary, comprising:
対話音声データから対話の話者を識別する話者識別処理と、
識別された話者ごとに、前記対話音声データを発話単位に分離する音声分離処理と、
前記対話音声データを、分離された前記発話単位で音声認識して対話音声テキストを生成する音声認識処理と、
生成された前記対話音声テキストを要約して要約文テキストを生成する要約生成処理と、
前記発話単位で前記対話音声データを解析して話者ごとの感情表現を導出し、導出された前記感情表現を前記要約文テキストに付加し、または前記要約文テキストに対応付けて出力する第1の感情解析処理と、
生成された前記対話音声テキストから、話者ごとの感情を示す感情語を抽出し、抽出された前記感情語を対応する感情表現に変換し、変換された前記感情表現で、前記要約文テキストの少なくとも一部を置き換える第2の感情解析処理と、
を含む処理を実行させるためのものである、
ことを特徴とする対話要約生成プログラム。 A dialogue summary generation program for causing a computer to execute a dialogue summary generation process, said program comprising:
Speaker identification processing for identifying a speaker of a dialog from dialog voice data;
Speech separation processing for separating the dialogue speech data into speech units for each identified speaker;
Speech recognition processing for speech recognition of the dialogue speech data by the separated speech unit to generate dialogue speech text;
Summarizing processing for summarizing the generated dialogue speech text to generate a summary text;
The dialogue voice data is analyzed in the utterance unit to derive an emotional expression for each speaker, and the derived emotional expression is added to the abstract sentence text or output in association with the abstract sentence text . and emotion analysis processing of,
An emotional word indicating an emotion for each speaker is extracted from the generated dialogue voice text, the extracted emotional word is converted into a corresponding emotional expression, and the converted emotional expression is used for the summary text A second emotion analysis process of replacing at least a part of the second emotion analysis process;
To execute processing including
A dialogue summary generator characterized in that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018205371A JP6513869B1 (en) | 2018-10-31 | 2018-10-31 | Dialogue summary generation apparatus, dialogue summary generation method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018205371A JP6513869B1 (en) | 2018-10-31 | 2018-10-31 | Dialogue summary generation apparatus, dialogue summary generation method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6513869B1 true JP6513869B1 (en) | 2019-05-15 |
JP2020071676A JP2020071676A (en) | 2020-05-07 |
Family
ID=66530744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018205371A Active JP6513869B1 (en) | 2018-10-31 | 2018-10-31 | Dialogue summary generation apparatus, dialogue summary generation method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6513869B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021139108A1 (en) * | 2020-01-10 | 2021-07-15 | 平安科技(深圳)有限公司 | Intelligent emotion recognition method and apparatus, electronic device, and storage medium |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102382191B1 (en) * | 2020-07-03 | 2022-04-04 | 한국과학기술원 | Cyclic Learning Method and Apparatus for Speech Emotion Recognition and Synthesis |
JP7305077B2 (en) * | 2021-02-25 | 2023-07-07 | 三菱電機株式会社 | Information processing device, abstract output method, and abstract output program |
CN114049902B (en) * | 2021-10-27 | 2023-04-07 | 广东万丈金数信息技术股份有限公司 | Aricloud-based recording uploading identification and emotion analysis method and system |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3309896B2 (en) * | 1996-09-04 | 2002-07-29 | 日本電信電話株式会社 | Utterance analysis device |
JP2009175336A (en) * | 2008-01-23 | 2009-08-06 | Seiko Epson Corp | Database system of call center, and its information management method and information management program |
JP2010086380A (en) * | 2008-10-01 | 2010-04-15 | Nippon Kyoiku System Kaihatsu Kyokai:Kk | Diary analyzing device, computer program for diary analysis and method thereof |
JP5426868B2 (en) * | 2008-11-11 | 2014-02-26 | 株式会社日立製作所 | Numerical expression processing device |
JP2011087005A (en) * | 2009-10-13 | 2011-04-28 | Neikusu:Kk | Telephone call voice summary generation system, method therefor, and telephone call voice summary generation program |
JP2013222347A (en) * | 2012-04-17 | 2013-10-28 | Canon Inc | Minute book generation device and minute book generation method |
JP2015100054A (en) * | 2013-11-20 | 2015-05-28 | 日本電信電話株式会社 | Voice communication system, voice communication method and program |
JP2017199254A (en) * | 2016-04-28 | 2017-11-02 | 日本電気株式会社 | Conversation analysis device, conversation analysis method and conversation analysis program |
EP3534274A4 (en) * | 2016-10-31 | 2019-10-30 | Sony Corporation | Information processing device and information processing method |
-
2018
- 2018-10-31 JP JP2018205371A patent/JP6513869B1/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021139108A1 (en) * | 2020-01-10 | 2021-07-15 | 平安科技(深圳)有限公司 | Intelligent emotion recognition method and apparatus, electronic device, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP2020071676A (en) | 2020-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6517419B1 (en) | Dialogue summary generation apparatus, dialogue summary generation method and program | |
JP6513869B1 (en) | Dialogue summary generation apparatus, dialogue summary generation method and program | |
US11380327B2 (en) | Speech communication system and method with human-machine coordination | |
US8676586B2 (en) | Method and apparatus for interaction or discourse analytics | |
US8301447B2 (en) | Associating source information with phonetic indices | |
Shriberg | Preliminaries to a theory of speech disfluencies | |
US7788095B2 (en) | Method and apparatus for fast search in call-center monitoring | |
US8145482B2 (en) | Enhancing analysis of test key phrases from acoustic sources with key phrase training models | |
JP4757599B2 (en) | Speech recognition system, speech recognition method and program | |
US6895257B2 (en) | Personalized agent for portable devices and cellular phone | |
US20100217591A1 (en) | Vowel recognition system and method in speech to text applictions | |
US8812314B2 (en) | Method of and system for improving accuracy in a speech recognition system | |
US20110004473A1 (en) | Apparatus and method for enhanced speech recognition | |
US20040162724A1 (en) | Management of conversations | |
KR101615848B1 (en) | Method and computer program of recommending dialogue sticker based on similar situation detection | |
JP2011087005A (en) | Telephone call voice summary generation system, method therefor, and telephone call voice summary generation program | |
KR20070090745A (en) | Communicating across voice and text channels with emotion preservation | |
US11721324B2 (en) | Providing high quality speech recognition | |
US11735208B2 (en) | Systems and methods for classification and rating of calls based on voice and text analysis | |
CN110265008A (en) | Intelligence pays a return visit method, apparatus, computer equipment and storage medium | |
CN114328867A (en) | Intelligent interruption method and device in man-machine conversation | |
US10872615B1 (en) | ASR-enhanced speech compression/archiving | |
Bharti et al. | An approach for audio/text summary generation from webinars/online meetings | |
Ward et al. | Automatic user-adaptive speaking rate selection | |
JP2020052105A (en) | Voice processor, voice processing method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181031 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20181101 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20181119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181127 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190307 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190410 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6513869 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |