JP7304627B2 - Answering machine judgment device, method and program - Google Patents
Answering machine judgment device, method and program Download PDFInfo
- Publication number
- JP7304627B2 JP7304627B2 JP2019203594A JP2019203594A JP7304627B2 JP 7304627 B2 JP7304627 B2 JP 7304627B2 JP 2019203594 A JP2019203594 A JP 2019203594A JP 2019203594 A JP2019203594 A JP 2019203594A JP 7304627 B2 JP7304627 B2 JP 7304627B2
- Authority
- JP
- Japan
- Prior art keywords
- answering machine
- call
- data
- response
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephone Function (AREA)
Description
本発明は、自動音声を使って自動で電話をかけたときに、発信先の応答が留守番電話による応答だったか否かを判定する留守番電話判定装置、方法、プログラムに関する。 The present invention relates to an answering machine determination device, method, and program for determining whether or not a caller's response was an answering machine when a call was made automatically using automatic voice.
電話への着信に対し、一定時間ユーザによりオフフック操作がなされなかった場合、電話が自動で応答し、所定の予め設定された留守番メッセージを流し、その後発信者にメッセージを残すよう促すことで発信者のメッセージを録音することができる留守番電話機能を有する電話機や、留守番電話サービスを、通信網を通じて設定することができる機能が普及している。 When an incoming call to the telephone is not off-hooked by the user for a certain period of time, the telephone automatically answers the telephone, plays a predetermined preset answering machine message, and then prompts the caller to leave a message, thereby prompting the caller to leave a message. 2. Description of the Related Art Telephones with an answering machine function capable of recording a message and a function capable of setting an answering machine service through a communication network have become widespread.
しかし、留守番電話が応答した場合、発信者は自分のメッセージを相手方に残すことができるものの、通話料金が課金されるうえに、相手方に所望の用件を伝えて電話をかけた当初の目的を達成することはできないという問題があった。 However, when the answering machine answers, the caller can leave his or her own message for the other party, but in addition to being charged for the call, the original purpose of the call by informing the other party of the desired business is lost. The problem was that it was not achievable.
この問題を解決するために、特許文献1では、発信者側の電話装置が、発信先の電話機の留守電応答時間を計測して発信先の電話番号とともに記憶しておき、その発信先に新たに発信したときには、記憶した留守電応答時間になる直前に自動切断することで無駄な通話料金の支払いを防止する技術が開示されている。 In order to solve this problem, in Japanese Unexamined Patent Application Publication No. 2002-100003, a telephone device on the caller side measures the answering machine response time of the telephone of the called party, stores it together with the telephone number of the called party, and stores the answering time with the telephone number of the called party. There is disclosed a technique for preventing useless payment of call charges by automatically disconnecting a call just before the stored answering machine response time.
しかし、特許文献1の技術においては、2度目の発呼からは自動切断することで無駄な通話料金の支払いを防止することができるが、相手方に最初にかける場合は、留守番電話にかけることは防止できない。また、そもそも発呼側がコンピュータプログラム等による自動発呼により、自動音声で電話をかける場合、着信側で出た応答が人間の声なのか、留守番電話メッセージなのかを判別することができないという問題があった。
However, in the technique of
発呼先の電話がオフフックされたときに、留守番電話であったか、人間が出たにも関わらず自動音声で伝えた用件に対して対応がなされなかったか、の判断ができなければ、すぐにかけ直すか、時間をおいてからかけ直すかも決定できない。このため、自動音声電話機が、留守であるにもかかわらず、すぐに何度もかけ直したりするなど、無駄に発信操作を繰り返してしまうという問題があった。 When the called party's phone goes off-hook, if it is not possible to determine whether it was an answering machine or whether the matter conveyed by automated voice was not answered despite the fact that a human answered the call, call immediately. I can't decide whether to fix it or call back later. For this reason, there is a problem that the automatic voice telephone repeats call operations unnecessarily, such as immediately calling back many times even though the caller is not at home.
そこで、本発明では、通話が終了したあとに、通話データを自動音声電話機から取得し、少なくとも話者重複特徴量とクラスタリング特徴量とを通話データから抽出し、機械学習により生成された判定部によって、留守番電話による応答か否かを判定することで、その後の無駄な発信操作を防止し、適切な対応をとれるようにすることを目
的とする。
Therefore, in the present invention, after the call is completed, the call data is acquired from the automatic voice telephone, at least the speaker overlap feature amount and the clustering feature amount are extracted from the call data, and the decision unit generated by machine learning To prevent useless calling operation after that and to take an appropriate response by judging whether or not a response is made by an answering machine.
本発明にあっては、電話による通話データを取得する通話データ取得手段と、通話データの双方の話者の重複度を算出する話者重複特徴量抽出手段と、通話データのクラスタリング特徴量を算出するクラスタリング特徴量抽出手段と、話者重複特徴量と、クラスタリング特徴量と、留守番電話による応答の有無とを教師データとして用いて、機械学習により生成された留守番電話による応答か否かを判定する判定手段と、を有し、判定手段は、通話データから抽出された話者重複特徴量と、クラスタリング特徴量と、に基づいてその通話データが留守番電話による応答か否かを判定する、留守番電話応答判定装置を提供することができる。 According to the present invention, there are provided call data acquisition means for acquiring phone call data, speaker overlap feature quantity extraction means for calculating the degree of duplication of both speakers of the call data, and clustering feature quantity calculation of the call data. Using the clustering feature extracting means, the speaker duplication feature, the clustering feature, and the presence or absence of a response by an answering machine as teacher data, it is determined whether or not the answer is a response by an answering machine generated by machine learning. determining means, wherein the determining means determines whether or not the call data is a response by an answering machine based on the overlapping speaker feature amount and the clustering feature amount extracted from the call data. A response determination device can be provided.
さらに、留守番電話応答判定装置は、通話データの通話時間の特徴量を抽出する通話時間特徴量抽出手段を有し、判定手段は、通話時間の特徴量をさらに教師データとして用いる。 Furthermore, the answering machine response determination device has a call time feature amount extraction means for extracting a call time feature amount of the call data, and the determination means further uses the call time feature amount as teacher data.
また、通話時間特徴量は、通話音声のエネルギー統計量である。 Also, the call duration feature amount is the energy statistic of the call voice.
本発明にかかる留守番電話応答判定装置は、さらに、通話データをテキストデータに変換する音声認識手段とテキストデータから機械学習により留守番電話による応答を検出してテキスト特徴量を算出する応答検出手段とを有するテキスト特徴量抽出手段をさらに有し、判定手段は、前記テキスト特徴量をさらに教師データとして用いる。 The answering machine response determination device according to the present invention further includes a voice recognition means for converting call data into text data and a response detection means for detecting a response by the answering machine from the text data by machine learning and calculating a text feature amount. text feature amount extraction means, and the determination means further uses the text feature amount as teacher data.
さらに、機械合成音データと、人間音声データと、混合ガウスのヒストグラムと、を教師データとして用いて機械学習し、通話データのうち、応答側の音声が機械合成音データである確率を機械合成音特徴量として生成する機械合成音特徴量生成手段をさらに有し、判定手段は、機械合成音特徴量をさらに教師データとして用いる、留守番電話応答判定装置を提供する。 Furthermore, machine learning is performed using machine synthesized speech data, human speech data, and a Gaussian mixture histogram as teacher data, and the probability that the speech of the answering side in the call data is machine synthesized speech data is calculated as machine synthesized speech data. Provided is an answering machine response determination device, further comprising a machine-synthesized sound feature quantity generating means for generating as a feature quantity, wherein the determination means further uses the machine-synthesized sound feature quantity as teacher data.
本発明にかかる留守番電話応答判定方法は、電話による通話データを取得する通話データ取得ステップと、通話データの双方の話者の重複度を算出する話者重複特徴量抽出ステップと、通話データのクラスタリング特徴量を算出するクラスタリング特徴量抽出ステップと、通話時間特徴量と、話者重複特徴量と、クラスタリング特徴量と、留守番電話による応答の有無とを教師データとして用いて、機械学習することにより生成された判定部により留守番電話による応答か否かを判定する判定ステップと、を有する留守番電話応答判定方法を提供する。 The answering machine response determination method according to the present invention includes a call data acquisition step of acquiring call data from telephone calls, a speaker overlap feature amount extraction step of calculating the degree of redundancy of both speakers in the call data, and clustering of the call data. Generated by machine learning using the clustering feature amount extraction step of calculating the feature amount, the call duration feature amount, the speaker overlapping feature amount, the clustering feature amount, and the presence or absence of the answering machine as teacher data. and a judgment step of judging whether or not the call is answered by an answering machine.
また、本発明の留守番電話応答判定装置としてコンピュータに実行させる留守番電話応答判定プログラムは、電話による通話データを取得する通話データ取得ステップと、通話データの双方の話者の重複度を算出する話者重複特徴量抽出ステップと、通話データのクラスタリング特徴量を算出するクラスタリング特徴量抽出ステップと、通話時間特徴量と、話者重複特徴量と、クラスタリング特徴量と、留守番電話による応答の有無とを教師データとして用いて、機械学習することにより生成された判定部により留守番電話による応答か否かを判定する判定ステップと、を実行させる留守番電話応答判定プログラムを提供する。 Further, an answering machine response determination program to be executed by a computer as an answering machine response determination apparatus of the present invention includes a call data acquisition step of acquiring call data from a telephone call, A duplicate feature quantity extraction step, a clustering feature quantity extraction step of calculating a clustering feature quantity of call data, a call duration feature quantity, a speaker overlap feature quantity, a clustering feature quantity, and the presence or absence of an answering machine response are supervised. Provided is an answering machine response judgment program for executing a judgment step of judging whether or not a response is made by an answering machine by a judging unit generated by machine learning using data as data.
本発明によれば、通話データから所定の特徴量を取得し、発呼先の電話が留守番電話による応答であったか否かを判定することができるため、具体的には、留守番電話であったと判定された場合は、数時間時間をおいて、在宅している可能性の高い時間や店舗であれば営業時間内に再度発呼するようにし、人間が出たにもかかわらず、自動音声による電話であったがために、すぐに電話が切断されたと判断した場合には、すぐにかけ直すように電話機を設定することができる。 According to the present invention, it is possible to obtain a predetermined feature value from the call data and determine whether or not the callee's telephone was answered by an answering machine. If you are called, wait a few hours and try to call again during business hours if there is a high possibility that you are at home or at a store, and even if a human answers, the call will be made by an automated voice. If it is determined that the call was immediately disconnected because of a
以下、本発明を実施するための形態について、図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能及び構成を有する構成要素については同一の符号を付し、重複説明を省略する。 EMBODIMENT OF THE INVENTION Hereinafter, the form for implementing this invention is demonstrated, referring drawings. In the present specification and drawings, constituent elements having substantially the same functions and configurations are denoted by the same reference numerals, and redundant explanations are omitted.
図1は、本発明における留守番電話応答判定装置のハードウェア構成図の一例を示すブロック図である。図1に示されるコンピュータ装置である留守番電話応答判定装置10のハードウェア構成は、主にコンピュータ装置で実現できる。留守番電話応答判定装置10は、自動音声電話機20から受信した通話データから各種特徴量を抽出し、留守番電話応答の判定を行う留守番電話応答判定プログラムを実行することで、留守番電話応答か否かの判定を行う。
FIG. 1 is a block diagram showing an example of a hardware configuration diagram of an answering machine response determining apparatus according to the present invention. The hardware configuration of answering machine
留守番電話応答判定装置10は、通話データと各種特徴量、留守番電話の応答の有無を教師データとして機械学習することで生成される留守番電話応答判定部を有しており、新たな通話データを自動音声電話機20から受信すると、各種特徴量を抽出し、相手方の応答が留守番電話による応答であったかなかったかを判定する。
The answering machine
留守番電話応答判定装置10を形成するコンピュータは、図1に示したようにCPU11、通信インターフェース12、ROM13、RAM14、ハードディスクドライブ15、入出力インターフェース16、入出力インターフェース16と接続された表示部17、ポインティングデバイス18及びキーボード19を、バスに接続して構成される。また、入出力インターフェース16には、USBメモリなどの外部記憶装置20が接続可能である。
As shown in FIG. 1, the computer forming the answering machine
表示部17は、たとえば、液晶ディスプレイなどの表示装置である。ポインティングデバイス18は、例えば、マウスやトラックボールなどである。
The
一連の処理をプログラムにより実行させる場合には、例えば、通話データ取得部、話者重複特徴量抽出部、クラスタリング特徴量抽出部、通話時間特徴量抽出部、テキスト特徴量抽出部、機械合成音特徴量抽出部、判定部は、ROM13又はハードディスクドライブ15に留守番電話応答判定プログラムとして記憶され、CPU11で実行させることで、各種の機能を実行させる。なお、留守番電話応答判定プログラムが記憶されたUSBメモリなどの外部記憶装置20を入出力インターフェース16に接続することでのインストールや、ネットワーク12からコンピュータへ留守番電話応答判定プログラムをインストール、また、装置本体に予め組み込まれた状態、例えば、留守番電話応答判定プログラムが記録されているROM13などで構成してもよい。
When a series of processes are executed by a program, for example, a call data acquisition unit, a speaker overlap feature amount extraction unit, a clustering feature amount extraction unit, a call time feature amount extraction unit, a text feature amount extraction unit, and a machine synthesized sound feature The amount extractor and the determiner are stored in the
図2は、本発明の第一の実施の形態にかかる留守番電話応答判定システム1の機能ブロック図である。留守番電話応答判定システム1は、自動音声電話機20と留守番電話応答判定装置10から構成される。自動音声電話機20は、所定の電話番号に自動発呼し、所定のメッセージを人工的に生成された音声で相手方に聞かせることで、人間がいなくても電話をかけることができる電話機である。例えば、お店への予約電話を行う場合に必要な電話予約メッセージをあらかじめ自動音声電話機20に登録しておき、予約希望日時や人数など電話予約メッセージに適宜組み合わせることで、予約する店の電話番号を読み出して、自動で発呼し、生成された電話予約のためのメッセージを人工音声で読み上げ、相手方に予約が可能かどうかを問い合わせる。なお、自動音声電話機20は、データベースに記憶された電話番号を参照して電話をかけるコンピュータプログラムがサーバなどのコンピュータにインストールされることにより構成されていてもよく、複数のコンピュータ装置によって構成されていてもよい。
FIG. 2 is a functional block diagram of the answering machine
留守番電話応答判定装置10は、自動音声電話機20が録音した通話データをインターネット等の通信ネットワークを介して受信し、通話データから各種特徴量を抽出し、教師データにより機械学習することで生成された判定部に基づいて、相手方が留守番メッセージで応答したか否かの判定を行う装置である。
The answering machine
自動音声電話機20と留守番電話応答判定装置10とは、ここでは別々の装置として図示しているが、これに限らず、自動音声電話機20と留守番電話応答判定装置10とで一つの装置として構成してもよい。また、自動音声電話機20と留守番電話応答判定装置10を構成する各機能がそれぞれ独立した装置として構成してもよい。
Although the
留守番電話応答装置10は、通話データ取得部101、話者重複特徴量抽出部111、クラスタリング特徴量抽出部113、判定部121を有する。
The answering
通話データ取得部101は、自動音声電話機20が人間の手によらず自動で電話をかけて通話した通話データを自動音声電話機20から受信し、通話データを取得する。なお、通話データのデータ形式は、発信者側の音声と着信者側の音声とによる2チャンネルのデュアルチャンネルで録音されていればよく、例えば、wav形式であるが、特に特定のデータ形式に限らない。
A call
話者重複特徴量抽出部111は、通話データの双方の話者の重複度を算出する。具体的には、通話データは、発信者側と着信者側とでデュアルチャンネルで録音されているため、話者重複特徴量抽出部111は、両方のチャンネルで話している区間を検知し、重複度の判定を行う。話者重複特徴量抽出部111は、たとえば、音声区間検出器(VAD:Voice Activity detection)を有し、発信者側と着信者側、双方のチャンネルでの話し区間を抽出し、重複度を計算する。例えば、音声区間検出器として、MFCC(Mel-frequency cepstrum coefficients)の線形モデルを用いてもよい。話者重複特徴量抽出部111は、下記のような計算を行って、発信者側と着信者側との話している区間の重複時間(overlap)を算出する。Shelloは、発信者側の話している区間、Srestaurantは、着信者側の話している区間、|S|は、その区間の秒数の長さを表す。
クラスタリング特徴量抽出部113は、通話データのうち、着信者側のみのチャンネルの音声データからクラスタリング特徴量を算出する。クラスタリング特徴量抽出部113は、留守番電話による応答のような機械による応答と、人間による応答、各応答の特徴的な音声パターンで分類されるようにクラスタリングを行う。具体的にはBoAW(Bag of Audio Words)という特徴量を算出する。クラスタリング特徴量抽出部113は、受信した通話データにつき、まずMFCC特徴量を算出する。
The clustering feature
具体的には、1フレームを0.025秒とし、0.01秒ずつシフトさせることで、1秒間に100フレーム生成し、各フレームにおける40次元のMFCC特徴量を高次元の点とみなし、点の集合をk-meansのクラスタリングにあてはめて、クラスタリングを生成する。k-meansは下記の式を最小化することで、クラスタリングを生成する。xは、各フレームにおける点、Siはi番目のクラスタに含まれる点の集合、μiは、そのクラスタの中心、Sはすべてのクラスタの集合である。
例えば、10秒の通話データを100個用意すると、10×100×100=100000個の点が存在することとし、これにk-meansのクラスタリングを適用し、100個のクラスタリングを生成する。次に、留守番電話応答判定を行う通話データのMFCC特徴量を算出し、各フレームのMFCC特徴量がどのクラスタリングまでの距離が近いかを計算する。一番近いクラスタリングに対してそのフレームを割り当てることで、クラスタリングのヒストグラムを生成し、クラスタリング特徴量を抽出する。つまり、クラスタリング特徴量抽出部113は、着信者側の音声データについて音声特徴量であるMFCC特徴量からクラスタリングを生成し、さらにクラスタリングのヒストグラムを生成することで、クラスタリング特徴量を抽出する。
For example, if 100 pieces of call data for 10 seconds are prepared, 10×100×100=100000 points are present, and k-means clustering is applied to these points to generate 100 clusterings. Next, the MFCC feature amount of call data for answering machine response determination is calculated, and the distance to which clustering the MFCC feature amount of each frame is close is calculated. By assigning the frame to the closest clustering, a clustering histogram is generated and clustering features are extracted. That is, the clustering feature
判定部121は、通話データから抽出された各種特徴量と留守番電話による応答の有無とを教師データとして機械学習により生成される。機械学習により生成された判定部121に、留守番電話による応答であったか否かを判定したい通話データから抽出した話者重複特徴量とクラスタリング特徴量を入力することで、判定部121は、その通話データにおいて留守番電話による応答があったか否かの判定を行う。
The
判定部121は、対象となる通話データから抽出した特徴量を入力すると二値分類を行う分類器で構成される。ここでは、留守番電話による応答である機械応答と人間応答の二値に分類される。分類器としては、例えば、ロジスティック回帰、ランダムフォレスト、SVM(サポートベクトルマシン)などが用いられ、いずれを用いてもよいが、教師データが少ないとき、例えば10000音声データ未満の場合は、ロジスティック回帰、それ以上の場合は、SVMなど使い分けてもよい。
The
例えば、ロジスティック回帰は、教師データが少ない時に最もよいパフォーマンスを示し、下記の式により、重みwのパラメータのもと、入力特徴量xから留守番電話による応答である機械応答C1に分類される条件付き確率を計算する。
P(C1|x;w)=σ(wTX+w0)
For example, logistic regression shows the best performance when there is little teacher data, and the following formula classifies the machine response C1, which is the answering machine response, from the input feature value x under the weight w parameter. Calculate probabilities.
P(C1|x;w)=σ( wTx + w0 )
また、ランダムフォレストを分類器として使う場合、個々の決定木の結果fkに基づいて計算を行う。
SVMはデータ量が一定以上、例えば、10000音声データ以上に達した場合、ロジスティック回帰から置き換えることで、より高いパフォーマンスを分類器として使う場合で分類を行うことができる。カーネルトリックを用いることで、本来より高次元上で超平面を引くことで非線形分類能力を実現できるものである。境界面は、以下の式により定められる。(zi,yi)は既存のi番目の教師データの特徴量とラベル、w、bは学習する重みである。
図3は、本発明の第二の実施の形態にかかる留守番電話応答判定システム1の機能ブロック図である。第二の実施の形態においては、話者重複特徴量、クラスタリング特徴量以外の特徴量も抽出し、留守番電話による応答であったか否かの判定に用いる。なお、第一の実施の形態と同じ構成については、詳細な説明を省略する。
FIG. 3 is a functional block diagram of answering machine
留守番電話応答判定システム1は、自動音声電話機20と留守番電話応答判定装置10から構成される。自動音声電話機20は、所定の電話番号に自動発呼し、所定のメッセージを人工的に生成された音声を相手方に聞かせることで、人間がいなくても電話をかけることができる電話機である。留守番電話応答判定装置10は、自動音声電話機20が録音した通話データをインターネット等の通信ネットワークを介して受信し、通話データから各種特徴量を抽出し、教師データにより機械学習することで生成された判定部に基づいて、相手方が留守番メッセージで応答したか否かの判定を行う装置である。
The answering machine
本実施の形態においては、留守番電話応答判定装置10は、通話データ取得部101、話者重複特徴量抽出部111、クラスタリング特徴量抽出部113、通話時間特徴量抽出部115、テキスト特徴量抽出部117、機械合成音特徴量抽出部119、判定部121を有する。
In this embodiment, the answering machine
通話データ取得部101は、自動音声電話機20が人間の手によらず自動で電話をかけて通話した通話データを自動音声電話機20から受信し、通話データを取得する。また、話者重複特徴量抽出部111は、通話データの双方の話者の重複度を算出する。クラスタリング特徴量抽出部113は、通話データのうち、着信者側のみのチャンネルの音声データからクラスタリング特徴量を算出する。話者重複特徴量抽出部111と、クラスタリング特徴量抽出部113は、第一の実施の形態と構成が同じであるため、ここでは詳細な説明を省略する。
A call
通話時間特徴量抽出部115は、通話データの通話時間の特徴量を抽出する。例えば、通話データにおける通話時間そのものを特徴量としてもよい。また、他の一例では、通話時間の2乗を通話時間の特徴量としてもよい。留守番電話応答による場合の通話時間は、決まったテンプレートの録音が使われることが多いため、同じような時間に通話が終了する。このため通話時間の2乗を特徴量とすることで、二次関数を表現して留守番電話応答だった場合のピークをとらえる。
The call time feature
また、通話時間特徴量抽出部115は、音声の各フレームのエネルギー統計量を通話時間特徴量として抽出してもよい。この場合、音声の各フレームのエネルギー統計量を計算することで、通話時間全体でのノイズを計測する。エネルギー統計量が高い場合は、背景にノイズが多くある、低い場合は、背景にノイズがあまりないことがわかる。具体的には、エネルギー統計量として、下記の式を計算する。なお、音声信号をx(t)とし、0.025行のフレームに区切り、窓関数w(t)をかけて、短時間フーリエ変換による信号X[t,f]を変換する。tは時間、fは周波数である。
なお、通話時間特徴量抽出部115は、エネルギー統計量のみと通話時間特徴量として抽出してもよく、最適な実施形態としては、エネルギー統計量と通話時間の2乗の2つの特徴量を抽出してもよい。 なお、エネルギー統計量と通話時間の2つの特徴量を抽出してもよい。
Note that the call duration feature
テキスト特徴量抽出部117は、テキストデータに変換する音声認識部1171とテキストデータから機械学習による留守番電話による応答を検出してテキスト特徴量を算出する応答検出部1172とを有する。音声認識部1171は、取得した通話データのうち着信者側の音声データの音声認識を行い、テキスト化する。
The text feature
応答検出部1172は、音声認識部1171によって音声認識され生成されたテキストデータから留守番電話による機械応答の典型的なテキストメッセージがあるかどうかを検出する。例えば、『ただいま留守にしております』や『メッセージをお願いします』『営業時間外です』など、留守番電話による応答メッセージでよく使われるメッセージを検出する。具体的には、応答検出部1172として、BERT(Bidirectional Encoder Representations from Transformer)又はXLNetなどの日本語事前学習言語モデルを適用して、応答検出を行う。
The
機械合成音特徴量抽出部119は、着信者側の音声が機械で合成された音かどうかを判定するための特徴量を抽出する、例えば、機械合成音特徴量抽出部119においては、人間の音声と人工的に合成された音声とをそれぞれ大量に収集し、それらをLSTM(Long Short-Term Memory)に入れて、人間音声と合成音声とを分類できるよう学習させる。また、音声データの混合ガウス分布のヒストグラムを算出し、人間音声の場合のヒストグラムと合成音声の場合のヒストグラムとを算出し、ニューラルネットワークでこれらを教師データとして機械学習させて機械合成音分類器を生成しておく。
The machine-synthesized sound feature
機械合成音特徴量抽出部119は、通話データを取得すると、着信者側のチャンネルの音声データを抽出し、その音声データの混合ガウス分布のヒストグラムを算出し、機械学習させた機械合成音分類器に合成音かどうかの確率を算出させ、その結果を機械合成音特徴量として、抽出する。
When the call data is acquired, the machine synthesized sound feature
判定部121は、通話データから抽出された各種特徴量と留守番電話による応答の有無とを教師データとして機械学習により生成される。機械学習により生成された判定部に、留守番電話による応答であったか否かを判定したい通話データから抽出した特徴量を入力することで、判定部121は、その通話データにおいて留守番電話による応答があったか否かの判定を行う。本実施の形態では、話者重複特徴量、クラスタリング特徴量、通話時間特徴量、テキスト特徴量、機械合成音特徴量を入力し、判定を行う。
The
なお、第二の実施の形態においては、話者重複特徴量、クラスタリング特徴量、通話時間特徴量、テキスト特徴量、機械合成音特徴量の5つの特徴量を入力したが、テキスト特徴量又は機械合成音特徴量のいずれかの特徴量と他の3つの特徴量を入力して判定を行うように構成してもよい。また、話者重複特徴量、クラスタリング特徴量、通話時間特徴量の3つの特徴量を入力して判定を行うように構成してもよい。この3つの特徴量のみとすることで、処理を早くすることができる。 Note that in the second embodiment, the five feature amounts of overlapping speaker feature amount, clustering feature amount, call duration feature amount, text feature amount, and machine synthesized speech feature amount are input. A configuration may be adopted in which determination is performed by inputting one of the synthesized speech feature amounts and the other three feature amounts. Further, it may be configured such that determination is performed by inputting three feature amounts, namely, the overlapping speaker feature amount, the clustering feature amount, and the call duration feature amount. Processing can be speeded up by using only these three feature amounts.
図4は、人間応答による場合の秒数分布を示すグラフである。図のとおり、着信側で人が出られた場合には、短い秒数で通話時間が終了することが多いことがわかる。おそらく、自動応答で電話がかかってきた場合に相手方が、自動応答(機械)だとわかると着信側がすぐに切る傾向があるからと考えられる。 FIG. 4 is a graph showing the number-of-seconds distribution in the case of human response. As can be seen from the figure, when a caller answers the call, the call ends in a short number of seconds. This is probably because, when receiving a call with an automatic answerer, the called party tends to hang up immediately when the other party recognizes that it is an automatic answerer (machine).
図5は、留守番電話の機械応答による場合の秒数分布を示すグラフである。通話時間のピークが50~60秒のところにあるのがわかる。留守番電話による機械応答の場合、定型メッセージが流れるため、一定の秒数がかかる。自動応答で電話をかけた場合、着信側が留守番電話による機械応答であると、応答メッセージのあとメッセージを録音する時間があり、所定の録音時間のあと、着信側から切るため、時間のピークが50~60秒になると考えられる。 FIG. 5 is a graph showing the distribution of the number of seconds according to the machine response of the answering machine. It can be seen that the call duration peaks at 50 to 60 seconds. In the case of machine answering by answering machine, it takes a certain number of seconds because a standard message is played. When a call is made with an automatic answering machine, if the called party uses an answering machine to answer the call, there is time to record the message after the answering message, and after the predetermined recording time, the called party hangs up, so the time peak is 50 ~60 seconds.
図6は、教師データを用いて、着信者側で留守番電話が応答したか否かを判定する分類器を、機械学習により生成する処理を示すフローチャートである。まず、通話データ取得部101は、着信者側の留守番電話応答か否かを示す応答結果データと、通話データと、を取得する(ステップS601)。ここでは、分類器に機械学習させることが目的であるため、教師データとして、通話データとともに応答結果データとを取得する。
FIG. 6 is a flow chart showing a process of generating, by machine learning, a classifier for determining whether or not an answering machine has answered on the called party side using teacher data. First, the call
次に、各特徴量抽出部は、通話データから各特徴量を抽出する(ステップS602)。第一の実施の形態においては、話者重複特徴量抽出部111とクラスタリング特徴量抽出部113が、通話データから話者重複特徴量と、クラスタリング特徴量を抽出する。第二の実施の形態においては、話者重複特徴量抽出部111、クラスタリング特徴量抽出部113、通話時間特徴量抽出部115、テキスト特徴量抽出部117、機械合成音特徴量抽出部119が、話者重複特徴量、クラスタリング特徴量、通話時間特徴量、テキスト特徴量、機械合成音特徴量を抽出する。
Next, each feature quantity extraction unit extracts each feature quantity from the call data (step S602). In the first embodiment, the overlapping speaker feature
次に、判定部で用いる分類器を機械学習により生成する(ステップS603)。通話データから抽出された各種特徴量と留守番電話による応答の有無とを教師データとして機械学習させることで、留守番電話による応答であったかなかったかを判定する分類器を生成する。機械学習法としては、ロジスティック回帰、ランダムフォレスト法、サポートベクトルマシンがあげられ、いずれを用いてもよい。特徴量としては、第一の実施の形態においては、話者重複特徴量、クラスタリング特徴量、第二の実施の形態においては、話者重複特徴量、クラスタリング特徴量、通話時間特徴量、テキスト特徴量、機械合成音特徴量である。教師データにより生成された分類器により、判定対象となる通話データが留守番電話による応答であったか否かが判定される。 Next, a classifier used in the determination unit is generated by machine learning (step S603). Machine learning is performed using various feature values extracted from call data and the presence or absence of a response by an answering machine as teacher data to generate a classifier that determines whether the response was by an answering machine. Machine learning methods include logistic regression, random forest method, and support vector machine, any of which may be used. In the first embodiment, overlapping speaker feature amount, clustering feature amount, and in the second embodiment, overlapping speaker feature amount, clustering feature amount, call duration feature amount, text feature amount, and It is a machine-synthesized sound feature quantity. A classifier generated from the teacher data determines whether or not the call data to be determined was a response to an answering machine.
1 留守番電話応答判定システム
10 留守番電話応答判定装置
20 自動音声電話機
1 answering machine
Claims (7)
前記通話データの双方の話者の重複度を算出する話者重複特徴量抽出手段と、
前記通話データのクラスタリング特徴量を算出するクラスタリング特徴量抽出手段と、
前記話者重複特徴量と、前記クラスタリング特徴量と、留守番電話による応答の有無とを教師データとして用いて、機械学習により生成された留守番電話による応答か否かを判定する判定手段と、
を有し、
前記判定手段は、前記通話データから抽出された話者重複特徴量と、前記クラスタリング特徴量とに基づいてその通話データが留守番電話による応答か否かを判定する、留守番電話応答判定装置。 call data acquisition means for acquiring call data by telephone;
speaker duplication feature extracting means for calculating the degree of duplication of both speakers of the call data;
a clustering feature extraction means for calculating a clustering feature of the call data;
a determining means for determining whether or not a response is generated by machine learning, using the overlapping speaker feature amount, the clustering feature amount, and the presence or absence of a response to an answering machine as teacher data;
has
The determination means determines whether or not the call data is an answering machine response based on the speaker duplication feature extracted from the call data and the clustering feature.
前記判定手段は、通話時間の特徴量をさらに教師データとして用いる、留守番電話応答判定装置。 2. The answering machine response determination device according to claim 1, further comprising a call time feature amount extracting means for extracting a call time feature amount of said call data,
The determination means is an answering machine response determination device that further uses a characteristic amount of call time as teacher data.
さらに、前記通話データをテキストデータに変換する音声認識手段と前記テキストデータから機械学習により留守番電話による応答を検出してテキスト特徴量を算出する応答検出手段とを有するテキスト特徴量抽出手段をさらに有し、
前記判定手段は、前記テキスト特徴量をさらに教師データとして用いる、留守番電話応答判定装置。 The answering machine response determination device according to any one of claims 1 to 3,
Further, text feature extracting means includes speech recognition means for converting the call data into text data and response detection means for detecting a response to an answering machine from the text data by machine learning and calculating a text feature. death,
The determination means is an answering machine response determination device that further uses the text feature quantity as teacher data.
さらに、機械合成音データと、人間音声データと、混合ガウスのヒストグラムと、を教師データとして用いて機械学習し、通話データのうち、応答側の音声が機械合成音データである確率を機械合成音特徴量として生成する機械合成音特徴量生成手段をさらに有し、
前記判定手段は、機械合成音特徴量をさらに教師データとして用いる、留守番電話応答判定装置。 The answering machine response determination device according to any one of claims 1 to 4,
Furthermore, machine learning is performed using machine synthesized speech data, human speech data, and a Gaussian mixture histogram as teacher data, and the probability that the speech of the answering side in the call data is machine synthesized speech data is calculated as machine synthesized speech data. further comprising machine-synthesized sound feature quantity generating means for generating as a feature quantity,
The determination means is an answering machine response determination device that further uses the machine-synthesized sound feature quantity as teacher data.
電話による通話データを取得する通話データ取得ステップと、
前記通話データの双方の話者の重複度を算出する話者重複特徴量抽出ステップと、
前記通話データのクラスタリング特徴量を算出するクラスタリング特徴量抽出ステップと、
前記話者重複特徴量と、前記クラスタリング特徴量と、留守番電話による応答の有無とを教師データとして用いて、機械学習することにより生成された判定部により留守番電話による応答か否かを判定する判定ステップと、
を有する留守番電話応答判定方法。 An answering machine response determination method comprising:
a call data acquisition step of acquiring call data by telephone;
a speaker duplication feature extracting step of calculating the degree of duplication of both speakers of the call data;
a clustering feature extraction step of calculating a clustering feature of the call data ;
Using the speaker duplication feature amount, the clustering feature amount, and the presence or absence of a response to an answering machine as teacher data, a determination unit generated by machine learning determines whether or not there is a response to an answering machine. a determination step;
answering machine response determination method.
電話による通話データを取得する通話データ取得ステップと、
前記通話データの双方の話者の重複度を算出する話者重複特徴量抽出ステップと、
前記通話データのクラスタリング特徴量を算出するクラスタリング特徴量抽出ステップと、
前記話者重複特徴量と、前記クラスタリング特徴量と、留守番電話による応答の有無とを教師データとして用いて、機械学習することにより生成された判定部により留守番電話による応答か否かを判定する判定ステップと、
を実行させる留守番電話応答判定プログラム。
An answering machine response determination program executed by a computer as an answering machine response determination device,
a call data acquisition step of acquiring call data by telephone;
a speaker duplication feature extracting step of calculating the degree of duplication of both speakers of the call data;
a clustering feature extraction step of calculating a clustering feature of the call data ;
Using the speaker duplication feature amount, the clustering feature amount, and the presence or absence of a response to an answering machine as teacher data, a determination unit generated by machine learning determines whether or not there is a response to an answering machine. a determination step;
An answering machine response judgment program for executing
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019203594A JP7304627B2 (en) | 2019-11-08 | 2019-11-08 | Answering machine judgment device, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019203594A JP7304627B2 (en) | 2019-11-08 | 2019-11-08 | Answering machine judgment device, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021078012A JP2021078012A (en) | 2021-05-20 |
JP7304627B2 true JP7304627B2 (en) | 2023-07-07 |
Family
ID=75898386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019203594A Active JP7304627B2 (en) | 2019-11-08 | 2019-11-08 | Answering machine judgment device, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7304627B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102415519B1 (en) * | 2020-09-24 | 2022-07-05 | 장원준 | Computing Detection Device for AI Voice |
CN114679515B (en) * | 2022-05-30 | 2022-08-30 | 杭州一知智能科技有限公司 | Method, device, equipment and storage medium for judging connection time point of outbound system |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005530214A (en) | 2002-06-19 | 2005-10-06 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Mega speaker identification (ID) system and method corresponding to its purpose |
US20050276390A1 (en) | 2004-06-10 | 2005-12-15 | Sikora Scott E | Method and system for identifying a party answering a telephone call based on simultaneous activity |
JP2006345181A (en) | 2005-06-08 | 2006-12-21 | Ntt Comware Corp | Outbound campaign system |
JP2009543158A (en) | 2006-07-12 | 2009-12-03 | マイクロソフト コーポレーション | Detect answering machine using voice recognition |
JP2012129861A (en) | 2010-12-16 | 2012-07-05 | Nomura Research Institute Ltd | Calling device and calling method |
-
2019
- 2019-11-08 JP JP2019203594A patent/JP7304627B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005530214A (en) | 2002-06-19 | 2005-10-06 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Mega speaker identification (ID) system and method corresponding to its purpose |
US20050276390A1 (en) | 2004-06-10 | 2005-12-15 | Sikora Scott E | Method and system for identifying a party answering a telephone call based on simultaneous activity |
JP2006345181A (en) | 2005-06-08 | 2006-12-21 | Ntt Comware Corp | Outbound campaign system |
JP2009543158A (en) | 2006-07-12 | 2009-12-03 | マイクロソフト コーポレーション | Detect answering machine using voice recognition |
JP2012129861A (en) | 2010-12-16 | 2012-07-05 | Nomura Research Institute Ltd | Calling device and calling method |
Also Published As
Publication number | Publication date |
---|---|
JP2021078012A (en) | 2021-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6341092B2 (en) | Expression classification device, expression classification method, dissatisfaction detection device, and dissatisfaction detection method | |
JP6792089B2 (en) | Voiceprint recognition methods, devices, terminal devices and storage media | |
JP4167057B2 (en) | Speech recognition method and system for determining the status of outgoing telephone calls | |
US8798255B2 (en) | Methods and apparatus for deep interaction analysis | |
CN107818798A (en) | Customer service quality evaluating method, device, equipment and storage medium | |
US20110282661A1 (en) | Method for speaker source classification | |
CN111683175B (en) | Method, device, equipment and storage medium for automatically answering incoming call | |
CN105744090A (en) | Voice information processing method and device | |
JP7304627B2 (en) | Answering machine judgment device, method and program | |
CN110705309B (en) | Service quality evaluation method and system | |
US11516341B2 (en) | Telephone call screener based on call characteristics | |
CN114328867A (en) | Intelligent interruption method and device in man-machine conversation | |
CN105827787A (en) | Number marking method and number marking device | |
CN111901488B (en) | Method for improving outbound efficiency of voice robot based on number state | |
EP2913822A1 (en) | Speaker recognition method | |
CN112185383A (en) | Processing method and system for customer service return visit | |
CN110933236A (en) | Machine learning-based null number identification method | |
CN116129903A (en) | Call audio processing method and device | |
CN110556114A (en) | Speaker identification method and device based on attention mechanism | |
WO2014069443A1 (en) | Complaint call determination device and complaint call determination method | |
CN103929532A (en) | Information processing method and electronic equipment | |
RU2783966C1 (en) | Method for processing incoming calls | |
WO2014069444A1 (en) | Complaint conversation determination device and complaint conversation determination method | |
CN114065742B (en) | Text detection method and device | |
US20240312466A1 (en) | Systems and Methods for Distinguishing Between Human Speech and Machine Generated Speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220517 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230428 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230428 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230606 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230616 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230620 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7304627 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |