JPH0683384A

JPH0683384A - 音声中の複数話者の発話区間自動検出同定装置

Info

Publication number: JPH0683384A
Application number: JP4231157A
Authority: JP
Inventors: Masahide Sugiyama; 雅英杉山
Original assignee: A T R JIDO HONYAKU DENWA KENKYUSHO KK; ATR JIDO HONYAKU DENWA
Current assignee: A T R JIDO HONYAKU DENWA KENKYUSHO KK; ATR JIDO HONYAKU DENWA
Priority date: 1992-08-31
Filing date: 1992-08-31
Publication date: 1994-03-25
Anticipated expiration: 2010-01-11
Also published as: JPH071438B2

Abstract

(57)【要約】【目的】この発明は任意数の未知話者の音声区間を検
出して同定できるような音声中の複数話者の発話区間自
動検出同定装置を提供することを主要な特徴とする。【構成】入力音声１を音声特徴抽出部２で特徴ベクト
ルの時系列３に変換し、量子化部６によって共通符号帳
作成部４で作成された共通符号帳５により符号の系列７
に変換し、音声区間始終端検出部８で各音声区間ごとに
各符号の出現頻度を算出し、出現確率算出部１０で出現
確率の集合１１を作成し、クラスタ分析部１２で幾つか
のクラスタ１３に分割し、そのクラスタ１３の情報を基
にして音声区間のクラス判別を行なう。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は音声中の複数話者の発
話区間自動検出同定装置に関し、特に、未知の複数話者
の発話区間を自動的に検出して同定するような発話区間
自動検出同定装置に関する。

【０００２】

【従来の技術および発明が解決しようとする課題】音声
中の複数者の自動検出同定や、音声中の複数言語の識別
や、非音声の同定や、音声，雑音の同定や、音響言語モ
デルを作成するに際して、話者の発話区間を同定する必
要がある。

【０００３】従来では、複数話者による発話区間を検出
するためには、予めそれぞれの話者の音声を用いて話者
登録を行なっておき、話者識別の技術を用いて話者の発
話区間を検出して同定する方法が用いられている。しか
しながら、発話区間を検出して同定するためには、事前
の登録が必要であり、任意数の未知話者の音声区間を検
出同定することができなかった。

【０００４】それゆえに、この発明の主たる目的は、任
意数の未知話者の音声区間を検出して同定できるような
音声中の複数話者の発話区間自動検出同定装置を提供す
ることである。

【０００５】

【課題を解決するための手段】請求項１に係る発明は、
入力された音声から特徴パターンを抽出する音声特徴抽
出手段と、共通符号を作成する共通符号帳作成手段と、
音声特徴抽出手段によって抽出された特徴パターンを共
通符号帳作成手段によって作成された共通符号で量子化
する量子化手段と、複数の音声区間に対して共通符号の
出現確率を算出する出現確率算出手段と、算出された出
現確率をクラスタ分析するクラスタ分析手段と、分析さ
れたそれぞれのクラスタに属する出現確率を検出し、そ
の出現確率に対応する音声区間を同定する同定手段を備
えて構成される。

【０００６】請求項２に係る発明は、複数の音声区間の
始終端が予め定められている。請求項３に係る発明は、
複数の音声区間の始終端が自動的に検出される。

【０００７】請求項４に係る発明は、話者数が予め与え
られていない場合に話者数を自動的に決定する。

【０００８】請求項５に係る発明は、話者に独立な雑音
区間に対応する雑音クラスタを有する音声中の複数話者
の発話区間の出現確率を算出する。

【０００９】請求項６に係る発明は、入力された音声か
ら特徴パターンを抽出する音声特徴抽出手段と、共通符
号を作成する共通符号帳作成手段と、抽出された特徴パ
ターンを共通符号帳作成手段によって作成された共通符
号で量子化する量子化手段と、予め与えられた初期値を
基にエルゴード隠れマルコフモデルの状態における符号
の出現確率，遷移確率および初期状態確率を更新する更
新手段と、更新の停止条件を判定する判定手段と、得ら
れたエルゴード隠れマルコフモデルを用いて音声を復号
化する手段を備えて構成される。

【００１０】請求項７に係る発明は、入力された音声か
ら特徴パターンを抽出する音声特徴抽出手段と、予め与
えられた初期値を基に混合連続分布型エルゴード隠れマ
ルコフモデルの状態における音声特徴量の出現確率，分
岐確率，遷移確率および初期状態確率を更新する更新手
段と、更新の停止条件を判定する判定手段と、得られた
混合連続分布型エルゴード隠れマルコフモデルを用いて
音声を復号化する手段を備えて構成される。

【００１１】

【作用】この発明に係る音声中の複数話者の発話区間自
動検出同定装置は、入力された音声から特徴パターンを
抽出し、抽出された特徴パターンを共通符号で量子化
し、複数の音声区間に対して共通符号の出現する確率を
算出する。出現確率の集合をクラスタ分析することによ
り、出現確率を複数個のクラスタに分割する。このと
き、予め話者数が与えられている場合は、クラスタ分析
において指定の数に達するまで分割を行ない、話者数が
未知の場合にはクラスタ分析で得られる評価基準が或る
条件を満たすとき、クラスタ分割を停止する。ここで得
られたそれぞれのクラスタに属する出現確率は同一の話
者に属するものと判定し、その出現確率を与えた音声区
間をその話者から得られたものとする。ここで、複数個
の音声区間が予め得られていない場合には、音声区間の
自動検出方法を用いて自動的に区分化することもでき
る。また、エルゴード隠れマルコフモデルを用いて、音
声区間の区分化とその区間の話者クラスタ同定とを同時
に行なうこともできる。

【００１２】

【実施例】図１はこの発明の一実施例のブロック図であ
る。図１を参照して、入力音声１は音声特徴抽出部２に
与えられ、特徴ベクトルの時系列３に変換される。共通
符号帳作成部４は予めその音声からもしくはそれとは独
立に共通符号帳５を作成し、量子化部６に与える。量子
化部６は音声特徴抽出部２から与えられた特徴ベクトル
の時系列を符号の系列７に変換する。この符号の系列７
は音声区間始終端検出部８に与えられ、音声区間始終端
検出部８は音声区間の始終端を検出し、複数個の音声区
間に分割する。この音声区間の集合９は出現確率算出部
１０に与えられ、それぞれの音声区間ごとに各符号の出
現頻度が算出され、出現確率の集合１１が作成されてク
ラスタ分析部１２に与えられる。

【００１３】クラスタ分析部１２は出現確率の集合を幾
つかのクラスタに分割する。このクラスタの数は予め指
定されている場合は、その数とすることもできる。一
方、数が指定されていない場合は、評価基準に従って数
が設定される。クラスタ分析の手段としては、たとえば
ベクトル量子化手法が用いられ、量子化歪に対するしき
い値でクラスタ分析が行なわれる。クラスタ分析部１２
で分析されたクラスタ１３は音声区間のクラス判別部１
４に与えられ、クラスタの情報を基にそのクラスタに属
する出現確率が同一の話者から発話されたものとし、そ
の出現確率に対応する音声区間が同一の話者から発話さ
れたものと検出されて同定される。

【００１４】図２はこの発明の他の実施例のブロック図
である。この図２に示した実施例は、以下の点を除いて
図１の実施例と同じである。すなわち、音声区間始終端
検出部１５は話者以外の指定された音声カテゴリ（たと
えば、日本語，英語などのような複数の言語カテゴリ）
に対応する区間の始終端を検出し、複数個の音声区間に
分割し、音声区間の集合９を作成し、以下、図１の実施
例と同様にして出現確率算出部１０で出現確率１１が算
出される。

【００１５】図３はこの発明のさらに他の実施例のブロ
ック図である。図３において、音声特徴抽出部２，共通
符号帳作成部４および量子化部６は図１および図２の実
施例と同じであり、量子化部６で変換された符号列７は
離散的エルゴードＨＭＭ（隠れマルコフモデル）算出部
１６に与えられ、パラメータ１７が推定される。このパ
ラメータ１７は音声のバックトレース部１８に与えら
れ、推定されたパラメータを基に再度エルゴードＨＭＭ
を用いて音声を符号列とステートとの最適な対応が算出
され、バックトレース情報１９が算出される。このバッ
クトレース情報１９は音声区間のステート対応部２０に
与えられ、バックトレース情報から各ステートに属する
音声区間が同一の話者から発話されたものと検出同定さ
れる。

【００１６】図４はこの発明のその他の実施例のブロッ
ク図である。この図４に示した実施例は、混合連続分布
型エルゴードＨＭＭ算出部３を用いたものである。入力
音声１は音声特徴抽出部２において、特徴ベクトルの時
系列３に変換され、混合連続分布型エルゴードＨＭＭ算
出部２３に入力され、そのパラメータ２４が推定され
る。この推定されたパラメータを基に、再度エルゴード
ＨＭＭを用いて音声のバックトレース部６によって符号
列とステートとの最適な対応が算出され、バックトレー
ス情報１９が算出される。このバックトレース情報１９
は音声区間のステート対応部２０に与えられ、バックト
レース情報１９から各ステートに属する音声区間が同一
の話者から発話されたものと検出同定される。クラスタ
の数が予め指定されている場合は、このステートの数を
その数とすることもできる。一方、数が指定されていな
い場合は評価基準に従って数を設定することができる。
１つの手段として、ＨＭＭの尤度に対するしきい値で行
なうことが可能である。

【００１７】図５はこの発明のその他の実施例のブロッ
ク図である。この図５に示した実施例も、音声特徴抽出
部２，共通符号帳作成部４および量子化部６は、図１〜
図３の実施例と同じであり、量子化部６で変換された符
号列７は音声区間および雑音区間始終端検出部２１に与
えられる。音声区間および雑音区間始終端検出部２１は
音声および雑音区間の始終端を検出し、複数個の音声区
間および雑音区間に分割し、音声および雑音区間の集合
２２を作成する。出現確率算出部１０は音声および雑音
区間の集合２２に基づいて、各符号の出現頻度を算出す
ることにより、出現確率を算出し、出現確率の集合１１
をクラスタ分析部１２に与える。

【００１８】クラスタ分析部１２はその出現確率の集合
１１で幾つかのクラスタに分割する。このクラスタの数
は予め指定されている場合は、その数とすることもで
き、一方、数が指定されていない場合は、評価基準に従
って数を設定することができる。クラスタ分析の手段と
しては、前述の図１に示した実施例と同様にして、ベク
トル量子化手法を用いる場合は、量子化歪に対するしき
い値で行なうことが可能である。音声区間のクラスタ判
別部１４はクラスタ１３の情報を基に、そのクラスタ１
３に属する出現確率を同一の話者カテゴリおよび雑音カ
テゴリから発話されたものとし、その出現確率に対する
音声，雑音区間を同一のカテゴリから生成されたものと
して検出し同定する。

【００１９】

【発明の効果】以上のように、この発明によれば、入力
された音声から特徴パターンを抽出し、特徴パターンを
共通符号で量子化し、それぞれの音声区間に対して共通
符号の出現確率を算出し、算出された出現確率をクラス
タ分析し、それぞれのクラスタに属する出現確率を検出
して対応する音声区間を同定することにより、任意数の
未知話者の音声区間を予め登録することなく検出して同
定することができる。

【図面の簡単な説明】

【図１】この発明の一実施例のブロック図である。

【図２】この発明の他の実施例のブロック図である。

【図３】この発明のさらに他の実施例のブロック図であ
る。

【図４】この発明のその他の実施例のブロック図であ
る。

【図５】この発明のさらにその他の実施例のブロック図
である。

【符号の説明】

１入力音声２音声特徴抽出部３特徴系列４共通符号帳作成部５共通符号帳６量子化部７符号列８，１５音声区間始終端検出部９音声区間の集合１０出現確率算出部１１出現確率の集合１２クラスタ分析部１３クラスタ１４音声区間のクラス判別部１６離散的エルゴードＨＭＭ算出部１７エルゴードＨＭＭパラメータ１８音声のバックトレース部１９バックトレース情報２０音声区間のステート対応部２１音声区間および雑音区間始終端検出部２３混合連続分布型エルゴードＨＭＭ算出部

Claims

【特許請求の範囲】

【請求項１】入力された音声から特徴パターンを抽出
する音声特徴抽出手段、共通符号を作成する共通符号帳作成手段、前記音声特徴抽出手段によって抽出された特徴パターン
を前記共通符号帳作成手段によって作成された共通符号
で量子化する量子化手段、複数の音声区間に対して、前記共通符号の出現確率を算
出する出現確率算出手段、前記出現確率算出手段によって算出された出現確率をク
ラスタ分析するクラスタ分析手段、および前記クラスタ
分析手段で分析されたそれぞれのクラスタに属する出現
確率を検出し、その出現確率に対応する音声区間を同定
する同定手段を備えた、音声中の複数話者の発話区間自
動検出同定装置。
【請求項２】前記複数の音声区間の始終端は、予め定
められていることを特徴とする、請求項１の音声中の複
数話者の発話区間自動検出同定装置。
【請求項３】前記複数の音声区間の始終端は自動的に
検出されることを特徴とする、請求項１の音声中の複数
話者の発話区間自動検出同定装置。
【請求項４】前記クラスタ分析手段は、話者数が予め
与えられていない場合に、話者数を自動的に決定するこ
とを特徴とする、請求項１〜３のいずれかの音声中の複
数話者の発話区間自動検出同定装置。
【請求項５】前記出現確率算出手段は、話者に独立な
雑音区間に対応する雑音クラスタを有する音声中の複数
話者の発話区間の出現確率を算出する、請求項１〜４の
いずれかの音声中の複数話者の発話区間自動検出同定装
置。
【請求項６】入力された音声から特徴パターンを抽出
する音声特徴抽出手段、共通符号を作成する共通符号帳作成手段、前記音声特徴抽出手段によって抽出された特徴パターン
を前記共通符号帳作成手段によって作成された共通符号
で量子化する量子化手段、予め与えられた初期値を基にエルゴード隠れマルコフモ
デルの状態における符号の出現確率，遷移確率および初
期状態確率を更新する更新手段、前記更新手段による更新の停止条件を判定する判定手
段、および前記得られたエルゴード隠れマルコフモデル
を用いて音声を復号化する手段を備えた、音声中の複数
話者の発話区間自動検出同定装置。
【請求項７】入力された音声から特徴パターンを抽出
する音声特徴抽出手段、予め与えられた初期値を基に混合連続分布型エルゴード
隠れマルコフモデルの状態における音声特徴量の出現確
率，分岐確率，遷移確率および初期状態確率を更新する
更新手段、前記更新手段による更新の停止条件を判定する判定手
段、および前記得られた混合連続分布型エルゴード隠れ
マルコフモデルを用いて音声を復号化する手段を備え
た、音声中の複数話者の発話区間自動検出同定装置。