Nothing Special   »   [go: up one dir, main page]

JPH0683384A - 音声中の複数話者の発話区間自動検出同定装置 - Google Patents

音声中の複数話者の発話区間自動検出同定装置

Info

Publication number
JPH0683384A
JPH0683384A JP4231157A JP23115792A JPH0683384A JP H0683384 A JPH0683384 A JP H0683384A JP 4231157 A JP4231157 A JP 4231157A JP 23115792 A JP23115792 A JP 23115792A JP H0683384 A JPH0683384 A JP H0683384A
Authority
JP
Japan
Prior art keywords
voice
speakers
speech
section
sections
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4231157A
Other languages
English (en)
Other versions
JPH071438B2 (ja
Inventor
Masahide Sugiyama
雅英 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
A T R JIDO HONYAKU DENWA KENKYUSHO KK
ATR JIDO HONYAKU DENWA
Original Assignee
A T R JIDO HONYAKU DENWA KENKYUSHO KK
ATR JIDO HONYAKU DENWA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A T R JIDO HONYAKU DENWA KENKYUSHO KK, ATR JIDO HONYAKU DENWA filed Critical A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority to JP4231157A priority Critical patent/JPH071438B2/ja
Publication of JPH0683384A publication Critical patent/JPH0683384A/ja
Publication of JPH071438B2 publication Critical patent/JPH071438B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 この発明は任意数の未知話者の音声区間を検
出して同定できるような音声中の複数話者の発話区間自
動検出同定装置を提供することを主要な特徴とする。 【構成】 入力音声1を音声特徴抽出部2で特徴ベクト
ルの時系列3に変換し、量子化部6によって共通符号帳
作成部4で作成された共通符号帳5により符号の系列7
に変換し、音声区間始終端検出部8で各音声区間ごとに
各符号の出現頻度を算出し、出現確率算出部10で出現
確率の集合11を作成し、クラスタ分析部12で幾つか
のクラスタ13に分割し、そのクラスタ13の情報を基
にして音声区間のクラス判別を行なう。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は音声中の複数話者の発
話区間自動検出同定装置に関し、特に、未知の複数話者
の発話区間を自動的に検出して同定するような発話区間
自動検出同定装置に関する。
【0002】
【従来の技術および発明が解決しようとする課題】音声
中の複数者の自動検出同定や、音声中の複数言語の識別
や、非音声の同定や、音声,雑音の同定や、音響言語モ
デルを作成するに際して、話者の発話区間を同定する必
要がある。
【0003】従来では、複数話者による発話区間を検出
するためには、予めそれぞれの話者の音声を用いて話者
登録を行なっておき、話者識別の技術を用いて話者の発
話区間を検出して同定する方法が用いられている。しか
しながら、発話区間を検出して同定するためには、事前
の登録が必要であり、任意数の未知話者の音声区間を検
出同定することができなかった。
【0004】それゆえに、この発明の主たる目的は、任
意数の未知話者の音声区間を検出して同定できるような
音声中の複数話者の発話区間自動検出同定装置を提供す
ることである。
【0005】
【課題を解決するための手段】請求項1に係る発明は、
入力された音声から特徴パターンを抽出する音声特徴抽
出手段と、共通符号を作成する共通符号帳作成手段と、
音声特徴抽出手段によって抽出された特徴パターンを共
通符号帳作成手段によって作成された共通符号で量子化
する量子化手段と、複数の音声区間に対して共通符号の
出現確率を算出する出現確率算出手段と、算出された出
現確率をクラスタ分析するクラスタ分析手段と、分析さ
れたそれぞれのクラスタに属する出現確率を検出し、そ
の出現確率に対応する音声区間を同定する同定手段を備
えて構成される。
【0006】請求項2に係る発明は、複数の音声区間の
始終端が予め定められている。請求項3に係る発明は、
複数の音声区間の始終端が自動的に検出される。
【0007】請求項4に係る発明は、話者数が予め与え
られていない場合に話者数を自動的に決定する。
【0008】請求項5に係る発明は、話者に独立な雑音
区間に対応する雑音クラスタを有する音声中の複数話者
の発話区間の出現確率を算出する。
【0009】請求項6に係る発明は、入力された音声か
ら特徴パターンを抽出する音声特徴抽出手段と、共通符
号を作成する共通符号帳作成手段と、抽出された特徴パ
ターンを共通符号帳作成手段によって作成された共通符
号で量子化する量子化手段と、予め与えられた初期値を
基にエルゴード隠れマルコフモデルの状態における符号
の出現確率,遷移確率および初期状態確率を更新する更
新手段と、更新の停止条件を判定する判定手段と、得ら
れたエルゴード隠れマルコフモデルを用いて音声を復号
化する手段を備えて構成される。
【0010】請求項7に係る発明は、入力された音声か
ら特徴パターンを抽出する音声特徴抽出手段と、予め与
えられた初期値を基に混合連続分布型エルゴード隠れマ
ルコフモデルの状態における音声特徴量の出現確率,分
岐確率,遷移確率および初期状態確率を更新する更新手
段と、更新の停止条件を判定する判定手段と、得られた
混合連続分布型エルゴード隠れマルコフモデルを用いて
音声を復号化する手段を備えて構成される。
【0011】
【作用】この発明に係る音声中の複数話者の発話区間自
動検出同定装置は、入力された音声から特徴パターンを
抽出し、抽出された特徴パターンを共通符号で量子化
し、複数の音声区間に対して共通符号の出現する確率を
算出する。出現確率の集合をクラスタ分析することによ
り、出現確率を複数個のクラスタに分割する。このと
き、予め話者数が与えられている場合は、クラスタ分析
において指定の数に達するまで分割を行ない、話者数が
未知の場合にはクラスタ分析で得られる評価基準が或る
条件を満たすとき、クラスタ分割を停止する。ここで得
られたそれぞれのクラスタに属する出現確率は同一の話
者に属するものと判定し、その出現確率を与えた音声区
間をその話者から得られたものとする。ここで、複数個
の音声区間が予め得られていない場合には、音声区間の
自動検出方法を用いて自動的に区分化することもでき
る。また、エルゴード隠れマルコフモデルを用いて、音
声区間の区分化とその区間の話者クラスタ同定とを同時
に行なうこともできる。
【0012】
【実施例】図1はこの発明の一実施例のブロック図であ
る。図1を参照して、入力音声1は音声特徴抽出部2に
与えられ、特徴ベクトルの時系列3に変換される。共通
符号帳作成部4は予めその音声からもしくはそれとは独
立に共通符号帳5を作成し、量子化部6に与える。量子
化部6は音声特徴抽出部2から与えられた特徴ベクトル
の時系列を符号の系列7に変換する。この符号の系列7
は音声区間始終端検出部8に与えられ、音声区間始終端
検出部8は音声区間の始終端を検出し、複数個の音声区
間に分割する。この音声区間の集合9は出現確率算出部
10に与えられ、それぞれの音声区間ごとに各符号の出
現頻度が算出され、出現確率の集合11が作成されてク
ラスタ分析部12に与えられる。
【0013】クラスタ分析部12は出現確率の集合を幾
つかのクラスタに分割する。このクラスタの数は予め指
定されている場合は、その数とすることもできる。一
方、数が指定されていない場合は、評価基準に従って数
が設定される。クラスタ分析の手段としては、たとえば
ベクトル量子化手法が用いられ、量子化歪に対するしき
い値でクラスタ分析が行なわれる。クラスタ分析部12
で分析されたクラスタ13は音声区間のクラス判別部1
4に与えられ、クラスタの情報を基にそのクラスタに属
する出現確率が同一の話者から発話されたものとし、そ
の出現確率に対応する音声区間が同一の話者から発話さ
れたものと検出されて同定される。
【0014】図2はこの発明の他の実施例のブロック図
である。この図2に示した実施例は、以下の点を除いて
図1の実施例と同じである。すなわち、音声区間始終端
検出部15は話者以外の指定された音声カテゴリ(たと
えば、日本語,英語などのような複数の言語カテゴリ)
に対応する区間の始終端を検出し、複数個の音声区間に
分割し、音声区間の集合9を作成し、以下、図1の実施
例と同様にして出現確率算出部10で出現確率11が算
出される。
【0015】図3はこの発明のさらに他の実施例のブロ
ック図である。図3において、音声特徴抽出部2,共通
符号帳作成部4および量子化部6は図1および図2の実
施例と同じであり、量子化部6で変換された符号列7は
離散的エルゴードHMM(隠れマルコフモデル)算出部
16に与えられ、パラメータ17が推定される。このパ
ラメータ17は音声のバックトレース部18に与えら
れ、推定されたパラメータを基に再度エルゴードHMM
を用いて音声を符号列とステートとの最適な対応が算出
され、バックトレース情報19が算出される。このバッ
クトレース情報19は音声区間のステート対応部20に
与えられ、バックトレース情報から各ステートに属する
音声区間が同一の話者から発話されたものと検出同定さ
れる。
【0016】図4はこの発明のその他の実施例のブロッ
ク図である。この図4に示した実施例は、混合連続分布
型エルゴードHMM算出部3を用いたものである。入力
音声1は音声特徴抽出部2において、特徴ベクトルの時
系列3に変換され、混合連続分布型エルゴードHMM算
出部23に入力され、そのパラメータ24が推定され
る。この推定されたパラメータを基に、再度エルゴード
HMMを用いて音声のバックトレース部6によって符号
列とステートとの最適な対応が算出され、バックトレー
ス情報19が算出される。このバックトレース情報19
は音声区間のステート対応部20に与えられ、バックト
レース情報19から各ステートに属する音声区間が同一
の話者から発話されたものと検出同定される。クラスタ
の数が予め指定されている場合は、このステートの数を
その数とすることもできる。一方、数が指定されていな
い場合は評価基準に従って数を設定することができる。
1つの手段として、HMMの尤度に対するしきい値で行
なうことが可能である。
【0017】図5はこの発明のその他の実施例のブロッ
ク図である。この図5に示した実施例も、音声特徴抽出
部2,共通符号帳作成部4および量子化部6は、図1〜
図3の実施例と同じであり、量子化部6で変換された符
号列7は音声区間および雑音区間始終端検出部21に与
えられる。音声区間および雑音区間始終端検出部21は
音声および雑音区間の始終端を検出し、複数個の音声区
間および雑音区間に分割し、音声および雑音区間の集合
22を作成する。出現確率算出部10は音声および雑音
区間の集合22に基づいて、各符号の出現頻度を算出す
ることにより、出現確率を算出し、出現確率の集合11
をクラスタ分析部12に与える。
【0018】クラスタ分析部12はその出現確率の集合
11で幾つかのクラスタに分割する。このクラスタの数
は予め指定されている場合は、その数とすることもで
き、一方、数が指定されていない場合は、評価基準に従
って数を設定することができる。クラスタ分析の手段と
しては、前述の図1に示した実施例と同様にして、ベク
トル量子化手法を用いる場合は、量子化歪に対するしき
い値で行なうことが可能である。音声区間のクラスタ判
別部14はクラスタ13の情報を基に、そのクラスタ1
3に属する出現確率を同一の話者カテゴリおよび雑音カ
テゴリから発話されたものとし、その出現確率に対する
音声,雑音区間を同一のカテゴリから生成されたものと
して検出し同定する。
【0019】
【発明の効果】以上のように、この発明によれば、入力
された音声から特徴パターンを抽出し、特徴パターンを
共通符号で量子化し、それぞれの音声区間に対して共通
符号の出現確率を算出し、算出された出現確率をクラス
タ分析し、それぞれのクラスタに属する出現確率を検出
して対応する音声区間を同定することにより、任意数の
未知話者の音声区間を予め登録することなく検出して同
定することができる。
【図面の簡単な説明】
【図1】この発明の一実施例のブロック図である。
【図2】この発明の他の実施例のブロック図である。
【図3】この発明のさらに他の実施例のブロック図であ
る。
【図4】この発明のその他の実施例のブロック図であ
る。
【図5】この発明のさらにその他の実施例のブロック図
である。
【符号の説明】
1 入力音声 2 音声特徴抽出部 3 特徴系列 4 共通符号帳作成部 5 共通符号帳 6 量子化部 7 符号列 8,15 音声区間始終端検出部 9 音声区間の集合 10 出現確率算出部 11 出現確率の集合 12 クラスタ分析部 13 クラスタ 14 音声区間のクラス判別部 16 離散的エルゴードHMM算出部 17 エルゴードHMMパラメータ 18 音声のバックトレース部 19 バックトレース情報 20 音声区間のステート対応部 21 音声区間および雑音区間始終端検出部 23 混合連続分布型エルゴードHMM算出部

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声から特徴パターンを抽出
    する音声特徴抽出手段、 共通符号を作成する共通符号帳作成手段、 前記音声特徴抽出手段によって抽出された特徴パターン
    を前記共通符号帳作成手段によって作成された共通符号
    で量子化する量子化手段、 複数の音声区間に対して、前記共通符号の出現確率を算
    出する出現確率算出手段、 前記出現確率算出手段によって算出された出現確率をク
    ラスタ分析するクラスタ分析手段、および前記クラスタ
    分析手段で分析されたそれぞれのクラスタに属する出現
    確率を検出し、その出現確率に対応する音声区間を同定
    する同定手段を備えた、音声中の複数話者の発話区間自
    動検出同定装置。
  2. 【請求項2】 前記複数の音声区間の始終端は、予め定
    められていることを特徴とする、請求項1の音声中の複
    数話者の発話区間自動検出同定装置。
  3. 【請求項3】 前記複数の音声区間の始終端は自動的に
    検出されることを特徴とする、請求項1の音声中の複数
    話者の発話区間自動検出同定装置。
  4. 【請求項4】 前記クラスタ分析手段は、話者数が予め
    与えられていない場合に、話者数を自動的に決定するこ
    とを特徴とする、請求項1〜3のいずれかの音声中の複
    数話者の発話区間自動検出同定装置。
  5. 【請求項5】 前記出現確率算出手段は、話者に独立な
    雑音区間に対応する雑音クラスタを有する音声中の複数
    話者の発話区間の出現確率を算出する、請求項1〜4の
    いずれかの音声中の複数話者の発話区間自動検出同定装
    置。
  6. 【請求項6】 入力された音声から特徴パターンを抽出
    する音声特徴抽出手段、 共通符号を作成する共通符号帳作成手段、 前記音声特徴抽出手段によって抽出された特徴パターン
    を前記共通符号帳作成手段によって作成された共通符号
    で量子化する量子化手段、 予め与えられた初期値を基にエルゴード隠れマルコフモ
    デルの状態における符号の出現確率,遷移確率および初
    期状態確率を更新する更新手段、 前記更新手段による更新の停止条件を判定する判定手
    段、および前記得られたエルゴード隠れマルコフモデル
    を用いて音声を復号化する手段を備えた、音声中の複数
    話者の発話区間自動検出同定装置。
  7. 【請求項7】 入力された音声から特徴パターンを抽出
    する音声特徴抽出手段、 予め与えられた初期値を基に混合連続分布型エルゴード
    隠れマルコフモデルの状態における音声特徴量の出現確
    率,分岐確率,遷移確率および初期状態確率を更新する
    更新手段、 前記更新手段による更新の停止条件を判定する判定手
    段、および前記得られた混合連続分布型エルゴード隠れ
    マルコフモデルを用いて音声を復号化する手段を備え
    た、音声中の複数話者の発話区間自動検出同定装置。
JP4231157A 1992-08-31 1992-08-31 音声中の複数話者の発話区間自動検出同定装置 Expired - Lifetime JPH071438B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4231157A JPH071438B2 (ja) 1992-08-31 1992-08-31 音声中の複数話者の発話区間自動検出同定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4231157A JPH071438B2 (ja) 1992-08-31 1992-08-31 音声中の複数話者の発話区間自動検出同定装置

Publications (2)

Publication Number Publication Date
JPH0683384A true JPH0683384A (ja) 1994-03-25
JPH071438B2 JPH071438B2 (ja) 1995-01-11

Family

ID=16919198

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4231157A Expired - Lifetime JPH071438B2 (ja) 1992-08-31 1992-08-31 音声中の複数話者の発話区間自動検出同定装置

Country Status (1)

Country Link
JP (1) JPH071438B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002236494A (ja) * 2001-02-09 2002-08-23 Denso Corp 音声区間判別装置、音声認識装置、プログラム及び記録媒体
CN111429935A (zh) * 2020-02-28 2020-07-17 北京捷通华声科技股份有限公司 一种语音话者分离方法和装置
WO2021156946A1 (ja) * 2020-02-04 2021-08-12 三菱電機株式会社 音声分離装置及び音声分離方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6392950B1 (ja) * 2017-08-03 2018-09-19 ヤフー株式会社 検出装置、検出方法、および検出プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002236494A (ja) * 2001-02-09 2002-08-23 Denso Corp 音声区間判別装置、音声認識装置、プログラム及び記録媒体
WO2021156946A1 (ja) * 2020-02-04 2021-08-12 三菱電機株式会社 音声分離装置及び音声分離方法
CN111429935A (zh) * 2020-02-28 2020-07-17 北京捷通华声科技股份有限公司 一种语音话者分离方法和装置
CN111429935B (zh) * 2020-02-28 2023-08-29 北京捷通华声科技股份有限公司 一种语音话者分离方法和装置

Also Published As

Publication number Publication date
JPH071438B2 (ja) 1995-01-11

Similar Documents

Publication Publication Date Title
EP2048656B1 (en) Speaker recognition
EP0788090B1 (en) Transcription of speech data with segments from acoustically dissimilar environments
US6029124A (en) Sequential, nonparametric speech recognition and speaker identification
CA2060591C (en) Speaker-independent label coding apparatus
EP0691022B1 (en) Speech recognition with pause detection
US5025471A (en) Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
KR100766761B1 (ko) 화자-독립형 보이스 인식 시스템용 보이스 템플릿을구성하는 방법 및 장치
US8069039B2 (en) Sound signal processing apparatus and program
JPH11511567A (ja) パターン認識
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
JP5050698B2 (ja) 音声処理装置およびプログラム
JPH0792988A (ja) 音声検出装置と映像切り替え装置
US20020042709A1 (en) Method and device for analyzing a spoken sequence of numbers
JPH0683384A (ja) 音声中の複数話者の発話区間自動検出同定装置
KR100391123B1 (ko) 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템
EP0177854B1 (en) Keyword recognition system using template-concatenation model
CN114299962A (zh) 基于音频流的对话角色分离方法、系统、设备及存储介质
EP1063634A2 (en) System for recognizing utterances alternately spoken by plural speakers with an improved recognition accuracy
JP3036509B2 (ja) 話者照合における閾値決定方法及び装置
JP4807261B2 (ja) 音声処理装置およびプログラム
Charnvivit et al. F0 feature extraction by polynomial regression function for monosyllabic Thai tone recognition.
JP2004510209A (ja) 発声された番号シーケンスの分析方法及び装置
JPH05249987A (ja) 音声検出方法および音声検出装置
WO1997037345A1 (en) Speech processing

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19950711

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080111

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090111

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100111

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110111

Year of fee payment: 16

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120111

Year of fee payment: 17

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130111

Year of fee payment: 18

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130111

Year of fee payment: 18