JPH0683384A - 音声中の複数話者の発話区間自動検出同定装置 - Google Patents
音声中の複数話者の発話区間自動検出同定装置Info
- Publication number
- JPH0683384A JPH0683384A JP4231157A JP23115792A JPH0683384A JP H0683384 A JPH0683384 A JP H0683384A JP 4231157 A JP4231157 A JP 4231157A JP 23115792 A JP23115792 A JP 23115792A JP H0683384 A JPH0683384 A JP H0683384A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speakers
- speech
- section
- sections
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
出して同定できるような音声中の複数話者の発話区間自
動検出同定装置を提供することを主要な特徴とする。 【構成】 入力音声1を音声特徴抽出部2で特徴ベクト
ルの時系列3に変換し、量子化部6によって共通符号帳
作成部4で作成された共通符号帳5により符号の系列7
に変換し、音声区間始終端検出部8で各音声区間ごとに
各符号の出現頻度を算出し、出現確率算出部10で出現
確率の集合11を作成し、クラスタ分析部12で幾つか
のクラスタ13に分割し、そのクラスタ13の情報を基
にして音声区間のクラス判別を行なう。
Description
話区間自動検出同定装置に関し、特に、未知の複数話者
の発話区間を自動的に検出して同定するような発話区間
自動検出同定装置に関する。
中の複数者の自動検出同定や、音声中の複数言語の識別
や、非音声の同定や、音声,雑音の同定や、音響言語モ
デルを作成するに際して、話者の発話区間を同定する必
要がある。
するためには、予めそれぞれの話者の音声を用いて話者
登録を行なっておき、話者識別の技術を用いて話者の発
話区間を検出して同定する方法が用いられている。しか
しながら、発話区間を検出して同定するためには、事前
の登録が必要であり、任意数の未知話者の音声区間を検
出同定することができなかった。
意数の未知話者の音声区間を検出して同定できるような
音声中の複数話者の発話区間自動検出同定装置を提供す
ることである。
入力された音声から特徴パターンを抽出する音声特徴抽
出手段と、共通符号を作成する共通符号帳作成手段と、
音声特徴抽出手段によって抽出された特徴パターンを共
通符号帳作成手段によって作成された共通符号で量子化
する量子化手段と、複数の音声区間に対して共通符号の
出現確率を算出する出現確率算出手段と、算出された出
現確率をクラスタ分析するクラスタ分析手段と、分析さ
れたそれぞれのクラスタに属する出現確率を検出し、そ
の出現確率に対応する音声区間を同定する同定手段を備
えて構成される。
始終端が予め定められている。請求項3に係る発明は、
複数の音声区間の始終端が自動的に検出される。
られていない場合に話者数を自動的に決定する。
区間に対応する雑音クラスタを有する音声中の複数話者
の発話区間の出現確率を算出する。
ら特徴パターンを抽出する音声特徴抽出手段と、共通符
号を作成する共通符号帳作成手段と、抽出された特徴パ
ターンを共通符号帳作成手段によって作成された共通符
号で量子化する量子化手段と、予め与えられた初期値を
基にエルゴード隠れマルコフモデルの状態における符号
の出現確率,遷移確率および初期状態確率を更新する更
新手段と、更新の停止条件を判定する判定手段と、得ら
れたエルゴード隠れマルコフモデルを用いて音声を復号
化する手段を備えて構成される。
ら特徴パターンを抽出する音声特徴抽出手段と、予め与
えられた初期値を基に混合連続分布型エルゴード隠れマ
ルコフモデルの状態における音声特徴量の出現確率,分
岐確率,遷移確率および初期状態確率を更新する更新手
段と、更新の停止条件を判定する判定手段と、得られた
混合連続分布型エルゴード隠れマルコフモデルを用いて
音声を復号化する手段を備えて構成される。
動検出同定装置は、入力された音声から特徴パターンを
抽出し、抽出された特徴パターンを共通符号で量子化
し、複数の音声区間に対して共通符号の出現する確率を
算出する。出現確率の集合をクラスタ分析することによ
り、出現確率を複数個のクラスタに分割する。このと
き、予め話者数が与えられている場合は、クラスタ分析
において指定の数に達するまで分割を行ない、話者数が
未知の場合にはクラスタ分析で得られる評価基準が或る
条件を満たすとき、クラスタ分割を停止する。ここで得
られたそれぞれのクラスタに属する出現確率は同一の話
者に属するものと判定し、その出現確率を与えた音声区
間をその話者から得られたものとする。ここで、複数個
の音声区間が予め得られていない場合には、音声区間の
自動検出方法を用いて自動的に区分化することもでき
る。また、エルゴード隠れマルコフモデルを用いて、音
声区間の区分化とその区間の話者クラスタ同定とを同時
に行なうこともできる。
る。図1を参照して、入力音声1は音声特徴抽出部2に
与えられ、特徴ベクトルの時系列3に変換される。共通
符号帳作成部4は予めその音声からもしくはそれとは独
立に共通符号帳5を作成し、量子化部6に与える。量子
化部6は音声特徴抽出部2から与えられた特徴ベクトル
の時系列を符号の系列7に変換する。この符号の系列7
は音声区間始終端検出部8に与えられ、音声区間始終端
検出部8は音声区間の始終端を検出し、複数個の音声区
間に分割する。この音声区間の集合9は出現確率算出部
10に与えられ、それぞれの音声区間ごとに各符号の出
現頻度が算出され、出現確率の集合11が作成されてク
ラスタ分析部12に与えられる。
つかのクラスタに分割する。このクラスタの数は予め指
定されている場合は、その数とすることもできる。一
方、数が指定されていない場合は、評価基準に従って数
が設定される。クラスタ分析の手段としては、たとえば
ベクトル量子化手法が用いられ、量子化歪に対するしき
い値でクラスタ分析が行なわれる。クラスタ分析部12
で分析されたクラスタ13は音声区間のクラス判別部1
4に与えられ、クラスタの情報を基にそのクラスタに属
する出現確率が同一の話者から発話されたものとし、そ
の出現確率に対応する音声区間が同一の話者から発話さ
れたものと検出されて同定される。
である。この図2に示した実施例は、以下の点を除いて
図1の実施例と同じである。すなわち、音声区間始終端
検出部15は話者以外の指定された音声カテゴリ(たと
えば、日本語,英語などのような複数の言語カテゴリ)
に対応する区間の始終端を検出し、複数個の音声区間に
分割し、音声区間の集合9を作成し、以下、図1の実施
例と同様にして出現確率算出部10で出現確率11が算
出される。
ック図である。図3において、音声特徴抽出部2,共通
符号帳作成部4および量子化部6は図1および図2の実
施例と同じであり、量子化部6で変換された符号列7は
離散的エルゴードHMM(隠れマルコフモデル)算出部
16に与えられ、パラメータ17が推定される。このパ
ラメータ17は音声のバックトレース部18に与えら
れ、推定されたパラメータを基に再度エルゴードHMM
を用いて音声を符号列とステートとの最適な対応が算出
され、バックトレース情報19が算出される。このバッ
クトレース情報19は音声区間のステート対応部20に
与えられ、バックトレース情報から各ステートに属する
音声区間が同一の話者から発話されたものと検出同定さ
れる。
ク図である。この図4に示した実施例は、混合連続分布
型エルゴードHMM算出部3を用いたものである。入力
音声1は音声特徴抽出部2において、特徴ベクトルの時
系列3に変換され、混合連続分布型エルゴードHMM算
出部23に入力され、そのパラメータ24が推定され
る。この推定されたパラメータを基に、再度エルゴード
HMMを用いて音声のバックトレース部6によって符号
列とステートとの最適な対応が算出され、バックトレー
ス情報19が算出される。このバックトレース情報19
は音声区間のステート対応部20に与えられ、バックト
レース情報19から各ステートに属する音声区間が同一
の話者から発話されたものと検出同定される。クラスタ
の数が予め指定されている場合は、このステートの数を
その数とすることもできる。一方、数が指定されていな
い場合は評価基準に従って数を設定することができる。
1つの手段として、HMMの尤度に対するしきい値で行
なうことが可能である。
ク図である。この図5に示した実施例も、音声特徴抽出
部2,共通符号帳作成部4および量子化部6は、図1〜
図3の実施例と同じであり、量子化部6で変換された符
号列7は音声区間および雑音区間始終端検出部21に与
えられる。音声区間および雑音区間始終端検出部21は
音声および雑音区間の始終端を検出し、複数個の音声区
間および雑音区間に分割し、音声および雑音区間の集合
22を作成する。出現確率算出部10は音声および雑音
区間の集合22に基づいて、各符号の出現頻度を算出す
ることにより、出現確率を算出し、出現確率の集合11
をクラスタ分析部12に与える。
11で幾つかのクラスタに分割する。このクラスタの数
は予め指定されている場合は、その数とすることもで
き、一方、数が指定されていない場合は、評価基準に従
って数を設定することができる。クラスタ分析の手段と
しては、前述の図1に示した実施例と同様にして、ベク
トル量子化手法を用いる場合は、量子化歪に対するしき
い値で行なうことが可能である。音声区間のクラスタ判
別部14はクラスタ13の情報を基に、そのクラスタ1
3に属する出現確率を同一の話者カテゴリおよび雑音カ
テゴリから発話されたものとし、その出現確率に対する
音声,雑音区間を同一のカテゴリから生成されたものと
して検出し同定する。
された音声から特徴パターンを抽出し、特徴パターンを
共通符号で量子化し、それぞれの音声区間に対して共通
符号の出現確率を算出し、算出された出現確率をクラス
タ分析し、それぞれのクラスタに属する出現確率を検出
して対応する音声区間を同定することにより、任意数の
未知話者の音声区間を予め登録することなく検出して同
定することができる。
る。
る。
である。
Claims (7)
- 【請求項1】 入力された音声から特徴パターンを抽出
する音声特徴抽出手段、 共通符号を作成する共通符号帳作成手段、 前記音声特徴抽出手段によって抽出された特徴パターン
を前記共通符号帳作成手段によって作成された共通符号
で量子化する量子化手段、 複数の音声区間に対して、前記共通符号の出現確率を算
出する出現確率算出手段、 前記出現確率算出手段によって算出された出現確率をク
ラスタ分析するクラスタ分析手段、および前記クラスタ
分析手段で分析されたそれぞれのクラスタに属する出現
確率を検出し、その出現確率に対応する音声区間を同定
する同定手段を備えた、音声中の複数話者の発話区間自
動検出同定装置。 - 【請求項2】 前記複数の音声区間の始終端は、予め定
められていることを特徴とする、請求項1の音声中の複
数話者の発話区間自動検出同定装置。 - 【請求項3】 前記複数の音声区間の始終端は自動的に
検出されることを特徴とする、請求項1の音声中の複数
話者の発話区間自動検出同定装置。 - 【請求項4】 前記クラスタ分析手段は、話者数が予め
与えられていない場合に、話者数を自動的に決定するこ
とを特徴とする、請求項1〜3のいずれかの音声中の複
数話者の発話区間自動検出同定装置。 - 【請求項5】 前記出現確率算出手段は、話者に独立な
雑音区間に対応する雑音クラスタを有する音声中の複数
話者の発話区間の出現確率を算出する、請求項1〜4の
いずれかの音声中の複数話者の発話区間自動検出同定装
置。 - 【請求項6】 入力された音声から特徴パターンを抽出
する音声特徴抽出手段、 共通符号を作成する共通符号帳作成手段、 前記音声特徴抽出手段によって抽出された特徴パターン
を前記共通符号帳作成手段によって作成された共通符号
で量子化する量子化手段、 予め与えられた初期値を基にエルゴード隠れマルコフモ
デルの状態における符号の出現確率,遷移確率および初
期状態確率を更新する更新手段、 前記更新手段による更新の停止条件を判定する判定手
段、および前記得られたエルゴード隠れマルコフモデル
を用いて音声を復号化する手段を備えた、音声中の複数
話者の発話区間自動検出同定装置。 - 【請求項7】 入力された音声から特徴パターンを抽出
する音声特徴抽出手段、 予め与えられた初期値を基に混合連続分布型エルゴード
隠れマルコフモデルの状態における音声特徴量の出現確
率,分岐確率,遷移確率および初期状態確率を更新する
更新手段、 前記更新手段による更新の停止条件を判定する判定手
段、および前記得られた混合連続分布型エルゴード隠れ
マルコフモデルを用いて音声を復号化する手段を備え
た、音声中の複数話者の発話区間自動検出同定装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4231157A JPH071438B2 (ja) | 1992-08-31 | 1992-08-31 | 音声中の複数話者の発話区間自動検出同定装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4231157A JPH071438B2 (ja) | 1992-08-31 | 1992-08-31 | 音声中の複数話者の発話区間自動検出同定装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0683384A true JPH0683384A (ja) | 1994-03-25 |
JPH071438B2 JPH071438B2 (ja) | 1995-01-11 |
Family
ID=16919198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4231157A Expired - Lifetime JPH071438B2 (ja) | 1992-08-31 | 1992-08-31 | 音声中の複数話者の発話区間自動検出同定装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH071438B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002236494A (ja) * | 2001-02-09 | 2002-08-23 | Denso Corp | 音声区間判別装置、音声認識装置、プログラム及び記録媒体 |
CN111429935A (zh) * | 2020-02-28 | 2020-07-17 | 北京捷通华声科技股份有限公司 | 一种语音话者分离方法和装置 |
WO2021156946A1 (ja) * | 2020-02-04 | 2021-08-12 | 三菱電機株式会社 | 音声分離装置及び音声分離方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6392950B1 (ja) * | 2017-08-03 | 2018-09-19 | ヤフー株式会社 | 検出装置、検出方法、および検出プログラム |
-
1992
- 1992-08-31 JP JP4231157A patent/JPH071438B2/ja not_active Expired - Lifetime
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002236494A (ja) * | 2001-02-09 | 2002-08-23 | Denso Corp | 音声区間判別装置、音声認識装置、プログラム及び記録媒体 |
WO2021156946A1 (ja) * | 2020-02-04 | 2021-08-12 | 三菱電機株式会社 | 音声分離装置及び音声分離方法 |
CN111429935A (zh) * | 2020-02-28 | 2020-07-17 | 北京捷通华声科技股份有限公司 | 一种语音话者分离方法和装置 |
CN111429935B (zh) * | 2020-02-28 | 2023-08-29 | 北京捷通华声科技股份有限公司 | 一种语音话者分离方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
JPH071438B2 (ja) | 1995-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2048656B1 (en) | Speaker recognition | |
EP0788090B1 (en) | Transcription of speech data with segments from acoustically dissimilar environments | |
US6029124A (en) | Sequential, nonparametric speech recognition and speaker identification | |
CA2060591C (en) | Speaker-independent label coding apparatus | |
EP0691022B1 (en) | Speech recognition with pause detection | |
US5025471A (en) | Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns | |
KR100766761B1 (ko) | 화자-독립형 보이스 인식 시스템용 보이스 템플릿을구성하는 방법 및 장치 | |
US8069039B2 (en) | Sound signal processing apparatus and program | |
JPH11511567A (ja) | パターン認識 | |
CN106847259B (zh) | 一种音频关键词模板的筛选和优化方法 | |
JP3298858B2 (ja) | 低複雑性スピーチ認識器の区分ベースの類似性方法 | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
JPH0792988A (ja) | 音声検出装置と映像切り替え装置 | |
US20020042709A1 (en) | Method and device for analyzing a spoken sequence of numbers | |
JPH0683384A (ja) | 音声中の複数話者の発話区間自動検出同定装置 | |
KR100391123B1 (ko) | 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템 | |
EP0177854B1 (en) | Keyword recognition system using template-concatenation model | |
CN114299962A (zh) | 基于音频流的对话角色分离方法、系统、设备及存储介质 | |
EP1063634A2 (en) | System for recognizing utterances alternately spoken by plural speakers with an improved recognition accuracy | |
JP3036509B2 (ja) | 話者照合における閾値決定方法及び装置 | |
JP4807261B2 (ja) | 音声処理装置およびプログラム | |
Charnvivit et al. | F0 feature extraction by polynomial regression function for monosyllabic Thai tone recognition. | |
JP2004510209A (ja) | 発声された番号シーケンスの分析方法及び装置 | |
JPH05249987A (ja) | 音声検出方法および音声検出装置 | |
WO1997037345A1 (en) | Speech processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19950711 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080111 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090111 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100111 Year of fee payment: 15 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110111 Year of fee payment: 16 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120111 Year of fee payment: 17 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130111 Year of fee payment: 18 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130111 Year of fee payment: 18 |