JPWO2016152132A1 - 音声処理装置、音声処理システム、音声処理方法、およびプログラム - Google Patents
音声処理装置、音声処理システム、音声処理方法、およびプログラム Download PDFInfo
- Publication number
- JPWO2016152132A1 JPWO2016152132A1 JP2017507495A JP2017507495A JPWO2016152132A1 JP WO2016152132 A1 JPWO2016152132 A1 JP WO2016152132A1 JP 2017507495 A JP2017507495 A JP 2017507495A JP 2017507495 A JP2017507495 A JP 2017507495A JP WO2016152132 A1 JPWO2016152132 A1 JP WO2016152132A1
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- segments
- voice
- unit
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 153
- 238000003672 processing method Methods 0.000 title claims description 8
- 239000000284 extract Substances 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000010606 normalization Methods 0.000 claims description 65
- 238000000034 method Methods 0.000 claims description 43
- 230000008569 process Effects 0.000 claims description 10
- 238000003860 storage Methods 0.000 description 54
- 238000013500 data storage Methods 0.000 description 40
- 238000010586 diagram Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
以下、本発明を実施するための第1の形態(以降、「第1の実施形態」と記載)について図面を参照して詳細に説明する。
図1は、本発明の第1の実施形態における音声処理装置10の構成例を示すブロック図である。図1を参照すると、本発明の第1の実施形態における音声処理装置10は、生成部11、クラスタリング部12、選択部13、および抽出部14を備える。ここで、生成部11は、第1の生成部とも記載する。クラスタリング部12は、第2の生成部とも記載する。
図3を用いて、本実施形態の動作について説明する。図3は、本発明の第1の実施形態における音声処理装置10の動作例を示すフローチャートである。
以上のように、本実施形態に係る音声処理装置10よれば、生成部11が音声データから、隣接するセグメントが少なくとも一部重複するように、複数のセグメントを生成し、クラスタリング部12が音韻の類似性に基づき、複数のセグメントを分類してクラスタを生成する。そして、本実施形態に係る音声処理装置10によれば、選択部13がクラスタの中から、各クラスタのサイズに基づき少なくとも1つのクラスタを選択する。更に、本実施形態における音声処理装置10によれば、抽出部14が選択されたクラスタに含まれるセグメントを抽出するため、音声データの中から所望のフレーズに該当する部分のセグメントを抽出することが可能となる。その理由は、生成部11が音声データから隣接するセグメントが少なくとも一部が重複するように複数のセグメントを生成しているため、単語よりも短い語から単語よりも長いフレーズを1つのセグメントとして生成できるからである。
以下、本発明の第2の実施形態について図面を参照して詳細に説明する。
図5は、本発明の第2の実施形態に係る音声処理装置20の構成例を示すブロック図である。図5を参照すると、本発明の第2の実施形態に係る音声処理装置20は、正規化学習部15、音声データ正規化部16、音声データ処理部17、第1〜第Nの音声データ記憶部(101−1〜101−N(Nは正の整数))、不特定音響モデル記憶部102、及び第1〜第Nのパラメタ記憶部(103−1〜103−N(Nは正の整数))を備える。
ここで、正規化学習部15は、第3の生成部とも記載する。なお、本実施の形態では、第1〜第Nの音声データ記憶部(101−1〜101−N)の夫々を区別しない場合、または、総称する場合には、音声データ記憶部101と呼ぶ。また、第1〜第Nのパラメタ記憶部(103−1〜103−N)の夫々を区別しない場合、または、総称する場合には、パラメタ記憶部103と呼ぶ。
音響モデルは、音響特徴量の平均ベクトルμiによって各音韻iを規定するが、正規化学習では平均ベクトルが音声データの性質によって変わり得るとする。即ち、本実施の形態では、平均ベクトル(不特定音響モデル)μiを、以下の式(1)のようなアフィン変換(affine transformation)で表現する。
図6を用いて、本実施形態の動作について説明する。図6は、本発明の第2の実施形態における音声処理装置20の動作例を示すフローチャートである。ここで、図6が示すように、本実施形態における音声データ処理部17の動作、すなわちステップS204からステップS208は、第1の実施形態における音声処理装置10の動作、すなわちステップS101乃至ステップS105と同様であるため、説明を省略する。
以上のように、本実施形態における音声処理装置20よれば、正規化学習部15が音声データ記憶部101から各々音声データを読み出し、正規化学習を行って、各々の音声データの正規化パラメタをパラメタ記憶部103に記憶する。正規化学習部15が正規化を行って各々の音声データの音響的な性質の差異を解消した上で生成した不特定音響モデルを不特定音響モデル記憶部102に記憶する。また、音声データ正規化部16がパラメタ記憶部103に記憶された正規化パラメタを参照し、それぞれ音声データ記憶部101に記憶された音声データを正規化する。音声データ処理部17が正規化された音声データ中に頻出するフレーズを含むセグメントを出力する。そのため、本実施形態における音声処理装置20は、正規化されていない音声データを正規化し、所望のフレーズを選定することが可能である。
以下、本発明の第3の実施形態について図面を参照して詳細に説明する。
図7は、本発明の第3の実施形態における音声処理装置30の構成例を示すブロック図である。図7を参照すると、本発明の第3の実施形態における音声処理装置30は、第2の実施形態における音声処理装置20の構成に加え、未分類音声データ記憶部104と、音声データ分類部18と、を備える。ここで、第2の実施形態における音声処理装置20の構成は既に説明しているため、説明を省略する。また、音声データ分類部18は、第4の生成部とも記載する。
図8を用いて、本実施形態の動作について説明する。図8は、本発明の第3の実施形態における音声処理装置30の動作例を示すフローチャートである。ここで、図8が示すように、本実施形態における音声データ処理部17の動作、すなわちステップS306からステップS310は、第1の実施形態における音声処理装置10の動作、すなわちステップS101乃至ステップS105と同様であるため、説明を省略する。
以上のように、本実施形態における音声処理装置30によれば、音声データ分類部18が、音声データ記憶部104が記憶する音声データを音響的な性質に基づいて分類し、音声データ記憶部101に記憶する。そして、正規化学習部15が、音声データ記憶部101から各々音声データを読み出し、正規化学習を行って、各々の音声データの正規化パラメタをパラメタ記憶部103に記憶する。正規化学習部15が正規化を行って各々の音声データの音響的な性質の差異を解消した上で生成した不特定音響モデルを不特定音響モデル記憶部102に記憶する。音声データ正規化部16がパラメタ記憶部103に記憶された正規化パラメタを参照し、それぞれ音声データ記憶部101に記憶された音声データを正規化する。音声データ処理部17が正規化された音声データ中に頻出するフレーズを含むセグメントを出力する。そのため、本実施形態における音声処理装置30は、分類および正規化されていない音声データを分類および正規化し、所望のフレーズを選定することが可能である。
[構成の説明]
以下、本発明の第4の実施形態について図面を参照して詳細に説明する。
以下、本発明の第4の実施形態における音声処理システム40の動作例について説明する。
以上のように、本実施形態における音声処理システム40によれば、指示入力装置43が操作者から入力される指示情報に応じて、音声処理装置41に処理を実行するよう制御する。音声入力装置42が任意の音声データを音声処理装置41に入力する。音声処理装置42が入力された音声データに基づき、本発明の第1乃至第3の実施形態に記載のフレーズ抽出を実行し、頻繁に出現するフレーズ(セグメント)を含んだクラスタを選択し、さらに選択されたクラスタに含まれるセグメントを抽出する。出力装置44が音声処理装置41の処理結果を、操作者が指示入力装置43から入力した指示に応じて視覚的あるいは聴覚的手段で出力する。そのため、本実施形態における音声処理システム40は、音声データに含まれる頻繁に出現するフレーズを含むクラスタやセグメントを出力することが可能である。
以下、本発明の第1の実施形態の具体例を説明する。図10乃至図12を用いて、音声処理装置10が音声データからフレーズを抽出する一例を説明する。
11 生成部
12 クラスタリング部
13 選択部
14 抽出部
15 正規化学習部
16 音声データ正規化部
17 音声データ処理部
18 音声データ分類部
20 音声処理装置
30 音声処理装置
40 音声処理システム
41 音声処理装置
42 音声入力装置
43 指示入力装置
44 出力装置
101 音声データ記憶部
102 不特定音響モデル記憶部
103 パラメタ記憶部
1000 コンピュータ
1001 CPU
1002 主記憶装置
1003 補助記憶装置
1004 インターフェース
1005 入力デバイス
1006 ディスプレイ装置
Claims (10)
- 音声データから、隣接するセグメントが少なくとも一部重複する複数のセグメントを生成する第1の生成手段と、
前記複数のセグメントを音韻の類似性に基づき分類してクラスタを生成する第2の生成手段と、
前記クラスタのサイズに基づいて、所定の条件を満たすクラスタを選択する選択手段と、
前記選択されたクラスタに含まれるセグメントを抽出する抽出手段と
を備える音声処理装置。 - 複数の音声データに基づき、当該複数の音声データの音響的な性質の違いを正規化するための複数の正規化パラメタを生成する第3の生成手段と、
前記複数の正規化パラメタを用いて、前記音声データを正規化する正規化手段とをさらに備え、
前記第1の生成手段は、前記正規化された音声データから前記複数のセグメントを生成する請求項1に記載の音声処理装置。 - 前記選択手段は、クラスタに含まれるセグメントの個数または総時間長を用いて前記クラスタを比較し、選択する請求項1または2に記載の音声処理装置。
- 前記第2の生成手段は、前記セグメントを構成する音響特徴量の比較によりセグメント間の類似度を計算する請求項1乃至3のいずれか1項に記載の音声処理装置。
- 前記第2の生成手段は、前記セグメント間のDP(Dynamic Programming)マッチングにより類似度を生成する請求項1または2に記載の音声処理装置。
- 音声データを音響的な性質の違いに基づいて分類してクラスタを生成する第4の生成手段をさらに備え、
前記第3の生成手段は、前記クラスタに対して正規化パラメタを生成する請求項2記載の音声処理装置。 - 前記第4の生成手段および前記学習手段は、相互の結果に基づき、前記結果が収束するまで又は実行回数が所定の閾値に達するまで交互に反復実行する請求項6記載の音声処理装置。
- 音声データから、隣接するセグメントが少なくとも一部重複する複数のセグメントを生成し、
前記複数のセグメントを音韻の類似性に基づき分類してクラスタを生成し、
前記クラスタのサイズに基づいて、所定の条件を満たすクラスタを選択し、
前記選択されたクラスタに含まれるセグメントを抽出する音声処理方法。 - 音声データから、隣接するセグメントが少なくとも一部重複する複数のセグメントを生成する処理と、
前記複数のセグメントを音韻の類似性に基づき分類してクラスタを生成する処理と、
前記クラスタのサイズに基づいて、所定の条件を満たすクラスタを1つ以上選択する処理と、
前記選択されたクラスタに含まれるセグメントを抽出する処理と
をコンピュータに実行させるプログラムを記憶する、コンピュータ読み取り可能な記録媒体。 - 操作者の指示情報を受け取る指示入力装置と、
音声データを音声処理装置に入力する音声入力装置と、
前記指示情報に基づき、前記入力された音声データに対して処理を実行する請求項1から7の何れか1項に記載の音声処理装置と、
前記音声処理装置の処理結果を出力する出力装置と、を備え、
前記出力装置は、前記指示情報に応じた前記処理結果の出力する音声処理システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015061854 | 2015-03-25 | ||
JP2015061854 | 2015-03-25 | ||
PCT/JP2016/001593 WO2016152132A1 (ja) | 2015-03-25 | 2016-03-18 | 音声処理装置、音声処理システム、音声処理方法、および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016152132A1 true JPWO2016152132A1 (ja) | 2018-01-18 |
JP6784255B2 JP6784255B2 (ja) | 2020-11-11 |
Family
ID=56978310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017507495A Active JP6784255B2 (ja) | 2015-03-25 | 2016-03-18 | 音声処理装置、音声処理システム、音声処理方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6784255B2 (ja) |
WO (1) | WO2016152132A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111613249A (zh) * | 2020-05-22 | 2020-09-01 | 云知声智能科技股份有限公司 | 一种语音分析方法和设备 |
TWI751642B (zh) * | 2020-08-10 | 2022-01-01 | 騰擎科研創設股份有限公司 | 異音偵測及判斷成因之檢測系統 |
CN113178196B (zh) * | 2021-04-20 | 2023-02-07 | 平安国际融资租赁有限公司 | 音频数据提取方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007140136A (ja) * | 2005-11-18 | 2007-06-07 | Mitsubishi Electric Corp | 楽曲分析装置及び楽曲検索装置 |
JP2008515012A (ja) * | 2004-09-28 | 2008-05-08 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 楽曲の時間セグメントをグループ化するための装置および方法 |
JP2008533580A (ja) * | 2005-03-10 | 2008-08-21 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ及び/又はビジュアルデータの要約 |
JP2010032792A (ja) * | 2008-07-29 | 2010-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 |
-
2016
- 2016-03-18 WO PCT/JP2016/001593 patent/WO2016152132A1/ja active Application Filing
- 2016-03-18 JP JP2017507495A patent/JP6784255B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008515012A (ja) * | 2004-09-28 | 2008-05-08 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 楽曲の時間セグメントをグループ化するための装置および方法 |
JP2008533580A (ja) * | 2005-03-10 | 2008-08-21 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ及び/又はビジュアルデータの要約 |
JP2007140136A (ja) * | 2005-11-18 | 2007-06-07 | Mitsubishi Electric Corp | 楽曲分析装置及び楽曲検索装置 |
JP2010032792A (ja) * | 2008-07-29 | 2010-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
WO2016152132A1 (ja) | 2016-09-29 |
JP6784255B2 (ja) | 2020-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shahin et al. | Emotion recognition using hybrid Gaussian mixture model and deep neural network | |
Venkataramanan et al. | Emotion recognition from speech | |
US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
US9672829B2 (en) | Extracting and displaying key points of a video conference | |
US9489965B2 (en) | Method and apparatus for acoustic signal characterization | |
Sahoo et al. | Emotion recognition from audio-visual data using rule based decision level fusion | |
CN111524527A (zh) | 话者分离方法、装置、电子设备和存储介质 | |
KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
EP4392972A1 (en) | Speaker-turn-based online speaker diarization with constrained spectral clustering | |
Gupta et al. | Speech emotion recognition using SVM with thresholding fusion | |
JP5704071B2 (ja) | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム | |
Al Hindawi et al. | Speaker identification for disguised voices based on modified SVM classifier | |
US10699224B2 (en) | Conversation member optimization apparatus, conversation member optimization method, and program | |
WO2016152132A1 (ja) | 音声処理装置、音声処理システム、音声処理方法、および記録媒体 | |
George et al. | A review on speech emotion recognition: a survey, recent advances, challenges, and the influence of noise | |
Rahmawati et al. | Java and Sunda dialect recognition from Indonesian speech using GMM and I-Vector | |
Mengistu | Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC | |
JP5091202B2 (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
KR101023211B1 (ko) | 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법 | |
JP2011191542A (ja) | 音声分類装置、音声分類方法、及び音声分類用プログラム | |
Gupta et al. | Speech emotion recognition using MFCC and wide residual network | |
EP4024393A2 (en) | Training a speech recognition model | |
CN112735432B (zh) | 音频识别的方法、装置、电子设备及存储介质 | |
US11996086B2 (en) | Estimation device, estimation method, and estimation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170906 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200526 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200716 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200923 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201006 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6784255 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |