KR100612840B1 - 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 - Google Patents
모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 Download PDFInfo
- Publication number
- KR100612840B1 KR100612840B1 KR1020040010663A KR20040010663A KR100612840B1 KR 100612840 B1 KR100612840 B1 KR 100612840B1 KR 1020040010663 A KR1020040010663 A KR 1020040010663A KR 20040010663 A KR20040010663 A KR 20040010663A KR 100612840 B1 KR100612840 B1 KR 100612840B1
- Authority
- KR
- South Korea
- Prior art keywords
- model
- speaker
- variation
- adaptation
- generating
- Prior art date
Links
- 230000006978 adaptation Effects 0.000 title claims abstract description 98
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012360 testing method Methods 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims description 69
- 238000006243 chemical reaction Methods 0.000 claims description 26
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 56
- 230000008859 change Effects 0.000 description 28
- 230000008569 process Effects 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012417 linear regression Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- A—HUMAN NECESSITIES
- A23—FOODS OR FOODSTUFFS; TREATMENT THEREOF, NOT COVERED BY OTHER CLASSES
- A23L—FOODS, FOODSTUFFS OR NON-ALCOHOLIC BEVERAGES, NOT OTHERWISE PROVIDED FOR; PREPARATION OR TREATMENT THEREOF
- A23L33/00—Modifying nutritive qualities of foods; Dietetic products; Preparation or treatment thereof
- A23L33/10—Modifying nutritive qualities of foods; Dietetic products; Preparation or treatment thereof using additives
-
- A—HUMAN NECESSITIES
- A23—FOODS OR FOODSTUFFS; TREATMENT THEREOF, NOT COVERED BY OTHER CLASSES
- A23L—FOODS, FOODSTUFFS OR NON-ALCOHOLIC BEVERAGES, NOT OTHERWISE PROVIDED FOR; PREPARATION OR TREATMENT THEREOF
- A23L13/00—Meat products; Meat meal; Preparation or treatment thereof
- A23L13/30—Meat extracts
-
- A—HUMAN NECESSITIES
- A23—FOODS OR FOODSTUFFS; TREATMENT THEREOF, NOT COVERED BY OTHER CLASSES
- A23L—FOODS, FOODSTUFFS OR NON-ALCOHOLIC BEVERAGES, NOT OTHERWISE PROVIDED FOR; PREPARATION OR TREATMENT THEREOF
- A23L17/00—Food-from-the-sea products; Fish products; Fish meal; Fish-egg substitutes; Preparation or treatment thereof
- A23L17/20—Fish extracts
-
- A—HUMAN NECESSITIES
- A23—FOODS OR FOODSTUFFS; TREATMENT THEREOF, NOT COVERED BY OTHER CLASSES
- A23L—FOODS, FOODSTUFFS OR NON-ALCOHOLIC BEVERAGES, NOT OTHERWISE PROVIDED FOR; PREPARATION OR TREATMENT THEREOF
- A23L33/00—Modifying nutritive qualities of foods; Dietetic products; Preparation or treatment thereof
- A23L33/10—Modifying nutritive qualities of foods; Dietetic products; Preparation or treatment thereof using additives
- A23L33/105—Plant extracts, their artificial duplicates or their derivatives
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12G—WINE; PREPARATION THEREOF; ALCOHOLIC BEVERAGES; PREPARATION OF ALCOHOLIC BEVERAGES NOT PROVIDED FOR IN SUBCLASSES C12C OR C12H
- C12G3/00—Preparation of other alcoholic beverages
- C12G3/02—Preparation of other alcoholic beverages by fermentation
-
- A—HUMAN NECESSITIES
- A23—FOODS OR FOODSTUFFS; TREATMENT THEREOF, NOT COVERED BY OTHER CLASSES
- A23V—INDEXING SCHEME RELATING TO FOODS, FOODSTUFFS OR NON-ALCOHOLIC BEVERAGES AND LACTIC OR PROPIONIC ACID BACTERIA USED IN FOODSTUFFS OR FOOD PREPARATION
- A23V2002/00—Food compositions, function of food ingredients or processes for food or foodstuffs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Nutrition Science (AREA)
- Food Science & Technology (AREA)
- Polymers & Plastics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Mycology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Zoology (AREA)
- Human Computer Interaction (AREA)
- Organic Chemistry (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Wood Science & Technology (AREA)
- Marine Sciences & Fisheries (AREA)
- Genetics & Genomics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Botany (AREA)
- Biochemistry (AREA)
- Stereophonic System (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (25)
- (a) 복수의 훈련 화자 각각의 음성 데이터로부터 특징 벡터를 추출하는 단계와,(b) 상기 복수의 훈련 화자 각각에 대해, 상기 특징 벡터에 대한 ML 모델을 생성하는 단계와,(c) 화자 독립 모델에 대한 상기 ML 모델의 음향 공간에서의 양적 변화량 및/또는 방향적 변화량을 고려하여,상기 복수의 훈련 화자 각각에 대한 모델 변이를 생성하는 단계와,(d) 상기 모델 변이들 사이의 유사성을 바탕으로 상기 복수의 모델 변이들에 대해 소정의 클러스터링 알고리즘을 적용하여 복수의 화자 그룹 모델 변이를 생성하는 단계와,(e) 상기 복수의 화자 그룹 모델 변이 각각에 대해, 상기 화자 독립 모델에 대한 화자 적응 모델의 생성에 이용될 변환 파라미터를 생성하는 단계를 포함하는 화자 클러스터링 방법.
- 제 2항에 있어서, 상기α=0인 것을 특징으로 하는 화자 클러스터링 방법.
- 제 2항에 있어서, 상기α=1인 것을 특징으로 하는 화자 클러스터링 방법.
- 제 1항에 있어서, 상기 (a) 단계는 상기 각 훈련 화자로부터 복수의 특징 벡터를 추출하는 것을 특징으로 하는 화자 클러스터링 방법.
- 제 1항에 있어서, 상기 (b) 단계는 상기 특징 벡터에 대해 비터비 정렬을 수행하는 단계를 포함하는 것을 특징으로 하는 화자 클러스터링 방법.
- 제 1항 내지 제 6항 중 어느 한 항의 방법을 실행하는 프로그램을 기록한, 컴퓨터로 읽을 수 있는 기록 매체.
- 제 1항 내지 제 6항 중 어느 한 항의 화자 클러스터링 방법을 포함하고,(f) 상기 복수의 ML 모델들에 대해 소정의 클러스터링 알고리즘을 적용하여 복수의 화자 그룹 ML 모델을 생성하는 단계를 더 포함하며,상기 화자 적응 모델의 생성을 위해,(g) 시험 화자의 음성 데이터로부터 특징 벡터를 추출하는 단계와,(h) 상기 특징 벡터에 대한 시험 화자 ML 모델을 생성하는 단계와,(i) 상기 시험 화자 ML 모델과 상기 시험 화자가 속한 화자 그룹의 ML 모델 사이의 모델 변이를 음향 공간에서의 양적 변화량 및/또는 방향적 변화량을 고려하여 계산하여 이 모델 변이와 가장 유사한 모델 변이를 상기 복수의 화자 그룹 모델 변이에서 선택하는 단계와,(j) 선택된 화자 그룹 모델 변이의 변환 파라미터에 소정의 예측 알고리즘을 적용하여 적응 파라미터를 예측 및 생성하는 단계와,(k) 상기 적응 파라미터를 상기 화자 적응 모델에 적용하는 단계를 더 포함하는 것을 특징으로 하는 화자 적응 방법.
- 제 8항 또는 제 9항의 방법을 실행하는 프로그램을 기록한, 컴퓨터로 읽을 수 있는 기록 매체.
- (a) 복수의 훈련 화자 각각의 음성 데이터로부터 특징 벡터를 추출하는 단계와,(b) 상기 복수의 훈련 화자 각각에 대해, 상기 특징 벡터에 대한 ML 모델을 생성하는 단계와,(c) 화자 독립 모델에 대한 상기 ML 모델의 음향 공간에서의 양적 변화량 및/또는 방향적 변화량을 고려하여,상기 복수의 훈련 화자 각각에 대한 모델 변이를 생성하는 단계와,(d) 상기 복수의 모델 변이 전체를 대표하는 전역 모델 변이를 생성하는 단계와,(e) 상기 전역 모델 변이를 이용하여, 상기 화자 독립 모델에 대한 화자 적응 모델의 생성에 이용될 변환 파라미터를 생성하는 단계를 포함하는 것을 특징으로 하는 화자 클러스터링 방법.
- 제 11항에 있어서, 상기 전역 모델 변이는 상기 복수의 모델 변이들의 평균치인 것을 특징으로 하는 화자 클러스터링 방법.
- 제 11항 내지 제 13항 중 어느 한 항의 방법을 실행하는 프로그램을 기록한, 컴퓨터로 읽을 수 있는 기록 매체.
- 복수의 훈련 화자 각각의 음성 데이터로부터 특징 벡터를 추출하는 특징 추출부와,상기 복수의 훈련 화자 각각에 대해, 상기 특징 벡터를 화자 독립 모델에 대 해 비터비 정렬을 수행하고 상기 특징 벡터에 대한 ML 모델을 생성하는 비터비 정렬부와,상기 화자 독립 모델에 대한 상기 ML 모델의 음향 공간에서의 양적 변화량 및/또는 방향적 변화량을 고려하여,상기 복수의 훈련 화자 각각에 대한 모델 변이를 생성하는 모델 변이 생성부와,상기 모델 변이들 사이의 유사성을 바탕으로 상기 복수의 모델 변이들에 대해 소정의 클러스터링 알고리즘을 적용하여 복수의 화자 그룹 모델 변이를 생성하는 모델 변이 클러스터링부와,상기 복수의 화자 그룹 모델 변이 각각에 대해, 상기 화자 독립 모델에 대한 화자 적응 모델의 생성에 이용될 변환 파라미터를 생성하는 변환 파라미터 생성부를 포함하는 음성 인식 장치.
- 제 16항에 있어서, 상기α=0인 것을 특징으로 하는 음성 인식 장치.
- 제 16항에 있어서, 상기α=1인 것을 특징으로 하는 음성 인식 장치.
- 제 15항에 있어서, 상기 특징 추출부는 각 훈련 화자로부터 복수의 특징 벡터를 추출하는 것을 특징으로 하는 음성 인식 장치.
- 제 15항 내지 제19항 중 어느 한 항에 있어서, 상기 모델 변이 클러스터링부는 상기 복수의 ML 모델들에 대해 소정의 클러스터링 알고리즘을 적용하여 복수의 화자 그룹 ML 모델을 더 생성하고, 이어서 상기 화자 적응 모델의 생성을 위해, 상기 특징 추출부는 시험 화자의 음성 데이터로부터 특징 벡터를 추출하며, 이어서 상기 비터비 정렬부는 상기 시험 화자의 특징 벡터에 대한 시험 화자 ML 모델을 생성하며,상기 시험 화자 ML 모델과 상기 시험 화자가 속한 화자 그룹의 ML 모델 사이의 모델 변이를 계산하여 이 모델 변이와 가장 유사한 모델 변이를 상기 복수의 화자 그룹 모델 변이에서 선택하는 화자 클러스터 선택부와,선택된 화자 그룹 모델 변이의 변환 파라미터에 소정의 예측 알고리즘을 적용하여 적응 파라미터를 예측 및 생성하여, 상기 화자 적응 모델에 적용하는 적응 파라미터 생성부를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
- 제 20항에 있어서, 상기 화자 적응 모델을 이용하여 임의의 음성 데이터의 특징 벡터를 문자 정보로 출력하는 음성 인식부를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
- 복수의 훈련 화자 각각의 음성 데이터로부터 특징 벡터를 추출하는 특징 추출부와,상기 복수의 훈련 화자 각각에 대해, 상기 특징 벡터를 화자 독립 모델에 대 해 비터비 정렬을 수행하고 상기 특징 벡터에 대한 ML 모델을 생성하는 비터비 정렬부와,상기 화자 독립 모델에 대한 상기 ML 모델의 음향 공간에서의 양적 변화량 및/또는 방향적 변화량을 고려하여,상기 복수의 훈련 화자 각각에 대한 모델 변이를 생성하는 모델 변이 생성부와,상기 복수의 모델 변이 전체를 대표하는 전역 모델 변이를 생성하는 모델 변이 클러스터링부와,상기 전역 모델 변이를 이용하여, 상기 화자 독립 모델에 대한 화자 적응 모델의 생성에 이용될 변환 파라미터를 생성하는 변환 파라미터 생성부를 포함하는 음성 인식 장치.
- 제 23항에 있어서, 상기 전역 모델 변이는 상기 복수의 모델 변이들의 평균치인 것을 특징으로 하는 음성 인식 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040010663A KR100612840B1 (ko) | 2004-02-18 | 2004-02-18 | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 |
US11/020,302 US7590537B2 (en) | 2004-02-18 | 2004-12-27 | Speaker clustering and adaptation method based on the HMM model variation information and its apparatus for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040010663A KR100612840B1 (ko) | 2004-02-18 | 2004-02-18 | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050082253A KR20050082253A (ko) | 2005-08-23 |
KR100612840B1 true KR100612840B1 (ko) | 2006-08-18 |
Family
ID=34836805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040010663A KR100612840B1 (ko) | 2004-02-18 | 2004-02-18 | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7590537B2 (ko) |
KR (1) | KR100612840B1 (ko) |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6915262B2 (en) | 2000-11-30 | 2005-07-05 | Telesector Resources Group, Inc. | Methods and apparatus for performing speech recognition and using speech recognition results |
JP4220449B2 (ja) * | 2004-09-16 | 2009-02-04 | 株式会社東芝 | インデキシング装置、インデキシング方法およびインデキシングプログラム |
EP1846884A4 (en) * | 2005-01-14 | 2010-02-17 | Tremor Media Llc | SYSTEM AND METHOD FOR DYNAMIC ADVERTISING |
US20070112567A1 (en) * | 2005-11-07 | 2007-05-17 | Scanscout, Inc. | Techiques for model optimization for statistical pattern recognition |
CN101326524A (zh) * | 2006-01-06 | 2008-12-17 | 索尼株式会社 | 信息处理装置、方法和程序 |
JP4745094B2 (ja) * | 2006-03-20 | 2011-08-10 | 富士通株式会社 | クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム |
US7720681B2 (en) * | 2006-03-23 | 2010-05-18 | Microsoft Corporation | Digital voice profiles |
US9462118B2 (en) * | 2006-05-30 | 2016-10-04 | Microsoft Technology Licensing, Llc | VoIP communication content control |
US8971217B2 (en) * | 2006-06-30 | 2015-03-03 | Microsoft Technology Licensing, Llc | Transmitting packet-based data items |
US20080109391A1 (en) * | 2006-11-07 | 2008-05-08 | Scanscout, Inc. | Classifying content based on mood |
GB0623932D0 (en) * | 2006-11-29 | 2007-01-10 | Ibm | Data modelling of class independent recognition models |
US8549550B2 (en) | 2008-09-17 | 2013-10-01 | Tubemogul, Inc. | Method and apparatus for passively monitoring online video viewing and viewer behavior |
US8577996B2 (en) * | 2007-09-18 | 2013-11-05 | Tremor Video, Inc. | Method and apparatus for tracing users of online video web sites |
US20090259551A1 (en) * | 2008-04-11 | 2009-10-15 | Tremor Media, Inc. | System and method for inserting advertisements from multiple ad servers via a master component |
US9612995B2 (en) | 2008-09-17 | 2017-04-04 | Adobe Systems Incorporated | Video viewer targeting based on preference similarity |
WO2010047019A1 (ja) * | 2008-10-21 | 2010-04-29 | 日本電気株式会社 | 統計モデル学習装置、統計モデル学習方法、およびプログラム |
JP5376341B2 (ja) * | 2008-10-31 | 2013-12-25 | 日本電気株式会社 | モデル適応装置、その方法及びそのプログラム |
US8155961B2 (en) * | 2008-12-09 | 2012-04-10 | Nokia Corporation | Adaptation of automatic speech recognition acoustic models |
EP2211335A1 (en) * | 2009-01-21 | 2010-07-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal |
US9418662B2 (en) * | 2009-01-21 | 2016-08-16 | Nokia Technologies Oy | Method, apparatus and computer program product for providing compound models for speech recognition adaptation |
US8160877B1 (en) * | 2009-08-06 | 2012-04-17 | Narus, Inc. | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting |
US8615430B2 (en) * | 2009-11-20 | 2013-12-24 | Tremor Video, Inc. | Methods and apparatus for optimizing advertisement allocation |
CN102834842B (zh) * | 2010-03-23 | 2016-06-29 | 诺基亚技术有限公司 | 用于确定用户年龄范围的方法和装置 |
US9305553B2 (en) * | 2010-04-28 | 2016-04-05 | William S. Meisel | Speech recognition accuracy improvement through speaker categories |
US9009040B2 (en) * | 2010-05-05 | 2015-04-14 | Cisco Technology, Inc. | Training a transcription system |
KR20120046627A (ko) * | 2010-11-02 | 2012-05-10 | 삼성전자주식회사 | 화자 적응 방법 및 장치 |
US9406299B2 (en) * | 2012-05-08 | 2016-08-02 | Nuance Communications, Inc. | Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition |
WO2014029099A1 (en) * | 2012-08-24 | 2014-02-27 | Microsoft Corporation | I-vector based clustering training data in speech recognition |
CN103219008B (zh) * | 2013-05-16 | 2016-04-20 | 清华大学 | 基于基状态矢量加权的短语音说话人识别方法 |
US9520128B2 (en) * | 2014-09-23 | 2016-12-13 | Intel Corporation | Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition |
KR102199246B1 (ko) * | 2014-11-18 | 2021-01-07 | 에스케이텔레콤 주식회사 | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 |
JP6054004B1 (ja) * | 2016-01-29 | 2016-12-27 | 三菱電機株式会社 | 音声認識装置 |
CN107564513B (zh) * | 2016-06-30 | 2020-09-08 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
US20190385628A1 (en) * | 2017-02-28 | 2019-12-19 | The University Of Electro-Communications | Voice conversion / voice identity conversion device, voice conversion / voice identity conversion method and program |
CN108766440B (zh) | 2018-05-28 | 2020-01-14 | 平安科技(深圳)有限公司 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
CN109065028B (zh) * | 2018-06-11 | 2022-12-30 | 平安科技(深圳)有限公司 | 说话人聚类方法、装置、计算机设备及存储介质 |
KR102655628B1 (ko) * | 2018-11-22 | 2024-04-09 | 삼성전자주식회사 | 발화의 음성 데이터를 처리하는 방법 및 장치 |
CN110275942A (zh) * | 2019-06-26 | 2019-09-24 | 上海交通大学 | 一种电子凭据安全事件融合分析方法 |
CN111062203B (zh) * | 2019-11-12 | 2021-07-20 | 贝壳找房(北京)科技有限公司 | 基于语音的数据标注方法、装置、介质以及电子设备 |
CN111462751B (zh) * | 2020-03-27 | 2023-11-03 | 京东科技控股股份有限公司 | 解码语音数据的方法、装置、计算机设备和存储介质 |
CN112599121B (zh) * | 2020-12-03 | 2023-06-20 | 天津大学 | 基于辅助数据正则化的说话人自适应方法 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5598507A (en) * | 1994-04-12 | 1997-01-28 | Xerox Corporation | Method of speaker clustering for unknown speakers in conversational audio data |
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
US5787394A (en) * | 1995-12-13 | 1998-07-28 | International Business Machines Corporation | State-dependent speaker clustering for speaker adaptation |
US5895447A (en) * | 1996-02-02 | 1999-04-20 | International Business Machines Corporation | Speech recognition using thresholded speaker class model selection or model adaptation |
JP2965537B2 (ja) * | 1997-12-10 | 1999-10-18 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 話者クラスタリング処理装置及び音声認識装置 |
US6226612B1 (en) * | 1998-01-30 | 2001-05-01 | Motorola, Inc. | Method of evaluating an utterance in a speech recognition system |
US6073096A (en) * | 1998-02-04 | 2000-06-06 | International Business Machines Corporation | Speaker adaptation system and method based on class-specific pre-clustering training speakers |
US6343267B1 (en) * | 1998-04-30 | 2002-01-29 | Matsushita Electric Industrial Co., Ltd. | Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques |
EP1011094B1 (en) * | 1998-12-17 | 2005-03-02 | Sony International (Europe) GmbH | Semi-supervised speaker adaption |
US6253181B1 (en) * | 1999-01-22 | 2001-06-26 | Matsushita Electric Industrial Co., Ltd. | Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers |
US6272462B1 (en) * | 1999-02-25 | 2001-08-07 | Panasonic Technologies, Inc. | Supervised adaptation using corrective N-best decoding |
JP2000259169A (ja) | 1999-03-04 | 2000-09-22 | Nippon Hoso Kyokai <Nhk> | 音声認識装置およびその記録媒体 |
TW440810B (en) * | 1999-08-11 | 2001-06-16 | Ind Tech Res Inst | Method of speech recognition |
US6442519B1 (en) * | 1999-11-10 | 2002-08-27 | International Business Machines Corp. | Speaker model adaptation via network of similar users |
US6526379B1 (en) * | 1999-11-29 | 2003-02-25 | Matsushita Electric Industrial Co., Ltd. | Discriminative clustering methods for automatic speech recognition |
US6748356B1 (en) * | 2000-06-07 | 2004-06-08 | International Business Machines Corporation | Methods and apparatus for identifying unknown speakers using a hierarchical tree structure |
US6751590B1 (en) * | 2000-06-13 | 2004-06-15 | International Business Machines Corporation | Method and apparatus for performing pattern-specific maximum likelihood transformations for speaker recognition |
DE10047723A1 (de) * | 2000-09-27 | 2002-04-11 | Philips Corp Intellectual Pty | Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern |
WO2002090915A1 (en) * | 2001-05-10 | 2002-11-14 | Koninklijke Philips Electronics N.V. | Background learning of speaker voices |
US7437289B2 (en) * | 2001-08-16 | 2008-10-14 | International Business Machines Corporation | Methods and apparatus for the systematic adaptation of classification systems from sparse adaptation data |
JP2003099083A (ja) | 2001-09-25 | 2003-04-04 | Nippon Hoso Kyokai <Nhk> | 音声認識装置 |
US7137062B2 (en) * | 2001-12-28 | 2006-11-14 | International Business Machines Corporation | System and method for hierarchical segmentation with latent semantic indexing in scale space |
KR20040008547A (ko) | 2002-07-18 | 2004-01-31 | 엘지전자 주식회사 | 연속 음성인식 기기의 화자 적응 장치 |
US7523034B2 (en) * | 2002-12-13 | 2009-04-21 | International Business Machines Corporation | Adaptation of Compound Gaussian Mixture models |
US7676366B2 (en) * | 2003-01-13 | 2010-03-09 | Art Advanced Recognition Technologies Inc. | Adaptation of symbols |
US7340396B2 (en) * | 2003-02-18 | 2008-03-04 | Motorola, Inc. | Method and apparatus for providing a speaker adapted speech recognition model set |
US7328154B2 (en) * | 2003-08-13 | 2008-02-05 | Matsushita Electrical Industrial Co., Ltd. | Bubble splitting for compact acoustic modeling |
CN1963918A (zh) * | 2005-11-11 | 2007-05-16 | 株式会社东芝 | 说话人模板的压缩、合并装置和方法,以及说话人认证 |
-
2004
- 2004-02-18 KR KR1020040010663A patent/KR100612840B1/ko not_active IP Right Cessation
- 2004-12-27 US US11/020,302 patent/US7590537B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20050182626A1 (en) | 2005-08-18 |
KR20050082253A (ko) | 2005-08-23 |
US7590537B2 (en) | 2009-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100612840B1 (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
JP2871561B2 (ja) | 不特定話者モデル生成装置及び音声認識装置 | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
Welling et al. | Speaker adaptive modeling by vocal tract normalization | |
JP4836076B2 (ja) | 音声認識システム及びコンピュータプログラム | |
Kannadaguli et al. | A comparison of Gaussian mixture modeling (GMM) and hidden Markov modeling (HMM) based approaches for automatic phoneme recognition in Kannada | |
JP3919475B2 (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 | |
Raškinis et al. | Building medium‐vocabulary isolated‐word lithuanian hmm speech recognition system | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
Ungureanu et al. | Establishing a baseline of romanian speech-to-text models | |
Walter et al. | An evaluation of unsupervised acoustic model training for a dysarthric speech interface | |
Kannadaguli et al. | Phoneme modeling for speech recognition in Kannada using Hidden Markov Model | |
JP2002182682A (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 | |
Fung et al. | Effects and modeling of phonetic and acoustic confusions in accented speech | |
He et al. | Fast model selection based speaker adaptation for nonnative speech | |
JP3216565B2 (ja) | 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体 | |
Yu et al. | Unsupervised adaptation with discriminative mapping transforms | |
JPH0981182A (ja) | 隠れマルコフモデルの学習装置及び音声認識装置 | |
JP3754614B2 (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 | |
Wang | Automatic Speech Recognition Model for Swedish Using Kaldi | |
Ibrahim et al. | A COMPARATIVE SURVEY OF DTW AND HMM USING HAUSA ISOLATED DIGITS RECOGNITION IN HUMAN COMPUTER INTERACTION SYSTEM | |
Mohammed et al. | Robust automatic speech recognition system: hmm versus sparse | |
JP3105708B2 (ja) | 音声認識装置 | |
Markov et al. | Acoustic Modeling of Accented English Speech for Large-Vocabulary Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20040218 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20060127 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20060621 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20060808 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20060809 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20090701 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20100629 Start annual number: 5 End annual number: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20110728 Start annual number: 6 End annual number: 6 |
|
FPAY | Annual fee payment |
Payment date: 20120730 Year of fee payment: 7 |
|
PR1001 | Payment of annual fee |
Payment date: 20120730 Start annual number: 7 End annual number: 7 |
|
FPAY | Annual fee payment |
Payment date: 20130730 Year of fee payment: 8 |
|
PR1001 | Payment of annual fee |
Payment date: 20130730 Start annual number: 8 End annual number: 8 |
|
FPAY | Annual fee payment |
Payment date: 20140730 Year of fee payment: 9 |
|
PR1001 | Payment of annual fee |
Payment date: 20140730 Start annual number: 9 End annual number: 9 |
|
FPAY | Annual fee payment |
Payment date: 20150730 Year of fee payment: 10 |
|
PR1001 | Payment of annual fee |
Payment date: 20150730 Start annual number: 10 End annual number: 10 |
|
FPAY | Annual fee payment |
Payment date: 20160728 Year of fee payment: 11 |
|
PR1001 | Payment of annual fee |
Payment date: 20160728 Start annual number: 11 End annual number: 11 |
|
FPAY | Annual fee payment |
Payment date: 20170728 Year of fee payment: 12 |
|
PR1001 | Payment of annual fee |
Payment date: 20170728 Start annual number: 12 End annual number: 12 |
|
LAPS | Lapse due to unpaid annual fee | ||
PC1903 | Unpaid annual fee |
Termination category: Default of registration fee Termination date: 20190519 |