KR102380833B1 - 음성 인식 방법 및 음성 인식 장치 - Google Patents
음성 인식 방법 및 음성 인식 장치 Download PDFInfo
- Publication number
- KR102380833B1 KR102380833B1 KR1020140170818A KR20140170818A KR102380833B1 KR 102380833 B1 KR102380833 B1 KR 102380833B1 KR 1020140170818 A KR1020140170818 A KR 1020140170818A KR 20140170818 A KR20140170818 A KR 20140170818A KR 102380833 B1 KR102380833 B1 KR 102380833B1
- Authority
- KR
- South Korea
- Prior art keywords
- words
- sentence
- target word
- candidate
- model
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013528 artificial neural network Methods 0.000 claims description 41
- 230000002457 bidirectional effect Effects 0.000 claims description 28
- 238000012937 correction Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 10
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 230000001373 regressive effect Effects 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 238000012549 training Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
Abstract
음성 인식 방법 및 음성 인식 장치가 개시된다. 일 실시예에 따른 음성 인식 장치는 문장 내 전후 문맥에 기반한 언어 모델에 기초하여, 사용자의 음성을 인식함으로써 생성된 문장에서 적어도 하나의 단어를 수정한다.
Description
아래 실시예들은 음성 인식 방법 및 음성 인식 장치에 관한 것이다.
일반적으로, 음성 인식 시스템에 적용되는 현재의 음성 인식 기법은 기술적으로 완벽하지 않으며, 노이즈 등의 다양한 요인으로 인하여 필연적인 인식 오류를 가지게 된다. 기존의 음성 인식 장치들은 이러한 음성 인식 오류에 대해 정답 후보를 제시하지 못하거나 혹은 정답 후보를 제시하더라도 해당 음성 인식 장치의 디코딩 과정에서 정답일 가능성이 높았던 후보를 제시하는데 그쳐 음성 인식 정확도가 낮아지게 된다.
일 측에 따른 음성 인식 방법은 음성 인식에 의하여 생성된 문장을 수신하는 단계; 상기 문장에 포함된 단어들 각각에 대하여, 상기 문장 내 나머지 단어들과의 관계에 기반한 적합도를 계산하는 단계; 상기 단어들의 적합도들에 기초하여, 상기 단어들 중 수정이 필요한 대상 단어를 검출하는 단계; 및 상기 대상 단어에 대응하는 후보 단어들 중 어느 하나로 상기 대상 단어를 대체(replace)하는 단계를 포함한다.
상기 적합도를 계산하는 단계는 양방향 회귀 신경망(bidirectional recurrent neural network) 언어 모델(language model)을 이용하여 상기 단어들 각각의 적합도를 계산하는 단계를 포함할 수 있다.
상기 대상 단어를 검출하는 단계는 미리 정해진 임계 값 미만의 적합도를 가지는 단어들을 검출하는 단계; 및 적합도가 작은 순서로 미리 정해진 수의 단어들을 검출하는 단계 중 적어도 하나를 포함할 수 있다.
상기 대상 단어를 대체하는 단계는 상기 문장에서 상기 대상 단어를 제외한 나머지 단어들과의 관계, 상기 대상 단어의 음소 시퀀스(phoneme sequence)와의 유사도, 및 상기 문장에 선행하는 이전 문장의 문맥(context) 중 적어도 하나에 기초하여 상기 후보 단어들을 결정하는 단계를 포함할 수 있다.
상기 후보 단어들을 결정하는 단계는 미리 구비된 단어 사전으로부터, 상기 후보 단어들을 획득하는 단계를 포함할 수 있다.
상기 대상 단어를 대체하는 단계는 상기 후보 단어들 각각에 대하여, 상기 대상 단어의 음소 시퀀스와의 유사도에 기반한 제1 모델 및 상기 문장에서 상기 대상 단어를 제외한 나머지 단어들과의 관계에 기반한 제2 모델 및 중 적어도 하나에 기초하여 해당 후보 단어의 적합도를 계산하는 단계를 포함할 수 있다.
상기 대상 단어를 대체하는 단계는 상기 제1 모델을 위한 제1 가중치 및 상기 제2 모델을 위한 제2 가중치를 설정하는 단계를 더 포함할 수 있다.
상기 제1 가중치 및 상기 제2 가중치를 설정하는 단계는 상기 제1 모델의 확률 분포에 기초하여, 상기 제1 가중치 및 상기 제2 가중치를 동적으로 제어하는 단계를 포함할 수 있다.
상기 음성 인식 방법은 사용자의 음성을 수신하는 단계; 상기 음성으로부터 특징(feature)들을 추출하는 단계; 음성 모델을 이용하여 상기 특징들로부터 음소 시퀀스를 인식하는 단계; 및 언어 모델을 이용하여 상기 음소 시퀀스로부터 단어들을 인식함으로써, 상기 문장을 생성하는 단계를 더 포함할 수 있다.
상기 언어 모델은 바이-그램(Bi-Gram) 언어 모델(language model)을 포함할 수 있다.
다른 일 측에 따른 음성 인식 장치는 사용자의 음성을 인식함으로써 문장을 생성하는 제1 인식부; 및 상기 문장 내 전후 문맥에 기반한 언어 모델에 기초하여, 상기 문장 내 적어도 하나의 단어를 수정하는 제2 인식부를 포함한다.
상기 제1 인식부는 상기 음성을 수신하는 수신부; 상기 음성으로부터 특징(feature)들을 추출하는 추출부; 상기 특징들로부터 음소 시퀀스를 디코딩하는 디코딩부; 및 상기 음소 시퀀스로부터 단어들을 인식함으로써, 상기 문장을 생성하는 생성부를 포함할 수 있다.
상기 언어 모델은 양방향 회귀 신경망(bidirectional recurrent neural network) 언어 모델(language model)을 포함할 수 있다.
상기 제2 인식부는 상기 문장에 포함된 단어들 각각에 대하여, 상기 문장 내 나머지 단어들과의 관계에 기반한 적합도를 계산하는 계산부; 상기 단어들의 적합도들에 기초하여 상기 단어들 중 수정이 필요한 대상 단어를 검출하는 검출부; 및 상기 대상 단어에 대응하는 후보 단어들 중 어느 하나로 상기 대상 단어를 대체(replace)하는 대체부를 포함할 수 있다.
상기 검출부는 미리 정해진 임계 값 미만의 적합도를 가지는 단어들을 검출하거나, 적합도가 작은 순서로 미리 정해진 수의 단어들을 검출할 수 있다.
상기 대체부는 상기 문장 내 상기 대상 단어의 위치, 상기 문장에서 상기 대상 단어를 제외한 나머지 단어들과의 관계, 상기 대상 단어의 음소 시퀀스(phoneme sequence)와의 유사도, 및 상기 문장에 선행하는 이전 문장의 문맥(context) 중 적어도 하나에 기초하여 상기 후보 단어들을 결정할 수 있다.
상기 대체부는 미리 구비된 단어 사전으로부터, 상기 후보 단어들을 획득할 수 있다.
상기 대체부는 상기 후보 단어들 각각에 대하여, 상기 대상 단어의 음소 시퀀스와의 유사도에 기반한 제1 모델 및 상기 문장에서 상기 대상 단어를 제외한 나머지 단어들과의 관계에 기반한 제2 모델 중 적어도 하나에 기초하여 해당 후보 단어의 적합도를 계산할 수 있다.
상기 대체부는 상기 제1 모델의 확률 분포에 기초하여, 상기 제1 모델을 위한 제1 가중치 및 상기 제2 모델을 위한 제2 가중치를 동적으로 제어할 수 있다.
도 1은 일 실시예에 따른 음성 인식 장치를 나타낸 블록도.
도 2 내지 도 6은 일 실시예에 따른 양방향 회귀 신경망 언어 모델을 설명하는 도면들.
도 7은 일 실시예에 따른 음성 인식 장치의 동작을 설명하는 도면.
도 8은 일 실시예에 따른 제2 인식부를 나타낸 블록도.
도 9a 내지 도 13은 실시예들에 따른 제2 인식부의 동작을 설명하는 도면들.
도 14는 일 실시예에 따른 제1 인식부를 나타낸 블록도.
도 15는 다른 실시예에 따른 음성 인식 장치를 나타낸 블록도.
도 16 내지 도 18은 실시예들에 따른 음성 인식 방법을 나타낸 동작 흐름도들.
도 2 내지 도 6은 일 실시예에 따른 양방향 회귀 신경망 언어 모델을 설명하는 도면들.
도 7은 일 실시예에 따른 음성 인식 장치의 동작을 설명하는 도면.
도 8은 일 실시예에 따른 제2 인식부를 나타낸 블록도.
도 9a 내지 도 13은 실시예들에 따른 제2 인식부의 동작을 설명하는 도면들.
도 14는 일 실시예에 따른 제1 인식부를 나타낸 블록도.
도 15는 다른 실시예에 따른 음성 인식 장치를 나타낸 블록도.
도 16 내지 도 18은 실시예들에 따른 음성 인식 방법을 나타낸 동작 흐름도들.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다. 하기에서 설명될 실시예들은 음성 인식 기법에 적용될 수 있으며, 음성 인식 기법이 활용되는 이동 단말, 스마트 가전제품, 의료 장치, 차량 제어 장치, 및 기타 컴퓨팅 장치들에서 이용될 수 있다.
도 1은 일 실시예에 따른 음성 인식 장치를 나타낸 블록도이다. 도 1을 참조하면, 일 실시예에 따른 음성 인식 장치(100)는 제1 인식부(110)와 제2 인식부(120)를 포함한다. 제1 인식부(110)는 사용자의 음성을 1차적으로 인식함으로써 임시 인식 결과(temporary recognition result)를 생성할 수 있다. 제1 인식부(110)는 임시 인식 결과에 해당하는 문장을 생성할 수 있다.
제1 인식부(110)는 임시 인식 결과에 해당하는 문장을 생성하기 위하여, 제1 언어 모델에 기초하여 사용자의 음성을 인식할 수 있다. 제1 언어 모델은 제2 인식부(120)에 의하여 사용되는 제2 언어 모델에 비하여 단순한 언어 모델로, 예를 들어 N-그램(N-Gram) 언어 모델 등을 포함할 수 있다.
제1 인식부(110)는 다양한 방식으로 사용자의 음성을 수신할 수 있다. 예를 들어, 제1 인식부(110)는 마이크로폰을 통하여 입력되는 사용자의 음성을 수신하거나, 미리 구비된 저장 장치에 저장된 사용자의 음성을 수신하거나, 네트워크를 통하여 원격에 위치한 사용자의 음성을 수신할 수 있다. 제1 인식부(110)의 동작과 관련된 보다 상세한 사항들은 후술한다.
제2 인식부(120)는 임시 인식 결과에 기초하여 최종 인식 결과(final recognition result)를 생성할 수 있다. 이하, 최종 인식 결과는 음성 인식 결과라고 지칭될 수 있다. 제2 인식부(120)는 제2 언어 모델에 기초하여 임시 인식 결과에 해당하는 문장 내 적어도 하나의 단어를 수정함으로써, 음성 인식 결과를 출력할 수 있다. 음성 인식 결과는 적어도 하나의 단어가 수정된 문장일 수 있다.
제2 언어 모델은 문장 내 전후 문맥에 기반한 언어 모델로, 예를 들어, 양방향 회귀 신경망(bidirectional recurrent neural network) 언어 모델(language model)을 포함할 수 있다. 제2 인식부(120)의 동작을 구체적으로 설명하기에 앞서, 도 2 내지 도 6을 참조하여 양방향 회귀 신경망 언어 모델을 간략하게 설명한다.
도 2를 참조하면, 신경망(200)은 연결선으로 연결된 많은 수의 인공 뉴런들을 이용하여 생물학적인 시스템의 계산 능력을 모방하는 인식 모델이다. 신경망(200)은 생물학적인 뉴런의 기능을 단순화시킨 인공 뉴런들을 이용한다. 인공 뉴런은 노드(node)라고 지칭될 수 있다. 인공 뉴런들은 연결 가중치(connection weight)를 가지는 연결선을 통해 상호 연결될 수 있다. 신경망(200)은 인공 뉴런들을 통해 인간의 인지 작용이나 학습 과정을 수행할 수 있다.
신경망(200)은 복수의 레이어들을 포함한다. 예를 들어, 신경망(200)은 입력 레이어(210), 히든 레이어(220), 출력 레이어(230)을 포함할 수 있다. 입력 레이어(210)는 학습을 수행하기 위한 입력을 수신하여 히든 레이어(220)에 전달할 수 있고, 출력 레이어(230)는 히든 레이어(220)로부터 수신한 신호에 기초하여 신경망(200)의 출력을 생성할 수 있다. 히든 레이어(220)는 입력 레이어(210)와 출력 레이어(230) 사이에 위치하고, 입력 레이어(210)를 통해 전달된 학습 데이터를 예측하기 쉬운 값으로 변화시킬 수 있다.
입력 레이어(210)에 포함된 입력 노드들과 히든 레이어(220)에 포함된 히든 노드들은 연결 가중치를 가지는 연결선들을 통해 서로 연결될 수 있다. 히든 레이어(220)에 포함된 히든 노드들과 출력 레이어(230)에 포함된 출력 노드들은 연결 가중치를 가지는 연결선들을 통해 서로 연결될 수 있다.
신경망(200)의 학습 과정에서, 인공 뉴런들 사이의 연결 가중치는 오류 역 전파 학습(back-propagation learning)을 통해 업데이트될 수 있다. 오류 역 전파 학습은, 주어진 학습 데이터에 대해 포워드 계산(forward computation)을 통하여 오류를 추정한 후, 출력 레이어(230)에서 시작하여 히든 레이어(220) 및 입력 레이어(210)를 향하는 역 방향으로 추정한 오류를 전파하면서, 오류를 줄이는 방향으로 연결 가중치를 업데이트하는 방법이다.
도 3을 참조하면, 회귀 신경망(300)은 서로 다른 시간 구간에서 히든 노드들 간에 재귀적(recurrent)인 연결이 있는 신경망이다. 일반적인 신경망과 달리, 회귀 신경망은 임의의 인풋 시퀀스를 처리하는 내부 메모리를 이용할 수 있다. 이전 시간 구간(310)에서의 히든 노드의 출력은 현재 시간 구간(320)에서의 히든 노드들에 연결될 수 있다. 현재 시간 구간(320)에서의 히든 노드의 출력은 다음 시간 구간(330)에서의 히든 노드들에 연결될 수 있다.
일 예로, 이전 시간 구간(310)에서의 제1 히든 노드(311), 현재 시간 구간(320)에서의 제2 히든 노드(321), 및 다음 시간 구간(330)에서의 제3 히든 노드(331)는 서로 도 4와 같이 연결될 수 있다. 도 4를 참조하면, 제1 히든 노드(311)의 출력은 제2 히든 노드(321)로 입력되고, 제2 히든 노드(321)의 출력은 제3 히든 노드(331)로 입력될 수 있다.
도 5를 참조하면, 양방향 회귀 신경망(500)은 서로 다른 시간 구간에서 히든 노드들 간에 양 방향으로 재귀적(recurrent)인 연결이 있는 신경망이다. 양방향 회귀 신경망도 회귀 신경망처럼 임의의 인풋 시퀀스를 처리하는 내부 메모리를 이용할 수 있다. 이전 시간 구간(510)에서의 히든 노드의 출력은 현재 시간 구간(520)에서의 히든 노드들에 연결될 수 있고, 현재 시간 구간(520)에서의 히든 노드의 출력은 다음 시간 구간(530)에서의 히든 노드들에 연결될 수 있다. 또한, 다음 시간 구간(530)에서의 히든 노드의 출력은 현재 시간 구간(520)에서의 히든 노드들에 연결될 수 있고, 현재 시간 구간(520)에서의 히든 노드의 출력은 이전 시간 구간(510)에서의 히든 노드들에 연결될 수 있다.
일 예로, 이전 시간 구간(510)에서의 제1-1 히든 노드(511), 제1-2 히든 노드(512), 현재 시간 구간(520)에서의 제2-1 히든 노드(521), 제2-2 히든 노드(522), 다음 시간 구간(530)에서의 제3-1 히든 노드(531), 및 제3-2 히든 노드(532)는 서로 도 6과 같이 연결될 수 있다. 도 4를 참조하면, 제3-1 히든 노드(531)의 출력은 제2-1 히든 노드(521)로 입력되고, 제2-1 히든 노드(521)의 출력은 제1-1 히든 노드(511)로 입력될 수 있다. 또한, 제1-2 히든 노드(512)의 출력은 제2-2 히든 노드(522)로 입력되고, 제2-2 히든 노드(522)의 출력은 제3-2 히든 노드(532)로 입력될 수 있다.
양방향 회귀 신경망 언어 모델은 양방향 회귀 신경망을 이용하여 언어의 문맥, 문법 등을 학습한 모델이다. 다시 도 1을 참조하면, 제2 인식부(120)는 양방향 회귀 신경망 언어 모델을 이용함으로써, 문장의 전후 문맥에 기반하여 임시 인식 결과에 해당하는 문장 내 단어를 수정할 수 있다. 예를 들어, 임시 인식 결과에 해당하는 문장 내 임의의 단어가 양방향 회귀 신경망에서 현재 시간 구간에 대응한다고 가정하면, 해당 단어보다 앞에 위치한 단어는 양방향 회귀 신경망에서 이전 시간 구간에 대응할 수 있다. 또한, 임시 인식 결과에 해당하는 문장 내 해당 단어보다 뒤에 위치한 단어는 양방향 회귀 신경망에서 다음 시간 구간에 대응할 수 있다.
이하, 설명의 편의를 위하여, 제2 인식부(120)가 양방향 회귀 신경망 언어 모델을 이용하는 경우를 설명하나, 제2 인식부(120)의 동작은 이에 제한되지 않는다. 예를 들어, 제2 인식부(120)는 양방향 회귀 신경망 언어 모델 이외에도 문장 내 전후 문맥에 기반하는 어떠한 언어 모델이라도 이용할 수 있다.
도 7은 일 실시예에 따른 음성 인식 장치의 동작을 설명하는 도면이다. 도 7을 참조하면, 제1 인식부(110)는 사용자의 음성(710)을 1차적으로 인식함으로써 임시 인식 결과를 생성하고, 제2 인식부(120)는 임시 인식 결과를 2차적으로 검증함으로써 최종 인식 결과를 생성할 수 있다.
예를 들어, 제1 인식부(110)는 "Today my mom taught me a story."라는 음성(710)을 수신할 수 있다. 제1 인식부(110)는 노이즈 등의 영향으로 음성(710)을 정확하게 인식하지 못할 수 있다. 예를 들어, 음성(710) 중 'taught'가 수신되는 시점에 노이즈(715)가 발생된 경우, 제1 인식부(110)는 'taught'를 'sought'라고 잘못 인식할 수 있다. 이 경우, 제1 인식부(110)에 의하여 생성되는 임시 인식 결과는 "Today my mom sought me a story"일 수 있다.
제2 인식부(120)는 양방향 회귀 신경망 언어 모델을 이용하여 전후 문맥 상 'sought'가 부적합하다고 판단할 수 있다. 제2 인식부(120)는 부적합하다고 판단된 'sought'를 'taught'로 수정할 수 있다. 제2 인식부(120)는 수정된 문장을 출력할 수 있다. 이 경우, 제2 인식부(120)에 의하여 생성되는 최종 인식 결과는 "Today my mom taught me a story"일 수 있다. 이하, 도 8 내지 도 13을 참조하여 제2 인식부(120)의 동작을 상세하게 설명한다.
도 8은 일 실시예에 따른 제2 인식부를 나타낸 블록도이다. 도 8을 참조하면, 제2 인식부(120)는 계산부(121), 검출부(122), 및 대체부(123)를 포함한다. 계산부(121), 검출부(122), 및 대체부(123)는 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 조합으로 구현될 수 있다.
계산부(121)는 제1 인식부(110)에 의하여 생성된 문장에 포함된 단어들 각각에 대하여, 문장 내 나머지 단어들과의 관계에 기반한 적합도를 계산할 수 있다. 검출부(122)는 계산된 단어들의 적합도들에 기초하여 단어들 중 수정이 필요한 대상 단어를 검출할 수 있다. 대체부(123)는 검출된 대상 단어에 대응하는 후보 단어들 중 어느 하나로 대상 단어를 대체(replace)할 수 있다.
일 예로, 도 9a를 참조하면, 계산부(121)는 양방향 회귀 신경망 언어 모델을 이용하여 임시 인식 결과에 해당하는 문장에 포함된 단어의 적합도를 계산할 수 있다. 양방향 회귀 신경망 언어 모델은 임시 인식 결과에 해당하는 문장을 입력 받아, 해당 문장에 포함된 단어들 각각의 적합도를 출력할 수 있다.
양방향 회귀 신경망 언어 모델은 문장의 전후 문맥에 기초하여 'Today'의 적합도(s1)를 출력할 수 있다. 'Today'의 적합도(s1)는 조건 확률(conditional probability)일 수 있다. 예를 들어, 'Today'의 적합도(s1)는 나머지 단어들이 주어진 상황에서 'Today'가 문장의 해당 위치에 등장할 가능성으로 표현될 수 있다. 양방향 회귀 신경망 언어 모델은 'my'의 적합도(s2), 'mom'의 적합도(s3), 'sought'의 적합도(s4), 'me'의 적합도(s5), 'a'의 적합도(s6), 'story'의 적합도(s7) 등 임시 인식 결과에 해당하는 문장 내 나머지 단어들의 적합도들도 출력할 수 있다.
검출부(122)는 계산된 적합도들(s1~s7)에 기초하여, 수정이 필요한 대상 단어를 검출할 수 있다. 예를 들어, 검출부(122)는 미리 정해진 임계 값 미만의 적합도를 가지는 단어들을 검출하거나, 적합도가 작은 순서로 미리 정해진 수의 단어들을 검출할 수 있다. 이하, 설명의 편의를 위하여 적합도가 가장 작은 하나의 단어를 검출하는 경우를 설명한다.
전술한 예시에서, 계산된 적합도들(s1~s7) 중 'sought'의 적합도(s4)가 가장 작을 수 있다. 예를 들어, 'sought'는 전후 문맥상 다른 단어들과 어울리지 않고, 'sought'는 언어 문법상 5형식의 문장 구조에 적합하지 않는 등의 다양한 요인에 의하여, 'sought'의 적합도(s4)가 가장 작게 계산될 수 있다. 이 경우, 검출부(122)는 'sought'를 수정이 필요한 대상 단어로 검출할 수 있다.
다른 예로, 도 9b를 참조하면, 계산부(121)는 'Today'와 문장 내 나머지 단어들 사이의 관계에 기초하여 'Today'의 적합도(s1)를 계산할 수 있다. 'Today'와 문장 내 나머지 단어들 사이의 관계는 양방향 회귀 신경망 언어 모델을 이용하여 스코어로 표현될 수 있다. 예를 들어, 계산부(121)는 'Today'와 'my' 사이의 관계에 대응하는 스코어(s1-1), 'Today'와 'mom' 사이의 관계에 대응하는 스코어(s1-2), 'Today'와 'sought' 사이의 관계에 대응하는 스코어(s1-3), 'Today'와 'me' 사이의 관계에 대응하는 스코어(s1-4), 'Today'와 'a' 사이의 관계에 대응하는 스코어(s1-5), 및 'Today'와 'story' 사이의 관계에 대응하는 스코어(s1-6)를 계산할 수 있다.
계산부(121)는 스코어(s1-1), 스코어(s1-2), 스코어(s1-3), 스코어(s1-4), 스코어(s1-5), 및 스코어(s1-6)에 기초하여 'Today'의 적합도(s1)을 계산할 수 있다. 예를 들어, 계산부는 스코어(s1-1), 스코어(s1-2), 스코어(s1-3), 스코어(s1-4), 스코어(s1-5), 및 스코어(s1-6)의 합계, 평균, 분산, 표준편차 등 다양한 통계를 이용하여 'Today'의 적합도(s1)을 계산할 수 있다. 계산부(121)는 동일한 방식으로 'my'의 적합도(s2), 'mom'의 적합도(s3), 'sought'의 적합도(s4), 'me'의 적합도(s5), 'a'의 적합도(s6), 및 'story'의 적합도(s7)를 계산할 수 있다.
도 10을 참조하면, 대체부(123)는 대상 단어를 위한 후보 단어들을 결정하고, 결정된 후보 단어들 중 최적의 후보 단어를 선택할 수 있다. 대체부(123)는 다양한 방식으로 후보 단어들을 결정할 수 있다. 예를 들어, 대체부(123)는 임시 인식 결과에 해당하는 문장 내 대상 단어의 위치, 임시 인식 결과에 해당하는 문장에서 대상 단어를 제외한 나머지 단어들과의 관계, 대상 단어의 음소 시퀀스(phoneme sequence)와의 유사도, 임시 인식 결과에 해당하는 문장에 선행하는 이전 문장의 문맥(context) 등에 기초하여 후보 단어들을 결정할 수 있다.
대체부(123)는 미리 구비된 단어 사전으로부터 후보 단어들을 획득할 수 있다. 대체부(123)는 임시 인식 결과에 해당하는 문장 내 대상 단어의 위치, 임시 인식 결과에 해당하는 문장에서 대상 단어를 제외한 나머지 단어들과의 관계, 대상 단어의 음소 시퀀스와의 유사도, 임시 인식 결과에 해당하는 문장에 선행하는 이전 문장의 문맥 등에 기초하여 미리 구비된 단어 사전으로부터 후보 단어들을 획득할 수 있다.
예를 들어, 대체부(123)는 대상 단어(1010)를 제외한 나머지 단어들과의 관계에서 문맥적으로 대상 단어(1010)의 위치에 대입 가능한 후보 단어들(1020)을 단어 사전으로부터 획득할 수 있다. 또는, 대체부(123)는 문법적으로 임시 인식 결과에 해당하는 문장 내 대상 단어(1010)의 위치에 대입 가능한 후보 단어들(1020)을 단어 사전으로부터 획득할 수 있다. 또는, 대체부는(123)는 대상 단어(1010)의 음소 시퀀스와 유사도가 일정 이상인 후보 단어들(1020)을 단어 사전으로부터 획득하거나, 대상 단어(1010)의 음소 시퀀스와 유사도가 일정 이상 차이가 나는 단어들을 후보 단어들(1020)에서 배제할 수 있다. 또는, 대체부(123)는 이전 문장의 문맥에 따라 대상 단어(1010)의 위치에 대입하기 적합한 후보 단어들(1020)을 단어 사전으로부터 획득할 수도 있다.
후보 단어들(1020)이 결정되면, 대체부(123)는 후보 단어들(1020) 중 최적의 후보 단어를 선택할 수 있다. 대체부(123)는 다양한 방식으로 최적의 후보 단어를 선택할 수 있다. 예를 들어, 대체부(123)는 후보 단어들(1020) 중 대상 단어의 음소 시퀀스(1015)와 가장 유사한 음소 시퀀스를 가지는 후보 단어를 최적의 후보 단어로 선택할 수 있다. 대체부(123)는 대상 단어(1010)를 최적의 후보 단어(1030)로 대체할 수 있다.
일 예로, 후보 단어들(1020)은 'told', 'taught', 'said', 'asked' 등을 포함할 수 있다. 대체부(123)는 후보 단어들(1020) 중 대상 단어의 음소 시퀀스(1015)인 'sought'와 가장 유사한 음소 시퀀스를 가지는 후보 단어인 'taught'를 최적의 후보 단어로 선택할 수 있다. 대체부(123)는 임시 인식 결과에 해당하는 문장에서 'sought'를 'taught'로 수정한 뒤, 수정된 문장을 출력할 수 있다.
대체부(123)는 언어 모델에 기반한 정보와 음성 모델에 기반한 정보를 함께 고려하여 후보 단어들(1020) 중 최적의 후보 단어를 선택할 수 있다. 도 11을 참조하면, 언어 모델에 기반한 정보(1115)와 음성 모델에 기반한 정보(1125)를 함께 고려하여 후보 단어들의 적합도(1130)를 계산할 수 있다.
언어 모델에 기반한 정보(1115)는 언어 모델에 기초하여 계산된 후보 단어들의 문맥 점수들을 포함할 수 있다. 후보 단어들 각각의 문맥 점수는 조건 확률일 수 있다. 예를 들어, 문장 내 나머지 단어들이 주어진 상황에서, 언어 모델에 기초하여 후보 단어들 각각의 조건 확률이 계산될 수 있다.
음성 모델에 기반한 정보(1125)는 음성 모델에 기초하여 계산된 후보 단어들의 발음 점수들을 포함할 수 있다. 후보 단어들 각각의 발음 점수는 음소 시퀀스의 유사도일 수 있다. 예를 들어, 언어 모델에 기초하여, 대상 단어의 음소 시퀀스와 후보 단어들 각각의 음소 시퀀스 사이의 유사도가 계산될 수 있다.
대체부(123)는 언어 모델의 가중치(1110)와 음성 모델의 가중치(1120)를 이용하여, 언어 모델에 기반한 정보(1115) 및 음성 모델에 기반한 정보(1125)가 후보 단어들의 적합도(1130)에 반영되는 비율을 조절할 수 있다. 대체부(123)는 언어 모델의 가중치(1110)와 음성 모델의 가중치(1120)를 동적으로 제어할 수 있다. 예를 들어, 대체부(123)는 음성 모델의 신뢰도가 높은 경우 음성 모델의 가중치(1120)를 증가시키거나 언어 모델의 가중치(1110)를 감소시킬 수 있다. 또는, 대체부(123)는 언어 모델의 신뢰도가 높은 경우, 언어 모델의 가중치(1110)를 증가시키거나 음성 모델의 가중치(1120)를 감소시킬 수 있다.
도 12는 음성 모델의 신뢰도에 따라 언어 모델의 가중치 및 음성 모델의 가중치를 동적으로 제어하는 실시예를 설명하는 도면이다. 도 12를 참조하면, 대체부(123)는 임시 인식 결과에 포함된 각 단어들의 확률 분포에 기초하여 음성 모델의 신뢰도를 판단할 수 있다. 임시 인식 결과가 생성될 때, 음성 인식 결과에 포함된 각 단어들은 음성 모델 기반 확률 분포에 기초하여 복수의 후보 단어들 중에서 선택된 것일 수 있다. 예를 들어, 그래프(1200)의 실선(1210)과 같이 특정 후보 단어에 대해서 음성 모델 기반 확률 분포가 집중되어 있는 경우, 엔트로피가 낮다고 표현될 수 있다. 엔트로피가 낮은 경우 복수의 후보 단어들 중 특정 후보 단어를 선택하기 위한 인식 신뢰도가 높다고 이해될 수 있으며, 음성 모델의 신뢰도가 높다고 판단될 수 있다. 이 경우, 대체부(123)는 음성 모델의 가중치를 언어 모델의 가중치에 비하여 상대적으로 높게 설정할 수 있다. 또는, 대체부(123)는 언어 모델의 가중치를 음성 모델의 가중치에 비하여 상대적으로 낮게 설정할 수 있다.
또한, 그래프(1200)의 점선(1220)과 같이 다수의 후보 단어들에 대하여 음성 모델 기반 확률 분포가 고루 분포되어 있는 경우, 엔트로피가 높다고 표현될 수 있다. 엔트로피가 높은 경우 특정 후보 단어를 선택하기 위한 인식 신뢰도가 낮다고 이해될 수 있으며, 음성 모델의 신뢰도가 낮다고 판단될 수 있다. 이 경우, 대체부(123)는 음성 모델의 가중치를 언어 모델의 가중치에 비하여 상대적으로 낮게 설정할 수 있다. 또는, 대체부(123)는 언어 모델의 가중치를 음성 모델의 가중치에 비하여 상대적으로 높게 설정할 수 있다.
대체부(123)는 후보 단어들의 적합도에 기초하여, 후보 단어들 중 최적의 후보 단어를 선택할 수 있다. 예를 들어, 대체부(123)는 가장 높은 적합도를 가지는 후보 단어를 최적의 후보 단어로 선택할 수 있다.
실시예들에 따르면, 전술한 음성 인식 장치(100)의 동작 방식은 다양하게 응용될 수 있다. 도 13을 참조하면, 제1 인식부(110)는 복수의 후보 문장들을 생성할 수 있다. 제1 인식부(110)는 수신된 음성에 기초하여 다양한 후보 문장들을 생성할 수 있다.
후보 문장들은 서로 다른 음소 길이의 단어들을 포함하거나, 서로 다른 수의 단어들을 포함할 수 있다. 예를 들어, 제1 후보 문장(1311)의 첫 번째 단어의 음소 길이는 제2 후보 문장(1312)의 첫 번째 단어의 음소 길이보다 짧을 수 있다. 또한, 제1 후보 문장(1311) 및 제2 후보 문장(1312)은 총 네 개의 단어들을 포함하나, 제3 후보 문장(1313)은 총 세 개의 단어들만을 포함할 수 있다.
후보 문장들 각각은 문장 스코어로 평가될 수 있다. 예를 들어, 제1 후보 문장(1311)의 문장 스코어는 70이고, 제2 후보 문장(1312)의 문장 스코어는 65이며, 제3 후보 문장(1313)의 문장 스코어는 50일 수 있다.
제2 인식부(120)는 후보 문장들 각각에 대하여, 수정이 필요한 적어도 하나의 대상 단어를 검출할 수 있다. 제2 인식부(120)는 전술한 방식을 통하여 후보 문장들 각각을 위한 대상 단어를 최적의 후보 단어로 수정할 수 있다. 하나의 후보 문장에 둘 이상의 대상 단어들이 선택될 수도 있으며, 제2 인식부(120)는 대상 단어들을 순차적으로 수정하거나, 동시에 수정할 수 있다.
수정된 후보 문장들은 문장 스코어로 평가될 수 있다. 예를 들어, 수정된 제1 후보 문장(1321)의 문장 스코어는 75이고, 수정된 제2 후보 문장(1322)의 문장 스코어는 70이며, 수정된 제3 후보 문장(1323)의 문장 스코어는 60일 수 있다.
제2 인식부(120)는 일정 수준 이상의 문장 스코어를 가지는 후보 문장이 생성될 때까지 수정 작업을 반복할 수 있다. 제2 인식부(120)는 수정된 후보 문장들로부터 대상 단어들을 검출하고, 검출된 대상 단어들을 최적의 후보 단어들로 수정할 수 있다.
반복되는 수정 과정으로 인하여, 후보 문장들 사이의 문장 스코어 순위가 역전될 수 있다. 예를 들어, 재 수정된 제1 후보 문장(1331)의 문장 스코어는 80이고, 재 수정된 제2 후보 문장(1332)의 문장 스코어는 90이며, 재 수정된 제3 후보 문장(1333)의 문장 스코어는 70일 수 있다. 제2 인식부(120)는 재 수정된 제2 후보 문장(1332)을 최종 결과로 출력할 수 있다.
제2 인식부(120)는 후보 문장들에 대한 리스코어링(rescoring)을 통하여 최적의 후보 문장을 검출하는데 그치지 않고, 양방향 회귀 신경망 언어 모델을 이용하여 후보 문장들 내 대상 단어들을 수정할 수 있다. 제2 인식부(120)는 노이즈 등으로 인하여 후보 문장들에 정답이 없는 경우에도, 음성 인식의 정확도를 향상시킬 수 있다. 이처럼, 양방향 회귀 신경망 언어 모델을 이용하여 단어를 검색하는 제2 인식부(120)의 동작은 사람의 음성 인식 메커니즘과 유사하다.
도 14는 일 실시예에 따른 제1 인식부를 나타낸 블록도이다. 도 14를 참조하면, 제1 인식부(110)는 수신부(111), 추출부(112), 디코딩부(113), 및 생성부(114)를 포함한다. 수신부(111), 추출부(112), 디코딩부(113), 및 생성부(114)는 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 조합으로 구현될 수 있다.
수신부(111)는 사용자의 음성을 수신하고, 추출부(112)는 수신된 음성으로부터 특징(feature)들을 추출할 수 있다. 추출부(112)는 다양한 방식으로 특징들을 추출할 수 있다. 예를 들어, 추출부(112)는 LPC(Linear Predictive Coding) 기법, MFCC(Mel Frequency Cepstral Coefficients) 기법 등을 이용하여 음성으로부터 특징들을 추출할 수 있다.
디코딩부(113)는 추출된 특징들로부터 음소 시퀀스를 디코딩할 수 있다. 예를 들어, 디코딩부(113)는 음성 모델을 이용하여 특징들로부터 음소 시퀀스를 디코딩할 수 있다. 음성 모델은 템플릿 기반으로 패턴을 매칭하는 DTW(Dynamic Time Warping) 기법을 이용하거나, 통계적으로 패턴을 인식하는 HMM(Hidden Markov Modeling) 기법을 이용할 수 있다.
생성부(114)는 음소 시퀀스들로부터 단어들을 인식함으로써 임시 인식 결과에 해당하는 문장을 생성할 수 있다. 예를 들어, 생성부(114)는 제1 언어 모델을 이용하여 음소 시퀀스들로부터 단어들을 인식할 수 있다. 제1 언어 모델은 바이-그램(Bi-Gram) 등 제2 인식부(120)에 의하여 이용되는 제2 언어 모델에 비하여 단순한 언어 모델일 수 있다.
도면에 도시하지 않았으나, 제1 인식부(110)는 수신된 음성에서 인식 구간을 추출하고, 인식 구간 내 잡음을 처리하는 등 전처리 작업을 수행하는 전처리부를 더 포함할 수 있다.
도 15는 다른 실시예에 따른 음성 인식 장치를 나타낸 블록도이다. 도 15를 참조하면, 음성 인식 장치(1500)는 특징 추출부(1510), 음소 인식부(1520), 디코딩부(1530), 평가부(1540), 및 샘플링부(1550)를 포함한다. 특징 추출부(1510), 음소 인식부(1520), 디코딩부(1530), 평가부(1540), 및 샘플링부(1550)는 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 조합으로 구현될 수 있다.
특징 추출부(1510)는 음성으로부터 특징들을 추출한다. 특징 추출부(1510)는 LPC 기법, MFCC 기법 등을 이용하여 음성으로부터 특징들을 추출할 수 있다. 음소 인식부(1520)는 음성 모델(1525)을 이용하여 특징들로부터 음소들을 인식한다. 음성 모델(1525)은 DTW 기반 음성 모델, HMM 기반 음성 모델 등일 수 있다. 디코딩부(1530)는 제1 언어 모델(1535)를 이용하여 음소들로부터 단어들을 인식함으로써, 임시 인식 결과에 해당하는 문장을 생성할 수 있다. 제1 언어 모델(1535)은 N-그램 언어 모델일 수 있다.
평가부(1540)는 임시 인식 결과에 해당하는 문장 내 단어들에 대한 적합도를 평가할 수 있다. 평가부(1540)는 제2 언어 모델(1545)에 기초하여 임시 인식 결과에 해당하는 문장 내 각 단어에 대하여 전후 문맥에 기반하여 적합도를 평가할 수 있다. 제2 언어 모델(1545)는 양 방향 회귀 신경망 언어 모델일 수 있다. 평가부(1540)는 평가 결과에 기초하여, 전체 문장 중 수정이 필요한 대상 단어가 있는지 여부를 판별할 수 있다. 예를 들어, 평가부(1540)는 전체 문장의 모든 단어들에 대한 조건 확률을 계산한 뒤, 수정이 필요한 대상 단어를 검출할 수 있다.
샘플링부(1550)는 대상 단어를 위한 후보 단어들을 추천할 수 있다. 예를 들어, 샘플링부(1550)는 제2 언어 모델(1545)에 기초하여 대상 단어의 위치에 어울리는 단어들을 추천할 수 있다. 제2 언어 모델(1545)는 양 방향 회귀 신경망 언어 모델일 수 있다. 샘플링부(1550)는 양 방향 회귀 신경망 언어 모델을 이용함으로써, 문장 전체를 고려하여 대상 단어의 위치에 추천되는 후보 단어들의 확률들을 제시할 수 있다. 예를 들어, 샘플링부(1550)는 문장의 앞부분부터 대상 단어의 위치까지의 제1 부분과 문장의 뒷부분부터 대상 단어의 위치까지의 제2 부분을 고려하여, 대상 단어의 위치에 어울리는 단어들의 확률들을 계산할 수 있다. 샘플링부(1550)는 단어 사전으로부터 확률이 높은 순으로 미리 정해진 수의 후보 단어들을 선택할 수 있다.
경우에 따라, 샘플링부(1550)는 각 후보 단어들과 대상 단어의 위치에서의 음성 모델 기반 음소 시퀀스와의 거리를 비교할 수 있다. 샘플링부(1550)는 대상 단어의 위치에서의 음성 모델 기반 음소 시퀀스와의 거리가 일정 이상 떨어진 후보 단어는 탈락시킬 수 있다. 후보 단어의 음소 시퀀스는 단어 사전에 저장되어 있을 수 있다.
샘플링부(1550)는 문맥 정보를 활용하여 후보 단어들을 추천할 수 있다. 예를 들어, 샘플링부(1550)는 이전 문장의 토픽을 검출하고, 검출된 토픽을 이용하여 그 다음 문장에서 후보 단어들을 추천할 수 있다. 샘플링부(1550)는 단어 사전에 저장된 단어들의 토픽들과 이전 문장에서 검출된 토픽을 비교한 뒤, 토픽이 유사한 단어들을 집중적으로 후보 단어로 추천할 수 있다.
평가부(1540)는 샘플링 된 단어들에 대하여 적합도를 평가할 수 있다. 평가부(1540)는 대상 단어와 제2 언어 모델(1545)을 기반으로 추천된 후보 단어들을 비교함으로써, 최적의 후보 단어를 선택할 수 있다. 평가부(1540)는 대상 단어와 후보 단어들을 비교할 때, 제2 언어 모델의 가중치와 음성 모델의 가중치를 동적으로 제어할 수 있다. 예를 들어, 음성 모델을 기반으로 산출된 확률 분포가 특정 후보 단어에 집중되는 등 엔트로피가 낮은 경우, 음성 모델에 높은 가중치를 줄 수 있다. 반면, 음성 모델 기반 확률 분포가 다수의 후보 단어들에 골고루 분포되는 등 엔트로피가 높은 경우, 음성 모델에 낮은 가중치를 줄 수 있다.
음성 모델(1525), 제1 언어 모델(1535), 및 제2 언어 모델(1545)은 각각 음성 인식 장치(1500) 내 미리 구비된 저장 공간에 저장되거나, 원격에 위치한 서버에 저장될 수 있다. 음성 모델(1525), 제1 언어 모델(1535), 또는 제2 언어 모델(1545)이 원격의 서버에 저장되는 경우, 음성 인식 장치(1500)는 네트워크를 통하여 서버에 저장된 모델을 이용할 수 있다.
음성 인식 장치(1500)는 이벤트 성 노이즈에 대하여 강건한 음성 인식 결과를 출력할 수 있다. 음성 인식 장치(1500)는 노이즈 등으로 인식률이 저하되는 상황에서 언어 모델에 근거한 샘플링을 통하여 인식률을 향상시키는 기술을 제공할 수 있다.
도 16 내지 도 18은 실시예들에 따른 음성 인식 방법을 나타낸 동작 흐름도들이다. 도 16을 참조하면, 일 실시예에 따른 음성 인식 방법은 음성 인식에 의하여 생성된 문장을 수신하는 단계(1610); 문장에 포함된 단어들 각각에 대하여, 문장 내 나머지 단어들과의 관계에 기반한 적합도를 계산하는 단계(1620); 단어들의 적합도들에 기초하여, 단어들 중 수정이 필요한 대상 단어를 검출하는 단계(1630); 및 대상 단어에 대응하는 후보 단어들 중 어느 하나로 대상 단어를 대체하는 단계(1640)를 포함한다. 도 16에 도시된 각 단계들에는 도 1의 제2 인식부(120)의 동작이 그대로 적용될 수 있으므로, 보다 상세한 설명은 생략한다.
도 17을 참조하면, 일 실시예에 따른 음성 인식 방법은 사용자의 음성을 수신하는 단계(1710); 음성으로부터 특징들을 추출하는 단계(1720); 음성 모델을 이용하여 특징들로부터 음소 시퀀스를 인식하는 단계(1730); 및 언어 모델을 이용하여 음소 시퀀스로부터 단어들을 인식함으로써, 문장을 생성하는 단계(1740)를 더 포함할 수 있다. 도 17에 도시된 각 단계들에는 도 1의 제1 인식부(110)의 동작이 그대로 적용될 수 있으므로, 보다 상세한 설명은 생략한다.
도 18을 참조하면, 일 실시예에 따른 음성 인식 방법은 음성으로부터 특징들을 추출하는 단계(1810); 특징들로부터 음소들을 인식하는 단계(1820); 음소들로부터 단어들을 디코딩하는 단계(1830); 단어들을 평가하는 단계(1840); 부적합한 단어가 존재하는지 여부를 판단하는 단계(1850); 및 부적합한 단어가 존재하는 경우, 해당 단어를 대체하기 위한 후보 단어들을 샘플링하는 단계(1860)를 포함한다.
단계(1840)에서 샘플링 된 후보 단어들이 평가됨으로써, 부적합한 단어를 대체하기 위한 최적의 후보 단어가 선택될 수 있다. 단계(1840), 단계(1850), 및 단계(1860)은 부적합한 단어가 존재하지 않을 때까지 반복될 수 있다. 더 이상 부적합한 단어가 존재하지 않는 경우, 단계(1870)에서 최적 문장이 출력될 수 있다.
도 18에 도시된 각 단계들에는 도 15의 음성 인식 장치(1500)의 동작이 그대로 적용될 수 있으므로, 보다 상세한 설명은 생략한다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 비록 한정된 도면에 의해 실시예들이 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
Claims (20)
- 음성 인식에 의하여 생성된 문장을 수신하는 단계;
상기 문장에 포함된 단어들 각각에 대하여, 상기 문장 내 나머지 단어들과의 관계에 기반한 적합도를 계산하는 단계;
상기 단어들의 적합도들에 기초하여, 상기 단어들 중 수정이 필요한 대상 단어를 검출하는 단계; 및
상기 대상 단어의 음소 시퀀스(phoneme sequence)와의 유사도에 기초하여, 상기 대상 단어에 대응하는 후보 단어들 중 어느 하나로 상기 대상 단어를 대체(replace)하는 단계
를 포함하는 음성 인식 방법.
- 제1항에 있어서,
상기 적합도를 계산하는 단계는
양방향 회귀 신경망(bidirectional recurrent neural network) 언어 모델(language model)을 이용하여 상기 단어들 각각의 적합도를 계산하는 단계
를 포함하는, 음성 인식 방법.
- 제1항에 있어서,
상기 대상 단어를 검출하는 단계는
미리 정해진 임계 값 미만의 적합도를 가지는 단어들을 검출하는 단계; 및
적합도가 작은 순서로 미리 정해진 수의 단어들을 검출하는 단계
중 적어도 하나를 포함하는, 음성 인식 방법.
- 제1항에 있어서,
상기 대상 단어를 대체하는 단계는
상기 문장에서 상기 대상 단어를 제외한 나머지 단어들과의 관계 및 상기 문장에 선행하는 이전 문장의 문맥(context) 중 적어도 하나에 기초하여 상기 후보 단어들을 결정하는 단계
를 포함하는, 음성 인식 방법.
- 제4항에 있어서,
상기 후보 단어들을 결정하는 단계는
미리 구비된 단어 사전으로부터, 상기 후보 단어들을 획득하는 단계
를 포함하는, 음성 인식 방법.
- 제1항에 있어서,
상기 대상 단어를 대체하는 단계는
상기 후보 단어들 각각에 대하여, 상기 대상 단어의 음소 시퀀스와의 유사도에 기반한 제1 모델 및 상기 문장에서 상기 대상 단어를 제외한 나머지 단어들과의 관계에 기반한 제2 모델 및 중 적어도 하나에 기초하여 해당 후보 단어의 적합도를 계산하는 단계
를 포함하는, 음성 인식 방법.
- 제6항에 있어서,
상기 대상 단어를 대체하는 단계는
상기 제1 모델을 위한 제1 가중치 및 상기 제2 모델을 위한 제2 가중치를 설정하는 단계
를 더 포함하는, 음성 인식 방법.
- 제7항에 있어서,
상기 제1 가중치 및 상기 제2 가중치를 설정하는 단계는
상기 문장과 관련된 제1 모델 기반 확률 분포에 기초하여, 상기 제1 가중치 및 상기 제2 가중치를 동적으로 제어하는 단계
를 포함하는, 음성 인식 방법.
- 제1항에 있어서,
사용자의 음성을 수신하는 단계;
상기 음성으로부터 특징(feature)들을 추출하는 단계;
음성 모델을 이용하여 상기 특징들로부터 음소 시퀀스를 인식하는 단계; 및
언어 모델을 이용하여 상기 음소 시퀀스로부터 단어들을 인식함으로써, 상기 문장을 생성하는 단계
를 더 포함하는, 음성 인식 방법.
- 제9항에 있어서,
상기 언어 모델은
바이-그램(Bi-Gram) 언어 모델(language model)을 포함하는, 음성 인식 방법.
- 하드웨어와 결합되어 제1항 내지 제10항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
- 사용자의 음성을 인식함으로써 문장을 생성하는 제1 인식부; 및
상기 문장 내 전후 문맥에 기반한 언어 모델에 기초하여, 상기 문장 내 적어도 하나의 단어를 수정하는 제2 인식부
를 포함하고,
상기 제2 인식부는
상기 문장에 포함된 단어들 각각에 대하여, 상기 문장 내 나머지 단어들과의 관계에 기반한 적합도를 계산하는 계산부;
상기 단어들의 적합도들에 기초하여 상기 단어들 중 수정이 필요한 대상 단어를 검출하는 검출부; 및
상기 대상 단어의 음소 시퀀스(phoneme sequence)와의 유사도에 기초하여, 상기 대상 단어에 대응하는 후보 단어들 중 어느 하나로 상기 대상 단어를 대체(replace)하는 대체부
를 포함하는 음성 인식 장치.
- 제12항에 있어서,
상기 제1 인식부는
상기 음성을 수신하는 수신부;
상기 음성으로부터 특징(feature)들을 추출하는 추출부;
상기 특징들로부터 음소 시퀀스를 디코딩하는 디코딩부; 및
상기 음소 시퀀스로부터 단어들을 인식함으로써, 상기 문장을 생성하는 생성부
를 포함하는, 음성 인식 장치.
- 제12항에 있어서,
상기 언어 모델은
양방향 회귀 신경망(bidirectional recurrent neural network) 언어 모델(language model)을 포함하는, 음성 인식 장치.
- 삭제
- 제12항에 있어서,
상기 검출부는
미리 정해진 임계 값 미만의 적합도를 가지는 단어들을 검출하거나, 적합도가 작은 순서로 미리 정해진 수의 단어들을 검출하는, 음성 인식 장치.
- 제12항에 있어서,
상기 대체부는
상기 문장 내 상기 대상 단어의 위치, 상기 문장에서 상기 대상 단어를 제외한 나머지 단어들과의 관계 및 상기 문장에 선행하는 이전 문장의 문맥(context) 중 적어도 하나에 기초하여 상기 후보 단어들을 결정하는, 음성 인식 장치.
- 제17항에 있어서,
상기 대체부는
미리 구비된 단어 사전으로부터, 상기 후보 단어들을 획득하는, 음성 인식 장치.
- 제12항에 있어서,
상기 대체부는
상기 후보 단어들 각각에 대하여, 상기 대상 단어의 음소 시퀀스와의 유사도에 기반한 제1 모델 및 상기 문장에서 상기 대상 단어를 제외한 나머지 단어들과의 관계에 기반한 제2 모델 중 적어도 하나에 기초하여 해당 후보 단어의 적합도를 계산하는, 음성 인식 장치.
- 제19항에 있어서,
상기 대체부는
상기 문장과 관련된 제1 모델 기반 확률 분포에 기초하여, 상기 제1 모델을 위한 제1 가중치 및 상기 제2 모델을 위한 제2 가중치를 동적으로 제어하는, 음성 인식 장치.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140170818A KR102380833B1 (ko) | 2014-12-02 | 2014-12-02 | 음성 인식 방법 및 음성 인식 장치 |
US14/870,963 US9940933B2 (en) | 2014-12-02 | 2015-09-30 | Method and apparatus for speech recognition |
JP2015210588A JP6762701B2 (ja) | 2014-12-02 | 2015-10-27 | 音声認識方法及び音声認識装置 |
EP15193814.9A EP3029669B1 (en) | 2014-12-02 | 2015-11-10 | Method and apparatus for speech recognition |
CN201510872727.3A CN105654946B (zh) | 2014-12-02 | 2015-12-02 | 用于语音识别的设备和方法 |
US15/946,840 US11176946B2 (en) | 2014-12-02 | 2018-04-06 | Method and apparatus for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140170818A KR102380833B1 (ko) | 2014-12-02 | 2014-12-02 | 음성 인식 방법 및 음성 인식 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160066441A KR20160066441A (ko) | 2016-06-10 |
KR102380833B1 true KR102380833B1 (ko) | 2022-03-31 |
Family
ID=54478654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140170818A KR102380833B1 (ko) | 2014-12-02 | 2014-12-02 | 음성 인식 방법 및 음성 인식 장치 |
Country Status (5)
Country | Link |
---|---|
US (2) | US9940933B2 (ko) |
EP (1) | EP3029669B1 (ko) |
JP (1) | JP6762701B2 (ko) |
KR (1) | KR102380833B1 (ko) |
CN (1) | CN105654946B (ko) |
Families Citing this family (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10643616B1 (en) * | 2014-03-11 | 2020-05-05 | Nvoq Incorporated | Apparatus and methods for dynamically changing a speech resource based on recognized text |
KR102305584B1 (ko) * | 2015-01-19 | 2021-09-27 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치 |
KR102365757B1 (ko) * | 2015-09-09 | 2022-02-18 | 삼성전자주식회사 | 인식 장치, 인식 방법 및 협업 처리 장치 |
KR102450853B1 (ko) * | 2015-11-30 | 2022-10-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
JP6604836B2 (ja) * | 2015-12-14 | 2019-11-13 | 株式会社日立製作所 | 対話テキスト要約装置及び方法 |
US20170229124A1 (en) * | 2016-02-05 | 2017-08-10 | Google Inc. | Re-recognizing speech with external data sources |
CN106169094A (zh) * | 2016-07-07 | 2016-11-30 | 江苏大学 | 一种基于分布式神经元的rnnlm系统及其设计方法 |
GB2552014B (en) * | 2016-07-07 | 2020-05-13 | Advanced Risc Mach Ltd | Reconfigurable artificial neural networks comprising programmable non-volatile memory elements |
KR102604552B1 (ko) * | 2016-07-15 | 2023-11-22 | 삼성전자주식회사 | 단어 임베딩 방법, 단어 임베딩 장치, 음성 인식 방법 및 음성 인식 장치 |
CN106297797B (zh) | 2016-07-26 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠错方法和装置 |
US10019986B2 (en) * | 2016-07-29 | 2018-07-10 | Google Llc | Acoustic model training using corrected terms |
KR102033411B1 (ko) * | 2016-08-12 | 2019-10-17 | 한국전자통신연구원 | 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치 및 방법 |
US10834439B2 (en) * | 2016-09-30 | 2020-11-10 | Rovi Guides, Inc. | Systems and methods for correcting errors in caption text |
US9959861B2 (en) | 2016-09-30 | 2018-05-01 | Robert Bosch Gmbh | System and method for speech recognition |
KR102617717B1 (ko) * | 2016-10-18 | 2023-12-27 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US9984689B1 (en) * | 2016-11-10 | 2018-05-29 | Linearhub | Apparatus and method for correcting pronunciation by contextual recognition |
CN108073929B (zh) * | 2016-11-15 | 2023-11-24 | 北京三星通信技术研究有限公司 | 基于动态视觉传感器的物体检测方法及设备 |
KR102426435B1 (ko) * | 2016-11-29 | 2022-07-29 | 삼성전자주식회사 | 사용자 입력에 기반한 문장을 제공하는 장치 및 방법 |
KR20180068475A (ko) | 2016-12-14 | 2018-06-22 | 삼성전자주식회사 | 순환 모델에 기초한 인식 및 순환 모델을 트레이닝하는 방법과 장치 |
KR20180071029A (ko) | 2016-12-19 | 2018-06-27 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
KR102692670B1 (ko) | 2017-01-04 | 2024-08-06 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
WO2018135303A1 (ja) | 2017-01-18 | 2018-07-26 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
JP7107228B2 (ja) | 2017-01-18 | 2022-07-27 | ソニーグループ株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
KR101881862B1 (ko) * | 2017-02-10 | 2018-07-25 | 한국외국어대학교 연구산학협력단 | 의료 영상 판독문 생성 장치 및 방법 |
CN106782560B (zh) * | 2017-03-06 | 2020-06-16 | 海信集团有限公司 | 确定目标识别文本的方法及装置 |
CN108694163B (zh) * | 2017-04-06 | 2021-11-26 | 富士通株式会社 | 计算句子中的词的概率的方法、装置和神经网络 |
CN107103903B (zh) * | 2017-05-05 | 2020-05-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声学模型训练方法、装置及存储介质 |
CA3064771A1 (en) * | 2017-06-01 | 2018-12-06 | Royal Bank Of Canada | System and method for test generation |
CN109144284B (zh) * | 2017-06-15 | 2022-07-15 | 百度在线网络技术(北京)有限公司 | 信息显示方法和装置 |
CN107240395B (zh) * | 2017-06-16 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 一种声学模型训练方法和装置、计算机设备、存储介质 |
CN107293296B (zh) * | 2017-06-28 | 2020-11-20 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠正方法、装置、设备及存储介质 |
CN108288468B (zh) * | 2017-06-29 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置 |
US20190147855A1 (en) * | 2017-11-13 | 2019-05-16 | GM Global Technology Operations LLC | Neural network for use in speech recognition arbitration |
US10409898B2 (en) | 2017-11-17 | 2019-09-10 | Adobe Inc. | Generating a targeted summary of textual content tuned to a target audience vocabulary |
CN107978315B (zh) * | 2017-11-20 | 2021-08-10 | 徐榭 | 基于语音识别的对话式放射治疗计划系统及制定方法 |
KR102458244B1 (ko) * | 2017-11-23 | 2022-10-24 | 삼성전자주식회사 | 기계 번역 방법 및 장치 |
CN108573707B (zh) * | 2017-12-27 | 2020-11-03 | 北京金山云网络技术有限公司 | 一种语音识别结果的处理方法、装置、设备及介质 |
CN108417210B (zh) * | 2018-01-10 | 2020-06-26 | 苏州思必驰信息科技有限公司 | 一种词嵌入语言模型训练方法、词语识别方法及系统 |
CN108417202B (zh) * | 2018-01-19 | 2020-09-01 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
KR20190090646A (ko) * | 2018-01-25 | 2019-08-02 | 필아이티 주식회사 | 단어 예측을 수행하는 방법 및 모바일 장치 |
US11004453B2 (en) * | 2018-04-04 | 2021-05-11 | Sensory, Incorporated | Avoiding wake word self-triggering |
CN108664466B (zh) * | 2018-04-11 | 2022-07-08 | 广州视源电子科技股份有限公司 | 候选词评估方法、装置、计算机设备和存储介质 |
CN109062888B (zh) * | 2018-06-04 | 2023-03-31 | 昆明理工大学 | 一种出现错误文本输入时的自纠正方法 |
CN110689881B (zh) * | 2018-06-20 | 2022-07-12 | 深圳市北科瑞声科技股份有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
KR20200030789A (ko) * | 2018-09-13 | 2020-03-23 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
KR102622350B1 (ko) * | 2018-10-12 | 2024-01-09 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN112997247A (zh) * | 2018-11-05 | 2021-06-18 | 株式会社赛斯特安国际 | 利用大数据的最佳语言模型生成方法及用于其的装置 |
CN109598002A (zh) * | 2018-11-15 | 2019-04-09 | 重庆邮电大学 | 基于双向循环神经网络的神经机器翻译方法和系统 |
KR20200059703A (ko) | 2018-11-21 | 2020-05-29 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
CN109767763B (zh) * | 2018-12-25 | 2021-01-26 | 苏州思必驰信息科技有限公司 | 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置 |
CN109740126B (zh) * | 2019-01-04 | 2023-11-21 | 平安科技(深圳)有限公司 | 文本匹配方法、装置及存储介质、计算机设备 |
KR102181742B1 (ko) * | 2019-01-10 | 2020-11-24 | 주식회사 케이티 | 추천 문장을 제공하는 대화 분석 서버, 방법 및 컴퓨터 프로그램 |
US11615786B2 (en) * | 2019-03-05 | 2023-03-28 | Medyug Technology Private Limited | System to convert phonemes into phonetics-based words |
US11158307B1 (en) * | 2019-03-25 | 2021-10-26 | Amazon Technologies, Inc. | Alternate utterance generation |
KR20210016767A (ko) * | 2019-08-05 | 2021-02-17 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
CN112562675B (zh) * | 2019-09-09 | 2024-05-24 | 北京小米移动软件有限公司 | 语音信息处理方法、装置及存储介质 |
KR20210044559A (ko) | 2019-10-15 | 2021-04-23 | 삼성전자주식회사 | 출력 토큰 결정 방법 및 장치 |
KR102577589B1 (ko) * | 2019-10-22 | 2023-09-12 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
KR20210060897A (ko) * | 2019-11-19 | 2021-05-27 | 삼성전자주식회사 | 음성 처리 방법 및 장치 |
CN110956959B (zh) * | 2019-11-25 | 2023-07-25 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
CN111613214A (zh) * | 2020-05-21 | 2020-09-01 | 重庆农村商业银行股份有限公司 | 一种用于提升语音识别能力的语言模型纠错方法 |
CN111933129B (zh) * | 2020-09-11 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 音频处理方法、语言模型的训练方法、装置及计算机设备 |
CN112669845B (zh) * | 2020-12-25 | 2024-04-12 | 竹间智能科技(上海)有限公司 | 语音识别结果的校正方法及装置、电子设备、存储介质 |
WO2022203167A1 (en) | 2021-03-25 | 2022-09-29 | Samsung Electronics Co., Ltd. | Speech recognition method, apparatus, electronic device and computer readable storage medium |
CN113378530A (zh) * | 2021-06-28 | 2021-09-10 | 北京七维视觉传媒科技有限公司 | 语音编辑方法及装置、设备和介质 |
CN113362809B (zh) * | 2021-07-02 | 2023-02-21 | 上海淇玥信息技术有限公司 | 语音识别方法、装置和电子设备 |
KR20230037804A (ko) * | 2021-09-10 | 2023-03-17 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 처리 방법 |
CN113707135B (zh) * | 2021-10-27 | 2021-12-31 | 成都启英泰伦科技有限公司 | 一种高精度连续语音识别的声学模型训练方法 |
CN114399998B (zh) * | 2021-12-03 | 2022-09-27 | 北京百度网讯科技有限公司 | 语音处理方法、装置、设备、存储介质及程序产品 |
US20230245649A1 (en) * | 2022-02-03 | 2023-08-03 | Soundhound, Inc. | Token confidence scores for automatic speech recognition |
KR20230127783A (ko) * | 2022-02-25 | 2023-09-01 | 삼성전자주식회사 | 사용자의 음성 입력을 처리하는 방법 및 이를 위한 장치 |
US11657803B1 (en) * | 2022-11-02 | 2023-05-23 | Actionpower Corp. | Method for speech recognition by using feedback information |
CN118626586A (zh) * | 2024-05-24 | 2024-09-10 | 北京优趣时光文化科技有限公司 | 基于动画台词相似度匹配的自动替换方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005084436A (ja) * | 2003-09-09 | 2005-03-31 | Advanced Telecommunication Research Institute International | 音声認識装置及びコンピュータプログラム |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5864805A (en) * | 1996-12-20 | 1999-01-26 | International Business Machines Corporation | Method and apparatus for error correction in a continuous dictation system |
JP2996926B2 (ja) | 1997-03-11 | 2000-01-11 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音素シンボルの事後確率演算装置及び音声認識装置 |
US6167377A (en) | 1997-03-28 | 2000-12-26 | Dragon Systems, Inc. | Speech recognition language models |
JP3908878B2 (ja) * | 1999-09-27 | 2007-04-25 | 日本放送協会 | 連続音声認識装置の音素認識性能測定装置 |
DE60113787T2 (de) * | 2000-11-22 | 2006-08-10 | Matsushita Electric Industrial Co., Ltd., Kadoma | Verfahren und Vorrichtung zur Texteingabe durch Spracherkennung |
JP2002358097A (ja) * | 2001-06-01 | 2002-12-13 | Mitsubishi Electric Corp | 音声認識装置 |
JP2004101963A (ja) * | 2002-09-10 | 2004-04-02 | Advanced Telecommunication Research Institute International | 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム |
US7716050B2 (en) * | 2002-11-15 | 2010-05-11 | Voice Signal Technologies, Inc. | Multilingual speech recognition |
WO2004086359A2 (en) * | 2003-03-26 | 2004-10-07 | Philips Intellectual Property & Standards Gmbh | System for speech recognition and correction, correction device and method for creating a lexicon of alternatives |
JP4050755B2 (ja) * | 2005-03-30 | 2008-02-20 | 株式会社東芝 | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム |
US20060293889A1 (en) * | 2005-06-27 | 2006-12-28 | Nokia Corporation | Error correction for speech recognition systems |
JP4796460B2 (ja) * | 2006-09-05 | 2011-10-19 | 日本放送協会 | 音声認識装置及び音声認識プログラム |
JP5229216B2 (ja) * | 2007-02-28 | 2013-07-03 | 日本電気株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
CN105045777A (zh) * | 2007-08-01 | 2015-11-11 | 金格软件有限公司 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
WO2009129315A1 (en) | 2008-04-15 | 2009-10-22 | Mobile Technologies, Llc | System and methods for maintaining speech-to-speech translation in the field |
US20090326938A1 (en) * | 2008-05-28 | 2009-12-31 | Nokia Corporation | Multiword text correction |
KR101462932B1 (ko) * | 2008-05-28 | 2014-12-04 | 엘지전자 주식회사 | 이동 단말기 및 그의 텍스트 수정방법 |
US8494835B2 (en) * | 2008-12-02 | 2013-07-23 | Electronics And Telecommunications Research Institute | Post-editing apparatus and method for correcting translation errors |
CA2787390A1 (en) * | 2010-02-01 | 2011-08-04 | Ginger Software, Inc. | Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices |
JP5160594B2 (ja) * | 2010-06-17 | 2013-03-13 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識装置および音声認識方法 |
US9262397B2 (en) * | 2010-10-08 | 2016-02-16 | Microsoft Technology Licensing, Llc | General purpose correction of grammatical and word usage errors |
KR101739531B1 (ko) | 2010-10-13 | 2017-05-25 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
WO2012105231A1 (ja) * | 2011-02-03 | 2012-08-09 | 日本電気株式会社 | モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム |
CN102682763B (zh) * | 2011-03-10 | 2014-07-16 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
US8260615B1 (en) * | 2011-04-25 | 2012-09-04 | Google Inc. | Cross-lingual initialization of language models |
US8738375B2 (en) * | 2011-05-09 | 2014-05-27 | At&T Intellectual Property I, L.P. | System and method for optimizing speech recognition and natural language parameters with user feedback |
US9135237B2 (en) | 2011-07-13 | 2015-09-15 | Nuance Communications, Inc. | System and a method for generating semantically similar sentences for building a robust SLM |
US9009041B2 (en) * | 2011-07-26 | 2015-04-14 | Nuance Communications, Inc. | Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data |
US9324323B1 (en) * | 2012-01-13 | 2016-04-26 | Google Inc. | Speech recognition using topic-specific language models |
US8831957B2 (en) * | 2012-08-01 | 2014-09-09 | Google Inc. | Speech recognition models based on location indicia |
US8713433B1 (en) * | 2012-10-16 | 2014-04-29 | Google Inc. | Feature-based autocorrection |
US20140214401A1 (en) * | 2013-01-29 | 2014-07-31 | Tencent Technology (Shenzhen) Company Limited | Method and device for error correction model training and text error correction |
US9196246B2 (en) * | 2013-06-14 | 2015-11-24 | Mitsubishi Electric Research Laboratories, Inc. | Determining word sequence constraints for low cognitive speech recognition |
US9286897B2 (en) * | 2013-09-27 | 2016-03-15 | Amazon Technologies, Inc. | Speech recognizer with multi-directional decoding |
US20150179169A1 (en) * | 2013-12-19 | 2015-06-25 | Vijay George John | Speech Recognition By Post Processing Using Phonetic and Semantic Information |
CN103745731B (zh) * | 2013-12-31 | 2016-10-19 | 科大讯飞股份有限公司 | 一种语音识别效果自动化测试系统及测试方法 |
US9971765B2 (en) * | 2014-05-13 | 2018-05-15 | Nuance Communications, Inc. | Revising language model scores based on semantic class hypotheses |
-
2014
- 2014-12-02 KR KR1020140170818A patent/KR102380833B1/ko active IP Right Grant
-
2015
- 2015-09-30 US US14/870,963 patent/US9940933B2/en active Active
- 2015-10-27 JP JP2015210588A patent/JP6762701B2/ja active Active
- 2015-11-10 EP EP15193814.9A patent/EP3029669B1/en active Active
- 2015-12-02 CN CN201510872727.3A patent/CN105654946B/zh active Active
-
2018
- 2018-04-06 US US15/946,840 patent/US11176946B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005084436A (ja) * | 2003-09-09 | 2005-03-31 | Advanced Telecommunication Research Institute International | 音声認識装置及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
US9940933B2 (en) | 2018-04-10 |
US20180226078A1 (en) | 2018-08-09 |
CN105654946B (zh) | 2022-03-01 |
JP6762701B2 (ja) | 2020-09-30 |
CN105654946A (zh) | 2016-06-08 |
EP3029669B1 (en) | 2020-05-27 |
US20160155436A1 (en) | 2016-06-02 |
KR20160066441A (ko) | 2016-06-10 |
JP2016110087A (ja) | 2016-06-20 |
US11176946B2 (en) | 2021-11-16 |
EP3029669A1 (en) | 2016-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102380833B1 (ko) | 음성 인식 방법 및 음성 인식 장치 | |
US20240161732A1 (en) | Multi-dialect and multilingual speech recognition | |
KR102167719B1 (ko) | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 | |
CN107870902B (zh) | 神经机器翻译系统 | |
CN110473531B (zh) | 语音识别方法、装置、电子设备、系统及存储介质 | |
KR102550932B1 (ko) | 음성 인식 모델의 개인화 방법 및 장치 | |
KR102305584B1 (ko) | 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치 | |
US10176802B1 (en) | Lattice encoding using recurrent neural networks | |
US20180137855A1 (en) | Method and apparatus for processing natural language, method and apparatus for training natural language processing model | |
KR101590724B1 (ko) | 음성 인식 오류 수정 방법 및 이를 수행하는 장치 | |
KR102396983B1 (ko) | 문법 교정 방법 및 장치 | |
US8849668B2 (en) | Speech recognition apparatus and method | |
CN112700778B (zh) | 语音识别方法和语音识别设备 | |
JP2017058877A (ja) | 学習装置、音声検出装置、学習方法およびプログラム | |
CN112331206A (zh) | 语音识别方法及设备 | |
CN110970031B (zh) | 语音识别系统及方法 | |
JP2020042257A (ja) | 音声認識方法及び装置 | |
WO2019126881A1 (en) | System and method for tone recognition in spoken languages | |
US20220199071A1 (en) | Systems and Methods for Speech Validation | |
KR102292921B1 (ko) | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 | |
US20240153508A1 (en) | End-to-End Speech Recognition Adapted for Multi-Speaker Applications | |
CN111583910B (zh) | 模型更新方法、装置、电子设备及存储介质 | |
Chang et al. | Discriminative training of context-dependent language model scaling factors and interpolation weights | |
KR20230000175A (ko) | Ai 기반 발음 평가 방법, 발음 코칭용 학습 컨텐츠 제공 방법 및 이를 수행하기 위한 컴퓨팅 시스템 | |
Chen et al. | A Chinese Oral Question-and-Answering System Based on LSTM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |