KR102380833B1

KR102380833B1 - 음성 인식 방법 및 음성 인식 장치

Info

Publication number: KR102380833B1
Application number: KR1020140170818A
Authority: KR
Inventors: 최희열; 이호식
Original assignee: 삼성전자주식회사
Priority date: 2014-12-02
Filing date: 2014-12-02
Publication date: 2022-03-31
Also published as: US9940933B2; US20180226078A1; CN105654946B; JP6762701B2; CN105654946A; EP3029669B1; US20160155436A1; KR20160066441A; JP2016110087A; US11176946B2; EP3029669A1

Abstract

음성 인식 방법 및 음성 인식 장치가 개시된다. 일 실시예에 따른 음성 인식 장치는 문장 내 전후 문맥에 기반한 언어 모델에 기초하여, 사용자의 음성을 인식함으로써 생성된 문장에서 적어도 하나의 단어를 수정한다.

Description

음성 인식 방법 및 음성 인식 장치{VOICE RECOGNIZING METHOD AND VOICE RECOGNIZING APPRATUS}

아래 실시예들은 음성 인식 방법 및 음성 인식 장치에 관한 것이다.

일반적으로, 음성 인식 시스템에 적용되는 현재의 음성 인식 기법은 기술적으로 완벽하지 않으며, 노이즈 등의 다양한 요인으로 인하여 필연적인 인식 오류를 가지게 된다. 기존의 음성 인식 장치들은 이러한 음성 인식 오류에 대해 정답 후보를 제시하지 못하거나 혹은 정답 후보를 제시하더라도 해당 음성 인식 장치의 디코딩 과정에서 정답일 가능성이 높았던 후보를 제시하는데 그쳐 음성 인식 정확도가 낮아지게 된다.

일 측에 따른 음성 인식 방법은 음성 인식에 의하여 생성된 문장을 수신하는 단계; 상기 문장에 포함된 단어들 각각에 대하여, 상기 문장 내 나머지 단어들과의 관계에 기반한 적합도를 계산하는 단계; 상기 단어들의 적합도들에 기초하여, 상기 단어들 중 수정이 필요한 대상 단어를 검출하는 단계; 및 상기 대상 단어에 대응하는 후보 단어들 중 어느 하나로 상기 대상 단어를 대체(replace)하는 단계를 포함한다.

상기 적합도를 계산하는 단계는 양방향 회귀 신경망(bidirectional recurrent neural network) 언어 모델(language model)을 이용하여 상기 단어들 각각의 적합도를 계산하는 단계를 포함할 수 있다.

상기 대상 단어를 검출하는 단계는 미리 정해진 임계 값 미만의 적합도를 가지는 단어들을 검출하는 단계; 및 적합도가 작은 순서로 미리 정해진 수의 단어들을 검출하는 단계 중 적어도 하나를 포함할 수 있다.

상기 대상 단어를 대체하는 단계는 상기 문장에서 상기 대상 단어를 제외한 나머지 단어들과의 관계, 상기 대상 단어의 음소 시퀀스(phoneme sequence)와의 유사도, 및 상기 문장에 선행하는 이전 문장의 문맥(context) 중 적어도 하나에 기초하여 상기 후보 단어들을 결정하는 단계를 포함할 수 있다.

상기 후보 단어들을 결정하는 단계는 미리 구비된 단어 사전으로부터, 상기 후보 단어들을 획득하는 단계를 포함할 수 있다.

상기 대상 단어를 대체하는 단계는 상기 후보 단어들 각각에 대하여, 상기 대상 단어의 음소 시퀀스와의 유사도에 기반한 제1 모델 및 상기 문장에서 상기 대상 단어를 제외한 나머지 단어들과의 관계에 기반한 제2 모델 및 중 적어도 하나에 기초하여 해당 후보 단어의 적합도를 계산하는 단계를 포함할 수 있다.

상기 대상 단어를 대체하는 단계는 상기 제1 모델을 위한 제1 가중치 및 상기 제2 모델을 위한 제2 가중치를 설정하는 단계를 더 포함할 수 있다.

상기 제1 가중치 및 상기 제2 가중치를 설정하는 단계는 상기 제1 모델의 확률 분포에 기초하여, 상기 제1 가중치 및 상기 제2 가중치를 동적으로 제어하는 단계를 포함할 수 있다.

상기 음성 인식 방법은 사용자의 음성을 수신하는 단계; 상기 음성으로부터 특징(feature)들을 추출하는 단계; 음성 모델을 이용하여 상기 특징들로부터 음소 시퀀스를 인식하는 단계; 및 언어 모델을 이용하여 상기 음소 시퀀스로부터 단어들을 인식함으로써, 상기 문장을 생성하는 단계를 더 포함할 수 있다.

상기 언어 모델은 바이-그램(Bi-Gram) 언어 모델(language model)을 포함할 수 있다.

다른 일 측에 따른 음성 인식 장치는 사용자의 음성을 인식함으로써 문장을 생성하는 제1 인식부; 및 상기 문장 내 전후 문맥에 기반한 언어 모델에 기초하여, 상기 문장 내 적어도 하나의 단어를 수정하는 제2 인식부를 포함한다.

상기 제1 인식부는 상기 음성을 수신하는 수신부; 상기 음성으로부터 특징(feature)들을 추출하는 추출부; 상기 특징들로부터 음소 시퀀스를 디코딩하는 디코딩부; 및 상기 음소 시퀀스로부터 단어들을 인식함으로써, 상기 문장을 생성하는 생성부를 포함할 수 있다.

상기 언어 모델은 양방향 회귀 신경망(bidirectional recurrent neural network) 언어 모델(language model)을 포함할 수 있다.

상기 제2 인식부는 상기 문장에 포함된 단어들 각각에 대하여, 상기 문장 내 나머지 단어들과의 관계에 기반한 적합도를 계산하는 계산부; 상기 단어들의 적합도들에 기초하여 상기 단어들 중 수정이 필요한 대상 단어를 검출하는 검출부; 및 상기 대상 단어에 대응하는 후보 단어들 중 어느 하나로 상기 대상 단어를 대체(replace)하는 대체부를 포함할 수 있다.

상기 검출부는 미리 정해진 임계 값 미만의 적합도를 가지는 단어들을 검출하거나, 적합도가 작은 순서로 미리 정해진 수의 단어들을 검출할 수 있다.

상기 대체부는 상기 문장 내 상기 대상 단어의 위치, 상기 문장에서 상기 대상 단어를 제외한 나머지 단어들과의 관계, 상기 대상 단어의 음소 시퀀스(phoneme sequence)와의 유사도, 및 상기 문장에 선행하는 이전 문장의 문맥(context) 중 적어도 하나에 기초하여 상기 후보 단어들을 결정할 수 있다.

상기 대체부는 미리 구비된 단어 사전으로부터, 상기 후보 단어들을 획득할 수 있다.

상기 대체부는 상기 후보 단어들 각각에 대하여, 상기 대상 단어의 음소 시퀀스와의 유사도에 기반한 제1 모델 및 상기 문장에서 상기 대상 단어를 제외한 나머지 단어들과의 관계에 기반한 제2 모델 중 적어도 하나에 기초하여 해당 후보 단어의 적합도를 계산할 수 있다.

상기 대체부는 상기 제1 모델의 확률 분포에 기초하여, 상기 제1 모델을 위한 제1 가중치 및 상기 제2 모델을 위한 제2 가중치를 동적으로 제어할 수 있다.

도 1은 일 실시예에 따른 음성 인식 장치를 나타낸 블록도.
도 2 내지 도 6은 일 실시예에 따른 양방향 회귀 신경망 언어 모델을 설명하는 도면들.
도 7은 일 실시예에 따른 음성 인식 장치의 동작을 설명하는 도면.
도 8은 일 실시예에 따른 제2 인식부를 나타낸 블록도.
도 9a 내지 도 13은 실시예들에 따른 제2 인식부의 동작을 설명하는 도면들.
도 14는 일 실시예에 따른 제1 인식부를 나타낸 블록도.
도 15는 다른 실시예에 따른 음성 인식 장치를 나타낸 블록도.
도 16 내지 도 18은 실시예들에 따른 음성 인식 방법을 나타낸 동작 흐름도들.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다. 하기에서 설명될 실시예들은 음성 인식 기법에 적용될 수 있으며, 음성 인식 기법이 활용되는 이동 단말, 스마트 가전제품, 의료 장치, 차량 제어 장치, 및 기타 컴퓨팅 장치들에서 이용될 수 있다.

도 1은 일 실시예에 따른 음성 인식 장치를 나타낸 블록도이다. 도 1을 참조하면, 일 실시예에 따른 음성 인식 장치(100)는 제1 인식부(110)와 제2 인식부(120)를 포함한다. 제1 인식부(110)는 사용자의 음성을 1차적으로 인식함으로써 임시 인식 결과(temporary recognition result)를 생성할 수 있다. 제1 인식부(110)는 임시 인식 결과에 해당하는 문장을 생성할 수 있다.

제1 인식부(110)는 임시 인식 결과에 해당하는 문장을 생성하기 위하여, 제1 언어 모델에 기초하여 사용자의 음성을 인식할 수 있다. 제1 언어 모델은 제2 인식부(120)에 의하여 사용되는 제2 언어 모델에 비하여 단순한 언어 모델로, 예를 들어 N-그램(N-Gram) 언어 모델 등을 포함할 수 있다.

제1 인식부(110)는 다양한 방식으로 사용자의 음성을 수신할 수 있다. 예를 들어, 제1 인식부(110)는 마이크로폰을 통하여 입력되는 사용자의 음성을 수신하거나, 미리 구비된 저장 장치에 저장된 사용자의 음성을 수신하거나, 네트워크를 통하여 원격에 위치한 사용자의 음성을 수신할 수 있다. 제1 인식부(110)의 동작과 관련된 보다 상세한 사항들은 후술한다.

제2 인식부(120)는 임시 인식 결과에 기초하여 최종 인식 결과(final recognition result)를 생성할 수 있다. 이하, 최종 인식 결과는 음성 인식 결과라고 지칭될 수 있다. 제2 인식부(120)는 제2 언어 모델에 기초하여 임시 인식 결과에 해당하는 문장 내 적어도 하나의 단어를 수정함으로써, 음성 인식 결과를 출력할 수 있다. 음성 인식 결과는 적어도 하나의 단어가 수정된 문장일 수 있다.

제2 언어 모델은 문장 내 전후 문맥에 기반한 언어 모델로, 예를 들어, 양방향 회귀 신경망(bidirectional recurrent neural network) 언어 모델(language model)을 포함할 수 있다. 제2 인식부(120)의 동작을 구체적으로 설명하기에 앞서, 도 2 내지 도 6을 참조하여 양방향 회귀 신경망 언어 모델을 간략하게 설명한다.

도 2를 참조하면, 신경망(200)은 연결선으로 연결된 많은 수의 인공 뉴런들을 이용하여 생물학적인 시스템의 계산 능력을 모방하는 인식 모델이다. 신경망(200)은 생물학적인 뉴런의 기능을 단순화시킨 인공 뉴런들을 이용한다. 인공 뉴런은 노드(node)라고 지칭될 수 있다. 인공 뉴런들은 연결 가중치(connection weight)를 가지는 연결선을 통해 상호 연결될 수 있다. 신경망(200)은 인공 뉴런들을 통해 인간의 인지 작용이나 학습 과정을 수행할 수 있다.

신경망(200)은 복수의 레이어들을 포함한다. 예를 들어, 신경망(200)은 입력 레이어(210), 히든 레이어(220), 출력 레이어(230)을 포함할 수 있다. 입력 레이어(210)는 학습을 수행하기 위한 입력을 수신하여 히든 레이어(220)에 전달할 수 있고, 출력 레이어(230)는 히든 레이어(220)로부터 수신한 신호에 기초하여 신경망(200)의 출력을 생성할 수 있다. 히든 레이어(220)는 입력 레이어(210)와 출력 레이어(230) 사이에 위치하고, 입력 레이어(210)를 통해 전달된 학습 데이터를 예측하기 쉬운 값으로 변화시킬 수 있다.

입력 레이어(210)에 포함된 입력 노드들과 히든 레이어(220)에 포함된 히든 노드들은 연결 가중치를 가지는 연결선들을 통해 서로 연결될 수 있다. 히든 레이어(220)에 포함된 히든 노드들과 출력 레이어(230)에 포함된 출력 노드들은 연결 가중치를 가지는 연결선들을 통해 서로 연결될 수 있다.

신경망(200)의 학습 과정에서, 인공 뉴런들 사이의 연결 가중치는 오류 역 전파 학습(back-propagation learning)을 통해 업데이트될 수 있다. 오류 역 전파 학습은, 주어진 학습 데이터에 대해 포워드 계산(forward computation)을 통하여 오류를 추정한 후, 출력 레이어(230)에서 시작하여 히든 레이어(220) 및 입력 레이어(210)를 향하는 역 방향으로 추정한 오류를 전파하면서, 오류를 줄이는 방향으로 연결 가중치를 업데이트하는 방법이다.

도 3을 참조하면, 회귀 신경망(300)은 서로 다른 시간 구간에서 히든 노드들 간에 재귀적(recurrent)인 연결이 있는 신경망이다. 일반적인 신경망과 달리, 회귀 신경망은 임의의 인풋 시퀀스를 처리하는 내부 메모리를 이용할 수 있다. 이전 시간 구간(310)에서의 히든 노드의 출력은 현재 시간 구간(320)에서의 히든 노드들에 연결될 수 있다. 현재 시간 구간(320)에서의 히든 노드의 출력은 다음 시간 구간(330)에서의 히든 노드들에 연결될 수 있다.

일 예로, 이전 시간 구간(310)에서의 제1 히든 노드(311), 현재 시간 구간(320)에서의 제2 히든 노드(321), 및 다음 시간 구간(330)에서의 제3 히든 노드(331)는 서로 도 4와 같이 연결될 수 있다. 도 4를 참조하면, 제1 히든 노드(311)의 출력은 제2 히든 노드(321)로 입력되고, 제2 히든 노드(321)의 출력은 제3 히든 노드(331)로 입력될 수 있다.

도 5를 참조하면, 양방향 회귀 신경망(500)은 서로 다른 시간 구간에서 히든 노드들 간에 양 방향으로 재귀적(recurrent)인 연결이 있는 신경망이다. 양방향 회귀 신경망도 회귀 신경망처럼 임의의 인풋 시퀀스를 처리하는 내부 메모리를 이용할 수 있다. 이전 시간 구간(510)에서의 히든 노드의 출력은 현재 시간 구간(520)에서의 히든 노드들에 연결될 수 있고, 현재 시간 구간(520)에서의 히든 노드의 출력은 다음 시간 구간(530)에서의 히든 노드들에 연결될 수 있다. 또한, 다음 시간 구간(530)에서의 히든 노드의 출력은 현재 시간 구간(520)에서의 히든 노드들에 연결될 수 있고, 현재 시간 구간(520)에서의 히든 노드의 출력은 이전 시간 구간(510)에서의 히든 노드들에 연결될 수 있다.

일 예로, 이전 시간 구간(510)에서의 제1-1 히든 노드(511), 제1-2 히든 노드(512), 현재 시간 구간(520)에서의 제2-1 히든 노드(521), 제2-2 히든 노드(522), 다음 시간 구간(530)에서의 제3-1 히든 노드(531), 및 제3-2 히든 노드(532)는 서로 도 6과 같이 연결될 수 있다. 도 4를 참조하면, 제3-1 히든 노드(531)의 출력은 제2-1 히든 노드(521)로 입력되고, 제2-1 히든 노드(521)의 출력은 제1-1 히든 노드(511)로 입력될 수 있다. 또한, 제1-2 히든 노드(512)의 출력은 제2-2 히든 노드(522)로 입력되고, 제2-2 히든 노드(522)의 출력은 제3-2 히든 노드(532)로 입력될 수 있다.

양방향 회귀 신경망 언어 모델은 양방향 회귀 신경망을 이용하여 언어의 문맥, 문법 등을 학습한 모델이다. 다시 도 1을 참조하면, 제2 인식부(120)는 양방향 회귀 신경망 언어 모델을 이용함으로써, 문장의 전후 문맥에 기반하여 임시 인식 결과에 해당하는 문장 내 단어를 수정할 수 있다. 예를 들어, 임시 인식 결과에 해당하는 문장 내 임의의 단어가 양방향 회귀 신경망에서 현재 시간 구간에 대응한다고 가정하면, 해당 단어보다 앞에 위치한 단어는 양방향 회귀 신경망에서 이전 시간 구간에 대응할 수 있다. 또한, 임시 인식 결과에 해당하는 문장 내 해당 단어보다 뒤에 위치한 단어는 양방향 회귀 신경망에서 다음 시간 구간에 대응할 수 있다.

이하, 설명의 편의를 위하여, 제2 인식부(120)가 양방향 회귀 신경망 언어 모델을 이용하는 경우를 설명하나, 제2 인식부(120)의 동작은 이에 제한되지 않는다. 예를 들어, 제2 인식부(120)는 양방향 회귀 신경망 언어 모델 이외에도 문장 내 전후 문맥에 기반하는 어떠한 언어 모델이라도 이용할 수 있다.

도 7은 일 실시예에 따른 음성 인식 장치의 동작을 설명하는 도면이다. 도 7을 참조하면, 제1 인식부(110)는 사용자의 음성(710)을 1차적으로 인식함으로써 임시 인식 결과를 생성하고, 제2 인식부(120)는 임시 인식 결과를 2차적으로 검증함으로써 최종 인식 결과를 생성할 수 있다.

예를 들어, 제1 인식부(110)는 "Today my mom taught me a story."라는 음성(710)을 수신할 수 있다. 제1 인식부(110)는 노이즈 등의 영향으로 음성(710)을 정확하게 인식하지 못할 수 있다. 예를 들어, 음성(710) 중 'taught'가 수신되는 시점에 노이즈(715)가 발생된 경우, 제1 인식부(110)는 'taught'를 'sought'라고 잘못 인식할 수 있다. 이 경우, 제1 인식부(110)에 의하여 생성되는 임시 인식 결과는 "Today my mom sought me a story"일 수 있다.

제2 인식부(120)는 양방향 회귀 신경망 언어 모델을 이용하여 전후 문맥 상 'sought'가 부적합하다고 판단할 수 있다. 제2 인식부(120)는 부적합하다고 판단된 'sought'를 'taught'로 수정할 수 있다. 제2 인식부(120)는 수정된 문장을 출력할 수 있다. 이 경우, 제2 인식부(120)에 의하여 생성되는 최종 인식 결과는 "Today my mom taught me a story"일 수 있다. 이하, 도 8 내지 도 13을 참조하여 제2 인식부(120)의 동작을 상세하게 설명한다.

도 8은 일 실시예에 따른 제2 인식부를 나타낸 블록도이다. 도 8을 참조하면, 제2 인식부(120)는 계산부(121), 검출부(122), 및 대체부(123)를 포함한다. 계산부(121), 검출부(122), 및 대체부(123)는 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 조합으로 구현될 수 있다.

계산부(121)는 제1 인식부(110)에 의하여 생성된 문장에 포함된 단어들 각각에 대하여, 문장 내 나머지 단어들과의 관계에 기반한 적합도를 계산할 수 있다. 검출부(122)는 계산된 단어들의 적합도들에 기초하여 단어들 중 수정이 필요한 대상 단어를 검출할 수 있다. 대체부(123)는 검출된 대상 단어에 대응하는 후보 단어들 중 어느 하나로 대상 단어를 대체(replace)할 수 있다.

일 예로, 도 9a를 참조하면, 계산부(121)는 양방향 회귀 신경망 언어 모델을 이용하여 임시 인식 결과에 해당하는 문장에 포함된 단어의 적합도를 계산할 수 있다. 양방향 회귀 신경망 언어 모델은 임시 인식 결과에 해당하는 문장을 입력 받아, 해당 문장에 포함된 단어들 각각의 적합도를 출력할 수 있다.

양방향 회귀 신경망 언어 모델은 문장의 전후 문맥에 기초하여 'Today'의 적합도(s1)를 출력할 수 있다. 'Today'의 적합도(s1)는 조건 확률(conditional probability)일 수 있다. 예를 들어, 'Today'의 적합도(s1)는 나머지 단어들이 주어진 상황에서 'Today'가 문장의 해당 위치에 등장할 가능성으로 표현될 수 있다. 양방향 회귀 신경망 언어 모델은 'my'의 적합도(s2), 'mom'의 적합도(s3), 'sought'의 적합도(s4), 'me'의 적합도(s5), 'a'의 적합도(s6), 'story'의 적합도(s7) 등 임시 인식 결과에 해당하는 문장 내 나머지 단어들의 적합도들도 출력할 수 있다.

검출부(122)는 계산된 적합도들(s1~s7)에 기초하여, 수정이 필요한 대상 단어를 검출할 수 있다. 예를 들어, 검출부(122)는 미리 정해진 임계 값 미만의 적합도를 가지는 단어들을 검출하거나, 적합도가 작은 순서로 미리 정해진 수의 단어들을 검출할 수 있다. 이하, 설명의 편의를 위하여 적합도가 가장 작은 하나의 단어를 검출하는 경우를 설명한다.

전술한 예시에서, 계산된 적합도들(s1~s7) 중 'sought'의 적합도(s4)가 가장 작을 수 있다. 예를 들어, 'sought'는 전후 문맥상 다른 단어들과 어울리지 않고, 'sought'는 언어 문법상 5형식의 문장 구조에 적합하지 않는 등의 다양한 요인에 의하여, 'sought'의 적합도(s4)가 가장 작게 계산될 수 있다. 이 경우, 검출부(122)는 'sought'를 수정이 필요한 대상 단어로 검출할 수 있다.

다른 예로, 도 9b를 참조하면, 계산부(121)는 'Today'와 문장 내 나머지 단어들 사이의 관계에 기초하여 'Today'의 적합도(s1)를 계산할 수 있다. 'Today'와 문장 내 나머지 단어들 사이의 관계는 양방향 회귀 신경망 언어 모델을 이용하여 스코어로 표현될 수 있다. 예를 들어, 계산부(121)는 'Today'와 'my' 사이의 관계에 대응하는 스코어(s1-1), 'Today'와 'mom' 사이의 관계에 대응하는 스코어(s1-2), 'Today'와 'sought' 사이의 관계에 대응하는 스코어(s1-3), 'Today'와 'me' 사이의 관계에 대응하는 스코어(s1-4), 'Today'와 'a' 사이의 관계에 대응하는 스코어(s1-5), 및 'Today'와 'story' 사이의 관계에 대응하는 스코어(s1-6)를 계산할 수 있다.

계산부(121)는 스코어(s1-1), 스코어(s1-2), 스코어(s1-3), 스코어(s1-4), 스코어(s1-5), 및 스코어(s1-6)에 기초하여 'Today'의 적합도(s1)을 계산할 수 있다. 예를 들어, 계산부는 스코어(s1-1), 스코어(s1-2), 스코어(s1-3), 스코어(s1-4), 스코어(s1-5), 및 스코어(s1-6)의 합계, 평균, 분산, 표준편차 등 다양한 통계를 이용하여 'Today'의 적합도(s1)을 계산할 수 있다. 계산부(121)는 동일한 방식으로 'my'의 적합도(s2), 'mom'의 적합도(s3), 'sought'의 적합도(s4), 'me'의 적합도(s5), 'a'의 적합도(s6), 및 'story'의 적합도(s7)를 계산할 수 있다.

도 10을 참조하면, 대체부(123)는 대상 단어를 위한 후보 단어들을 결정하고, 결정된 후보 단어들 중 최적의 후보 단어를 선택할 수 있다. 대체부(123)는 다양한 방식으로 후보 단어들을 결정할 수 있다. 예를 들어, 대체부(123)는 임시 인식 결과에 해당하는 문장 내 대상 단어의 위치, 임시 인식 결과에 해당하는 문장에서 대상 단어를 제외한 나머지 단어들과의 관계, 대상 단어의 음소 시퀀스(phoneme sequence)와의 유사도, 임시 인식 결과에 해당하는 문장에 선행하는 이전 문장의 문맥(context) 등에 기초하여 후보 단어들을 결정할 수 있다.

대체부(123)는 미리 구비된 단어 사전으로부터 후보 단어들을 획득할 수 있다. 대체부(123)는 임시 인식 결과에 해당하는 문장 내 대상 단어의 위치, 임시 인식 결과에 해당하는 문장에서 대상 단어를 제외한 나머지 단어들과의 관계, 대상 단어의 음소 시퀀스와의 유사도, 임시 인식 결과에 해당하는 문장에 선행하는 이전 문장의 문맥 등에 기초하여 미리 구비된 단어 사전으로부터 후보 단어들을 획득할 수 있다.

예를 들어, 대체부(123)는 대상 단어(1010)를 제외한 나머지 단어들과의 관계에서 문맥적으로 대상 단어(1010)의 위치에 대입 가능한 후보 단어들(1020)을 단어 사전으로부터 획득할 수 있다. 또는, 대체부(123)는 문법적으로 임시 인식 결과에 해당하는 문장 내 대상 단어(1010)의 위치에 대입 가능한 후보 단어들(1020)을 단어 사전으로부터 획득할 수 있다. 또는, 대체부는(123)는 대상 단어(1010)의 음소 시퀀스와 유사도가 일정 이상인 후보 단어들(1020)을 단어 사전으로부터 획득하거나, 대상 단어(1010)의 음소 시퀀스와 유사도가 일정 이상 차이가 나는 단어들을 후보 단어들(1020)에서 배제할 수 있다. 또는, 대체부(123)는 이전 문장의 문맥에 따라 대상 단어(1010)의 위치에 대입하기 적합한 후보 단어들(1020)을 단어 사전으로부터 획득할 수도 있다.

후보 단어들(1020)이 결정되면, 대체부(123)는 후보 단어들(1020) 중 최적의 후보 단어를 선택할 수 있다. 대체부(123)는 다양한 방식으로 최적의 후보 단어를 선택할 수 있다. 예를 들어, 대체부(123)는 후보 단어들(1020) 중 대상 단어의 음소 시퀀스(1015)와 가장 유사한 음소 시퀀스를 가지는 후보 단어를 최적의 후보 단어로 선택할 수 있다. 대체부(123)는 대상 단어(1010)를 최적의 후보 단어(1030)로 대체할 수 있다.

일 예로, 후보 단어들(1020)은 'told', 'taught', 'said', 'asked' 등을 포함할 수 있다. 대체부(123)는 후보 단어들(1020) 중 대상 단어의 음소 시퀀스(1015)인 'sought'와 가장 유사한 음소 시퀀스를 가지는 후보 단어인 'taught'를 최적의 후보 단어로 선택할 수 있다. 대체부(123)는 임시 인식 결과에 해당하는 문장에서 'sought'를 'taught'로 수정한 뒤, 수정된 문장을 출력할 수 있다.

대체부(123)는 언어 모델에 기반한 정보와 음성 모델에 기반한 정보를 함께 고려하여 후보 단어들(1020) 중 최적의 후보 단어를 선택할 수 있다. 도 11을 참조하면, 언어 모델에 기반한 정보(1115)와 음성 모델에 기반한 정보(1125)를 함께 고려하여 후보 단어들의 적합도(1130)를 계산할 수 있다.

언어 모델에 기반한 정보(1115)는 언어 모델에 기초하여 계산된 후보 단어들의 문맥 점수들을 포함할 수 있다. 후보 단어들 각각의 문맥 점수는 조건 확률일 수 있다. 예를 들어, 문장 내 나머지 단어들이 주어진 상황에서, 언어 모델에 기초하여 후보 단어들 각각의 조건 확률이 계산될 수 있다.

음성 모델에 기반한 정보(1125)는 음성 모델에 기초하여 계산된 후보 단어들의 발음 점수들을 포함할 수 있다. 후보 단어들 각각의 발음 점수는 음소 시퀀스의 유사도일 수 있다. 예를 들어, 언어 모델에 기초하여, 대상 단어의 음소 시퀀스와 후보 단어들 각각의 음소 시퀀스 사이의 유사도가 계산될 수 있다.

대체부(123)는 언어 모델의 가중치(1110)와 음성 모델의 가중치(1120)를 이용하여, 언어 모델에 기반한 정보(1115) 및 음성 모델에 기반한 정보(1125)가 후보 단어들의 적합도(1130)에 반영되는 비율을 조절할 수 있다. 대체부(123)는 언어 모델의 가중치(1110)와 음성 모델의 가중치(1120)를 동적으로 제어할 수 있다. 예를 들어, 대체부(123)는 음성 모델의 신뢰도가 높은 경우 음성 모델의 가중치(1120)를 증가시키거나 언어 모델의 가중치(1110)를 감소시킬 수 있다. 또는, 대체부(123)는 언어 모델의 신뢰도가 높은 경우, 언어 모델의 가중치(1110)를 증가시키거나 음성 모델의 가중치(1120)를 감소시킬 수 있다.

도 12는 음성 모델의 신뢰도에 따라 언어 모델의 가중치 및 음성 모델의 가중치를 동적으로 제어하는 실시예를 설명하는 도면이다. 도 12를 참조하면, 대체부(123)는 임시 인식 결과에 포함된 각 단어들의 확률 분포에 기초하여 음성 모델의 신뢰도를 판단할 수 있다. 임시 인식 결과가 생성될 때, 음성 인식 결과에 포함된 각 단어들은 음성 모델 기반 확률 분포에 기초하여 복수의 후보 단어들 중에서 선택된 것일 수 있다. 예를 들어, 그래프(1200)의 실선(1210)과 같이 특정 후보 단어에 대해서 음성 모델 기반 확률 분포가 집중되어 있는 경우, 엔트로피가 낮다고 표현될 수 있다. 엔트로피가 낮은 경우 복수의 후보 단어들 중 특정 후보 단어를 선택하기 위한 인식 신뢰도가 높다고 이해될 수 있으며, 음성 모델의 신뢰도가 높다고 판단될 수 있다. 이 경우, 대체부(123)는 음성 모델의 가중치를 언어 모델의 가중치에 비하여 상대적으로 높게 설정할 수 있다. 또는, 대체부(123)는 언어 모델의 가중치를 음성 모델의 가중치에 비하여 상대적으로 낮게 설정할 수 있다.

또한, 그래프(1200)의 점선(1220)과 같이 다수의 후보 단어들에 대하여 음성 모델 기반 확률 분포가 고루 분포되어 있는 경우, 엔트로피가 높다고 표현될 수 있다. 엔트로피가 높은 경우 특정 후보 단어를 선택하기 위한 인식 신뢰도가 낮다고 이해될 수 있으며, 음성 모델의 신뢰도가 낮다고 판단될 수 있다. 이 경우, 대체부(123)는 음성 모델의 가중치를 언어 모델의 가중치에 비하여 상대적으로 낮게 설정할 수 있다. 또는, 대체부(123)는 언어 모델의 가중치를 음성 모델의 가중치에 비하여 상대적으로 높게 설정할 수 있다.

대체부(123)는 후보 단어들의 적합도에 기초하여, 후보 단어들 중 최적의 후보 단어를 선택할 수 있다. 예를 들어, 대체부(123)는 가장 높은 적합도를 가지는 후보 단어를 최적의 후보 단어로 선택할 수 있다.

실시예들에 따르면, 전술한 음성 인식 장치(100)의 동작 방식은 다양하게 응용될 수 있다. 도 13을 참조하면, 제1 인식부(110)는 복수의 후보 문장들을 생성할 수 있다. 제1 인식부(110)는 수신된 음성에 기초하여 다양한 후보 문장들을 생성할 수 있다.

후보 문장들은 서로 다른 음소 길이의 단어들을 포함하거나, 서로 다른 수의 단어들을 포함할 수 있다. 예를 들어, 제1 후보 문장(1311)의 첫 번째 단어의 음소 길이는 제2 후보 문장(1312)의 첫 번째 단어의 음소 길이보다 짧을 수 있다. 또한, 제1 후보 문장(1311) 및 제2 후보 문장(1312)은 총 네 개의 단어들을 포함하나, 제3 후보 문장(1313)은 총 세 개의 단어들만을 포함할 수 있다.

후보 문장들 각각은 문장 스코어로 평가될 수 있다. 예를 들어, 제1 후보 문장(1311)의 문장 스코어는 70이고, 제2 후보 문장(1312)의 문장 스코어는 65이며, 제3 후보 문장(1313)의 문장 스코어는 50일 수 있다.

제2 인식부(120)는 후보 문장들 각각에 대하여, 수정이 필요한 적어도 하나의 대상 단어를 검출할 수 있다. 제2 인식부(120)는 전술한 방식을 통하여 후보 문장들 각각을 위한 대상 단어를 최적의 후보 단어로 수정할 수 있다. 하나의 후보 문장에 둘 이상의 대상 단어들이 선택될 수도 있으며, 제2 인식부(120)는 대상 단어들을 순차적으로 수정하거나, 동시에 수정할 수 있다.

수정된 후보 문장들은 문장 스코어로 평가될 수 있다. 예를 들어, 수정된 제1 후보 문장(1321)의 문장 스코어는 75이고, 수정된 제2 후보 문장(1322)의 문장 스코어는 70이며, 수정된 제3 후보 문장(1323)의 문장 스코어는 60일 수 있다.

제2 인식부(120)는 일정 수준 이상의 문장 스코어를 가지는 후보 문장이 생성될 때까지 수정 작업을 반복할 수 있다. 제2 인식부(120)는 수정된 후보 문장들로부터 대상 단어들을 검출하고, 검출된 대상 단어들을 최적의 후보 단어들로 수정할 수 있다.

반복되는 수정 과정으로 인하여, 후보 문장들 사이의 문장 스코어 순위가 역전될 수 있다. 예를 들어, 재 수정된 제1 후보 문장(1331)의 문장 스코어는 80이고, 재 수정된 제2 후보 문장(1332)의 문장 스코어는 90이며, 재 수정된 제3 후보 문장(1333)의 문장 스코어는 70일 수 있다. 제2 인식부(120)는 재 수정된 제2 후보 문장(1332)을 최종 결과로 출력할 수 있다.

제2 인식부(120)는 후보 문장들에 대한 리스코어링(rescoring)을 통하여 최적의 후보 문장을 검출하는데 그치지 않고, 양방향 회귀 신경망 언어 모델을 이용하여 후보 문장들 내 대상 단어들을 수정할 수 있다. 제2 인식부(120)는 노이즈 등으로 인하여 후보 문장들에 정답이 없는 경우에도, 음성 인식의 정확도를 향상시킬 수 있다. 이처럼, 양방향 회귀 신경망 언어 모델을 이용하여 단어를 검색하는 제2 인식부(120)의 동작은 사람의 음성 인식 메커니즘과 유사하다.

도 14는 일 실시예에 따른 제1 인식부를 나타낸 블록도이다. 도 14를 참조하면, 제1 인식부(110)는 수신부(111), 추출부(112), 디코딩부(113), 및 생성부(114)를 포함한다. 수신부(111), 추출부(112), 디코딩부(113), 및 생성부(114)는 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 조합으로 구현될 수 있다.

수신부(111)는 사용자의 음성을 수신하고, 추출부(112)는 수신된 음성으로부터 특징(feature)들을 추출할 수 있다. 추출부(112)는 다양한 방식으로 특징들을 추출할 수 있다. 예를 들어, 추출부(112)는 LPC(Linear Predictive Coding) 기법, MFCC(Mel Frequency Cepstral Coefficients) 기법 등을 이용하여 음성으로부터 특징들을 추출할 수 있다.

디코딩부(113)는 추출된 특징들로부터 음소 시퀀스를 디코딩할 수 있다. 예를 들어, 디코딩부(113)는 음성 모델을 이용하여 특징들로부터 음소 시퀀스를 디코딩할 수 있다. 음성 모델은 템플릿 기반으로 패턴을 매칭하는 DTW(Dynamic Time Warping) 기법을 이용하거나, 통계적으로 패턴을 인식하는 HMM(Hidden Markov Modeling) 기법을 이용할 수 있다.

생성부(114)는 음소 시퀀스들로부터 단어들을 인식함으로써 임시 인식 결과에 해당하는 문장을 생성할 수 있다. 예를 들어, 생성부(114)는 제1 언어 모델을 이용하여 음소 시퀀스들로부터 단어들을 인식할 수 있다. 제1 언어 모델은 바이-그램(Bi-Gram) 등 제2 인식부(120)에 의하여 이용되는 제2 언어 모델에 비하여 단순한 언어 모델일 수 있다.

도면에 도시하지 않았으나, 제1 인식부(110)는 수신된 음성에서 인식 구간을 추출하고, 인식 구간 내 잡음을 처리하는 등 전처리 작업을 수행하는 전처리부를 더 포함할 수 있다.

도 15는 다른 실시예에 따른 음성 인식 장치를 나타낸 블록도이다. 도 15를 참조하면, 음성 인식 장치(1500)는 특징 추출부(1510), 음소 인식부(1520), 디코딩부(1530), 평가부(1540), 및 샘플링부(1550)를 포함한다. 특징 추출부(1510), 음소 인식부(1520), 디코딩부(1530), 평가부(1540), 및 샘플링부(1550)는 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 조합으로 구현될 수 있다.

특징 추출부(1510)는 음성으로부터 특징들을 추출한다. 특징 추출부(1510)는 LPC 기법, MFCC 기법 등을 이용하여 음성으로부터 특징들을 추출할 수 있다. 음소 인식부(1520)는 음성 모델(1525)을 이용하여 특징들로부터 음소들을 인식한다. 음성 모델(1525)은 DTW 기반 음성 모델, HMM 기반 음성 모델 등일 수 있다. 디코딩부(1530)는 제1 언어 모델(1535)를 이용하여 음소들로부터 단어들을 인식함으로써, 임시 인식 결과에 해당하는 문장을 생성할 수 있다. 제1 언어 모델(1535)은 N-그램 언어 모델일 수 있다.

평가부(1540)는 임시 인식 결과에 해당하는 문장 내 단어들에 대한 적합도를 평가할 수 있다. 평가부(1540)는 제2 언어 모델(1545)에 기초하여 임시 인식 결과에 해당하는 문장 내 각 단어에 대하여 전후 문맥에 기반하여 적합도를 평가할 수 있다. 제2 언어 모델(1545)는 양 방향 회귀 신경망 언어 모델일 수 있다. 평가부(1540)는 평가 결과에 기초하여, 전체 문장 중 수정이 필요한 대상 단어가 있는지 여부를 판별할 수 있다. 예를 들어, 평가부(1540)는 전체 문장의 모든 단어들에 대한 조건 확률을 계산한 뒤, 수정이 필요한 대상 단어를 검출할 수 있다.

샘플링부(1550)는 대상 단어를 위한 후보 단어들을 추천할 수 있다. 예를 들어, 샘플링부(1550)는 제2 언어 모델(1545)에 기초하여 대상 단어의 위치에 어울리는 단어들을 추천할 수 있다. 제2 언어 모델(1545)는 양 방향 회귀 신경망 언어 모델일 수 있다. 샘플링부(1550)는 양 방향 회귀 신경망 언어 모델을 이용함으로써, 문장 전체를 고려하여 대상 단어의 위치에 추천되는 후보 단어들의 확률들을 제시할 수 있다. 예를 들어, 샘플링부(1550)는 문장의 앞부분부터 대상 단어의 위치까지의 제1 부분과 문장의 뒷부분부터 대상 단어의 위치까지의 제2 부분을 고려하여, 대상 단어의 위치에 어울리는 단어들의 확률들을 계산할 수 있다. 샘플링부(1550)는 단어 사전으로부터 확률이 높은 순으로 미리 정해진 수의 후보 단어들을 선택할 수 있다.

경우에 따라, 샘플링부(1550)는 각 후보 단어들과 대상 단어의 위치에서의 음성 모델 기반 음소 시퀀스와의 거리를 비교할 수 있다. 샘플링부(1550)는 대상 단어의 위치에서의 음성 모델 기반 음소 시퀀스와의 거리가 일정 이상 떨어진 후보 단어는 탈락시킬 수 있다. 후보 단어의 음소 시퀀스는 단어 사전에 저장되어 있을 수 있다.

샘플링부(1550)는 문맥 정보를 활용하여 후보 단어들을 추천할 수 있다. 예를 들어, 샘플링부(1550)는 이전 문장의 토픽을 검출하고, 검출된 토픽을 이용하여 그 다음 문장에서 후보 단어들을 추천할 수 있다. 샘플링부(1550)는 단어 사전에 저장된 단어들의 토픽들과 이전 문장에서 검출된 토픽을 비교한 뒤, 토픽이 유사한 단어들을 집중적으로 후보 단어로 추천할 수 있다.

평가부(1540)는 샘플링 된 단어들에 대하여 적합도를 평가할 수 있다. 평가부(1540)는 대상 단어와 제2 언어 모델(1545)을 기반으로 추천된 후보 단어들을 비교함으로써, 최적의 후보 단어를 선택할 수 있다. 평가부(1540)는 대상 단어와 후보 단어들을 비교할 때, 제2 언어 모델의 가중치와 음성 모델의 가중치를 동적으로 제어할 수 있다. 예를 들어, 음성 모델을 기반으로 산출된 확률 분포가 특정 후보 단어에 집중되는 등 엔트로피가 낮은 경우, 음성 모델에 높은 가중치를 줄 수 있다. 반면, 음성 모델 기반 확률 분포가 다수의 후보 단어들에 골고루 분포되는 등 엔트로피가 높은 경우, 음성 모델에 낮은 가중치를 줄 수 있다.

음성 모델(1525), 제1 언어 모델(1535), 및 제2 언어 모델(1545)은 각각 음성 인식 장치(1500) 내 미리 구비된 저장 공간에 저장되거나, 원격에 위치한 서버에 저장될 수 있다. 음성 모델(1525), 제1 언어 모델(1535), 또는 제2 언어 모델(1545)이 원격의 서버에 저장되는 경우, 음성 인식 장치(1500)는 네트워크를 통하여 서버에 저장된 모델을 이용할 수 있다.

음성 인식 장치(1500)는 이벤트 성 노이즈에 대하여 강건한 음성 인식 결과를 출력할 수 있다. 음성 인식 장치(1500)는 노이즈 등으로 인식률이 저하되는 상황에서 언어 모델에 근거한 샘플링을 통하여 인식률을 향상시키는 기술을 제공할 수 있다.

도 16 내지 도 18은 실시예들에 따른 음성 인식 방법을 나타낸 동작 흐름도들이다. 도 16을 참조하면, 일 실시예에 따른 음성 인식 방법은 음성 인식에 의하여 생성된 문장을 수신하는 단계(1610); 문장에 포함된 단어들 각각에 대하여, 문장 내 나머지 단어들과의 관계에 기반한 적합도를 계산하는 단계(1620); 단어들의 적합도들에 기초하여, 단어들 중 수정이 필요한 대상 단어를 검출하는 단계(1630); 및 대상 단어에 대응하는 후보 단어들 중 어느 하나로 대상 단어를 대체하는 단계(1640)를 포함한다. 도 16에 도시된 각 단계들에는 도 1의 제2 인식부(120)의 동작이 그대로 적용될 수 있으므로, 보다 상세한 설명은 생략한다.

도 17을 참조하면, 일 실시예에 따른 음성 인식 방법은 사용자의 음성을 수신하는 단계(1710); 음성으로부터 특징들을 추출하는 단계(1720); 음성 모델을 이용하여 특징들로부터 음소 시퀀스를 인식하는 단계(1730); 및 언어 모델을 이용하여 음소 시퀀스로부터 단어들을 인식함으로써, 문장을 생성하는 단계(1740)를 더 포함할 수 있다. 도 17에 도시된 각 단계들에는 도 1의 제1 인식부(110)의 동작이 그대로 적용될 수 있으므로, 보다 상세한 설명은 생략한다.

도 18을 참조하면, 일 실시예에 따른 음성 인식 방법은 음성으로부터 특징들을 추출하는 단계(1810); 특징들로부터 음소들을 인식하는 단계(1820); 음소들로부터 단어들을 디코딩하는 단계(1830); 단어들을 평가하는 단계(1840); 부적합한 단어가 존재하는지 여부를 판단하는 단계(1850); 및 부적합한 단어가 존재하는 경우, 해당 단어를 대체하기 위한 후보 단어들을 샘플링하는 단계(1860)를 포함한다.

단계(1840)에서 샘플링 된 후보 단어들이 평가됨으로써, 부적합한 단어를 대체하기 위한 최적의 후보 단어가 선택될 수 있다. 단계(1840), 단계(1850), 및 단계(1860)은 부적합한 단어가 존재하지 않을 때까지 반복될 수 있다. 더 이상 부적합한 단어가 존재하지 않는 경우, 단계(1870)에서 최적 문장이 출력될 수 있다.

도 18에 도시된 각 단계들에는 도 15의 음성 인식 장치(1500)의 동작이 그대로 적용될 수 있으므로, 보다 상세한 설명은 생략한다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 비록 한정된 도면에 의해 실시예들이 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

음성 인식에 의하여 생성된 문장을 수신하는 단계;
상기 문장에 포함된 단어들 각각에 대하여, 상기 문장 내 나머지 단어들과의 관계에 기반한 적합도를 계산하는 단계;
상기 단어들의 적합도들에 기초하여, 상기 단어들 중 수정이 필요한 대상 단어를 검출하는 단계; 및
상기 대상 단어의 음소 시퀀스(phoneme sequence)와의 유사도에 기초하여, 상기 대상 단어에 대응하는 후보 단어들 중 어느 하나로 상기 대상 단어를 대체(replace)하는 단계
를 포함하는 음성 인식 방법.
제1항에 있어서,
상기 적합도를 계산하는 단계는
양방향 회귀 신경망(bidirectional recurrent neural network) 언어 모델(language model)을 이용하여 상기 단어들 각각의 적합도를 계산하는 단계
를 포함하는, 음성 인식 방법.
제1항에 있어서,
상기 대상 단어를 검출하는 단계는
미리 정해진 임계 값 미만의 적합도를 가지는 단어들을 검출하는 단계; 및
적합도가 작은 순서로 미리 정해진 수의 단어들을 검출하는 단계
중 적어도 하나를 포함하는, 음성 인식 방법.
제1항에 있어서,
상기 대상 단어를 대체하는 단계는
상기 문장에서 상기 대상 단어를 제외한 나머지 단어들과의 관계 및 상기 문장에 선행하는 이전 문장의 문맥(context) 중 적어도 하나에 기초하여 상기 후보 단어들을 결정하는 단계
를 포함하는, 음성 인식 방법.
제4항에 있어서,
상기 후보 단어들을 결정하는 단계는
미리 구비된 단어 사전으로부터, 상기 후보 단어들을 획득하는 단계
를 포함하는, 음성 인식 방법.
제1항에 있어서,
상기 대상 단어를 대체하는 단계는
상기 후보 단어들 각각에 대하여, 상기 대상 단어의 음소 시퀀스와의 유사도에 기반한 제1 모델 및 상기 문장에서 상기 대상 단어를 제외한 나머지 단어들과의 관계에 기반한 제2 모델 및 중 적어도 하나에 기초하여 해당 후보 단어의 적합도를 계산하는 단계
를 포함하는, 음성 인식 방법.
제6항에 있어서,
상기 대상 단어를 대체하는 단계는
상기 제1 모델을 위한 제1 가중치 및 상기 제2 모델을 위한 제2 가중치를 설정하는 단계
를 더 포함하는, 음성 인식 방법.
제7항에 있어서,
상기 제1 가중치 및 상기 제2 가중치를 설정하는 단계는
상기 문장과 관련된 제1 모델 기반 확률 분포에 기초하여, 상기 제1 가중치 및 상기 제2 가중치를 동적으로 제어하는 단계
를 포함하는, 음성 인식 방법.
제1항에 있어서,
사용자의 음성을 수신하는 단계;
상기 음성으로부터 특징(feature)들을 추출하는 단계;
음성 모델을 이용하여 상기 특징들로부터 음소 시퀀스를 인식하는 단계; 및
언어 모델을 이용하여 상기 음소 시퀀스로부터 단어들을 인식함으로써, 상기 문장을 생성하는 단계
를 더 포함하는, 음성 인식 방법.
제9항에 있어서,
상기 언어 모델은
바이-그램(Bi-Gram) 언어 모델(language model)을 포함하는, 음성 인식 방법.
하드웨어와 결합되어 제1항 내지 제10항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
사용자의 음성을 인식함으로써 문장을 생성하는 제1 인식부; 및
상기 문장 내 전후 문맥에 기반한 언어 모델에 기초하여, 상기 문장 내 적어도 하나의 단어를 수정하는 제2 인식부
를 포함하고,
상기 제2 인식부는
상기 문장에 포함된 단어들 각각에 대하여, 상기 문장 내 나머지 단어들과의 관계에 기반한 적합도를 계산하는 계산부;
상기 단어들의 적합도들에 기초하여 상기 단어들 중 수정이 필요한 대상 단어를 검출하는 검출부; 및
상기 대상 단어의 음소 시퀀스(phoneme sequence)와의 유사도에 기초하여, 상기 대상 단어에 대응하는 후보 단어들 중 어느 하나로 상기 대상 단어를 대체(replace)하는 대체부
를 포함하는 음성 인식 장치.
제12항에 있어서,
상기 제1 인식부는
상기 음성을 수신하는 수신부;
상기 음성으로부터 특징(feature)들을 추출하는 추출부;
상기 특징들로부터 음소 시퀀스를 디코딩하는 디코딩부; 및
상기 음소 시퀀스로부터 단어들을 인식함으로써, 상기 문장을 생성하는 생성부
를 포함하는, 음성 인식 장치.
제12항에 있어서,
상기 언어 모델은
양방향 회귀 신경망(bidirectional recurrent neural network) 언어 모델(language model)을 포함하는, 음성 인식 장치.
삭제
제12항에 있어서,
상기 검출부는
미리 정해진 임계 값 미만의 적합도를 가지는 단어들을 검출하거나, 적합도가 작은 순서로 미리 정해진 수의 단어들을 검출하는, 음성 인식 장치.
제12항에 있어서,
상기 대체부는
상기 문장 내 상기 대상 단어의 위치, 상기 문장에서 상기 대상 단어를 제외한 나머지 단어들과의 관계 및 상기 문장에 선행하는 이전 문장의 문맥(context) 중 적어도 하나에 기초하여 상기 후보 단어들을 결정하는, 음성 인식 장치.
제17항에 있어서,
상기 대체부는
미리 구비된 단어 사전으로부터, 상기 후보 단어들을 획득하는, 음성 인식 장치.
제12항에 있어서,
상기 대체부는
상기 후보 단어들 각각에 대하여, 상기 대상 단어의 음소 시퀀스와의 유사도에 기반한 제1 모델 및 상기 문장에서 상기 대상 단어를 제외한 나머지 단어들과의 관계에 기반한 제2 모델 중 적어도 하나에 기초하여 해당 후보 단어의 적합도를 계산하는, 음성 인식 장치.
제19항에 있어서,
상기 대체부는
상기 문장과 관련된 제1 모델 기반 확률 분포에 기초하여, 상기 제1 모델을 위한 제1 가중치 및 상기 제2 모델을 위한 제2 가중치를 동적으로 제어하는, 음성 인식 장치.