KR100650473B1 - 음성 인식 장치 - Google Patents
음성 인식 장치 Download PDFInfo
- Publication number
- KR100650473B1 KR100650473B1 KR1020047018136A KR20047018136A KR100650473B1 KR 100650473 B1 KR100650473 B1 KR 100650473B1 KR 1020047018136 A KR1020047018136 A KR 1020047018136A KR 20047018136 A KR20047018136 A KR 20047018136A KR 100650473 B1 KR100650473 B1 KR 100650473B1
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- model
- voice
- parameter
- speech model
- Prior art date
Links
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims description 35
- 230000008878 coupling Effects 0.000 claims description 34
- 238000010168 coupling process Methods 0.000 claims description 34
- 238000005859 coupling reaction Methods 0.000 claims description 34
- 239000000284 extract Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 3
- 230000005055 memory storage Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 18
- 230000007704 transition Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 11
- 230000000644 propagated effect Effects 0.000 description 10
- 240000000220 Panda oleosa Species 0.000 description 7
- 235000016496 Panda oleosa Nutrition 0.000 description 7
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 2
- 240000004246 Agave americana Species 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
불특정 화자 음성 인식을 행하는 데 필요한 메모리 용량을 저감하는 데 적합한 음성 인식 장치를 제공한다. 대조 처리부(114)는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 RAM(112)에 전개하고, 음성 파라미터 추출부(106)에서 추출한 음성 파라미터를 RAM(112)의 음성 모델에 부여하며, 이것에 수반하여 가비지 모델(350)로부터 출력되는 생기 확률이 소정값 이상으로 되었을 때는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개한다.
음성 인식, 음성 모델, 가비지 모델, 음성 파라미터, 생기 확률, 음성 모델 네트워크, 음성 모델 그룹
Description
본 발명은 불특정 화자용의 음성 모델에 기초하여 음성 인식을 행하는 시스템에 관한 것으로, 특히 불특정 화자 음성 인식을 행하는 데 필요한 메모리 용량을 저감하는 데 적합한 음성 인식 장치에 관한 것이다.
음성 인식의 세계에서는, 일반적으로, 불특정 화자를 대상으로 하여 음성을 인식하는 기술을 불특정 화자 음성 인식이라고 칭하고, 특정 화자를 대상으로 하여 음성을 인식하는 기술을 특정 화자 음성 인식이라고 칭하고 있다.
음성 인식 방법의 하나로서는, 예를 들면, 하나의 단어를 구성하는 음운을 음성 단위로 하여, 각 음운마다 음성 파라미터에 의해 모델화한 음성 모델을 이용하여 음성을 인식한다고 하는 것이 있다. 「홋카이도」라는 단어를 예로 들면, 「h」, 「o」, 「ts」, 「k」, 「a」, 「i」, 「d」, 「o」, 「u」라는 9개의 음운을 직렬로 접속한 네트워크로 「홋카이도」의 음성 모델을 작성한다. 그 외에, 「아오모리」라든가 「아키타」라는 다른 단어를 인식하는 경우에는, 이것에 대응한 음성 모델을 각각 준비할 필요가 있다. 불특정 화자 인식의 경우에는, 이 음성 모델이, 많은 화자에게 공통되는 음성 파라미터에 의해 모델화되고 있다.
종래, 이러한 음운의 음성 모델을 이용하여 불특정 화자 음성 인식을 행하는 기술로서는, 은닉 마르코프 모델(이하, 간단히 HMM(Hidden Markov Model)이라고 함)이 널리 알려져 있고, 예를 들면, 「음성·음 정보의 디지털 신호 처리」(鹿野淸宏, 中村哲, 伊勢史郎共著, (株)昭晃堂)에 상세히 설명되어 있다.
HMM에 의한 불특정 화자 음성 인식 방법을 도 7 및 도 8을 참조하면서 간단히 설명한다. 도 7은 소정 구분으로 분류한 음운 세트를 나타내는 도면이다. 도 8은 음운의 직렬 접속 네트워크에 의해 모델화한 음성 모델의 개념을 나타내는 도면이다.
HMM에 따르면, 일본어의 경우, 우선, 도 7에 도시하는 바와 같이, 모음, 마찰음, 파찰음, 파열음, 반모음 및 비음 중 어느 하나의 음운을 이용하여, 하나의 단어를, 음운을 직렬로 접속한 네트워크로 구성한다. 그리고, 이것에 대응하는 상태 천이를 작성하고, 각 상태에 대하여, 다음의 상태로 천이하는 확률을 나타내는 천이 확률, 및 다음의 상태로 천이할 때에 음성 파라미터를 출력하는 확률을 나타내는 출력 확률을 규정함으로써, 음성 모델을 작성한다. 예를 들면, 「홋카이도」라는 단어에 대한 음성 모델은 도 8의 (A)에 도시하는 바와 같이, 9개의 음운을 발성 순으로 직렬로 접속한 네트워크로 모델화할 수 있다. 도 8의 (B)에는, 각 음운의 HMM의 상태 천이가 도시되어 있다.
여기서, 도 8의 (B) 중의 a(I, J)는 상태 I로부터 상태 J로의 천이 확률을 나타내고, 예를 들면 도면 중의 a(1, 1)은 상태 1로부터 상태 1로의 천이 확률을 나타낸다. 또한, b(I, x)는 음성 파라미터 x가 얻어졌을 때의 상태 1에서의 출력 확률을 나타내고, 도면 중의 b(1, x)는 음성 파라미터 x가 얻어졌을 때의 상태 1의 출력 확률을 나타낸다.
또한, 도 8의 (B) 중의 p(I)는 상태 I의 확률을 나타내고, 하기의 수학식 1에 의해 표현된다.
또, 상기의 수학식 1 중 「max」는 인수 중에서 최대값을 선택하는 함수이다.
다음에, 이러한 음성 모델을 복수개 이용하여 비교적 긴 단어 열의 음성을 인식하는 경우를 도 9를 참조하면서 상세히 설명한다. 본 예에서는, 주소 등과 같이 도도부현명이나 시읍면명을 결합한 단어 열의 음성을 인식하는 경우가 있다. 도 9는 음성 모델 네트워크(500)의 구성을 나타내는 도면이다.
음성 모델 네트워크는, 도 9에 도시하는 바와 같이, 입력 음성의 무음 성분을 검출하는 포즈(502)와, 각 도도부현명의 음성을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(504)과, 도도부현 아래의 계층인 각 시명의 음성을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(506)과, 시 아래의 계층인 구명 또는 동명의 음성을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(508)과, 구 또는 거리 아래의 계층인 각 지구명을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(510)과, 입력 음성의 무음 성분을 검출하는 포즈(512)로 구성되어 있다.
음성 모델 그룹(504)은 각 도도부현에 대응하여 그 도도부현명의 음성을 인 식 가능한 음성 모델을 그룹화한 것으로, 포즈(502)에 결합하고 있다.
음성 모델 그룹(506)은 각 시에 대응하여 그 시명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 음성 모델 그룹(504)에 속하는 각 음성 모델과 결합하고 있다. 도 9의 예에서는, 음성 모델 그룹(504)에 속하는 음성 모델 중 가나가와현의 음성을 인식 가능한 것에, 가나가와현에 속하는 각 시명의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(506)이 결합되어 있다.
음성 모델 그룹(508)은 각 구 또는 각 거리에 대응하여 그 구명 또는 동명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 음성 모델 그룹(506)에 속하는 각 음성 모델과 결합하고 있다. 도 9의 예에서는, 음성 모델 그룹(506)에 속하는 음성 모델 중 후지사와시의 음성을 인식 가능한 것에, 후지사와시에 속하는 각 동명의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(508)이 결합되어 있다.
음성 모델 그룹(510)은 각 지구에 대응하여 그 지구명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 음성 모델 그룹(508)에 속하는 각 음성 모델과 결합하고 있다. 도 9의 예에서는, 음성 모델 그룹(508)에 속하는 음성 모델 중 기따구의 음성을 인식 가능한 것에, 기따구에 속하는 각 지구명의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(510)이 결합되어 있다.
포즈(512)는 음성 모델 그룹(508) 또는 음성 모델 그룹(510)에 결합하고 있다.
또한, 이들 결합 관계에서는, 음성 파라미터를 부여하는 것에 수반하여, 포 즈(502), 음성 모델 그룹(504), 음성 모델 그룹(506), 음성 모델 그룹(508), 음성 모델 그룹(510) 및 포즈(512)의 순으로, 또는 포즈(502), 음성 모델 그룹(504), 음성 모델 그룹(506), 음성 모델 그룹(508) 및 포즈(512)의 순으로 생기 확률의 변동이 전파되도록 되어 있다.
이와 같이, 불특정 화자 음성 인식을 행하는 데 있어서는, 복수의 음성 모델을 미리 준비해 두고, 이들 음성 모델을 RAM 등의 메모리에 배치하여 음성 인식을 행하게 되어 있다.
그러나, 이 방법으로는, 결합 단어 수가 증가하게 되면, 단어 수가 조합하여 폭발적으로 증대하여, 비터비 알고리즘 등의 음성 인식 처리에서 필요한 메모리 용량이 증대하며, 카 내비게이션과 같은 조립형 시스템에서는, 시스템을 구성하는 메모리 용량이 증대한다. 예를 들면, 지명 인식을 행하는 경우, 도도부현에 계속하여 시읍면명까지 연속하는 단어 열의 음성을 인식 가능한 음성 모델 네트워크에서는 인식할 단어 수는 3500개 정도 되지만, 도도부현, 시읍면명에 계속해서 구명, 군명 등까지 연속하는 단어 열을 인식 가능한 음성 모델 네트워크에서는 인식할 단어 수는 10만 어를 넘는다.
그래서, 본 발명은, 이러한 종래 기술이 갖는 미해결의 과제에 주목하여 이루어진 것으로, 불특정 화자 음성 인식을 행하는 데 필요한 메모리 용량을 저감하는 데 적합한 음성 인식 장치를 제공하는 것을 목적으로 하고 있다.
상기 목적을 달성하기 위해서, 본 발명에 따른 청구의 범위 제1항에 기재된 음성 인식 장치는, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 구비하고, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 장치로서, 상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단을 구비하며, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 음성 모델 그룹을 복수 구성하고, 이들 음성 모델 그룹에 대하여 소정의 결합 관계를 규정한 음성 모델 네트워크를 구성하며, 상기 음성 모델 네트워크 중 복수의 음성 모델 그룹과 결합 관계를 갖는 것을 부모 음성 모델 그룹으로 하고, 상기 음성 모델 네트워크 중 상기 부모 음성 모델 그룹과 결합 관계를 갖는 것을 자식 음성 모델 그룹으로 하며, 음성 인식을 행할 때는, 상기 부모 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 부모 음성 모델 그룹에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하며, 입력 음성으로부터 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 부모 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 자식 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있다.
이러한 구성이면, 음성 인식을 행할 때는, 비특정 음성 인식용 음성 모델 및 부모 음성 모델 그룹에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개되고, 입력 음성으로부터 추출된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여 부모 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 자식 음성 모델 그룹 중 어느 하나에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다.
여기서, 부모 음성 모델 그룹 및 자식 음성 모델 그룹은 어떠한 결합 관계를 갖고 있어도 되며, 예를 들면, 부모 음성 모델 그룹의 후방에 자식 음성 모델 그룹이 결합하고 있는 경우, 또는 자식 음성 모델 그룹의 후방에 부모 음성 모델 그룹이 결합하고 있는 경우가 상정된다. 여기서, 후방이란, 생기 확률의 변동이 전파되는 방향에 대하여 후방인 것을 의미한다. 이것은, 부모 음성 모델 그룹 및 비특정 음성 인식용 음성 모델의 결합 관계, 또는 자식 음성 모델 그룹 및 비특정 음성 인식용 음성 모델의 결합 관계에 대해서도 동일하다. 이하, 청구의 범위 제12항에 기재된 음성 인식 프로그램, 및 청구의 범위 제14항에 기재된 음성 인식 방법에서 동일하다.
또한, 음성 모델은 소정의 음성 단위로 모델화한 것으로, 소정의 음성 단위로서는 음운이어도 되고, 복수의 음운의 계열이어도 된다. 이하, 청구의 범위 제2항에 기재된 음성 인식 장치, 청구의 범위 제12 및 제13항에 기재된 음성 인식 프로그램, 및 청구의 범위 제14 및 제15항에 기재된 음성 인식 방법에서 동일하다.
또한, 음성 모델 전개용 기억 수단은 음성 모델을 모든 수단에서 그리고 모든 시기에 기억하는 것으로, 음성 모델을 미리 기억하고 있는 것이어도 되고, 음성 모델을 미리 기억하지 않고, 본 장치의 동작 시에 외부로부터의 입력 등에 의해서 음성 모델을 기억하도록 되어 있어도 된다. 이하, 청구의 범위 제2항에 기재된 음성 인식 장치, 청구의 범위 제12 및 제13항에 기재된 음성 인식 프로그램, 및 청구의 범위 제14 및 제15항에 기재된 음성 인식 방법에서 동일하다.
또한, 본 발명에 따른 청구의 범위 제2항에 기재된 음성 인식 장치는, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 구비하고, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 장치로서, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 제1 음성 모델 그룹과, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 어느 하나의 음성 모델과 결합 관계를 갖는 제2 음성 모델 그룹과, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 다른 어느 하나의 음성 모델과 결합 관계를 갖는 제3 음성 모델 그룹과, 상기 제1 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델과, 상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단 과, 상기 음성 파라미터를 입력 음성으로부터 추출하는 음성 파라미터 추출 수단과, 상기 제1 음성 모델 그룹, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델, 및 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터에 기초하여 음성 인식을 행하는 음성 인식 수단을 구비하고, 상기 음성 인식 수단은, 상기 제1 음성 모델 그룹에 속하는 음성 모델 및 상기 비특정 음성 인식용 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하고, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있다.
이러한 구성이면, 화자로부터 음성이 입력되면, 음성 파라미터 추출 수단에 의해, 음성 파라미터가 입력 음성으로부터 추출된다. 그리고, 음성 인식 수단에 의해, 제1 음성 모델 그룹에 속하는 음성 모델 및 비특정 음성 인식용 음성 모델이 음성 모델 전개용 기억 수단에 전개되고, 추출된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다.
여기서, 제1 음성 모델 그룹, 제2 음성 모델 그룹 및 제3 음성 모델 그룹은 어떠한 결합 관계를 갖고 있어도 되고, 예를 들면, 제1 음성 모델 그룹의 후방에 제2 음성 모델 그룹 및 제3 음성 모델 그룹이 결합하고 있는 경우, 또는 제2 음성 모델 그룹 및 제3 음성 모델 그룹의 후방에 제1 음성 모델 그룹이 결합하고 있는 경우가 상정된다. 여기서, 후방이란, 생기 확률의 변동이 전파되는 방향에 대하여 후방인 것을 의미한다. 이것은, 제1 음성 모델 그룹 및 비특정 음성 인식용 음성 모델의 결합 관계, 또는 제2 음성 모델 그룹 및 제3 음성 모델 그룹 및 비특정 음성 인식용 음성 모델의 결합 관계에 대해서도 동일하다.
또한, 본 발명에 따른 청구의 범위 제3항에 기재된 음성 인식 장치는, 청구의 범위 제2항에 기재된 음성 인식 장치로서, 상기 음성 인식 수단은, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 소정값 이상으로 되었을 때는, 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있다.
이러한 구성이면, 음성 인식 수단에 의해, 추출된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 소정값 이상으로 되면, 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 제2 음성 모델 그 룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다.
또한, 본 발명에 따른 청구의 범위 제4항에 기재된 음성 인식 장치는, 청구의 범위 제2 및 제3항 중 어느 하나에 기재된 음성 인식 장치로서, 상기 음성 인식 수단은, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 상기 소정값 이상으로 되었을 때는, 상기 제1 음성 모델 그룹에 속하는 음성 모델 및 상기 비특정 음성 인식용 음성 모델을 상기 음성 모델 전개용 기억 수단으로부터 삭제하고, 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있다.
이러한 구성이면, 음성 인식 수단에 의해, 추출된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 소정값 이상으로 되면, 제1 음성 모델 그룹에 속하는 음성 모델 및 비특정 음성 인식용 음성 모델이 음성 모델 전개용 기억 수단으로부터 삭제되고, 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다.
또한, 본 발명에 따른 청구의 범위 제5항에 기재된 음성 인식 장치는, 청구 의 범위 제3 및 제4항 중 어느 하나에 기재된 음성 인식 장치로서, 상기 비특정 음성 인식용 음성 모델은, 상기 제1 음성 모델 그룹에 속하는 음성 모델과 결합하고 있고, 상기 음성 파라미터를 부여하는 것에 수반하여, 상기 제1 음성 모델 그룹의 음성 모델 및 상기 비특정 음성 인식용 음성 모델의 순으로 상기 생기 확률의 변동이 전파되도록 되어 있다.
이러한 구성이면, 음성 인식 수단에 의해, 추출된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여, 제1 음성 모델 그룹의 음성 모델 및 비특정 음성 인식용 음성 모델의 순으로 생기 확률의 변동이 전파된다.
또한, 본 발명에 따른 청구의 범위 제6항에 기재된 음성 인식 장치는, 청구의 범위 제5항에 기재된 음성 인식 장치로서, 상기 음성 파라미터를 기억하기 위한 음성 파라미터 기억 수단을 더 구비하고, 상기 음성 파라미터 추출 수단은, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터를 상기 음성 파라미터 기억 수단에 소정 순서로 저장하도록 되어 있으며, 상기 음성 인식 수단은, 상기 음성 파라미터 기억 수단으로부터 상기 소정 순서로 상기 음성 파라미터를 판독하고, 판독한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 상기 소정값 이상으로 되었을 때는, 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하고, 상기 음성 파라미터 기억 수단에서의 상기 음성 파라미터의 판독 위치를 상기 소정 순서와 역의 순서로 소정 수 복귀하며, 그 판독 위치로부터 상기 소정 순서로 상기 음성 파라미터를 판독하고, 판독한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하게 되어 있다.
이러한 구성이면, 화자로부터 음성이 입력되면, 음성 파라미터 추출 수단에 의해, 음성 파라미터가 입력 음성으로부터 추출되고, 추출된 음성 파라미터가 음성 파라미터 기억 수단에 소정 순서로 저장된다. 그리고, 음성 인식 수단에 의해, 음성 파라미터 기억 수단으로부터 소정 순서로 음성 파라미터가 판독되고, 판독된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 소정값 이상으로 되면, 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다. 그리고, 음성 파라미터 기억 수단에서의 음성 파라미터의 판독 위치가 소정 순서와 역의 순서로 소정 수 복귀되고, 그 판독 위치로부터 소정 순서로 음성 파라미터가 판독되며, 판독된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다.
여기서, 음성 파라미터 기억 수단은 음성 파라미터를 모든 수단으로 그리고 모든 시기에 기억하는 것으로, 음성 파라미터를 미리 기억하고 있는 것이어도 되고, 음성 파라미터를 미리 기억하지 않고, 본 장치의 동작 시에 외부로부터의 입력 등에 의해서 음성 파라미터를 기억하도록 되어 있어도 된다.
또한, 본 발명에 따른 청구의 범위 제7항에 기재된 음성 인식 장치는, 청구의 범위 제6항에 기재된 음성 인식 장치로서, 상기 음성 인식 수단은, 상기 제1 음성 모델 그룹 내에서 상기 생기 확률이 가장 높은 음성 모델을 인식 음성 모델로서 특정하고, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 상기 인식 음성 모델과 결합 관계를 갖는 것에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하며, 상기 인식 음성 모델로부터 상기 비특정 음성 인식용 음성 모델에 상기 생기 확률의 변동이 전파되기까지의 소요 시간을 산출하고, 상기 음성 파라미터 기억 수단에서의 상기 음성 파라미터의 판독 위치를 상기 소요 시간에 상당하는 수만큼 복귀하도록 되어 있다.
이러한 구성이면, 음성 인식 수단에 의해, 제1 음성 모델 그룹 내에서 생기 확률이 가장 높은 음성 모델이 인식 음성 모델로서 특정되고, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 인식 음성 모델과 결합 관계를 갖는 것에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다. 그리고, 인식 음성 모델로부터 비특정 음성 인식용 음성 모델에 생기 확률의 변동이 전파되기까지의 소요 시간이 산출되고, 음성 파라미터 기억 수단에서의 음성 파라미터의 판독 위치가 소요 시간에 상당하는 수만큼 복귀된다.
또한, 본 발명에 따른 청구의 범위 제8항에 기재된 음성 인식 장치는, 청구의 범위 제7항에 기재된 음성 인식 장치로서, 상기 음성 인식 수단은, 상기 음성 파라미터 기억 수단에서의 상기 음성 파라미터의 판독 위치를, 상기 인식 음성 모델을 특정한 시점에서의 상기 판독 위치로부터 상기 소요 시간에 상당하는 수만큼 복귀하게 되어 있다.
이러한 구성이면, 음성 인식 수단에 의해, 음성 파라미터 기억 수단에서의 음성 파라미터의 판독 위치가, 인식 음성 모델을 특정한 시점에서의 판독 위치로부터, 산출된 소요 시간에 상당하는 수만큼 복귀된다.
또한, 본 발명에 따른 청구의 범위 제9항에 기재된 음성 인식 장치는, 청구의 범위 제2 내지 제8항 중 어느 하나에 기재된 음성 인식 장치로서, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델 대신에, 이들 음성 모델이 인식 가능한 특정 음성의 발음을 표기한 발음 표기 문자열을 상기 음성 모델 전개용 기억 수단에 기억함과 함께, 상기 발음표기 문자열에 기초하여 상기 음성 모델을 구성 가능한 음성 모델 템플릿을, 상기 제2 음성 모델 그룹에 속하는 음성 모델의 수 및 상기 제3 음성 모델 그룹에 속하는 음성 모델의 수 중 많은 쪽에 상당하는 수만큼 상기 음성 모델 전개용 기억 수단에 기억해 놓고, 상기 음성 인식 수단은, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하는 경우에는, 상기 음성 모델 전개용 기억 수단의 발음 표기 문자열 중 상기 음성 모델 전개용 기억 수단에 전개할 음성 모델에 대응하는 것에 기초하여, 상기 음성 모델 전개용 기억 수단의 음성 모델 템플릿으로부터 상기 음성 모델을 구성하도록 되어 있다.
이러한 구성이면, 음성 인식 수단에 의해, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 음성 모델 전개용 기억 수단에 전개하는 경우에는, 음성 모델 전개용 기억 수단의 발음 표기 문자열 중 음성 모델 전 개용 기억 수단에 전개할 음성 모델에 대응하는 것에 기초하여, 음성 모델 전개용 기억 수단의 음성 모델 템플릿으로부터 음성 모델이 구성된다.
또한, 본 발명에 따른 청구의 범위 제10항에 기재된 음성 인식 장치는, 청구의 범위 제2 내지 제9항 중 어느 하나에 기재된 음성 인식 장치로서, 상기 음성 인식 수단은, 상기 제1 음성 모델 그룹 내에서 상기 생기 확률이 가장 높은 음성 모델을 제1 인식 음성 모델로서 특정하고, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 상기 음성 모델 전개용 기억 수단에 전개한 것 중에서 상기 생기 확률이 가장 높은 음성 모델을 제2 인식 음성 모델로서 특정하며, 상기 제1 인식 음성 모델의 특정 음성 및 상기 제2 인식 음성 모델의 특정 음성을 결합한 것이 입력 음성에 포함되어 있다고 판정하게 되어 있다.
이러한 구성이면, 음성 인식 수단에 의해, 제1 음성 모델 그룹 내에서 생기 확률이 가장 높은 음성 모델이 제1 인식 음성 모델로서 특정되고, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 음성 모델 전개용 기억 수단에 전개한 것 중에서 생기 확률이 가장 높은 음성 모델이 제2 인식 음성 모델로서 특정된다. 그리고, 제1 인식 음성 모델의 특정 음성 및 제2 인식 음성 모델의 특정 음성을 결합한 것이 입력 음성에 포함되어 있다고 판정된다.
또한, 본 발명에 따른 청구의 범위 제11항에 기재된 음성 인식 장치는, 청구의 범위 제2 내지 제10항 중 어느 하나에 기재된 음성 인식 장치로서, 상기 비특정 음성 인식용 음성 모델은 가비지 모델이다.
이러한 구성이면, 화자로부터 음성이 입력되면, 음성 파라미터 추출 수단에 의해, 음성 파라미터가 입력 음성으로부터 추출된다. 그리고, 음성 인식 수단에 의해, 제1 음성 모델 그룹에 속하는 음성 모델 및 가비지 모델이 음성 모델 전개용 기억 수단에 전개되고, 추출된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 가비지 모델로부터 출력되는 생기 확률에 기초하여, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다.
한편, 상기 목적을 달성하기 위해서, 본 발명에 따른 청구의 범위 제12항에 기재된 음성 인식 프로그램은, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 프로그램으로서, 상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단을 구비한 컴퓨터에 대하여, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 음성 모델 그룹을 복수 구성하고, 이들 음성 모델 그룹에 대하여 소정의 결합 관계를 규정한 음성 모델 네트워크를 구성하며, 상기 음성 모델 네트워크 중 복수의 음성 모델 그룹과 결합 관계를 갖는 것을 부모 음성 모델 그룹으로 하고, 상기 음성 모델 네트워크 중 상기 부모 음성 모델 그룹과 결합 관계를 갖는 것을 자식 음성 모델 그룹으로 하며, 음성 인식을 행할 때는, 상기 부모 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특 정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 부모 음성 모델 그룹에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하고, 입력 음성으로부터 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 부모 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 자식 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하는 처리를 실행시키기 위한 프로그램이다.
이러한 구성이면, 컴퓨터에 의해 프로그램이 판독되고, 판독된 프로그램에 따라 컴퓨터가 처리를 실행하면, 청구의 범위 제1항에 기재된 음성 인식 장치와 동등한 작용이 얻어진다.
또한, 본 발명에 따른 청구의 범위 제13항에 기재된 음성 인식 프로그램은, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 프로그램으로서, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 제1 음성 모델 그룹과, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 어느 하나 의 음성 모델과 결합 관계를 갖는 제2 음성 모델 그룹과, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 다른 어느 하나의 음성 모델과 결합 관계를 갖는 제3 음성 모델 그룹과, 상기 제1 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델과, 상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단을 이용 가능한 컴퓨터에 대하여, 상기 음성 파라미터를 입력 음성으로부터 추출하는 음성 파라미터 추출 수단, 및 상기 제1 음성 모델 그룹, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델, 및 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터에 기초하여 음성 인식을 행하는 음성 인식 수단으로서 실현되는 처리를 실행시키기 위한 프로그램이며, 상기 음성 인식 수단은, 상기 제1 음성 모델 그룹에 속하는 음성 모델 및 상기 비특정 음성 인식용 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하고, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있다.
이러한 구성이면, 컴퓨터에 의해 프로그램이 판독되고, 판독된 프로그램에 따라 컴퓨터가 처리를 실행하면, 청구의 범위 제2항에 기재된 음성 인식 장치와 동등한 작용이 얻어진다.
한편, 상기 목적을 달성하기 위해서, 본 발명에 따른 청구의 범위 제14항에 기재된 음성 인식 방법은, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 방법으로서, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 음성 모델 그룹을 복수 구성하고, 이들 음성 모델 그룹에 대하여 소정의 결합 관계를 규정한 음성 모델 네트워크를 구성하며, 상기 음성 모델 네트워크 중 복수의 음성 모델 그룹과 결합 관계를 갖는 것을 부모 음성 모델 그룹으로 하고, 상기 음성 모델 네트워크 중 상기 부모 음성 모델 그룹과 결합 관계를 갖는 것을 자식 음성 모델 그룹으로 하며, 음성 인식을 행할 때는, 상기 부모 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 부모 음성 모델 그룹에 속하는 음성 모델을 음성 모델 전개용 기억 수단에 전개하고, 입력 음성으로부터 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 부모 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하 여, 상기 자식 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개한다.
또한, 본 발명에 따른 청구의 범위 제15항에 기재된 음성 인식 방법은, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 방법으로서, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 제1 음성 모델 그룹과, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 어느 하나의 음성 모델과 결합 관계를 갖는 제2 음성 모델 그룹과, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화면서, 상기 제1 음성 모델 그룹에 속하는 다른 어느 하나의 음성 모델과 결합 관계를 갖는 제3 음성 모델 그룹을 구성하고, 상기 음성 파라미터를 입력 음성으로부터 추출하는 음성 파라미터 추출 단계와, 상기 제1 음성 모델 그룹, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델, 및 상기 음성 파라미터 추출 단계에서 추출한 음성 파라미터에 기초하여 음성 인식을 행하는 음성 인식 단계를 포함하며, 상기 음성 인식 단계는, 상기 제1 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 제1 음성 모델 그룹에 속하는 음성 모델을 음 성 모델 전개용 기억 수단에 전개하고, 상기 음성 파라미터 추출 단계에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개한다.
도 1은 음성 인식 장치(100)의 구성을 나타내는 블록도.
도 2는 음운의 직렬 접속 네트워크에 의해 모델화한 음성 모델의 개념을 나타내는 도면으로, 도 2의 (A)는 음운의 직렬 접속에 의한 단어 음성 모델을 나타내는 도면이고, 도 2의 (B)는 각 음운의 HMM 상태 천이를 나타내는 도면.
도 3은 제1 음성 모델 네트워크(300)의 구성을 나타내는 도면.
도 4는 가비지 모델(350)의 구성을 나타내는 도면.
도 5는 제2 음성 모델 네트워크(400)의 구성을 나타내는 도면.
도 6은 음성 모델 네트워크의 전환 타이밍을 도시하는 타임챠트.
도 7은 소정 구분으로 분류한 음운 세트를 나타내는 도면.
도 8은 음운의 직렬 접속 네트워크에 의해 모델화한 음성 모델의 개념을 나타내는 도면으로, 도 8의 (A)는 음운의 직렬 접속 네트워크에 의한 남녀 공용 단어 음성 모델을 나타내는 도면이고, 도 8의 (B)는 각 음운의 HMM 상태 천이를 나타내는 도면.
도 9는 음성 모델 네트워크(500)의 구성을 나타내는 도면.
이하, 본 발명의 제1 실시 형태를 도면을 참조하면서 설명한다. 도 1 내지 도 6은 본 발명에 따른 음성 인식 장치의 제1 실시 형태를 나타내는 도면이다.
본 실시 형태는, 본 발명에 따른 음성 인식 장치를, 도 1에 도시하는 바와 같이, 복수의 음성 모델을 결합한 음성 모델 네트워크를 이용하여 주소 등의 비교적 긴 단어 열의 음성을 인식하는 경우에 대해 적용한 것이다.
우선, 음성 인식 장치(100)의 구성을 도 1을 참조하면서 설명한다. 도 1은 음성 인식 장치(100)의 구성을 나타내는 블록도이다.
음성 인식 장치(100)는, CPU, ROM, RAM 및 I/F 등을 버스 접속한 일반적인 컴퓨터와 동일 기능을 갖게 구성되어 있고, 도 1에 도시하는 바와 같이, 마이크(102)와, 마이크(102)로부터의 입력 음성을 A/D 변환하는 A/D 변환기(104)와, A/D 변환기(104)에서 변환한 음성 데이터로부터 음성 파라미터를 추출하는 음성 파라미터 추출부(106)와, 음성 파라미터 추출부(106)에서 추출한 음성 파라미터를 기억하는 링 버퍼(108)와, 음성 모델을 기억하는 음성 모델 기억부(110)와, 음성 모델 기억부(110)의 음성 모델을 전개하기 위한 RAM(112)과, 대조 처리부(114)와, 음성 파라미터 추출부(106) 및 대조 처리부(114)의 프로그램 등을 기억한 ROM(116)과, 대조 처리부(114)의 인식 결과를 출력하는 출력부(118)로 구성되어 있다.
링 버퍼(108)는 음성 파라미터를 기억하기 위한 소정의 기억 영역을 갖는다. 링 버퍼(108)에의 기입에서는, 음성 파라미터 추출부(106)에서 추출한 음성 파라미 터를 기입 포인터가 지시하는 어드레스에 기입하여, 기입 포인터를 1 가산한다. 단, 기입 포인터가 기억 영역의 말미의 어드레스에 도달했을 때는, 기입 포인터를 선두의 어드레스에 설정한다. 이를 반복함으로써, 음성 파라미터는, 음성 파라미터 추출부(106)로부터 추출된 순서로 링 버퍼(108)에 순환적으로 기입되어 간다. 또, 기입 포인터는 음성 파라미터 추출부(106)에 의해 제어된다.
또한, 링 버퍼(108)로부터의 판독에서는, 판독 포인터가 지시하는 어드레스로부터 음성 파라미터를 판독하고, 판독 포인터를 1 가산한다. 단, 판독 포인터가 기억 영역의 말미의 어드레스에 도달했을 때는, 판독 포인터를 선두의 어드레스에 설정한다. 이를 반복함으로써, 음성 파라미터는, 링 버퍼(108)에 기입된 순서로 링 버퍼(108)로부터 순환적으로 판독되어 간다. 또, 판독 포인터는 대조 처리부(114)에 의해 제어되고, 기입 포인터를 추월하지 않도록 조정된다.
음성 모델 기억부(110)에는, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 생기 확률이 높게 되도록 모델화된 음성 모델이 기억되어 있다.
HMM에 의한 불특정 화자 음성 인식 방법을 도 2를 참조하면서 간단히 설명한다. 도 2는 음운의 직렬 접속 네트워크에 의해 모델화한 음성 모델의 개념을 나타내는 도면이다.
HMM에 따르면, 일본어의 경우, 우선,모음, 마찰음, 파찰음, 파열음, 반모음 및 비음 중 어느 하나의 음운을 이용하여, 하나의 단어를, 음운을 직렬로 접속한 네트워크로 구성한다. 그리고, 이것에 대응하는 상태 천이를 작성하고, 각 상태에 대하여, 다음의 상태로 천이하는 확률을 나타내는 천이 확률, 및 다음의 상태로 천이할 때에 음성 파라미터를 출력하는 확률을 나타내는 출력 확률을 규정함으로써, 음성 모델을 작성한다. 예를 들면, 「홋카이도」라는 단어에 대한 음성 모델은, 도 2의 (A)에 도시하는 바와 같이, 9개의 음운을 발성 순으로 직렬로 접속한 네트워크로 모델화할 수 있다. 도 2의 (B)에는 각 음운의 HMM의 상태 천이가 도시되어 있다.
여기서, 도 2의 (B) 중의 a(I, J)는 상태 I로부터 상태 J로의 천이 확률을 나타내고, 예를 들면 도면 중의 a(1, 1)은, 상태 1로부터 상태 1로의 천이 확률을 나타낸다. 또한, b(I, x)는 음성 파라미터 x가 얻어졌을 때의 상태 I에서의 출력 확률을 나타내고, 도면 중의 b(1, x)는 음성 파라미터 x가 얻어졌을 때의 상태 1의 출력 확률을 나타낸다.
또한, 도 2의 (B) 중의 p(I)는 상태 I의 확률을 나타내고, 상기 수학식 1에 의해 표시된다.
이러한 음성 모델을 복수개 이용하여, 주소 등과 같이 도도부현명이나 시읍면명을 결합한 단어 열의 음성을 인식하는 경우에는, 복수의 음성 모델을 결합한 음성 모델 네트워크를 구축한다.
본 실시 형태에서, 음성 모델 네트워크는 RAM(112)에 전개하는 단위마다 구성되어 있고, 제1 음성 모델 네트워크(300)와, 제2 음성 모델 네트워크(400)로 이루어져 있다. 제2 음성 모델 네트워크(400)는 제1 음성 모델 네트워크(300)의 후 방에 논리적으로 결합한다. 여기서, 후방이란, 생기 확률의 변동이 전파되는 방향에 대하여 후방인 것을 의미한다.
제1 음성 모델 네트워크(300)의 구성을 도 3을 참조하면서 상세히 설명한다. 도 3은 제1 음성 모델 네트워크(300)의 구성을 나타내는 도면이다.
제1 음성 모델 네트워크(300)는, 도 3에 도시하는 바와 같이, 입력 음성의 무음 성분을 검출하는 포즈(302)와, 각 도도부현명의 음성을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(304)과, 도도부현 아래의 계층인 각 시명의 음성을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(306)과, 시 아래의 계층인 구명 또는 동명의 음성을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(308)으로 구성되어 있다.
음성 모델 그룹(304)은 각 도도부현에 대응하여 그 도도부현의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 포즈(302)에 결합하고 있다.
음성 모델 그룹(306)은 각 시에 대응하여 그 시명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 음성 모델 그룹(304)에 속하는 각 음성 모델과 결합하고 있다. 도 3의 예에서는, 음성 모델 그룹(304)에 속하는 음성 모델 중 가나가와현의 음성을 인식 가능한 것에, 가나가와현에 속하는 각 시명의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(306)이 결합되어 있다.
음성 모델 그룹(308)은 각 구 또는 각 거리에 대응하여 그 구명 또는 동명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 음성 모델 그룹(306)에 속하는 각 음성 모델과 결합하고 있다. 도 3의 예에서는, 음성 모델 그룹(306)에 속하는 음성 모델 중 후지사와시의 음성을 인식 가능한 것에, 후지사와시에 속하는 각 동명의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(308)이 결합되어 있다.
또한, 제1 음성 모델 네트워크(300)의 후방에, 가비지 모델(350)이 결합하고 있다. 가비지 모델(350)은, 음성 모델 그룹(304), 음성 모델 그룹(306) 및 음성 모델 그룹(308)에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 생기 확률이 높게 되도록 모델화된 것으로, 음성 모델 그룹(306) 또는 음성 모델 그룹(308)에 결합하고 있다. 가비지 모델(350)은 미지 용장어에 대한 필러 모델로서, 음성 모델 네트워크 내에서, 임의의 경로 상에 있는 음성 모델의 열(이하, 라벨 계열이라고 함)에 없는 단어를 발화한 경우, 그 생기 확립(우도)이 높게 되는 성질을 갖는 모델이다. 예를 들면, 도 4에 도시되는 예는, 현명만을 인식하는 음성 모델 그룹이고, 현명 앞에「아-」라든가 「그-」라고 하는 용장어를 수반하는 발화에 대하여 현명의 인식율을 향상시키는 것이다. 가비지 모델(350)에 관한 기술에 관해서는, 종래 문헌 「H. Boulard, B.D' hoore and J. -M. Bolite, "Optimizing recognition and Rejection Performance in Wordspotting Systems", "Porc. ICASSP, Adelaide, Austria, pp.I-373-376, 1994」를 참조하길 바란다.
또한, 이들 결합 관계에 있어서는, 음성 파라미터를 부여하는 것에 수반하여, 포즈(302), 음성 모델 그룹(304), 음성 모델 그룹(306), 음성 모델 그룹(308) 및 가비지 모델(350)의 순으로, 또는 포즈(302), 음성 모델 그룹(304), 음성 모델 그룹(306) 및 가비지 모델(350)의 순으로, 생기 확률의 변동이 전파되도록 되어 있다.
다음에, 제2 음성 모델 네트워크(400)의 구성을 도 5를 참조하면서 상세히 설명한다. 도 5는 제2 음성 모델 네트워크(400)의 구성을 나타내는 도면이다.
제2 음성 모델 네트워크(400)는, 도 5에 도시하는 바와 같이, 구 또는 거리 아래의 계층인 각 지구명을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(402)과, 입력 음성의 무음 성분을 검출하는 포즈(404)로 구성되어 있다.
음성 모델 그룹(402)은 각 지구에 대응하여 그 지구명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 가비지 모델(350)과 결합하고 있다. 도 5의 예에서는, 기따구에 속하는 각 지구명의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(402)이 가비지 모델(350)에 결합되어 있다.
포즈(404)는 음성 모델 그룹(402)에 결합하고 있다. 다음에, 대조 처리부(114)의 구성을 설명한다.
대조 처리부(114)는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 음성 모델 기억부(110)로부터 판독하고, 판독한 음성 모델 및 가비지 모델(350)을 RAM(112)에 전개한다.
계속해서, 링 버퍼(108)에서 판독 포인터가 나타내는 어드레스로부터 음성 파라미터를 판독하고, 판독 포인터를 1 가산한다. 단, 판독 포인터가 기억 영역의 말미의 어드레스에 도달했을 때는, 판독 포인터를 선두의 어드레스에 설정한다.
계속해서, 판독한 음성 파라미터를 RAM(112)의 음성 모델에 부여한다. 이것 에 수반하여 가비지 모델(350)로부터 출력되는 생기 확률이 소정값 이상으로 되었을 때는, 제1 음성 모델 네트워크(300) 내에서, 생기 확률의 적산치가 가장 높은 라벨 계열을 제1 인식 음성 모델로서 특정한다.
계속해서, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 RAM(112)으로부터 삭제하고, 음성 모델 그룹(402) 중 제1 인식 음성 모델의 말미에 결합할 것에 속하는 음성 모델 및 포즈(404)를 음성 모델 기억부(110)로부터 판독하며, 판독한 음성 모델 및 포즈(404)를 RAM(112)에 전개한다.
계속해서, 제1 인식 음성 모델로부터 가비지 모델(350)에 생기 확률의 변동이 전파되기까지의 소요 시간을 산출하고, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터를, 산출한 소요 시간에 상당하는 수만큼 복귀한다. 단, 판독 포인터가 기억 영역의 선두의 어드레스에 도달했을 때는, 판독 포인터를 말미의 어드레스에 설정한다.
그리고, 링 버퍼(108)에서 판독 포인터가 나타내는 어드레스로부터 음성 파라미터를 판독하고, 판독한 음성 파라미터를 RAM(112)의 음성 모델에 부여한다. 이것에 수반하여 음성 모델 그룹(402) 내에서, 생기 확률의 적산치가 가장 높은 음성 모델을 제2 인식 음성 모델로서 특정하고, 제1 인식 음성 모델의 특정 음성 및 제2 인식 음성 모델의 특정 음성을 결합한 것이 입력 음성에 포함되어 있다고 판정한다.
다음에, 본 실시 형태의 동작을 도 6을 참조하면서 설명한다. 도 6은 음성 모델 네트워크의 전환 타이밍을 도시하는 타임챠트이다.
여기서는, 카 내비게이션 등에서 이용되는 주소 등의 비교적 긴 단어 열의 음성을 인식하는 경우를 예로 들어 설명한다.
음성 인식을 행하는 데 있어서는, 대조 처리부(114)에 의해, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)이 음성 모델 기억부(110)로부터 판독되고, 판독된 음성 모델 및 가비지 모델(350)이 RAM(112)에 전개된다.
이러한 상태에서, 화자로부터의 음성이 마이크(102)로부터 입력되면, A/D 변환기(104)에 의해, 마이크(102)로부터의 입력 음성이 A/D 변환되고, 음성 파라미터 추출부(106)에 의해, A/D 변환기(104)에서 변환된 음성 데이터로부터 음성 파라미터가 추출되고, 추출된 음성 파라미터가 링 버퍼(108)에서 기입 포인터가 나타내는 어드레스에 기입된다. 이에 의해, 음성 파라미터는, 음성 파라미터 추출부(106)로부터 추출된 순서로 링 버퍼(108)에 순환적으로 기입되어 간다.
계속해서, 대조 처리부(114)에 의해, 링 버퍼(108)에서 판독 포인터가 나타내는 어드레스로부터 음성 파라미터가 판독되고, 판독 포인터가 1 가산된다. 이 때, 판독 포인터가 기억 영역의 말미의 어드레스에 도달하면, 판독 포인터가 선두의 어드레스에 설정된다.
계속해서, 판독된 음성 파라미터가 RAM(112)의 음성 모델에 주어진다. 이것에 수반하여 가비지 모델(350)로부터 출력되는 생기 확률이 소정값 이상으로 되면, 제1 음성 모델 네트워크(300) 내에서, 생기 확률의 적산치가 가장 높은 라벨 계열이 제1 인식 음성 모델로서 특정된다. 도 6의 예에서는, 「가나가와현 후지사와시 미로꾸지」라는 음성이 화자로부터 입력되면, 음성 모델 그룹(304) 내에서는, 「가 나가와현」이라는 특정 음성을 인식 가능한 음성 모델이, 음성 모델 그룹(306) 내에서는, 「후지사와시」라는 특정 음성을 인식 가능한 음성 모델이 제1 인식 음성 모델로서 특정된다.
계속해서, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)이 RAM(112)으로부터 삭제되고, 음성 모델 그룹(402) 중 제1 인식 음성 모델의 말미에 결합할 것에 속하는 음성 모델 및 포즈(404)가 음성 모델 기억부(110)로부터 판독되며, 판독된 음성 모델 및 포즈(404)가 RAM(112)에 전개된다. 도 6의 예에서는, 제1 인식 음성 모델의 말미에는, 후지사와시 아래의 계층인 각 지구명을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(402)이 결합되어 있기 때문에, 그와 같은 음성 모델 그룹(402)이 판독된다.
계속해서, 제1 인식 음성 모델로부터 가비지 모델(350)에 생기 확률의 변동이 전파되기까지의 소요 시간이 산출되고, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터가, 산출된 소요 시간에 상당하는 수만큼 복귀된다. 이 때, 판독 포인터가 기억 영역의 선두의 어드레스에 도달하면, 판독 포인터가 말미의 어드레스에 설정된다. 판독 포인터를 복귀하는 것은, 가비지 모델(350)의 생기 확률이 소정값으로 되기까지의 지연 시간의 영향을 저감하기 위해서이다. 도 6의 예에서는, 리트레이스 프레임 수로서 판독 포인터를 1 감소시키고 있다.
그리고, 링 버퍼(108)에서 판독 포인터가 나타내는 어드레스로부터 음성 파라미터가 판독되고, 판독된 음성 파라미터가 RAM(112)의 음성 모델에 주어진다. 이것에 수반하여 음성 모델 그룹(402) 내에서, 생기 확률의 적산치가 가장 높은 음 성 모델이 제2 인식 음성 모델로서 특정된다. 도 6의 예에서는,「가나가와현 후지사와시 미로꾸지」라는 음성이 화자로부터 입력되면, 음성 모델 그룹(402) 내에서는, 「미로꾸지」라는 특정 음성을 인식 가능한 음성 모델이 제2 인식 음성 모델로서 특정된다. 제1 인식 음성 모델 및 제2 인식 음성 모델이 특정되면, 제1 인식 음성 모델의 특정 음성 및 제2 인식 음성 모델의 특정 음성을 결합한 것이 입력 음성에 포함되어 있다고 판정된다. 즉, 「가나가와현 후지사와시 미로꾸지」라는 음성이 입력 음성에 포함되어 있다고 판정된다.
[실시예]
다음에, 본 발명의 실시예를 설명한다.
제1 음성 모델 네트워크(300)에는 약 3500 단어의 음성을 인식 가능한 음성 모델이 포함되고, 제2 음성 모델 네트워크(400)에는 최대로 약 1000 단어의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(402)이 포함되어 있는 것으로 한다.
종래와 같이, 제1 음성 모델 네트워크(300) 및 제2 음성 모델 네트워크(400)에 속하는 모든 음성 모델을 RAM(112)에 전개하여 음성 인식을 행하는 경우에는, 음성 모델을 전개하는 데 필요한 메모리 용량이 약 2O [MByte]로 되고, 비터비 알고리즘 등의 음성 인식 처리에서 필요한 메모리 용량이 약 1 [MByte]로 되어, 합계 21 [MByte]의 메모리 용량을 소비하게 된다.
이에 대하여, 본 발명과 같이, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 RAM(112)에 전개하여 전단의 음성 인식을 행하고, 그 것을 삭제한 후에, 제2 음성 모델 네트워크(400)에 속하는 음성 모델을 RAM(112)에 전개하여 후단의 음성 인식을 행하는 경우에는, 음성 모델을 전개하는 데 필요한 메모리 용량이 약 1.4 [MByte]로 되고, 비터비 알고리즘 등의 음성 인식 처리에서 필요한 메모리 용량이 약 O.5 [MByte]로 되어, 합계 1.9 [MByte]의 메모리 용량을 소비하게 된다. 따라서, 종래에 비해, 필요한 메모리 용량을 91% 저감할 수 있었다.
이와 같이 하여, 본 실시 형태에서는, 대조 처리부(114)는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 RAM(112)에 전개하고, 음성 파라미터 추출부(106)에서 추출한 음성 파라미터를 RAM(112)의 음성 모델에 부여하며, 이것에 수반하여 제1 음성 모델 네트워크(300)에 속하는 음성 모델로부터 출력되는 생기 확률 및 가비지 모델(350)로부터 출력되는 생기 확률에 기초하여, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하도록 되어 있다.
이에 의해, 결합 관계를 갖는 복수의 음성 모델 그룹을 이용하여 음성 인식을 행하는 경우에도, RAM(112)에는, 음성 모델 그룹(402)의 전부에 대하여 그 음성 모델을 전개하지 않고, 음성 모델 그룹(402) 중 어느 하나에 대하여 그 음성 모델을 전개할 뿐으로 끝나기 때문에, 종래에 비해, 음성 인식을 행하는 데 필요한 메모리 용량을 저감할 수 있다.
또한, 본 실시 형태에서는, 대조 처리부(114)는, 음성 파라미터 추출부(106)에서 추출한 음성 파라미터를 RAM(112)의 음성 모델에 부여하고, 이것에 수반하여 가비지 모델(350)로부터 출력되는 생기 확률이 소정값 이상으로 되었을 때는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 RAM(112)로부터 삭제하고, 제1 음성 모델 네트워크(300)에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하도록 되어 있다.
이에 의해, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하는 것에 수반하여, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)이 RAM(112)으로부터 삭제되기 때문에, 음성 인식을 행하는 데 필요한 메모리 용량을 더욱 저감할 수 있다.
또한, 본 실시 형태에서는, 가비지 모델(350)은, 제1 음성 모델 네트워크(300)에 속하는 음성 모델과 결합하고 있고, 음성 파라미터를 부여하는 것에 수반하여, 제1 음성 모델 네트워크(300)의 음성 모델 및 가비지 모델(350)의 순으로 생기 확률의 변동이 전파되도록 되어 있다.
이에 의해, 제1 음성 모델 네트워크(300)를 상위 계층으로 하여 계층적인 결합 관계를 갖는 복수의 음성 모델 그룹을 이용하여 음성 인식을 행하는 경우에, 필요한 메모리 용량을 저감할 수 있다. 예를 들면, 본 실시 형태와 같이, 카 내비게이션 등에서 이용되는 주소 등의 비교적 긴 단어 열의 음성을 인식하는 경우에 유리하다.
또한, 본 실시 형태에서는, 음성 파라미터 추출부(106)는, 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터를 링 버퍼(108)에 소정 순서로 저장하도록 되고 있고, 대조 처리부(114)는, 링 버퍼(108)로부터 소정 순서로 음성 파라미터를 판독하고, 판독한 음성 파라미터를 RAM(112)의 음성 모델에 부여하며, 이것에 수반하여 가비지 모델(350)로부터 출력되는 생기 확률이 소정값 이상으로 되었을 때는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하고, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터를 소정 순서와 역의 순서로 소정 수 복귀하며, 그 판독 포인터로부터 소정 순서로 음성 파라미터를 판독하고, 판독한 음성 파라미터를 RAM(112)의 음성 모델에 부여하게 되어 있다.
이에 의해, 가비지 모델(350)의 생기 확률이 소정값으로 될 때까지 어느 정도의 지연 시간을 요하기 때문에, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터를 복귀함으로써, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 이용하여 음성 인식을 행하는 경우에, 지연 시간의 영향을 저감하여, 비교적 정확한 음성 인식을 행하는 것이 가능하다.
또한, 본 실시 형태에서는, 대조 처리부(114)는, 제1 음성 모델 네트워크(300) 내에서 생기 확률이 가장 높은 라벨 계열을 제1 인식 음성 모델로서 특정하고, 음성 모델 그룹(402) 중 제1 인식 음성 모델과 결합 관계를 갖는 것에 속하는 음성 모델을 RAM(112)에 전개하며, 제1 인식 음성 모델로부터 가비지 모델(350)에 생기 확률의 변동이 전파되기까지의 소요 시간을 산출하고, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터를 소요 시간에 상당하는 수만큼 복귀하게 되어 있다.
이에 의해, 제1 인식 음성 모델로부터 가비지 모델(350)에 생기 확률의 변동이 전파되기까지의 시간에 상당하는 수만큼 음성 파라미터의 판독 포인터가 복귀되기 때문에, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 이용하여 음성 인식을 행하는 경우에, 지연 시간의 영향을 더욱 저감하여, 보다 정확한 음성 인식을 행할 수 있다.
또한, 본 실시 형태에서는, 대조 처리부(114)는, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터를, 제1 인식 음성 모델을 특정한 시점에서의 판독 포인터로부터 소요 시간에 상당하는 수만큼 복귀하게 되어 있다.
이에 의해, 음성 파라미터의 판독 포인터가, 제1 인식 음성 모델을 특정한 시점에서의 판독 포인터를 기준으로 하여, 제1 인식 음성 모델로부터 가비지 모델(350)에 생기 확률의 변동이 전파되기까지의 시간에 상당하는 수만큼 복귀되기 때문에, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 이용하여 음성 인식을 행하는 경우에, 지연 시간의 영향을 더욱 저감하여, 보다 정확한 음성 인식을 행할 수 있다.
상기 제1 실시 형태에서, 음성 파라미터 추출부(106)는 청구의 범위 제2 내지 제4, 제6 또는 제13항에 기재된 음성 파라미터 추출 수단에 대응하고, 음성 파라미터 추출부(106)에 의한 추출은 청구의 범위 제15항에 기재된 음성 파라미터 추출 단계에 대응하며, 링 버퍼(108)는 청구의 범위 제6 내지 제8항에 기재된 음성 파라미터 기억 수단에 대응하고 있다. 또, RAM(112)은 청구의 범위 제1 내지 제4, 제6, 제7, 제10, 제12 내지 제15항에 기재된 음성 모델 전개용 기억 수단에 대응하 고, 대조 처리부(114)는 청구의 범위 제2 내지 제4, 제6 내지 제8, 제10 또는 제13항에 기재된 음성 인식 수단에 대응하고 있다.
또한, 상기 제1 실시 형태에서, 제1 음성 모델 네트워크(300) 및 제2 음성 모델 네트워크(400)는 청구의 범위 제1, 제12 또는 제14항에 기재된 음성 모델 네트워크에 대응하고, 음성 모델 그룹(306) 또는 음성 모델 그룹(308)은 청구의 범위 제1, 제12 혹은 제14항에 기재된 부모 음성 모델 그룹, 또는 청구의 범위 제2 내지 제7, 제10, 제13 혹은 제15항에 기재된 제1 음성 모델 그룹에 대응하고 있다. 또, 가비지 모델(350)은 청구의 범위 제1 내지 제7, 제11 내지 제15항에 기재된 비특정 음성 인식용 음성 모델에 대응하고, 음성 모델 그룹(402)은 청구의 범위 제1, 제12 혹은 제14항에 기재된 자식 음성 모델 그룹, 청구의 범위 제2 내지 제4, 제6, 제7, 제10, 제13 혹은 제15항에 기재된 제2 음성 모델 그룹, 또는 청구의 범위 제2 내지 제4, 제6, 제7, 제10, 제13 혹은 제15항에 기재된 제3 음성 모델 그룹에 대응하고 있다.
다음에, 본 발명의 제2 실시 형태를 설명한다.
본 실시 형태는, 본 발명에 따른 음성 인식 장치를, 도 1에 도시하는 바와 같이, 복수의 음성 모델을 결합한 음성 모델 네트워크를 이용하여 주소 등의 비교적 긴 단어 열의 음성을 인식하는 경우에 대해 적용한 것이며, 상기 제1 실시 형태와 다른 것은 음성 모델 템플릿으로부터 음성 모델을 구성하는 점에 있다.
음성 모델 기억부(110)에는, 음성 모델 그룹(402)에 속하는 음성 모델 대신에, 이들 음성 모델이 인식 가능한 특정 음성의 발음을 표기한 가나 문자열을 기억 되어 있음과 함께, 가나 문자열에 기초하여 음성 모델을 구성 가능한 음성 모델 템플릿을, 음성 모델 그룹(402)에 속하는 음성 모델의 수만큼 기억되어 있다.
대조 처리부(114)는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델, 가비지 모델(350), 가나 문자열 및 음성 모델 템플릿을 음성 모델 기억부(110)로부터 판독하고, 판독한 음성 모델, 가비지 모델(350), 가나 문자열 및 음성 모델 템플릿을 RAM(112)에 전개한다.
다음에, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하는 경우는, RAM(112)의 가나 문자열 중 RAM(112)에 전개할 음성 모델에 대응하는 것에 기초하여, RAM(112)의 음성 모델 템플릿으로부터 음성 모델을 구성한다.
HMM을 이용한 음성 인식을 행하는 경우, 최종적으로는, 인식시키고자 한 단어, 예를 들면 「홋카이도」를 HMM 계열로 변환하는 것이 필요하게 된다. 이 경우, 우선, 「홋카이도」를 음운 계열 「h, q, ts, k, a, i, d, o, u」로 변환한다. 그 후, 음운 계열 「h, q, ts, k, a, i, d, o, u」를 더 상세한 음운 계열로 더 분할하는 것도 있지만, 최종적으로는, 각 음운 계열에 대응한 HMM 계열을 작성한다.
도 2의 예에서는, 각각의 음운 계열에 대하여, HMM의 상태가 3개 할당되어 있다. 즉, 「홋카이도」라는 문자 데이터가, 9(음운 계열)×3(상태 수)=27의 상태로 되는 것을 의미한다. 「홋카이도」는, 반각 가나로 나타내면, 6 [Byte]의 데이터로 된다. 한편, HMM의 각 상태는, 각 2 [Byte]로 표시된다고 한다면, 27×2=54 [Byte]로 된다.
또한, 음성 모델 네트워크의 데이터에서는, 음성 모델과 음성 모델의 연결 정보(그래머 또는 룰)가 기술되어 있다. 예를 들면, 「홋카이도」라는 단어는, 「홋카이도의 시읍면명」에 연결되어 있는 정보이다. 또한, 단어가 인식된 경우에 단어의 ID로서 인식 결과를 반환하는 경우에는, 단어의 ID값 등이 포함되는 경우도 있다. 그 외에, 음성 인식에서는, 이 이상의 데이터가 음성 모델 네트워크의 데이터로서 포함되어 있다.
따라서, 음성 모델을 RAM(112)에 그대로 전개하는 경우와, 가나 문자열 및 음성 모델 템플릿을 RAM(112)에 전개해 놓고, 음성 인식에 필요한 분만큼 음성 모델을 구성하는 경우를 비교하면, 후자쪽이 필요한 메모리 용량이 적다.
다음에, 본 실시 형태의 동작을 설명한다.
여기서는, 카 내비게이션 등에서 이용되는 주소 등의 비교적 긴 단어 열의 음성을 인식하는 경우를 예로 들어 설명한다.
음성 인식을 행하는 데 있어서는, 대조 처리부(114)에 의해, 제1 음성 모델 네트워크(300)에 속하는 음성 모델, 가비지 모델(350), 가나 문자열 및 음성 모델 템플릿이 음성 모델 기억부(110)로부터 판독되고, 판독된 음성 모델, 가비지 모델(350), 가나 문자열 및 음성 모델 템플릿이 RAM(112)에 전개된다.
이러한 상태에서, 화자로부터의 음성이 마이크(102)로부터 입력되면, A/D 변환기(104)에 의해, 마이크(102)로부터의 입력 음성이 A/D 변환되고, 음성 파라미터 추출부(106)에 의해, A/D 변환기(104)에서 변환된 음성 데이터로부터 음성 파라미터가 추출되고, 추출된 음성 파라미터가 링 버퍼(108)에서 기입 포인터가 지시하는 어드레스에 기입된다. 이에 의해, 음성 파라미터는, 음성 파라미터 추출부(106)로부터 추출된 순서로 링 버퍼(108)에 순환적으로 기입되어 간다.
계속해서, 대조 처리부(114)에 의해, 링 버퍼(108)에서 판독 포인터가 나타내는 어드레스로부터 음성 파라미터가 판독되고, 판독 포인터가 1 가산된다. 이 때, 판독 포인터가 기억 영역의 말미의 어드레스에 도달하면, 판독 포인터가 선두의 어드레스에 설정된다.
계속해서, 판독된 음성 파라미터가 RAM(112)의 음성 모델에 주어진다. 이것에 수반하여 가비지 모델(350)로부터 출력되는 생기 확률이 소정값 이상으로 되면, 제1 음성 모델 네트워크(300) 내에서, 생기 확률의 적산치가 가장 높은 라벨 계열이 제1 인식 음성 모델로서 특정된다.
계속해서, 음성 모델 그룹(402) 중 제1 인식 음성 모델의 말미에 결합할 것에 속하는 음성 모델 및 포즈(404)를 RAM(112)에 전개할 필요가 있지만, 이 경우, RAM(112)의 가나 문자열 중 RAM(112)에 전개할 음성 모델에 대응하는 것에 기초하여, RAM(112)의 음성 모델 템플릿으로부터 음성 모델이 구성된다.
계속해서, 제1 인식 음성 모델로부터 가비지 모델(350)에 생기 확률의 변동이 전파되기까지의 소요 시간이 산출되고, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터가, 산출된 소요 시간에 상당하는 수만큼 복귀된다. 이 때, 판독 포인터가 기억 영역의 선두의 어드레스에 도달하면, 판독 포인터가 말미의 어드레스에 설정된다. 판독 포인터를 복귀하는 것은, 가비지 모델(350)의 생기 확률이 소정값으로 되기까지의 지연 시간의 영향을 저감하기 위해서 이다.
그리고, 링 버퍼(108)에서 판독 포인터가 나타내는 어드레스로부터 음성 파라미터가 판독되고, 판독된 음성 파라미터가 RAM(112)의 음성 모델에 주어진다. 이것에 수반하여 음성 모델 그룹(402) 내에서, 생기 확률의 적산치가 가장 높은 음성 모델이 제2 인식 음성 모델로서 특정된다.
[실시예]
다음에, 본 발명의 실시예를 설명한다. 또, 단어 수 등의 조건은 상기 실시예와 마찬가지로 한다.
종래와 같이, 제1 음성 모델 네트워크(300) 및 제2 음성 모델 네트워크(400)에 속하는 모든 음성 모델을 RAM(112)에 전개하여 음성 인식을 행하는 경우에는, 음성 모델을 전개하는 데 필요한 메모리 용량이 약 2O [MByte]로 되고, 비터비 알고리즘 등의 음성 인식 처리에서 필요한 메모리 용량이 약 1 [MByte]로 되어, 합계 21 [MByte]의 메모리 용량을 소비하게 된다.
이에 대하여, 본 발명과 같이, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 RAM(112)에 전개하여 전단의 음성 인식을 행하고, 가나 문자열에 기초하여 음성 템플릿으로부터 음성 모델을 구성하여 후단의 음성 인식을 행하는 경우에는, 음성 모델을 전개하는 데 필요한 메모리 용량이 약 O.86 [MByte]로 되고, 비터비 알고리즘 등의 음성 인식 처리에서 필요한 메모리 용량이 약 0.5 [MByte]로 되어, 합계 1.36 [MByte]의 메모리 용량을 소비하게 된다. 따라서, 종래에 비해, 필요한 메모리 용량을 93% 저감할 수 있다.
이와 같이 하여, 본 실시 형태에서는, 대조 처리부(114)는, 음성 모델 그룹 (402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하는 경우에는, RAM(112)의 가나 문자열 중 RAM(112)에 전개할 음성 모델에 대응하는 것에 기초하여, RAM(112)의 음성 모델 템플릿으로부터 음성 모델을 구성하도록 되어 있다.
이에 의해, 일반적으로 음성 모델 템플릿은 음성 모델에 비해 데이터 용량이 적기 때문에, 음성 모델을 필요한 때에 동적으로 전개함으로써, 음성 인식을 행하게 하는 데 필요한 메모리 용량을 더욱 저감할 수 있다. 또, 일련의 음성 인식을 행하게 하는 데 있어, 음성 모델 기억부(110)로부터 음성 모델의 판독이 행해지지 않기 때문에, 음성 모델의 판독에 요하는 시간을 저감할 수 있다.
상기 제2 실시 형태에서, RAM(112)은 청구의 범위 제9항에 기재된 음성 모델 전개용 기억 수단에 대응하고, 대조 처리부(114)는 청구의 범위 제9항에 기재된 음성 인식 수단에 대응하며, 음성 모델 그룹(402)은 청구의 범위 제9항에 기재된 제2 음성 모델 그룹, 또는 청구의 범위 제9항에 기재된 제3 음성 모델 그룹에 대응하고 있다. 또, 가나 문자열은 청구의 범위 제9항에 기재된 발음 표기 문자열에 대응하고 있다.
또, 상기 제2 실시 형태에서, 대조 처리부(114)는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델, 가비지 모델(350), 가나 문자열 및 음성 모델 템플릿을 음성 모델 기억부(110)로부터 판독하고, 판독한 음성 모델, 가비지 모델(350), 가나 문자열 및 음성 모델 템플릿을 RAM(112)에 전개하며, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하는 경우에는, RAM(112)의 가나 문자열 중 RAM(112)에 전개할 음성 모델에 대응하는 것에 기초하여, RAM(112)의 음 성 모델 템플릿으로부터 음성 모델을 구성하도록 하였지만, 이것에 한하지 않고, 가나 문자열 또는 음성 모델 템플릿에 대해서는 후단의 음성 인식(제2 음성 모델 네트워크(400)에 의한 음성 인식)에 필요한 분만큼 RAM(112)에 판독하도록 구성하여도 된다.
또한, 상기 제1 및 제2 실시 형태에서는, 제1 음성 모델 네트워크(300)의 후방에 가비지 모델(350)을 결합하도록 구성하였지만, 이것에 한하지 않고, 제1 음성 모델 네트워크(300)의 전방에 가비지 모델(350)을 결합하고, 제1 음성 모델 네트워크(300)에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하도록 구성하여도 된다.
또한, 상기 제1 및 제2 실시 형태에서, 가비지 모델(350)이 복수의 이력 정보를 취하는 경우에는, 음성 모델 네트워크의 전환 시에, 원하는 후보 수에 따른 음성 모델 네트워크를 구축하여, 인식 처리를 행할 수 있다. 상기 지명 인식의 예에서는, 예를 들면, 제1 음성 모델 네트워크(300)에서 얻어진 제1 후보가 라벨 계열 「가나가와현→후지사와시」이고, 제2 후보가 라벨 계열 「가나가와현→아스키시」인 경우에는, 라벨 계열 「가나가와현→후지사와시」에 결합할 음성 모델 네트워크와, 라벨 계열 「가나가와현→아스키시」에 결합할 음성 모델 네트워크를 구축하고, 한쪽 음성 모델 네트워크에서의 각각의 생기 확률과, 다른 쪽 음성 모델 네트워크에서의 각각의 생기 확률을 고려하여, 최종 인식 결과를 출력할 수 있다.
또한, 상기 제1 및 제2 실시 형태에서, 음성 파라미터 추출부(106) 및 대조 처리부(114)의 기능을 실현하는 데 있어서는, 어느 것이나, ROM(116)에 미리 저장되어 있는 제어 프로그램을 실행하는 경우에 대해 설명하였지만, 이것에 한하지 않고, 이들 수순을 나타낸 프로그램이 기억된 기억 매체로부터, 그 프로그램을 RAM(112)에 판독하고 실행하도록 하여도 된다.
여기서, 기억 매체란, RAM, ROM 등의 반도체 기억 매체, FD, HD 등의 자기 기억형 기억 매체, CD, CDV, LD, DVD 등의 광학적 판독 방식 기억 매체, MO 등의 자기 기억형/광학적 판독 방식 기억 매체로서, 전자적, 자기적, 광학적 등의 판독 방법의 여하에 관계없이, 컴퓨터로 판독 가능한 기억 매체이면 모든 기억 매체를 포함한다.
또한, 상기 제1 및 제2 실시 형태에서는, 본 발명에 따른 음성 인식 장치를, 도 1에 도시하는 바와 같이, 복수의 음성 모델을 결합한 음성 모델 네트워크를 이용하여 주소 등의 비교적 긴 단어 열의 음성을 인식하는 경우에 대해 적용하였지만, 이것에 한하지 않고, 본 발명의 주지를 일탈하지 않는 범위에서 다른 경우에도 적용 가능하다.
이상 설명한 바와 같이, 본 발명에 따른 청구의 범위 제1항에 기재된 음성 인식 장치에 따르면, 결합 관계를 갖는 복수의 음성 모델 그룹을 이용하여 음성 인식을 행하는 경우에도, 음성 모델 전개용 기억 수단에는, 모든 자식 음성 모델 그룹에 대하여 그 음성 모델을 전개하지 않고, 어느 하나의 자식 음성 모델 그룹에 대하여 그 음성 모델을 전개할 뿐으로 끝나기 때문에, 종래에 비해, 음성 인식을 행하는 데 필요한 메모리 용량을 저감할 수 있다고 하는 효과가 얻어진다.
또한, 본 발명에 따른 청구의 범위 제2 내지 제11항에 기재된 음성 인식 장치에 따르면, 결합 관계를 갖는 복수의 음성 모델 그룹을 이용하여 음성 인식을 행하는 경우에도, 음성 모델 전개용 기억 수단에는, 제2 음성 모델 그룹 및 제3 음성 모델 그룹의 양쪽에 대하여 그 음성 모델을 전개하지 않고, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 대하여 그 음성 모델을 전개할 뿐으로 끝나기때문에, 종래에 비해, 음성 인식을 행하는 데 필요한 메모리 용량을 저감할 수 있다고 하는 효과가 얻어진다.
또한, 본 발명에 따른 청구의 범위 제4항에 기재된 음성 인식 장치에 따르면, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 음성 모델 전개용 기억 수단에 전개하는 데에 수반하여, 제1 음성 모델 그룹에 속하는 음성 모델 및 비특정 음성 인식용 음성 모델이 음성 모델 전개용 기억 수단으로부터 삭제되기 때문에, 음성 인식을 행하게 하는 데 필요한 메모리 용량을 더욱 저감할 수 있다고 하는 효과도 얻어진다.
또한, 본 발명에 따른 청구의 범위 제5 내지 제8항에 기재된 음성 인식 장치에 따르면, 제1 음성 모델 그룹을 상위 계층으로 하여 계층적인 결합 관계를 갖는 복수의 음성 모델 그룹을 이용하여 음성 인식을 행하는 경우에, 필요한 메모리 용량을 저감할 수 있다고 하는 효과도 얻어진다.
또한, 본 발명에 따른 청구의 범위 제6 내지 제8항에 기재된 음성 인식 장치에 따르면, 비특정 음성 인식용 음성 모델의 생기 확률이 소정값으로 될 때까지 어 느 정도의 지연 시간을 요하기 때문에, 음성 파라미터 기억 수단에서의 음성 파라미터의 판독 위치를 복귀함으로써, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 이용하여 음성 인식을 행하는 경우에, 지연 시간의 영향을 저감하여, 비교적 정확한 음성 인식을 행할 수 있다고 하는 효과도 얻어진다.
또한, 본 발명에 따른 청구의 범위 제7 또는 제8항에 기재된 음성 인식 장치에 따르면, 인식 음성 모델로부터 비특정 음성 인식용 음성 모델에 생기 확률의 변동이 전파되기까지의 시간에 상당하는 수만큼 음성 파라미터의 판독 위치가 복귀되기 때문에, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 이용하여 음성 인식을 행하는 경우에, 지연 시간의 영향을 더욱 저감하여, 보다 정확한 음성 인식을 행할 수 있다고 하는 효과도 얻어진다.
또한, 본 발명에 따른 청구의 범위 제8항에 기재된 음성 인식 장치에 따르면, 음성 파라미터의 판독 위치가, 인식 음성 모델을 특정한 시점에서의 판독 위치를 기준으로 하여, 인식 음성 모델로부터 비특정 음성 인식용 모델에 생기 확률의 변동이 전파되기까지의 시간에 상당하는 수만큼 복귀되기 때문에, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 이용하여 음성 인식을 행하는 경우에, 지연 시간의 영향을 더욱 저감하여, 보다 정확한 음성 인식을 행할 수 있다고 하는 효과도 얻어진다.
또한, 본 발명에 따른 청구의 범위 제9항에 기재된 음성 인식 장치에 따르면, 일반적으로 음성 모델 템플릿은 음성 모델에 비해 데이터 용량이 적기 때문에, 음성 모델을 필요한 때에 동적으로 전개함으로써, 음성 인식을 행하는 데 필요한 메모리 용량을 더욱 저감할 수 있다고 하는 효과도 얻어진다.
한편, 본 발명에 따른 청구의 범위 제12항에 기재된 음성 인식 프로그램에 따르면, 청구의 범위 제1항에 기재된 음성 인식 장치와 동등한 효과가 얻어진다.
또한, 본 발명에 따른 청구의 범위 제13항에 기재된 음성 인식 프로그램에 따르면, 청구의 범위 제2항에 기재된 음성 인식 장치와 동등한 효과가 얻어진다.
한편, 본 발명에 따른 청구의 범위 제14항에 기재된 음성 인식 방법에 따르면, 청구의 범위 제1항에 기재된 음성 인식 장치와 동등한 효과가 얻어진다.
또한, 본 발명에 따른 청구의 범위 제15항에 기재된 음성 인식 방법에 따르면, 청구의 범위 제2항에 기재된 음성 인식 장치와 동등한 효과가 얻어진다.
Claims (15)
- 삭제
- 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 구비하고, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 장치로서,상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 제1 음성 모델 그룹과,상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 어느 하나의 음성 모델과 결합 관계를 갖는 제2 음성 모델 그룹과,상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 다른 어느 하나의 음성 모델과 결합 관계를 갖는 제3 음성 모델 그룹과,상기 제1 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외 의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델과,상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단과,상기 음성 파라미터를 입력 음성으로부터 추출하는 음성 파라미터 추출 수단과,상기 제1 음성 모델 그룹, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델, 및 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터에 기초하여 음성 인식을 행하는 음성 인식 수단을 구비하고,상기 음성 인식 수단은, 상기 제1 음성 모델 그룹에 속하는 음성 모델 및 상기 비특정 음성 인식용 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하고, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있는 것을 특징으로 하는 음성 인식 장치.
- 제2항에 있어서,상기 음성 인식 수단은, 상기 음성 파라미터 추출 수단에서 추출한 음성 파 라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 소정값 이상으로 되었을 때는, 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있는 것을 특징으로 하는 음성 인식 장치.
- 제2항 또는 제3항에 있어서,상기 음성 인식 수단은, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 상기 소정값 이상으로 되었을 때는, 상기 제1 음성 모델 그룹에 속하는 음성 모델 및 상기 비특정 음성 인식용 음성 모델을 상기 음성 모델 전개용 기억 수단으로부터 삭제하고, 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있는 것을 특징으로 하는 음성 인식 장치.
- 제3항에 있어서,상기 비특정 음성 인식용 음성 모델은, 상기 제1 음성 모델 그룹에 속하는 음성 모델과 결합하고 있고,상기 음성 파라미터를 부여하는 데 수반하여, 상기 제1 음성 모델 그룹의 음성 모델 및 상기 비특정 음성 인식용 음성 모델의 순으로 상기 생기 확률의 변동이 전파되도록 되어 있는 것을 특징으로 하는 음성 인식 장치.
- 제5항에 있어서,상기 음성 파라미터를 기억하기 위한 음성 파라미터 기억 수단을 더 구비하고,상기 음성 파라미터 추출 수단은, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터를 상기 음성 파라미터 기억 수단에 소정 순서로 저장하도록 되어 있으며,상기 음성 인식 수단은, 상기 음성 파라미터 기억 수단으로부터 상기 소정 순서로 상기 음성 파라미터를 판독하고, 판독한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 상기 소정값 이상으로 되었을 때는, 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하며, 상기 음성 파라미터 기억 수단에서의 상기 음성 파라미터의 판독 위치를 상기 소정 순서와 역의 순서로 소정 수 복귀하고, 그 판독 위치로부터 상기 소정 순서로 상기 음성 파라미터를 판 독하며, 판독한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하게 되어 있는 것을 특징으로 하는 음성 인식 장치.
- 제6항에 있어서,상기 음성 인식 수단은, 상기 제1 음성 모델 그룹 내에서 상기 생기 확률이 가장 높은 음성 모델을 인식 음성 모델로서 특정하고, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 상기 인식 음성 모델과 결합 관계를 갖는 것에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하며, 상기 인식 음성 모델로부터 상기 비특정 음성 인식용 음성 모델에 상기 생기 확률의 변동이 전파되기까지의 소요 시간을 산출하고, 상기 음성 파라미터 기억 수단에서의 상기 음성 파라미터의 판독 위치를 상기 소요 시간에 상당하는 수만큼 복귀하게 되어 있는 것을 특징으로 하는 음성 인식 장치.
- 제7항에 있어서,상기 음성 인식 수단은, 상기 음성 파라미터 기억 수단에서의 상기 음성 파라미터의 판독 위치를, 상기 인식 음성 모델을 특정한 시점에서의 상기 판독 위치로부터 상기 소요 시간에 상당하는 수만큼 복귀하게 되어 있는 것을 특징으로 하는 음성 인식 장치.
- 제2항에 있어서,상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델 대신에, 이들 음성 모델이 인식 가능한 특정 음성의 발음을 표기한 발음 표기 문자열을 상기 음성 모델 전개용 기억 수단에 기억함과 함께, 상기 발음 표기 문자열에 기초하여 상기 음성 모델을 구성 가능한 음성 모델 템플릿을, 상기 제2 음성 모델 그룹에 속하는 음성 모델의 수와 상기 제3 음성 모델 그룹에 속하는 음성 모델의 수 중 많은 쪽에 상당하는 수만큼 상기 음성 모델 전개용 기억 수단에 기억해 놓고,상기 음성 인식 수단은, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하는 경우에는, 상기 음성 모델 전개용 기억 수단의 발음 표기 문자열 중 상기 음성 모델 전개용 기억 수단에 전개할 음성 모델에 대응하는 것에 기초하여, 상기 음성 모델 전개용 기억 수단의 음성 모델 템플릿으로부터 상기 음성 모델을 구성하도록 되어 있는 것을 특징으로 하는 음성 인식 장치.
- 제2항에 있어서,상기 음성 인식 수단은, 상기 제1 음성 모델 그룹 내에서 상기 생기 확률이 가장 높은 음성 모델을 제1 인식 음성 모델로서 특정하고, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 상기 음성 모델 전개용 기억 수단에 전개한 것 내에서 상기 생기 확률이 가장 높은 음성 모델을 제2 인식 음성 모델로서 특정하며, 상기 제1 인식 음성 모델의 특정 음성 및 상기 제2 인식 음성 모델의 특정 음성을 결합한 것이 입력 음성에 포함되어 있다고 판정하게 되어 있는 것을 특징으로 하는 음성 인식 장치.
- 제2항에 있어서,상기 비특정 음성 인식용 음성 모델은 가비지 모델인 것을 특징으로 하는 음성 인식 장치.
- 삭제
- 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독가능한 기록 매체로서,상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 제1 음성 모델 그룹과,상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 어느 하나의 음성 모델과 결합 관계를 갖는 제2 음성 모델 그룹과,상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 다른 어느 하나의 음성 모델과 결합 관계를 갖는 제3 음성 모델 그룹과,상기 제1 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델과,상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단을 이용 가능한 컴퓨터에 대하여,상기 음성 파라미터를 입력 음성으로부터 추출하는 음성 파라미터 추출 수단과, 상기 제1 음성 모델 그룹, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델과, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터에 기초하여 음성 인식을 행하는 음성 인식 수단으로서 실현되는 처리를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독가능한 기록 매체이며,상기 음성 인식 수단은, 상기 제1 음성 모델 그룹에 속하는 음성 모델 및 상기 비특정 음성 인식용 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하고, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있는 것을 특징으로 하는 음성 인식을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독가능한 기록 매체.
- 삭제
- 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 방법으로서,상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 제1 음성 모델 그룹과,상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 어느 하나의 음성 모델과 결합 관계를 갖는 제2 음성 모델 그룹과,상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 다른 어느 하나의 음성 모델과 결합 관계를 갖는 제3 음성 모델 그룹을 구성하고,상기 음성 파라미터를 입력 음성으로부터 추출하는 음성 파라미터 추출 단계와,상기 제1 음성 모델 그룹, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델과, 상기 음성 파라미터 추출 단계에서 추출한 음성 파라미터에 기초하여 음성 인식을 행하는 음성 인식 단계를 포함하며,상기 음성 인식 단계는, 상기 제1 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 제1 음성 모델 그룹에 속하는 음성 모델을 음성 모델 전개용 기억 수단에 전개하고, 상기 음성 파라미터 추출 단계에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하는 것을 특징으로 하는 음성 인식 방법.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JPJP-P-2002-00135770 | 2002-05-10 | ||
JP2002135770 | 2002-05-10 | ||
PCT/JP2003/005695 WO2003096324A1 (fr) | 2002-05-10 | 2003-05-07 | Dispositif de reconnaissance vocale |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040102224A KR20040102224A (ko) | 2004-12-03 |
KR100650473B1 true KR100650473B1 (ko) | 2006-11-29 |
Family
ID=29416761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020047018136A KR100650473B1 (ko) | 2002-05-10 | 2003-05-07 | 음성 인식 장치 |
Country Status (8)
Country | Link |
---|---|
US (1) | US7487091B2 (ko) |
EP (1) | EP1505573B1 (ko) |
JP (1) | JP4316494B2 (ko) |
KR (1) | KR100650473B1 (ko) |
CN (1) | CN1320520C (ko) |
AU (1) | AU2003235868A1 (ko) |
DE (1) | DE60323362D1 (ko) |
WO (1) | WO2003096324A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11417327B2 (en) | 2018-11-28 | 2022-08-16 | Samsung Electronics Co., Ltd. | Electronic device and control method thereof |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2003302063A1 (en) * | 2002-11-21 | 2004-06-15 | Matsushita Electric Industrial Co., Ltd. | Standard model creating device and standard model creating method |
CN1867966B (zh) * | 2003-10-03 | 2012-05-30 | 旭化成株式会社 | 数据处理单元、模式模型搜索单元和特定模式模型提供系统 |
US7865357B2 (en) * | 2006-03-14 | 2011-01-04 | Microsoft Corporation | Shareable filler model for grammar authoring |
WO2008049221A1 (en) * | 2006-10-24 | 2008-05-02 | Voiceage Corporation | Method and device for coding transition frames in speech signals |
US8180641B2 (en) * | 2008-09-29 | 2012-05-15 | Microsoft Corporation | Sequential speech recognition with two unequal ASR systems |
JP5692493B2 (ja) * | 2009-02-05 | 2015-04-01 | セイコーエプソン株式会社 | 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 |
KR20100136890A (ko) * | 2009-06-19 | 2010-12-29 | 삼성전자주식회사 | 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법 |
EP2357647B1 (de) * | 2010-01-11 | 2013-01-02 | Svox AG | Verfahren zur Spracherkennung |
US9001976B2 (en) * | 2012-05-03 | 2015-04-07 | Nexidia, Inc. | Speaker adaptation |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
WO2015034504A1 (en) * | 2013-09-05 | 2015-03-12 | Intel Corporation | Mobile phone with variable energy consuming speech recognition module |
US9183830B2 (en) * | 2013-11-01 | 2015-11-10 | Google Inc. | Method and system for non-parametric voice conversion |
US9177549B2 (en) * | 2013-11-01 | 2015-11-03 | Google Inc. | Method and system for cross-lingual voice conversion |
US9542927B2 (en) | 2014-11-13 | 2017-01-10 | Google Inc. | Method and system for building text-to-speech voice from diverse recordings |
CN107771205B (zh) * | 2015-04-09 | 2021-03-23 | 沙特阿拉伯石油公司 | 用于提高烃采收的胶囊型纳米组合物 |
US9792907B2 (en) | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
US9972313B2 (en) * | 2016-03-01 | 2018-05-15 | Intel Corporation | Intermediate scoring and rejection loopback for improved key phrase detection |
US10043521B2 (en) | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
US10083689B2 (en) * | 2016-12-23 | 2018-09-25 | Intel Corporation | Linear scoring for low power wake on voice |
CN110556103B (zh) * | 2018-05-31 | 2023-05-30 | 阿里巴巴集团控股有限公司 | 音频信号处理方法、装置、系统、设备和存储介质 |
US10714122B2 (en) | 2018-06-06 | 2020-07-14 | Intel Corporation | Speech classification of audio for wake on voice |
CN110875033A (zh) * | 2018-09-04 | 2020-03-10 | 蔚来汽车有限公司 | 用于确定语音结束点的方法、装置和计算机存储介质 |
US10650807B2 (en) | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
CN110164431B (zh) * | 2018-11-15 | 2023-01-06 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法及装置、存储介质 |
US11127394B2 (en) | 2019-03-29 | 2021-09-21 | Intel Corporation | Method and system of high accuracy keyphrase detection for low resource devices |
KR20210001082A (ko) * | 2019-06-26 | 2021-01-06 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치와 그 동작 방법 |
US11694685B2 (en) * | 2020-12-10 | 2023-07-04 | Google Llc | Hotphrase triggering based on a sequence of detections |
CN112786055A (zh) * | 2020-12-25 | 2021-05-11 | 北京百度网讯科技有限公司 | 资源挂载方法、装置、设备、存储介质及计算机程序产品 |
KR20240146763A (ko) * | 2023-03-30 | 2024-10-08 | 삼성전자주식회사 | 복수의 어시스턴트 모듈을 제어하는 전자 장치 및 그 제어 방법 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6417292A (en) * | 1987-07-09 | 1989-01-20 | Nec Corp | Static memory circuit |
US6073097A (en) * | 1992-11-13 | 2000-06-06 | Dragon Systems, Inc. | Speech recognition system which selects one of a plurality of vocabulary models |
US6230128B1 (en) * | 1993-03-31 | 2001-05-08 | British Telecommunications Public Limited Company | Path link passing speech recognition with vocabulary node being capable of simultaneously processing plural path links |
JP2775140B2 (ja) * | 1994-03-18 | 1998-07-16 | 株式会社エイ・ティ・アール人間情報通信研究所 | パターン認識方法、音声認識方法および音声認識装置 |
US5842165A (en) * | 1996-02-29 | 1998-11-24 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes |
US6076054A (en) * | 1996-02-29 | 2000-06-13 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition |
JP3039634B2 (ja) * | 1997-06-16 | 2000-05-08 | 日本電気株式会社 | 音声認識装置 |
JPH1115492A (ja) * | 1997-06-24 | 1999-01-22 | Mitsubishi Electric Corp | 音声認識装置 |
CA2216224A1 (en) | 1997-09-19 | 1999-03-19 | Peter R. Stubley | Block algorithm for pattern recognition |
US6073095A (en) * | 1997-10-15 | 2000-06-06 | International Business Machines Corporation | Fast vocabulary independent method and apparatus for spotting words in speech |
US6061653A (en) * | 1998-07-14 | 2000-05-09 | Alcatel Usa Sourcing, L.P. | Speech recognition system using shared speech models for multiple recognition processes |
JP2000089782A (ja) | 1998-09-17 | 2000-03-31 | Kenwood Corp | 音声認識装置と方法、ナビゲーションシステム、及び記録媒体 |
FI116991B (fi) * | 1999-01-18 | 2006-04-28 | Nokia Corp | Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin |
US6526380B1 (en) | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
US6195639B1 (en) * | 1999-05-14 | 2001-02-27 | Telefonaktiebolaget Lm Ericsson (Publ) | Matching algorithm for isolated speech recognition |
JP4642953B2 (ja) | 1999-09-09 | 2011-03-02 | クラリオン株式会社 | 音声検索装置、および、音声認識ナビゲーション装置 |
GB2364814A (en) * | 2000-07-12 | 2002-02-06 | Canon Kk | Speech recognition |
JP4116233B2 (ja) | 2000-09-05 | 2008-07-09 | パイオニア株式会社 | 音声認識装置ならびにその方法 |
JP4283984B2 (ja) | 2000-10-12 | 2009-06-24 | パイオニア株式会社 | 音声認識装置ならびに方法 |
JP3584002B2 (ja) * | 2001-03-29 | 2004-11-04 | 三洋電機株式会社 | 音声認識装置および音声認識方法 |
US6950796B2 (en) * | 2001-11-05 | 2005-09-27 | Motorola, Inc. | Speech recognition by dynamical noise model adaptation |
JP2003308091A (ja) * | 2002-04-17 | 2003-10-31 | Pioneer Electronic Corp | 音声認識装置、音声認識方法および音声認識プログラム |
-
2003
- 2003-05-07 DE DE60323362T patent/DE60323362D1/de not_active Expired - Lifetime
- 2003-05-07 KR KR1020047018136A patent/KR100650473B1/ko not_active IP Right Cessation
- 2003-05-07 JP JP2004508528A patent/JP4316494B2/ja not_active Expired - Fee Related
- 2003-05-07 EP EP03723248A patent/EP1505573B1/en not_active Expired - Lifetime
- 2003-05-07 US US10/513,753 patent/US7487091B2/en not_active Expired - Fee Related
- 2003-05-07 CN CNB038105667A patent/CN1320520C/zh not_active Expired - Fee Related
- 2003-05-07 AU AU2003235868A patent/AU2003235868A1/en not_active Abandoned
- 2003-05-07 WO PCT/JP2003/005695 patent/WO2003096324A1/ja active IP Right Grant
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11417327B2 (en) | 2018-11-28 | 2022-08-16 | Samsung Electronics Co., Ltd. | Electronic device and control method thereof |
Also Published As
Publication number | Publication date |
---|---|
EP1505573A4 (en) | 2005-07-13 |
US20050203737A1 (en) | 2005-09-15 |
CN1320520C (zh) | 2007-06-06 |
JPWO2003096324A1 (ja) | 2005-09-15 |
US7487091B2 (en) | 2009-02-03 |
AU2003235868A1 (en) | 2003-11-11 |
KR20040102224A (ko) | 2004-12-03 |
EP1505573B1 (en) | 2008-09-03 |
WO2003096324A1 (fr) | 2003-11-20 |
CN1653518A (zh) | 2005-08-10 |
EP1505573A1 (en) | 2005-02-09 |
DE60323362D1 (de) | 2008-10-16 |
JP4316494B2 (ja) | 2009-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100650473B1 (ko) | 음성 인식 장치 | |
US5949961A (en) | Word syllabification in speech synthesis system | |
JP5310563B2 (ja) | 音声認識システム、音声認識方法、および音声認識用プログラム | |
JPH0772840B2 (ja) | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 | |
JP5274711B2 (ja) | 音声認識装置 | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
CN104899192A (zh) | 用于自动通译的设备和方法 | |
US6980954B1 (en) | Search method based on single triphone tree for large vocabulary continuous speech recognizer | |
JP4004716B2 (ja) | 音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに音声認識装置、音声認識方法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
KR100930714B1 (ko) | 음성인식 장치 및 방법 | |
JP4595415B2 (ja) | 音声検索システムおよび方法ならびにプログラム | |
KR100848148B1 (ko) | 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체 | |
US8260614B1 (en) | Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition | |
Kiruthiga et al. | Design issues in developing speech corpus for Indian languages—A survey | |
KR102300303B1 (ko) | 발음 변이를 적용시킨 음성 인식 방법 | |
Seneff | The use of subword linguistic modeling for multiple tasks in speech recognition | |
Sreenu et al. | A human machine speaker dependent speech interactive system | |
JP6023543B2 (ja) | 記号列変換方法とそれを用いた音声認識方法と、それらの装置とプログラムとその記録媒体 | |
McTear et al. | Speech input and output | |
JP3503862B2 (ja) | 音声認識方法及び音声認識プログラムを格納した記録媒体 | |
KR20100067727A (ko) | 다중 탐색 기반의 음성 인식 장치 및 그 방법 | |
JP2008134503A (ja) | 音声認識装置、および音声認識方法 | |
GB2292235A (en) | Word syllabification. | |
Seneff | The use of subword linguistic modeling for multiple tasks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121114 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20131031 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20141103 Year of fee payment: 9 |
|
LAPS | Lapse due to unpaid annual fee |