KR102371188B1 - 음성 인식 장치 및 방법과 전자 장치 - Google Patents
음성 인식 장치 및 방법과 전자 장치 Download PDFInfo
- Publication number
- KR102371188B1 KR102371188B1 KR1020150093653A KR20150093653A KR102371188B1 KR 102371188 B1 KR102371188 B1 KR 102371188B1 KR 1020150093653 A KR1020150093653 A KR 1020150093653A KR 20150093653 A KR20150093653 A KR 20150093653A KR 102371188 B1 KR102371188 B1 KR 102371188B1
- Authority
- KR
- South Korea
- Prior art keywords
- phoneme
- probability
- recognition
- sequence
- calculated
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 39
- 238000004422 calculation algorithm Methods 0.000 claims description 43
- 239000000284 extract Substances 0.000 claims description 11
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
음성 인식 장치가 개시된다. 일 실시예에 따른 음성 인식 장치는 음향 모델을 이용하여 음성 신호로부터 음소 확률을 산출하는 확률 산출부와, 인식 대상 리스트로부터 후보셋을 추출하는 후보셋 추출부 및 산출된 음소 확률에 기초하여 추출된 후보셋으로부터 인식 결과를 반환하는 결과 반환부를 포함할 수 있다.
Description
음성 인식 기술과 관련된다.
TV, 셋톱박스, 가전기기 등에 음성 인식을 넣을 경우 컴퓨팅 자원이 충분하지 않다는 단점이 있지만, 대부분 한정된 명령어에 대한 인식을 지원하면 되므로 일반적인 환경에 비해 크게 문제가 되지 않는다. 일반적인 환경에서는 사람들이 사용하는 모든 단어들 및 그 조합을 인식해야 하므로 디코더(decoder)가 많은 컴퓨팅 자원을 사용하게 된다.
일반적인 음성 인식 시스템의 경우 음향 모델(Acoustic Model)이 음성 신호로부터 발음 확률(phonetic probability)을 획득하면, HMM(Hidden Markov Model) 디코더가 이들을 조합하여 단어들의 시퀀스(sequence)로 변환한다. 하지만, HMM 디코더는 과도한 컴퓨팅 자원 및 연산량을 필요로 하고, 비터비(Viterbi) 형태의 해석 방법을 사용하여 정보의 손실이 크다. 따라서, 임베디드 환경에서는 적게는 수 개에서 수 천개 정도의 주어진 명령어만 인식하면 되므로 적은 자원을 활용하면서도 높은 인식 정확도를 얻을 수 있는 디코딩 방법이 필요하다.
임베디드 환경에서 최소한의 컴퓨팅 자원을 활용하여 정확하게 음성 인식을 수행하는 음성 인식 장치 및 방법과, 전자 장치를 제시한다.
일 양상에 따르면, 음성 인식 장치는 음향 모델을 이용하여 음성 신호로부터 음소별 확률을 산출하는 확률 산출부, 인식 대상 리스트로부터 후보셋을 추출하는 후보셋 추출부 및 산출된 음소별 확률에 기초하여 추출된 후보셋으로부터 인식 결과를 반환하는 결과 반환부를 포함할 수 있다.
이때, 음향 모델은 CTC(Connectionist Temporal Classification)를 포함하는 학습 알고리즘을 이용하여 학습시킬 수 있다.
결과 반환부는 산출된 음소별 확률을 기초로 후보셋에 포함된 각 후보 대상 시퀀스에 대하여 생성 확률을 산출하고, 산출된 생성 확률이 가장 높은 후보 대상 시퀀스를 인식 결과로 반환할 수 있다.
음성 인식 장치는 산출된 음소별 확률을 기초로 음소 시퀀스를 획득하는 시퀀스 획득부를 더 포함할 수 있다.
후보셋 추출부는 획득된 음소 시퀀스와 인식 대상 리스트의 각 대상 시퀀스와의 유사도를 산출하고, 산출된 유사도를 기초로 후보셋을 추출할 수 있다.
후보셋 추출부는 편집 거리(Edit Distance) 알고리즘을 포함하는 유사도 알고리즘을 이용하여 유사도를 산출할 수 있다.
시퀀스 획득부는 최적 경로 해석(best path decoding) 및 선행 경로 해석(prefix path decoding)을 포함하는 해석 기법 중의 하나를 이용하여 음소 시퀀스를 획득할 수 있다.
일 양상에 따르면, 음성 인식 방법은 음향 모델을 이용하여 음성 신호로부터 음소별 확률을 산출하는 단계, 인식 대상 리스트로부터 후보셋을 추출하는 단계 및 산출된 음소별 확률에 기초하여 추출된 후보셋으로부터 인식 결과를 반환하는 단계를 포함할 수 있다.
이때, 음향 모델은 CTC(Connectionist Temporal Classification)를 포함하는 학습 알고리즘을 이용하여 학습시킬 수 있다.
결과를 반환하는 단계는 산출된 음소별 확률을 기초로 상기 후보셋에 포함된 각 후보 대상 시퀀스에 대하여 생성 확률을 산출하는 단계를 포함하고, 산출된 확률이 가장 높은 후보 대상 시퀀스를 인식 결과로 반환할 수 있다.
음성 인식 방법은 음소별 확률을 기초로 음소 시퀀스를 획득하는 단계를 더 포함할 수 있다.
후보셋을 추출하는 단계는 획득된 음소 시퀀스와 인식 대상 리스트의 각 대상 시퀀스와의 유사도를 산출하는 단계를 포함하고, 산출된 유사도를 기초로 후보셋을 추출할 수 있다.
유사도를 산출하는 단계는 편집 거리(Edit Distance) 알고리즘을 포함하는 유사도 알고리즘을 이용하여 유사도를 산출할 수 있다.
음소 시퀀스를 획득하는 단계는 최적 경로 해석(best path decoding) 및 선행 경로 해석(prefix path decoding)을 포함하는 해석 기법 중의 하나를 이용하여 음소 시퀀스를 획득할 수 있다.
일 양상에 따르면, 전자 장치는 사용자의 음성 신호를 수신하는 음성 수신부, 음향 모델을 이용하여 수신된 음성 신호로부터 음소별 확률을 산출하고, 산출된 음소별 확률을 기초로 인식 대상 리스트에 포함된 대상 시퀀스 중의 어느 하나를 인식 결과로 반환하는 음성 인식부 및 반환된 인식 결과를 기초로 소정 동작을 수행하는 처리부를 포함할 수 있다.
음성 인식부는 인식 대상 리스트로부터 후보셋을 추출하고, 산출된 음소별 확률을 기초로 후보셋에 포함된 각 후보 대상 시퀀스에 대하여 생성 확률을 산출하며, 산출된 생성 확률이 가장 큰 후보 대상 시퀀스를 인식 결과로 반환할 수 있다.
음성 인식부는 음소별 확률을 해석하여 음소 시퀀스를 획득하고, 획득된 음소 시퀀스와 인식 대상 리스트의 각 대상 시퀀스와의 유사도에 기초하여 후보셋을 추출할 수 있다.
처리부는 인식 결과를 스피커를 통해 음성 신호로 출력하거나 디스플레이에 텍스트 형태로 출력할 수 있다.
처리부는 인식 결과를 다른 언어로 번역하고, 번역 결과를 스피커를 통해 음성 신호로 출력하거나, 디스플레이에 텍스트 형태로 출력할 수 있다.
처리부는 전자 장치의 전원 온/오프, 볼륨 조절, 채널 변경 및 목적지 검색 중의 하나 이상을 포함하는 인식 결과에 상응하는 명령어를 처리할 수 있다.
컴퓨팅 자원이 제한되어 있는 임베디드 환경에서 최소한의 컴퓨팅 자원을 활용하여 정보 손실 없이 정확한 음성 인식을 수행할 수 있다.
도 1은 일 실시예에 따른 음성 인식 장치의 블록도이다.
도 2는 다른 실시예에 따른 음성 인식 장치의 블록도이다.
도 3은 일 실시예에 따른 음성 인식 방법의 흐름도이다.
도 4는 다른 실시예에 따른 음성 인식 방법의 흐름도이다.
도 5는 일 실시예에 따른 전자 장치의 블록도이다.
도 6은 일 실시예에 따른 전자 장치에서의 음성 인식 방법의 흐름도이다.
도 2는 다른 실시예에 따른 음성 인식 장치의 블록도이다.
도 3은 일 실시예에 따른 음성 인식 방법의 흐름도이다.
도 4는 다른 실시예에 따른 음성 인식 방법의 흐름도이다.
도 5는 일 실시예에 따른 전자 장치의 블록도이다.
도 6은 일 실시예에 따른 전자 장치에서의 음성 인식 방법의 흐름도이다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다. 기재된 기술의 이점 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이하, 음성 인식 장치 및 방법과, 전자 장치의 실시예들을 도면들을 참고하여 자세히 설명하도록 한다.
도 1은 일 실시예에 따른 음성 인식 장치의 블록도이다.
도 1을 참조하면, 음성 인식 장치(100)는 확률 산출부(110), 후보셋 추출부(120) 및 결과 반환부(130)를 포함할 수 있다.
확률 산출부(110)는 음향 모델을 이용하여 음성 신호로부터 음소(phoneme)별 확률을 계산한다. 이때, 음소는 한 언어의 음성 체계에서 단어의 의미를 구별 짓는 최소의 소리 단위를 의미한다.
일 실시예에 따르면, 음성 신호는 특징을 추출하는 전처리 과정을 통해 음성 프레임으로 변환되어 음향 모델에 입력될 수 있다. 음향 모델은 각 음성 프레임에 대하여 음소별로 분류하여 각 음소에 해당할 확률을 출력할 수 있다.
일반적인 음향 모델은 GMM(Gaussian Mixture Model), DNN(Deep Neural Network), RNN(Recurrent Neural Network)을 기반으로 하며, 정답으로 주어진 프레임별 음소의 확률을 최대화하는 방향으로 학습이 이루어진다.
하지만, 본 실시예에 따른 음향 모델은 임베디드(Embedded) 환경에서 구동되는 HMM 디코더를 만들기 어려운 점을 고려하여, RNN(Recurrent Neural Network)과 CTC(Connectionist Temporal Classification)를 접목하여 구축될 수 있다. 이때, 음향 모델은 CTC 학습 알고리즘을 포함하는 다양한 학습 알고리즘을 이용하여 정답 시퀀스(sequence)를 만들어 낼 수 있는 음소들의 모든 조합에 대하여 음성 프레임별로 음소의 확률을 최대화하는 방향으로 학습시킬 수 있다. 이하, 설명의 편의를 위해 CTC 학습 알고리즘을 이용하여 학습된 음향 모델 즉, CTC 네트워크 기반의 음향 모델로 한정하여 설명하기로 한다.
아래의 수학식 1은 일반적인 GMM, DNN, RNN 기반의 음향 모델을 학습하는 알고리즘의 예이다.
여기서, x는 입력된 음성 신호를 의미하며, y는 음향 모델에 의해 음성 프레임 k에 대하여 산출된 음소별 확률을 의미한다. 또한, z는 음성 프레임 k에 대해 정답을 의미한다.
이와 같이 일반적인 음향 모델은 정답으로 주어진 음성 프레임별로 음소의 확률이 최대가 되도록 학습이 이루어진다.
이에 반해, 아래의 수학식 2와 3은 일 실시예에 따른 음향 모델을 학습하는 알고리즘의 예이다.
수학식 2 및 3에서, ℓ은 정답인 음소 시퀀스 즉, 음소들의 연결을 의미하고, π는 정답인 음소 시퀀스가 될 가능성이 있는 음소 시퀀스 중의 하나를 의미한다.
수학식 2에 따르면, 음향 모델에 의해 산출된 음성 프레임 t에 대한 음소 확률 y를 이용하여 어느 하나의 음소 시퀀스 π가 생성될 확률(p(π|x))을 계산하고, 수학식 3에 의해, 수학식 2에서 생성된 확률(p(π|x))을 합하여 정답 ℓ이 생성될 확률(p(ℓ|x))을 계산하는 방식으로 학습이 이루어진다. 이때, 음향 모델의 학습은 역전파 학습(back propagation learning) 기법을 이용할 수 있다.
후보셋 추출부(120)는 인식 대상 리스트(140)로부터 후보셋을 추출할 수 있다. 이때, 인식 대상 리스트는 음소들의 시퀀스로 이루어진 복수 개의 단어나 문장 등을 포함할 수 있다. 인식 대상 리스트(140)는 음성 인식 장치(100)가 구현되어 있는 각종 기기별로 미리 정의될 수 있다. 예를 들어, 음성 인식 장치(100)가 TV에 탑재되어 있는 경우 TV를 동작시키기 위한 각종 명령어 예컨대, 전원 온/오프, 볼륨 조절, 채널 변경이나, 실행하고자 하는 특정 프로그램 이름 등을 포함할 수 있다.
후보셋 추출부(120)는 사용자가 동작시키고자 하는 기기에 따라 인식 대상 리스트(140)로부터 하나 이상의 대상 시퀀스를 추출하여 후보셋을 생성할 수 있다.
결과 반환부(130)는 확률 산출부(110)에서 음향 모델을 통해 산출된 음소별 확률을 이용해 후보셋의 각 후보 대상 시퀀스를 생성해 낼 확률을 계산하고, 그 확률이 가장 큰 후보 대상 시퀀스를 입력된 음성 신호에 대한 인식 결과로서 반환할 수 있다.
결과 반환부(130)는 음향 모델의 학습에 이용된 알고리즘인 수학식 2 및 3을 적용하여 후보셋의 각 후보 대상 시퀀스의 생성 확률을 계산할 수 있다.
본 실시예에 따르면, 이미 정답이 될 수 있는 후보 대상 시퀀스를 알고 있으므로 음향 모델을 통해 산출된 음소별 확률을 이용하여 후보 대상 시퀀스의 생성 확률을 산출하는 것이 가능하다. 즉, CTC와 같은 일반적인 해석 알고리즘을 통해 음소 확률을 해석할 필요가 없어 해석 과정에서 발생하는 정보의 손실을 최소화할 수 있다. 이에 반해, 일반적인 음성 인식 환경에서는 정답이 될 수 있는 음소 시퀀스를 알지 못하므로 수학식 1을 통하여 해석하는 과정을 수행해야 하므로 음성 인식 수행에 있어 정보의 손실이 발생될 수 있다.
도 2는 다른 실시예에 따른 음성 인식 장치의 블록도이다.
도 2를 참조하면, 다른 실시예의 음성 인식 장치(200)는 확률 산출부(210), 시퀀스 획득부(220), 후보셋 추출부(230) 및 결과 반환부(240)를 포함할 수 있다.
확률 산출부(210)는 음향 모델을 통해 음성 신호에 대하여 음소별 확률을 산출할 수 있다. 이때, 음향 모델은 전술한 바와 같이 RNN 및 CTC를 기반으로 하며 정답 시퀀스를 만들어낼 수 있는 음소들의 모든 조합에 대해 음성 프레임별 음소의 확률이 최대가 되도록 학습시킬 수 있다.
시퀀스 획득부(220)는 확률 산출부(210)에 의해 산출된 음소별 확률을 이용하여 음소들의 연결인 음소 시퀀스를 획득할 수 있다. 이때, 시퀀스 획득부(220)는 최적 경로 해석(best path decoding), 선행 경로 해석(prefix path decoding) 등의 해석 알고리즘을 이용하여 산출된 음소별 확률을 해석함으로써 하나 이상의 음소 시퀀스를 획득할 수 있다. 다만, 해석 알고리즘은 예시된 바에 한정되지 않는다.
후보셋 추출부(230)는 인식 대상 리스트(250)로부터 하나 이상의 후보 대상 시퀀스를 추출하여 후보셋을 생성할 수 있다. 이때, 인식 대상 리스트(250)는 전술한 바와 같이 음성 인식 장치(200)가 탑재된 전자 장치의 종류에 따라 미리 정의된 단어/문장/명령어와 같은 대상 시퀀스를 포함할 수 있다. 또한, 인식 대상 리스트(250)는 대상 시퀀스와 함께 전자 장치에서 대상 시퀀스별로 이용되는 순위와 관련된 정보(예: 이용 빈도, 이용 확률 등)를 더 포함할 수 있다.
일 실시예에 따르면, 후보셋 추출부(230)는 인식 대상 리스트(250)에 포함된 대상 시퀀스들의 개수를 기초로 전부 또는 일부를 후보셋으로 추출할 수 있다. 이때, 대상 시퀀스의 이용 순위와 관련된 정보를 참조하여 임의의 개수를 후보셋으로 추출할 수 있다.
다른 실시예에 따르면, 후보셋 추출부(230)는 시퀀스 획득부(220)에 의해 획득된 하나 이상의 음소 시퀀스를 인식 대상 리스트(250)의 각 대상 시퀀스들과 비교하여 유사도를 산출하고, 산출된 유사도를 기초로 임의의 개수를 후보 대상 시퀀스로 추출할 수 있다. 예를 들어, 후보셋 추출부(230)는 유사도 계산 알고리즘 중의 편집 거리(edit distance) 알고리즘을 활용하여 음소 시퀀스들 사이의 유사도를 계산하여 유사도가 가까운 순서대로 임의 개수(예: 상위 20 개)를 후보 대상 시퀀스로 추출할 수 있다.
이와 같이, 유사도 알고리즘을 이용하여 후보셋에 포함될 후보 대상 시퀀스의 개수를 조절함으로써 결과 반환부(240)로 하여금 각 후보 대상 시퀀스에 대한 생성 확률을 계산하는 시간을 줄여, 최종 인식 결과를 신속하게 반환하도록 할 수 있다.
결과 반환부(240)는 음향 모델을 통해 산출된 음소별 확률을 이용해 후보셋으로부터 적어도 하나의 후보 대상 시퀀스를 음성 신호에 대한 인식 결과로서 반환할 수 있다.
일 실시예에 따르면, 결과 반환부(240)는 편집 거리 알고리즘과 같은 유사도 산출 알고리즘을 이용하여, 획득된 하나 이상의 음소 시퀀스와 후보셋의 각 후보 대상 시퀀스 사이의 유사도를 산출하고, 산출된 유사도가 가장 가까운 후보 대상 시퀀스를 인식 결과로 반환할 수 있다.
다른 실시예에 따르면, 결과 반환부(240)는 확률 산출부(210)에 의해 산출된 음소별 확률을 전술한 수학식 2 및 3과 같은 확률 산출 알고리즘에 적용하여 후보셋의 각 후보 대상 시퀀스에 대하여 생성 확률을 산출하고, 산출된 생성 확률이 가장 큰 후보 대상 시퀀스를 최종 인식 결과로 반환할 수 있다.
도 3은 일 실시예에 따른 음성 인식 방법의 흐름도이다.
도 3은 도 1의 실시예에 따른 음성 인식 장치에 의해 수행되는 음성 인식 방법의 일 실시예일 수 있다.
도 3을 참조하면, 음성 인식 장치(100)는 음향 모델을 이용하여 음성 신호로부터 음소 확률을 산출할 수 있다(310). 이때, 음성 신호는 전처리 과정을 통해 음성 프레임으로 변환되어 음향 모델에 입력될 수 있다. 또한, 음향 모델은 각 음성 프레임에 대하여 음소별로 분류하여 확률을 출력할 수 있다. 이때, 음향 모델은 전술한 바와 같이, RNN(Recurrent Neural Network)과 CTC(Connectionist Temporal Classification)를 접목하여 학습시킬 수 있다. 이때, 전술한 수학식 2 및 3의 알고리즘을 이용하여 학습시킬 수 있다.
그 다음, 인식 대상 리스트로부터 하나 이상의 후보 대상 시퀀스를 포함하는 후보셋을 추출할 수 있다(320). 이때, 인식 대상 리스트는 각종 기기별로 미리 정의되는 단어나 문장과 같은 대상 시퀀스를 포함할 수 있다. 예를 들어, 대상 시퀀스는 TV의 경우에는 전원 온/오프, 볼륨 조절, 채널 변경 등과 관련된 명령어일 수 있다. 또한, 내비게이션의 경우에는 전원 온/오프, 볼륨 조절, 목적지 검색 등과 관련된 명령어일 수 있다. 그 밖의 자동차에 탑재된 각종 전자 장치들의 제어에 관련된 명령어일 수도 있다. 다만, 이에 제한되는 것은 아니며 음성 인식 기술이 구현될 수 있는 대부분의 전자 장치에 적용될 수 있다.
그 다음, 산출된 음소 확률을 이용해 후보셋으로부터 적어도 하나의 후보 대상 시퀀스를 입력된 음성 신호에 대한 인식 결과로서 반환할 수 있다(330). 이때, 일 실시예에 따르면, 수학식 2 및 3의 알고리즘을 통해 음향 모델을 통해 산출된 음소별 확률을 이용해 후보셋의 각 후보 대상 시퀀스를 생성해 낼 확률을 계산할 수 있다. 또한, 계산된 확률이 가장 큰 후보 대상 시퀀스를 입력된 음성 신호에 대한 인식 결과로서 반환할 수 있다.
도 4는 다른 실시예에 따른 음성 인식 방법의 흐름도이다.
도 4를 참조하면, 음향 모델을 통해 음성 신호에 대하여 음소/발음 확률을 산출할 수 있다(410). 이때, 음향 모델은 학습 알고리즘, 예컨대, CTC 학습 알고리즘을 이용하여 정답인 음소 시퀀스가 생성될 가능성이 있는 음소들의 모든 조합에 대하여 음성 프레임별 음소 확률이 최대가 되도록 학습시킬 수 있다.
그 다음, 산출된 음소별 확률을 이용하여 음소들의 연결인 음소 시퀀스를 획득할 수 있다(420). 예를 들어, 최적 경로 해석(best path decoding), 선행 경로 해석(prefix path decoding)과 같은 해석 기법을 이용하여 하나 이상의 음소 시퀀스를 획득할 수 있다.
그 다음, 인식 대상 리스트로부터 하나 이상의 후보 대상 시퀀스를 추출하여 후보셋을 생성할 수 있다(430). 이때, 인식 대상 리스트는 음성 인식 기술이 구현된 전자 장치에 따라서 미리 정의될 수 있다. 이때, 인식 대상 리스트는 각 대상 시퀀스별로 이용되는 순위와 관련된 정보(예: 이용 빈도, 이용 확률 등)를 더 포함할 수 있다.
일 실시예에 따르면, 음성 인식 장치는 인식 대상 리스트에 포함된 대상 시퀀스들의 총 개수에 따라 그 전부 또는 일부를 후보셋으로 추출할 수 있으며, 대상 시퀀스의 이용 순위와 관련된 정보가 존재하는 경우, 그 정보를 이용하여 미리 정의된 개수를 후보셋으로 추출하는 것이 가능하다.
다른 실시예에 따르면, 음성 인식 장치는 획득된 하나 이상의 음소 시퀀스를 인식 대상 리스트의 각 대상 시퀀스들과 비교하여 유사도를 산출하고, 산출된 유사도를 기초로 임의의 개수를 후보 대상 시퀀스로 추출할 수 있다. 예를 들어, 유사도 계산 알고리즘 중의 편집 거리(edit distance) 알고리즘을 활용하여 음소 시퀀스들 사이의 유사도를 계산하여 유사도가 가까운 순서대로 임의의 개수(예: 상위 20 개)를 후보 대상 시퀀스로 추출할 수 있다.
그 다음, 음향 모델을 통해 산출된 음소별 확률을 이용해 후보셋으로부터 적어도 하나의 후보 대상 시퀀스를 음성 신호에 대한 인식 결과로서 반환할 수 있다(440).
일 실시예에 따르면, 음성 인식 장치는 편집 거리 알고리즘과 같은 유사도 산출 알고리즘을 이용하여, 획득된 하나 이상의 음소 시퀀스와 후보셋의 각 후보 대상 시퀀스 사이의 유사도를 산출하고, 산출된 유사도가 가장 가까운 후보 대상 시퀀스를 인식 결과로 반환할 수 있다.
다른 실시예에 따르면, 음성 인식 장치는 산출된 음소별 확률을 전술한 수학식 2 및 3과 같은 확률 산출 알고리즘에 적용하여 후보셋의 각 후보 대상 시퀀스에 대하여 생성 확률을 산출하고, 산출된 생성 확률이 가장 큰 후보 대상 시퀀스를 최종 인식 결과로 반환할 수 있다.
도 5는 일 실시예에 따른 전자 장치의 블록도이다.
본 실시예에 따른 전자 장치(500)는 일 실시예들에 따른 음성 인식 장치(100,200)를 탑재할 수 있다. 전자 장치(500)는 TV, 셋톱박스, 데스크탑 컴퓨터, 노트북, 번역 기기, 스마트폰, 태블릿 PC, 자동차의 전자 제어 장치 등과 같은 장치로서, 탑재된 음성 인식 기술을 이용하여 사용자의 다양한 요구를 처리할 수 있다. 다만, 이에 제한되는 것은 아니며 음성 인식 분야에서 활용 가능한 모든 전자 기기를 포함하는 것으로 해석되어야 한다.
도 5를 참조하면, 전자 장치(500)는 음성 수신부(510), 음성 인식부(520) 및 처리부(530)를 포함할 수 있다. 이때, 음성 인식부(520)는 도 1 및 도 2의 실시예에 따른 음성 인식 장치(100,200)를 하드웨어 또는 소프트웨어 형태로 제작하여 전자 장치(500)에 구현한 것일 수 있다.
음성 수신부(510)는 전자 장치(500)의 마이크로폰을 통해 입력되는 사용자의 음성 신호를 수신할 수 있다. 도시된 바와 같이, 사용자의 음성 신호는 다른 언어로의 번역을 위한 문장이나, TV 제어, 자동차 주행 제어 등을 위한 명령어와 관련될 수 있다.
일 실시예에 따르면, 음성 수신부(510)는 아날로그 형태로 입력되는 사용자의 음성 신호를 디지털 신호로 변환하여 다수의 음성 프레임으로 나누는 전처리 과정을 수행하고, 음성 프레임을 음성 인식부(520)에 전달할 수 있다.
음성 인식부(520)는 음성 신호, 예컨대 음성 프레임을 음향 모델에 입력하고, 음성 프레임에 대한 음소별 확률을 산출할 수 있다. 음성 인식부(520)는 음성 프레임에 대하여 음소별 확률이 산출되면, 산출된 음소별 확률을 이용하여 인식 대상 리스트로부터 후보셋을 추출하고, 추출된 후보셋으로부터 최종 인식 결과를 반환할 수 있다. 이때, 음향 모델은 RNN 및 CTC 기반의 네트워크로서 CTC 학습 알고리즘을 이용하여 정답 시퀀스를 생성할 모든 음소들의 조합에 대해 음성 프레임별로 음소의 확률을 최대가 되도록 학습될 수 있다.
이때, 인식 대상 리스트는 음성 인식 기술을 탑재한 전자 장치(500)의 종류나 활용 목적 등에 기초하여 미리 정의될 수 있다. 예를 들어, 전자 장치(500)가 TV라면, TV에서 주로 사용되는 명령어 예컨대 채널 변경이나, 볼륨 조절, 전원 온/오프 등과 관련된 단어나 명령어들을 인식 대상 리스트에 정의할 수 있다. 만약, 전자 장치(500)가 자동차에 탑재된 내비게이션이라면 내비게이션의 온/오프, 볼륨 조절 등의 각종 명령이나 목적지 검색을 위한 목적지 정보 등을 인식 대상 리스트에 정의할 수 있다.
한편, 음성 인식부(520)는 음성 인식을 위한 일반적인 해석 알고리즘(예: CTC)을 통해 음소 확률로부터 음소 시퀀스를 획득하고, 획득된 음소 시퀀스와 인식 대상 리스트를 비교하여 후보셋을 추출할 수 있다. 이때, 편집 거리(Edit Distance) 알고리즘과 같은 유사도 산출 알고리즘을 이용하여 획득된 음소 시퀀스와 인식 대상 리스트에 포함된 각 대상 시퀀스들과의 유사도를 산출하고, 산출된 유사도가 가까운 순서대로 임의의 개수를 추출하여 후보셋을 생성할 수 있다.
음성 인식부(520)는 산출된 음소별 확률을 이용하여 추출된 후보셋으로부터 하나의 후보 대상 시퀀스를 최종 인식 결과로서 반환하며, 이때, 후보셋의 각 후보 대상 시퀀스에 대하여 계산된 생성 확률이 가장 큰 후보 대상 시퀀스를 최종 인식 결과로 반환할 수 있다. 이때, 음성 인식부(520)는 최종 인식 결과를 텍스트 형태로 출력할 수 있다.
처리부(530)는 최종 인식 결과에 해당하는 동작을 수행할 수 있다. 예를 들어, 사용자가 입력한 음성의 인식 결과를 스피커 등을 통해 음성으로 출력하거나, 디스플레이에 텍스트 형태로 제공할 수 있다. 또는 TV, 셋톱박스, 가전기기, 자동차 전자 제어 장치 등과 관련된 명령어(예: 전원 온/오프, 볼륨 조절 등)의 처리 동작을 수행할 수 있다.
또는, 다른 언어로 번역하는 경우 처리부(530)는 텍스트 형태로 출력된 최종 인식 결과를 번역하고자 하는 다른 언어로 번역하고, 번역된 결과를 음성이나 텍스트 형태로 출력할 수 있다. 다만, 이에 한정되는 것은 아니며 그 밖의 다양한 분야에서 활용이 가능하다.
도 6은 일 실시예에 따른 전자 장치에서의 음성 인식 방법의 흐름도이다.
전자 장치(500)는 마이크로폰 등을 통해 다른 언어로의 번역을 위한 문장이나, TV 제어, 자동차 주행 제어 등을 위한 명령어와 관련된 사용자의 음성 신호를 수신할 수 있다(610). 또한, 사용자의 음성 신호가 수신되면, 아날로그 형태의 음성 신호를 디지털 신호로 변환하여 다수의 음성 프레임으로 나누는 전처리 과정을 수행할 수 있다.
그 다음, 전자 장치(500)는 미리 구축된 음향 모델 및 미리 정의된 인식 대상 리스트를 기초로 입력된 음성 신호에 대한 최종 인식 결과를 반환할 수 있다(620).
예를 들어, 전자 장치(500)는 음성 프레임을 음향 모델에 입력하여 음성 프레임에 대한 음소/발음 확률을 산출할 수 있다. 또한, 음성 프레임에 대하여 음소/발음 확률이 산출되면, 산출된 음소/발음 확률을 이용하여 인식 대상 리스트로부터 후보셋을 추출하고, 추출된 후보셋으로부터 최종 인식 결과를 반환할 수 있다. 이때, 음향 모델은 RNN 및 CTC 기반의 네트워크로서 CTC 학습 알고리즘을 이용하여 학습될 수 있다. 인식 대상 리스트는 음성 인식 기술이 탑재된 전자 장치(500)의 종류나 활용 목적 등에 기초하여 미리 정의될 수 있다.
한편, 일 실시예에 따르면, 전자 장치(500)는 산출된 음소 확률로부터 음소 시퀀스를 획득하고, 획득된 음소 시퀀스와 인식 대상 리스트를 비교하여 후보셋을 추출할 수 있다. 이때, 편집 거리(Edit Distance) 알고리즘과 같은 유사도 산출 알고리즘을 이용하여 획득된 음소 시퀀스와 인식 대상 리스트에 포함된 각 대상 시퀀스들과의 유사도를 산출하고, 산출된 유사도가 가까운 순서대로 임의의 개수를 추출하여 후보셋을 생성할 수 있다.
전자 장치(500)는 후보셋의 각 후보 대상 시퀀스에 대하여 수학식 2 및 3을 이용하여 생성 확률을 산출하고, 그 값이 가장 큰 후보 대상 시퀀스를 최종 인식 결과로서 반환할 수 있다. 이때, 전자 장치(500)는 최종 인식 결과를 텍스트 형태로 변환하여 반환할 수 있다.
그 다음, 전자 장치(500)는 반환된 최종 인식 결과에 해당하는 동작을 수행할 수 있다(630).
예를 들어, 사용자가 입력한 음성을 인식한 결과를 스피커 등을 통해 음성으로 출력하거나, 디스플레이에 텍스트 형태로 제공할 수 있다. 또는 TV, 셋톱박스, 가전기기, 자동차 전자 제어 장치 등과 관련된 각종 명령어의 처리 동작을 수행할 수 있다. 또는, 텍스트 형태로 출력된 최종 인식 결과를 다른 언어로 번역하고, 번역된 결과를 음성이나 텍스트 형태로 출력할 수 있다. 다만, 이에 한정되는 것은 아니며 그 밖의 다양한 분야에서 활용이 가능하다.
한편, 본 실시 예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 개시된 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
100,200: 음성 인식 장치 110,210: 확률 산출부
120,230: 후보셋 추출부 130,240: 결과 반환부
140,250: 인식 대상 리스트 220: 시퀀스 획득부
500: 전자 장치 510: 음성 수신부
520: 음성 인식부 530: 처리부
120,230: 후보셋 추출부 130,240: 결과 반환부
140,250: 인식 대상 리스트 220: 시퀀스 획득부
500: 전자 장치 510: 음성 수신부
520: 음성 인식부 530: 처리부
Claims (20)
- 음향 모델을 이용하여 음성 신호로부터 음소별 확률을 산출하는 확률 산출부;
상기 산출된 음소별 확률을 기초로 음소 시퀀스를 획득하는 시퀀스 획득부;
각 전자 장치에서 대상 시퀀스 별로 이용되는 순위와 관련된 정보를 포함하는 인식대상 리스트의 상기 각 대상 시퀀스와, 상기 획득된 음소 시퀀스와의 유사도를 산출하고, 산출된 유사도를 기초로 후보셋을 추출하는 후보셋 추출부; 및
상기 산출된 음소별 확률에 기초하여, 상기 추출된 후보셋으로부터 인식 결과를 반환하는 결과 반환부를 포함하는 음성 인식 장치.
- 제1항에 있어서,
상기 음향 모델은 CTC(Connectionist Temporal Classification)를 포함하는 학습 알고리즘을 이용하여 학습되는 음성 인식 장치
- 제1항에 있어서,
상기 결과 반환부는
상기 산출된 음소별 확률을 기초로 상기 후보셋에 포함된 각 후보 대상 시퀀스에 대하여 생성 확률을 산출하고, 상기 산출된 생성 확률이 가장 높은 후보 대상 시퀀스를 상기 인식 결과로 반환하는 음성 인식 장치. - 삭제
- 삭제
- 제1항에 있어서,
상기 후보셋 추출부는
편집 거리(Edit Distance) 알고리즘을 포함하는 유사도 알고리즘을 이용하여 상기 유사도를 산출하는 음성 인식 장치. - 제1항에 있어서,
상기 시퀀스 획득부는
최적 경로 해석(best path decoding) 및 선행 경로 해석(prefix path decoding)을 포함하는 해석 기법 중의 하나를 이용하여 상기 음소 시퀀스를 획득하는 음성 인식 장치. - 음향 모델을 이용하여 음성 신호로부터 음소별 확률을 산출하는 단계;
상기 산출된 음소별 확률을 기초로 음소 시퀀스를 획득하는 단계;
각 전자 장치에서 대상 시퀀스 별로 이용되는 순위와 관련된 정보를 포함하는 인식대상 리스트의 상기 각 대상 시퀀스와, 상기 획득된 음소 시퀀스와의 유사도를 산출하는 단계;
상기 산출된 유사도를 기초로 후보셋을 추출하는 단계; 및
상기 산출된 음소별 확률에 기초하여 상기 추출된 후보셋으로부터 인식 결과를 반환하는 단계를 포함하는 음성 인식 방법. - 제8항에 있어서,
상기 음향 모델은 CTC(Connectionist Temporal Classification)를 포함하는 학습 알고리즘을 이용하여 학습되는 음성 인식 방법. - 제8항에 있어서,
상기 결과를 반환하는 단계는
상기 산출된 음소별 확률을 기초로 상기 후보셋에 포함된 각 후보 대상 시퀀스에 대하여 생성 확률을 산출하는 단계를 포함하고, 상기 산출된 확률이 가장 높은 후보 대상 시퀀스를 상기 인식 결과로 반환하는 음성 인식 방법 - 삭제
- 삭제
- 제8항에 있어서,
상기 유사도를 산출하는 단계는
편집 거리(Edit Distance) 알고리즘을 포함하는 유사도 알고리즘을 이용하여 상기 유사도를 산출하는 음성 인식 방법. - 제8항에 있어서,
상기 음소 시퀀스를 획득하는 단계는
최적 경로 해석(best path decoding) 및 선행 경로 해석(prefix path decoding)을 포함하는 해석 기법 중의 하나를 이용하여 상기 음소 시퀀스를 획득하는 음성 인식 방법. - 사용자의 음성 신호를 수신하는 음성 수신부;
음향 모델을 이용하여 상기 수신된 음성 신호로부터 음소별 확률을 산출하고, 상기 산출된 음소별 확률을 기초로 음소 시퀀스를 획득하고, 각 전자 장치에서 대상 시퀀스 별로 이용되는 순위와 관련된 정보를 포함하는 인식대상 리스트의 상기 각 대상 시퀀스와, 상기 획득된 음소 시퀀스와의 유사도를 산출하고, 상기 산출된 유사도를 기초로 후보셋을 추출하고, 상기 산출된 음소별 확률에 기초하여 상기 추출된 후보셋 으로부터 인식 결과를 반환하는 음성 인식부; 및
상기 반환된 인식 결과를 기초로 소정 동작을 수행하는 처리부를 포함하는 전자 장치. - 제15항에 있어서,
상기 음성 인식부는
상기 산출된 음소별 확률을 기초로 상기 후보셋에 포함된 각 후보 대상 시퀀스에 대하여 생성 확률을 산출하며, 산출된 생성 확률이 가장 큰 후보 대상 시퀀스를 상기 인식 결과로 반환하는 전자 장치.
- 삭제
- 제15항에 있어서,
상기 처리부는
상기 인식 결과를 스피커를 통해 음성 신호로 출력하거나 디스플레이에 텍스트 형태로 출력하는 전자 장치. - 제18항에 있어서,
상기 처리부는
상기 인식 결과를 다른 언어로 번역하고, 번역 결과를 스피커를 통해 음성 신호로 출력하거나, 디스플레이에 텍스트 형태로 출력하는 전자 장치. - 제15항에 있어서,
상기 처리부는
상기 전자 장치의 전원 온/오프, 볼륨 조절, 채널 변경 및 목적지 검색 중의 하나 이상을 포함하는 상기 인식 결과에 상응하는 명령어를 처리하는 전자 장치.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150093653A KR102371188B1 (ko) | 2015-06-30 | 2015-06-30 | 음성 인식 장치 및 방법과 전자 장치 |
US15/139,926 US20170004824A1 (en) | 2015-06-30 | 2016-04-27 | Speech recognition apparatus, speech recognition method, and electronic device |
EP16175048.4A EP3113176B1 (en) | 2015-06-30 | 2016-06-17 | Speech recognition |
JP2016128918A JP6637848B2 (ja) | 2015-06-30 | 2016-06-29 | 音声認識装置及び方法と電子装置 |
CN201610510741.3A CN106328127B (zh) | 2015-06-30 | 2016-06-30 | 语音识别设备,语音识别方法和电子装置 |
US17/322,965 US20210272551A1 (en) | 2015-06-30 | 2021-05-18 | Speech recognition apparatus, speech recognition method, and electronic device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150093653A KR102371188B1 (ko) | 2015-06-30 | 2015-06-30 | 음성 인식 장치 및 방법과 전자 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20170003246A KR20170003246A (ko) | 2017-01-09 |
KR102371188B1 true KR102371188B1 (ko) | 2022-03-04 |
Family
ID=56134254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150093653A KR102371188B1 (ko) | 2015-06-30 | 2015-06-30 | 음성 인식 장치 및 방법과 전자 장치 |
Country Status (5)
Country | Link |
---|---|
US (2) | US20170004824A1 (ko) |
EP (1) | EP3113176B1 (ko) |
JP (1) | JP6637848B2 (ko) |
KR (1) | KR102371188B1 (ko) |
CN (1) | CN106328127B (ko) |
Families Citing this family (170)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
AU2014214676A1 (en) | 2013-02-07 | 2015-08-27 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
JP6614639B2 (ja) | 2015-05-22 | 2019-12-04 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
KR102371188B1 (ko) * | 2015-06-30 | 2022-03-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법과 전자 장치 |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US9792907B2 (en) | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
US9972313B2 (en) | 2016-03-01 | 2018-05-15 | Intel Corporation | Intermediate scoring and rejection loopback for improved key phrase detection |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
JP6727607B2 (ja) | 2016-06-09 | 2020-07-22 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179343B1 (en) * | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10043521B2 (en) * | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
US10679643B2 (en) * | 2016-08-31 | 2020-06-09 | Gregory Frederick Diamos | Automatic audio captioning |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10783883B2 (en) * | 2016-11-03 | 2020-09-22 | Google Llc | Focus session at a voice interface device |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10229685B2 (en) * | 2017-01-18 | 2019-03-12 | International Business Machines Corporation | Symbol sequence estimation in speech |
CN106782513B (zh) * | 2017-01-25 | 2019-08-23 | 上海交通大学 | 基于置信度的语音识别实现方法及系统 |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN109313892B (zh) * | 2017-05-17 | 2023-02-21 | 北京嘀嘀无限科技发展有限公司 | 稳健的语言识别方法和系统 |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
KR102339716B1 (ko) * | 2017-06-30 | 2021-12-14 | 삼성에스디에스 주식회사 | 음성 인식 방법 및 그 장치 |
DE102017216571B4 (de) | 2017-09-19 | 2022-10-06 | Volkswagen Aktiengesellschaft | Kraftfahrzeug |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
KR102441066B1 (ko) * | 2017-10-12 | 2022-09-06 | 현대자동차주식회사 | 차량의 음성생성 시스템 및 방법 |
CN107729321A (zh) * | 2017-10-23 | 2018-02-23 | 上海百芝龙网络科技有限公司 | 一种语音识别结果纠错方法 |
CN109062539A (zh) * | 2017-10-30 | 2018-12-21 | 上海寒武纪信息科技有限公司 | 人工智能处理器及使用处理器执行向量乘加指令的方法 |
CN107992812A (zh) * | 2017-11-27 | 2018-05-04 | 北京搜狗科技发展有限公司 | 一种唇语识别方法及装置 |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10423727B1 (en) | 2018-01-11 | 2019-09-24 | Wells Fargo Bank, N.A. | Systems and methods for processing nuances in natural language |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10580432B2 (en) * | 2018-02-28 | 2020-03-03 | Microsoft Technology Licensing, Llc | Speech recognition using connectionist temporal classification |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
CN108564941B (zh) * | 2018-03-22 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备及存储介质 |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US10714122B2 (en) | 2018-06-06 | 2020-07-14 | Intel Corporation | Speech classification of audio for wake on voice |
CN108766414B (zh) * | 2018-06-29 | 2021-01-15 | 北京百度网讯科技有限公司 | 用于语音翻译的方法、装置、设备和计算机可读存储介质 |
CN109121057B (zh) * | 2018-08-30 | 2020-11-06 | 北京聆通科技有限公司 | 一种智能助听的方法及其系统 |
US12094456B2 (en) | 2018-09-13 | 2024-09-17 | Shanghai Cambricon Information Technology Co., Ltd. | Information processing method and system |
US10650807B2 (en) | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
KR102651413B1 (ko) * | 2018-10-17 | 2024-03-27 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
KR20200056001A (ko) * | 2018-11-14 | 2020-05-22 | 삼성전자주식회사 | 인공신경망에서의 디코딩 방법 및 그 장치 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11127394B2 (en) | 2019-03-29 | 2021-09-21 | Intel Corporation | Method and system of high accuracy keyphrase detection for low resource devices |
CN111862961A (zh) | 2019-04-29 | 2020-10-30 | 京东数字科技控股有限公司 | 识别语音的方法和装置 |
CN111862943B (zh) * | 2019-04-30 | 2023-07-25 | 北京地平线机器人技术研发有限公司 | 语音识别方法和装置、电子设备和存储介质 |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
CN110852324A (zh) * | 2019-08-23 | 2020-02-28 | 上海撬动网络科技有限公司 | 一种基于深度神经网络集装箱箱号检测方法 |
CN110503956B (zh) * | 2019-09-17 | 2023-05-12 | 平安科技(深圳)有限公司 | 语音识别方法、装置、介质及电子设备 |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
KR102577589B1 (ko) * | 2019-10-22 | 2023-09-12 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
KR20210060897A (ko) * | 2019-11-19 | 2021-05-27 | 삼성전자주식회사 | 음성 처리 방법 및 장치 |
US11373639B2 (en) * | 2019-12-12 | 2022-06-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for streaming end-to-end speech recognition with asynchronous decoders pruning prefixes using a joint label and frame information in transcribing technique |
CN111090630A (zh) * | 2019-12-16 | 2020-05-01 | 中科宇图科技股份有限公司 | 基于多源空间点数据的数据融合处理方法 |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
CN111681661B (zh) * | 2020-06-08 | 2023-08-08 | 北京有竹居网络技术有限公司 | 语音识别的方法、装置、电子设备和计算机可读介质 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
TWI759003B (zh) * | 2020-12-10 | 2022-03-21 | 國立成功大學 | 語音辨識模型的訓練方法 |
CN112735394B (zh) * | 2020-12-16 | 2022-12-30 | 青岛海尔科技有限公司 | 一种语音的语义解析方法及装置 |
CN112837401B (zh) * | 2021-01-27 | 2024-04-09 | 网易(杭州)网络有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
CN113488029B (zh) * | 2021-06-23 | 2024-06-11 | 中科极限元(杭州)智能科技股份有限公司 | 基于参数共享非自回归语音识别训练解码方法及系统 |
US11682413B2 (en) * | 2021-10-28 | 2023-06-20 | Lenovo (Singapore) Pte. Ltd | Method and system to modify speech impaired messages utilizing neural network audio filters |
CN113889083B (zh) * | 2021-11-03 | 2022-12-02 | 广州博冠信息科技有限公司 | 语音识别方法及装置、存储介质、电子设备 |
CN114783419B (zh) * | 2022-06-21 | 2022-09-27 | 深圳市友杰智新科技有限公司 | 结合先验知识的文本识别方法、装置、计算机设备 |
CN117524263A (zh) * | 2022-07-26 | 2024-02-06 | 北京三星通信技术研究有限公司 | 数据处理方法、设备唤醒方法、电子设备及存储介质 |
CN115329785B (zh) * | 2022-10-15 | 2023-01-20 | 小语智能信息科技(云南)有限公司 | 融入音素特征的英-泰-老多语言神经机器翻译方法及装置 |
CN116580701B (zh) * | 2023-05-19 | 2023-11-24 | 国网物资有限公司 | 告警音频识别方法、装置、电子设备和计算机介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100004932A1 (en) * | 2007-03-20 | 2010-01-07 | Fujitsu Limited | Speech recognition system, speech recognition program, and speech recognition method |
US20100217596A1 (en) * | 2009-02-24 | 2010-08-26 | Nexidia Inc. | Word spotting false alarm phrases |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62118398A (ja) * | 1985-11-19 | 1987-05-29 | 松下電器産業株式会社 | 単語認識装置 |
JP3741156B2 (ja) * | 1995-04-07 | 2006-02-01 | ソニー株式会社 | 音声認識装置および音声認識方法並びに音声翻訳装置 |
JP2000029486A (ja) * | 1998-07-09 | 2000-01-28 | Hitachi Ltd | 音声認識システムおよび方法 |
US7219123B1 (en) * | 1999-10-08 | 2007-05-15 | At Road, Inc. | Portable browser device with adaptive personalization capability |
JP3782943B2 (ja) * | 2001-02-20 | 2006-06-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 |
KR100438838B1 (ko) * | 2002-01-29 | 2004-07-05 | 삼성전자주식회사 | 대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법 |
JP4511274B2 (ja) * | 2004-07-29 | 2010-07-28 | 三菱電機株式会社 | 音声データ検索装置 |
JP4734155B2 (ja) * | 2006-03-24 | 2011-07-27 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
KR20090065102A (ko) * | 2007-12-17 | 2009-06-22 | 한국전자통신연구원 | 어휘 디코딩 방법 및 장치 |
WO2011037587A1 (en) * | 2009-09-28 | 2011-03-31 | Nuance Communications, Inc. | Downsampling schemes in a hierarchical neural network structure for phoneme recognition |
JP5753769B2 (ja) * | 2011-11-18 | 2015-07-22 | 株式会社日立製作所 | 音声データ検索システムおよびそのためのプログラム |
US8682678B2 (en) * | 2012-03-14 | 2014-03-25 | International Business Machines Corporation | Automatic realtime speech impairment correction |
KR20140028174A (ko) * | 2012-07-13 | 2014-03-10 | 삼성전자주식회사 | 음성 인식 방법 및 이를 적용한 전자 장치 |
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
CN103854643B (zh) * | 2012-11-29 | 2017-03-01 | 株式会社东芝 | 用于合成语音的方法和装置 |
US20150228277A1 (en) * | 2014-02-11 | 2015-08-13 | Malaspina Labs (Barbados), Inc. | Voiced Sound Pattern Detection |
JP6011565B2 (ja) * | 2014-03-05 | 2016-10-19 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
US9728185B2 (en) * | 2014-05-22 | 2017-08-08 | Google Inc. | Recognizing speech using neural networks |
US9792898B2 (en) * | 2014-07-27 | 2017-10-17 | Malaspina Labs (Barbados), Inc. | Concurrent segmentation of multiple similar vocalizations |
KR101594835B1 (ko) * | 2014-11-05 | 2016-02-17 | 현대자동차주식회사 | 음성인식 기능을 갖는 차량 및 헤드유닛과 이를 위한 음성 인식방법 |
US10540957B2 (en) * | 2014-12-15 | 2020-01-21 | Baidu Usa Llc | Systems and methods for speech transcription |
US9805717B2 (en) * | 2015-03-06 | 2017-10-31 | Dell Products Lp | Voice-based input using natural language processing for interfacing with one or more devices |
US10127904B2 (en) * | 2015-05-26 | 2018-11-13 | Google Llc | Learning pronunciations from acoustic sequences |
KR102371188B1 (ko) * | 2015-06-30 | 2022-03-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법과 전자 장치 |
CN114503194A (zh) * | 2019-12-17 | 2022-05-13 | 谷歌有限责任公司 | 用于默读解释的机器学习 |
-
2015
- 2015-06-30 KR KR1020150093653A patent/KR102371188B1/ko active IP Right Grant
-
2016
- 2016-04-27 US US15/139,926 patent/US20170004824A1/en not_active Abandoned
- 2016-06-17 EP EP16175048.4A patent/EP3113176B1/en active Active
- 2016-06-29 JP JP2016128918A patent/JP6637848B2/ja active Active
- 2016-06-30 CN CN201610510741.3A patent/CN106328127B/zh active Active
-
2021
- 2021-05-18 US US17/322,965 patent/US20210272551A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100004932A1 (en) * | 2007-03-20 | 2010-01-07 | Fujitsu Limited | Speech recognition system, speech recognition program, and speech recognition method |
US20100217596A1 (en) * | 2009-02-24 | 2010-08-26 | Nexidia Inc. | Word spotting false alarm phrases |
Also Published As
Publication number | Publication date |
---|---|
EP3113176A1 (en) | 2017-01-04 |
JP6637848B2 (ja) | 2020-01-29 |
US20170004824A1 (en) | 2017-01-05 |
EP3113176B1 (en) | 2019-04-03 |
JP2017016131A (ja) | 2017-01-19 |
CN106328127A (zh) | 2017-01-11 |
CN106328127B (zh) | 2021-12-28 |
US20210272551A1 (en) | 2021-09-02 |
KR20170003246A (ko) | 2017-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102371188B1 (ko) | 음성 인식 장치 및 방법과 전자 장치 | |
CN107590135B (zh) | 自动翻译方法、设备和系统 | |
CN108428446B (zh) | 语音识别方法和装置 | |
CN108701453B (zh) | 模块化深度学习模型 | |
CN108711421B (zh) | 一种语音识别声学模型建立方法及装置和电子设备 | |
KR102386854B1 (ko) | 통합 모델 기반의 음성 인식 장치 및 방법 | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
CN110431626B (zh) | 使用成对比较进行重复语音查询中的超发音检测以改进语音识别 | |
EP2685452A1 (en) | Method of recognizing speech and electronic device thereof | |
KR20170034227A (ko) | 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법 | |
KR20210155401A (ko) | 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법 | |
KR102281504B1 (ko) | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 | |
KR102607373B1 (ko) | 음성감성 인식 장치 및 방법 | |
KR102199246B1 (ko) | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 | |
KR20210052036A (ko) | 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법 | |
KR20240053639A (ko) | 제한된 스펙트럼 클러스터링을 사용한 화자-턴 기반 온라인 화자 구분 | |
US11682400B1 (en) | Speech processing | |
KR102192678B1 (ko) | 음향 모델 입력 데이터의 정규화 장치 및 방법과, 음성 인식 장치 | |
US12033618B1 (en) | Relevant context determination | |
KR101424496B1 (ko) | 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
KR102199445B1 (ko) | 클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고 이를 이용한 음성 인식 장치 | |
US11328713B1 (en) | On-device contextual understanding | |
KR102642617B1 (ko) | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 | |
US12100383B1 (en) | Voice customization for synthetic speech generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |