Nothing Special   »   [go: up one dir, main page]

KR980011004A - 화자 확인기능을 가지는 음성인식 방법 및 그에 따른 장치 - Google Patents

화자 확인기능을 가지는 음성인식 방법 및 그에 따른 장치 Download PDF

Info

Publication number
KR980011004A
KR980011004A KR1019960029442A KR19960029442A KR980011004A KR 980011004 A KR980011004 A KR 980011004A KR 1019960029442 A KR1019960029442 A KR 1019960029442A KR 19960029442 A KR19960029442 A KR 19960029442A KR 980011004 A KR980011004 A KR 980011004A
Authority
KR
South Korea
Prior art keywords
speaker
dependent
voice
hood
speech
Prior art date
Application number
KR1019960029442A
Other languages
English (en)
Inventor
김기백
Original Assignee
구자홍
Lg 전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구자홍, Lg 전자 주식회사 filed Critical 구자홍
Priority to KR1019960029442A priority Critical patent/KR980011004A/ko
Publication of KR980011004A publication Critical patent/KR980011004A/ko

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

본 발명은 미리 정해진 화자만의 음성을 정확히 확인하여 그에 대응되는 동작이 되도록 하게 하는 화자 확인기능을 가지는 음성인식 방법 및 그에 따른 장치에 관한 것이다.
본 발명의 인식 방법은 트레이닝모드에서 화자로부터 제공되는 음성신호의 특징을 분석하고 그에 따른 화자 의존 파라메타 및 화자 의존 드레쉬홀드를 각기 추출 및 결정하여 저장하는 단계와, 동작가능모드에서 음성대역의 신호가 입력된 경우에 그 특징을 분석하고 상기 저장된 화자 의존 파라메타에 근거하여 상기 신호의 라이클리후드를 계산하는 단계와, 상기 계산된 라이클리후드를 상기 저장된 화자 의존 드레쉬홀드에 근거하여 판단하여 실제의 화자음성인가를 검증하는 단계와, 상기 검증단계에서 실제의 화자음성이라고 검증된 경우에만 대상기기를 제어하기 위한 제어신호를 생성하는 단계를 가짐을 특징으로 한다. 상기한 인식방법에 따르면, 미리 정해진 화자만의 음성을 정확히 확인하여 그에 대응되는 동작이 되도록 할 수 있다.

Description

화자 확인기능을 가지는 음성인식 방법 및 그에 따른 장치
제1도는 본 발명에 따른 음성인식 장치의 기능모듈을 보여주는 블럭도.
제2도는 제1도에 따른 화자 의존 파라메타 추출과정을 보인 기능블럭도.
제3도는 제1도에 따른 드레쉬홀드 결정과정을 도시한 기능블럭도.
제4도는 본 발명의 파라메타 추출에 적용되는 가우시안 믹스츄어 모델의 분포도.
제5도는 본 발명에 따른 드레쉬홀드의 결정을 설명하기 위한 도면.
본 발명은 음성인식분야에 관한 것으로, 특히 미리 정해진 화자만의 음성을 정확히 확인하여 그에 대응되는 동작이 되도록 하게 하는 화자 확인기능을 가지는 음성인식 방법 및 그에 따른 장치에 관한 것이다.
최근에, 자동차, 가전제품을 비롯하여 보안장비등 여러분야에서 음성인식 장치의 이용이 나날이 증가하고 있는 실정이다. 더구나 이러한 분야에 제공되는 음성인식 장치는 기구적 메카니즘을 사용하지 않고 모두 대규모 고집적 회로 기술로서 구현되고 있다. 전형적인 음성인식 장치는 내부에 기능모듈을 하드웨어 및/또는 소프트 웨어의 형태로서 구비하고서 마이크로폰 등을 통해 수신된 음성을 디지탈 음성 데이터로 변환 후 그에 따른 인식을 수행하여 대상 기기가 음성데이타의 내용에 맞게 구동되게 한다. 그러나, 개인용 자동차 또는 보안장비에 있어 특정한 사람이외의 음성에의해 자동차나 보안장비기 원하는 대로 동작된다면 이는 바람직하지 않다. 따라서, 인가되는 음성을 보다 정확하게 인식하고 특정한 화자의 음성만에 응답하여 대상을 제어하는 음성인식 장치 및 방법이 절실하게 필요해진다. 종래에는 이와 같은 분야에서 음성인식을 위한 음성처리 방법이나 인식성능이 미흡하여 특정한 화자 이외의 화자에 의한 음성에도 즉각적으로 응답해 버리는 바람직하지 못한 문제점이 있었다.
따라서, 본 발명의 목적은 상기한 종래의 문제점을 해소할 수 있는 음성인식 방법을 제공함에 있다.
본 발명의 다른 목적은 미리 정해진 화자만의 음성을 정확히 확인하여 그에 대응되는 동작이 되도록 하게 하는 화자 확인기능을 가지는 음성인식 방법 및 그에 따른 장치를 제공함에 있다.
상기의 목적을 달성하기 위한 본 발명의 인식 방법에 따르면, 트레이닝모드에서 화자로부터 제공되는 음성신호의 특징을 분석하고 그에 따른 화자 의존 파라메타 및 화자 의존 드레쉬홀드를 각기 추출 및 결정하여 저장하는 단계와, 동작가능모드에서 음성대역의 신호가 입력된 경우에 그 특징을 분석하고 상기 저장된 화자 의존 파라메타에 근거하여 상기 신호의 라이클리후드를 계산하는 단계와, 상기 계산된 라이클리후드를 상기 저장된 화자 의존 드레쉬홀드에 근거하여 판단하여 실제의 화자음성인가를 검증하는 단계와, 상기 검증단계에서 실제의 화자음성이라고 검증된 경우에만 대상기기를 제어하기 위한 제어신호를 생성하는 단계를 가짐을 특징으로 한다. 상기한 인식방법에 따르면, 미리 정해진 화자만의 음성을 정확히 확인하여 그에 대응되는 동작이 되도록 할 수 있다.
이하에서는 본 발명의 바람직한 실시예에 따른 장치 및 방법이 첨부된 도면과 함께 설명될 것이다. 첨부된 도면들내에서 서로 동일한 구성요소는 이해의 편의를 위해 동일 내지 유사한 참조부호 또는 명칭으로 라벨링된다. 다음의 설명에서는 본 발명의 보다 철저한 이해를 제공하기 위해 특정한 상세들이 예를들어 한정되고 자세하게 설명된다. 그러나, 당시 기술분야에 통상의 지식을 가진 자들에게 있어서는 본 발명이 이러한 상세한 항목들이 없이도 상기한 설명에 의해서도 실시될 수 있을 것이다. 또한, 본 분야에 잘 알려진 음성인식 과정의 특징 추출, 라이클리후드의 계산, 및 파라메타 추출의 기본적 원리 및 장치의 기본적 동작들은 본 발명의 요지를 모호하지 않게 하기 위해 상세히 설명되지 않는다.
이하의 설명에서는 본 발명의 바람직한 일 실시예가 예를들어 한정되고 첨부된 도면을 위주로 예를들어 설명될 것이다.
제1도에는 본 발명에 따른 음성인식 장치의 기능모듈을 보여주는 블록도가 도시된다. 또한, 제2도는 제1도에 따른 화자 으존 파라메타 추출과정을 보인 기능블럭도이고, 제3도는 제1도에 따른 드레쉬홀드 결정과정을 도시한 기능블럭도이다. 제4도는 본 발명의 라이클리후드 계산시 파라메타 추출에 적용되는 가우시안 믹스츄어 모델의 분포도이고, 제5도는 본 발명에 따른 드레쉬홀드의 결정을 설명하기 위한 도면이다.
제1도를 참조하면, 미 도시된 프로그램을 저장하고 있는 롬, 작업용 메모리로서의 램, 및 음성인식을 위한 제반 처리 동작을 수행하는 중앙처리장치(CPU) 등을 가지는 콘트롤러는 각 기능모듈을 가진다. 여기서, 각 모듈은 음성입력 모듈 10, 특징분석 모듈 20, 라이클리후드 계산 모듈 30, 화자음성 검증 모듈 40,음성 인식모듈 50, 화자 의존 파라메타 추출 모듈 100, 및 화자 의존 드레쉬홀드 결정 모듈 200으로 나뉘어 구성된다. 제1도의 각 모듈은 편의상 소프트웨어로써 구현되지만 사안에 따라서는 DSP 칩으로써 구성가능하다. 본 실시예에서는 설명의 편의상 소프트웨어적으로 상기한 기능모듈이 구현되어졌다고 가정하고 설명한다. 먼저, 본 발명의 핵심이 되는 화자 의존 파라메타 추출 과정 100 및 화자 의존 드레쉬홀드 결정과정 200을 구체적으로 설명하기 위해 제2도 및 제3도를 참조한다. 제2도 및 제3도에서는 트레이닝모드에서 화자로부터 제공되는 음성신호의 특징을 분석하고 그에 따른 화자 의존 파라메타 및 의존 드레쉬홀드를 각기 추출 및 결정하여 저장하는 작업이 실행된다. 트레이닝 모드에서는 트레이닝 파일 19이 준비된다. 화자로부터 제공되는 음성신호의 특징이 특징분석 모듈 20에 의해 추출되면 라이클리후드 계산모듈 30은 이를 수신하고 파라메타 추출을 위한 데이터를 출력하게 된다. 즉, 트레이닝 모드에서의 파라메타 추출시에도 라이클리후드가 계산된 후 추출되는 것이다. 파라메타는 대체적으로 최대 라이클리후드(ML:Maximum Likelihood) 방식으로 구해진다. 이 방식은 화자의 트레이닝 (훈련)음성 데이터로부터 특징을 분석추출한 후, 이를 수신하여 라이클리후드를 구할시 라이클리후드가 최대가 되는 방향으로 파라메타를 갱신해 나가면서 최종 파라메타를 결정하는 것이다. 제2도는 이러한 최대 라이클리후드 방식을 도면으로서 나타내고 있음을 알 수 있다. 제4도에서 보여지는 것은 라이클리후드 계산시 파라메타 추출에 적용되는 가우시안 믹스츄어 모델의 분포이다. 부호 42는 특징공간 41상에 64개의 P1, 2가 있음을 나타낸다.
제3도를 참조하면, 화자 의존 드레쉬홀드를 결정하는 과정이 나타나 있다. 라이클리후드의 계산단계까지는 전술한 제2도의 설명과 동일하므로 설명을 약하고 드레쉬홀드 결정과정부터 설명한다. 화자의 문턱값을 설정하는 과정은 여러개의 트레이닝 파일에 대하여 라이클리후드를 구한 다음 그 것들의 분포를 바탕으로 드레쉬홀드 값을 결정하게 된다. 드레쉬홀드 값을 결정하는 단계는 인식장치의 성능을 결정하는 데 중요한 과정이 된다. 본 실시예에서도 히든 마르코브모델 (HMM)을 이용한 드레쉬홀드의 결정을 수행할 수 있다. 이에 대한 것은 1989년 2월에 발표된 IEEE,vol. No.2,pp. 257-285에도 개시되어 있다. 제5도를 참조하면, 100%의 라이클리후드 데이터에서 2-3%를 제외한 데이터의 범위 A를 드레쉬홀드로 결정함을 알 수 있다. 이와 같이 화자 의존 파라메타 및 화자 의존 드레쉬홀드를 각기 추출 및 결정하여 저장하여 두고, 제1도의 각 모듈의 동작이 순차로 실행된다.
실제의 동작가능 모드에서 음성입력 모듈 10내의 마이크로폰을 통해 어떠한 음성즉, 음성대역의 신호가 입력된 경우에 특징분석 모듈 20은 그 특징을 분석하여 라이클리후드 계산 모듈 30에 전송한다. 여기서, 특징분석은 입력된 신호를 디지탈 음성 데이터로 샘플링하고 해밍 원도우를 씌운 다음 LPC 등의 특징을 추출하는 것을 의미한다. 상기 모듈 30은 추출모듈 100에 미리 저장된 화자 의존 파라메타에 근거하여 상기 전송되어진 신호의 라이클리후드를 계산한다. 여기서 계산은 서브워드 유닛 HMM이나 GMM 등의 모델을 이용할 수 있다. 화자음성 검증 모듈 40은 상기 계산된 라이클리후드를 상기 저장된 화자 의존 드레쉬홀드 200에 근거하여 판단하여 실제의 화자음성인가를 검증한다. 그리고, 상기 검증단계에서 입력된 음성이 실제의 화자음성이라고 검증된 경우에는 음성내용에 대한 수용(Accept)을 가리키는 데이터를 음성인식 모듈 50에 제공하며, 아닌 경우에는 거절을 가리키는 데이터를 라인 L1을 통해 음성 입력 모듈 10에 제공한다. 한편, 상기 라인이 계산모듈 30으로 인가되는 경우는 트레이닝 모드에서 그러하다. 따라서, 음성인식 모듈 50은 수용 데이터의 입력시에만 대상기기를 제어하기 위한 제어신호를 비로서 촐력한다. 상기 인식 모듈 50은 고립단어 인식기, 연결음 인식기, 또는 연속문장 인식기중의 하나가 될 수 있다.
상기한 바와 같은 음성 인식방법에 따르면, 미리 정해진 화자만의 음성을 정확히 확인하여 그에 대응되는 동작이 수행되도록 하는 효과가 있다. 상기한 본 발명은 도면을 중심으로 예를 들어 설명하고 한정되었지만, 그 동일한 것은 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 변화와 변형이 가능함이 본 분야의 숙련된 자에게 있어 명백할 것이다. 예를 들어, 인식을 위한 제어를 전용으로 수행하는 DSP칩에 하드웨어적으로 구현하여 달성하게 할 수 있음은 물론이다.

Claims (4)

  1. 음성인식 방법에 있어서, 트레이닝모드에서 화자로부터 제공되는 음성신호의 특징을 분석하고 그에 따른 화자 의존 파라메타 및 화자 의존 드레쉬홀드를 각기 추출 및 결정하여 저장하는 단계와, 동작가능모드에서 음성대역의 신호가 입력된 경우에 그 특징을 분석하고 상기 저장된 화자 의존 파라메타에 근거하여 상기 신호의 라이클리후드를 계산하는 단계와, 상기 계산된 라이클리후드를 상기 저장된 화자 의존 드레쉬홀드에 근거하여 판단하여 실제의 화자음성인가를 검증하는 단계와, 상기 검증단계에서 실제의 화자음성이라고 검증된 경우에만 대상기기를 제어하기 위한 제어신호를 생성하는 단계를 가짐을 특징으로 방법.
  2. 제1항에 있어서, 상기 화자 의존 파라메타의 추출은 최대 라이클리후드 방식에 의해 추출함을 특징으로 하는 방법.
  3. 제2항에 있어서, 상기 화자 의존 드레쉬홀드의 결정은 여러개의 트레이닝 파일에 대하여 라이클리후드를 구한 다음 그것들의 분포를 바탕으로 약 2% 정도를 제외한 나머지로 결정함을 특징으로 하는 방법.
  4. 음성인식 장치에 있어서, 트레이닝모드에서 화자로부터 제공되는 움성신호의 특징을 분석하고 그에 따른 화자 의존 파라메타 및 화자 의존 드레쉬홀드를 각기 추출 및 결정하여 저장부에 저장시키는 추출 및 결정부와, 동작가능모드에서 음성대역의 신호가 입력된 경우에 그 특징을 분석하고 상기 저장된 화자 의존 파라메타에 근거하여 상기 신호의 라이클리후드를 계산하는 계산부와, 상기 계산부에 의해 계산된 라이클리후드를 상기 저장된 화자 의존 드레쉬홀드에 근거하여 판단하여 실제의 화자음성인가를 검증하는 판단부와, 상기 검증이 실제의 화자음성이라고 검증된 경우에만 대상기기를 제어하기 위한 제어신호를 출력하는 출력부를 가짐을 특징으로 하는 장치.
    ※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.
KR1019960029442A 1996-07-20 1996-07-20 화자 확인기능을 가지는 음성인식 방법 및 그에 따른 장치 KR980011004A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960029442A KR980011004A (ko) 1996-07-20 1996-07-20 화자 확인기능을 가지는 음성인식 방법 및 그에 따른 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960029442A KR980011004A (ko) 1996-07-20 1996-07-20 화자 확인기능을 가지는 음성인식 방법 및 그에 따른 장치

Publications (1)

Publication Number Publication Date
KR980011004A true KR980011004A (ko) 1998-04-30

Family

ID=66241980

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960029442A KR980011004A (ko) 1996-07-20 1996-07-20 화자 확인기능을 가지는 음성인식 방법 및 그에 따른 장치

Country Status (1)

Country Link
KR (1) KR980011004A (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63213899A (ja) * 1987-03-02 1988-09-06 株式会社リコー 話者照合方式
KR900015062A (ko) * 1989-03-06 1990-10-25 아오이 죠이치 음성인식장치
KR930023907A (ko) * 1992-05-28 1993-12-21 정용문 화자 확인 시스템
JPH0695690A (ja) * 1992-09-14 1994-04-08 Nippon Telegr & Teleph Corp <Ntt> 話者認識方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63213899A (ja) * 1987-03-02 1988-09-06 株式会社リコー 話者照合方式
KR900015062A (ko) * 1989-03-06 1990-10-25 아오이 죠이치 음성인식장치
KR930023907A (ko) * 1992-05-28 1993-12-21 정용문 화자 확인 시스템
JPH0695690A (ja) * 1992-09-14 1994-04-08 Nippon Telegr & Teleph Corp <Ntt> 話者認識方法

Similar Documents

Publication Publication Date Title
US6671669B1 (en) combined engine system and method for voice recognition
US6088669A (en) Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling
KR100655491B1 (ko) 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
KR100901092B1 (ko) 음성인식을 위하여 화자의존모드 및 화자독립모드에서dtw와 hmm의 결합
US6836758B2 (en) System and method for hybrid voice recognition
US7634401B2 (en) Speech recognition method for determining missing speech
US6553342B1 (en) Tone based speech recognition
US9911408B2 (en) Dynamic speech system tuning
US20030200090A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US9881609B2 (en) Gesture-based cues for an automatic speech recognition system
CN112233651B (zh) 方言类型的确定方法、装置、设备及存储介质
JPS62217295A (ja) 音声認識方式
US6574596B2 (en) Voice recognition rejection scheme
US20030200087A1 (en) Speaker recognition using dynamic time warp template spotting
JP2955297B2 (ja) 音声認識システム
US6996527B2 (en) Linear discriminant based sound class similarities with unit value normalization
KR980011004A (ko) 화자 확인기능을 가지는 음성인식 방법 및 그에 따른 장치
EP0177854B1 (en) Keyword recognition system using template-concatenation model
KR100669244B1 (ko) 음성인식 시스템에서의 svm 기반 멀티플 반모델을사용한 발화검증 장치 및 방법
JP3458285B2 (ja) 音声認識装置
KR20160122564A (ko) 음성 인식 장치 및 그 방법
JP2000214879A (ja) 音声認識装置の適応化方法
KR100677224B1 (ko) 안티워드 모델을 이용한 음성인식 방법
JPH0997095A (ja) 音声認識装置
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 19960720

PG1501 Laying open of application
A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20010720

Comment text: Request for Examination of Application

Patent event code: PA02011R01I

Patent event date: 19960720

Comment text: Patent Application

N231 Notification of change of applicant
PN2301 Change of applicant

Patent event date: 20020603

Comment text: Notification of Change of Applicant

Patent event code: PN23011R01D

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20030714

Patent event code: PE09021S01D

E601 Decision to refuse application
PE0601 Decision on rejection of patent

Patent event date: 20040224

Comment text: Decision to Refuse Application

Patent event code: PE06012S01D

Patent event date: 20030714

Comment text: Notification of reason for refusal

Patent event code: PE06011S01I