KR20130133629A

KR20130133629A - 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법

Info

Publication number: KR20130133629A
Application number: KR1020120057044A
Authority: KR
Inventors: 서브호지트; 이상훈; 김희운
Original assignee: 삼성전자주식회사
Priority date: 2012-05-29
Filing date: 2012-05-29
Publication date: 2013-12-09
Also published as: CN103456306A; US10657967B2; US20190035399A1; EP2669889A3; EP2669889B1; US20130325484A1; EP2669889A2; CN106448678A; US11393472B2; CN106297802B; US20200279563A1; US20170162198A1; EP3001414B1; CN106297802A; EP3001414A1; US9619200B2; CN106448678B; CN103456306B

Abstract

음성명령을 실행시키기 위한 방법은, 웨이크업 명령과 음성명령을 포함하는 음성신호를 입력받는 과정과, 제1 음성인식 알고리즘을 통해 웨이크업 명령에 해당하는 음성신호를 기반으로 화자검증을 수행하는 과정과, 화자검증 성공시, 상기 음성명령에 해당하는 음성신호를 서버로 제공하는 과정과, 상기 서버에서 제2 음성인식 알고리즘을 통해 음성인식된 음성명령에 해당하는 제어신호를 수신하는 과정과, 상기 음성명령에 해당하는 제어신호에 따라 상기 전자장치를 제어하는 과정을 포함하여, 음성명령을 실행하기 전에 화자 검증(speaker verification)을 수행함으로써, 보안/개인 정보 보호를 기반으로 음성명령을 수행할 수 있다.

Description

전자장치에서 음성명령을 실행시키기 위한 장치 및 방법{METHOD AND APPARATUS FOR EXECUTING VOICE COMMAND IN ELECTRONIC DEVICE}

본 발명은 일반적으로 전자장치에 관한 것으로, 특히 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법에 관한 것이다.

근래 들어 멀티미디어 기술이 발전하면서 다양한 기능을 갖는 전자 장치가 등장하고 있다. 이러한 기기들로는, 예를 들어 스마트폰으로 대별되는 휴대용 단말기가 있으며, 이러한 전자 장치들은 하나 또는 그 이상의 기능을 복합적으로 수행하는 컨버젼스 기능을 갖는 것이 일반적이다.

이러한 휴대용 단말기는 그 기능뿐만 아니라 상대적으로 동일한 또는 좀더 진보적인 성능을 발현하면서 장치의 전체 크기를 슬림화하고 미려한 디자인을 갖도록 하는 것이 중요한 요인으로 대두 되고 있으며, 단말기 제조자들은 동일한 기능 또는 좀더 진보된 성능을 구현하면서 종래의 단말기보다 좀더 소형 및 슬림화를 구현하기 위해 경주하고 있는 실정이다.

상술한 전자 장치의 다양한 기능들 중 최근 출시되는 전자 장치에는 비교적 정확도가 우수한 음성 인식 기능이 탑재되고 있다. 이러한 음성 인식 기능은 사용자의 음성을 정확히 인식하여 장치의 해당 기능을 별도의 버튼 조작 또는 터치 모듈의 접촉에 의하지 않고 손쉽게 실행시킬 수 있는 장점을 갖는다.

이러한 음성 인식 기능으로는, 예를 들어 스마트폰과 같은 휴대용 단말기에서는 별도의 조작 없이 통화 기능을 수행하거나 문자 메시지를 작성할 수 있으며, 작성된 메시지를 전송할 수 있고, 길찾기, 인터넷 검색, 알람 설정 등 다양한 기능을 손쉽게 설정할 수 있는 것이다.

종래에는 상술한 음성 인식 기능을 수행하기 위하여 해당 음성 인식 어플리케이션을 구동시키고 음성 인식 기능을 활성화시킨 후 해당 기능을 수행하여 왔다.

그러나, 이러한 음성 인식을 위한 초기 구동 단계는 별도의 키버튼 입력이나 터치 모듈에 의한 터치로 음성 인식 관련 애플리케이션을 수행하는 것으로 시작하는바, 손을 대지 않고 편리하게 데이터 입력을 수행하기 위한 음성 인식의 고유 기능에 역행하는 문제점이 있었다. 또한, 다양한 애플리케이션의 객체들을 혼재한 디스플레이 화면 중에 음성 인식용 개별 어플을 찾는 것 또한 쉽지 않은 것이 현실이다.

본 발명의 목적은 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법을 제공함에 있다.

본 발명의 다른 목적은 전자장치에서 서로 다른 종류의 음성인식 알고리즘을 사용하여, 시스템을 활성화한 다음 음성명령을 실행하는 장치 및 방법을 제공함에 있다.

본 발명의 또 다른 목적은 전자장치에서 음성명령 실행시 보안/개인 정보 보호를 수행하기 위한 장치 및 방법을 제공함에 있다.

상기한 목적들을 달성하기 위한 본 발명의 제 1 견지에 따르면, 음성명령을 실행시키기 위한 방법에 있어서, 웨이크업 명령과 음성명령을 포함하는 음성신호를 입력받는 과정과, 제1 음성인식 알고리즘을 통해 웨이크업 명령에 해당하는 음성신호를 기반으로 화자검증을 수행하는 과정과, 화자검증 성공시, 상기 음성명령에 해당하는 음성신호를 서버로 제공하는 과정과, 상기 서버에서 제2 음성인식 알고리즘을 통해 음성인식된 음성명령에 해당하는 제어신호를 수신하는 과정과, 상기 음성명령에 해당하는 제어신호에 따라 상기 전자장치를 제어하는 과정을 포함한다.

상기한 목적들을 달성하기 위한 본 발명의 제 2 견지에 따르면, 음성명령을 실행시키기 위한 방법에 있어서, 음성명령을 포함하는 음성신호를 수신하는 과정과, 제2 음성인식 알고리즘을 통해 음성인식된 음성명령에 해당하는 제어신호를 생성하는 과정과, 상기 음성명령에 해당하는 제어신호를 전자장치로 전송하는 과정을 포함한다.

상술한 바와 같이, 웨이크업 명령과 음성명령을 포함하는 연속적인 음성신호를 처리함으로써, 사용자가 쉽게 음성명령을 실행할 수 있다.

또한, 음성명령을 실행하기 전에 화자 검증(speaker verification)을 수행함으로써, 보안/개인 정보 보호를 기반으로 음성명령을 수행할 수 있다.

도 1은 본 발명의 실시 예에 따른 음성명령을 실행시키기 위한 전자장치를 도시하고 있다.
도 2는 본 발명의 제1 실시 예에 따른 전자장치의 동작 흐름도를 도시하고 있다.
도 3은 본 발명의 제1 실시 예에 따른 서버의 동작 흐름도를 도시하고 있다.
도 4는 본 발명의 제2 실시 예에 따른 전자장치의 동작 흐름도를 도시하고 있다.
도 5는 본 발명의 제2 실시 예에 따른 서버의 동작 흐름도를 도시하고 있다.
도 6은 본 발명의 제3 실시 예에 따른 전자장치의 동작 흐름도를 도시하고 있다.
도 7은 본 발명의 실시 예에 따른 웨이크업 명령 및 음성명령을 포함하는 음성신호 예를 도시하고 있다.
도 8은 본 발명의 실시 예에 따른 웨이크업 명령 및 음성명령을 포함하는 음성신호를 이용하여 전화 걸기를 수행하는 예이다.
도 9는 본 발명의 실시 예에 따른 화자검증을 통해 잠금 화면을 해지하는 예를 도시하고 있다.

이하 본 발명의 바람직한 실시 예를 첨부된 도면의 참조와 함께 상세히 설명한다. 그리고, 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

이하, 본 발명은 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법에 관해 설명하기로 한다.

도 1은 본 발명의 실시 예에 따른 음성명령을 실행시키기 위한 전자장치를 도시하고 있다.

상기 도 1을 참조하면, 전자장치는, 휴대용 전자장치(portable electronic device)일 수 있으며, 휴대용 단말기(portable terminal), 이동 전화(mobile phone), 이동 패드(mobile pad), 미디어 플레이어(media player), 태블릿 컴퓨터(tablet computer), 스마트폰, 노트북/데스트탑 컴퓨터 또는 PDA(Personal Digital Assistant)와 같은 장치일 수 있다. 또한, 이러한 장치들 중 두 가지 이상의 기능을 결합한 장치를 포함하는 임의의 휴대용 전자장치일 수도 있다.

전자장치는 제어기(100), 스피커/마이크로폰(110), 카메라(120), GPS 수신기(130), RF 처리기(140), 센서모듈(150), 터치스크린(160), 터치스크린 제어기(165), 외부 메모리(170)를 포함하여 구성된다.

제어기(100)는, 인터페이스(101), 하나 이상의 프로세서(102, 103) 그리고 내부 메모리(104)를 포함할 수 있다. 경우에 따라서는, 제어기(100) 전체를 프로세서로 칭하기도 한다. 인터페이스(101), 애플리케이션 프로세서(102), 통신 프로세서(103), 내부 메모리(104)는 별개의 구성요소일 수 있거나 하나 이상의 집적화된 회로에 집적화될 수 있다.

애플리케이션 프로세서(102)는 여러 가지의 소프트웨어 프로그램을 실행하여 전자장치를 위한 여러 기능을 수행하고 통신 프로세서(103)는 음성 통신 및 데이터 통신을 위한 처리 및 제어를 수행한다. 또한, 이러한 통상적인 기능에 더하여, 프로세서(102, 103)는 외부 메모리(170) 혹은 내부 메모리(104)에 저장되어 있는 특정한 소프트웨어 모듈(명령어 세트)을 실행하여 그 모듈에 대응하는 특정한 여러 가지의 기능을 수행하는 역할도 한다. 즉, 프로세서(102, 103)는 외부 메모리(170) 또는 내부 메모리(104)에 저장된 소프트웨어 모듈들과 연동하여 본 발명의 실시 예의 방법을 수행한다.

본 발명의 제1 실시 예는, 애플리케이션 프로세서(102)가 웨이크업 명령(wakeup command)과 음성명령(voice command)을 포함한 연속적인 음성신호를 사용자로부터 마이크로폰(110)을 통해 입력받고, 웨이크업 명령에 해당하는 음성신호를 기반으로 화자 검증(speaker verification)을 수행한다. 또한, 화자검증이 성공할 시, 웨이크업 명령에 해당하는 음성신호와 음성명령에 해당하는 음성신호 사이에는 침묵구간(silence duration)을 감지한다. 그리고, 음성명령에 해당하는 음성신호가 시작되는지를 확인하여, 음성명령에 해당하는 음성신호가 시작될 시, 음성명령에 해당하는 음성신호를 서버로 전송한다. 그리고, 서버로부터 음성명령에 해당하는 음성인식 결과를 통보받아 음성인식 결과를 기반으로 해당 동작을 수행한다.

본 발명의 제2 실시 예는, 애플리케이션 프로세서(102)가 웨이크업 명령과 음성명령을 포함한 연속적인 음성신호 전체를 서버로 전송하고, 서버로부터 웨이크업 명령에 해당하는 화자검증 결과를 통보받고, 화자검증 성공시, 시스템을 활성화한다. 그리고 음성명령에 해당하는 음성인식 결과를 통보받아, 음성인식 결과를 기반으로 동작을 수행한다.

본 발명의 제3 실시 예는, 애플리케이션 프로세서(102)가 웨이크업 명령(wakeup command)과 음성명령(voice command)을 포함한 연속적인 음성신호를 사용자로부터 마이크로폰(110)을 통해 입력받고, 웨이크업 명령에 해당하는 음성신호를 기반으로 화자 검증(speaker verification)을 수행하고, 화자검증이 성공할 시, 웨이크업 명령에 해당하는 음성신호와 음성명령에 해당하는 음성신호 사이에는 침묵구간(silence duration)을 감지하고, 음성명령에 해당하는 음성신호가 시작되는지를 확인하고, 음성명령에 해당하는 음성신호가 시작될 시, 음성인식 알고리즘을 통해 음성명령에 해당하는 음성신호 분석한다. 그리고 인식된 음성명령을 기반으로 해당 동작을 수행한다.

한편, 다른 프로세서(도시하지 않음)는 하나 이상의 음성인식 프로세서, 화자검증 프로세서를 더 포함할 수 있다. 음성인식 프로세서, 화자검증 프로세서는 하나로 구성할 수도 있고, 구현에 따라, 서로 다른 기능을 수행하는 여러 개의 프로세서로 구성될 수도 있다. 인터페이스(101)는 전자장치의 터치 스크린 제어기(165) 및 외부 혹은 내부 메모리에 연결시킨다.

센서모듈(150)은 인터페이스(101)에 결합되어 여러 가지 기능을 가능하게 할 수 있다. 예를 들어, 움직임 센서 및 광 센서가 인터페이스(101)에 결합되어 각각 전자 장치의 움직임 감지 및 외부로부터의 빛 감지를 가능하게 할 수 있다. 이외에도, 위치측정 시스템, 온도센서 또는 생체 센서 등과 같은 기타 센서들이 인터페이스(150)에 연결되어 관련 기능들을 수행할 수 있다.

카메라(120)는 인터페이스(101)를 통해 센서모듈(150)과 결합하여, 사진 및 비디오 클립 레코딩과 같은 카메라 기능을 수행할 수 있다.

RF 처리기(140)는 통신 기능이 수행된다. 예를 들어, 통신 프로세서(103)의 제어하에 RF 신호를 기저대역 신호로 변환하여 통신 프로세서(103)로 제공하거나 통신 프로세서(103)로부터의 기저대역 신호를 RF 신호로 변환하여 송신한다. 여기서, 통신 프로세서(103)는 다양한 통신방식에 기저대역신호를 처리한다. 예를 들어, 통신방식은, 이들에 한정하지는 않지만, GSM(Global System for Mobile Communication) 통신방식, EDGE(Enhanced Data GSM Environment) 통신방식, CDMA(Code Division Multiple Access) 통신방식, W-CDMA(W-Code Division Multiple Access) 통신방식, LTE(Long Term Evolution) 통신방식, OFDMA(Orthogonal Frequency Division Multiple Access) 통신방식, Wi-Fi(Wireless Fidelity) 통신방식, WiMax 통신방식 또는/및 Bluetooth 통신방식을 포함할 수 있다.

스피커/마이크로폰(110)은 음성 인식, 음성 복제, 디지털 레코딩(recording) 및 전화 기능과 같은 오디오 스트림의 입력과 출력을 담당할 수 있다. 즉, 스피커/마이크로폰(110)은 음성신호를 전기신호로 변환하거나 전기신호를 음성신호로 변환한다. 도시하지 않았지만, 탈부착 가능한(attachable and detachable) 이어폰(ear phone), 헤드폰(head phone) 또는 헤드셋(head set)이 외부포트를 통해 전자장치에 연결될 수 있다.

터치스크린 제어기(165)는 터치 스크린(160)에 결합될 수 있다. 터치 스크린(160) 및 터치 스크린 제어기(165)는, 이하에 한정되지는 않지만, 터치 스크린(160)과의 하나 이상의 접촉점을 결정하기 위한 용량성, 저항성, 적외선 및 표면 음향파 기술들뿐만 아니라 기타 근접 센서 배열 또는 기타 요소들을 포함하는 임의의 멀티 터치 감지 기술을 이용하여 접촉 및 움직임 또는 이들의 중단을 검출할 수 있다.

터치스크린(160)은 전자장치와 사용자 사이에 입력/출력 인터페이스를 제공한다. 즉, 터치스크린(160)은 사용자의 터치 입력을 전자장치에 전달한다. 또한 전자 장치로부터의 출력을 사용자에게 보여주는 매개체이다. 즉, 터치스크린은 사용자에게 시각적인 출력을 보여준다. 이러한 시각적 출력(visual output)은 텍스트(text), 그래픽(graphic), 비디오(video)와 이들의 조합의 형태로 나타난다.

터치스크린(160)은 여러 가지 디스플레이가 사용될 수 있다. 예를 들면, 이에 한정하지는 않지만, LCD(liquid crystal display), LED(Light Emitting Diode), LPD(light emitting polymer display), OLED(Organic Light Emitting Diode), AMOLED(Active Matrix Organic Light Emitting Diode) 또는 FLED(Flexible LED)를 사용할 수 있다.

GPS 수신기(130)는 인공위성으로부터 받은 신호를 위치, 속도, 시간 등의 정보로 변환한다. 예를 들어, 위성과 GPS 수신기간 거리는 빛의 속도와 신호도달 시간을 곱하면 계산되며, 3개 위성의 정확한 위치와 거리를 구하여 공지된 삼각측량의 원리로 전자장치의 위치를 측정한다.

외부 메모리(170) 혹은 내부 메모리(104)는 하나 이상의 자기 디스크 저장 장치와 같은 고속 랜덤 액세스 메모리 및/또는 비휘발성 메모리, 하나 이상의 광 저장 장치 및/또는 플래시 메모리(예컨대, NAND, NOR)를 포함할 수 있다.

외부 메모리(170) 혹은 내부 메모리(104)는 소프트웨어를 저장한다. 소프트웨어 구성요소는 운영 체제(operating system) 소프트웨어 모듈, 통신 소프트웨어 모듈, 그래픽 소프트웨어 모듈, 사용자 인터페이스 소프트웨어 모듈 및 MPEG 모듈, 카메라 소프트웨어 모듈, 하나 이상의 애플리케이션 소프트웨어 모듈 등을 포함한다. 또한, 소프트웨어 구성요소인 모듈은 명령어들의 집합으로 표현할 수 있으므로, 모듈을 명령어 세트(instruction set)라고 표현하기도 한다. 모듈은 또한 프로그램으로 표현하기도 한다.

운영 체제 소프트웨어는 일반적인 시스템 동작(system operation)을 제어하는 여러 가지의 소프트웨어 구성요소를 포함한다. 이러한 일반적인 시스템 작동의 제어는, 예를 들면, 메모리 관리 및 제어, 저장 하드웨어(장치) 제어 및 관리, 전력 제어 및 관리 등을 의미한다. 이러한 운영 체제 소프트웨어는 여러 가지의 하드웨어(장치)와 소프트웨어 구성요소(모듈) 사이의 통신을 원활하게 하는 기능도 수행한다.

통신 소프트웨어 모듈은, RF 처리기(140)를 통해 컴퓨터, 서버 및/또는 휴대용 단말기 등 다른 전자 장치와 통신을 가능하게 할 수 있다. 그리고, 통신 소프트웨어 모듈은, 해당 통신방식에 해당하는 프로토콜 구조로 구성된다.

그래픽 소프트웨어 모듈은 터치스크린(160) 상에 그래픽을 제공하고 표시하기 위한 여러 가지 소프트웨어 구성요소를 포함한다. 그래픽(graphics)이란 용어는 텍스트(text), 웹 페이지(web page), 아이콘(icon), 디지털 이미지(digital image), 비디오(video), 애니메이션(animation) 등을 포함하는 의미로 사용된다.

사용자 인터페이스 소프트웨어 모듈은 사용자 인터페이스에 관련한 여러 가지 소프트웨어 구성요소를 포함한다. 사용자 인터페이스의 상태가 어떻게 변경되는지 또는 사용자 인터페이스 상태의 변경이 어떤 조건에서 이루어지는지 등에 대한 내용을 포함한다.

카메라 소프트웨어 모듈은 카메라 관련 프로세스 및 기능들을 가능하게 하는 카메라 관련 소프트웨어 구성요소를 포함한다. 애플리케이션 모듈은 브라우저(browser), 이메일(email), 즉석 메시지(instant message), 워드 프로세싱(word processing), 키보드 에뮬레이션(keyboard emulation), 어드레스 북(address book), 접촉 리스트(touch list), 위짓(widget), 디지털 저작권 관리(DRM, Digital Right Management), 음성 인식(voice recognition), 음성 복제, 위치 결정 기능(position determining function), 위치기반 서비스(location based service) 등을 포함한다. 메모리(770, 704)는 위에서 기술한 모듈 이외에 추가적인 모듈(명령어들)을 포함할 수 있다. 또는, 필요에 따라, 일부의 모듈(명령어들)을 사용하지 않을 수 있다.

본 발명에 관련하여, 애플리케이션 모듈은 화자검증 기능 혹은 음성인식 기능 및 음성명령 실행 기능을 수행하는 명령어를 포함한다.

본 발명의 제1 실시 예에 따른 명령어는, 웨이크업 명령(wakeup command)과 음성명령(voice command)을 포함한 연속적인 음성신호를 사용자로부터 마이크로폰(110)을 통해 입력받고, 웨이크업 명령에 해당하는 음성신호를 기반으로 화자 검증(speaker verification)을 수행하고, 또한, 화자검증이 성공할 시, 웨이크업 명령에 해당하는 음성신호와 음성명령에 해당하는 음성신호 사이에는 침묵구간(silence duration)을 감지하고, 그리고, 음성명령에 해당하는 음성신호가 시작되는지를 확인하여, 음성명령에 해당하는 음성신호가 시작될 시, 음성명령에 해당하는 음성신호를 서버로 전송하고, 그리고, 서버로부터 음성명령에 해당하는 음성인식 결과를 통보받아 음성인식 결과를 기반으로 해당 동작을 수행한다.

본 발명의 제2 실시 예에 따른 명령어는, 웨이크업 명령과 음성명령을 포함한 연속적인 음성신호 전체를 서버로 전송하고, 서버로부터 웨이크업 명령에 해당하는 화자검증 결과를 통보받고, 화자검증 성공시, 시스템을 활성화한다. 그리고 음성명령에 해당하는 음성인식 결과를 통보받아, 음성인식 결과를 기반으로 동작을 수행한다.

본 발명의 제3 실시 예에 따른 명령어는, 웨이크업 명령(wakeup command)과 음성명령(voice command)을 포함한 연속적인 음성신호를 사용자로부터 마이크로폰(110)을 통해 입력받고, 웨이크업 명령에 해당하는 음성신호를 기반으로 화자 검증(speaker verification)을 수행하고, 화자검증이 성공할 시, 웨이크업 명령에 해당하는 음성신호와 음성명령에 해당하는 음성신호 사이에는 침묵구간(silence duration)을 감지하고, 음성명령에 해당하는 음성신호가 시작되는지를 확인하고, 음성명령에 해당하는 음성신호가 시작될 시, 음성인식 알고리즘을 통해 음성명령에 해당하는 음성신호 분석한다. 그리고 인식된 음성명령을 기반으로 해당 동작을 수행한다.

또한, 위에서 언급한, 그리고 이하에서 언급할, 본 발명에 따른 전자 장치의 다양한 기능들은 하나 이상의 프로세싱(processing) 및/또는 애플리케이션 특정 집적 회로(ASIC, Application Specific Integrated circuit)를 포함하는 하드웨어 및/또는 소프트웨어 및/또는 이들의 결합으로 실행될 수 있다.

도 2는 본 발명의 제1 실시 예에 따른 전자장치의 동작 흐름도를 도시하고 있다.

상기 도 2를 참조하면, 전자장치(100)는 200단계에서 아이들 모드 혹은 잠금화면 상태에서 웨이크업 명령(wakeup command)과 음성명령(voice command)을 포함한 연속적인 음성신호를 사용자로부터 마이크로폰(110)을 통해 입력받는다. 웨이크업 명령은 시스템을 활성화하기 위한 명령으로, 예를 들어, 음성명령을 입력받을 수 있는 모드로 천이시키는 명령이거나 잠금 화면을 해지시키기 위한 명령일 수 있다. 음성 명령은 전자장치가 제공하는 다양한 기능을 실행시키기 위한 명령으로써, 예를 들어, 전화 걸기, 사진 촬영, MP3 재생 기능 등등을 실행시키는 명령이다. 구현에 따라, 음성 명령은 지도검색 및 길찾기 같은 검색을 서버에 요청하기 위한 명령일 수 있다.

이후, 전자장치(100)는 202단계에서 웨이크업 명령에 해당하는 제1 음성신호를 기반으로 화자 검증(speaker verification)을 수행한다. 화자 검증은 인식 대상 화자를 검증하기 위한 것으로, 화자종속인식(speaker dependent recognition) 방식과 화자독립인식(speaker independent recognition) 방식이 있다. 화자종속인식 방식은 특정 화자 또는 사용자가 자신의 음성으로 미리 인식기를 훈련시키는 과정이 필요하며, 이 경우 인식기는 훈련된 음성만을 인식할 수 있다. 화자독립인식 방식은 임의의 화자의 발성을 인식할 수 있으며, 미리 수백 또는 수 천명의 음성에 관한 정보를 추출하여 데이터베이스화함으로써 별도의 훈련 과정 없이 어떤 사용자라도 사용가능하다.

만약, 화자종속인식 방식을 사용하는 경우, 음성명령에 대한 음성신호를 이용하여 화자검증을 수행할 수 있으므로, 별도의 웨이크업 명령을 입력할 필요가 없다. 예를 들어, 사용자의 고유한 음성 특성을 이용하여 화자검증을 수행할 경우 별도의 웨이크업 명령을 입력할 필요가 없다.

다른 구현에 따라, 다른 구현에 따라, 사용자가 음성 입력한 신호를 이용하는 화자종속인식 방식을 사용하는 경우, 기정의되었거나 사용자 설정 단어를 사용자가 여러 번 음성 입력하여 저장한 음성 신호를 이용해 화자 검증을 수행한다.

이후, 전자장치(100)는 204단계에서 화자검증이 성공할 시, 206단계로 진행하고, 화자검증이 실패할 시, 200단계로 진행한다.

도시하지 않았지만, 화자검증이 성공할 시, 잠금화면 상태에서 음성명령을 인식하기 위한 객체가 활성화되어 음성인식 관련한 GUI를 디스플레이된다(도 8 (a) 참고). 또는 구현에 따라, 화자검증이 성공할 시, 음성명령을 인식하기 위한 객체가 활성화되어, 잠금 해제 화면에 음성인식 관련한 GUI를 디스플레이될 수 있다.

또 다른 구현에 따라, 아이들 모드에서 화자 검증이 성공할 시, 잠금화면 설정되어 있다면 음성명령을 인식하기 위한 객체와 함께 음성인식 관련한 GUI가 디스플레이되고, 잠금화면 설정되어 있지 않다면 음성명령을 인식하기 위한 객체와 함께 음성인식 관련한 GUI가 디스플레이될 수 있다.

이후, 전자장치(100)는 206단계에서 웨이크업 명령에 해당하는 제1음성신호와 음성명령에 해당하는 제2 음성신호 사이에는 침묵구간(silence duration)을 감지한다. 예를 들어, 웨이크업 명령은 "하이 갤럭시"이고 음성명령이 "홍길동 전화 걸기"라고 할 때, 사용자는 "하이 갤럭시"와 "홍길동 전화 걸기"를 연속적으로 발음할 때, "하이 갤럭시"와 "홍길동 전화 걸기" 사이 침묵구간이 발생한다.

문장에서 2개 단어 사이에 휴지시간(pause)의 짧은 길이가 존재하기 때문에, 이것은 음성명령의 시작을 감지하는 데 사용할 수 있다. 웨이크업 명령의 일부 잔여 신호가 음성 명령과 함께 서버로 전송되지 않도록 하는 것이다. 이를 위해서 VAD(voice activity detection) 기술이 사용된다. 예를 들어, 음성신호는 일반적으로 침묵구간(silence)보다 더 많은 에너지를 갖는다. 하지만, 약간의 잡음이 존재하는 경우에, 사람의 음성의 특별한 특성을 식별하는 단계가 추가될 수 있다. 보통은 다양한 주파수에 걸쳐 에너지의 분포를 관찰을 통해 이루어진다. 사람의 음성은 특성 신호(characteristic signature)를 표시하지만, 잡음은 없다. 따라서 VAD 기술은 음성(speech) 과 침묵(silence)을 구별할 수 있다.

이후, 전자장치(100)는 208단계에서 음성명령에 해당하는 제2 음성신호가 시작되는지를 확인한다. 예를 들어, 208단계에서는 "홍길동 전화 걸기"라는 음성명령에 해당하는 음성신호의 시작시점을 확인한다.

이후, 전자장치(100)는 208단계에서 음성명령에 해당하는 음성신호가 시작될 시, 210단계로 진행하여 음성명령에 해당하는 음성신호(예: "홍길동 전화 걸기")를 서버로 전송한다.

반면 208단계에서 음성명령에 해당하는 음성신호가 시작되지 않을 시, 206단계로 진행한다.

이후, 전자장치(100)는 212단계에서 서버로부터 음성명령에 해당하는 음성인식 결과를 통보받는다. 예를 들어, 서버는 "홍길동 전화 걸기"라는 음성명령을 분석하여, 전자장치(100)에 홍길동 전화 걸기에 대응하는 제어신호를 전송하거나, 길찾기 혹은 지도검색 요청에 대한 검색결과를 전송한다.

이후, 전자장치(100)는 214단계에서 음성명령에 해당하는 음성인식 결과를 기반으로 해당 동작을 수행하거나 음성인식에 해당하는 결과를 디스플레이한다. 예를 들어, 홍길동 전화 걸기에 대응하는 제어신호를 서버로부터 수신할 시, 전자장치(100)는 폰북에 있는 홍길동 전화번호를 검색하여 검색된 전화번호로 호 연결을 시도한다. 또는 길찾기 혹은 지도검색 요청에 대한 검색결과를 디스플레이한다.

이후, 본 발명의 절차를 종료한다.

도 3은 본 발명의 제1 실시 예에 따른 서버의 동작 흐름도를 도시하고 있다.

상기 도 3을 참조하면, 서버는 300단계에서 전자장치로부터 음성명령에 해당하는 음성신호(예: "홍길동 전화 걸기")를 수신한다. 구현에 따라, 서버는 웨이크업 명령과 음성명령을 포함한 연속적인 음성신호 전체를 전자장치로부터 수신하여 처리할 수 있다.

이후, 서버는 302단계에서 음성인식 알고리즘을 통해 음성명령에 해당하는 음성신호 분석하고, 304단계에서 음성인식에 해당하는 결과가 제어신호인지를 판단한다.

음성인식에 해당하는 결과가 제어신호일 시 306단계로 진행하여 음성인식에 해당하는 제어신호를 전자장치로 제공한다. 예를 들어, "홍길동 전화 걸기" 인식한 후, 그에 대응하는 제어신호를 전자장치로 제공한다.

음성인식에 해당하는 결과가 제어신호가 아닐 시 308단계로 진행하여 음성인식에 해당하는 결과를 전자장치로 제공한다. 또는 길찾기 혹은 지도검색 요청에 대한 검색결과를 디스플레이한다.상술한 바와 같이, 제1 실시 예에서는 화자검증은 전자장치 내에서 수행되고 음성인식은 서버에서 수행되는 예이고, 하기 제2 실시 예는 화자검증 및 음성인식이 모두 서버에서 수행되는 예이다.

도 4는 본 발명의 제2 실시 예에 따른 전자장치의 동작 흐름도를 도시하고 있다.

상기 도 4를 참조하면, 전자장치(100)는 400단계에서 아이들 모드 혹은 잠금화면 상태에서 웨이크업 명령(wakeup command)과 음성명령(voice command)을 포함한 연속적인 음성신호를 사용자로부터 마이크로폰(110)을 통해 입력받는다. 웨이크업 명령은 시스템을 활성화하기 위한 명령으로, 예를 들어, 음성명령을 입력받을 수 있는 모드로 천이시키는 명령이거나 잠금 화면을 해지시키기 위한 명령일 수 있다. 음성 명령은 전자장치가 제공하는 다양한 기능을 실행시키기 위한 명령으로써, 예를 들어, 전화 걸기, 사진 촬영, MP3 재생 기능 등등을 실행시키는 명령이다.

이후, 전자장치(100)는 402단계에서 웨이크업 명령과 음성명령을 포함한 연속적인 음성신호 전체를 서버로 전송한다.

이후, 전자장치(100)는 404단계에서 서버로부터 웨이크업 명령에 해당하는 화자검증 결과를 통보받는다. 화자검증 성공시, 406단계로 진행하여 시스템을 활성화한다. 시스템 활성화 예는 잠금 화면을 해제하거나 아이들 모드(idle mode) 에서 액티브 모드(active mode)로 천이하는 것이다. 도시하지 않았지만, 400단계로 진행하여 다시 음성신호를 입력받는다.

이후, 전자장치(100)는 408단계에서 음성명령에 해당하는 음성인식 결과를 통보받고, 410단계에서 음성인식 결과를 기반으로 동작을 수행 하거나 음성인식에 해당하는 결과를 디스플레이한다. 예를 들어, 홍길동 전화 걸기에 대응하는 제어신호를 서버로부터 수신할 시, 전자장치(100)는 폰북에 있는 홍길동 전화번호를 검색하여 검색된 전화번호로 호 연결을 시도한다. 또는 길찾기 혹은 지도검색 요청에 대한 검색결과를 디스플레이한다.

이후, 본 발명의 실시 예를 종료한다.

도 5는 본 발명의 제2 실시 예에 따른 서버의 동작 흐름도를 도시하고 있다.

상기 도 5를 참조하면, 서버는 500단계에서 웨이크업 명령(wakeup command)과 음성명령(voice command)을 포함한 연속적인 음성신호를 전자장치로부터 수신한다.

이후, 서버는 502단계에서 화자검증 알고리즘을 통해 웨이크업 명령에 해당하는 음성신호를 분석한다. 즉, 웨이크업 명령에 해당하는 음성신호를 분석하여 화자검증이 성공인지 실패인지를 판단한다.

이후, 서버는 504단계에서 화자검증에 대한 결과를 전자장치로 제공한다.

이후, 서버는 506단계에서, 화자 검증 성공 시, 508단계로 진행하여 음성인식 알고리즘을 통해 음성명령에 해당하는 음성신호를 분석한다. 즉, 음성명령에 해당하는 음성을 인식한다. 반면, 화자 검증 실패 시, 500단계로 진행하여 전자장치에 웨이크업 명령과 음성명령을 포함하는 음성신호를 요청하여 다시 수신한다. 구현에 따라, 이전 음성명령에 해당하는 음성신호가 정상이면 웨이크업 명령에 해당하는 제1 음성신호만을 요청하여 수신할 수 있다.

도시하지 않았지만, 서버는 웨이크업 명령에 해당하는 음성신호와 음성명령에 해당하는 음성신호 사이에는 침묵구간(silence duration)을 감지하여, 웨이크업 명령과 음성명령을 구분한다.

이후, 서버는 510단계에서 화자검증 결과 및 음성인식 결과를 전자장치로 통보한다. 예를 들어, 서버는 "하이 갤럭시"라는 웨이크업 명령을 분석하여 화자검증 성공 여부와 "홍길동 전화 걸기"라는 음성명령을 분석하여, 전자장치(100)에 홍길동 전화 걸기에 대응하는 제어신호를 전송한다.

이후, 본 발명의 절차를 종료한다.

하기 도 6의 제3 실시 예에는 전자장치가 화자검증 및 음성인식을 수행하는 예이다.

도 6은 본 발명의 제3 실시 예에 따른 전자장치의 동작 흐름도를 도시하고 있다.

상기 도 6을 참조하면, 전자장치(100)는 600단계에서 아이들 모드 혹은 잠금화면 상태에서 웨이크업 명령(wakeup command)과 음성명령(voice command)을 포함한 연속적인 음성신호를 사용자로부터 마이크로폰(110)을 통해 입력받는다. 웨이크업 명령은 시스템을 활성화하기 위한 명령으로, 예를 들어, 음성명령을 입력받을 수 있는 모드로 천이시키는 명령이거나 잠금 화면을 해지시키기 위한 명령일 수 있다. 음성 명령은 전자장치가 제공하는 다양한 기능을 실행시키기 위한 명령으로써, 예를 들어, 전화 걸기, 사진 촬영, MP3 재생 기능 등등을 실행시키는 명령이다.

이후, 전자장치(100)는 602단계에서 웨이크업 명령에 해당하는 음성신호를 기반으로 화자 검증(speaker verification)을 수행한다. 화자 검증은 인식 대상 화자를 검증하기 위한 것으로, 화자종속인식(speaker dependent recognition) 방식과 화자독립인식(speaker independent recognition) 방식이 있다.

이후, 전자장치(100)는 604단계에서 화자검증이 성공할 시, 606단계로 진행하고, 화자검증이 실패할 시, 600단계로 진행한다.

이후, 전자장치(100)는 606단계에서 웨이크업 명령에 해당하는 음성신호와 음성명령에 해당하는 음성신호 사이에는 침묵구간(silence duration)을 감지한다. 예를 들어, 웨이크업 명령은 "하이 갤럭시"이고 음성명령이 "홍길동 전화 걸기"라고 할 때, 사용자는 "하이 갤럭시"와 "홍길동 전화 걸기"를 연속적으로 발음할 때, "하이 갤럭시"와 "홍길동 전화 걸기" 사이 침묵구간이 발생한다.

이후, 전자장치(100)는 608단계에서 음성명령에 해당하는 음성신호가 시작되는지를 확인한다. 예를 들어, 608단계에서는 "홍길동 전화 걸기"라는 음성명령에 해당하는 음성신호의 시작시점을 확인한다.

이후, 전자장치(100)는 608단계에서 음성명령에 해당하는 음성신호가 시작될 시, 610단계로 진행하여 음성인식 알고리즘을 통해 음성명령에 해당하는 음성신호 분석한다.

이후, 전자장치(100)는 612단계에서, 인식된 음성명령을 기반으로 해당 동작을 수행한다. 예를 들어, 인식된 음성명령이 "홍길동 전화 걸기"일 때, 전자장치(100)는 폰북에 있는 홍길동 전화번호를 검색하여 검색된 전화번호로 호 연결을 시도한다.

이후, 본 발명의 절차를 종료한다.

도 7은 본 발명의 실시 예에 따른 웨이크업 명령 및 음성명령을 포함하는 음성신호 예를 도시하고 있다.

상기 도 7을 참조하면, 웨이크업 명령에 해당하는 음성신호(700) 및 음성명령에 해당하는 음성신호(720)가 연속적으로 전자장치에 입력된다. 웨이크업 명령에 해당하는 음성신호(700)와 음성명령에 해당하는 음성신호(720) 사이에는 침묵구간(silence duration)이 존재한다.

도 8은 본 발명의 실시 예에 따른 웨이크업 명령 및 음성명령을 포함하는 음성신호를 이용하여 전화 걸기를 수행하는 예이다.

상기 도 8을 참조하면, 웨이크업 명령에 해당하는 음성신호(700)에 따라 음성명령을 인식하기 위한 아이콘 객체(800)가 활성화되고(a), 이후 웨이크업 명령에 해당하는 음성신호(700) 다음의 음성명령(예: 홍길동 전화 걸기)에 해당하는 음성신호(720)가 인식되고(b), 음성명령에 따라 동작이 수행된다. 예를 들어, 폰북 내의 홍길동 전화번호가 검색되어 검색된 전화번호로 호 연결이 자동으로 시작된다(c).

도 9는 본 발명의 실시 예에 따른 화자검증을 통해 잠금 화면을 해지하는 예를 도시하고 있다.

상기 도 9를 참조하면, 웨이크업 명령에 해당하는 음성신호(700)에 따라 잠금화면(a)이 잠금 해제 화면(b)으로 전환된다. 도시하지 않았지만, 잠금 해제 화면이후에 웨이크업 명령에 해당하는 음성신호(700) 다음의 음성명령(예: 홍길동 전화 걸기)에 해당하는 음성신호(720)가 인식되어 해당 동작이 수행될 수 있다.

한편 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

제어기: 100
인터페이스: 101
애플리케이션 프로세서: 102
통신 프로세서: 103
RF 처리기: 140
센서모듈: 150
확장 메모리: 170

Claims

웨이크업 명령과 음성명령을 포함하는 음성신호를 입력받는 과정과,
제1 음성인식 알고리즘을 통해 웨이크업 명령에 해당하는 음성신호를 기반으로 화자검증을 수행하는 과정과,
화자검증 성공시, 상기 음성명령에 해당하는 음성신호를 서버로 제공하는 과정과,
상기 서버에서 제2 음성인식 알고리즘을 통해 음성인식된 음성명령에 해당하는 제어신호를 수신하는 과정과,
상기 음성명령에 해당하는 제어신호에 따라 상기 전자장치를 제어하는 과정을 포함하는 음성명령을 실행시키기 위한 방법.
제1항에 있어서,
화자검증 실패시, 웨이크업 명령과 음성명령을 포함하는 음성신호를 재입력받는 과정을 더 포함하는 음성명령을 실행시키기 위한 방법.
제1항에 있어서,
VAD(voice activity detection) 기술을 이용하여, 상기 웨이크업 명령에 해당하는 음성신호와 상기 음성명령에 해당하는 음성신호 사이의 침묵구간을 결정하는 과정과,
전체 음성신호로부터 상기 음성명령에 해당하는 음성신호를 추출하는 과정을 더 포함하는 음성명령을 실행시키기 위한 방법.
음성명령을 포함하는 음성신호를 수신하는 과정과,
제2 음성인식 알고리즘을 통해 음성인식된 음성명령에 해당하는 제어신호를 생성하는 과정과,
상기 음성명령에 해당하는 제어신호를 전자장치로 전송하는 과정을 포함하는 음성명령을 실행시키기 위한 방법.