KR102693751B1

KR102693751B1 - 전자 장치 및 그의 제어 방법

Info

Publication number: KR102693751B1
Application number: KR1020180165549A
Authority: KR
Inventors: 신재선; 조준래; 이정만
Original assignee: 삼성전자주식회사
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2024-08-13
Also published as: KR20200076441A; WO2020130383A1; US20220028377A1; US11908464B2

Abstract

전자 장치 및 이의 제어 방법이 제공된다. 본 전자 장치는 통신부 및 각각 마이크를 구비하며 서로 다른 장소에 위치하는 복수의 외부 전자 장치가 마이크를 통해 획득한 복수의 오디오 신호를 통신부를 통해 수신하고, 복수의 오디오 신호 중에서 사용자가 발화한 사용자 음성을 포함하는 적어도 하나의 오디오 신호를 판단하고, 판단된 오디오 신호 중에서 판단된 오디오 신호의 세기에 기초하여 획득된 오디오 신호에 대한 음성 인식을 수행하는 프로세서를 포함한다.

Description

전자 장치 및 그의 제어 방법 {ELECTRONIC APPARATUS AND CONTROL METHOD THEREOF}

본 개시는 전자 장치 및 그 제어 방법으로, 더욱 상세하게는 외부의 전자 장치와 통신을 수행하면서 외부의 전자 장치로부터 오디오 신호를 수신하는 전자 장치에 관한 발명이다.

음성인식기술이 발전함에 따라, 음성인식기술을 탑재한 전자 장치들이 증가하고 있다. 음성인식기술을 탑재한 전자 장치는 사용자가 발화한 음성 명령(command)를 입력으로 받아 사용자의 음성에 따른 기능을 실행하도록 동작한다.

사용자의 음성 명령을 수신하기 위하여 음성인식기술을 탑재한 전자 장치는 마이크를 포함할 수 있으며, 마이크를 통하여 사용자의 음성을 수신하게 된다. 그러나, 마이크와 사용자의 거리가 멀어질수록 사용자 음성에 대한 인식률은 낮아지게 된다.

음성인식기술을 탑재한 전자 장치의 사용자 음성에 대한 인식률을 향상시키기 위하여 전자 장치에 복수의 마이크를 배치하는 방법을 고려해볼 수 있으나, 이 경우 복수의 마이크 간에 간섭 현상이 발생할 우려가 있다.

또한, 전자 장치와 연결된 복수의 마이크를 원거리에 설치하는 방법을 고려해볼 수 있으나, 이 경우 마이크는 항상 전원이 ON인 상태를 유지하여야 한다는 점에서, 복수의 마이크는 전원 공급단 근처에 배치되어야 하는 단점이 있다. 이를 극복하기 위하여 전자 장치와 연결된 복수의 마이크가 건전지나 충전지와 같은 배터리를 이용하여 동작하는 방안을 고려해볼 수도 있으나, 이 경우에도 배터리를 주기적으로 교체하거나 충전해야 한다는 단점이 있다.

본 개시는 상술한 필요성에 따른 것으로, 본 개시의 목적은 마이크를 포함하고 에너지 하베스팅을 통하여 외부 에너지를 전기 에너지로 변환하는 외부 전자 장치를 이용하여 사용자 음성 신호를 수신하는 전자 장치 및 이의 제어 방법을 제공함에 있다.

본 개시의 일 실시 예에 따른 전자 장치는, 통신부; 및 각각 마이크를 구비하며 서로 다른 장소에 위치하는 복수의 외부 전자 장치가 마이크를 통해 획득한 복수의 오디오 신호를 상기 통신부를 통해 수신하고, 상기 복수의 오디오 신호 중에서 사용자가 발화한 사용자 음성을 포함하는 적어도 하나의 오디오 신호를 판단하고, 상기 판단된 오디오 신호 중에서 상기 판단된 오디오 신호의 세기에 기초하여 획득된 오디오 신호에 대한 음성 인식을 수행하는 프로세서;를 포함한다.

그리고, 상기 프로세서는, 상기 복수의 오디오 신호의 신호 패턴에 기초하여 상기 복수의 오디오 신호 중에서 상기 사용자가 발화한 사용자 음성을 포함하는 적어도 하나의 오디오 신호를 판단할 수 있다.

여기에서, 상기 프로세서는, 상기 복수의 오디오 신호 중에서 서로 유사한 신호 패턴을 갖는 오디오 신호를 상기 사용자가 발화한 사용자 음성을 포함하는 오디오 신호인 것으로 판단할 수 있다.

또한, 상기 프로세서는, 상기 복수의 오디오 신호 중에서 기설정된 크기 이상의 오디오 신호를 상기 통신부를 통해 외부 서버로 전송하고, 상기 외부 서버로부터 수신된 정보에 기초하여 상기 복수의 오디오 신호 중에서 상기 사용자가 발화한 사용자 음성을 포함하는 적어도 하나의 오디오 신호를 판단할 수 있다.

그리고, 상기 프로세서는, 상기 판단된 오디오 중에서 가장 큰 세기를 갖는 오디오 신호에 대해 음성 인식을 수행할 수 있다.

또한, 상기 프로세서는, 상기 판단된 오디오 신호의 세기에 기초하여 획득된 오디오 신호에서 노이즈를 제거하고, 상기 노이즈가 제거된 오디오 신호에 대해 음성 인식을 수행할 수 있다.

그리고, 상기 프로세서는, 상기 복수의 외부 전자 장치 중에서 상기 음성 인식이 수행된 오디오 신호를 전송한 외부 전자 장치의 위치에 기초하여 상기 사용자의 위치를 판단하고, 상기 판단된 사용자의 위치에 기초하여 상기 음성 인식에 따른 서비스를 제공할 수 있다.

또한, 상기 복수의 외부 전자 장치는, 에너지 하베스팅을 통해 외부의 에너지를 전기 에너지로 변환하고, 상기 전기 에너지를 이용하여 상기 복수의 외부 전자 장치에 전원을 공급할 수 있다.

한편, 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은 각각 마이크를 구비하며 서로 다른 장소에 위치하는 복수의 외부 전자 장치가 마이크를 통해 획득한 복수의 오디오 신호를 수신하는 단계; 상기 복수의 오디오 신호 중에서 사용자가 발화한 사용자 음성을 포함하는 적어도 하나의 오디오 신호를 판단하는 단계; 및 상기 판단된 오디오 신호 중에서 상기 판단된 오디오 신호의 세기에 기초하여 획득된 오디오 신호에 대한 음성 인식을 수행하는 단계를 포함한다.

또한, 상기 오디오 신호를 판단하는 단계는, 상기 복수의 오디오 신호의 신호 패턴에 기초하여 상기 복수의 오디오 신호 중에서 상기 사용자가 발화한 사용자 음성을 포함하는 적어도 하나의 오디오 신호를 판단하는 단계;를 포함할 수 있다.

여기에서, 상기 오디오 신호를 판단하는 단계는, 상기 복수의 오디오 신호 중에서 서로 유사한 신호 패턴을 갖는 오디오 신호를 상기 사용자가 발화한 사용자 음성을 포함하는 오디오 신호인 것으로 판단하는 단계;를 포함할 수 있다.

그리고, 상기 오디오 신호를 판단하는 단계는, 상기 복수의 오디오 신호 중에서 기설정된 크기 이상의 오디오 신호를 외부 서버로 전송하는 단계; 및 상기 외부 서버로부터 수신된 정보에 기초하여 상기 복수의 오디오 신호 중에서 상기 사용자가 발화한 사용자 음성을 포함하는 적어도 하나의 오디오 신호를 판단하는 단계;를 포함할 수 있다.

또한, 상기 음성 인식을 수행하는 단계는, 상기 판단된 오디오 신호 중에서 가장 큰 세기를 갖는 오디오 신호에 대해 음성 인식을 수행하는 단계;를 포함할 수 있다.

그리고, 상기 음성 인식을 수행하는 단계는, 상기 판단된 오디오 신호의 세기에 기초하여 획득된 오디오 신호에서 노이즈를 제거하는 단계; 및 상기 노이즈가 제거된 오디오 신호에 대해 음성 인식을 수행하는 단계;를 포함할 수 있다.

또한, 상기 복수의 외부 전자 장치 중에서 상기 음성 인식이 수행된 오디오 신호를 전송한 외부 전자 장치의 위치에 기초하여 상기 사용자의 위치를 판단하는 단계; 및 상기 판단된 사용자의 위치에 기초하여 상기 음성 인식 결과에 따른 서비스를 제공하는 단계;를 더 포함할 수 있다.

그리고, 상기 복수의 외부 전자 장치는, 에너지 하베스팅을 통해 외부의 에너지를 전기 에너지로 변환하고, 상기 전기 에너지를 이용하여 상기 복수의 외부 전자 장치에 전원을 공급할 수 있다.

상술한 바와 같이, 마이크를 포함하고 에너지 하베스팅을 통해 외부 에너지를 전기 에너지로 변환하는 외부 전자 장치와 통신을 수행하여 사용자 음성 신호를 수신함으로서, 전자 장치는 공간의 제약 없이 사용자가 원거리에 존재하는 경우에도 사용자 음성 신호를 수신할 수 있다. 그리고, 외부 전자 장치는 외부 에너지를 전기 에너지로 변환하고 변환된 전기 에너지를 이용하여 사용자 음성을 수신한다는 점에서, 콘센트 등의 제약이 없이 사용자 편의에 따라 설치될 수 있다. 이에 따라, 사용자는 공간의 제약 없이 원하는 곳에 외부 전자 장치를 설치함으로써 거리의 제한 없이 전자 장치에 음성 명령을 전달할 수 있다.

도 1은 본 개시의 다양한 실시 예에 따른, 외부 전자 장치 및 전자 장치를 포함하는 시스템을 설명하기 위한 도면,
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 도시한 블록도,
도 3은 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 도면,
도 4a는 본 개시의 일 실시 예에 따른 노이즈 및 음성을 포함하는 음성 신호를 도시한 도면,
도 4b는 본 개시의 일 실시 예에 따른 노이즈가 제거된 음성 신호를 도시한 도면,
도 5는 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 도면,
도 6은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 상세하게 설명하기 위한 블록도 및
도 7은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.　

본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 개시의 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시 예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.

본 개시에서 "a, b 또는 c 중 적어도 하나"는 a만, b만, c만, a 와 b 모두, a와 c 모두, b와 c 모두, a, b 및 c 모두 또는 이들의 변형을 나타내는 것으로 해석될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.　그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 개시의 실시 예들에 따른 애플리케이션(application)은 컴퓨터용 OS(Operating System) 또는 모바일 OS 위에서 실행되어 사용자가 사용하는 소프트웨어를 의미한다. 예를 들어, 애플리케이션은 웹 브라우저(web browser), 카메라 애플리케이션, 모바일 결제(mobile payment) 애플리케이션(또는, 전자 결제 애플리케이션, 결제 애플리케이션), 포토 앨범(photo album) 애플리케이션, 워드 프로세서(word processor), 스프레드 시트(spread sheet), 연락처(contacts) 애플리케이션, 캘린더(calendar) 애플리케이션, 메모(memo) 애플리케이션, 알람(alarm) 애플리케이션, SNS(Social Network System) 애플리케이션, 통화 애플리케이션(call), 게임 장터(game store), 게임 애플리케이션(game), 채팅(chatting) 애플리케이션, 지도(Map) 애플리케이션, 뮤직 플레이어(music player) 또는 비디오 플레이어(video player) 등을 포함할 수 있다.

본 개시의 실시 예들에 따른 애플리케이션은 전자장치 또는 전자장치와 무선 또는 유선으로 연결되는 외부 장치(예를 들어, 웨어러블 장치, 서버 등)에서 실행되는 소프트웨어를 의미할 수 있다.

본 개시의 다양한 실시 예들에 따른 전자 장치는, 예를 들면, 스마트폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 영상 전화기, 전자책 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), 워크스테이션(workstation), 서버, PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 또는 웨어러블 장치(wearable device) 중 적어도 하나를 포함할 수 있다. 다양한 실시 예에 따르면, 웨어러블 장치는 액세서리형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형(예: 전자 의복), 신체 부착형(예: 스킨 패드(skin pad) 또는 문신), 또는 생체 이식형(예: implantable circuit) 중 적어도 하나를 포함할 수 있다.

어떤 실시 예들에서, 전자 장치는 가전 제품(home appliance)일 수 있다. 가전 제품은, 예를 들면, 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스(set-top box), 홈 오토매이션 컨트롤 패널(home automation control panel), 보안 컨트롤 패널(security control panel), TV 박스(예: 삼성 HomeSync^TM, 애플TV^TM, 또는 구글 TV^TM, 게임 콘솔(예: Xbox^TM, PlayStation^TM, 전자 사전, 전자 키, 캠코더(camcorder), 또는 전자 액자 중 적어도 하나를 포함할 수 있다.

다른 실시 예에서, 전자 장치는, 각종 의료기기(예: 각종 휴대용 의료측정기기(혈당 측정기, 심박 측정기, 혈압 측정기, 또는 체온 측정기 등), MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 또는 초음파기 등), 네비게이션(navigation) 장치, 위성 항법 시스템(GNSS(global navigation satellite system)), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트(infotainment) 장치, 선박용 전자 장비(예: 선박용 항법 장치, 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛(head unit), 산업용 또는 가정용 로봇, 금융 기관의 ATM(automatic teller's machine), 상점의 POS(point of sales), 또는 사물 인터넷 장치(internet of things)(예: 전구, 각종 센서, 전기 또는 가스 미터기, 스프링클러 장치, 화재경보기, 온도조절기(thermostat), 가로등, 토스터(toaster), 운동기구, 온수탱크, 히터, 보일러 등) 중 적어도 하나를 포함할 수 있다.

어떤 실시 예에 따르면, 전자 장치는 가구(furniture) 또는 건물/구조물의 일부, 전자 보드(electronic board), 전자 사인 수신 장치(electronic signature receiving device), 프로젝터(projector), 또는 각종 계측 기기(예: 수도, 전기, 가스, 또는 전파 계측 기기 등) 중 적어도 하나를 포함할 수 있다. 다양한 실시 예에서, 전자 장치는 전술한 다양한 장치들 중 하나 또는 그 이상의 조합일 수 있다. 어떤 실시 예에 따른 전자 장치는 플렉서블 전자 장치일 수 있다. 또한, 본 문서의 실시 예에 따른 전자 장치는 전술한 기기들에 한정되지 않으며, 기술 발전에 따른 새로운 전자 장치를 포함할 수 있다.

이하에서는 도면을 참조하면 본 개시의 다양한 실시 예들에 대하여 구체적으로 설명하도록 한다.

도 1은 본 개시의 다양한 실시 예에 따른, 전자 장치 및 외부 전자 장치를 포함하는 시스템을 설명하기 위한 도면이다.

도 1에 도시된 바와 같이, 시스템(1000)은 전자 장치(100) 및 외부 전자 장치(210 내지 240)를 포함할 수 있다.

전자 장치(100) 및 외부 전자 장치(210 내지 240)은 서로 다른 공간에 위치할 수 있다. 가령, 전자 장치(100)는 거실에 존재하고, 외부 전자 장치(210)는 방 1에, 외부 전자 장치(220)는 방 2에, 외부 전자 장치(230)는 방 3에 그리고 외부 전자 장치(240)는 방 4에 위치할 수 있다.

전자 장치(100)는 서로 다른 공간에 존재하는 외부 전자 장치(210 내지 240)와 네트워크를 통해 서로 통신 연결될 수 있다. 예를 들어, 전자 장치(100) 및 외부 전자 장치(210 내지 240)는 다양한 통신 네트워크를 이용하여 D2D(device to device) 통신 방식으로 통신을 수행할 수 있다. 또는, 전자 장치(100)는 서버(미도시)를 통하여 외부 전자 장치(210 내지 240)과 통신을 수행할 수도 있다. 이 경우, 전자 장치(100) 및 외부 전자 장치(210 내지 240)는 게이트웨이(미도시)를 통해 서버(미도시)와 통신을 수행할 수도 있다. 이와 같은 방법으로, 전자 장치(100)는 외부 전자 장치(210 내지 240)로부터 다양한 데이터를 송수신할 수 있다.

특히, 전자 장치(100)는 서로 다른 장소에 위치하는 외부 전자 장치(210 내지 240)로부터 오디오 신호를 수신할 수 있다. 여기에서 오디오 신호는 외부 전자 장치(210 내지 240)가 수집한 소리를 포함하는 신호로, 사용자 음성이 포함된 사용자 음성 신호 또는 주변의 소음, 음악 등이 포함된 오디오 신호를 포함할 수 있다. 한편, 사용자 음성이 포함된 사용자 음성 신호에도 주변의 소음 등과 같은 노이즈가 포함되어 있을 수 있다.

외부 전자 장치(210 내지 240)는 전자 장치(100)에 오디오 신호를 전송하기 위하여, 마이크를 구비하여 외부 전자 장치(210 내지 240) 주변의 소리를 획득할 수 있다. 외부 전자 장치(210 내지 240)는 획득된 소리를 오디오 신호로 변환할 수 있다. 외부 전자 장치(210 내지 240)는 마이크를 통해 획득한 복수의 오디오 신호를 전자 장치(100)로 전송할 수 있다.

이때 복수의 외부 전자 장치(210 내지 240)는 에너지 하베스팅 통하여 외부 에너지를 획득하여 이를 전기 에너지로 변환할 수 있으며, 변환된 전기 에너지를 이용하여 복수의 외부 전자 장치(210 내지 240)에 전원을 공급할 수 있다. 예를 들어, 외부 전자 장치(210 내지 240)는 에너지 하베스팅을 통하여 태양열 에너지를 전기 에너지로 변환할 수 있으며 변환된 전기 에너지를 이용하여 외부 전자 장치(210 내지 240) 주변의 소리를 획득할 수 있고 이를 전자 장치(100)에 전송할 수 있다.

전자 장치(100)는 외부 전자 장치(210 내지 240)로부터 수신된 오디오 신호 중에서 사용자가 발화한 사용자 음성을 포함하는 적어도 하나의 오디오 신호를 판단할 수 있다. 그리고, 전자 장치(100)는 사용자 음성이 포함된 적어도 하나의 오디오 신호 중에서 음성 인식을 수행할 오디오 신호를 선택할 수 있다.

가령, 도 1에 도시된 바와 같이 사용자가 'Hi, Bixby"라고 발화한 경우, 사용자와 가까운 외부 전자 장치(210 및 220)가 사용자 음성을 수신할 수 있다. 이 경우, 전자 장치(100)는 외부 전자 장치(210 내지 240)로부터 수신된 오디오 신호 중에서 외부 전자 장치(210 및 220)로부터 수신된 오디오 신호에 사용자 음성 신호가 포함되어 있다는 것을 식별할 수 있으며, 외부 전자 장치(210 및 220)로부터 수신된 복수의 오디오 신호 중에서 음성 인식을 수행할 오디오 신호를 선택할 수 있다. 전자 장치(100)는 사용자와 가장 가까운 위치에 있어 오디오 신호의 세기가 가장 큰 외부 전자 장치(210)로부터 수신한 오디오 신호에 대하여 음성 인식을 수행하거나, 사용자 음성을 포함하는 모든 오디오 신호(즉, 외부 전자 장치(210 및 22)로부터 수신한 오디오 신호)에 대하여 음성 인식을 수행할 수 있다. 다만, 이는 일 실시 예이며, 반드시 이에 한정되는 것은 아니다. 가령, 오디오 신호의 세기가 기설정된 크기 이상인 오디오 신호에 대하여 음성 인식을 수행할 수 있다.

한편, 전자 장치(100)는 선택된 오디오 신호에 대하여 음성 인식을 수행할 수 있다. 구체적으로, 전자 장치(100)는 전자 장치(100)에 저장된 음성 인식 엔진을 통해 선택된 오디오 신호에 대한 음성 인식을 수행할 수 있다. 여기에서, 음성 인식 엔진은 사용자의 음성을 텍스트로 변환하기 위한 ASR(Automatic Speech Recognition) 엔진과 ASR 엔진의 인식 결과로부터 사용자 발화의 의미를 추출하기 위한 NLU(Natural Language Understanding) 엔진을 포함할 수 있다. 즉, 전자 장치(100)는 음성 인식을 수행하기 위하여 ASR 엔진 및 NLU 엔진을 포함할 수 있다.

이와 같이, 전자 장치(100)는 외부 전자 장치(210 내지 240)을 이용하여 원거리에 존재하는 사용자의 음성 명령을 수신할 수 있으며, 사용자의 음성을 음성 인식하여 사용자의 음성에 따른 서비스를 사용자에게 적절하게 제공할 수 있다.

도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 도시한 블록도이다.

도 2에 도시된 바와 같이, 전자 장치(100)는 통신부(110) 및 프로세서(120)를 포함한다.

통신부(110)는 외부 전자 장치(210 내지 240)와 통신을 수행할 수 있다. 이에 따라, 통신부(110)는 외부 전자 장치(210 내지 240)와 데이터를 송수신할 수 있다.

통신부(110)는 외부 전자 장치(210 내지 240)로부터 수신된 오디오 신호에 노래가 포함되어 있는지 판단하기 위하여 오디오 신호를 서버(미도시)에 전송할 수 있는데, 이 경우 통신부(110)는 서버(미도시)와 통신을 수행할 수 있다.

또한, 전자 장치(100)에 포함된 음성 인식 엔진이 음성 인식 서버(미도시)로 구현된 경우, 통신부(110)는 음성 인식 서버(미도시)와 통신을 수행할 수도 있다. 이 경우, 통신부(110)는 외부 전자 장치(210 내지 240)로부터 수신된 오디오 신호 중 사용자 음성이 포함된 오디오 신호를 음성 인식 서버(미도시)에 전송할 수 있고, 음성 인식 서버(미도시)로부터 음성 인식 결과에 대한 데이터를 수신할 수 있다.

이를 위해, 통신부(110)는 유선 통신 모듈(미도시), 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다.

여기에서 유선 통신 모듈은 유선 이더넷(Ethernet)과 같이 유선 통신 방식에 따라 외부 전자 장치(210 내지 240) 및 서버(미도시)와 통신을 수행하기 위한 모듈이다. 그리고, 근거리 무선 통신 모듈이란 블루투스(Bluetooth, BT), BLE(Bluetooth Low Energy), ZigBee 방식 등과 같은 근거리 무선 통신 방식에 따라 근거리에 위치한 외부 전자 장치(210 내지 240)과 통신을 수행하기 위한 모듈이다. 또한, 무선 통신 모듈은 WiFi, IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 외부 전자 장치(210 내지 240) 및 서버(미도시)와 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP (3rd Generation Partnership Project), LTE(Long Term Evolution), LTE-A(LTE Advanced), 5세대 네트워크(5G Networks) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.

한편, 통신부(110)는 외부 전자 장치(210 내지 240) 및 서버(미도시) 뿐만 아니라, TV, 에어컨 등과 같은 전자 장치(미도시)와 통신을 수행할 수도 있다. 통신부(110)는 상술한 유선 통신 모듈(미도시), 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시)를 이용하여 사용자 음성에 대한 음성 인식 결과 데이터를 전자 장치(미도시)에 전송할 수 있다.

프로세서(120)는 전자 장치(100)의 전반적인 동작 및 전자 장치(100)의 내부 구성요소들 사이의 신호 흐름을 제어하고, 데이터를 처리하기 위한 구성이다. 구체적으로, 프로세서(120)는 전자 장치(100)에 포함된 각종 하드웨어 또는 소프트웨어의 구성요소들을 제어할 수 있고, 각종 데이터 처리 및 연산을 수행할 수 있다. 또한, 프로세서(120)는 다른 구성요소들 중 적어도 하나로부터 수신된 명령 또는 데이터를 메모리에 로드하여 처리하고, 다양한 데이터를 비휘발성 메모리에 저장할 수 있다. 이를 위해, 프로세서(120)는 해당 동작을 수행하기 위한 전용 프로세서(예를 들면, 임베디드 프로세서)로 구현되거나, 또는 메모리 디바이스에 저장된 하나 이상의 소프트웨어 프로그램을 실행함으로써 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)로 구현될 수 있다.

본 개시의 일 실시 예에서, 프로세서(120)는 서로 다른 장소에 위치하는 복수의 외부 전자 장치(210 내지 240)가 마이크를 통해 획득한 복수의 오디오 신호를 통신부(110)를 통해 수신하고, 복수의 오디오 신호 중에서 사용자가 발화한 사용자 음성을 포함하는 적어도 하나의 오디오 신호를 판단할 수 있다.

프로세서(120)는 복수의 외부 전자 장치(210 내지 240)로부터 수신된 오디오 신호 중에서 사용자 음성이 포함된 오디오 신호와 사용자 음성이 포함되지 않은 오디오 신호를 식별하고, 일정한 기준에 따라 사용자 음성이 포함된 오디오 신호를 판단할 수 있다. 여기에서 사용자 음성이 포함되지 않은 오디오 신호는 주변의 소음, 음악 등이 포함된 오디오 신호일 수 있다.

프로세서(120)는 복수의 오디오 신호의 신호 패턴에 기초하여 복수의 오디오 신호 중에서 사용자가 발화한 사용자 음성을 포함하는 오디오 신호를 판단할 수 있다.

구체적으로, 프로세서(120)는 복수의 외부 전자 장치(210 내지 240)로부터 수신한 복수의 오디오 신호 중에서 서로 유사한 패턴을 갖는 오디오 신호를 사용자가 발화한 음성을 포함하는 오디오 신호인 것으로 판단할 수 있다. 여기에서 유사한 패턴이라 함은, 기설정된 시간동안 오디오 신호의 주파수 특성이 유사한 것을 나타낼 수 있다. 여기에서 주파수 특성은 주파수의 주기, 주파수의 고저, 주파수의 형태 등을 나타내는 것으로 통상의 기술자가 이해할 수 있는 범위 내의 모든 것을 포함한다.

예를 들어, 프로세서(120)는 수신된 복수의 오디오 신호 중에서 신호의 세기가 가장 큰 오디오 신호를 선택하고, 선택된 신호의 주파수의 형태가 기설정된 시간동안 유사한 것으로 판단되면, 프로세서(120)는 서로 유사한 패턴을 갖는 오디오 신호를 사용자가 발화한 음성을 포함하는 오디오 신호인 것으로 판단할 수 있다.

한편, 또 다른 실시 예로, 프로세서(120)는 사용자의 트리거 발화를 이용하여 사용자 음성을 포함하는 오디오 신호를 판단할 수도 있다. 여기에서, 트리거 발화는 사용자가 음성 명령을 발화하기 이전에 발화하는 것으로, 프로세서(120)는 트리거 발화를 통하여 트리거 발화를 포함하는 사운드 신호가 사용자 음성 명령을 포함하는 신호임을 판단할 수 있다.

가령, 트리거 발화가 'Hi, Bixby'인 경우, 즉, 사용자가 'Hi, Bixby'를 발화한 다음에 음성 명령(예를 들면, 'TV 켜 줘')을 발화한 경우, 프로세서(120)는 트리거 발화'Hi, Bixby'에 대응되는 신호를 식별하고, 그 이후에 기 설정된 시간 이내에 연달아 발생된 사운드 신호를 사용자 음성을 포함하는 오디오 신호로 판단할 수 있다.

즉, 프로세서(120)는 복수의 외부 전자 장치(210 내지 240)로부터 수신한 복수의 오디오 신호 중에서 서로 동일한 트리거 발화 신호를 포함하면서 서로 유사한 패턴을 갖는 오디오 신호를 사용자가 발화한 음성을 포함하는 오디오 신호인 것으로 판단할 수도 있다.

또 다른 실시 예로 도 3을 참조하면, 프로세서(120)는 외부 서버(300)를 이용하여 사용자 음성을 포함하는 오디오 신호를 판단할 수도 있다.

도 3 에는 외부 전자 장치(210)가 위치한 공간에서 사용자가 음성 명령을 발화하고, 외부 전자 장치(230)가 위치한 공간에 존재하는 스피커에서 노래가 재생되어, 프로세서(120)가 외부 전자 장치(210) 및 외부 전자 장치(230)로부터 사용자 음성을 포함하는 사운드 신호 및 노래를 포함하는 사운드 신호를 수신한 경우가 도시되어 있다.

이 경우, 프로세서(120)는 복수의 외부 전자 장치(210 내지 240)로부터 수신한 복수의 오디오 신호 중에서 기설정된 크기 이상의 오디오 신호를 통신부(110)를 통해 외부 서버(300)로 전송할 수 있다. 구체적으로, 기설정된 크기 미만의 오디오 신호는 노이즈일 가능성이 높다는 점에서, 프로세서(120)는 기설정된 크기 이상의 오디오 신호만을 외부 서버(300)에 전송할 수 있다.

도 3의 경우, 프로세서(120)는 외부 전자 장치(210 내지 240)로부터 수신된 사운드 신호 중에서 외부 전자 장치(210)로부터 수신된 사운드 신호(즉, 사용자 음성이 포함된 사운드 신호) 및 외부 전자 장치(230)로부터 수신된 사운드 신호(즉, 노래가 포함된 사운드 신호)가 기설정된 크기 이상의 오디오 신호라고 판단하여 이들을 외부 서버(300)에 전송할 수 있다.

이 때, 외부 서버(300)는 전자 장치(100)로부터 수신한 사운드 신호 중에서 외부 전자 장치(230)로부터 수신된 사운드 신호(즉, 노래가 포함된 사운드 신호)를 노이즈로 판단할 수 있다.

구체적으로, 외부 서버(300)는 수신된 적어도 하나의 사운드 신호를 외부 서버(300)에 저장된 노래 정보와 비교하여 사운드 신호에 노래가 포함되어 있는지 여부를 판단할 수 있다.

외부 서버(300)는 판단 결과를 전자 장치(100)에 전송할 수 있다. 구체적으로, 외부 서버(300)는 전자 장치(100)로부터 수신된 오디오 신호 각각에 대하여 노래가 포함되어 있는지 여부를 포함하는 판단 결과를 전자 장치(100)에 전송할 수 있다.

이에 따라, 프로세서(120)는 외부 서버(300)로부터 수신된 정보에 기초하여 복수의 오디오 신호 중에서 사용자가 발화한 사용자 음성을 포함하는 적어도 하나의 오디오 신호를 판단할 수 있다.

그리고, 프로세서(120)는 외부 전자 장치(210 및 230)로부터 수신된 오디오 신호 중 노래를 포함하는 사운드 신호인 외부 전자 장치(230)로부터 수신된 사운드를 신호를 제외하고, 외부 전자 장치(210)로부터 수신된 오디오 신호를 사용자 음성을 포함하는 오디오 신호로 판단할 수 있다.

다만, 이는 일 실시예이며, 외부 서버(300)가 노래를 포함하는 사운드 신호를 판단한 후 사용자 음성을 포함하는 오디오 신호 또는 이에 관한 정보를 전자 장치(100)에 전송할 수도 있다. 또한, 외부 서버(300)가 다른 서버(가령, 음성 인식 엔진을 포함하는 서버)(미도시)에 사용자 음성을 포함하는 오디오 신호를 전송할 수도 있다.

한편, 다시 도 2를 참조하면, 프로세서(120)는 사용자 음성을 포함하는 오디오 신호라고 판단된 오디오 신호에 대하여 음성 인식을 수행할 수 있다.

구체적으로, 프로세서(120)는 사용자 음성을 포함하는 오디오 신호라고 판단된 오디오 신호 중에서 판단된 오디오 신호의 세기에 기초하여 적어도 하나의 오디오 신호를 선택할 수 있으며, 선택된 오디오 신호에 대하여 음성 인식을 수행할 수 있다.

도 1에서 상술한 바와 같이, 프로세서(120)는 판단된 오디오 신호 중에서 가장 큰 세기를 갖는 오디오 신호에 대해 음성 인식을 수행하거나, 기설정된 크기 이상의 세기를 갖는 오디오 신호에 대해 음성 인식을 수행할 수 있다. 다만 이는 일 실시예이며, 프로세서(120)는 판단된 오디오 신호 전부에 대해 음성 인식을 수행할 수도 있음은 물론이다.

또 다른 실시 예로, 프로세서(120)는 사용자 음성을 포함하는 오디오 신호라고 판단된 오디오 신호에 포함된 노이즈를 제거하고 노이즈가 제거된 오디오 신호에 대해 음성 인식을 수행할 수 있다. 외부 전자 장치(210 내지 240)로부터 수신된 오디오 신호에 사용자 음성이 포함되어 있다고 하더라도 사용자 음성과 함께 획득된 노이즈(가령, 외부 소음 등)가 포함되어 있을 수 있다. 프로세서(120)는 음성 인식률을 높이기 위하여 오디오 신호에 포함된 노이즈를 제거할 수 있다.

이를 위하여, 프로세서(120)는 각 외부 전자 장치(210 내지 240)의 신호 세기를 모니터링하고, 각각의 외부 전자 장치(210 내지 240)에 대한 노이즈 판단 기준을 설정할 수 있다. 예를 들어, 외부 전자 장치(210)로부터는 10~15dB의 사운드가 수신되고 외부 전자 장치(220)로부터 20~22dB의 사운드가 수신되었다면, 프로세서(120)는 외부 전자 장치(210)로부터 수신된 사운드 신호에 포함된 8dB 이하의 사운드를 노이즈로 판단할 수 있으며, 외부 전자 장치(220)로부터 수신된 사운드 신호에 포함된 15dB 이하의 사운드를 노이즈로 판단할 수 있다. 즉, 프로세서(120)는 외부 전자 장치(210 내지 240) 별로 노이즈 판단 기준을 다르게 설정할 수 있다.

프로세서(120)는 외부 전자 장치(210 내지 240) 별로 다르게 설정된 노이즈 판단 기준을 기초로 노이즈가 제거된 신호를 수신할 수 있다. 구체적으로, 프로세서(120)는 각 외부 전자 장치(210 내지 240)로부터 수신된 사운드 신호에서 기설정된 노이즈 판단 기준보다 큰 음성 신호를 수신할 수 있다.

한편, 프로세서(120)는 필터를 사용하여 사용자 음성을 포함하는 오디오 신호라고 판단된 오디오 신호에 포함된 노이즈를 제거할 수 있다. 이때, 노이즈를 제거하기 위하여, 종래 음성 인식 시스템에서 사용하는 노이즈 제거 필터가 사용될 수 있다.

일 실시 예로, 프로세서(120)는 정합 필터(Matched filter)를 사용하여 노이즈를 제거할 수 있다. 프로세서(120)는 정합 필터를 사용하여 수신된 신호의 피크(peak)들을 식별하고, 피크 주변의 노이즈를 제거할 수 있다. 정합 필터를 이용하여 노이즈를 제거하는 기술을 통상의 기술자에게 자명하다는 점에서 이에 대한 구체적인 설명은 생략하도록 한다.

또 다른 실시 예로, 프로세서(120)는 하이 패스 필터(High pass filter)를 사용하여 노이즈를 제거할 수 있다. 프로세서(120)는 하이 패스 필터를 사용하여 기설정된 주파수보다 높은 주파수는 통과하고 낮은 주파수는 필터링 하여 노이즈를 제거할 수 있다. 하이 패스 필터를 이용하여 노이즈를 제거하는 기술 또한 통상의 기술자에게 자명하다는 점에서 이에 대한 구체적인 설명은 생략한다.

노이즈 제거와 관련하여, 도 4a는 본 개시의 일 실시 예에 따른 노이즈 및 음성을 포함하는 음성 신호를 도시한 도면이고, 도 4b는 본 개시의 일 실시 예에 따른 노이즈가 제거된 음성 신호를 도시한 도면이다.

도 4a에 도시된 바와 같이, 사용자 음성 및 노이즈를 포함한 사운드 신호가 입력되면, 프로세서(120)는 상술한 다양한 실시 예에 따라 사운드에 포함된 신호를 제거할 수 있다.

그리고, 프로세서(120)는 도 4b와 같이, 노이즈가 제거되어 사용자 음성만이 포함된 신호를 생성할 수 있다.

프로세서(120)는 노이즈가 제거되어 사용자 음성만이 포함된 사운드 신호에 대해 음성 인식을 수행하여 사용자 음성에 대한 음성 인식률을 높일 수 있게 된다.

프로세서(120)는 메모리(미도시)에 저장된 음성 인식 엔진을 사용하여 사용자 음성에 대한 음성 인식을 수행할 수 있다. 구체적으로, 프로세서(120)는 자동 음성 인식(Automatic Speech Recognition, ASR) 모듈, 자연어 이해(Natural Language Understanding, NLU) 모듈을 포함할 수 있다.

프로세서(120)는 자동 음성 인식 모듈을 이용하여, 사용자 음성을 텍스트 데이터로 변환할 수 있다. 예를 들어, 자동 음성 인식 모듈은 발화 인식 모듈을 포함할 수 있다. 발화 인식 모듈은 음향(acoustic) 모델 및 언어(language)모델을 포함할 수 있다. 예를 들어, 음향 모델은 발성에 관련된 정보를 포함할 수 있고, 언어 모델은 단위 음소 정보 및 단위 음소 정보의 조합에 대한 정보를 포함할 수 있다. 발화 인식 모듈은 발성에 관련된 정보 및 단위 음소 정보에 대한 정보를 이용하여 사용자 발화를 텍스트 데이터로 변환할 수 있다.

프로세서(120)는 자연어 이해 모듈을 이용하여 사용자 음성에 대하여 문법적 분석(syntactic analyze) 또는 의미적 분석(semantic analyze)을 수행하여 사용자 의도를 파악할 수 있다. 문법적 분석은 사용자 입력을 문법적 단위(예: 단어, 구, 형태소 등)로 나누고, 나누어진 단위가 어떤 문법적인 요소를 갖는지 파악할 수 있다. 의미적 분석은 의미(semantic) 매칭, 룰(rule) 매칭, 포뮬러(formula) 매칭 등을 이용하여 수행할 수 있다. 이에 따라, 자연어 이해 모듈(320)은 사용자 입력이 어느 도메인(domain), 의도(intent) 또는 의도를 표현하는데 필요한 파라미터(parameter)(또는 슬롯(slot))를 얻을 수 있다. 예를 들어, 상기 하나의 도메인(예: 에어컨)은 복수의 의도(예: 에어컨 on, 에어컨 온도 조절, 에어컨 풍향 조절 등)를 포함할 수 있고, 하나의 의도는 복수의 파라미터(예: 온도, 시간등)를 포함할 수 있다. 복수의 룰은, 예를 들어, 하나 이상의 필수 요소 파라미터를 포함할 수 있다. 매칭 규칙은 자연어 인식 데이터베이스(natural language understanding database)(NLU DB)에 저장될 수 있다.

자연어 이해 모듈은 형태소, 구 등의 언어적 특징(예: 문법적 요소)을 이용하여 사용자 질의로부터 추출된 단어의 의미를 파악하고, 파악된 단어의 의미를 도메인 및 의도에 매칭시켜 사용자의 의도를 결정할 수 있다. 예를 들어, 자연어 이해 모듈은 각각의 도메인 및 의도에 사용자 질의에서 추출된 단어가 얼마나 포함되어 있는지를 계산하여 사용자 의도를 결정할 수 있다. 일 실시 예에 따르면, 자연어 이해 모듈은 의도를 파악하는데 기초가 된 단어를 이용하여 사용자 입력의 파라미터를 결정할 수 있다.

프로세서(120)는 사용자 음성이 포함된 사운드 신호에 대한 음성 인식을 수행한 후, 음성 인식 결과에 따른 서비스를 제공할 수 있다.

도 5는 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 도면으로, 구체적으로, 음성 인식 결과에 따른 서비스를 제공하는 전자 장치를 설명하기 위한 도면이다.

사운드 신호에 포함된 사용자 음성에 대한 음성 인식이 완료된 후, 프로세서(120)는 사용자의 위치를 판단하고, 음성 인식 결과에 따른 서비스를 제공할 수 있다.

프로세서(120)는 복수의 외부 전자 장치(210 내지 250) 중에서 음성 인식이 수행된 오디오 신호를 전송한 외부 전자 장치의 위치에 기초하여 사용자의 위치를 판단할 수 있다.

프로세서(120)는, 도 2 에서 상술한 바와 같이, 수신된 복수의 오디오 신호 중에서 신호의 세기가 가장 큰 오디오 신호를 선택한다는 점에서, 음성 인식이 수행된 오디오 신호를 전송한 외부 전자 장치가 위치한 장소에 사용자가 위치하고 있다고 판단할 수 있다.

예를 들어, 도 5에 도시된 바와 같이, 프로세서(120)가 도 2 내지 도 4에서 상술한 과정을 통하여 외부 전자 장치(230)로부터 수신된 오디오 신호에 대하여 음성 인식을 수행하였다면, 프로세서(120)는 수신한 복수의 오디오 신호 중 외부 전자 장치(230)가 전송한 오디오 신호의 세기가 가장 크고, 사용자가 외부 전자 장치(230) 주변에 위치할 가능성이 높다고 판단할 수 있다.

이에 따라, 프로세서(120)는 음성 인식이 수행된 오디오 신호를 전송한 외부 전자 장치의 주변에 사용자가 위치한다고 판단하고, 판단된 사용자의 위치에 기초하여 음성 인식 결과에 따른 서비스를 제공할 수 있다.

예를 들어, 도 2 내지 도 4의 과정에 따르면, 프로세서(120)가 복수의 외부 장치(210 내지 250)로부터 복수의 오디오 신호를 수신하고, 수신된 오디오 신호 중에서 사용자 음성을 포함하는 적어도 하나의 오디오 신호(가령 외부 전자 장치(220) 및 외부 전자 장치(230)로부터 수신된 오디오 신호)를 판단하여, 판단된 오디오 신호의 세기의 신호에 기초하여 외부 전자 장치(230)로부터 수신한 오디오 신호를 음성 인식을 수행할 오디오 신호로 선택할 수 있다. 그리고, 프로세서(120)는 선택된 오디오 신호에 대해 음성 인식을 수행하여, "에어컨 온도 내려줘"라고 발화한 사용자의 발화 의도는 에어컨의 설정 온도를 낮추는 것임을 판단할 수 있다.

그 후, 프로세서(120)는 음성 인식을 수행한 오디오 신호가 외부 전자 장치(230)로부터 전송된 것임을 판단하고, 사용자가 외부 전자 장치(230)의 주변에 위치하고 있음을 식별할 수 있다.

이에 따라, 프로세서(120)는 판단된 사용자 위치에 기초하여 음성 인식 결과에 따른 서비스를 제공할 수 있다. 여기에서, 서비스는 전자 장치(100)와 연결된 외부 장치(미도시)가 음성 인식 결과에 따른 동작을 수행하도록 하는 것을 나타낸다. 이때, 외부 장치(미도시)는 TV(미도시), 세탁기(미도시), 에어컨(미도시), 선풍기(미도시) 냉장고(미도시), 난방 기구(미도시) 등과 같은 전자 장치가 될 수 있다.

예를 들어, 음성 인식 결과가 에어컨의 온도를 낮추는 것으로 판단된 경우, 프로세서(120)는 에어컨의 온도를 낮추도록 하는 명령을 포함하는 신호를 에어컨(미도시)에 전달할 수 있다. 그리고, 프로세서(120)로부터 신호를 수신한 에어컨(미도시)은 신호에 포함된 명령에 따라 에어컨의 온도를 낮추는 동작을 수행할 수 있다.

한편, 이는 일 실시 예이며, 프로세서(120)는 명령어를 포함하는 신호 대신에 음성 인식 결과를 직접 에어컨(미도시)에 전달할 수도 있다. 이 경우, 에어컨(미도시)은 음성 인식 결과에 따라 에어컨(미도시)의 동작을 제어할 수 있다.

한편, 프로세서(120)는 사용자 위치에 기초하여 음성 인식 결과에 따른 서비스를 제공한다는 점에서, 사용자가 존재한다고 판단된 위치에만 서비스를 제공할 수 있다.

가령, 프로세서(120)는 사용자가 외부 전자 장치(230)의 주변에 위치한다고 판단된 경우, 프로세서(120)는 외부 전자 장치(210, 220, 240 및 250)가 설치된 공간을 제외하고 사용자가 존재하는 공간(즉, 외부 전자 장치(230)가 설치된 공간)의 에어컨의 온도만 내려가도록 할 수 있다.

이와 같이, 프로세서(120)는 사용자의 위치를 고려하여 사용자의 음성 인식 결과에 대응되는 서비스를 제공할 수 있다.

도 6은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 상세하게 설명하기 위한 블록도이다.

도 6에 도시된 바와 같이, 전자 장치(100)는 통신부(110), 프로세서(120), 디스플레이(130), 메모리(140), 마이크(150) 및 스피커(160)을 포함할 수 있다. 한편, 통신부(110) 및 프로세서(120)는 도 2에서 설명하였는바 중복되는 설명은 생략하기로 한다.

디스플레이(130)는 프로세서(120)의 제어에 따라 다양한 정보를 표시할 수 있다. 디스플레이(130)는 전자 장치(100)에서 실행되는 다양한 어플리케이션의 UI를 표시할 수 있다.

디스플레이(130)는 전자 장치(100)가 외부 전자 장치(210 내지 240)로부터 사용자 음성 신호를 수신하고 있는지 여부, 판단된 사용자의 위치 정보, 음성 인식 결과 등의 정보 등과 같이 다양한 정보를 디스플레이 할 수 있다.

메모리(110)는 전자 장치(100)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 저장할 수 있다. 특히, 메모리(110)는 비휘발성 메모리, 휘발성 메모리, 플래시 메모리(flash-memory), 하드디스크 드라이브(Hard-Disk Drive, HDD) 또는 솔리드 스테이트 드라이브 (Solid State Drive, SDD) 등으로 구현될 수 있다. 메모리(110)는 프로세서(120)에 의해 액세스(access)되며, 프로세서(120)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다.

본 개시에서 메모리라는 용어는 메모리(110), 프로세서(120) 내의 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다. 또한, 메모리(110)에는 디스플레이의 디스플레이 영역에 표시될 각종 화면을 구성하기 위한 프로그램 및 데이터 등이 저장될 수 있다.

상술한 바와 같이, 메모리(110)는 적어도 하나의 명령어를 저장할 수 있다. 여기에서, 명령어는 전자 장치(100)를 제어하기 위한 명령어로서 전자 장치(100)에서 실행되는 어플리케이션의 동작을 제어하는 명령어일 수 있다.

그리고, 메모리(110)는 외부 전자 장치(210 내지 240)로부터 수신된 오디오 신호에 포함된 사용자 음성을 음성 인식 하기 위한 음성 인식 엔진을 저장할 수 있다.

구체적으로, 메모리(110)는 자동 음성 인식 엔진 및 자연어 이해 모듈을 포함하는 음성 인식 엔진을 저장할 수 있다. 자동 음성 인식 엔진 및 자연어 이해 모듈에 대한 상세한 설명은 도 2에서 하였는바, 중복된 내용은 생략하기로 한다.

마이크(150)는 전자 장치(100)가 사용자 음성을 입력 받기 위한 구성 요소이다. 구체적으로, 마이크(150)는 마이크로폰(Microphone)을 이용하여 외부의 사용자 음성을 수신하고, 이를 전기적인 음성 데이터로 처리할 수 있다. 이 경우, 마이크(150)는 처리된 음성 데이터를 프로세서(120)에 전달할 수 있다.

스피커(160)는 오디오 처리부에 의해 디코딩이나 증폭, 노이즈 필터링과 같은 다양한 처리 작업이 수행된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지를 출력하는 구성이다. 특히, 스피커(160)는 사용자 질의에 대한 응답을 자연어 형태의 음성 메시지로 출력할 수 있다. 한편, 오디오를 출력하기 위한 구성은 스피커로 구현될 수 있으나, 이는 일 실시 예에 불과할 뿐, 오디오 데이터를 출력할 수 있는 출력 단자로 구현될 수 있다.

한편, 도 6의 구성은 일 실시 예에 불과하며 전자 장치(100)의 구현 예에 따라 도 6에 도시된 전자 장치(100)의 구성요소 중 적어도 일부는 생략될 수 있다. 예를 들어, 전자 장치(100)는 마이크(150)를 포함하는 대신 마이크를 포함하는 외부 전자 장치(미도시)와 연결되어 외부 전자 장치(미도시)가 수신한 사용자 음성 신호를 수신할 수 있다.

도 8은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

우선, 각각 마이크를 구비하며 서로 다른 장소에 위치하는 복수의 외부 전자 장치가 마이크를 통해 획득한 복수의 오디오 신호를 수신한다(S710).

여기에서 복수의 외부 장치는 에너지 하베스팅을 통해 외부의 에너지를 전기 에너지로 변환하고, 상기 전기 에너지를 이용하여 상기 복수의 외부 전자 장치에 전원을 공급하는 전자 장치일 수 있다.

그리고, 복수의 오디오 신호 중에서 사용자가 발화한 사용자 음성을 포함하는 적어도 하나의 오디오 신호를 판단할 수 있다(S720)

이 때, 복수의 오디오 신호의 신호 패턴에 기초하여 복수의 오디오 신호 중에서 사용자가 발화한 사용자 음성을 포함하는 적어도 하나의 오디오 신호를 판단할 수 있다.

구체적으로, 복수의 오디오 신호 중에서 서로 유사한 신호 패턴을 갖는 오디오 신호를 사용자가 발화한 사용자 음성을 포함하는 오디오 신호인 것으로 판단할 수 있다.

그리고, 복수의 오디오 신호 중에서 기설정된 크기 이상의 오디오 신호를 외부 서버로 전송하고, 외부 서버로부터 수신된 정보에 기초하여 복수의 오디오 신호 중에서 사용자가 발화한 사용자 음성을 포함하는 적어도 하나의 오디오 신호를 판단할 수 있다.

그 후, 판단된 오디오 신호 중에서 상기 판단된 오디오 신호의 세기에 기초하여 획득된 오디오 신호에 대한 음성 인식을 수행할 수 있다(S730).

구체적으로, 판단된 오디오 신호 중에서 가장 큰 세기를 갖는 오디오 신호에 대해 음성 인식을 수행할 수 있다.

또한, 판단된 오디오 신호의 세기에 기초하여 획득된 오디오 신호에서 노이즈를 제거하고, 노이즈가 제거된 오디오 신호에 대해 음성 인식을 수행할 수 있다.

음성 인식이 수행된 후에는, 복수의 외부 전자 장치 중에서 음성 인식이 수행된 오디오 신호를 전송한 외부 전자 장치의 위치에 기초하여 사용자의 위치를 판단할 수 있다.

그리고, 판단된 사용자의 위치에 기초하여 상기 음성 인식 결과에 따른 서비스를 제공할 수 있다.

한편, 본 개시에서 사용된 용어 "부" 또는 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "부" 또는 "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.

본 개시의 다양한 실시예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치(예: 전자 장치(100))를 포함할 수 있다. 상기 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어 하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

일시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어^TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

다양한 실시예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

100: 전자 장치 210: 외부 전자 장치
300: 외부 서버

Claims

전자 장치에 있어서,
통신부; 및
각각 마이크를 구비하며 서로 다른 장소에 위치하는 복수의 외부 전자 장치가 마이크를 통해 획득한 복수의 오디오 신호를 상기 통신부를 통해 수신하고,
상기 복수의 오디오 신호 중에서 사용자가 발화한 사용자 음성을 포함하는 적어도 하나의 오디오 신호를 판단하고,
상기 판단된 오디오 신호 중에서 상기 판단된 오디오 신호의 세기에 기초하여 획득된 오디오 신호에 대한 음성 인식을 수행하고,
상기 복수의 외부 전자 장치 중에서 상기 음성 인식이 수행된 오디오 신호를 전송한 외부 전자 장치의 위치에 기초하여 상기 사용자의 위치를 판단하고, 상기 판단된 사용자의 위치에 기초하여 상기 음성 인식에 따른 서비스를 제공하는 프로세서;를 포함하는, 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 복수의 오디오 신호의 신호 패턴에 기초하여 상기 복수의 오디오 신호 중에서 상기 사용자가 발화한 사용자 음성을 포함하는 적어도 하나의 오디오 신호를 판단하는, 전자 장치.
제2항에 있어서,
상기 프로세서는,
상기 복수의 오디오 신호 중에서 서로 유사한 신호 패턴을 갖는 오디오 신호를 상기 사용자가 발화한 사용자 음성을 포함하는 오디오 신호인 것으로 판단하는, 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 복수의 오디오 신호 중에서 기설정된 크기 이상의 오디오 신호를 상기 통신부를 통해 외부 서버로 전송하고, 상기 외부 서버로부터 수신된 정보에 기초하여 상기 복수의 오디오 신호 중에서 상기 사용자가 발화한 사용자 음성을 포함하는 적어도 하나의 오디오 신호를 판단하는, 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 판단된 오디오 중에서 가장 큰 세기를 갖는 오디오 신호에 대해 음성 인식을 수행하는, 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 판단된 오디오 신호의 세기에 기초하여 획득된 오디오 신호에서 노이즈를 제거하고, 상기 노이즈가 제거된 오디오 신호에 대해 음성 인식을 수행하는, 전자 장치.
삭제
제1항에 있어서,
상기 복수의 외부 전자 장치는,
에너지 하베스팅을 통해 외부의 에너지를 전기 에너지로 변환하고, 상기 전기 에너지를 이용하여 상기 복수의 외부 전자 장치에 전원을 공급하는, 전자 장치.
전자 장치의 제어 방법에 있어서,
각각 마이크를 구비하며 서로 다른 장소에 위치하는 복수의 외부 전자 장치가 마이크를 통해 획득한 복수의 오디오 신호를 수신하는 단계;
상기 복수의 오디오 신호 중에서 사용자가 발화한 사용자 음성을 포함하는 적어도 하나의 오디오 신호를 판단하는 단계;
상기 판단된 오디오 신호 중에서 상기 판단된 오디오 신호의 세기에 기초하여 획득된 오디오 신호에 대한 음성 인식을 수행하는 단계; 및
상기 복수의 외부 전자 장치 중에서 상기 음성 인식이 수행된 오디오 신호를 전송한 외부 전자 장치의 위치에 기초하여 상기 사용자의 위치를 판단하고, 상기 판단된 사용자의 위치에 기초하여 상기 음성 인식에 따른 서비스를 제공하는 단계;를 포함하는 제어 방법.
제9항에 있어서,
상기 오디오 신호를 판단하는 단계는,
상기 복수의 오디오 신호의 신호 패턴에 기초하여 상기 복수의 오디오 신호 중에서 상기 사용자가 발화한 사용자 음성을 포함하는 적어도 하나의 오디오 신호를 판단하는 단계;를 포함하는, 제어 방법.
제10항에 있어서,
상기 오디오 신호를 판단하는 단계는,
상기 복수의 오디오 신호 중에서 서로 유사한 신호 패턴을 갖는 오디오 신호를 상기 사용자가 발화한 사용자 음성을 포함하는 오디오 신호인 것으로 판단하는 단계;를 포함하는, 제어 방법.
제9항에 있어서,
상기 오디오 신호를 판단하는 단계는,
상기 복수의 오디오 신호 중에서 기설정된 크기 이상의 오디오 신호를 외부 서버로 전송하는 단계; 및
상기 외부 서버로부터 수신된 정보에 기초하여 상기 복수의 오디오 신호 중에서 상기 사용자가 발화한 사용자 음성을 포함하는 적어도 하나의 오디오 신호를 판단하는 단계;를 포함하는 제어 방법.
제9항에 있어서,
상기 음성 인식을 수행하는 단계는,
상기 판단된 오디오 신호 중에서 가장 큰 세기를 갖는 오디오 신호에 대해 음성 인식을 수행하는 단계;를 포함하는 제어 방법.
제9항에 있어서,
상기 음성 인식을 수행하는 단계는,
상기 판단된 오디오 신호의 세기에 기초하여 획득된 오디오 신호에서 노이즈를 제거하는 단계; 및
상기 노이즈가 제거된 오디오 신호에 대해 음성 인식을 수행하는 단계;를 포함하는, 제어 방법.
삭제
제9항에 있어서,
상기 복수의 외부 전자 장치는,
에너지 하베스팅을 통해 외부의 에너지를 전기 에너지로 변환하고, 상기 전기 에너지를 이용하여 상기 복수의 외부 전자 장치에 전원을 공급하는, 제어 방법.