KR102237832B1 - 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 - Google Patents
음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 Download PDFInfo
- Publication number
- KR102237832B1 KR102237832B1 KR1020200118473A KR20200118473A KR102237832B1 KR 102237832 B1 KR102237832 B1 KR 102237832B1 KR 1020200118473 A KR1020200118473 A KR 1020200118473A KR 20200118473 A KR20200118473 A KR 20200118473A KR 102237832 B1 KR102237832 B1 KR 102237832B1
- Authority
- KR
- South Korea
- Prior art keywords
- user
- voice
- voice input
- user voice
- results
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000004891 communication Methods 0.000 claims description 26
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000007257 malfunction Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012552 review Methods 0.000 description 3
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/14—Digital output to display device ; Cooperation and interconnection of the display device with other functional units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
음성 제어 방법이 개시된다. 본 방법은, 음성 입력 모드가 개시되면 사용자 음성의 입력을 대기하는 단계, 사용자 음성을 텍스트로 변환하는 단계, 텍스트에 대응되는 제어 동작을 수행하는 제어 단계, 제어 동작의 수행 결과에 기초하여 사용자 발화 완결 여부를 판단하는 판단 단계, 사용자 발화가 미완결인 것으로 판단되면 기 설정된 대기 시간 동안 후속 사용자 음성의 입력을 대기하고, 사용자 발화가 완결된 것으로 판단되면 음성 입력 모드를 해제하는 단계를 포함한다. 이에 따라, 효율적인 음성 제어를 수행할 수 있다.
Description
본 발명은 디스플레이 장치 및 그 음성 제어 방법에 대한 것으로, 보다 상세하게는 사용자의 발화 완료 시점을 감지하여 음성 제어 모드를 해제하는 디스플레이 장치 및 그 음성 제어 방법에 대한 것이다.
전자 기술의 발달에 힘입어 다양한 형태의 전자 장치가 개발 및 보급되고 있다. 또한, 전자 장치에서 제공하는 기능 또한 점차 다양해지고 있다.
이에 따라, 사용자가 전자 장치를 좀 더 편리하게 이용할 수 있는 인터렉션 기술에 대한 개발 노력도 꾸준하게 이어져 오고 있다. 그 중 하나로 사용자의 음성을 이용하여 제어하는 음성 제어 기술이 있을 수 있다.
최근에는 TV나 휴대폰, 네비게이션 장치 등과 같은 다양한 전자 장치들에서, 사용자의 음성을 인식하여 그 음성에 대응되는 제어 동작을 수행하도록 구현되고 있다.
하지만, 음성 제어 기술을 제품에 적용하여 실생활에서 사용하기에는 몇 가지 어려움이 있었다. 가령, 사용자가 음성을 입력하는 동안 주위 소음이 입력되거나, 일상 생활 대화 내용이 입력되어, 그로 인해 오작동을 수행할 가능성이 있다.
이에 따라, 음성 입력을 통해 제어하는 기술을 좀 더 효율적이고 정확하게 수행할 수 있는 기술에 대한 필요성이 대두되었다.
본 발명은 이러한 필요성에 따른 것으로, 본 발명의 목적은 사용자의 발화 완결 여부를 판단하여 그 판단 결과에 따라 음성 입력 모드를 해제하는 디스플레이 장치 및 그 음성 제어 방법을 제공함에 있다.
이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따르면, 음성 제어 방법은, 음성 입력 모드가 개시되면 사용자 음성의 입력을 대기하는 단계, 상기 사용자 음성이 입력되면, 상기 사용자 음성을 텍스트로 변환하는 단계, 상기 텍스트에 대응되는 제어 동작을 수행하는 제어 단계, 상기 제어 동작의 수행 결과에 기초하여 사용자 발화 완결 여부를 판단하는 판단 단계, 상기 사용자 발화가 미완결인 것으로 판단되면 기 설정된 대기 시간 동안 후속 사용자 음성의 입력을 대기하고, 상기 사용자 발화가 완결된 것으로 판단되면 상기 음성 입력 모드를 해제하는 단계를 포함한다.
여기서, 상기 판단 단계는, 상기 제어 동작이, 상기 사용자 음성 또는 상기 후속 사용자 음성에 의해 수행된 적어도 1회 이상의 검색 과정에서 선택된 정보가 디스플레이되는 동작이면, 상기 사용자 발화가 완결된 것으로 판단할 수 있다.
또는, 상기 판단 단계는, 상기 제어 동작이 멀티미디어 컨텐츠 재생 동작이면, 상기 사용자 발화가 완결된 것으로 판단할 수 있다.
또한, 음성 제어 방법은, 상기 음성 입력 모드가 개시되어 유지되는 동안, 상기 음성 입력 모드에 대응되는 그래픽 오브젝트를 디스플레이하는 단계를 더 포함할 수도 있다.
한편, 본 발명의 일 실시 예에 따른 디스플레이 장치는, 음성 입력 모드가 개시되면 사용자 음성을 입력받는 입력부, 상기 입력부를 통해 입력되는 상기 사용자 음성에 대응되는 제어 동작을 수행하는 제어부를 포함한다.
여기서, 상기 제어부는, 상기 제어 동작의 수행 결과에 기초하여 사용자 발화 완결 여부를 판단하여, 상기 사용자 발화가 미완결인 것으로 판단되면 기 설정된 대기 시간 동안 후속 사용자 음성의 입력을 대기하고, 상기 사용자 발화가 완결된 것으로 판단되면 상기 음성 입력 모드를 해제할 수 있다.
또한, 상기 음성 입력 모드가 개시되어 유지되는 동안, 상기 음성 입력 모드에 대응되는 그래픽 오브젝트를 디스플레이하는 디스플레이부를 더 포함할 수도 있다.
한편, 상기 제어부는, 상기 사용자 음성이 입력되면, 상기 사용자 음성에 대응되는 텍스트를 상기 그래픽 오브젝트의 일 측에 디스플레이할 수 있다.
또한, 상기 제어부는, 상기 음성 입력 모드가 해제되면, 상기 그래픽 오브젝트의 형태를 상기 음성 입력 모드의 해제 상태를 의미하는 형태로 변형할 수 있다.
또한, 상기 제어부는, 상기 사용자 음성 또는 상기 후속 사용자 음성에 따라 적어도 1회 이상 검색을 수행하여 검색 결과를 상기 디스플레이부에 디스플레이하며, 상기 검색 결과 중에서 하나가 선택되어 선택된 검색 결과에 따른 정보가 디스플레이되면, 상기 사용자 발화가 완결된 것으로 판단할 수 있다.
또는, 상기 제어부는, 상기 제어 동작이 멀티미디어 컨텐츠 재생 동작이면, 상기 사용자 발화가 완결된 것으로 판단할 수 있다.
한편, 디스플레이 장치는, 상기 사용자 음성을 텍스트로 변환하기 위한 음성 인식 장치와 통신을 수행하는 통신부를 더 포함할 수 있다. 이 경우, 상기 제어부는, 상기 사용자 음성을 상기 통신부를 통해 상기 음성 인식 장치로 전송하여, 상기 음성 인식 장치에서 상기 사용자 음성을 상기 텍스트로 변환하면 상기 텍스트를 수신하여 상기 텍스트에 대응되는 상기 제어 동작을 수행할 수 있다.
또는, 디스플레이 장치는, 상기 텍스트에 따라 검색을 수행하기 위한 서버 장치와 통신을 수행하는 통신부를 더 포함할 수도 있다. 이 경우, 상기 제어부는, 상기 텍스트를 상기 서버 장치로 전송하여 상기 서버 장치로부터 상기 사용자 음성에 따른 검색 결과를 수신하여 상기 디스플레이부에 디스플레이하며, 상기 서버 장치로부터 발화 완결 신호가 수신되면 상기 사용자 발화가 완결된 것으로 판단하여 상기 음성 입력 모드를 해제할 수 있다.
또는, 디스플레이 장치는, 상기 사용자 음성을 상기 텍스트로 변환하기 위한 음성 인식 장치 및 상기 텍스트에 따라 검색을 수행하기 위한 서버 장치와 각각 통신을 수행하는 통신부를 더 포함할 수도 있다.
이 경우, 상기 제어부는, 상기 사용자 음성을 상기 음성 인식 장치로 전송하여, 상기 음성 인식 장치로부터 상기 텍스트를 수신하며, 상기 텍스트를 상기 통신부를 통해 서버 장치로 전송하여 상기 서버 장치로부터 상기 검색 결과를 수신하여 상기 디스플레이부에 디스플레이하며, 상기 서버 장치로부터 발화 완결 신호가 수신되면 상기 사용자 발화가 완결된 것으로 판단하여 상기 음성 입력 모드를 해제할 수 있다.
한편, 본 발명의 또 다른 실시 예에 따르면, 서버 장치는, 음성 입력 모드로 동작하는 디스플레이 장치로부터 사용자 음성에 대응되는 텍스트를 수신하는 서버 통신부, 컨텐츠 정보가 저장되는 데이터베이스, 상기 데이터베이스에서 상기 텍스트에 대한 검색을 수행하여, 검색된 컨텐츠 정보를 상기 디스플레이 장치로 제공하며, 상기 검색 결과에 기초하여 사용자의 발화가 완결된 것으로 판단되면, 발화 완결 신호를 상기 디스플레이 장치로 전송하는 서버 제어부를 포함한다.
이상과 같은 본 발명의 다양한 실시 예들에 따르면, 음성 제어 시스템에서는 사용자의 발화가 완료되었는지 여부를 판단하여 그에 따라 자동으로 음성 입력 모드를 해제할 수 있다. 이에 따라, 음성 입력 모드 선택 및 해제 버튼을 반복적으로 번거롭게 누를 필요가 없으며, 주변 소음이나 생활 대화 등으로 인해 오작동을 할 위험성도 크게 줄일 수 있다.
도 1은 본 발명의 일 실시 예에 따른 디스플레이 장치의 구성을 나타내는 블럭도,
도 2는 본 발명의 일 실시 예에 따른 음성 제어 방법을 설명하기 위한 흐름도,
도 3은 디스플레이 장치의 음성 제어 과정을 설명하기 위한 도면,
도 4 및 도 5는 사용자의 발화 완결 여부를 판단하는 방법을 설명하기 위한 도면,
도 6은 본 발명의 일 실시 예에 따른 음성 제어 시스템의 구성을 나타내는 도면,
도 7은 본 발명의 다른 실시 예에 따른 디스플레이 장치의 구성을 나타내는 블럭도,
도 8은 본 발명의 일 실시 예에 따른 서버 장치의 구성을 나타내는 블럭도,
도 9는 본 발명의 일 실시 예에 따른 서버 장치의 음성 제어 지원 방법을 설명하기 위한 흐름도이다.
도 2는 본 발명의 일 실시 예에 따른 음성 제어 방법을 설명하기 위한 흐름도,
도 3은 디스플레이 장치의 음성 제어 과정을 설명하기 위한 도면,
도 4 및 도 5는 사용자의 발화 완결 여부를 판단하는 방법을 설명하기 위한 도면,
도 6은 본 발명의 일 실시 예에 따른 음성 제어 시스템의 구성을 나타내는 도면,
도 7은 본 발명의 다른 실시 예에 따른 디스플레이 장치의 구성을 나타내는 블럭도,
도 8은 본 발명의 일 실시 예에 따른 서버 장치의 구성을 나타내는 블럭도,
도 9는 본 발명의 일 실시 예에 따른 서버 장치의 음성 제어 지원 방법을 설명하기 위한 흐름도이다.
이하에서, 첨부된 도면을 이용하여 본 발명에 대하여 구체적으로 설명한다.
도 1은 본 발명의 일 실시 예에 따른 디스플레이 장치의 구성을 나타내는 블럭도이다. 도 1에 따르면, 디스플레이 장치(100)는 입력부(110), 제어부(120)를 포함한다.
입력부(110)는 사용자 음성을 입력받기 위한 구성요소이다. 입력부(110)는 자체적으로 마이크를 포함하여 사용자 음성을 직접 입력받을 수도 있고, 리모콘 등에 설치된 마이크에서 입력되는 사용자 음성을 리모콘으로부터 간접적으로 입력받을 수도 있다.
제어부(120)는 입력부(110)를 통해 입력되는 사용자 음성에 대응되는 제어 동작을 수행한다. 구체적으로는, 제어부(120)는 입력부(110)를 통해 입력되는 사용자 음성이 기 정의된 음성 코맨드인 경우에는, 그 음성 코맨드에 대응되는 동작을 수행할 수 있다. 가령, 디스플레이 장치(100)가 TV인 경우, 턴-온, 턴-오프, 볼륨 업, 볼륨 다운, 채널 업, 채널 다운 등과 같은 다양한 동작들 각각에 대해 음성 코맨드가 지정되어 저장될 수 있다. 제어부(120)는 이러한 음성 코맨드가 입력되면, 해당 음성 코맨드에 매칭되는 동작을 수행한다.
한편, 제어부(120)는 사용자 음성이 정의되지 않은 임의의 텍스트를 발음한 것이라면, 그 텍스트에 대응되는 동작을 수행한다. 즉, 디스플레이 장치(100)는 사용자 음성을 분석하여, 그 사용자 음성에 응답하는 대화형 서비스를 제공할 수 있다. 가령, 사용자가 "영화배우 ABCD"라고 발음한 경우, 디스플레이 장치(100)는 "영화배우 ABCD" 라는 텍스트를 포함하는 다양한 정보들을 검색하여 그 검색 결과를 디스플레이하여 줄 수도 있다.
사용자 음성의 분석 및 텍스트 변환 작업은 제어부(120)가 직접 처리할 수도 있지만, 실시 예에 따라서, 다르게는, 외부의 서버 장치(미도시)로 사용자 음성을 전달하여, 서버 장치가 해당 사용자 음성을 텍스트로 변환하면 그 변환된 텍스트를 제공받을 수도 있다. 음성을 텍스트로 변환하는 서버 장치는 설명의 편의상 음성 인식 장치로 명명할 수 있다. 음성 인식 장치와 연동하여 음성을 텍스트로 변환하는 실시 예에 대해서는 후술하는 부분에서 구체적으로 설명한다.
제어부(120)는 사용자의 선택에 따라 음성 입력 모드를 개시할 수 있다. 음성 입력 모드가 개시되면, 제어부(120)는 사용자 음성을 입력받도록 입력부(110)를 활성화시킬 수 있다. 이러한 상태에서 사용자 음성이 입력되어 제어 동작을 수행하고 나면, 제어부(120)는 그 수행 결과에 따라 사용자 발화 완결 여부를 판단한다. 사용자의 발화 완결이란, 사용자가 더 이상 음성 제어를 이용하지 않을 것으로 예측되는 상태를 의미한다.
즉, 제어부(120)는 사용자 음성에 따라 수행되는 제어 동작의 특성에 따라 발화 완결 여부를 판단할 수 있다. 가령, 통상적으로 사용자는 어떠한 정보를 검색하기 위하여 음성을 발화하거나, 어떠한 기능을 실행시키기 위하여 음성을 발화하는 것이 대부분이다. 따라서, 사용자가 자신이 원하는 정보를 최종적으로 찾아서 확인하게 되거나, 자신이 원하는 기능을 실행시키고 나면 일정 시간 동안은 음성 발화를 하지 않게 된다. 이러한 점을 고려하여, 제어부(120)는 사용자가 정보 검색 과정에서 하나의 정보를 선택하여, 그 정보가 디스플레이되는 경우에는, 사용자 발화가 완결된 것으로 판단할 수 있다. 또는, 제어부(120)는 특정 어플리케이션이나 멀티미디어 컨텐츠 등이 실행되어 그 실행 화면이 디스플레이되는 경우에도, 사용자 발화가 완결된 것으로 판단할 수 있다.
이러한 판단 결과, 제어부(120)는 사용자 발화가 완결된 것으로 판단되면, 대기 시간 동안 기다리지 않고, 바로 음성 입력 모드를 해제한다. 이에 따라, 불필요한 대기 시간 동안 주위에서 발생되는 각종 소음들로 인하여, 오작동이 발생할 가능성을 미리 차단할 수 있다.
반면, 사용자 발화가 미완결인 것으로 판단되면, 제어부(120)는 기 설정된 대기 시간 동안 후속 사용자 음성의 입력을 대기한다. 대기 시간 내에 다시 후속 사용자 음성의 입력이 이루어지면, 제어부(120)는 그 후속 사용자 음성에 따른 제어 동작을 다시 수행하고, 그 후속 사용자 음성으로 인해 사용자 발화가 완결되었는지 다시 한번 더 판단한다. 후속 사용자 음성에 대해서도 미완결 상태로 판단되면, 제어부(120)는 대기 시간을 다시 초기화하고, 대기 시간 동안 또 다른 후속 사용자 음성의 입력을 대기한다. 즉, 제어부(120)는 최초에 음성 입력 모드를 한번만 선택하고 나면, 사용자가 발화를 완결할 때까지 다시 음성 입력 모드를 선택하지 않더라도 지속적으로 음성 입력 모드를 유지할 수 있다. 이에 따라, 사용자가 음성 제어를 위하여 매번 음성 입력 모드를 선택하여야 하는 번거로움을 해결할 수 있다.
도 1에서는 디스플레이 장치가 단독으로 음성 제어를 수행하는 것으로 설명하였으나, 외부의 서버 장치와 연동하여 음성 제어를 수행할 수도 있다.
도 2는 본 발명의 일 실시 예에 따른 음성 제어 방법을 설명하기 위한 흐름도이다. 도 2에 따르면, 디스플레이 장치(100)는 음성 입력 모드가 개시되면(S210), 사용자 음성 입력을 대기한다(S220). 상술한 바와 같이, 사용자 음성은 디스플레이 장치(100)의 본체에 마련된 마이크를 통해 입력될 수도 있고, 리모콘이나 기타 외부 장치에 마련된 마이크를 통해 입력되어 디스플레이 장치(100)로 전송될 수도 있다.
디스플레이 장치(100)는 사용자 음성이 입력되면(S230). 그 사용자 음성을 텍스트로 변환한다(S240). 텍스트 변환은 디스플레이 장치(100)가 자체적으로 수행할 수도 있으나, 또 다른 실시 예에 따르면 디스플레이 장치(100)가 외부의 서버 장치, 즉, 음성 인식 장치로 사용자 음성을 전송하여, 음성 인식 장치가 그 사용자 음성을 텍스트로 변환하면, 텍스트를 수신할 수 있다.
디스플레이 장치(100)는 변환된 텍스트에 대응되는 제어 동작을 수행한다(S250). 가령, 사용자가 임의의 키워드를 발화한 경우라면, 디스플레이 장치(100)는 해당 키워드를 포함하는 각종 정보를 검색하여 검색 결과를 디스플레이할 수 있다. 또는, 사용자가 키워드와 명령어를 함께 발화한 경우라면, 명령어에 대응되는 어플리케이션을 실행시키고, 키워드를 해당 어플리케이션의 입력으로 제공할 수 있다. 가령, 특정 컨텐츠 이름과 함께 해당 컨텐츠를 재생할 것을 명령하는 명령어(예를 들어, 틀어 줘, 재생 등)를 발화한 경우라면, 컨텐츠 재생 어플리케이션을 실행시키고, 해당 컨텐츠 이름을 컨텐츠 재생 어플리케이션의 입력으로 제공한다. 이에 따라, 그 컨텐츠 이름에 대응되는 컨텐츠를 재생한다.
디스플레이 장치(100)는 제어 동작을 수행하고 나면, 그 제어 동작의 내용에 기초하여 사용자가 발화를 완결하였는지 여부를 판단할 수 있다(S260). 이러한 판단은 디스플레이 장치(100)가 자체적으로 수행할 수도 있고, 외부의 서버 장치에서 판단하여 디스플레이 장치(100)로 통지하여 줄 수도 있다.
사용자 발화가 완결되었는지 여부를 판단하는 방법은 다양하게 구현될 수 있다. 일 예로, 판단 단계에서는, 제어 동작이 사용자 음성 또는 후속 사용자 음성에 의해 수행되는 적어도 1회 이상의 검색 과정에서 선택된 정보를 디스플레이하는 동작인 경우, 사용자 발화가 완결된 것으로 판단할 수 있다.
또는, 판단 단계에서는, 사용자 음성 또는 후속 사용자 음성에 의해 수행되는 제어 동작이 멀티미디어 컨텐츠 재생 동작인 경우에, 사용자 발화가 완결된 것으로 판단할 수 있다.
구체적인 판단 방법의 예에 대해서는 후술하는 부분에서 도면과 함께 설명한다.
디스플레이 장치(100)는 발화가 완결되었다고 판단하면, 음성 입력 모드를 해제한다(S290). 음성 입력 모드가 해제된 상태에서는 사용자가 다시 음성 입력 모드를 선택하지 않는 이상, 사용자 음성으로 인한 제어가 수행되지 않게 된다.
반면, 사용자 발화가 미완결인 것으로 판단되면, 디스플레이 장치(100)는 대기 시간을 리셋하고(S280), 대기 시간 동안 음성 입력 모드를 유지하여, 사용자 음성 입력을 대기한다(S220). 대기 시간은 디스플레이 장치(100)의 제조 업체 또는 사용자에 의해 임의로 설정될 수 있다. 예를 들어, 30초 정도로 설정될 수 있다.
사용자 음성이 입력되지 않은 상태로 대기 시간이 종료되었을 때에도(S270), 디스플레이 장치(100)는 음성 입력 모드를 해제할 수 있다.
한편, 도 2에서는 도시하지 않았으나, 음성 입력 모드가 개시되어 유지되는 동안, 음성 입력 모드에 대응되는 그래픽 오브젝트를 디스플레이하는 단계가 더 포함될 수도 있다. 그래픽 오브젝트의 형태나 그 역할에 대해서는 후술하는 부분에서 구체적으로 설명한다.
도 3은 사용자 음성을 이용하여 제어하는 디스플레이 장치의 동작을 설명하기 위한 도면이다. 도 3에 따르면, 디스플레이 장치(100)는 디스플레이부(130)를 더 포함할 수 있다.
디스플레이부(130)에는 사용자가 선택한 각종 컨텐츠가 디스플레이될 수 있다. 또한, 음성 입력 모드가 개시되면, 디스플레이부(130)에는 음성 입력 모드에 대응되는 그래픽 오브젝트(320)가 디스플레이된다. 그래픽 오브젝트(320)는 음성 입력 모드가 유지되는 동안 지속적으로 디스플레이될 수 있다. 도 3에서는, 마이크 형상의 그래픽 오브젝트(320)가 화면 모서리 부분에 표시된 상태를 도시하였으나, 그래픽 오브젝트(320)의 형태 및 위치는 이에 한정되는 것은 아니다.
제어부(120)는 사용자 음성이 입력되면, 그 사용자 음성에 대응되는 텍스트를 디스플레이부(130)에 표시한다. 도 3에 따르면, 그래픽 오브젝트(320)의 일 측에 텍스트 표시 영역(310)이 마련될 수 있다.
이에 따라, 사용자 음성에 대응되는 텍스트가 텍스트 표시 영역(310) 내에 표시될 수 있다. 사용자는 텍스트 표시 영역(310) 내에 표시된 텍스트를 확인하여, 자신이 발화한 음성이 정상적으로 인식되었는지 여부를 확인할 수 있다.
텍스트 표시 영역(310)의 하측에는 사용자 음성에 대응되는 제어 동작의 결과를 표시하기 위한 결과 표시 영역(330)이 마련된다. 제어부(120)는 사용자 음성에 대응되는 제어 동작의 결과를 결과 표시 영역(330) 내에 디스플레이한다.
도 3에서는 사용자(10)가 "AAA 몇 시야"라고 발화한 예를 나타낸다. 이 경우, 제어부(120)는 "AAA", "몇 시"라는 키워드를 이용하여 검색을 수행한 상태를 나타낸다. 제어부(120)는 검색 결과(330)를 결과 표시 영역(330) 내에 디스플레이한다.
제어부(120)는 검색 결과(330)에 기초하여 사용자의 발화 완결 여부를 판단한다. 발화 완결이라고 판단되면, 제어부(120)는 음성 입력 모드를 해제한다.
도 4 및 도 5는 사용자의 발화 완결 여부를 판단하는 다양한 방법을 설명하기 위한 도면이다. 도 4에서는 사용자가 "AAA"라는 키워드를 발화한 상태를 나타낸다. 제어부(120)는 "AAA"에 대한 검색을 수행하여, 검색 결과를 결과 표시 영역(330)에 표시할 수 있다. 도 4에서는 다수의 검색 결과가 표시된 상태를 나타낸다. 제어부(120)는 다수의 검색 결과가 검색되어, 리스트 형태로 표시되었으므로, 사용자 발화가 미완결이라고 판단하고, 대기 시간을 다시 초기 값으로 리셋할 수 있다.
이러한 상태에서, 사용자는 후속 사용자 음성을 입력하여 검색 결과 중 하나를 선택할 수 있다. 도 4에서 사용자는 검색 결과를 정렬한 인덱스(즉, 1번, 2번, 3번 등)를 직접 발화하거나, 검색 결과의 명칭을 발화할 수 있다. 제어부(120)는 "1번" 또는 "AAA 뉴스 다시 보기" 와 같은 사용자 음성이 입력되면, 입력된 사용자 음성에 기초하여 추가 검색을 수행한다. 이에 따라, 제어부(120)는 "AAA 뉴스 다시 보기"를 텍스트 표시 영역(310)에 표시하고, "AAA 뉴스 다시 보기"에 대한 검색 결과를 결과 표시 영역(330)에 표시한다. 이 경우에도, 제어부(120)는 다수의 검색 결과가 검색되어 리스트 형태로 표시되었으므로 사용자 발화가 미완결이라고 판단할 수 있다. 제어부(120)는 다시 대기 시간을 초기 값으로 리셋하고, 후속 사용자 음성을 대기한다.
도 4에 도시된 바와 같이, 사용자가 다시 "3번" 또는 "AAA 뉴스 9/3일자"를 발화하면, 제어부(120)는 그 사용자 음성에 의해 선택된 아이템에 해당하는 멀티미디어 컨텐츠를 재생한다. 도 4에서는 9월 3일 자 AAA 뉴스라는 멀티미디어 컨텐츠를 재생하여 그 재생 화면(410)을 디스플레이한 상태를 나타낸다. 이와 같이, 제어부(120)는 사용자 음성 또는 후속 사용자 음성에 의해 실행되는 제어 동작이 멀티미디어 컨텐츠 재생 동작인 경우에는, 사용자의 발화가 완결된 것으로 판단한다.
이에 따라, 제어부(120)는 음성 입력 모드를 해제하고, 그래픽 오브젝트의 형태를 음성 입력 모드의 해제 상태를 의미하는 형태(S340)로 변형한다. 그래픽 오브젝트는 음성 입력 모드가 해제되고 나면 일정 시간 이후에 삭제될 수 있다.
이와 같이, 사용자가 원하는 컨텐츠가 출력되면, 음성 입력 모드를 바로 해제하여, 음성 입력 모드를 위한 UI를 삭제하게 된다. 이에 따라, 종래에 컨텐츠가 선택되어 출력되더라도 대기 시간 동안 UI로 인해 컨텐츠가 가려져, 시청에 방해를 받게 되는 불편함을 해소할 수 있게 된다.
도 5는 발화 완결 여부를 판단하는 또 다른 방법을 설명하기 위한 도면이다. 도 5에서는, 사용자가 "AAA 몇 시야"라고 발화한 경우를 예로 들어 설명한다.
제어부(120)는 사용자 음성에 기초하여 검색을 수행하여, 그 검색 결과를 리스트 형태로 결과 표시 영역(330) 내에 표시한다. 사용자는 후속 사용자 음성을 입력하여 검색 결과를 선택하여, 검색 결과 내에서 추가 검색을 수행할 수 있다. 도 5에서는 1번 아이템, 2번 아이템이 순차적으로 선택된 상태를 나타낸다.
제어부(120)는 정보 트리 상에서 최하위 레벨의 정보가 선택되면, 해당 정보를 디스플레이할 수 있다. 도 5에서는 "AAA 10시 뉴스 정보"라는 아이템이 최하위 레벨의 정보인 경우를 나타낸다. 제어부(120)는 후속 사용자 음성에 의해 "AAA 10시 뉴스 정보"가 선택되면, 그 선택된 아이템에 해당하는 세부 정보 화면(510)을 디스플레이한다.
제어부(120)는 최하위 레벨의 정보가 선택되었다면 사용자 발화가 완결된 것으로 판단한다. 즉, 제어부(120)는 사용자 음성 또는 후속 사용자 음성에 따라 적어도 1회 이상의 검색을 수행하다가, 검색 결과 중 하나가 선택되어 선택된 검색 결과에 따른 정보가 디스플레이되면, 사용자 발화가 완결된 것으로 판단할 수 있다. 이에 따라, 제어부(120)는 음성 입력 모드를 해제한다.
제어부(120)는 음성 입력 모드가 해제되면, 그래픽 오브젝트(320)를 음성 입력 모드 해제 상태를 의미하는 형태(340)로 변형한다.
또 다른 예로, 제어부(120)는 어플리케이션이 선택되어 그 어플리케이션 화면이 디스플레이되고, 어플리케이션 화면 내에서 최하위 기능이 선택되어 실행된 경우에도 사용자 발화가 완결된 것으로 판단할 수도 있다.
도 4 및 도 5에서는 검색 결과가 세로 방향으로 정렬된 리스트 형태로 표시되는 것으로 도시하였으나, 검색 결과는 디스플레이부(130)의 형태 및 크기에 따라 다양한 방식으로 제공될 수 있다. 가령, 가로 방향으로 정렬될 수도 있다. 또한, 검색 결과는 텍스트 형태가 아니라 캡쳐 이미지나 썸네일 이미지, 아이콘 등과 같은 다양한 형태로 표시될 수도 있다.
이상과 같이, 제어부(120)는 사용자 음성에 따른 제어 동작을 수행하면서, 사용자 음성의 내용 및 제어 동작의 내용에 기초하여, 사용자가 더 이상 발화를 계속하지 않을 것인지 아니면 후속 발화가 기대되는지 여부를 자동으로 판단할 수 있다. 제어부(120)는 판단 결과에 따라 자동으로 음성 입력 모드를 해제하여, 오작 동 위험을 방지할 수 있다. 또한, 상술한 바와 같이, 음성 입력 모드의 UI로 인해 화면이 가려지는 불편함도 방지할 수 있고, 불필요한 리소스 낭비를 줄일 수도 있다.
한편, 상술한 실시 예들에서는 디스플레이 장치가 사용자 음성을 텍스트로 변환하고, 텍스트에 따른 검색을 수행하며, 사용자 의도 파악까지 전부 수행하는 것으로 설명하였으나, 이러한 동작들 중에서 일부 동작은 외부의 서버 장치에서 수행할 수 있다. 즉, 본 발명의 또 다른 실시 예에 따르면, 적어도 하나의 서버 장치와 디스플레이 장치를 포함하는 음성 제어 시스템에서, 상술한 바와 같은 음성 제어 방법을 구현할 수도 있다.
도 6은 본 발명의 일 실시 예에 따른 음성 제어 시스템의 구성의 일 예를 나타낸다. 도 6에 따르면, 음성 제어 시스템(1000)은 음성 인식 장치(700), 서버 장치(800), 디스플레이 장치(100)를 포함한다.
디스플레이 장치(100)는 음성 인식 장치(700) 및 서버 장치(800) 등과 연동할 수 있는 대화 클라이언트 모듈(미도시)을 포함할 수 있다. 제어부(120)는 음성 입력 모드가 개시되면, 대화 클라이언트 모듈을 실행시켜, 음성 입력에 대응되는 제어 동작을 수행할 수 있다. 구체적으로, 제어부(120)는 사용자 음성이 입력되면 음성 인식 장치(700)로 전송할 수 있다.
음성 인식 장치(700)는 디스플레이 장치(100)를 통해 전송되는 사용자 음성을 텍스트로 변환하여 제공하는 일종의 서버 장치를 의미한다.
음성 인식 장치(700)는 동적정합법(Dynamic time warping method), 은닉 마코프모델(Hidden Markov Model), 신경망(Neural Network) 등과 같은 다양한 인식 알고리즘 중 적어도 하나를 이용하여 음성을 인식하고, 인식된 음성을 텍스트로 변환할 수 있다. 일 예로, 은닉 마코프 모델을 사용하는 경우, 음성 인식 장치(700)는 사용자 음성의 시간적 변화 및 스펙트럼 변화를 각각 모델링하여, 기 저장된 언어 데이터베이스에서 유사한 어휘를 검출한다. 이에 따라, 검출된 어휘를 텍스트로 출력할 수 있다.
디스플레이 장치(100)는 음성 인식 장치(700)로부터 텍스트가 입력되면, 입력된 텍스트에 대응되는 제어 동작을 수행한다. 디스플레이 장치(100)는 기 설정된 음성 명령어 중에서 텍스트와 일치하는 음성 명령어가 있으면, 그 음성 명령어에 대응되는 동작을 수행한다. 반면, 음성 명령어와 텍스트가 일치하지 않으면, 텍스트를 서버 장치(800)로 제공한다.
서버 장치(800)는 제공된 텍스트에 대응되는 정보를 자체 데이터베이스 또는 기타 서버 장치들로부터 검색한다. 서버 장치(800)는 검색 결과를 디스플레이 장치(100)로 다시 피드백한다.
디스플레이 장치(100)는 검색 결과를 디스플레이한다. 상술한 바와 같이, 디스플레이 장치(100)는 검색 결과에 기초하여 사용자의 발화 의도를 파악할 수 있다. 이에 따라, 발화가 완결되었다면 음성 입력 모드를 자동으로 해제할 수 있다.
한편, 본 발명의 또 다른 실시 예에 따르면, 사용자의 발화 완결 여부는 서버 장치(800)에서 판단하여 줄 수도 있다. 즉, 서버 장치(800)는 사용자의 음성 또는 후속 음성에 따라 검색하여 검색 결과를 제공해주다가, 사용자가 하위 레벨의 정보를 선택하여 그 정보에 따른 화면을 확인하거나, 컨텐츠를 선택하여 컨텐츠가 재생되었다면, 사용자의 발화가 완결된 상태로 판단할 수 있다. 이에 따라, 서버 장치(800)는 발화 완결 신호를 디스플레이 장치(100)로 전송하여 줄 수 있다.
디스플레이 장치(100)는 서버 장치(800)로부터 발화 완결 신호가 수신되면, 음성 입력 모드를 해제할 수 있다.
도 7은 도 6과 같은 음성 입력 시스템에 사용되는 디스플레이 장치의 세부 구성의 일 예를 나타내는 블럭도이다. 도 7에 따르면, 디스플레이 장치(100)는 입력부(110), 제어부(120), 디스플레이부(130), 방송 수신부(140), 컨텐츠 처리부(150), 통신부(160), 저장부(170)를 포함한다.
입력부(110)는 상술한 바와 같이 사용자 음성을 입력받기 위한 구성요소이다. 제어부(120)는 입력부(110)를 통해 입력되는 사용자 음성에 대응되는 제어 동작을 수행한다. 입력부(110) 및 제어부(120)의 동작에 대해서는 상술한 부분에서 구체적으로 기재한 바 있으므로, 중복되는 부분에 대한 설명은 생략한다.
방송 수신부(140)는 방송 채널을 선국하여 그 방송 채널을 통해 컨텐츠를 수신하기 위한 구성요소이다. 사용자가 TV 채널을 선택하면, 제어부(120)는 선택된 TV 채널을 선국하도록 방송 수신부(140)를 제어한다. 방송 수신부(140)에서 선국된 TV 채널을 통해 방송 신호가 수신되면, 컨텐츠 처리부(150)는 수신된 방송 신호를 처리하여 디스플레이부(130) 및 스피커(미도시)를 통해 출력한다. 일 예로, ATSC 규격이 채용된 경우라면, 방송 수신부(140)는 안테나, RF 다운 컨버터, 복조부, 등화부 등을 포함할 수 있다.
컨텐츠 처리부(150)는 방송 수신부(140)를 통해 수신되는 방송 신호 뿐만 아니라, 통신부(160)를 통해 수신되는 각종 컨텐츠를 처리하기 위한 구성요소이다. 컨텐츠 처리부(150)는 디멀티플렉서, 비디오 디코더, 오디오 디코더, 스케일러 등과 같은 다양한 신호 처리 유닛을 포함할 수 있다.
통신부(160)는 다양한 외부 장치와 통신을 수행하기 위한 구성요소이다. 구체적으로는, 통신부(160)는 LAN, 와이파이, 3G, 4G, 블루투스, 지그비, NFC 등과 같은 다양한 통신 방식에 따라 외부 장치와 통신을 수행할 수 있다.
구체적으로는, 통신부(160)는 사용자 음성을 텍스트로 변환해주는 음성 인식 장치(미도시), 사용자 음성에 대응되는 텍스트에 기초하여 검색을 수행하는 서버 장치, 사용자의 대화 완결 여부를 판단해주는 서버 장치(미도시) 등과 통신을 수행할 수 있다.
*저장부(170)는 디스플레이 장치(100)의 동작에 사용되는 각종 프로그램이나 데이터가 저장되는 구성요소이다. 상술한 바와 같이, 외부의 서버 장치들과 연동하기 위해서는 대화 클라이언트 모듈이 저장부(170)에 저장될 수도 있다. 또는, 디스플레이 장치(100)가 자체적으로 텍스트 변환 작업이나 검색 작업, 발화 완결 여부 판단 작업 등을 수행하는 경우에는 음성 인식 모듈이나, 검색 모듈, 발화 완결 판단 모듈 등과 같은 다양한 프로그램이 저장부(170)에 저장될 수도 있다.
제어부(120)는 저장부(170)에 저장된 프로그램을 이용하여 상술한 다양한 실시 예에 따른 음성 제어 방법을 수행할 수 있다.
즉, 제어부(120)는 디스플레이 장치(100)의 본체에 구비된 버튼이나, 리모콘에 구비된 버튼을 통해 음성 입력 모드가 선택되거나, 기 정의된 트리거 모션 또는 기 정의된 트리거 음성 등이 입력되면, 대화 클라이언트 모듈을 실행시켜 음성 입력 모드로 전환할 수 있다. 이에 따라, 상술한 바와 같이 사용자 음성에 따라 제어동작을 수행할 수 있다.
제어부(120)는 음성 입력 모드가 개시되면 상술한 바와 같이 그래픽 오브젝트를 구성하여 디스플레이부(130)에 디스플레이할 수 있다. 구체적으로는, 제어부(120)는 GPU(Graphic Processing Unit)을 이용하여, 디스플레이부(110)의 화면 내에서 그래픽 오브젝트가 생성될 위치를 연산할 수 있다. GPU는 기 설정된 디폴트 값에 그래픽 오브젝트가 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산한다. GPU는 연산된 속성값에 기초하여 디스플레이부(150)의 화면 내에 그래픽 오브젝트를 렌더링한다. 제어부(120)는 음성 입력 모드가 해제되면, 상술한 바와 같이 그래픽 오브젝트의 형상을 변형시키거나, 그래픽 오브젝트를 삭제할 수 있다.
또한, 제어부(120)는 사용자 음성이 입력되면, 통신부(160)를 이용하여 사용자 음성을 음성 인식 장치(700)로 전송하고, 그 사용자 음성에 대응되는 텍스트를 수신한다.
제어부(120)는 수신된 텍스트를 서버 장치(800)로 제공한다. 이에 따라, 서버 장치(800)에서 텍스트에 기초한 검색 결과를 전송하면, 제어부(120)는 검색 결과를 디스플레이부(130)에 표시한다.
이러한 상태에서 서버 장치(800)로부터 발화 완결 신호가 수신되면, 제어부(120)는 사용자 발화가 완결된 것으로 판단하여 음성 입력 모드를 해제할 수 있다.
한편, 도 6에서는 음성 인식 장치(700) 및 서버 장치(800) 모두를 포함하는 것으로 도시 및 설명하였으나, 실시 예에 따라서는 일부 장치는 생략될 수도 있다.
가령, 음성 인식 장치(700)가 생략되는 실시 예에 따르면, 제어부(120)는 저장부(170)에 저장된 텍스트 변환 모듈을 이용하여 텍스트 변환을 수행할 수 있다. 즉, 제어부(120)는 사용자 음성이 입력되면, 음성 인식 장치(700)로 사용자 음성을 전송하지 않고, 텍스트 변환 모듈을 실행시켜, 사용자 음성을 자체적으로 텍스트로 변환한다. 이에 따라, 변환된 텍스트를 서버 장치(800)로 전송하여, 검색 결과를 수신하여 디스플레이한다.
또는, 서버 장치(800)가 생략되는 실시 예에 따르면, 제어부(120)는 음성 인식 장치(700)에서 변환된 텍스트를 이용하여 직접 검색을 수행할 수 있다. 즉, 제어부(120)는 저장부(170)에 저장된 검색 모듈을 실행시키고, 그 검색 모듈에 텍스트를 입력하여 검색을 수행한다. 제어부(120)는 검색 결과를 디스플레이한다. 또한, 제어부(120)는 발화 완결 판단 모듈을 실행시켜, 매 검색을 수행한 이후에 사용자가 발화를 완결하였는지 여부를 판단할 수 있다. 이에 따라, 발화 완결로 판단된 경우에는, 제어부(120)는 음성 입력 모드를 해제할 수 있다.
이상과 같이, 음성 제어 시스템은 다양한 형태로 구현될 수 있으며, 디스플레이 장치(100)의 구성 및 동작은 음성 제어 시스템의 형태에 따라 다양하게 변형될 수 있다.
도 8은 본 발명의 일 실시 예에 따른 서버 장치의 구성을 나타내는 블럭도이다. 도 8에 따르면, 서버 장치(800)는 서버 통신부(810), 서버 제어부(820), 데이터베이스(830)를 포함한다.
서버 통신부(810)는 디스플레이 장치(100)와 통신을 수행하기 위한 구성요소이다. 서버 통신부(810)는 음성 입력 모드로 동작하는 디스플레이 장치로부터 사용자 음성에 대응되는 텍스트를 수신할 수 있다.
데이터베이스(830)는 각종 컨텐츠 정보가 저장될 수 있다. 구체적으로는, EPG 정보나 최신 영화 정보, 케이블 방송 편성표, 웹 사이트 정보 등과 같은 다양한 정보들이 저장될 수 있다.
서버 제어부(820)는 서버 통신부(810)를 통해 전송되는 텍스트를 포함하는 정보를 데이터베이스로부터 검색한다. 이에 따라 검색된 컨텐츠 정보를 디스플레이 장치(100)로 제공한다. 서버 제어부(820)는 후속 사용자 음성에 따라 후속 텍스트가 전송되면, 후속 텍스트에 기초한 검색을 다시 수행하여 검색 결과를 추가로 전송할 수 있다.
서버 제어부(820)는 디스플레이 장치(100)에서 컨텐츠 정보가 선택되어 확인이 이루어지면, 추가 검색이 없을 것으로 판단하고 발화 완결 신호를 디스플레이 장치(100)로 전송할 수 있다. 또는, 서버 제어부(820)는 후속 검색에 의해 최하위 레벨의 정보나 컨텐츠에 대한 정보가 디스플레이 장치(100)로 제공되었다고 판단되면, 발화 완결 신호를 디스플레이 장치(100)로 전송하여 줄 수도 있다.
이와 같이, 서버 장치(800)는 디스플레이 장치(100)와 연동하여, 사용자 발화에 따른 검색 및 사용자 발화 완결 의도를 분석하는 작업을 수행할 수 있다. 결과적으로, 디스플레이 장치(100)가 과도한 연산 부담을 가지지 않고도, 상술한 바와 같은 음성 제어 방법을 수행할 수 있게 된다.
도 9는 본 발명의 일 실시 예에 따른 서버 장치의 음성 제어 지원 방법을 설명하기 위한 흐름도이다. 도 9에 따르면, 서버 장치(800)는 디스플레이 장치(100)로부터 텍스트가 수신되면(S910), 그 텍스트에 기초한 검색을 수행한다(S920).
서버 장치(800)는 검색 결과를 디스플레이 장치(100)로 전송한다(S930). 서버 장치(800)는 텍스트가 수신될 때마다 상술한 단계를 반복적으로 수행할 수 있다.
이러한 상태에서 서버 장치(800)는 사용자의 발화가 완결되었다고 판단되면(S940), 발화 완결 신호를 디스플레이 장치(100)로 전송한다(S950). 이에 따라, 디스플레이 장치(100)가 자동으로 음성 입력 모드를 해제하도록 할 수 있다.
반면, 발화가 미완결 상태라고 판단되면, 후속 사용자 음성에 따른 텍스트 전송을 대기한다(S960). 즉, 디스플레이 장치(100)에서는 음성 입력 모드가 유지될 수 있다.
이상과 같은 다양한 실시 예들에 따르면, 사용자가 음성 입력 모드를 이용하는 중에 사용자가 더 이상의 발화 의도가 없을 것으로 예측되면 자동으로 음성 입력 모드를 해제할 수 있다. 이에 따라, 불필요한 화면 가림으로 인한 시청 방해를 방지하고, 음성 오인식으로 인한 오작동 위험을 줄일 수 있으며, 불필요한 시스템 리소스의 낭비를 줄일 수 있다.
이상과 같은 다양한 음성 제어 방법 또는 음성 제어 지원 방법은, 프로그램 코드로 구현되어, 비일시적 판독 가능 매체(non-transitory readable medium)에 저장된 상태로 제공될 수 있다. 이러한 비일시적 판독 가능 매체가 탑재되는 서버 장치 또는 디스플레이 장치에서는 그 프로그램 코드를 실행시켜, 상술한 다양한 실시 예에 따른 방법을 실행할 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100 : 디스플레이 장치 110 : 입력부
120 : 제어부 130 : 디스플레이부
120 : 제어부 130 : 디스플레이부
Claims (21)
- 전자 장치에 있어서,
디스플레이부;
입력부; 및
제1 사용자 음성 입력이 상기 입력부를 통해 제1 시간 구간 내 수신되는 경우, 음성 인식에 대응하는 기능을 수행하여 상기 제1 사용자 음성 입력에 대응되는 정보를 획득하고,
하나의 결과에 대응되는 상기 정보가 획득되는 경우이면, 상기 하나의 결과를 표시하도록 상기 디스플레이부를 제어하고,
복수의 결과에 대응되는 상기 정보가 획득되는 경우이면, 상기 복수의 결과를 표시하도록 상기 디스플레이부를 제어하고, 상기 복수의 결과가 표시된 후 후속 사용자 음성 입력의 수신을 위한 제2 시간 구간 내 상기 복수의 결과 중 하나를 선택하기 위한 제2 사용자 음성 입력이 수신되면, 상기 제2 사용자 음성 입력에 대응되는 화면을 표시하도록 상기 디스플레이부를 제어하는 제어부;를 포함하는 전자 장치. - 제1항에 있어서,
상기 제1 시간 구간은 대기 시간이고, 상기 제2 시간 구간은 상기 제1 시간 구간과 동일한, 전자 장치. - 제1항에 있어서,
상기 제어부는,
상기 하나의 결과에 대응되는 상기 정보가 획득되는 경우이면, 상기 음성 인식 동작을 종료하는, 전자 장치. - 제1항에 있어서,
상기 제어부는,
상기 음성 인식 동작을 나타내는 그래픽 오브젝트를 표시하도록 상기 디스플레이부를 제어하는, 전자 장치. - 제4항에 있어서,
상기 제어부는,
상기 하나의 결과에 대응되는 상기 정보가 획득되는 경우, 상기 음성 인식 동작을 나타내는 그래픽 오브젝트의 형태를 변경하는, 전자 장치. - 제1항에 있어서,
상기 제어부는,
상기 복수의 결과에 대응되는 상기 정보가 획득되는 경우, 상기 복수의 결과 및 상기 음성 인식 동작을 나타내는 그래픽 오브젝트를 표시하도록 상기 디스플레이부를 제어하는, 전자 장치. - 제6항에 있어서,
상기 제어부는,
상기 복수의 결과 중 하나를 선택하기 위한 제2 사용자 음성 입력이 상기 제2 시간 구간 내 수신되는 경우, 상기 음성 인식 동작을 나타내는 그래픽 오브젝트의 형태를 변경하는, 전자 장치. - 제1항에 있어서,
상기 제어부는,
상기 복수의 결과 중 하나를 선택하기 위한 제2 사용자 음성 입력이 상기 제2 시간 구간 내 수신되는 경우, 상기 음성 인식 동작을 종료하는, 전자 장치. - 제1항에 있어서,
상기 제어부는,
상기 제1 사용자 음성 입력이 수신되는 경우, 상기 제1 사용자 음성 입력을 텍스트로 변환하고, 상기 제1 사용자 음성 입력에 대응되는 상기 텍스트를 표시하도록 상기 디스플레이부를 제어하는, 전자 장치. - 제1항에 있어서,
통신부;를 더 포함하고,
상기 제어부는,
상기 제1 사용자 음성 입력이 상기 입력부를 통해 상기 제1 시간 구간 내 수신되는 경우, 상기 제1 사용자 음성 입력에 대응되는 텍스트를 상기 통신부를 통해 서버로 전송하고, 상기 서버로부터 상기 텍스트에 대응되는 상기 정보를 획득하는, 전자 장치. - 전자 장치의 제어 방법에 있어서,
제1 사용자 음성 입력이 제1 시간 구간 내 수신되는 경우, 음성 인식에 대응하는 기능을 수행하여 상기 제1 사용자 음성 입력에 대응되는 정보를 획득하는 단계; 및
하나의 결과에 대응되는 상기 정보가 획득되는 경우이면, 상기 하나의 결과를 디스플레이부에 표시하고,
복수의 결과에 대응되는 상기 정보가 획득되는 경우이면, 상기 복수의 결과를 상기 디스플레이부에 표시하고, 상기 복수의 결과가 표시된 후 후속 사용자 음성 입력의 수신을 위한 제2 시간 구간 내 상기 복수의 결과 중 하나를 선택하기 위한 제2 사용자 음성 입력이 수신되면, 상기 제2 사용자 음성 입력에 대응되는 화면을 상기 디스플레이부에 표시하는 단계;를 포함하는 전자 장치의 제어 방법. - 제11항에 있어서,
상기 제1 시간 구간은 대기 시간이고, 상기 제2 시간 구간은 상기 제1 시간 구간과 동일한, 전자 장치의 제어 방법. - 제11항에 있어서,
상기 하나의 결과에 대응되는 상기 정보가 획득되는 경우이면, 상기 음성 인식 동작을 종료하는 단계;를 더 포함하는, 전자 장치의 제어 방법. - 제11항에 있어서,
상기 음성 인식 동작을 나타내는 그래픽 오브젝트를 상기 디스플레이부에 표시하는 단계;를 더 포함하는, 전자 장치의 제어 방법. - 제14항에 있어서,
상기 하나의 결과에 대응되는 상기 정보가 획득되는 경우, 상기 음성 인식 동작을 나타내는 그래픽 오브젝트의 형태를 변경하는 단계;를 더 포함하는, 전자 장치의 제어 방법. - 제11항에 있어서,
상기 복수의 결과에 대응되는 상기 정보가 획득되는 경우, 상기 복수의 결과 및 상기 음성 인식 동작을 나타내는 그래픽 오브젝트를 상기 디스플레이부에 표시하는 단계;를 더 포함하는, 전자 장치의 제어 방법. - 제16항에 있어서,
상기 복수의 결과 중 하나를 선택하기 위한 제2 사용자 음성 입력이 상기 제2 시간 구간 내 수신되는 경우, 상기 음성 인식 동작을 나타내는 그래픽 오브젝트의 형태를 변경하는 단계;를 더 포함하는, 전자 장치의 제어 방법. - 제11항에 있어서,
상기 복수의 결과 중 하나를 선택하기 위한 제2 사용자 음성 입력이 상기 제2 시간 구간 내 수신되는 경우, 상기 음성 인식 동작을 종료하는 단계;를 더 포함하는, 전자 장치의 제어 방법. - 제11항에 있어서,
상기 제1 사용자 음성 입력이 수신되는 경우, 상기 제1 사용자 음성 입력을 텍스트로 변환하고, 상기 제1 사용자 음성 입력에 대응되는 상기 텍스트를 상기 디스플레이부에 표시하는 단계;를 더 포함하는 전자 장치의 제어 방법. - 제11항에 있어서,
상기 제1 사용자 음성 입력이 상기 제1 시간 구간 내 수신되는 경우, 상기 제1 사용자 음성 입력에 대응되는 텍스트를 통신부를 통해 서버로 전송하고, 상기 서버로부터 상기 텍스트에 대응되는 상기 정보를 상기 통신부를 통해 획득하는 단계;를 더 포함하는, 전자 장치의 제어 방법. - 전자 장치의 제어 방법을 실행하기 위해 제어부에 의해 실행될 수 있는 프로그램을 기록한 비 일시적 컴퓨터 판독 가능 기록 매체에 있어서, 상기 제어 방법은,
제1 사용자 음성 입력이 제1 시간 구간 내 수신되는 경우, 음성 인식에 대응하는 기능을 수행하여 상기 제1 사용자 음성 입력에 대응되는 정보를 획득하는 단계; 및
하나의 결과에 대응되는 상기 정보가 획득되는 경우이면, 상기 하나의 결과를 디스플레이부에 표시하고,
복수의 결과에 대응되는 상기 정보가 획득되는 경우이면, 상기 복수의 결과를 상기 디스플레이부에 표시하고, 상기 복수의 결과가 표시된 후 후속 사용자 음성 입력의 수신을 위한 제2 시간 구간 내 상기 복수의 결과 중 하나를 선택하기 위한 제2 사용자 음성 입력이 수신되면, 상기 제2 사용자 음성 입력에 대응되는 화면을 상기 디스플레이부에 표시하는 단계;를 포함하는 비 일시적 컴퓨터 판독 가능 기록 매체.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200118473A KR102237832B1 (ko) | 2020-09-15 | 2020-09-15 | 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 |
KR1020210043182A KR102420155B1 (ko) | 2020-09-15 | 2021-04-02 | 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200118473A KR102237832B1 (ko) | 2020-09-15 | 2020-09-15 | 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130122131A Division KR102158315B1 (ko) | 2013-10-14 | 2013-10-14 | 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210043182A Division KR102420155B1 (ko) | 2020-09-15 | 2021-04-02 | 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200110723A KR20200110723A (ko) | 2020-09-25 |
KR102237832B1 true KR102237832B1 (ko) | 2021-04-09 |
Family
ID=72707658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200118473A KR102237832B1 (ko) | 2020-09-15 | 2020-09-15 | 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102237832B1 (ko) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130218573A1 (en) * | 2012-02-21 | 2013-08-22 | Yiou-Wen Cheng | Voice command recognition method and related electronic device and computer-readable medium |
KR101309794B1 (ko) * | 2012-06-27 | 2013-09-23 | 삼성전자주식회사 | 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템 |
-
2020
- 2020-09-15 KR KR1020200118473A patent/KR102237832B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130218573A1 (en) * | 2012-02-21 | 2013-08-22 | Yiou-Wen Cheng | Voice command recognition method and related electronic device and computer-readable medium |
KR101309794B1 (ko) * | 2012-06-27 | 2013-09-23 | 삼성전자주식회사 | 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템 |
Also Published As
Publication number | Publication date |
---|---|
KR20200110723A (ko) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102158315B1 (ko) | 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 | |
US10957323B2 (en) | Image display apparatus and method of controlling the same | |
USRE50198E1 (en) | Electronic apparatus and method for controlling the same | |
KR102304052B1 (ko) | 디스플레이 장치 및 그의 동작 방법 | |
KR102210433B1 (ko) | 전자 장치 및 이의 음성 인식 방법 | |
KR102246900B1 (ko) | 전자 장치 및 이의 음성 인식 방법 | |
KR102056461B1 (ko) | 디스플레이 장치 및 디스플레이 장치의 제어 방법 | |
KR101284594B1 (ko) | 영상처리장치 및 그 제어방법, 영상처리 시스템 | |
CN107958668B (zh) | 智能电视的声控选播方法、声控选播系统 | |
US20130169524A1 (en) | Electronic apparatus and method for controlling the same | |
KR20180024927A (ko) | 디스플레이 장치 및 디스플레이 장치의 제어 방법 | |
US20240221739A1 (en) | Dynamic voice search transitioning | |
KR102297519B1 (ko) | 서버 및 이의 가이드 문장 생성 방법 | |
EP3481072B1 (en) | Electronic apparatus and method for controlling thereof | |
KR102237832B1 (ko) | 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 | |
CN110839169B (zh) | 一种智能设备遥控装置及基于其的控制方法 | |
KR102482457B1 (ko) | 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 | |
KR102420155B1 (ko) | 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 | |
KR102160756B1 (ko) | 디스플레이 장치 및 디스플레이 장치의 제어 방법 | |
KR20140053760A (ko) | 영상처리장치 및 그 제어방법, 영상처리 시스템 | |
KR20140026220A (ko) | 단말 장치 및 단말 장치의 제어 방법 | |
KR102359163B1 (ko) | 전자 장치 및 이의 음성 인식 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |