KR20160029450A - 디스플레이 장치 및 그의 동작 방법 - Google Patents
디스플레이 장치 및 그의 동작 방법 Download PDFInfo
- Publication number
- KR20160029450A KR20160029450A KR1020140119006A KR20140119006A KR20160029450A KR 20160029450 A KR20160029450 A KR 20160029450A KR 1020140119006 A KR1020140119006 A KR 1020140119006A KR 20140119006 A KR20140119006 A KR 20140119006A KR 20160029450 A KR20160029450 A KR 20160029450A
- Authority
- KR
- South Korea
- Prior art keywords
- display device
- voice command
- received
- natural language
- voice
- Prior art date
Links
- 238000011017 operating method Methods 0.000 title 1
- 238000000034 method Methods 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims description 61
- 230000006870 function Effects 0.000 claims description 57
- 230000004044 response Effects 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 description 66
- 238000012549 training Methods 0.000 description 35
- 230000008569 process Effects 0.000 description 20
- 230000009471 action Effects 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 239000000470 constituent Substances 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000005465 channeling Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
본 발명의 실시 예에 따른 디스플레이 장치의 동작 방법은 사용자의 음성 명령어를 수신하는 단계와 수신된 음성 명령어에 대응하는 상기 디스플레이 장치의 기능이 저장되어 있지 않고, 상기 음성 명령어가 기준 빈도 수 이상 수신된 경우, 상기 음성 명령어를 저장하는 단계 및 상기 음성 명령어가 재 수신된 경우, 재 수신된 음성 명령어에 대응하는 상기 디스플레이 장치의 기능을 수행하는 단계를 포함한다.
Description
본 발명은 디스플레이 장치 및 그의 동작 방법에 관한 것으로, 보다 상세하게는 사용자가 자주 발화하는 음성 명령어를 저장하여 서버와 연동 없이 음성 명령어에 대응하는 기능을 수행하기 위한 디스플레이 장치 및 그의 동작 방법에 관한 것이다.
음성 인식 기술이란 인간이 발성하는 음성을 단말기가 인식할 수 있도록 문자 또는 코드 등으로 변환하는 기술이다. 이와 같은 음성 인식 기술은 타이핑으로 문자를 입력하는 것 보다 빠른 속도의 입력이 가능하기 때문에 음성 인식 기술의 정확도를 높이기 위한 연구가 활발히 진행되고 있다.
기계가 자연어를 이해해 자연스러운 대화가 가능하도록 하기 위해서는 다양한 기술이 필요하다. 우선 기계와 인간이 소리로 의사소통을 하기 위해 인간의 음성을 텍스트로 바꾸는 음성인식(Speech to Text, STT) 기술이 선행된다. 음성인식을 통해 인간의 음성을 텍스트로 변환하고 나면 입력된 텍스트를 여러 형태로 분석하는 과정이 이루어 진다. 인간의 음성이 무엇을 나타내는지, 어떠한 의도를 가지고 있는지를 분석한 뒤 사용자가 어떤 대상에 대해 질문을 한 것이라면 검색 및 시맨틱 기술 등을 활용해 사용자가 원하는 대답을 찾는다. 이 후 최종적으로 사용자 질문에 대한 답을 문장형태로 만드는 언어 생성과정을 거친 뒤 음성인식과 반대되는 발화기술(Text to Speech, TTS)를 통해 사용자에게 음성으로 전달 된다.
그러나, 종래에는 자연어 인식 처리 과정이 서버에서만 이루어지기 때문에 TV 제어를 위한 음성 명령어에 대한 실행을 위해서는 항상 서버와의 연동이 필요하다. TV와 서버 간의 연동은 음성 명령어에 대한 실행 시간을 증가시키는 문제가 있다.
본 발명은 음성 명령어로 디스플레이 장치의 기능을 제어하기 위해 서버와 연동할 필요 없이 사용자가 자주 발화하는 음성 명령어를 저장하여 음성 명령어에 대응하는 디스플레이 장치의 기능 실행 시간을 단축시킬 수 있는 디스플레이 장치 및 그의 동작 방법의 제공을 목적으로 한다.
본 발명의 실시 예에 따른 디스플레이 장치의 동작 방법은 사용자의 음성 명령어를 수신하는 단계와 수신된 음성 명령어에 대응하는 상기 디스플레이 장치의 기능이 저장되어 있지 않고, 상기 음성 명령어가 기준 빈도 수 이상 수신된 경우, 상기 음성 명령어를 저장하는 단계 및 상기 음성 명령어가 재 수신된 경우, 재 수신된 음성 명령어에 대응하는 상기 디스플레이 장치의 기능을 수행하는 단계를 포함한다.
본 발명의 실시 예에 따른 디스플레이 장치는 저장부와 외부와 유무선 네트워크로 연결을 위한 인터페이스를 제공하는 네트워크 인터페이스부와 사용자의 음성 명령어를 수신하는 음성 인식부 및 수신된 음성 명령어에 대응하는 상기 디스플레이 장치의 기능이 저장되어 있지 않고, 상기 음성 명령어가 기준 빈도 수 이상 수신된 경우, 상기 음성 명령어를 상기 저장부에 저장하도록 하고, 상기 음성 명령어가 재 수신된 경우, 재 수신된 음성 명령어에 대응하는 상기 디스플레이 장치의 기능을 수행하는 제어부를 포함한다.
본 발명의 다양한 실시 예에 따르면, 음성 명령어로 디스플레이 장치의 기능을 제어하기 위해 서버와 연동할 필요가 없어 음성 명령어에 대응하는 디스플레이 장치의 기능 실행 시간을 단축시킬 수 있다.
또한, 본 발명의 다양한 실시 예에 따르면, 특정 사용자가 발화한 음성 명령어의 패턴에 기초하여 사용자 맞춤형 음성 인식 서비스를 제공할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 디스플레이 장치의 구성을 블록도로 도시한 것이다.
도 2는 본 발명의 일 실시 예에 따른 음성 인식 시스템을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시 예에 따른 음성 인식 시스템의 동작 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시 예에 따라 음성 명령어를 텍스트로 변환하기 위해 패턴 매칭을 수행하는 과정을 보여준다.
도 5는 본 발명의 일 실시 예에 따라 사용자의 음성 명령어에 대응하는 텍스트 패턴이 NLP DB에 저장된 음성 인식 패턴에 매칭되는지를 확인하는 과정을 보여준다.
도 6은 본 발명의 일 실시 예에 따라 사용자의 발화 의도의 결과를 나타내는 의도 분석 결과를 구성하는 구문이다.
도 7 내지 도 8은 본 발명의 실시 예에 따라 NLP DB 및 STT DB에 사용자의 음성 명령어에 대응하는 패턴이 추가된 예를 보여준다.
도 9 내지 도 12는 사용자가 자주 발화하는 음성 명령어의 패턴을 분석하고, 분석 결과에 따라 자체적으로 자연어 인식 처리를 수행하는 실시 예를 설명하기 위한 도면이다.
도 13 내지 도 15는 디스플레이 장치에서 자주 사용되는 어플리케이션 또는 메뉴에서 선택 가능한 메뉴 항목을 트레이닝 대상으로 선정하는 실시 예이다.
도 16은 본 발명의 일 실시 예에 따라 NLP 서버가 사용자의 음성 명령어에 대한 의도 분석을 실시하고, 의도 분석 결과를 디스플레이 장치에 업데이트 되는 과정을 설명하는 도면이다.
도 2는 본 발명의 일 실시 예에 따른 음성 인식 시스템을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시 예에 따른 음성 인식 시스템의 동작 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시 예에 따라 음성 명령어를 텍스트로 변환하기 위해 패턴 매칭을 수행하는 과정을 보여준다.
도 5는 본 발명의 일 실시 예에 따라 사용자의 음성 명령어에 대응하는 텍스트 패턴이 NLP DB에 저장된 음성 인식 패턴에 매칭되는지를 확인하는 과정을 보여준다.
도 6은 본 발명의 일 실시 예에 따라 사용자의 발화 의도의 결과를 나타내는 의도 분석 결과를 구성하는 구문이다.
도 7 내지 도 8은 본 발명의 실시 예에 따라 NLP DB 및 STT DB에 사용자의 음성 명령어에 대응하는 패턴이 추가된 예를 보여준다.
도 9 내지 도 12는 사용자가 자주 발화하는 음성 명령어의 패턴을 분석하고, 분석 결과에 따라 자체적으로 자연어 인식 처리를 수행하는 실시 예를 설명하기 위한 도면이다.
도 13 내지 도 15는 디스플레이 장치에서 자주 사용되는 어플리케이션 또는 메뉴에서 선택 가능한 메뉴 항목을 트레이닝 대상으로 선정하는 실시 예이다.
도 16은 본 발명의 일 실시 예에 따라 NLP 서버가 사용자의 음성 명령어에 대한 의도 분석을 실시하고, 의도 분석 결과를 디스플레이 장치에 업데이트 되는 과정을 설명하는 도면이다.
이하, 본 발명과 관련된 실시 예에 대하여 도면을 참조하여 보다 상세하게 설명한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.
본 발명의 실시예에 따른 디스플레이 장치는, 예를 들어 방송 수신 기능에 컴퓨터 지원 기능을 추가한 지능형 디스플레이 장치로서, 방송 수신 기능에 충실하면서도 인터넷 기능 등이 추가되어, 수기 방식의 입력 장치, 터치 스크린 또는 공간 리모콘 등 보다 사용에 편리한 인터페이스를 갖출 수 있다. 그리고, 유선 또는 무선 인터넷 기능의 지원으로 인터넷 및 컴퓨터에 접속되어, 이메일, 웹브라우징, 뱅킹 또는 게임 등의 기능도 수행가능하다. 이러한 다양한 기능을 위해 표준화된 범용 OS가 사용될 수 있다.
따라서, 본 발명에서 기술되는 디스플레이 장치는, 예를 들어 범용의 OS 커널 상에, 다양한 애플리케이션이 자유롭게 추가되거나 삭제 가능하므로, 사용자 친화적인 다양한 기능이 수행될 수 있다. 상기 디스플레이 장치는, 보다 구체적으로 예를 들면, 네트워크 TV, HBBTV, 스마트 TV, LED TV, OLED TV 등이 될 수 있으며, 경우에 따라 스마트폰에도 적용 가능하다.
도 1은 본 발명의 일 실시예에 따른 디스플레이 장치의 구성을 블록도로 도시한 것이다.
도 1을 참조하면, 디스플레이 장치(100)는 방송 수신부(130), 외부장치 인터페이스부(135), 저장부(140), 사용자입력 인터페이스부(150), 제어부(170), 디스플레이부(180), 오디오 출력부(185), 전원공급부(190)를 포함할 수 있다.
방송 수신부(130)는 튜너(131), 복조부(132) 및 네트워크 인터페이스부(133)를 포함할 수 있다.
튜너(131)는 채널 선국 명령에 따라 특정 방송 채널을 선국할 수 있다. 튜너(131)는 선국된 특정 방송 채널에 대한 방송 신호를 수신할 수 있다.
복조부(132)는 수신한 방송 신호를 비디오 신호, 오디오 신호, 방송 프로그램과 관련된 데이터 신호로 분리할 수 있고, 분리된 비디오 신호, 오디오 신호 및 데이터 신호를 출력이 가능한 형태로 복원할 수 있다.
외부장치 인터페이스부(135)는 인접하는 외부 장치 내의 애플리케이션 또는 애플리케이션 목록을 수신하여, 제어부(170) 또는 저장부(140)로 전달할 수 있다.
네트워크 인터페이스부(133)는 디스플레이 장치(100)를 인터넷망을 포함하는 유/무선 네트워크와 연결하기 위한 인터페이스를 제공할 수 있다. 네트워크 인터페이스부(133)는 접속된 네트워크 또는 접속된 네트워크에 링크된 다른 네트워크를 통해, 다른 사용자 또는 다른 전자 기기와 데이터를 송신 또는 수신할 수 있다.
또한, 디스플레이 장치(100)에 미리 등록된 다른 사용자 또는 다른 전자 기기 중 선택된 사용자 또는 선택된 전자기기에, 디스플레이 장치(100)에 저장된 일부의 컨텐츠 데이터를 송신할 수 있다.
네트워크 인터페이스부(133)는 접속된 네트워크 또는 접속된 네트워크에 링크된 다른 네트워크를 통해, 소정 웹 페이지에 접속할 수 있다. 즉, 네트워크를 통해 소정 웹 페이지에 접속하여, 해당 서버와 데이터를 송신 또는 수신할 수 있다.
그리고, 네트워크 인터페이스부(133)는 컨텐츠 제공자 또는 네트워크 운영자가 제공하는 컨텐츠 또는 데이터들을 수신할 수 있다. 즉, 네트워크 인터페이스부(133)는 네트워크를 통하여 컨텐츠 제공자 또는 네트워크 제공자로부터 제공되는 영화, 광고, 게임, VOD, 방송 신호 등의 컨텐츠 및 그와 관련된 정보를 수신할 수 있다.
또한, 네트워크 인터페이스부(133)는 네트워크 운영자가 제공하는 펌웨어의 업데이트 정보 및 업데이트 파일을 수신할 수 있으며, 인터넷 또는 컨텐츠 제공자 또는 네트워크 운영자에게 데이터들을 송신할 수 있다.
네트워크 인터페이스부(133)는 네트워크를 통해, 공중에 공개(open)된 애플리케이션들 중 원하는 애플리케이션을 선택하여 수신할 수 있다.
저장부(140)는 제어부(170) 내의 각 신호 처리 및 제어를 위한 프로그램이 저장하고, 신호 처리된 영상, 음성 또는 데이터신호를 저장할 수 있다.
또한, 저장부(140)는 외부장치 인터페이스부(135) 또는 네트워크 인터페이스부(133)로부터 입력되는 영상, 음성, 또는 데이터 신호의 임시 저장을 위한 기능을 수행할 수도 있으며, 채널 기억 기능을 통하여 소정 이미지에 관한 정보를 저장할 수도 있다.
저장부(140)는 외부장치 인터페이스부(135) 또는 네트워크 인터페이스부(133)로부터 입력되는 애플리케이션 또는 애플리케이션 목록을 저장할 수 있다.
디스플레이 장치(100)는 저장부(140) 내에 저장되어 있는 컨텐츠 파일(동영상 파일, 정지영상 파일, 음악 파일, 문서 파일, 애플리케이션 파일 등)을 재생하여 사용자에게 제공할 수 있다.
사용자입력 인터페이스부(150)는 사용자가 입력한 신호를 제어부(170)로 전달하거나, 제어부(170)로부터의 신호를 사용자에게 전달할 수 있다. 예를 들어, 사용자입력 인터페이스부(150)는 블루투스(Bluetooth), WB(Ultra Wideband), 지그비(ZigBee) 방식, RF(Radio Frequency) 통신 방식 또는 적외선(IR) 통신 방식 등 다양한 통신 방식에 따라, 원격제어장치로부터 전원 온/오프, 채널 선택, 화면 설정 등의 제어 신호를 수신하여 처리하거나, 제어부(170)로부터의 제어 신호를 원격제어장치로 송신하도록 처리할 수 있다.
또한, 사용자입력 인터페이스부(150)는, 전원키, 채널키, 볼륨키, 설정치 등의 로컬키(미도시)에서 입력되는 제어 신호를 제어부(170)에 전달할 수 있다.
제어부(170)에서 영상 처리된 영상 신호는 디스플레이부(180)로 입력되어 해당 영상 신호에 대응하는 영상으로 표시될 수 있다. 또한, 제어부(170)에서 영상 처리된 영상 신호는 외부장치 인터페이스부(135)를 통하여 외부 출력장치로 입력될 수 있다.
제어부(170)에서 처리된 음성 신호는 오디오 출력부(185)로 오디오 출력될 수 있다. 또한, 제어부(170)에서 처리된 음성 신호는 외부장치 인터페이스부(135)를 통하여 외부 출력장치로 입력될 수 있다.
그 외, 제어부(170)는, 디스플레이 장치(100) 내의 전반적인 동작을 제어할 수 있다.
또한, 제어부(170)는 사용자입력 인터페이스부(150)를 통하여 입력된 사용자 명령 또는 내부 프로그램에 의하여 디스플레이 장치(100)를 제어할 수 있으며, 네트워크에 접속하여 사용자가 원하는 애플리케이션 또는 애플리케이션 목록을 디스플레이 장치(100) 내로 다운받을 수 있도록 할 수 있다.
제어부(170)는 사용자가 선택한 채널 정보 등이 처리한 영상 또는 음성신호와 함께 디스플레이부(180) 또는 오디오 출력부(185)를 통하여 출력될 수 있도록 한다.
또한, 제어부(170)는 사용자입력 인터페이스부(150)를 통하여 수신한 외부장치 영상 재생 명령에 따라, 외부장치 인터페이스부(135)를 통하여 입력되는 외부 장치, 예를 들어, 카메라 또는 캠코더로부터의, 영상 신호 또는 음성 신호가 디스플레이부(180) 또는 오디오 출력부(185)를 통해 출력될 수 있도록 한다.
한편, 제어부(170)는 영상을 표시하도록 디스플레이부(180)를 제어할 수 있으며, 예를 들어 튜너(131)를 통해 입력되는 방송 영상, 또는 외부장치 인터페이스부(135)를 통해 입력되는 외부 입력 영상, 또는 네트워크 인터페이스부를 통해 입력되는 영상, 또는 저장부(140)에 저장된 영상이 디스플레이부(180)에서 표시되도록 제어할 수 있다. 이 경우, 디스플레이부(180)에 표시되는 영상은 정지 영상 또는 동영상일 수 있으며, 2D 영상 또는 3D 영상일 수 있다.
또한, 제어부(170)는 디스플레이 장치(100) 내에 저장된 컨텐츠, 또는 수신된 방송 컨텐츠, 외부로 부터 입력되는 외부 입력 컨텐츠가 재생되도록 제어할 수 있으며, 상기 컨텐츠는 방송 영상, 외부 입력 영상, 오디오 파일, 정지 영상, 접속된 웹 화면, 및 문서 파일 등 다양한 형태일 수 있다.
디스플레이부(180)는 제어부(170)에서 처리된 영상 신호, 데이터 신호, OSD 신호 또는 외부장치 인터페이스부(135)에서 수신되는 영상 신호, 데이터 신호 등을 각각 R,G,B 신호로 변환하여 구동 신호를 생성할 수 있다.
한편, 도 1에 도시된 디스플레이 장치(100)는 본 발명의 일실시예에 불과하므로. 도시된 구성요소들 중 일부는 실제 구현되는 디스플레이 장치(100)의 사양에 따라 통합, 추가, 또는 생략될 수 있다.
즉, 필요에 따라 2 이상의 구성요소가 하나의 구성요소로 합쳐지거나, 혹은 하나의 구성요소가 2 이상의 구성요소로 세분되어 구성될 수 있다. 또한, 각 블록에서 수행하는 기능은 본 발명의 실시예를 설명하기 위한 것이며, 그 구체적인 동작이나 장치는 본 발명의 권리범위를 제한하지 아니한다.
본 발명의 또 다른 실시예에 따르면, 디스플레이 장치(100)는 도 1에 도시된 바와 달리, 튜너(131)와 복조부(132)를 구비하지 않고 네트워크 인터페이스부(133) 또는 외부장치 인터페이스부(135)를 통해서 영상을 수신하여 재생할 수도 있다.
예를 들어, 디스플레이 장치(100)는 방송 신호 또는 다양한 네트워크 서비스에 따른 컨텐츠들을 수신하기 위한 등과 같은 셋탑 박스 등과 같은 영상 처리 장치와 상기 영상 처리 장치로부터 입력되는 컨텐츠를 재생하는 컨텐츠 재생 장치로 분리되어 구현될 수 있다.
이 경우, 이하에서 설명할 본 발명의 실시예에 따른 디스플레이 장치의 동작 방법은 도 1을 참조하여 설명한 바와 같은 디스플레이 장치(100)뿐 아니라, 상기 분리된 셋탑 박스 등과 같은 영상 처리 장치 또는 디스플레이부(180) 및 오디오출력부(185)를 구비하는 컨텐츠 재생 장치 중 어느 하나에 의해 수행될 수도 있다.
다음으로 도 2를 참조하여 본 발명의 일 실시 예에 따른 음성 인식 시스템을 설명한다.
도 2를 참조하면, 음성 인식 시스템(10)은 디스플레이 장치(100), STT 서버(Speech To Text server, 300) 및 NLP 서버(Natural Language server, 500)를 포함할 수 있다.
디스플레이 장치(100)는 네트워크 인터페이스부(133)를 통해 STT 서버(300) 및 NLP 서버(500)와 유무선 네트워크 연결을 위한 인터페이스를 제공할 수 있다.
디스플레이 장치(100)는 도 1에 도시된 구성 요소 이외에 음성 인식부(171), 음성 텍스트 변환 DB(STT DB, 173), 자연어 인식 처리부(175) 및 자연어 인식 처리 DB(NLP DB, 177)을 더 포함할 수 있다.
음성 인식부(171)는 는 사용자의 음성 명령어를 입력 받기 위해 마이크와 같은 음성 입력부를 포함할 수 있다. 음성 입력부는 음성 인식부(171)와 별도의 구성요소로 구비될 수 있다. 음성 입력부는 도 1에서 설명한 사용자 입력 인터페이스부(150)에 포함될 수도 있다. 음성 인식부(171)는 마이크를 통해 입력된 사용자의 음성 명령어를 전기적인 음성 데이터로 처리할 수 있다.
음성 텍스트 변환 DB(STT DB, 173)은 음성 명령어 및 음성 명령어에 대응하는 텍스트 패턴 간의 대응 관계를 저장할 수 있다.
자연어 인식 처리부(NLP Client, 175)는 음성 인식부(171)로부터 변환된 텍스트 패턴을 수신하고, 텍스트 패턴이 기 저장된 음성 인식 패턴에 매칭되는지를 확인할 수 있다. 자연어 인식 처리부(175)는 매칭 결과, 텍스트 패턴이 기 저장된 음성 인식 패턴에 매칭된 경우, 제어부(170)는 매칭된 음성 인식 패턴에 대응하는 디스플레이 장치(100)의 기능을 수행할 수 있다.
자연어 인식 처리 DB(NLP DB, 177)는 디스플레이 장치(100)의 기능과 디스플레이 장치(100)의 기능에 대응하는 음성 인식 패턴 간의 대응관계를 저장하고 있을 수 있다.
음성 인식부(171), 음성 텍스트 변환 DB(STT DB, 173), 자연어 인식 처리부 (175) 및 자연어 인식 처리 DB(NLP DB, 177)는 제어부(170)에 포함될 수 있다.STT 서버(Speech To Text server, 300)는 음성 인식부(171)로부터 수신된 음성 명령어를 텍스트 패턴으로 변환하고(S109), 변환된 텍스트 패턴을 음성 인식부(171)로 전송할 수 있다.
NLP 서버(Natural Language server, 500)는 자연어 인식 처리부(175)로부터 수신된 의도 분석 요청에 따라 텍스트 패턴에 대한 사용자의 의도를 분석하고(S119), 의도 분석 결과를 자연어 인식 처리부(175)에 전송할 수 있다.
다음으로, 도 3을 참조하여, 본 발명의 일 실시 예에 따른 음성 인식 시스템의 동작 방법을 설명한다.
도 3은 본 발명의 일 실시 예에 따른 음성 인식 시스템의 동작 방법을 설명하기 위한 흐름도이다.
디스플레이 장치(100)의 음성 인식부(171)는 사용자의 음성 명령어를 수신한다(S101). 음성 인식부(171)는 사용자의 음성 명령어를 입력 받기 위해 마이크와 같은 음성 입력부를 포함할 수 있다. 음성 입력부는 음성 인식부(171)와 별도의 구성요소로 구비될 수 있다. 음성 입력부는 도 1에서 설명한 사용자 입력 인터페이스부(150)에 포함될 수도 있다. 음성 인식부(171)는 마이크를 통해 입력된 사용자의 음성 명령어를 전기적인 음성 데이터로 처리할 수 있다.
일 실시 예에서 음성 인식부(171)는 디스플레이 장치(100)의 네트워크가 차단된 상태에서 사용자의 음성 명령어를 수신할 수 있다. 디스플레이 장치(100)의 네트워크가 차단된 상태란, 디스플레이 장치(100)가 STT 서버(300) 및 NLP 서버(500)와 네트워크 연결이 이루어지지 않은 상태를 나타낼 수 있다.
또 다른 실시 예에서 음성 인식부(171)는 디스플레이 장치(100)의 네트워크가 연결된 상태에서 사용자의 음성 명령어를 수신할 수 있다. 디스플레이 장치(100)의 네트워크가 연결된 상태란, 디스플레이 장치(100)가 STT 서버(300) 및 NLP 서버(500)와 네트워크 연결이 이루어진 상태를 나타낼 수 있다.
디스플레이 장치(100)의 음성 인식부(171)는 수신된 음성 명령어에 대응하는 텍스트 데이터가 음성 텍스트 변환 DB(173)에 기 저장된 텍스트 패턴에 매칭되는지를 판단한다(S103). 음성 인식부(171)는 수신된 음성 명령어에 대응하는 텍스트 데이터가 기 저장된 텍스트 패턴에 매칭되는지 확인하기 위해 STT DB(173)를 검색할 수 있다. STT DB(173)는 복수의 음성 명령어들 및 복수의 텍스트 패턴들 간의 대응 관계를 저장할 수 있다. 음성 인식부(171)는 STT DB(173)를 검색하여 수신된 음성 명령어에 대응하는 텍스트 데이터와 복수의 텍스트 패턴들 각각 간이 매칭되는지 여부를 판단할 수 있다. 이에 대해서는 도 4를 참조하여 설명한다.
도 4는 본 발명의 일 실시 예에 따라 음성 명령어를 텍스트로 변환하기 위해 패턴 매칭을 수행하는 과정을 보여준다.
사용자가 <채널 올려라>라고 발화한 경우, 음성 인식부(171)는 <채널 올려라>라는 음성 명령어를 수신하고, 수신된 음성 명령어를 텍스트 데이터로 변환한다. 음성 인식부(171)는 STT DB(173)에 저장된 텍스트 패턴과 음성 명령어에 대응하는 텍스트 데이터 간의 매칭 과정을 수행한다. STT DB(173)에 저장된 텍스트 패턴은 (NBC, PBS, SOS, ABS)임을 가정한다. 음성 인식부(171)는 음성 명령어에 대응하는 텍스트 데이터와 저장된 텍스트 패턴 간의 유사한 정도를 나타내는 유사도를 판단할 수 있다. 음성 인식부(171)는 음성 명령어에 대응하는 텍스트 데이터와 기 저장된 텍스트 패턴 간의 유사도가 임계 유사도를 초과하는 경우, 텍스트 데이터를 기 저장된 해당 텍스트 패턴에 매칭되는 것으로 판단할 수 있다. 음성 인식부(171)는 음성 명령어에 대응하는 텍스트 데이터와 기 저장된 텍스트 패턴 간의 유사도가 임계 유사도 미만인 경우, 텍스트 데이터를 기 저장된 해당 텍스트 패턴에 매칭되지 않는 것으로 판단할 수 있다. 도 4를 참조하면, 기준 유사도는 4000이라는 값으로 설정될 수 있다. <채널 올려라>라는 음성 명령어에 대응하는 텍스트 데이터는 기 저장된 텍스트 패턴인 NBC와의 유사도가 1000, PBS와는 2500, SOS와는 2000, ABS와는 1560의 유사도를 가지므로, 기준 유사도인 4000을 초과하지 못한다. 이에 따라 음성 인식부(171)는 <채널 올려라>라는 음성 명령어에 대응하는 텍스트 데이터가 기 저장된 텍스트 패턴과 매칭되지 않음을 확인할 수 있다. 즉, 음성 인식부(171)는 사용자가 발화한 <채널 올려라>라는 음성 명령어를 인식하지 못한다.
다시 도 3을 설명한다.
판단 결과, 음성 명령어에 대응하는 텍스트 데이터가 기 저장된 텍스트 패턴에 매칭된 경우, 디스플레이 장치(100)의 음성 인식부(171)는 텍스트 데이터의 의도 분석을 위해 의도 분석 요청을 NLP 서버(500)에 전송한다(S117).
판단 결과, 음성 명령어에 대응하는 텍스트 데이터가 기 저장된 텍스트 패턴에 매칭되지 않는 경우, 디스플레이 장치(100)의 음성 인식부(171)는 음성 명령어를 STT 서버(300)에 전송한다(S107). 음성 인식부(171)는 음성 명령어에 대응하는 텍스트 패턴을 획득하기 위해 음성 명령어에 대응하는 음성 신호를 STT 서버(300)에 전송할 수 있다. 일 실시 예에서 음성 명령어에 대응하는 텍스트 데이터가 기 저장된 텍스트 패턴에 매칭되지 않은 경우, 디스플레이 장치(100)의 제어부(1170)는 해당 음성 명령어에 대응하는 텍스트 패턴이 존재하지 않음을 출력할 수 있다. 출력의 형태는 메시지, 소리 등 다양한 알림 방법이 사용될 수 있다. 또한, 음성 명령어에 대응하는 텍스트 데이터가 기 저장된 텍스트 패턴에 매칭되지 않은 경우, 디스플레이 장치(100)의 제어부(1170)는 해당 음성 명령어에 대응하는 디스플레이 장치(100)의 기능을 수행할 수 없음을 출력할 수 있다.
STT 서버(300)는 음성 인식부(171)로부터 수신된 음성 명령어를 텍스트 패턴으로 변환하고(S109), 변환된 텍스트 패턴을 음성 인식부(171)로 전송한다(S111). STT 서버(300)는 사용자의 음성 명령어 및 그에 대응하는 텍스트 패턴 간의 대응관계를 저장할 수 있다.
디스플레이 장치(100)의 자연어 인식 처리부(175)는 음성 인식부(171)로부터 변환된 텍스트 패턴을 수신하고, 텍스트 패턴이 기 저장된 음성 인식 패턴에 매칭되는지를 확인한다(S113).
자연어 인식 처리부(175)는 텍스트 패턴에 대응하는 디스플레이 장치(100)의 기능을 수행하기 위해 텍스트 패턴이 기 저장된 음성 인식 패턴에 매칭되는지를 확인할 수 있다. 일 실시 예에서 자연어 인식 처리 DB(177)는 디스플레이 장치(100)의 기능과 디스플레이 장치(100)의 기능에 대응하는 음성 인식 패턴 간의 대응관계를 저장하고 있을 수 있다. 하나의 디스플레이 장치(100)의 기능은 복수의 음성 인식 패턴들과 대응될 수 있다. 자연어 인식 처리부(175)는 자연어 인식 처리 DB(177)에 저장된 복수의 음성 인식 패턴들 각각과 수신된 텍스트 패턴을 비교하여 매칭되는지를 확인할 수 있다. 이에 대해서는 도 5를 참조하여 설명한다.
도 5는 본 발명의 일 실시 예에 따라 사용자의 음성 명령어에 대응하는 텍스트 패턴이 NLP DB에 저장된 음성 인식 패턴에 매칭되는지를 확인하는 과정을 보여준다.
도 5를 참조하면, 사용자가 <채널 올려라>라고 발화 한 경우, 자연어 인식 처리부(175)는 도 3의 과정을 통해 <채널 올려라>라는 음성 명령어에 대응하는 텍스트 패턴을 획득한다. NLP DB(177)는 저장된 채널 업 기능에 대응하는 복수의 음성 인식 패턴들 즉, <채널 올려>, <채널 올려줘>, <채널 올려줄래>라는 패턴들을 저장하고 있다. <채널 올려라>라는 텍스트 패턴은 NLP DB(177)에 저장되어 있지 않으므로, 자연어 인식 처리부(175)는 음성 명령어에 대응하는 텍스트 패턴이 NLP DB에 저장된 음성 인식 패턴에 매칭되지 않는 것으로 확인할 수 있다. 이에 따라 디스플레이 장치(100)는 해당 음성 명령어를 인식할 수 없어 디스플레이 장치(100)의 기능을 수행할 수 없게 된다.
다시 도 3을 설명한다.
매칭 결과, 텍스트 패턴이 기 저장된 음성 인식 패턴에 매칭된 경우, 제어부(170)는 매칭된 음성 인식 패턴에 대응하는 디스플레이 장치(100)의 기능을 수행한다(S115).
매칭 결과, 텍스트 패턴이 기 저장된 음성 인식 패턴에 매칭되지 않는 경우, 자연어 인식 처리부(175)는 해당 텍스트 패턴의 의도를 분석하기 위한 의도 분석 요청을 NLP 서버(500)에 전송한다(S117).
일 실시 예에서 자연어 인식 처리부(175)는 사용자의 음성 명령어에 대한 텍스트 패턴의 사용 빈도 수를 기준 확인할 수 있다. 음성 명령어에 대한 텍스트 패턴의 사용 빈도 수가 기준 사용 빈도 수를 초과하는 경우, 자연어 인식 처리부(175)는 텍스트 패턴에 대한 의도 분석을 NLP 서버(500)에 요청할 수 있다. 이에 대해서는 도 9에서 상세히 후술한다.
또 다른 실시 예에서 음성 명령어에 대한 텍스트 패턴의 사용 빈도 수는 NLP 서버(500)에 의해 확인될 수 있다. 이에 대해서는 도 10에서 상세히 후술한다.
일 실시 예에서 텍스트 패턴이 기 저장된 음성 인식 패턴에 매칭되지 않는 경우, 디스플레이 장치(100)의 제어부(170)는 해당 텍스트 패턴에 대응하는 디스플레이 장치(100)의 기능을 수행할 수 없음을 출력할 수 있다. 자연어 인식 처리부(175)는 해당 텍스트 패턴에 대응하는 디스플레이 장치(100)의 기능을 수행할 수 없음이 출력된 후, 의도 분석 요청을 NLP 서버(500)에 전송할 수 있다.
NLP 서버(500)는 자연어 인식 처리부(175)로부터 수신된 의도 분석 요청에 따라 텍스트 패턴에 대한 사용자의 의도를 분석하고(S119), 의도 분석 결과를 자연어 인식 처리부(175)에 전송한다(S121). 여기서, 사용자의 의도는 디스플레이 장치(100)가 특정 기능을 수행하도록 하는 목적을 나타낼 수 있다. NLP 서버(500)는 수신된 텍스트 패턴이 디스플레이 장치(100)의 어떠한 기능을 제어하기 위한 것인지를 확인할 수 있다. NLP 서버(500)는 공지된 자연어 인식 처리 기법을 이용하여 텍스트 패턴에 대한 사용자의 의도를 분석할 수 있다. NLP 서버(500)는 형태소 분석, 구문 분석, 화행 분석, 대화 처리 분석을 통해 사용자의 의도를 파악할 수 있다. 형태소 분석은 텍스트 패턴을 가장 작은 의미 단위인 형태소 단위로 구분해 각 형태소가 어떤 품사를 가지는지 파악하는 과정이다. 구문 분석은 형태소 분석 결과를 이용하여 텍스트 패턴을 명사구, 동사구, 형용사구 등 특정 기준에 따라 분석하고, 구분된 구들 사이에 어떠한 관계가 존재하는지를 파악하는 과정이다. 구문 분석을 통해 음성 명령어의 주어, 목적어, 수식어구들이 파악될 수 있다. 화행 분석은 사용자가 질문을 하는 것인지, 정보를 요청하는 것인지, 단순한 감정 표현인지 여부를 확인하는 사용자의 발화 의도를 분석하는 과정이다. 사용자의 발화 의도가 파악되면, 사용자의 음성 명령어에 대해 대답을 할지, 호응을 알지, 사용자가 원하는 액션을 하기 위한 필수적인 정보를 묻는 등 적절한 답변을 위한 대화 처리 과정이 이루어진다.
또 다른 실시 예에서 사용자의 의도 분석은 NLP 서버(500)를 거치지 않고, 자연어 인식 처리부(175) 자체에서 수행될 수도 있다.
NLP 서버(500)가 자연어 인식 처리부(175)에 전송하는 의도 분석 결과는 도 6과 같은 구문을 포함할 수 있다.
도 6은 본 발명의 일 실시 예에 따라 사용자의 발화 의도의 결과를 나타내는 의도 분석 결과를 구성하는 구문이다.
도 6을 참조하면, NLP 서버(500)의 응답인 의도 분석 결과는 명령 필드 및, 액션 필드를 포함할 수 있다. 명령 필드는 사용자의 음성 명령어가 어떠한 기기를 제어하기 위한 것인지를 나타내는 필드로, 예를 들어, tv(디스플레이 장치)의 기능을 제어하기 위함을 나타내는 command: tv_control가 사용될 수 있다. 액션 필드는 해당 기기의 어떠한 기능을 수행하는 것인지를 나타내는 필드로, tv의 채널 업을 나타내는 action: channel_up이 사용될 수 있다.
다시 도 3을 설명한다.
디스플레이 장치(100)의 자연어 인식 처리부(175)는 수신된 의도 분석 결과에 기초하여 음성 명령어에 대응하는 텍스트 패턴 및 텍스트 패턴에 대응하는 디스플레이 장치(100)의 기능을 매칭시켜 자연어 인식 처리 DB(177)에 저장한다(S123). 즉, 자연어 인식 처리부(175)는 저장되어 있지 않은 사용자의 음성 명령어에 대응하는 텍스트 패턴을 해당 기능에 매칭되도록 저장할 수 있다. 이에 따라 디스플레이 장치(100)의 자연어 인식 처리부(175)는 사용자의 음성 명령에 대응하는 텍스트 패턴에 대한 의도 분석 결과를 NLP 서버(500)에 요청할 필요없이 자체적으로 획득할 수 있고, 음성 명령어에 대응하는 디스플레이 장치(100)의 기능을 바로 수행할 수 있다.
일 실시 예에서 자연어 인식 처리부(175)는 의도 분석 결과에 기초하여 획득한 사용자의 음성 명령어에 대응하는 텍스트 패턴을 STT DB(173)에 추가하라는 요청을 음성 인식부(171)에 전달할 수 있다. 음성 인식부(171)는 수신된 요청에 따라 STT DB(173)에 사용자의 음성 명령어에 대응하는 텍스트 패턴을 저장할 수 있다. NLP DB(177) 및 STT DB(173)에 사용자의 음성 명령어에 대응하는 텍스트 패턴이 추가된 예를 도 7 내지 도 8을 참조하여 설명한다.
도 7 내지 도 8은 본 발명의 실시 예에 따라 NLP DB 및 STT DB에 사용자의 음성 명령어에 대응하는 패턴이 추가된 예를 보여준다.
도 7을 참조하면, NLP DB(177)은 디스플레이 장치(100)의 채널 업 기능에 대응하는 사용자의 발화어로 기존에 저장된 <채널 올려> 및 <채널 올려줘>이외에 새롭게 <채널 올려라>를 추가로 저장할 수 있다. 즉, 디스플레이 장치(100)의 채널 업 기능에 <채널 올려라>라는 음성 인식 패턴이 추가되었음을 확인할 수 있다.
도 8을 참조하면, STT DB(173)는 기존에 저장된 텍스트 패턴인 <채널 올려> 및 <채널 올려줘>이외에 <채널 올려라>라는 텍스트 패턴을 추가로 저장할 수 있다.
다시 도 3을 설명한다.
디스플레이 장치(100)의 음성 인식부(125)는 단계 S101에서 수신한 음성 명령어가 재 수신되는지를 확인하고(S125), 재 수신된 경우, 제어부(170)는 음성 명령어에 대응하는 디스플레이 장치(100)의 기능을 수행한다(S127).
본 발명의 실시 예에 따르면, 사용자가 발화한 음성 명령어에 대응하는 텍스트 패턴이 기 저장된 음성 인식 패턴에 매칭되지 않는 경우라도, 디스플레이 장치(100)는 해당 음성 명령어 및 음성 명령어에 대응하는 기능을 저장시킬 수 있다. 이에 따라 상기 음성 명령어가 재 입력되는 경우, 디스플레이 장치(100)는 STT 서버(300) 및 NLP 서버(500)와의 별다른 연동 없이 해당 음성 명령어를 인식하고, 인식된 음성 명령어에 대한 자연어 인식 처리를 자체적으로 수행할 수 있게 된다.
다음으로, 도 9 내지 도 12를 참조하여, 사용자가 자주 발화하는 음성 명령어의 패턴을 분석하고, 분석 결과에 따라 자체적으로 자연어 인식 처리를 수행하는 실시 예를 설명한다.
도 9는 본 발명의 실시 예에 따라 음성 명령어에 대한 자연어 인식 처리를 자체적으로 수행하기 위해 디스플레이 장치가 사용자의 발화 패턴을 분석하여 트레이닝 대상을 선정하는 기준을 설명하는 도면이다.
트레이닝 대상을 선정하는 이유는 사용자가 자주 발화하는 음성 명령어가 있으나, 디스플레이 장치(100)의 NLP DB(177)에 저장되어 있지 않은 음성 인식 패턴에 해당되는 경우, 자주 발화하는 음성 명령어의 자연어 인식 처리를 서버와의 연동 없이 자체적으로 수행하기 위함이다.
일 실시 예에서 디스플레이 장치(100)는 사용자 발화 로그에 기초하여 특정음성 명령어를 트레이닝 대상으로 선정할 수 있다. 트레이닝 대상이 되는 음성 명령어는 디스플레이 장치(100)의 NLP DB(177)에 저장되어 있지 않은 음성 인식 패턴이 후보가 될 수 있다. 도 9를 참조하면, 디스플레이 장치(100)의 제어부(170)는 사용자가 발화한 음성 명령어를 수시로 저장할 수 있고, 저장 결과에 따라 사용자 발화 로그를 생성할 수 있다. 디스플레이 장치(100)의 제어부(170)는 디스플레이 장치(100)의 기능 별로 사용자의 발화 로그를 저장할 수 있다. 도 9는 채널 업의 기능에 대응하는 사용자의 발화 로그를 보여준다. 도 9를 참조하면, 디스플레이 장치(100)의 제어부(170)는 사용자의 발화 로그에 포함된 음성 명령어들 중 <채널 올려라> 가 14회로 가장 많이 발화되었으므로, <채널 올려라>를 트레이닝 대상으로 선정할 수 있다. 또 다른 실시 예에서 제어부(170)는 사용자의 발화 로그에 포함된 음성 명령어들 중 기 설정된 횟수 이상 발화된 음성 명령어를 트레이닝 대상으로 선정할 수 있다.
다음으로 도 10을 설명한다.
도 10은 본 발명의 실시 예에 따라 음성 명령어에 대한 자연어 인식 처리를 자체적으로 수행하기 위해 NLP 서버가 사용자의 발화 패턴을 분석하여 트레이닝 대상을 선정하는 기준을 설명하는 도면이다.
NLP 서버(500)는 복수의 사용자들 각각에 대응하는 복수의 디스플레이 장치들로부터 복수의 사용자들이 발화한 음성 명령어들을 수신할 수 있다. NLP 서버(500)는 디스플레이 장치(100)의 특정 기능에 대응하는 음성 명령어들 중 가장 많이 발화된 음성 명령어를 트레이닝 대상으로 선정할 수 있다. 예를 들어, NLP 서버(500)는 저장된 모든 사용자의 발화 패턴을 분석하여 가장 많이 발화된 음성 명령어인 <채널 올려라>를 트레이닝 대상으로 선정할 수 있다. 또 다른 실시 예에서 NLP 서버(500)는 저장된 음성 명령어들 중 기 설정된 횟수 이상 발화된 음성 명령어를 트레이닝 대상으로 선정할 수 있다.
다음으로, 도 11 및 도 12를 설명한다.
먼저, 도 11은 선정된 음성 명령어를 트레이닝 하는 실시 예를 보여준다.
도 11을 참조하면, 자연어 인식 처리부(175)는 디스플레이 장치(100)가 선정한 음성 명령어(채널 올려라)에 대응하는 텍스트 패턴을 트레이닝 대상으로 선정하는 선정 요청을 NLP 서버(500)에 전송할 수 있다. NLP 서버(500)는 선정 요청에 대응하여 <채널 올려라>라는 텍스트 패턴을 트레이닝 대상으로 선정하였음을 알리는 선정 응답을 자연어 인식 처리부(175)에 전송할 수 있다. 선정 응답은 디스플레이 장치(100)의 기능에 대한 것임을 나타내는 명령(command) 필드, 디스플레이 장치(100)의 채널을 업 하는 기능을 나타내는 액션(action) 필드, 트레이닝 대상으로 선정 했음을 알리는 트레이닝 요구(need_to_training) 필드를 포함할 수 있다.
도 12는 디스플레이 장치가 트레이닝을 거친 음성 명령어들의 리스트를 NLP 서버로부터 획득하는 실시 예를 보여준다.
도 12를 참조하면, 자연어 인식 처리부(175)는 트레이닝을 거친 음성 명령어들의 리스트를 요청하는 트레이닝 리스트 요청(Get training list)을 NLP 서버(500)에 전송할 수 있다. NLP 서버(500)는 트레이닝 리스트 요청에 따라 트레이닝을 거친 음성 명령어들을 포함하는 리스트 응답을 자연어 인식 처리부(175)에 전송할 수 있다. 자연어 인식 처리부(175)는 수신된 리스트 응답에 기초하여 NLP DB(177)에 트레이닝을 거친 음성 명령어에 대응하는 텍스트 패턴을 디스플레이 장치(100)의 기능에 대응하는 음성 인식 패턴에 추가할 수 있다. 또한, 자연어 인식 처리부(175)는 음성 인식부(171)에 트레이닝을 거친 음성 명령어에 대응하는 텍스트 패턴을 STT DB(173)에 저장하라는 요청을 전송할 수 있다. 음성 인식부(171)는 자연어 인식 처리부(175)로부터 수신한 요청에 따라 트레이닝을 거친 음성 명령어에 대응하는 텍스트 패턴을 STT DB(173)에 저장할 수 있다. 이에 따라, 디스플레이 장치(100)는 추가된 음성 명령어를 수신하는 경우, STT 서버(300) 및 NLP 서버(500)와의 연동 없이 음성 명령어에 대한 자연어 인식 처리를 수행할 수 있다.
다음으로 도 13 내지 도 15를 참조하여 디스플레이 장치에서 자주 사용되는 어플리케이션 또는 메뉴에서 선택 가능한 메뉴 항목을 트레이닝 대상으로 선정하는 실시 예를 설명한다.
디스플레이 장치(100)는 사용자의 사용 패턴에 기초하여 사용 패턴 로그를 생성할 수 있다. 일 실시 예에서 사용 패턴은 기 설정된 기간 동안 사용자가 디스플레이 장치(100)의 특정 어플리케이션을 사용한 시간을 나타낼 수 있다. 예를 들어, 도 13에 도시된 바와 같이, 사용 패턴 로그는 Live TV 어플리케이션이 사용된 시간인 25334, webBrowser 어플리케이션이 사용된 시간인 2212, STB 어플리케이션이 사용된 시간인 2234를 포함하고 있다. 디스플레이 장치(100)의 제어부(170)는 사용 패턴 로그에 기초하여 가장 많이 사용된 어플리케이션인 Live TV 어플리케이션을 트레이닝 대상의 기초로 선정할 수 있다.
도 14는 Live TV 어플리케이션의 실행 화면을 보여준다. Live TV 어플리케이션의 실행 화면은 방송 프로그램이 재생되는 방송 재생 화면 및 TV 메뉴 화면을 포함한다. TV 메뉴 화면은 방송 메뉴, 채널 목록, 녹화 목록을 포함할 수 있다. 방송 메뉴, 채널 목록, 녹화 목록 각각은 사용자 입력에 의해 선택 가능한(clickable) 텍스트 일 수 있다.
디스플레이 장치(100)의 제어부(170)는 TV 메뉴 화면에 포함된 <방송 메뉴>, <채널 목록>, <녹화 목록> 이라는 텍스트 패턴을 자연어 인식 처리를 위한 트레이닝 대상으로 선정할 수 있다. 제어부(170)는 TV 메뉴 화면에 포함된 <방송 메뉴>, <채널 목록>, <녹화 목록>을 포함하는 트레이닝 선정 리스트를 생성하고, 생성된 트레이닝 선정 리스트를 NLP 서버(500)에 전송할 수 있다. 디스플레이 장치(100)는 NLP 서버(500)로부터 트레이닝 선정 리스트에 대해 자연어 인식 처리를 거친 트레이닝 결과를 수신할 수 있고, 수신된 트레이닝 결과를 NLP DB(177)에 저장할 수 있다.
한편, 도 14의 TV 메뉴 화면에서 <방송 메뉴>가 선택된 경우, 디스플레이 장치(100)는 도 15에 도시된 바와 같이, 방송 메뉴의 하위 항목들을 표시할 수 있다. 방송 메뉴의 하위 항목은 선호 채널, 채널 설정, 화질 설정이 포함될 수 있다. 디스플레이 장치(100)의 제어부(170)는 방송 메뉴의 하위 항목들인 <선호 채널>, <채널 설정>, <화질 설정> 이라는 텍스트 패턴을 자연어 인식 처리를 위한 트레이닝 대상으로 선정할 수 있다. 제어부(170)는 방송 메뉴의 하위 항목들인 <선호 채널>, <채널 설정>, <화질 설정>을 포함하는 트레이닝 선정 리스트를 생성하고, 생성된 트레이닝 선정 리스트를 NLP 서버(500)에 전송할 수 있다. 디스플레이 장치(100)는 NLP 서버(500)로부터 트레이닝 선정 리스트에 대해 자연어 인식 처리를 거친 트레이닝 결과를 수신할 수 있고, 수신된 트레이닝 결과를 NLP DB(177)에 저장할 수 있다. 사용자가 Live TV 어플리케이션을 이용하는 과정에서 <방송 메뉴>라는 음성 명령어를 발화한 경우, 디스플레이 장치(100)는 발화된 <방송 메뉴>를 수신하여 방송 메뉴의 하위 항목들을 표시할 수 있다. 또한, 사용자가 <선호 채널>이라는 음성 명령어를 발화한 경우, 디스플레이 장치(100)는 발화된 <선호 채널>을 수신하여, 선호 채널 리스트를 표시할 수 있다. 즉, 음성 명령어의 트레이닝 결과에 따라 디스플레이 장치(100)는 NLP 서버(500)와의 별다른 연동 없이 음성 명령어에 대응하는 기능을 곧바로 수행할 수 있다.
다음으로 도 16을 설명한다.
도 16은 본 발명의 일 실시 예에 따라 NLP 서버가 사용자의 음성 명령어에 대한 의도 분석을 실시하고, 의도 분석 결과를 디스플레이 장치에 업데이트 되는 과정을 설명하는 도면이다.
NLP DB(177)는 디스플레이 장치(100)의 채널 변경 기능에 대응하는 음성 인식 패턴을 저장할 수 있다. 음성 인식 패턴은 의도 부분과 대상 부분이 분리되어 NLP DB(177)에 저장될 수 있다. 예를 들어, <NBC 틀어라> 라는 음성 인식 패턴은 <틀어라>라는 채널 변경을 나타내는 의도 부분과 <NBC> 라는 특정 채널을 나타내는 대상 부분으로 구분되어 저장될 수 있다. 음성 인식 패턴이 의도 부분과 대상 부분으로 분리됨에 따라 자연어 인식 처리가 가능한 발화 패턴은 <NBC 틀어줘>, <NBC 틀어줄래>, <PBC 틀어줘>, <PBC 틀어줄래> 등과 같이 의도 부분과 대상 부분의 조합으로 구성될 수 있다.
한편, 디스플레이 장치(100)의 자연어 처리 인식부(175)가 <NBC 틀어라> 라는 사용자의 음성 명령어의 의도 분석을 NLP 서버(500)에 요청한 경우, NLP 서버(500)는 요청에 응답하여 의도 분석 결과를 자연어 처리 인식부(175)에 전송할 수 있다. 의도 분석 결과는 명령(command) 필드, 액션(action) 필드, 채널 넘버(value) 필드, 의도(intent) 필드, 대상(nameEntity) 필드를 포함할 수 있다. 채널 넘버 필드는 NBC 라는 채널에 대응하는 채널 넘버를 나타내는 필드이고, 의도 필드는 채널을 변경하라는 의도 파악 결과를 나타내는 필드이고, 대상 필드는 채널 변경의 대상이 되는 채널의 명칭을 나타내는 필드일 수 있다. 자연어 처리 인식부(175)는 NLP 서버(500)로부터 수신된 의도 분석 결과를 NLP DB(177)에 저장할 수 있다. 자연어 인식 처리부(175)는 의도 분석 결과에 기초하여 음성 명령어에 대응하는 음성 인식 패턴을 의도 부분과 대상 부분을 분리하여 NLP DB(177)에 업데이트 할 수 있다.
본 발명의 실시 예에 따르면, 디스플레이 장치(100)는 어떤 사용자가 발화 했는지와 상관없이 특정 음성 명령어가 수신되는 빈도 수를 파악한 후, 파악된 빈도 수가 기준 빈도 수 이상이면, 음성 명령어, 특정 음성 명령어에 대응하는 텍스트 패턴, 특정 음성 명령어에 대응하는 음성 인식 패턴, 특정 음성 명령어에 대응하는 디스플레이 장치(100)의 기능 간의 대응관계를 획득하여 저장할 수 있다. 이에 따라, 디스플레이 장치(100)는 어떠한 사용자가 특정 음성 명령어를 발화하더라도 STT 서버(300) 및 NLP 서버(500)와의 추가적인 연동 없이 특정 음성 명령어에 대응하는 기능을 곧 바로 수행시킬 수 있다.
또한, 본 발명의 또 다른 실시 예에 따르면, 사용자별 맞춤형 음성 인식 서비스를 제공할 수 있다. 예를 들어, 디스플레이 장치(100)는 사용자의 음성 명령어의 음성 성분에 기초하여 사용자를 식별할 수 있다. 디스플레이 장치(100)는 식별된 사용자로부터 동일한 음성 명령어를 복수 회 수신할 수 있다. 디스플레이 장치(100)는 해당 음성 명령어가 기준 빈도 수 이상인 경우, 음성 명령어에 대한 텍스트 패턴 인식 및 의도 분석 결과를 도 2에 도시한 바와 같이 획득할 수 있다. 이 경우, 서로 다른 사용자들에 의해 동일한 음성 명령어가 기준 빈도 수 이상 수신되더라도 디스플레이 장치(100)는 해당 음성 명령어에 대응하는 디스플레이 장치(100)의 기능을 저장하지 않을 수 있다. 즉, 디스플레이 장치(100)는 특정 사용자가 기준 빈도 수 이상 음성 명령어를 발화한 경우, 발화된 음성 명령어에 대한 의도 분석 결과를 획득할 수 있다. 디스플레이 장치(100)는 의도 분석 결과에 따라 특정 사용자와 특정 사용자의 음성 명령어 및 특정 사용자의 음성 명령어에 대응하는 디스플레이 장치(100) 간의 대응 관계를 획득하여 저장할 수 있다. 이에 따라, 디스플레이 장치(100)는 특정 사용자에게 적합한 음성 인식 서비스를 제공할 수 있다.본 발명의 일실시예에 의하면, 전술한 방법은, 프로그램이 기록된 매체에 프로세서가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 매체의 예로는, ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.
상기와 같이 설명된 디스플레이 장치는 상기 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
Claims (15)
- 디스플레이 장치의 동작 방법에 있어서,
사용자의 음성 명령어를 수신하는 단계;
수신된 음성 명령어에 대응하는 상기 디스플레이 장치의 기능이 저장되어 있지 않고, 상기 음성 명령어가 기준 빈도 수 이상 수신된 경우, 상기 음성 명령어를 저장하는 단계; 및
상기 음성 명령어가 재 수신된 경우, 재 수신된 음성 명령어에 대응하는 상기 디스플레이 장치의 기능을 수행하는 단계를 포함하는
디스플레이 장치의 동작 방법. - 제1항에 있어서,
상기 수신된 음성 명령어에 대응하는 텍스트 패턴의 빈도 수가 기준 빈도 수이상인 경우, 상기 텍스트 패턴에 대한 의도 분석을 자연어 인식 처리 서버에 요청하는 단계를 더 포함하고,
상기 음성 명령어를 저장하는 단계는
상기 요청에 대응하여 상기 자연어 인식 처리 서버로부터 상기 음성 명령어와 상기 디스플레이 장치의 기능 간의 대응 관계를 포함하는 의도 분석 결과를 수신하는 단계와
상기 수신된 의도 분석 결과를 저장하는 단계를 포함하는
디스플레이 장치의 동작 방법. - 제2항에 있어서,
상기 수신된 의도 분석 결과에 기초하여 상기 텍스트 패턴을 음성 텍스트 변환 DB에 추가하는 단계를 더 포함하는
디스플레이 장치의 동작 방법. - 제1항에 있어서,
자연어 인식 처리 서버에 의해 분석된 복수의 사용자들의 발화 패턴에 기초하여 상기 자연어 인식 처리 서버로부터 상기 의도 분석 결과를 수신하는 단계를 더 포함하는
디스플레이 장치의 동작 방법. - 제4항에 있어서,
상기 자연어 인식 처리 서버는 상기 디스플레이 장치의 특정 기능에 대응하는 상기 복수의 사용자들이 발화한 음성 명령어들 중 가장 많이 발화된 음성 명령어에 대해 상기 의도 분석 결과를 수행하는
디스플레이 장치의 동작 방법. - 제1항에 있어서,
상기 음성 명령어가 기준 빈도 수 이상 수신된 경우는 동일한 사용자에 의해 발화된 음성 명령어가 기준 빈도 수 이상 수신된 경우인
디스플레이 장치의 동작 방법. - 제1항에 있어서,
상기 디스플레이 장치에서 가장 많은 시간 동안 사용된 어플리케이션의 메뉴 화면에 포함된 텍스트들에 대한 의도 분석 요청을 자연어 인식 처리 서버에 전송하는 단계; 및
상기 의도 분석 요청에 대응하여 상기 텍스트들에 대한 의도 분석 결과를 수신하는 단계를 더 포함하는
디스플레이 장치의 동작 방법. - 제2항에 있어서,
상기 의도 분석 결과는
상기 텍스트 패턴을 의도 부분과 대상 부분으로 분리한 결과를 포함하고,
상기 텍스트 패턴을 상기 의도 부분과 상기 대상 부분으로 분리하여 저장하는 단계를 더 포함하는
디스플레이 장치의 동작 방법. - 디스플레이 장치에 있어서,
저장부;
외부와 유무선 네트워크로 연결을 위한 인터페이스를 제공하는 네트워크 인터페이스부;
사용자의 음성 명령어를 수신하는 음성 인식부; 및
수신된 음성 명령어에 대응하는 상기 디스플레이 장치의 기능이 저장되어 있지 않고, 상기 음성 명령어가 기준 빈도 수 이상 수신된 경우, 상기 음성 명령어를 상기 저장부에 저장하도록 하고, 상기 음성 명령어가 재 수신된 경우, 재 수신된 음성 명령어에 대응하는 상기 디스플레이 장치의 기능을 수행하는 제어부를 포함하는
디스플레이 장치. - 제9항에 있어서,
상기 제어부는
상기 수신된 음성 명령어에 대응하는 텍스트 패턴의 빈도 수가 기준 빈도 수이상인 경우, 상기 텍스트 패턴에 대한 의도 분석을 자연어 인식 처리 서버에 요청하고,
상기 요청에 대응하여 상기 자연어 인식 처리 서버로부터 상기 대응 관계를 포함하는 의도 분석 결과를 수신하고,
상기 저장부는
상기 수신된 의도 분석 결과를 저장하는
디스플레이 장치. - 제9항에 있어서,
상기 제어부는
자연어 인식 처리 서버에 의해 분석된 복수의 사용자들의 발화 패턴에 기초하여 자연어 인식 처리 서버로부터 상기 의도 분석 결과를 수신하는
디스플레이 장치. - 제11항에 있어서,
상기 자연어 인식 처리 서버는 상기 디스플레이 장치의 특정 기능에 대응하는 상기 복수의 사용자들이 발화한 음성 명령어들 중 가장 많이 발화된 음성 명령어에 대해 상기 의도 분석 결과를 수행하는
디스플레이 장치. - 제9항에 있어서,
상기 음성 명령어가 기준 빈도 수 이상 수신된 경우는 동일한 사용자에 의해 발화된 음성 명령어가 기준 빈도 수 이상 수신된 경우인
디스플레이 장치. - 제9항에 있어서,
상기 제어부는
상기 디스플레이 장치에서 가장 많은 시간 동안 사용된 어플리케이션의 메뉴 화면에 포함된 텍스트들에 대한 의도 분석 요청을 자연어 인식 처리 서버에 전송하고,
상기 의도 분석 요청에 대응하여 상기 텍스트들에 대한 의도 분석 결과를 수신하는
디스플레이 장치. - 제10항에 있어서,
상기 의도 분석 결과는
상기 텍스트 패턴을 의도 부분과 대상 부분으로 분리한 결과를 포함하고,
상기 제어부는
상기 텍스트 패턴을 상기 의도 부분과 상기 대상 부분으로 분리하여 저장하도록 하는
디스플레이 장치.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140119006A KR102304052B1 (ko) | 2014-09-05 | 2014-09-05 | 디스플레이 장치 및 그의 동작 방법 |
US15/508,848 US10586536B2 (en) | 2014-09-05 | 2014-11-14 | Display device and operating method therefor |
CN201480081712.9A CN106796496B (zh) | 2014-09-05 | 2014-11-14 | 显示设备及其操作方法 |
EP14901425.0A EP3190512B1 (en) | 2014-09-05 | 2014-11-14 | Display device and operating method therefor |
PCT/KR2014/010986 WO2016035933A1 (ko) | 2014-09-05 | 2014-11-14 | 디스플레이 장치 및 그의 동작 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140119006A KR102304052B1 (ko) | 2014-09-05 | 2014-09-05 | 디스플레이 장치 및 그의 동작 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160029450A true KR20160029450A (ko) | 2016-03-15 |
KR102304052B1 KR102304052B1 (ko) | 2021-09-23 |
Family
ID=55439979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140119006A KR102304052B1 (ko) | 2014-09-05 | 2014-09-05 | 디스플레이 장치 및 그의 동작 방법 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10586536B2 (ko) |
EP (1) | EP3190512B1 (ko) |
KR (1) | KR102304052B1 (ko) |
CN (1) | CN106796496B (ko) |
WO (1) | WO2016035933A1 (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190001059A (ko) * | 2017-06-26 | 2019-01-04 | 에스케이텔레콤 주식회사 | 인공지능 플랫폼 제공 장치 및 이를 이용한 컨텐츠 서비스 방법 |
KR20190060157A (ko) * | 2017-11-24 | 2019-06-03 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN111063345A (zh) * | 2018-10-17 | 2020-04-24 | 三星电子株式会社 | 电子装置、其控制方法、以及该电子装置的声音输出控制系统 |
US10832669B2 (en) | 2016-11-24 | 2020-11-10 | Samsung Electronics Co., Ltd. | Electronic device and method for updating channel map thereof |
WO2022149620A1 (ko) * | 2021-01-05 | 2022-07-14 | 엘지전자 주식회사 | 디스플레이 장치 |
US11508375B2 (en) | 2019-07-03 | 2022-11-22 | Samsung Electronics Co., Ltd. | Electronic apparatus including control command identification tool generated by using a control command identified by voice recognition identifying a control command corresponding to a user voice and control method thereof |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3518236B8 (en) * | 2014-10-10 | 2022-05-25 | Dolby Laboratories Licensing Corporation | Transmission-agnostic presentation-based program loudness |
US10409550B2 (en) * | 2016-03-04 | 2019-09-10 | Ricoh Company, Ltd. | Voice control of interactive whiteboard appliances |
US10417021B2 (en) | 2016-03-04 | 2019-09-17 | Ricoh Company, Ltd. | Interactive command assistant for an interactive whiteboard appliance |
CN108010523B (zh) * | 2016-11-02 | 2023-05-09 | 松下电器(美国)知识产权公司 | 信息处理方法以及记录介质 |
DE102016123547A1 (de) * | 2016-12-06 | 2018-06-07 | Fm Marketing Gmbh | Natural Language Dialog |
US10726056B2 (en) * | 2017-04-10 | 2020-07-28 | Sap Se | Speech-based database access |
US10496363B2 (en) | 2017-06-16 | 2019-12-03 | T-Mobile Usa, Inc. | Voice user interface for data access control |
US10334415B2 (en) * | 2017-06-16 | 2019-06-25 | T-Mobile Usa, Inc. | Voice user interface for device and component control |
DE102017123443A1 (de) * | 2017-10-09 | 2019-04-11 | Lenze Automation Gmbh | System für die Steuerung und/oder Diagnose eines elektrischen Antriebssystems |
CN107833574B (zh) * | 2017-11-16 | 2021-08-24 | 百度在线网络技术(北京)有限公司 | 用于提供语音服务的方法和装置 |
KR102527082B1 (ko) * | 2018-01-04 | 2023-04-28 | 삼성전자주식회사 | 디스플레이장치 및 그 제어방법 |
KR102576388B1 (ko) * | 2018-02-21 | 2023-09-08 | 엘지전자 주식회사 | 디스플레이 장치 및 그의 동작 방법 |
CN108538291A (zh) * | 2018-04-11 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音控制方法、终端设备、云端服务器及系统 |
CA3099516A1 (en) * | 2018-05-08 | 2019-11-14 | 3M Innovative Properties Company | Hybrid batch and live natural language processing |
EP3613037B1 (en) * | 2018-06-27 | 2020-10-21 | Google LLC | Rendering responses to a spoken utterance of a user utilizing a local text-response map |
CN109325239A (zh) * | 2018-11-05 | 2019-02-12 | 北京智启蓝墨信息技术有限公司 | 学生课堂表现管理方法及系统 |
WO2020230923A1 (ko) * | 2019-05-15 | 2020-11-19 | 엘지전자 주식회사 | 음성 인식 서비스를 제공하기 위한 디스플레이 장치 및 그의 동작 방법 |
CN112289320B (zh) * | 2019-07-25 | 2024-08-13 | Tcl科技集团股份有限公司 | 一种智能终端语音控制方法、系统及可读存储介质 |
US11317162B2 (en) | 2019-09-26 | 2022-04-26 | Dish Network L.L.C. | Method and system for navigating at a client device selected features on a non-dynamic image page from an elastic voice cloud server in communication with a third-party search service |
EP3798090A1 (de) * | 2019-09-27 | 2021-03-31 | Siemens Mobility GmbH | Verfahren zum überwachen einer gesprochenen kommunikation im zugverkehr und zugehöriges zugleitsystem |
KR20210054800A (ko) * | 2019-11-06 | 2021-05-14 | 엘지전자 주식회사 | 사용자의 음성샘플 수집 |
CN113360125A (zh) * | 2020-03-05 | 2021-09-07 | 西安诺瓦星云科技股份有限公司 | 图像显示方法、装置和系统 |
KR20220005348A (ko) * | 2020-07-06 | 2022-01-13 | 삼성전자주식회사 | 인공지능 가상 비서 서비스에서의 화면 제공 방법 및 이를 지원하는 사용자 단말 장치 및 서버 |
CN111935523B (zh) * | 2020-08-17 | 2022-07-22 | 百度在线网络技术(北京)有限公司 | 频道控制方法、装置、设备及存储介质 |
JP7459760B2 (ja) * | 2020-10-27 | 2024-04-02 | セイコーエプソン株式会社 | 表示システムの制御方法、表示システム |
US12061841B2 (en) | 2021-11-18 | 2024-08-13 | International Business Machines Corporation | Dynamic display accommodations for multiple voice commands |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140042642A (ko) * | 2012-09-28 | 2014-04-07 | 삼성전자주식회사 | 전자장치, 서버 및 그 제어방법 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4757525A (en) * | 1982-09-29 | 1988-07-12 | Vmx, Inc. | Electronic audio communications system with voice command features |
AU4141400A (en) * | 1999-04-29 | 2000-11-17 | Gil Israeli | Information retrieval system |
GB9911971D0 (en) * | 1999-05-21 | 1999-07-21 | Canon Kk | A system, a server for a system and a machine for use in a system |
JP4411965B2 (ja) * | 2003-12-24 | 2010-02-10 | 日産自動車株式会社 | 音声認識装置および音声認識方法 |
KR100636317B1 (ko) | 2004-09-06 | 2006-10-18 | 삼성전자주식회사 | 분산 음성 인식 시스템 및 그 방법 |
KR20120035529A (ko) * | 2010-10-06 | 2012-04-16 | 삼성전자주식회사 | 휴대용 단말기에서 적응적 제스처 인식 장치 및 방법 |
WO2013088287A1 (en) * | 2011-12-12 | 2013-06-20 | International Business Machines Corporation | Generation of natural language processing model for information domain |
US9575963B2 (en) * | 2012-04-20 | 2017-02-21 | Maluuba Inc. | Conversational agent |
US9767793B2 (en) * | 2012-06-08 | 2017-09-19 | Nvoq Incorporated | Apparatus and methods using a pattern matching speech recognition engine to train a natural language speech recognition engine |
KR101309794B1 (ko) * | 2012-06-27 | 2013-09-23 | 삼성전자주식회사 | 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템 |
CN104756100B (zh) * | 2012-11-30 | 2017-07-28 | 三菱电机株式会社 | 意图估计装置以及意图估计方法 |
WO2014109421A1 (ko) * | 2013-01-09 | 2014-07-17 | 엘지전자 주식회사 | 단말기 및 그 동작 제어 방법 |
US9123345B2 (en) * | 2013-03-14 | 2015-09-01 | Honda Motor Co., Ltd. | Voice interface systems and methods |
US9292254B2 (en) * | 2013-05-15 | 2016-03-22 | Maluuba Inc. | Interactive user interface for an intelligent assistant |
CN105122353B (zh) * | 2013-05-20 | 2019-07-09 | 英特尔公司 | 用于语音识别的计算装置和用于计算装置上的语音识别的方法 |
US9837075B2 (en) * | 2014-02-10 | 2017-12-05 | Mitsubishi Electric Research Laboratories, Inc. | Statistical voice dialog system and method |
-
2014
- 2014-09-05 KR KR1020140119006A patent/KR102304052B1/ko active IP Right Grant
- 2014-11-14 CN CN201480081712.9A patent/CN106796496B/zh active Active
- 2014-11-14 US US15/508,848 patent/US10586536B2/en active Active
- 2014-11-14 EP EP14901425.0A patent/EP3190512B1/en active Active
- 2014-11-14 WO PCT/KR2014/010986 patent/WO2016035933A1/ko active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140042642A (ko) * | 2012-09-28 | 2014-04-07 | 삼성전자주식회사 | 전자장치, 서버 및 그 제어방법 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10832669B2 (en) | 2016-11-24 | 2020-11-10 | Samsung Electronics Co., Ltd. | Electronic device and method for updating channel map thereof |
KR20190001059A (ko) * | 2017-06-26 | 2019-01-04 | 에스케이텔레콤 주식회사 | 인공지능 플랫폼 제공 장치 및 이를 이용한 컨텐츠 서비스 방법 |
KR20190060157A (ko) * | 2017-11-24 | 2019-06-03 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11455990B2 (en) | 2017-11-24 | 2022-09-27 | Samsung Electronics Co., Ltd. | Electronic device and control method therefor |
CN111063345A (zh) * | 2018-10-17 | 2020-04-24 | 三星电子株式会社 | 电子装置、其控制方法、以及该电子装置的声音输出控制系统 |
CN111063345B (zh) * | 2018-10-17 | 2024-01-05 | 三星电子株式会社 | 电子装置、其控制方法、以及该电子装置的声音输出控制系统 |
US11508375B2 (en) | 2019-07-03 | 2022-11-22 | Samsung Electronics Co., Ltd. | Electronic apparatus including control command identification tool generated by using a control command identified by voice recognition identifying a control command corresponding to a user voice and control method thereof |
WO2022149620A1 (ko) * | 2021-01-05 | 2022-07-14 | 엘지전자 주식회사 | 디스플레이 장치 |
Also Published As
Publication number | Publication date |
---|---|
EP3190512A4 (en) | 2018-04-25 |
CN106796496A (zh) | 2017-05-31 |
WO2016035933A1 (ko) | 2016-03-10 |
CN106796496B (zh) | 2020-09-18 |
EP3190512A1 (en) | 2017-07-12 |
US20170256260A1 (en) | 2017-09-07 |
EP3190512B1 (en) | 2022-04-20 |
US10586536B2 (en) | 2020-03-10 |
KR102304052B1 (ko) | 2021-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102304052B1 (ko) | 디스플레이 장치 및 그의 동작 방법 | |
US11869500B2 (en) | Apparatus, system, and method for generating voice recognition guide by transmitting voice signal data to a voice recognition server which contains voice recognition guide information to send back to the voice recognition apparatus | |
JP6375521B2 (ja) | 音声検索装置、音声検索方法、および表示装置 | |
CN108063969B (zh) | 显示设备、控制显示设备的方法、服务器以及控制服务器的方法 | |
CN109508167B (zh) | 显示装置和在语音识别系统中控制显示装置的方法 | |
US20140006022A1 (en) | Display apparatus, method for controlling display apparatus, and interactive system | |
US20140195230A1 (en) | Display apparatus and method for controlling the same | |
KR102210933B1 (ko) | 음성 신호에 따라 컨텐츠 정보를 검색하여 제공하는 디스플레이 장치, 서버 장치 및 이들을 포함하는 음성 입력 시스템과, 그 방법들 | |
US9230559B2 (en) | Server and method of controlling the same | |
US11664024B2 (en) | Artificial intelligence device | |
US20140019141A1 (en) | Method for providing contents information and broadcast receiving apparatus | |
US20240221739A1 (en) | Dynamic voice search transitioning | |
KR102576388B1 (ko) | 디스플레이 장치 및 그의 동작 방법 | |
US20220293106A1 (en) | Artificial intelligence server and operation method thereof | |
KR20240084531A (ko) | 사용자의 발화를 기반으로 컨텐츠를 제공하는 장치 및 시스템 | |
KR20190140890A (ko) | 디스플레이 장치 및 디스플레이 장치의 제어 방법 | |
KR102544612B1 (ko) | 영상 콘텐츠 연동형 서비스 제공 방법 및 장치 | |
KR102587112B1 (ko) | 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 | |
KR20160031253A (ko) | 디스플레이 장치 및 그의 동작 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |