KR20140034034A - Answering questions using environmental context - Google Patents
Answering questions using environmental context Download PDFInfo
- Publication number
- KR20140034034A KR20140034034A KR1020130037540A KR20130037540A KR20140034034A KR 20140034034 A KR20140034034 A KR 20140034034A KR 1020130037540 A KR1020130037540 A KR 1020130037540A KR 20130037540 A KR20130037540 A KR 20130037540A KR 20140034034 A KR20140034034 A KR 20140034034A
- Authority
- KR
- South Korea
- Prior art keywords
- content
- data
- engine
- identifying
- environmental
- Prior art date
Links
- 230000007613 environmental effect Effects 0.000 title claims abstract description 163
- 238000000034 method Methods 0.000 claims abstract description 98
- 238000013507 mapping Methods 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000013518 transcription Methods 0.000 claims abstract description 7
- 230000035897 transcription Effects 0.000 claims abstract description 7
- 238000004590 computer program Methods 0.000 abstract description 11
- 230000008569 process Effects 0.000 description 35
- 230000015654 memory Effects 0.000 description 33
- 238000004891 communication Methods 0.000 description 16
- 238000001514 detection method Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 229920001690 polydopamine Polymers 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/685—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/433—Query formulation using audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/686—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
- G10H2240/141—Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
본 출원은 2012년 9월 10일자로 출원된 미국 가출원번호 61/698,934, 2012년 9월 10일자로 출원된 61/698,949호, 2012년 9월 25일자로 출원된 미국 특허 출원번호 13/626,439, 2012년 9월 25일자로 출원된 미국 특허 출원번호 13/626,351, 및 2013년 2월 15일자로 출원된 미국 특허 출원번호 13/768,232에 대해 우선권을 주장하며, 이 문서들의 모든 내용은 참조로서 본 명세서에 포함된다.This application is directed to US Provisional Application No. 61 / 698,934, filed September 10, 2012, 61 / 698,949, filed September 10, 2012, US Patent Application No. 13 / 626,439, filed September 25, 2012, Priority is given to US Patent Application No. 13 / 626,351, filed September 25, 2012, and US Patent Application No. 13 / 768,232, filed February 15, 2013, the entire contents of which are incorporated by reference. Included in the specification.
본 명세서는 자연 언어 쿼리(natural language query)와 환경 정보(environmental information)에 기초하여 쿼리의 결과들을 식별하는 것에 관한 것으로, 환경 정보(예를 들어, 콘텍스트(context))를 이용하여 질문들에 답변하기 위한 것이다. This disclosure relates to identifying results of a query based on natural language query and environmental information, and answers questions using environmental information (eg, context). It is to.
일반적으로, 탐색 쿼리는 사용자가 탐색 엔진에 탐색의 실행을 요청할 때, 탐색 엔진에 제출(submit)하는 하나 이상의 용어(term)를 포함한다. 그 밖의 접근법 중에서는, 사용자가 키보드 상에서 타이핑하거나, 또한 음성 쿼리의 콘텍스트에서 모바일 디바이스의 마이크로폰에 쿼리 용어들을 말함으로써 탐색 쿼리의 쿼리 용어들을 입력할 수도 있다. 음성 쿼리들은 음성 인식 기술(speech recognition technology)을 이용하여 처리될 수 있다. In general, a search query includes one or more terms that submit to the search engine when the user requests the search engine to execute the search. Among other approaches, the user may enter query terms of the search query by typing on the keyboard or by saying query terms to the microphone of the mobile device in the context of the voice query. Speech queries can be processed using speech recognition technology.
본 명세서에서 설명된 주제의 일부 혁신적 양태에 따르면, 환경 정보(예컨대, 주위 소음(ambient noise))는 쿼리 프로세싱 시스템이 자연 언어 쿼리를 답변하는데 도움을 줄 수 있다. 예를 들어, 사용자는 자신이 보고 있는 텔레비전 프로그램에 관한 질문(에컨대, "이 영화에 나오는 주인공은 누구인가요?")을 물어볼 수 있다. 사용자의 모바일 디바이스는 사용자의 발화(utterance)와, 텔레비전 프로그램의 사운드트랙 오디오를 포함할 수 있는 환경 정보를 검출한다. 모바일 컴퓨팅 디바이스는 발화 및 환경 정보를 파형 데이터(waveform data)로서 인코딩하고, 및 상기 파형 데이터를 서버-기반 컴퓨팅 환경(server-based computing enviorment)에 제공한다. According to some innovative aspects of the subject matter described herein, environmental information (eg, ambient noise) can help the query processing system answer natural language queries. For example, a user may ask a question about a television program he is watching (eg, "Who is the hero in this movie?"). The user's mobile device detects user's utterance and environmental information, which may include soundtrack audio of the television program. The mobile computing device encodes speech and environmental information as waveform data, and provides the waveform data to a server-based computing environment.
컴퓨팅 환경은 상기 파형 데이터의 환경 데이터로부터 상기 발화를 분리한 다음, 상기 발화에 대한 표기(transcription)를 획득한다. 컴퓨팅 환경은 예를 들어, 영화의 이름을 식별함으로써 상기 환경 데이터 및 상기 발화에 관련된 엔티티 데이터(entity data)를 추가로 식별한다. 이어서 상기 표기와 상기 엔티티 데이터로부터, 상기 컴퓨팅 환경은 하나 이상의 결과(예컨대, 상기 사용자의 질문에 응답하는 결과들)를 식별할 수 있다. 특히, 상기 하나 이상의 결과들은 "이 영화에 어떤 배우가 나오나요?"(예컨대, 배우의 이름)에 대한 사용자의 질문에 대한 답변을 포함할 수 있다. 상기 컴퓨팅 환경은 이러한 결과들을 상기 모바일 컴퓨팅 디바이스의 상기 사용자에게 제공할 수 있다. The computing environment separates the utterance from the environmental data of the waveform data and then obtains a transcription for the utterance. The computing environment further identifies the environmental data and entity data related to the utterance, for example by identifying the name of the movie. From the notation and the entity data, the computing environment can then identify one or more results (eg, results in response to the user's question). In particular, the one or more results may include an answer to the user's question about “What actor is in the movie?” (Eg, actor's name). The computing environment may provide these results to the user of the mobile computing device.
본 명세서에서 설명된 주제의 혁신적인 양태들은 방법으로 구현될 수 있으며, 이 방법은 발화 및 환경 데이터를 인코딩하는 오디오 데이터를 수신하는 동작, 상기 발화의 표기를 획득하는 동작, 상기 환경 데이터를 이용하여 엔티티를 식별하는 동작, 상기 표기의 적어도 일부와 상기 엔티티를 식별하는 데이터를 포함하는 쿼리를 자연 언어 쿼리 프로세싱 엔진에 제출하는 동작, 및 상기 쿼리에 대한 하나 이상의 결과를 획득하는 동작을 포함한다. Innovative aspects of the subject matter described herein may be implemented in a method, the method comprising: receiving audio data encoding speech and environmental data, obtaining an indication of the speech, an entity using the environmental data Identifying a query, submitting a query to a natural language query processing engine that includes at least a portion of the notation and data identifying the entity, and obtaining one or more results for the query.
이러한 양태들의 다른 실시예들은 상응하는 시스템들, 장치들, 및 컴퓨터 저장 디바이스들 상에 인코딩되어, 본 발명의 동작들을 수행하도록 구성된 컴퓨터 프로그램을 포함한다.Other embodiments of these aspects include computer programs encoded on corresponding systems, apparatuses, and computer storage devices, configured to perform the operations of the present invention.
이러한 및 다른 실시예들은 하나 이상의 후술하는 특징을 선택적으로 각각 포함할 수 있다. 예를 들어, 적어도 하나의 결과의 표현(representation)을 출력한다. 상기 엔티티가 상기 발화를 추가로 이용하여 식별될 수 있다. 상기 쿼리를 생성한다. 상기 쿼리를 생성하는 동작은 상기 표기와 상기 엔티티를 식별하는 상기 데이터를 연관시키는 동작을 포함한다. 상기 연관시키는 동작은 상기 표기를 상기 엔티티를 식별하는 상기 데이터로 태깅(tagging)하는 동작을 포함한다. 연관시키는 동작은 상기 표기의 일부를 상기 엔티티를 식별하는 상기 데이터로 대체하는 동작을 더 포함한다. 상기 대체하는 동작은 상기 표기의 하나 이상의 단어를 상기 엔티티를 식별하는 상기 데이터로 대체하는 동작을 더 포함한다. 상기 환경 데이터를 수신하는 동작은 환경 오디오 데이터, 환경 이미지 데이터, 또는 이 둘 모두를 수신하는 동작을 더 포함한다. 상기 환경 오디오 데이터를 수신하는 동작은 배경 소음(background noise)을 포함하는 추가 오디오 데이터를 수신하는 동작을 더 포함한다. These and other embodiments may optionally include one or more of the features described below, respectively. For example, it outputs a representation of at least one result. The entity may be identified further using the utterance. Create the query. Generating the query includes associating the notation with the data identifying the entity. The associating operation includes tagging the notation with the data identifying the entity. Associating further includes replacing a portion of the notation with the data identifying the entity. The replacing operation further includes replacing one or more words of the notation with the data identifying the entity. Receiving the environmental data further includes receiving environmental audio data, environmental image data, or both. Receiving the environmental audio data further includes receiving additional audio data that includes background noise.
본 명세서에서 설명된 주제의 일부 혁신적인 양태들에 따르면, 미디어 콘텐츠의 아이템이 환경 오디오 데이터와 발화된 자연 언어 쿼리에 기초하여 식별된다. 예를 들어, 사용자는 자신이 보고 있는 텔레비전 프로그램에 관한 질문 예컨대, "우리가 지금 뭘 보고 있습니까?")를 물을 수 있다. 그 질문은 그 질문이 텔레비전 쇼에 관한 것이며 다른 형태의 미디어 콘텐츠에 대한 것이 아니라는 것을 제안하는 키워드들(예컨대, "보기(watching)")을 포함할 수 있다. 사용자의 모바일 디바이스는 사용자의 발화와, 텔레비전 프로그램의 배경 오디오를 포함할 수 있는 환경 데이터를 검출한다. 모바일 컴퓨팅 디바이스는 상기 발화와 상기 환경 데이터를 파형 데이터로 인코딩하고, 및 그 파형 데이터를 서버-기반 컴퓨팅 환경에 제공한다. According to some innovative aspects of the subject matter described herein, items of media content are identified based on environmental audio data and spoken natural language queries. For example, a user may ask a question about a television program he is watching, such as "What are we watching now?". The question may include keywords (eg, “watching”) that suggest that the question is about a television show and not about other forms of media content. The user's mobile device detects the user's speech and environmental data, which may include background audio of the television program. The mobile computing device encodes the utterance and the environmental data into waveform data and provides the waveform data to a server-based computing environment.
컴퓨팅 환경은 상기 파형 데이터의 환경 데이터로부터 상기 발화를 분리한 다음, 상기 발화에 대한 표기를 획득하기 위해 상기 발화를 처리한다. 상기 표기로부터, 상기 컴퓨팅 환경은 임의의 콘텐트 유형-특정 키워드들(예컨대, 키워드 "보기(watching)")를 검출한다. 이어 컴퓨팅 환경은 상기 환경 데이터에 기초하여 미디어 콘텐츠의 아이템들을 식별할 수 있고, 상기 식별된 아이템들로부터 상기 키워드들과 연관된 특정 콘텐츠 유형에 매칭되는 멀티 콘텐츠의 특정 아이템을 선택할 수 있다. 컴퓨팅 환경은 상기 멀티미디어 콘텐츠의 특정 아이템의 표현을 상기 모바일 컴퓨팅 디바이스의 상기 사용자에게 제공한다. The computing environment separates the utterance from the environmental data of the waveform data and then processes the utterance to obtain a representation for the utterance. From the notation, the computing environment detects any content type-specific keywords (eg, keyword "watching"). The computing environment may then identify items of media content based on the environmental data, and select from the identified items specific items of multi-content that match a particular content type associated with the keywords. A computing environment provides the user of the mobile computing device with a representation of a particular item of multimedia content.
본 명세서에서 설명된 주제의 혁신적인 양태들은 방법들로 구현될 수 있는데, 이 방법은 (ⅰ) 발화된 자연 언어 쿼리를 인코딩하는 오디오 데이터 및 (ⅱ) 환경 오디오 데이터를 수신하는 동작, 상기 발화된 자연 언어 쿼리에 대한 표기를 획득하는 동작, 상기 표기에 있는 하나 이상의 키워드에 연관된 특정 콘텐츠 유형을 판단하는 동작, 상기 환경 오디오 데이터의 적어도 일부를 콘텐츠 인식 엔진에 제공하는 동작, 및 상기 콘텐츠 인식 엔진에 의해 출력되었고, 상기 특정 콘텐츠 유형에 매칭되는 콘텐츠 아이템을 식별하는 동작을 포함한다. Innovative aspects of the subject matter described herein may be implemented in methods, which include (i) receiving audio data encoding a spoken natural language query and (ii) receiving environmental audio data, the spoken natural Obtaining a representation for a language query, determining a particular content type associated with one or more keywords in the representation, providing at least a portion of the environmental audio data to a content recognition engine, and by the content recognition engine And outputting a content item matching the specific content type.
이러한 양태들의 다른 실시예들은 상응하는 시스템들, 장치들, 및 컴퓨팅 저장 디바이스들에 인코딩되고 상기 방법들의 동작들을 수행하도록 구성된 컴퓨터 프로그램들을 포함한다. Other embodiments of these aspects include computer programs encoded in corresponding systems, apparatuses, and computing storage devices and configured to perform the operations of the methods.
이러한 및 다른 실시예들은 하나 이상의 후술하는 특징을 선택적으로 각각 포함할 수 있다. 예를 들어, 특정 콘텐츠 유형은 영화 콘텐츠 유형, 음악 콘텐츠 유형, 텔레비전 쇼 콘텐츠 유형, 오디오 팟캐스트 콘텐츠 유형, 북 콘텐츠 유형, 미술작품 콘텐츠 유형, 예고편(trailer) 콘텐츠 유형, 비디오 팟게스트 콘텐츠 유형, 인터넷 비디오 콘텐츠 유형, 또는 비디오 게임 콘텐츠 유형이다. 상기 환경 오디오 데이터를 수신하는 동작은 배경 소음을 포함하는 추가 오디오 데이터를 수신하는 동작을 더 포함한다. 상기 배경 소음은 특정 콘텐츠 유형과 연관된다. 비디오 데이터 또는 이미지 데이터를 포함하는 추가 환경 데이터를 수신한다. 상기 비디오 데이터 또는 상기 이미지 데이터는 상기 특정 콘텐츠 유형과 연관된다. 상기 환경 오디오 데이터의 적어도 일부를 상기 콘텐츠 인식 엔진에 제공하는 동작은 상기 환경 오디오 데이터의 상기 일부를 오디오 핑거프린팅 엔진(fingerprinting engine)에 제공하는 동작을 더 포함한다. 상기 특정 콘텐츠 유형을 판단하는 동작은 하나 이상의 데이터베이스를 이용하여, 복수의 콘텐츠 유형 각각에 대해, 상기 키워드들 중 적어도 하나가 상기 복수의 콘텐츠 유형 중 적어도 하나에 매핑되는 하나 이상의 키워드를 식별하는 동작을 더 포함한다. 상기 복수의 콘텐츠 유형은 상기 특정 콘텐츠 유형을 포함하고, 상기 매핑되는 동작은 상기 키워드들 중 적어도 하나가 상기 특정 콘텐츠 유형에 매핑되는 동작을 더 포함한다. 상기 콘텐츠 아이템을 식별하는 데이터를 출력한다. These and other embodiments may optionally include one or more of the features described below, respectively. For example, certain content types include movie content types, music content types, television show content types, audio podcast content types, book content types, artwork content types, trailer content types, video podguest content types, and the Internet. Video content type, or video game content type. Receiving the environmental audio data further includes receiving additional audio data including background noise. The background noise is associated with a particular content type. Receive additional environmental data, including video data or image data. The video data or the image data is associated with the specific content type. Providing at least a portion of the environmental audio data to the content recognition engine further includes providing the portion of the environmental audio data to an audio fingerprinting engine. The determining of the specific content type may include identifying, for each of a plurality of content types, at least one of the keywords mapped to at least one of the plurality of content types, using at least one database. It includes more. The plurality of content types includes the specific content type, and the mapping operation further includes an operation in which at least one of the keywords is mapped to the specific content type. Output data identifying the content item.
상기 특징들은 예를 들어, 상기 특정 콘텐츠 유형을 식별하는 데이터를 상기 콘텐츠 인식 엔진에 제공하는 동작, 및 상기 콘텐츠 아이템을 식별하는 동작은 상기 콘텐츠 인식 엔진으로부터 상기 콘텐츠 아이템을 식별하는 데이터를 수신하는 동작을 더 포함한다. 상기 콘텐츠 인식 시스템으로부터 2개 이상의 콘텐츠 인식 후보를 수신하는 동작과, 상기 콘텐츠 아이템을 식별하는 동작은 상기 특정 콘텐츠 유형에 기초하여 특정 콘텐츠 인식 후보를 선택하는 동작을 더 포함한다. 2개 이상의 콘텐츠 인식 후보 각각은 랭킹 스코어(ranking score)와 연관되고, 상기 방법은 상기 특정 콘텐츠 유형에 기초하여 상기 2개 이상의 콘텐츠 인식 후보의 랭킹 스코어를 조정하는 동작을 더 포함한다. 상기 조정된 랭킹 스코어들에 기초하여 상기 2개 이상의 콘텐츠 인식 후보들의 순위를 부여한다.The features may include, for example, providing data identifying the specific content type to the content recognition engine, and identifying the content item receiving data identifying the content item from the content recognition engine. It includes more. Receiving two or more content recognition candidates from the content recognition system, and identifying the content item further include selecting a specific content recognition candidate based on the specific content type. Each of the two or more content recognition candidates is associated with a ranking score, and the method further includes adjusting a ranking score of the two or more content recognition candidates based on the specific content type. Rank the two or more content recognition candidates based on the adjusted ranking scores.
본 명세서에서 설명된 주제의 하나 이상의 세부사항들은 첨부 도면들 및 이하의 상세한 설명에 개시되어 있다. 본 주제의 다른 잠재적 특징들, 양태들, 및 이점들은 상기 상세한 설명, 도면들 및 청구항들로부터 명백해 질 것이다.One or more details of the subject matter described in this specification are set forth in the accompanying drawings and the description below. Other potential features, aspects, and advantages of the subject matter will become apparent from the description, the drawings, and the claims.
도 1은 환경 오디오 데이터와 발화된 자연 언어 쿼리에 기초하여 콘텐츠 아이템 데이터를 식별하는 예시적 시스템을 묘사한다.
도 2는 환경 오디오 데이터와 발환된 자연 언어 쿼리에 기초하여 콘텐츠 아이템 데이터를 식별하는 예시적 프로세스를 위한 순서도를 묘사한다.
도 3a 및 도 3b는 콘텐츠 아이템을 식별하는 예시적 시스템의 부분들을 묘사한다.
도 4는 환경 이미지 데이터 및 발화된 자연 언어 쿼리에 기초하여 미디어 콘텐츠 아이템들을 식별하는 예시적 시스템을 묘사한다.
도 5는 환경 오디오 데이터 및 발화에 기초하여 하나 이상의 결과를 식별하는 시스템을 묘사한다.
도 6은 환경 데이터 및 발화에 기초하여 하나 이상의 결과를 식별하는 예시적 프로세스를 위한 순서도를 묘사한다.
도 7은 본 명세서에서 설명되는 기술들을 구현하는데 이용될 수 있는 컴퓨터 시스템 및 모바일 컴퓨터 디바이스를 묘사한다.
여러 도면들에서 유사한 참조 기호는 유사한 구성요소를 가리킨다.1 depicts an example system for identifying content item data based on environmental audio data and spoken natural language queries.
2 depicts a flow chart for an example process for identifying content item data based on environmental audio data and natural language queries retrieved.
3A and 3B depict portions of an example system for identifying a content item.
4 depicts an example system for identifying media content items based on environmental image data and spoken natural language queries.
5 depicts a system for identifying one or more results based on environmental audio data and speech.
6 depicts a flowchart for an example process for identifying one or more results based on environmental data and utterances.
7 depicts a computer system and a mobile computer device that can be used to implement the techniques described herein.
Like reference symbols in the various drawings indicate like elements.
환경 정보를 콘텍스트(context)로서 사용하여 발화된 자연 언어 쿼리(spoken natural language query)들에 답변하는 컴퓨팅 환경은 복수의 프로세스들을 사용하여 쿼리들을 처리할 수 있다. 도 1 내지 도 4에 도시된 일부 프로세스들의 예에서, 컴퓨팅 환경은 주변 노이즈(ambient noise)들 같은 환경 정보에 기초하여 미디어 콘텐츠를 식별할 수 있다. 도 5 및 도 6에 도시된 다른 프로세스들의 예에서, 컴퓨팅 환경은 발화된 자연 언어 쿼리에 대하여 더욱 만족스러운 답변을 제공하기 위하여, 미디어 콘텐츠를 식별하는 데이터 같은 환경 정보로부터 도출되는 콘텍스트로 발화된 자연 언어 쿼리를 증가시킬 수 있다.A computing environment that uses spoofed natural language queries to answer spoken natural language queries using the environment information as context can process the queries using a plurality of processes. In the example of some processes shown in FIGS. 1-4, the computing environment may identify the media content based on environmental information, such as ambient noises. In the example of the other processes shown in FIGS. 5 and 6, the computing environment is contextually uttered natural derived from environmental information, such as data identifying media content, to provide a more satisfactory answer to uttered natural language queries. You can increase the language query.
더 구체적으로, 도 1은 환경 오디오 데이터 및 발화된 자연 언어 쿼리에 기초한 콘텐츠 아이템 데이터를 식별하는 시스템(100)을 나타낸다. 간단히, 시스템(100)은, 환경 오디오 데이터에 기초하며 특정 콘텐츠 유형(content type)을 발화된 자연 언어 쿼리와 연관시켜 매칭하는, 콘텐츠 아이템 데이터를 식별할 수 있다. 시스템(100)은 모바일 컴퓨팅 디바이스(102), 명확화 엔진(disambiguation engine, 104), 음성 인식 엔진(speech recognition engine, 106), 키워드 맵핑 엔진(108), 및 콘텐츠 인식 엔진(110)을 포함한다. 모바일 컴퓨팅 디바이스(102)는 하나 또는 그 이상의 네트워크들을 통하여 명확화 엔진(104)과 통신한다. 모바일 디바이스(110)는 마이크로폰, 카메라 또는, 사용자(112) 및/또는 사용자(112)와 연관된 환경 데이터로부터의 발화들을 검출하기 위한 다른 검출 메커니즘들을 포함할 수 있다.More specifically, FIG. 1 illustrates a
일부 예들에 있어서, 사용자(112)는 TV 프로그램을 시청하고 있다. 도시된 예에 있어서, 사용자(112)는 현재 디스플레이되는 TV 프로그램을 누가 감독했는지를 알고 싶어한다. 일부 예들에 있어서, 사용자(112)는 현재 디스플레이되는 TV 프로그램의 이름을 알지 못할 수도 있으며, 따라서 "누가 이 쇼를 감독했나요?"라고 물을 수 있다. 모바일 컴퓨팅 디바이스(102)는 사용자(112)의 환경에 연관된 환경 오디오 데이터와 함께 이 발화를 검출한다.In some examples,
일부 예들에 있어서, 사용자(112)의 환경과 연관된 환경 오디오 데이터는 사용자(112)의 환경의 배경 노이즈(background noise)를 포함할 수 있다. 예를 들어, 환경 오디오 데이터는 TV 프로그램의 소리들을 포함할 수 있다. 일부 예들에 있어서, 현재 디스플레이되는 TV 프로그램과 연관된 환경 오디오 데이터는 현재 디스플레이되는 TV 프로그램의 오디오(예를 들어, 현재 디스플레이되는 TV 프로그램의 대화, 현재 디스플레이되는 TV 프로그램과 연관된 사운드트랙 오디오, 기타 등등)를 포함할 수 있다.In some examples, the environmental audio data associated with the environment of the
일부 예들에 있어서, 모바일 컴퓨팅 디바이스(102)는 발화를 검출한 후에 환경 오디오 데이터를 검출하거나, 발화의 검출과 동시에 환경 오디오 데이터를 검출하거나, 혹은 둘 다에 의할 수 있다. 동작 (A) 동안, 모바일 컴퓨팅 디바이스(102)는 검출된 발화 및 환경 오디오 데이터를 처리하여 검출된 발화 및 환경 오디오 데이터를 나타내는 파형 데이터(114)를 생성하고, 파형 데이터(114)를 (예를 들어, 네트워크를 통하여) 명확화 엔진(104)으로 전송한다. 일부 예들에 있어서, 환경 오디오 데이터는 모바일 컴퓨팅 디바이스(110)로부터 스트리밍 된다.In some examples,
명확화 엔진(104)은 모바일 컴퓨팅 디바이스(102)로부터 파형 데이터(114)를 수신한다. 동작 (B) 동안, 명확화 엔진(104)은 파형 데이터(114)의 다른 부분으로부터 발화의 분리(또는 추출)를 포함하여 파형 데이터(114)를 처리하고, 발화를 (예를 들어, 네트워크를 통하여) 음성 인식 엔진(106)으로 전송한다. 예를 들어, 명확화 엔진(104)은 사용자(112)의 환경의 배경 노이즈(예를 들어, 현재 디스플레이되는 TV 프로그램의 오디오)로부터 발화("누가 이 쇼를 감독했나요?")를 분리한다.
일부 예들에 있어서, 음성 활동 또는 컴퓨팅 장치(102)의 사용자와 연관된 음성 활동을 포함하는 파형 데이터(114)의 일부를 식별함으로써 배경 노이즈로부터 발화의 분리를 가능하게 하기 위하여 명확화 엔진(104)은 음성 검출기를 사용한다. 일부 예들에 있어서, 발화는 쿼리(예를 들어, 현재 디스플레이되는 TV에 관련된 쿼리)에 관련된다. 일부 예들에 있어서, 파형 데이터(114)는 검출된 발화를 포함한다. 이에 대응하여, 명확화 엔진(104)은 모바일 컴퓨팅 디바이스(102)로부터 발화와 관련된 환경 오디오 데이터를 요구할 수 있다.In some examples, the
음성 인식 엔진(106)은 명확화 엔진(104)으로부터 발화에 대응하는 파형 데이터(114)의 일부를 수신한다. 동작 (C) 동안, 음성 인식 엔진(106)은 발화의 표기(transcription)를 획득하고, 그 표기를 키워드 맵핑 엔진(108)으로 제공한다. 구체적으로, 음성 인식 엔진(106)은 음성 인식 엔진(106)으로부터 수신한 발화를 처리한다. 일부 예들에 있어서, 음성 인식 엔진(106)에 의한 발화의 처리는 발화의 표기를 생성하는 것을 포함한다. 발화의 표기를 생성하는 것은 발화를 텍스트 또는 텍스에 관련된 데이터로 표기하는 것을 포함한다. 다시 말해, 음성 인식 시스템(106)은 발화의 문자적 형태의 언어 표현을 제공할 수 있다.The
예를 들어, 음성 인식 시스템(106)은 발화를 표기하여 "누가 이 쇼를 감독했나요?"라는 표기를 생성한다. 다른 실시들예에 있어서, 음성 인식 시스템(106)은 둘 또는 그 이상의 발화의 표기들을 제공한다. 예를 들어, 음성 인식 시스템(106)은 발화를 표기하여 "누가 이 쇼(show)를 감독했나요?" 및 "누가 이 슈(shoe)를 감독했나요?"라는 표기를 생성한다.For example, the
키워드 맵핑 엔진(108)은 음성 인식 엔진(106)으로부터 표기를 수신한다. 동작 (D) 동안, 키워드 맵핑 엔진(108)은 특정 콘텐츠 유형에 연관된 표기 내의 하나 또는 그 이상의 키워드들을 식별하고, 상기 특정 콘텐츠 유형을 명확화 엔진(104)에 제공한다. 일부 실시예들에 있어서, 하나 또는 그 이상의 콘텐츠 유형들은 '영화', '음악', 'TV 쇼', '오디오 팟캐스트(audio podcast)', '영상(image)', '미술품(artwork)', '책', '잡지', '트레일러(trailer)', '비디오 팟캐스트(video podcast)', '인터넷 비디오', 또는 '비디오 게임'을 포함할 수 있다.The keyword mapping engine 108 receives the notation from the
예를 들어, 키워드 맵핑 엔진(108)은 키워드 "감독했나(directed)"를 "누가 이 쇼를 감독했나요?"라는 표기로부터 식별한다. 키워드 "감독했나"는 'TV 쇼' 콘텐츠 유형에 연관된다. 일부 실시예들에 있어서, 키워드 맵핑 엔진(108)에 의하여 식별되는 표기의 키워드는 둘 또는 그 이상의 콘텐츠 유형들과 연관된다. 예를 들어, 키워드 "감독했나"는 'TV 쇼' 및 '영화' 콘텐츠 유형들에 연관된다.For example, the keyword mapping engine 108 identifies the keyword "directed" from the notation "who directed this show?". The keyword "supervised" is associated with the "TV show" content type. In some embodiments, the notational keyword identified by keyword mapping engine 108 is associated with two or more content types. For example, the keyword "directed" is associated with "TV show" and "movie" content types.
일부 실시예들에 있어서, 키워드 맵핑 엔진(108)은 특정 콘텐츠 유형에 연관된 표기에서 둘 또는 그 이상의 키워드를 식별한다. 예를 들어, 키워드 맵핑 엔진(108)은 특정 콘텐츠 유형에 연관된 키워드들 "감독했나" 및 "쇼"를 식별한다. 일부 실시예들에 있어서, 식별된 둘 또는 그 이상의 키워드들은 동일한 콘텐츠 유형에 연관된다. 예를 들어, 식별된 키워드들 "감독했나" 및 "쇼"는 모두 'TV 쇼' 콘텐츠 유형에 연관된다. 일부 실시예들에 있어서, 식별된 둘 또는 그 이상의 키워드들은 다른 콘텐츠 유형들에 연관된다. 예를 들어, 식별된 키워드 "감독했나"는 '영화' 콘텐츠 유형에 연관되며, 식별된 키워드 "쇼"는 'TV 쇼' 콘텐츠 유형에 연관된다. 키워드 맵핑 엔진(108)은 상기 특정 콘텐츠 유형을 명확화 엔진(108)으로 (예를 들어, 네트워크를 통하여) 전송한다.In some embodiments, keyword mapping engine 108 identifies two or more keywords in the notation associated with a particular content type. For example, keyword mapping engine 108 identifies the keywords "overseeed" and "show" associated with a particular content type. In some embodiments, two or more keywords identified are associated with the same content type. For example, the identified keywords "supervised" and "show" are both associated with a 'TV show' content type. In some embodiments, two or more keywords identified are associated with different content types. For example, the identified keyword "supervised" is associated with the "movie" content type, and the identified keyword "show" is associated with the "TV show" content type. The keyword mapping engine 108 sends the particular content type to the disambiguation engine 108 (eg, via a network).
일부 실시예들에 있어서, 키워드 맵핑 엔진(108)은 복수의 콘텐츠 유형들 각각에 대하여 키워드들 중 적어도 하나를 복수의 콘텐츠 유형들 중 적어도 하나에 맵핑하는 하나 또는 그 이상의 데이터베이스를 사용하여 특정 콘텐츠 유형에 연관된 표기 내의 하나 또는 그 이상의 키워드들을 식별한다. 구체적으로, 키워드 맵핑 엔진(108)은 하나의 데이터베이스(또는 복수의 데이터베이스들)을 포함(또는 이들과 통신)한다. 데이터베이스는 키워드들과 콘텐츠 유형들 사이의 맵핑을 포함하거나 이에 연관된다. 구체적으로, 데이터베이스는 키워드 맵핑 엔진(108)이 특정 콘텐츠 유형들에 연관된 표기 내의 하나 또는 그 이상의 키워드들을 식별할 수 있도록 하는 것과 같은 키워드들과 콘텐츠 유형들 사이의 연결(예를 들어, 맵핑)을 제공한다.In some embodiments, the keyword mapping engine 108 uses one or more databases to map at least one of the keywords to at least one of the plurality of content types for each of the plurality of content types. Identifies one or more keywords in the notation associated with. Specifically, keyword mapping engine 108 includes (or communicates with) one database (or a plurality of databases). The database includes or is associated with a mapping between keywords and content types. In particular, the database is responsible for linking (eg, mapping) between keywords and content types, such as allowing the keyword mapping engine 108 to identify one or more keywords in the notation associated with particular content types. to provide.
일부 실시예들에 있어서, 키워드들과 콘텐츠 유형들 사이의 하나 또는 그 이상의 맵핑들은 단방향(unidirectional)(예를 들어, 한 방향(one-way)) 맵핑(즉, 키워드들로부터 콘텐츠 유형들로의 맵핑)을 포함할 수 있다. 일부 실시예들에 있어서, 키워드들과 콘텐츠 유형들 사이의 하나 또는 그 이상의 맵핑들은 양방향(bidirectional)(예를 들어, 쌍방향(one-way)) 맵핑(즉, 키워드들로부터 콘텐츠 유형들로의 맵핑 및 콘텐츠 유형들로부터 키워드들로의 맵핑)을 포함할 수 있다. 일부 실시예들에 있어서, 하나 또는 그 이상의 데이터베이스는 하나 또는 그 이상의 키워드들을 둘 또는 그 이상의 콘텐츠 유형들로 맵핑한다.In some embodiments, one or more mappings between keywords and content types are unidirectional (eg, one-way) mappings (ie, keywords to content types). Mapping). In some embodiments, one or more mappings between keywords and content types are bidirectional (eg, one-way) mapping (ie, mapping from keywords to content types). And mapping from content types to keywords. In some embodiments, one or more databases map one or more keywords to two or more content types.
예를 들어, 키워드 맵핑 엔진(108)은 키워드 "감독했나"를 '영화' 및 'TV 쇼' 콘텐츠 유형들로 맵핑하는 하나 또는 그 이상의 데이터베이스를 사용한다. 일부 실시예들에 있어서, 키워드들과 콘텐츠 유형들 사이의 맵핑은 기본 키워드(root keyword)에 대한 복수의 변화형(varying version)(즉, 단어 패밀리)과 콘텐츠 유형들 사이의 맵핑을 포함한다. 키워드의 다른 형태는 시제(예를 들어, 과거, 현재, 미래)와 품사(예를 들어, 명사, 동사)와 같은 다른 문법적 카테고리를 포함할 수 있다. 예를 들어, 데이터베이스는 "감독(directors)", "지시(direction)", "감독했나(directed)"와 같은 어근(root word) "감독하다"의 단어 패밀리의 하나 또는 그 이상의 콘텐츠 유형으로의 맵핑을 포함할 수 있다.For example, the keyword mapping engine 108 uses one or more databases to map the keyword "overwatched" to "movie" and "TV show" content types. In some embodiments, the mapping between keywords and content types includes a mapping between a plurality of varying versions (ie, word families) and content types for a root keyword. Other forms of keywords may include other grammatical categories such as tense (eg, past, present, future) and parts of speech (eg, nouns, verbs). For example, a database may be associated with one or more content types of the word family of "root" root words, such as "directors", "direction", or "directed". May include a mapping.
명확화 엔진(104)는 키워드 맵핑 엔진(108)으로부터 발화의 표기에 연관된 특정 콘텐츠 유형을 식별한 데이터를 수신한다. 더욱이, 상술한 바와 같이, 명확화 엔진(104)은 모바일 컴퓨팅 디바이스(102)로부터 발화와 연관된 환경 오디오 데이터를 포함하는 파형 데이터(114)를 수신한다. 동작 (E) 동안, 명확화 엔진(104)은 그리고 나서 환경 오디오 데이터 및 특정 콘텐츠 유형을 콘텐츠 인식 엔진(110)으로 제공한다.
예를 들어, 명확화 엔진(104)은 현재 디스플레이되는 TV 프로그램의 오디오(예를 들어, 현재 디스플레이되는 TV 프로그램의 대화, 현재 디스플레이되는 TV 프로그램의 사운드트랙 오디오, 기타 등등)를 포함하는 현재 디스플레이되는 TV 프로그램에 관련된 환경 오디오 데이터 및 발화의 표기의 특정 콘텐츠 유형(예를 들어, 'TV 쇼' 콘텐츠 유형)을 콘텐츠 인식 엔진(110)으로 전송한다.For example, the
일부 실시예들에 있어서, 명확화 엔진(104)은 환경 오디오 데이터의 일부를 콘텐츠 인식 엔진(110)으로 제공한다. 일부 예들에 있어서, 상기 환경 오디오 데이터의 일부는 발화를 검출한 후에 모바일 컴퓨팅 디바이스(102)에 의하여 검출된 배경 노이즈를 포함할 수 있다. 일부 예들에 있어서, 상기 환경 오디오 데이터의 일부는 발화의 검출과 동시에 모바일 컴퓨팅 디바이스(102)에 의하여 검출된 배경 노이즈를 포함할 수 있다.In some embodiments,
일부 실시예들에 있어서, (파형 데이터(114)의) 배경 노이즈는 표기의 키워드에 연관된 특정 콘텐츠 유형에 연관된다. 예를 들어, 표기 "누가 이 쇼를 감독했나요?"라는 표기의 키워드 "감독했나"는 'TV 쇼' 콘텐츠 유형에 연관되며, 배경 노이즈(예를 들어, 현재 디스플레이되는 TV 프로그램에 관련된 환경 오디오 데이터) 또한 'TV 쇼' 콘텐츠 유형에 연관된다.In some embodiments, the background noise (of waveform data 114) is associated with a particular content type associated with the keyword of the notation. For example, the keyword "who supervised this show?" Refers to the "TV show" content type and includes background noise (e.g., environmental audio data related to the TV program currently being displayed). ) Is also associated with the 'TV Show' content type.
콘텐츠 인식 엔진(110)은 명확화 엔진(104)으로부터 환경 오디오 데이터 및 특정 콘텐츠 유형을 수신한다. 동작 (F) 동안, 콘텐츠 인식 엔진(110)은, 환경 오디오 데이터에 기초하며 특정 콘텐츠 유형을 매칭하는, 콘텐츠 아이템 데이터를 식별하고, 콘텐츠 아이템 데이터를 명확화 엔진(104)으로 제공한다. 구체적으로, 콘텐츠 인식 엔진(110)은 환경 오디오 데이터를 적절히 처리하여, 환경 오디오 데이터(예를 들어, TV 쇼의 이름, 노래의 이름, 기타 등등)에 연관된 콘텐츠 아이템 데이터를 식별한다. 더욱이, 콘텐츠 인식 엔진(110)은 식별된 콘텐츠 아이템 데이터를 특정 콘텐츠 유형(예를 들어, 발화의 표기의 콘텐츠 유형)과 매칭시킨다. 콘텐츠 인식 엔진(110)은 식별된 콘텐츠 아이템 데이터를 명확화 엔진(104)으로 (예를 들어, 네트워크를 통하여) 전송한다.The
예를 들어, 콘텐츠 인식 엔진(110)은 현재 디스플레이되는 TV 프로그램에 관련된 환경 오디오 데이터에 기초하며, 더욱이 'TV 쇼' 콘텐츠 유형에 매칭되는 콘텐츠 아이템 데이터를 식별한다. 이를 위하여, 콘텐츠 인식 엔진(110)은 콘텐츠 인식 엔진(110)에 의하여 수신된 환경 오디오 데이터의 일부에 따라서 현재 디스플레이되는 TV 프로그램의 대화, 또는 현재 디스플레이되는 TV 프로그램에 연관된 사운드트랙 오디오에 기초한 콘텐츠 아이템 데이터를 식별한다.For example,
일부 실시예들에 있어서, 콘텐츠 인식 엔진(110)은 콘텐츠 아이템 데이터를 식별하기 위하여 웨이블릿(wavelet)들을 사용하는 콘텐츠 지문을 사용하는 오디오 지문(audio fingerprinting) 엔진이다. 구체적으로, 콘텐츠 인식 엔진(110)은 파형 데이터(114)를 스펙트로그램(spectrogram)으로 변환한다. 스펙트로그램으로부터 콘텐츠 인식 엔진(110)은 스펙트럼 영상(spectral image)들을 추출한다. 스펙트럼 영상들은 웨이블릿으로 표현될 수 있다. 스펙트로그램으로부터 추출된 스펙트럼 영상들 각각에 대하여 콘텐츠 인식 엔진(110)은 웨이블릿들 각각의 크기에 기초한 "top" 웨이블릿들을 추출한다. 각 스펙트럼 영상에 대하여, 콘텐츠 인식 엔진9110)은 영상의 웨이블릿 서명을 연산한다. 일부 예들에 있어서, 웨이블릿 서명은 영상의 웨이블릿 분해의 줄여지고(truncated), 양자화된(quantized) 형태이다.In some embodiments,
예를 들어, 웨이블릿로 m x n 영상을 설명하기 위하여, m x n 웨이블릿들이 압축 없이 되돌아온다. 더욱이, 콘텐츠 인식 엔진(110)은 노래를 대부분 특징짓는 웨이블릿들의 서브세트를 사용한다. 구체적으로, t << m x n 일 때, (크기에 의한) t개의 "top" 웨이블릿들이 선택된다. 더욱이, 콘텐츠 인식 엔진(110)은, 예를 들어 스파스 비트 벡터(sparse bit vector)들을 위한 서브-지문을 연산하기 위하여 MinHash 를 사용하여 상술한 스파스 웨이블릭 벡터(sparse wavelet-vector)의 간결한 표현을 생성한다.For example, in order to describe an m x n image with a wavelet, the m x n wavelets are returned without compression. Moreover,
일부 예들에 있어서, 환경 오디오 데이터가 적어도 현재 디스플레이되는 TV 프로그램에 연관된 사운드트랙 오디오를 포함할 때, 콘텐츠 인식 엔진(110)은, 현재 디스플레이되는 TV 프로그램에 연관된 사운드트랙 오디오에 기초하며 또한 'TV 쇼' 콘텐츠 유형을 매칭하는 콘텐츠 아이템 데이터를 식별한다. 따라서 일부 예들에 있어서, 콘텐츠 인식 엔진(110)은 현재 디스플레이되는 TV 프로그램의 이름에 관련된 콘텐츠 아이템 데이터를 식별한다. 예를 들어, 콘텐츠 인식 엔진(110)은 특정 콘텐츠 아이템(예를 들어, 특정 TV 쇼)이 테마 송(예를 들어, 사운드트랙 오디오)과 연관되고, 상기 특정 콘텐츠 아이템(예를 들어, 상기 특정 TV 쇼)이 상기 특정 콘텐츠 유형(예를 들어, 'TV 쇼' 콘텐츠 유형)과 매칭되는 것을 판단할 수 있다. 따라서, 콘텐츠 인식 엔진(110)은, 환경 오디오 데이터(예를 들어, 사운드트랙 오디오)에 기초한 상기 특정 콘텐츠 아이템(예를 들어, 현재 디스플레이되는 TV 프로그램)에 관련되며 추가적으로 상기 특정 콘텐츠 유형(예를 들어, 'TV 쇼' 콘텐츠 유형)과 매칭되는 데이터(예를 들어, 상기 특정 TV 쇼의 이름)를 식별할 수 있다.In some examples, when the environmental audio data includes soundtrack audio associated with at least the currently displayed TV program, the
명확화 엔진(104)은 콘텐츠 인식 엔진(110)으로부터 식별된 콘텐츠 아이템 데이터를 수신한다. 동작 (G)에서, 명확화 엔진(104)은 그리고 나서 식별된 콘텐츠 아이템 데이터를 모바일 컴퓨팅 디바이스(102)로 제공한다. 예를 들어, 명확화 엔진(104)은 현재 디스플레이되는 TV 프로그램(예를 들어, 현재 디스플레이되는 TV 프로그램의 이름)에 관련된 식별된 콘텐츠 아이템 데이터를 모바일 컴퓨팅 디바이스(102)로 전송한다.
일부 예들에 있어서, 모바일 컴퓨팅 디바이스(102), 명확화 엔진(104), 음성 인식 엔진(106), 키워드 맵핑 엔진(108), 및 콘텐츠 인식 엔진(110) 중 하나 또는 그 이상은 모바일 컴퓨팅 디바이스(102), 명확화 엔진(104), 음성 인식 엔진(106), 키워드 맵핑 엔진(108), 및 콘텐츠 인식 엔진(110)의 서브셋(또는 각각)과 통신할 수 있다. 일부 실시예들에 있어서, 명확화 엔진(104), 음성 인식 엔진(106), 키워드 맵핑 엔진(108), 및 콘텐츠 인식 엔진(110) 중 하나 또는 그 이상은 하나 이상의 컴퓨팅 서버들, 분산된 컴퓨팅 시스템, 또는 하나의 서버 팜(farm)이나 클러스터(cluster)와 같은 하나 또는 그 이상의 컴퓨팅 디바이스들을 사용하여 실행될 수 있다.In some examples, one or more of
일부 실시예들에 있어서, 상술한 바와 같이, 환경 오디오 데이터는 모바일 컴퓨팅 디바이스(110)로부터 명확화 엔진(104)으로 스트리밍될 수 있다. 환경 오디오 데이터가 스트리밍될 때, 상술한 처리(예를 들어, 동작들 (A)-(H))는 환경 오디오 데이터가 명확화 엔진(104)에 의하여 수신될 때 수행된다(즉, 점진적으로 수행된다). 다시 말해, 명확화 엔진(104)에 의하여 환경 오디오 데이터의 각 부분이 (예를 들어, 스트리밍되어) 수신될 때, 동작들 (A)-(H)가 콘텐츠 아이템 데이터가 식별될 때까지 반복적으로 수행된다.In some embodiments, as described above, environmental audio data may be streamed from the
도 2는 환경 오디오 데이터 및 발화된 자연 언어 쿼리에 기초한 콘텐츠 아이템 데이터를 식별하는 예시적 프로세스(200)의 흐름도를 나타낸다. 예시적 프로세스(200)는 하나 또는 그 이상의 컴퓨팅 디바이스에 의하여 실행될 수 있다. 예를 들어, 모바일 컴퓨팅 디바이스(102), 명확화 엔진(104), 음성 인식 엔진(106), 키워드 맵핑 엔진(108), 및/또는 콘텐츠 인식 엔진(110)이 상기 예시적 프로세스(200)를 실행하기 위하여 사용될 수 있다.2 shows a flow diagram of an example process 200 for identifying content item data based on environmental audio data and spoken natural language queries. Example process 200 may be executed by one or more computing devices. For example,
발화된 자연 언어 쿼리를 부호화하는 오디오 데이터 및 환경 오디오 데이터가 수신된다(202). 예를 들어, 명화화 엔진(104)이 모바일 컴퓨팅 디바이스(102)로부터 파형 데이터(114)를 수신한다. 파형 데이터(114)는 사용자의 발화된 자연 쿼리(예를 들어, "누가 이 쇼를 감독했나요?") 및 환경 오디오 데이터(예를 들어, 현재 디스플레이되는 TV 프로그램의 오디오)를 포함한다. 명확화 엔진(104)은 사용자(112)의 환경의 배경 노이즈(예를 들어, 현재 디스플레이되는 TV 프로그램의 오디오)로부터 발화된 자연 언어 쿼리("누가 이 쇼를 감독했나요?")를 분리한다.Audio data and environmental audio data encoding the spoken natural language query are received (202). For example, the
자연 언어 쿼리의 표기가 획득된다(204). 예를 들어, 음성 인식 시스템(106)이 자연 언어 쿼리를 표기하여 자연 언어 쿼리의 표기(예를 들어, "누가 이 쇼를 감독했나요?")를 생성한다.A representation of the natural language query is obtained (204). For example, the
표기 내의 하나 또는 그 이상의 키워드들에 연관된 특정 콘텐츠 유형이 판단된다(206). 예를 들어, 키워드 맵핑 엔진(108)이 특정 콘텐츠 유형(예를 들어, 'TV 쇼' 콘텐츠 유형)에 연관된 표기(예를 들어, "누가 이 쇼를 감독했나요?") 내의 하나 또는 그 이상의 키워드(예를 들어, "감독했나")를 식별한다. 일부 실시예들에 있어서, 키워드 맵핑 엔진(108)은 복수의 콘텐츠 유형들 각각에 대하여 키워드들 중 적어도 하나를 복수의 콘텐츠 유형들 중 적어도 하나에 맵핑하는 하나 또는 그 이상의 데이터베이스를 사용하여 표기 내의 하나 또는 그 이상의 키워드들을 식별한다. 데이터베이스는 키워드들(예를 들어, "감독했나")과 콘텐츠 유형들(예를 들어, 'TV 쇼' 콘텐츠 유형) 사이의 연결(예를 들어, 맵핑)을 제공한다.A particular content type associated with one or more keywords in the notation is determined 206. For example, the keyword mapping engine 108 may have one or more keywords within a notation associated with a particular content type (e.g., "TV show" content type) (e.g. "Who oversaw this show?"). (Eg, "supervised"). In some embodiments, keyword mapping engine 108 includes one in the notation using one or more databases that map at least one of the keywords to at least one of the plurality of content types for each of the plurality of content types. Identify more or more keywords. The database provides a link (eg, a mapping) between keywords (eg, “overwatched”) and content types (eg, a “TV show” content type).
환경 오디오 데이터의 적어도 일부는 콘텐츠 인식 엔진(208)에 제공된다. 예를 들어, 명확화 엔진(104)은 파형 데이터(114)에 의하여 부호화된 적어도 상기 환경 오디오 데이터의 일부(예를 들어, 현재 디스플레이되는 TV 프로그램의 오디오)를 콘텐츠 인식 엔진(110)에 제공한다. 일부 예들에 있어서, 명확화 엔진(104)은 또한 표기 내의 하나 또는 그 이상의 키워드들(예를 들어, "감독했나")에 연관된 특정 콘텐츠 유형(예를 들어, 'TV 쇼' 콘텐츠 유형)을 콘텐츠 인식 엔진(110)에 제공한다.At least some of the environmental audio data is provided to the
콘텐츠 인식 엔진에 의하여 출력되며 특정 콘텐츠 유형과 매칭되는 콘텐츠 아이템이 식별된다(210). 예를 들어, 콘텐츠 인식 엔진(110)은, 환경 오디오 데이터(예를 들어, 현재 디스플레이되는 TV 프로그램의 오디오)에 기초하며 특정 콘텐츠 유형(예를 들어, 'TV 쇼' 콘텐츠 유형)에 매칭되는 콘텐츠 아이템 또는 콘텐츠 아이템 데이터를 식별한다.The content item output by the content recognition engine and matching the specific content type is identified (210). For example,
도 3a 및 도 3b는 콘텐츠 아이템 데이터를 식별하기 위한 시스템의 일부들(300a, 300b)을 각각 도시한 것이다. 특히 도 3a 및 도 3b는 명확화 엔진들(304a, 304b) 각각; 및 콘텐츠 인식 엔진들(310a, 310b)을 각각 포함한다. 명확화 엔진들(304a, 304b)은 도 1에 도시된 시스템(100)의 명확화 엔진(104)과 유사하며; 콘텐츠 인식 엔진들(310a, 310b)은 도 1에 도시된 시스템(100)의 콘텐츠 인식 엔진(110)과 유사하다. 3A and 3B illustrate
도 3a는 콘텐츠 인식 엔진(310a)을 포함하는 일부(300a)를 도시한다. 콘텐츠 인식 엔진(310a)은 환경 데이터에 기초하여 특정한 콘텐츠 유형과 일치하는 콘텐츠 아이템을 식별할 수 있다. 달리 말하면, 콘텐츠 인식 엔진(310a)은 콘텐츠 아이템을 식별하기 위하여 환경 데이터에 기초하여 환경 데이터를 적절히 처리하고, 나아가 선택된 콘텐츠 아이템 데이터가 특정한 콘텐츠 유형과 일치하도록 하나 이상의 식별된 콘텐츠 아이템 데이터를 선택할 수 있다. 3A shows a
구체적으로, 동작 (A) 동안, 명확화 엔진(304a)은 환경 데이터 및 특정한 콘텐츠 유형을 콘텐츠 인식 엔진(310a)에 제공한다. 일부 실시예들에 있어서, 명확화 엔진(304a)은 환경 데이터의 일부를 콘텐츠 인식 엔진(310a)에 제공한다. Specifically, during operation (A),
콘텐츠 인식 엔진(310a)은 명확화 엔진(304a)으로부터 환경 데이터 및 특정한 콘텐츠 유형을 수신한다. 그러면 동작 (B) 동안, 콘텐츠 인식 엔진(310a)은 환경 데이터에 기초하여 특정한 콘텐츠 유형과 일치하는 콘텐츠 아이템 데이터를 식별하고 식별된 콘텐츠 아이템 데이터를 명확화 엔진(304a)에 제공한다. 구체적으로, 콘텐츠 인식 엔진(310a)은 환경 데이터에 기초하여 콘텐츠 아이템 데이터(예를 들어, TV쇼의 이름, 노래 제목 등)를 식별한다. 그 후에 콘텐츠 인식 엔진(310a)은 특정한 콘텐츠 유형과 일치하는 식별된 콘텐츠 아이템 데이터 중 하나 이상을 선택한다. 달리 말하면, 콘텐츠 인식 엔진(310a)은 특정한 콘텐츠 유형에 기초하여 식별된 콘텐츠 아이템 데이터를 필터링한다. 콘텐츠 인식 엔진(310a)은 (예를 들어, 네트워크를 거쳐) 식별된 콘텐츠 아이템 데이터를 명확화 엔진(304a)으로 전송한다. The
일부 예들에 있어서, 도 1과 관련하여 상술한 바와 같이, 환경 데이터가 적어도 현재 디스플레이되는 TV 프로그램과 관련된 사운드트랙(soundtrack) 오디오를 포함하는 경우, 콘텐츠 인식 엔진(310a)은 현재 디스플레이되는 TV 프로그램과 연관된 사운드트랙 오디오에 기초하여 콘텐츠 아이템 데이터를 식별한다. 콘텐츠 인식 엔진(310a)은 그 후에 'TV 쇼' 콘텐츠 유형에 기초하여 식별된 콘텐츠 아이템 데이터를 필터링한다. 예를 들어, 콘텐츠 인식 엔진(310a)은 사운드트랙 오디오와 연관된 '테마 송 이름' 및 'TV 쇼 이름'을 식별한다. 콘텐츠 인식 엔진(310a)은 이 후에 식별된 콘텐츠 아이템 데이터가 또한 'TV 쇼' 콘텐츠 유형과도 일치하도록 식별된 콘텐츠 아이템 데이터를 필터링한다. 예를 들어, 콘텐츠 인식 엔진(310a)은 'TV 쇼 이름' 식별 데이터를 선택하고, 'TV 쇼 이름' 식별 데이터를 명확화 엔진(304a)으로 전송한다.In some examples, as described above with respect to FIG. 1, if the environmental data includes soundtrack audio associated with at least the currently displayed TV program, the
일부 예들에 있어서, 콘텐츠 인식 엔진(310a)은 콘텐츠 유형 (예를 들어, 'TV 쇼' 콘텐츠 유형)에 기초하여 코퍼스(corpus) (또는 인덱스)를 선택한다. 구체적으로, 콘텐츠 인식 엔진(310a)은 'TV 쇼' 콘텐츠 유형과 관련된 제1 인덱스 및 '영화' 콘텐츠 유형과 관련된 제2 인덱스에 대한 접근권(access)을 가질 수 있다. 콘텐츠 인식 엔진(310a)은 'TV 쇼' 콘텐츠 유형에 기초하여 적절히 제1 인덱스를 선택한다. 따라서, 제1 인덱스를 선택함 (그리고 제2 인덱스를 선택하지 않음)에 의하여 콘텐츠 인식 엔진(310a)은 보다 효과적으로 콘텐츠 아이템 데이터 (예를 들어, TV 쇼의 이름)를 식별할 수 있다. In some examples,
명확화 엔진(304a)은 콘텐츠 인식 엔진(310a)으로부터 콘텐츠 아이템 데이터를 수신한다. 예를 들어, 명확화 엔진(304a)은 콘텐츠 인식 엔진(310a)으로부터 'TV 쇼 이름' 식별 데이터를 수신한다. 명확화 엔진(304a)은 이 후에, 동작 (C) 동안, 식별 데이터를 제3 자(예를 들어, 도 1의 모바일 컴퓨팅 디바이스(102))에게 제공한다. 예를 들어, 명확화 엔진(304a)은 데이터를 'TV 쇼 이름' 식별 데이터를 제3 자에게 제공한다.
도 3b는 콘텐츠 인식 엔진(310b)을 포함하는 일부(300b)를 도시한 도면이다. 콘텐츠 인식 엔진(310b)은 환경 데이터에 기초하여 콘텐츠 아이템 데이터를 식별할 수 있다. 달리 말하면, 콘텐츠 인식 엔진(310b)은 환경 데이터에 기초하여 콘텐츠 아이템 데이터를 식별하기 위하여 환경 데이터를 적절히 처리하고, 콘텐츠 아이템 데이터를 명확화 엔진(304b)에 제공한다. 콘텐츠 인식 엔진(310b)은 선택된 콘텐츠 아이템 데이터가 특정한 콘텐츠 유형과 일치하도록 식별된 콘텐츠 아이템 데이터 중 적어도 하나를 선택한다. 3B illustrates a
구체적으로, 동작 (A) 동안, 명확화 엔진(304b)은 환경 데이터를 콘텐츠 인식 엔진(310b)에 제공한다. 일부 실시예들에 있어서, 명확화 엔진(304b)은 환경 데이터의 일부를 콘텐츠 인식 엔진(310b)에 제공한다. Specifically, during operation (A),
콘텐츠 인식 엔진(310b)은 명확화 엔진(304b)으로부터 환경 데이터를 수신한다. 그 후에, 동작 (B) 동안, 콘텐츠 인식 엔진(310b)은 환경 데이터에 기초하여 콘텐츠 아이템 데이터를 식별하고 식별된 콘텐츠 아이템 데이터를 명확화 엔진(304b)으로 제공한다. 구체적으로, 콘텐츠 인식 엔진(310b)은 환경 데이터에 기초하여 둘 이상의 콘텐츠 아이템들(예를 들어, TV 쇼의 이름, 노래의 제목, 등)과 연관된 콘텐츠 아이템 데이터를 식별한다. 콘텐츠 인식 엔진(310b)은 (예를 들어, 네트워크를 거쳐) 식별된 콘텐츠 아이템 데이터를 표현하는 둘 이상의 후보들을 명확화 엔진(304b)으로 전송한다. The
일부 예들에 있어서, 도 1과 관련하여 상술한 바와 같이, 환경 데이터가 현재 디스플레이되는 TV 프로그램과 연관된 적어도 사운드트랙 오디오를 포함하는 경우, 콘텐츠 인식 엔진(310b)은 현재 디스플레이되는 TV 프로그램과 연관된 사운드트랙 오디오에 기초하여 둘 이상의 콘텐츠 아이템들과 관련된 콘텐츠 아이템 데이터를 식별한다. 예를 들어, 콘텐츠 인식 엔진(310b)은 사운드트랙 오디오와 연관된 '테마 송 이름' 및 'TV 쇼 이름'을 식별하고, '테마 송 이름' 및 'TV 쇼 이름' 식별 데이터를 명확화 엔진(304b)으로 전송한다. In some examples, as described above with respect to FIG. 1, if the environmental data includes at least soundtrack audio associated with the currently displayed TV program, the
명확화 엔진(304b)은 콘텐츠 인식 엔진(310b)으로부터 둘 이상의 후보들을 수신한다. 예를 들어, 명확화 엔진(304b)은 콘텐츠 인식 엔진(310b)으로부터 '테마 송 이름' 및 'TV 쇼 이름' 후보들을 수신한다. 이 후에, 동작 (C) 동안, 명확화 엔진(304b)은 특정한 콘텐츠 유형에 기초하여 둘 이상의 후보들 중 하나를 선택하고 선택된 후보를 제3 자 (예를 들어, 도 1의 모바일 컴퓨팅 디바이스(102))에게 제공한다. 구체적으로, 도 1과 관련하여 상술한 바와 같이, 명확화 엔진(304b)은 사전에 (예를 들어, 발화와 연관된) 특정한 콘텐츠 유형을 수신할 수 있다. 명확화 엔진(304b)은 특정한 콘텐츠 유형에 기초하여 둘 이상의 후보들 중 특정한 후보를 선택한다. 구체적으로, 명확화 엔진(304b)은 둘 이상의 후보들 중 특정한 콘텐츠 유형과 일치하는 특정한 후보를 선택한다. 예를 들어, 명확화 엔진(304b)은 'TV 쇼 이름' 후보가 'TV 쇼' 콘텐츠 유형과 일치하기 때문에 'TV 쇼 이름' 후보를 선택한다.
일부 실시예들에 있어서, 콘텐츠 인식 엔진(310b)으로부터의 둘 이상의 후보들은 랭킹 스코어(ranking score)와 연관된다. 랭킹 스코어는 명확화 엔진(304b)에 의하여 결정된 어떠한 스코어 측정(metric)과도 연관될 수 있다. 명확화 엔진(304b)은 더불어 특정한 콘텐츠 유형에 기초하여 둘 이상의 후보들의 랭킹 스코어를 조정할 수도 있다. 구체적으로, 명확화 엔진(304b)은 각각의 후보들이 특정한 콘텐츠 유형과 일치하는 경우에 하나 이상의 후보들의 랭킹 스코어를 증가시킬 수 있다. 예를 들어, 후보 'TV 쇼 이름'의 랭킹 스코어는 그것이 'TV 쇼' 콘텐츠 유형과 일치함에 따라서 증가할 수 있다. 뿐만 아니라, 명확화 엔진(304b)은 각각의 후보들이 특정한 콘텐츠 유형과 일치하지 않는 경우에 하나 이상의 후보들의 랭킹 스코어를 감소시킬 수 있다. 예를 들어, 후보 '테마 송 이름'의 랭킹 스코어는 그것이 'TV 쇼' 콘텐츠 유형과 일치하지 않음에 따라서 감소할 수 있다. In some embodiments, two or more candidates from
일부 실시예들에 있어서, 둘 이상의 후보들은, 명확화 엔진(304b)에 의하여 각각 조정된 랭킹 스코어들에 기초하여 순위가 부여될 수 있다. 예를 들어, 명확화 엔진(304b)은 '테마 송 이름' 후보의 조정된 랭킹 스코어와 비교하였을 때, 'TV 쇼 이름' 후보가 더 높은 조정된 랭킹 스코어를 가짐에 따라, 'TV 쇼 이름' 후보의 순위를 '테마 송 이름' 후보보다 상위로 부여할 수 있다. 일부 예들에 있어서, 명확화 엔진(304b)은 가장 높게 순위가 부여된 (예를 들어, 가장 높은 조정된 랭킹 스코어를 가지는) 후보를 선택한다. In some embodiments, two or more candidates may be ranked based on ranking scores each adjusted by
도 4는 환경 이미지 데이터 및 발화된 자연 언어 쿼리에 기초하여 콘텐츠 아이템 데이터를 식별하기 위한 시스템(400)을 도시한 것이다. 요컨대, 시스템(400)은 환경 데이터에 기초하여 발화된 자연 언어 쿼리와 연관된 특정한 콘텐츠 유형과 일치하는 콘텐츠 아이템 데이터를 식별할 수 있다. 시스템(400)은, 도 1에 도시된 시스템(100)의 모바일 컴퓨팅 디바이스(102), 명확화 엔진(104), 음성 인식 엔진(106), 키워드 맵핑 엔진(108) 및 콘텐츠 인식 엔진(110)과 각각 유사한, 모바일 컴퓨팅 디바이스(402), 음성 인식 엔진(406), 키워드 맵핑 엔진(408), 및 콘텐츠 인식 엔진(410)을 포함한다. 4 illustrates a system 400 for identifying content item data based on environmental image data and spoken natural language queries. In sum, the system 400 may identify content item data that matches a particular content type associated with the spoken natural language query based on the environmental data. System 400 includes a
일부 예들에 있어서, 사용자(112)는 영화의 사운드트랙의 CD 앨범 커버를 보고 있다. 도시된 예에 있어서, 사용자(112)는 사운드트랙에 어떠한 노래들이 수록되어 있는 지를 알고 싶다. 일부 예들에 있어서, 사용자(112)는 영화 사운드트랙의 이름을 모를 수 있고, 따라서 "여기에 나오는 노래가 무엇입니까?" 또는 "이 영화에서 연주된 노래는 무엇입니까?"라는 질문을 할 수 있다. 모바일 컴퓨팅 디바이스(402)는 사용자(112)의 환경과 연관된 환경 이미지 데이터뿐만 아니라 이러한 발화를 감지한다. In some examples,
일부 예들에 있어서, 사용자(112)의 환경과 연관된 환경 이미지 데이터는 사용자(112) 환경의 이미지 데이터를 포함할 수 있다. 예를 들어, 환경 이미지 데이터는 영화와 관련된 이미지들을 묘사한 (예를 들어, 연관된 영화의 영화 포스터의 이미지) CD 앨범 커버의 이미지를 포함한다. 일부 예들에 있어서, 모바일 컴퓨팅 디바이스(402)는 CD 앨범 커버의 이미지 (또는 비디오)를 캡쳐하는 모바일 컴퓨팅 디바이스(402)의 카메라를 활용하여 환경 이미지 데이터를 감지한다. In some examples, the environment image data associated with the environment of the
동작 (A) 동안, 모바일 컴퓨팅 디바이스(402)는 감지된 발화를 처리하여 감지된 발화를 나타내는 파형 데이터(414)를 생성하고 파형 데이터(414) 및 환경 이미지 데이터를 (예를 들어, 네트워크를 거쳐) 명확화 엔진(404)으로 전송한다. During operation (A), the
동작 (B) 동안, 명확화 엔진(404)은 모바일 컴퓨팅 디바이스(402)로부터 파형 데이터(414) 및 환경 이미지 데이터를 수신한다. 명확화 엔진(404)은 파형 데이터(414)를 처리하고 (예를 들어, 네트워크를 거쳐) 음성 인식 엔진(406)으로 발화를 전송한다. 일부 예들에 있어서, 발화는 쿼리 (예를 들어, 영화 사운드트랙과 관련된 쿼리)와 관련된다. During operation (B), the
음성 인식 엔진(406)은 명확화 엔진(404)으로부터 발화를 수신한다. 동작 (C) 동안, 음성 인식 엔진(406)은 발화의 표기(transcription)를 획득하고 표기를 키워드 맵핑 엔진(408)에 제공한다. 구체적으로, 음성 인식 엔진(406)은 발화의 표기를 생성함으로써 음성 인식 엔진(406)으로부터 수신한 발화를 처리한다. The
예를 들어, 음성 인식 엔진(406)은 발화를 문자화(transcribe)하여 "여기에 나오는 노래가 무엇입니까?"라는 표기를 생성한다. 일부 실시예들에 있어서, 음성 인식 엔진(406)은 발화의 둘 이상의 표기들을 제공한다. 예를 들어, 음성 인식 엔진(406)은 발화를 문자화하여 "여기에 나오는 노래가 무엇입니까?(What songs are on this?)"와 "여기에 나오는 놀이가 무엇입니까?(What sinks are on this?)"의 표기들을 생성한다. For example, the
키워드 맵핑 엔진(408)은 음성 인식 엔진(406)으로부터 표기를 수신한다. 동작 (D) 동안, 키워드 맵핑 엔진(408)은 특정한 콘텐츠 유형과 연관된 표기 내의 하나 이상의 키워드들을 식별하고 특정한 콘텐츠 유형을 명확화 엔진(404)으로 제공한다. The
예를 들어, 키워드 맵핑 엔진(408)은 "여기에 나오는 노래가 무엇입니까?"의 표기로부터 키워드 "노래"를 식별한다. 키워드 "노래"는 '음악' 콘텐츠 유형과 연관된다. 일부 실시예들에 있어서, 키워드 맵핑 엔진(408)에 의하여 식별된 표기의 키워드는 둘 이상의 콘텐츠 유형들과 연관된다. 예를 들어, 키워드 "노래"는 '음악' 및 '가수' 콘텐츠 유형들과 연관된다. 키워드 맵핑 엔진(408)은 (예를 들어, 네트워크를 거쳐) 특정한 콘텐츠 유형을 명확화 엔진(408)으로 전송한다. For example, the
일부 실시예들에 있어서, 상술한 바와 유사하게, 키워드 맵핑 엔진(408)은, 다수의 콘텐츠 유형들 각각에 대하여, 적어도 하나의 키워드들과 다수의 콘텐츠 유형들 중 적어도 하나와 맵핑한, 하나 이상의 데이터베이스들을 사용하여, 표기 내에서 특정한 콘텐츠 유형과 연관된 하나 이상의 키워드들을 식별한다. 예를 들어, 키워드 맵핑 엔진(408)은 "노래"를 '음악' 및 '가수' 콘텐츠 유형들과 맵핑한 하나 이상의 데이터베이스들을 사용한다. In some embodiments, similar to the foregoing, the
명확화 엔진(404)은 키워드 맵핑 엔진(408)으로부터 발화의 표기와 연관된 특정한 콘텐츠 유형을 수신한다. 뿐만 아니라, 상술한 바와 같이, 명확화 엔진(404)은 발화와 연관된 환경 이미지 데이터를 수신한다. 동작 (E) 동안, 명확화 엔진(404)은 환경 이미지 데이터와 특정한 콘텐츠 유형을 콘텐츠 인식 엔진(410)에 제공한다.
예를 들어, 명확화 엔진(404)은 영화 사운드트랙과 관련된 환경 이미지 데이터 (예를 들어, 영화 포스터 CD 앨범 커버의 이미지) 및 발화 표기의 특정한 콘텐츠 유형 (예를 들어, '음악' 콘텐츠 유형)을 콘텐츠 인식 엔진(410)에 전송한다. For example, the
콘텐츠 인식 엔진(410)은 명확화 엔진(404)으로부터 환경 이미지 데이터 및 특정한 콘텐츠 유형을 수신한다. 그러면 동작 (F) 동안, 콘텐츠 인식 엔진(410)은 환경 이미지 데이터에 기초하며 특정한 콘텐츠 유형과 일치하는 콘텐츠 아이템 데이터를 식별하고 식별된 콘텐츠 아이템 데이터를 명확화 엔진(404)에 제공한다. 구체적으로, 콘텐츠 인식 엔진(410)은 환경 이미지 데이터를 적절히 처리하여 콘텐츠 아이템 데이터 (예를 들어 콘텐츠 아이템의 이름)를 식별한다. 덧붙여, 콘텐츠 인식 엔진(410)은 식별된 콘텐츠 아이템과 특정한 콘텐츠 유형 (예를 들어, 발화 표기의 콘텐츠 유형)과 일치시킨다. 콘텐츠 인식 엔진(408)은 (예를 들어, 네트워크를 거쳐) 식별된 콘텐츠 아이템 데이터를 명확화 엔진(408)으로 전송한다. The
예를 들어, 콘텐츠 인식 엔진(410)은 영화 포스터 CD 앨범 커버의 이미지와 관련된 환경 이미지 데이터에 기초하며, 나아가 '음악' 콘텐츠 유형과 일치하는 데이터를 식별한다. For example, the
일부 예들에 있어서, 환경 이미지 데이터가 적어도 CD 앨범 커버와 연관된 영화 포스터를 포함하는 경우, 콘텐츠 인식 엔진(410)은 CD 앨범 커버와 연관된 영화 포스터에 기초하며 또한 '음악' 콘텐츠 유형과도 일치하는 콘텐츠 아이템 데이터를 식별한다. 따라서, 일부 예들에 있어서, 콘텐츠 인식 엔진(410)은 영화 사운드트랙의 제목과 관련된 콘텐츠 아이템 데이터를 식별한다. 예를 들어, 콘텐츠 인식 엔진(410)은 특정한 콘텐츠 아이템(예를 들어, 특정 영화 사운드트랙)이 영화 포스터와 연관되며, 특정한 콘텐츠 아이템(예를 들어, 특정 영화 사운드 트랙)이 특정한 콘텐츠 유형(예를 들어, '음악' 콘텐츠 유형)과 일치한다고 판단할 수 있다. 따라서, 콘텐츠 인식 엔진(410)은 환경 이미지 데이터 (예를 들어, CD 앨범 커버의 이미지)에 기초하며 나아가 특정한 콘텐츠 유형(예를 들어, '음악' 콘텐츠 유형)과 일치하는, 특정한 콘텐츠 아이템(예를 들어, 특정 영화 사운드트랙)과 관련된 데이터(예를 들어, 특정 영화 사운드트랙의 제목)를 식별할 수 있다.In some examples, where the environmental image data includes at least a movie poster associated with a CD album cover,
명확화 엔진(404)은 콘텐츠 인식 엔진(410)으로부터 식별된 콘텐츠 아이템 데이터를 수신한다. 그 후 동작 (G)에서, 명확화 엔진(404)은 식별된 콘텐츠 아이템 데이터를 모바일 컴퓨팅 디바이스(402)에 제공한다. 예를 들어, 명확화 엔진(404)은 영화 사운드트랙과 관련된 식별된 콘텐츠 아이템 데이터 (예를 들어, 영화 사운드트랙의 제목)를 모바일 컴퓨팅 디바이스(402)로 전송한다.
위에서 언급한 바와 같이, 도 1 내지 도 4는 주변 노이즈와 같은 환경 정보에 기초하여 미디어 콘텐츠 (또는 다른 콘텐츠)를 식별할 수 있는 컴퓨팅 환경 내에서의 여러가지 예시적인 프로세스들을 도시한 것이다. 콘텐츠를 식별하기 위한 다른 프로세스들 또한 사용될 수 있다. 일반적으로, 도 5 및 6은, 발화된 자연 언어 쿼리에 대한 더욱 만족스러운 답변을 제공하기 위해, 미디어 콘텐츠를 식별하는 데이터와 같은, 컴퓨팅 환경이 환경 정보로부터 비롯된 콘텍스트에 대한 발화된 자연 언어 쿼리를 증가시킬 수 있는 예시적인 프로세스를 나타낸다. As mentioned above, FIGS. 1-4 illustrate various exemplary processes within a computing environment that can identify media content (or other content) based on environmental information such as ambient noise. Other processes for identifying content can also be used. In general, FIGS. 5 and 6 illustrate a spoken natural language query for a context in which a computing environment, such as data identifying media content, is used to provide a more satisfactory answer to a spoken natural language query. An example process that can be increased is shown.
보다 상세하게, 도 5는 환경 오디오 및 발화에 기초하여 하나 이상의 결과들을 식별하기 위한 시스템(500)을 도시한다. 일부 예시들에서, 상기 하나 이상의 결과들은 자연 언어 쿼리에 대한 하나 이상의 답변을 표현할 수 있다. 시스템(500)은 모바일 컴퓨팅 디바이스(502), 코디네이션 엔진(504), 음성 인식 엔진(506), 콘텐츠 식별 엔진(508), 및 자연 언어 쿼리 프로세싱 엔진(510)을 포함한다. 모바일 컴퓨팅 디바이스(502)는 하나 이상의 네트워크를 통해 코디네이션 엔진(504)과 통신한다. 모바일 디바이스(510)는 마이크로폰, 카메라, 또는 사용자(512) 및/또는 사용자(512)와 연관된 환경 데이터로부터의 발화를 감지하기 위한 다른 감지 메커니즘을 포함할 수 있다. In more detail, FIG. 5 shows a system 500 for identifying one or more results based on environmental audio and speech. In some examples, the one or more results may represent one or more answers to a natural language query. System 500 includes
도 1의 시스템(100)과 유사하게, 사용자(512)는 텔레비전 프로그램 시청중이다. 도시된 예시에서, 사용자(512)는 누가 현재 재생중(playing)인 텔레비전 프로그램(예를 들어, 엔티티(entity))을 감독하였는지 알고 싶어한다. 일부 예시들에서, 사용자(512)는 현재 재생중인 텔레비전 프로그램의 이름을 알지 못할 수 있고, 따라서 질문 "누가 이 쇼를 감독했나요?"를 물어볼 수 있다. 모바일 컴퓨팅 디바이스(502)는, 사용자(512) 환경과 연관된 환경 데이터뿐만 아니라, 이 발화를 감지한다.Similar to the
일부 예시들에서, 사용자(512)의 환경과 연관된 환경 데이터는 사용자(512) 의 환경의 배경 노이즈(background noise)를 포함할 수 있다. 예를 들어, 환경 데이터는 텔레비전 프로그램(예를 들어, 엔티티) 사운드를 포함한다. 일부 예시들에서, 현재 디스플레이된 텔레비전 프로그램과 연관된 환경 데이터는 현재 디스플레이된 텔레비전 프로그램의 오디오(예를 들어, 현재 디스플레이된 텔레비전 프로그램의 대화, 현재 디스플레이 텔레비전 프로그램과 연관된 사운드트랙 오디오, 등)를 포함할 수 있다. 일부 예시들에서, 환경 데이터는 환경 오디오 데이터, 환경 이미지 데이터, 또는 둘 다를 포함할 수 있다. 일부 예시들에서, 모바일 컴퓨팅 디바이스(502)는 발화를 감지한 후에 환경 오디오 데이터를 감지하고; 발화를 감지하면서 동시에 환경 오디오 데이터를 감지하며; 또는 양자를 모두 감지한다. 동작 (A) 동안, 모바일 컴퓨팅 디바이스(502)는 감지된 발화 및 감지된 환경 오디오 데이터(예를 들어, 텔레비전 프로그램의 사운드)를 나타내는 파형 데이터(514)를 생성하기 위해 감지된 발화 및 환경 데이터를 처리하고 파형 데이터(514)를 코디네이션 엔진(504)으로 (예를 들어, 네트워크를 통해) 전송한다.In some examples, the environmental data associated with the environment of
코디네이션 엔진(504)은 모바일 컴퓨팅 디바이스(502)로부터 파형 데이터(514)를 수신한다. 동작 (B) 동안, 코디네이션 엔진(504)은, 파형 데이터(514)의 다른 부분들로부터 발화를 분리(또는 추출)하는 것을 포함하여, 파형 데이터(514)를 처리하고 파형에 대응하는 파형 데이터(514)의 부분을 음성 인식 엔진(506)으로 (예를 들어, 네트워크를 통해) 전송한다. 예를 들어, 코디네이션 엔진(504)은 사용자(512) 환경의 배경 노이즈(예를 들어, 현재 디스플레이된 텔레비전 프로그램의 오디오)로부터 발화("누가 이 쇼를 감독했나요?")를 분리한다. 일부 예시들에서, 코디네이션 엔진(504)은 음성 활동(voice activity)을 포함하는 파형 데이터(514)의 일 부분을 식별하여 배경 노이즈로부터 발화의 분리를 용이하게 하기 위해 음성 감지기(voice detector)를 이용할 수 있다. 일부 예시들에서, 발화는 쿼리(예를 들어, 현재 디스플레이된 텔레비전 프로그램과 관련있는 쿼리)와 연관된다.
음성 인식 엔진(506)은 코디네이션 엔진(504)로부터 발화에 대응하는 파형 데이터(514)의 일부를 수신한다. 동작 (C) 동안, 코디네이션 엔진(506)은 발화의 표기를 획득하고 코디네이션 엔진(504)으로 상기 표기를 제공한다. 특히, 음성 인식 엔진(506)은 코디네이션 엔진(504)으로부터 수신된 발화에 대응하는 파형 데이터(514)의 일부를 적절하게 처리한다. 일부 예시들에서, 음성 인식 엔진(506)에 의한 발화에 대응하는 파형 데이터(514)의 일부를 처리하는 단계는 발화의 표기를 생성하는 단계를 포함한다. 발화의 표기를 생성하는 단계는 발화를 텍스트 또는 텍스트-관련 데이터로 표기하는 단계를 포함할 수 있다. 다시 말해서, 음성 인식 엔진(506)은 발화의 서면 형태(in written form of the utterance)의 언어 표현을 제공할 수 있다.The
예를 들어, 음성 인식 엔진(506)은 "누가 이 쇼를 감독했나요?"의 표기를 생성하기 위해 상기 발화를 표기(transcribe)한다. 일부 실시예에서, 음성 인식 엔진(506)은 상기 발화의 둘 이상의 표기를 제공한다. 예를 들어, 음성 인식 엔진(506)은 "누가 이 쇼를 감독했나요?(Who directed this show?)" 및 "누가 이 신발을 지시했나요?(Who directed this shoe?)"의 표기를 생성하기 위해 상기 발화를 표기할 수 있다.For example, the
코디네이션 엔진(504)은 음성 인식 엔진(506)으로부터 발화의 표기를 수신한다. 나아가, 위에서 언급한 바와 같이, 코디네이션 엔진(504)은 모바일 컴퓨팅 디바이스(502)로부터 발화와 연관된 환경 오디오 데이터를 포함하는 파형 데이터(514)를 수신한다. 코디네이션 엔진(504)은 이제 환경 데이터를 이용하여 엔티티(an entity)를 식별한다. 특히, 코디네이션 엔진(504)은 콘텐츠 식별 엔진(508)으로부터 엔티티를 식별하는 데이터를 획득한다. 그렇게 하기 위해, 동작 (D) 동안, 코디네이션 엔진(504)은 환경 데이터 및 발화에 대응하는 파형 데이터(514)의 부분을 컨텐츠 식별 엔진(508)으로 (예를 들어, 네트워크를 통해) 제공한다.
예를 들어, 코디네이션 엔진(504)은 현재 디스플레이된 텔레비전 프로그램의 오디오(예를 들어, 현재 디스플레이된 텔레비전 프로그램의 대화, 현재 디스플레이된 텔레비전 프로그램과 연관된 사운드트랙 오디오, 등)를 포함하는 현재 디스플레이된 텔레비전 프로그램(예를 들어, 엔티티)과 관련된 환경 데이터 및 발화("누가 이 쇼를 감독했나요?")에 대응하는 파형(514)의 부분을 콘텐츠 식별 엔진(508)으로 전송한다. For example, the
일부 실시예에서, 코디네이션 엔진(504)은 콘텐츠 식별 엔진(508)으로 환경 데이터의 일 부분을 제공한다. 일부 예시들에서, 환경 데이터의 일부는 발화 감지 후에 모바일 컴퓨팅 디바이스(502)에 의해 감지된 배경 노이즈를 포함할 수 있다. 일부 예시들에서, 환경 데이터의 일부는 발화 감지와 동시에 모바일 컴퓨팅 디바이스(502)에 의해 감지되는 배경 노이즈를 포함할 수 있다.In some embodiments,
콘텐츠 식별 엔진(508)은 코디네이션 엔진(504)으로부터 환경 데이터 및 발화에 대응하는 파형(514)의 일부를 수신한다. 동작 (E) 동안, 콘텐츠 식별 엔진(508)은 환경 데이터와 발화에 기초한 엔티티(예를 들어, 콘텐츠 아이템 데이터)를 식별하는 데이터를 식별하고, 엔티티를 식별하는 상기 데이터를 코디네이션 엔진(504)으로 (예를 들어, 네트워크를 통해) 제공한다. 특히, 콘텐츠 식별 엔진(508)은 환경 데이터(예를 들어, 텔레비전 쇼의 이름, 노래의 이름, 등)와 연관된 엔티티(예를 들어, 콘텐츠 아이템 데이터)를 식별하는 데이터를 식별하기 위해 환경 데이터 및 발화에 대응하는 파형(514)의 일부를 적절하게 처리한다.The
예를 들어, 콘텐츠 식별 엔진(508)은 현재 디스플레이된 텔레비전 프로그램과 연관된 콘텐츠 아이템 데이터를 식별하기 위해 환경 오디오 데이터를 처리한다. 일부 실시예에서, 콘텐츠 식별 엔진(508)은 도 1의 시스템(100)이다. For example,
코디네이션 엔진(504)은 콘텐츠 식별 엔진(508)으로부터 엔티티(예를 들어, 콘텐츠 아이템 데이터)를 식별하는 데이터를 수신한다. 나아가, 전술한 바와 같이, 코디네이션 엔진(504)은 음성 인식 엔진(506)으로부터 표기를 수신한다. 동작 (F) 동안, 코디네이션 엔진(504)은 이제 표기를 포함하는 쿼리와 엔티티를 식별하는 데이터를 자연 언어 쿼리 프로세싱 엔진(510)으로 (예를 들어, 네트워크를 통해) 제공한다. 예를 들어, 코디네이션 엔진(504)은 발화("누가 이 쇼를 감독했나요?")의 표기를 포함하는 쿼리 및 콘텐츠 아이템 데이터('텔레비전 쇼 이름')을 자연 언어 쿼리 프로세싱 엔진(510)으로 제공한다.
일부 예시들에서, 코디네이션 엔진(504)은 쿼리를 생성한다. 일부 예시들에서, 코디네이션 엔진(504)은 (예를 들어, 제 3 서버로부터) 쿼리를 획득한다. 예를 들어, 코디네이션 엔진(504)은 발화의 표기, 및 엔티티를 식별하는 데이터를 제 3 서버로 제출하고, 상기 표기 및 엔티티를 식별하는 데이터에 기초한 쿼리를 회신한다.In some examples,
일부 실시예에서, 코디네이션 엔진(504)에 의해 쿼리를 생성하는 단계는 발화의 표기를 엔티티(예를 들어, 콘텐츠 아이템 데이터)를 식별하는 데이터와 연관시키는 단계를 포함할 수 있다. 일부 예시들에서, 발화의 표기를 콘텐츠 아이템 데이터와 연관시키는 단계는 상기 표기에 엔티티를 식별하는 데이터를 태그하는 단계(tagging)를 포함할 수 있다. 예를 들어, 코디네이션 엔진(504)은 표기 "누가 이 쇼를 감독했나요?"에 '텔레비전 쇼 이름' 또는 컨텐츠 아이템 데이터와 연관된 다른 식별 정보(예를 들어, 식별(ID) 번호)를 태그할 수 있다. 일부 예시들에서, 발화의 표기를 엔티티를 식별하는 데이터와 연관시키는 단계는 표기의 일 부분을 엔티티를 식별하는 데이터로 대체하는 단계를 포함한다. 예를 들어, 코디네이션 엔진(504)은 표기 "누가 이 쇼를 감독했나요?"의 일 부분을 '텔레비전 쇼 이름' 또는 '텔레비전 쇼 이름'을 식별하는 데이터로 대체할 수 있다. 일부 예시들에서, 표기의 일 부분을 엔티티를 식별하는 데이터로 대체하는 단계는 발화의 표기의 하나 이상의 단어들을 엔티티를 식별하는 데이터로 대체하는 단계를 포함할 수 있다. 예를 들어, 코디네이션 엔진(504)은 표기 "누가 이 쇼를 감독했나요?"에서 '텔레비전 쇼 이름' 또는 '텔레비전 쇼 이름'을 식별하는 데이터를 대체할 수 있다. 예를 들어, 상기 대체는 "누가 '텔레비전 쇼 이름'을 감독했나요?(Who directed ‘television show name')" 또는 "누가 ID 번호를 감독했나요?(Who directed ‘ID number’)"를 포함하는 표기를 초래할 수 있다.In some embodiments, generating the query by the
자연 언어 쿼리 프로세싱 엔진(510)은 코디네이션 엔진(504)으로부터 표기를 포함하는 쿼리 및 엔티티(예를 들어, 콘텐츠 아이템 데이터)를 식별하는 데이터를 수신한다. 동작 (G) 동안, 자연 언어 쿼리 프로세싱 엔진(510)은 쿼리를 적절하게 처리하고 상기 처리에 기초하여, 하나 이상의 결과들을 코디네이션 엔진(504)으로 (예를 들어, 네트워크를 통해서) 제공한다. 다시 말해서, 코디네이션 엔진(510)은 (예를 들어, 자연 언어 쿼리 프로세싱 엔진(510)으로부터) 쿼리에 대한 하나 이상의 결과를 획득한다.Natural language query processing engine 510 receives from
특히, 자연 언어 쿼리 프로세싱 엔진(510)은 (정보 리소스의 컬렉션으로부터) 쿼리에 관련된 정보 리소스(발화의 표기 및 콘텐츠 아이템 데이터)를 획득한다. 일부 예시들에서, 자연 언어 쿼리 프로세싱 엔진(510)은 쿼리를 데이터베이스 정보(예를 들어, 텍스트 문서, 이미지, 오디오, 비디오, 등)에 대하여 매칭시키고 데이터베이스의 각 개체들이 쿼리에 얼마나 잘 매칭되는지에 대한 점수가 계산된다. 자연 언어 쿼리 프로세싱 엔진(510)은 상기 매칭된 개체들(예를 들어, 임계점수보다 높은 점수를 갖는 개체들)에 기초하여 하나 이상의 결과들을 식별한다. In particular, the natural language query processing engine 510 obtains information resources (notation of speech and content item data) related to the query (from the collection of information resources). In some examples, natural language query processing engine 510 matches the query against database information (eg, text document, image, audio, video, etc.) and how well each entity in the database matches the query. The score is calculated. The natural language query processing engine 510 identifies one or more results based on the matched entities (eg, those with scores above the critical score).
예를 들어, 자연 언어 쿼리 프로세싱 엔진(510)은 발화 "누가 이 쇼를 감독했나요?"의 표기를 포함하는 쿼리 및 '텔레비전 쇼 이름' (또는 다른 식별 정보)를 수신한다. 자연 언어 쿼리 프로세싱 엔진(510)은 상기 쿼리를 데이터베이스 정보에 대하여 매칭시키고, 쿼리를 매칭시키는 하나 이상의 결과들을 제공한다. 자연 언어 쿼리 프로세싱 엔진(510)은 각 매칭된 개체들의 점수를 계산한다.For example, the natural language query processing engine 510 receives a query that includes the notation "Who directed this show?" And a "TV show name" (or other identifying information). The natural language query processing engine 510 matches the query against database information and provides one or more results that match the query. The natural language query processing engine 510 calculates the score of each matched entity.
코디네이션 엔진(504)은 자연 언어 쿼리 프로세싱 엔진(510)으로부터 하나 이상의 결과들을 수신한다. 동작 (H)에서, 이제 코디네이션 엔진(504)은 상기 하나 이상의 결과들을 모바일 컴퓨팅 디바이스(502)로 (예를 들어, 네트워크를 통해서) 제공한다. 예를 들어, 코디네이션 엔진(504)은 하나 이상의 결과들(예를 들어, 텔레비전 쇼의 감독의 이름)을 모바일 컴퓨팅 디바이스(502)로 전송한다.
일부 예시들에서, 하나 이상의 모바일 컴퓨팅 디바이스(502), 코디네이션 엔진(504), 음성 인식 엔진(506), 콘텐츠 식별 엔진(508), 및 자연 언어 쿼리 프로세싱 엔진(510)은 모바일 컴퓨팅 디바이스(502), 코디네이션 엔진(504), 음성 인식 엔진(506), 콘텐츠 식별 엔진(508), 및 자연 언어 쿼리 프로세싱 엔진(510)의 서브셋(또는 각각)과 통신할 수 있다. 일부 실시예에서, 하나 이상의 코디네이션 엔진(504), 음성 인식 엔진(506), 콘텐츠 식별 엔진(508), 및 자연 언어 쿼리 프로세싱 엔진(510)은, 하나 이상의 컴퓨팅 서버, 분산 컴퓨팅 시스템, 또는 서버 팜(server farm) 또는 클러스터(cluster)와 같은, 하나 이상의 컴퓨팅 디바이스에 의해 구현될 수 있다.In some examples, one or more
도 6은 환경 데이터 및 발화에 기초하여 하나 이상의 결과들을 식별하기 위한 예시 프로세스(600)의 흐름도를 도시한다. 예시 프로세스(600)은 하나 이상의 컴퓨팅 디바이스를 이용하여 실행될 수 있다. 예를 들어, 모바일 컴퓨팅 디바이스(502), 코디네이션 엔진(504), 음성 인식 엔진(506), 콘텐츠 식별 엔진(508), 및/또는 자연 언어 쿼리 프로세싱 엔진(510)은 예시 프로세스(600)을 실행하기 위해 이용될 수 있다.6 shows a flowchart of an example process 600 for identifying one or more results based on environmental data and speech. The example process 600 can be executed using one or more computing devices. For example,
발화 및 환경 데이터를 부호화한(encoding) 오디오 데이터가 수신된다(602). 예를 들어, 코디네이션 엔진(504)은 모바일 컴퓨팅 디바이스(502)로부터 파형 데이터(514)를 수신한다. 파형 데이터(514)는 사용자의 발화(예를 들어, "누가 이 쇼를 감독했나요?") 및 환경 데이터(예를 들어, 현재 디스플레이된 텔레비전 프로그램의 오디오)를 포함한다. 일부 예시들에서, 환경 데이터를 수신하는 단계는 환경 오디오 데이터, 환경 이미지 데이터, 또는 둘 다를 수신하는 단계를 포함할 수 있다. 일부 예시들에서, 환경 데이터를 수신하는 단계는 배경 노이즈를 포함하는 부가적인 오디오 데이터를 수신하는 단계를 포함한다.Audio data encoding utterance and environmental data is received (602). For example,
발화의 표기가 획득된다(604). 예를 들어, 코디네이션 엔진(504)은 음성 인식 엔진(506)을 이용하여 발화의 표기를 획득한다. 음성 인식 엔진(506)은 발화의 표기(예를 들어, "누가 이 쇼를 감독했나요?")를 생성하기 위해 상기 발화를 표기(transcribe)한다.A notation of speech is obtained (604). For example, the
엔티티가 환경 데이터를 이용하여 식별된다(606). 예를 들어, 코디네이션 엔진(504)은 콘텐츠 식별 엔진(508)을 이용하여 엔티티를 식별하는 데이터를 획득한다. 콘텐츠 식별 엔진(508)은 환경 데이터(예를 들어, 텔레비전 쇼의 이름, 노래의 제목, 등)와 연관된 엔티티(예를 들어, 콘텐츠 아이템 데이터)를 식별하는 데이터를 식별하기 위해 환경 데이터(예를 들어, 디스플레이된 텔레비전 프로그램과 연관된 환경 오디오 데이터)를 적절하게 처리할 수 있다. 일부 예시들에서, 콘텐츠 식별 엔진(508)은 엔티티를 식별하기 위해 (동시에 또는 환경 데이터의 처리에 후속하여) 발화에 대응하는 파형(514)을 더 처리할 수 있다.The entity is identified 606 using the environmental data. For example, the
일부 예시들에서, 코디네이션 엔진(504)은 쿼리를 생성한다. 일부 예시들에서, 코디네이션 엔진(504)에 의해 쿼리가 생성되는 단계는 발화의 표기를 엔티티를 식별하는 데이터와 연관시키는 단계를 포함할 수 있다. 일부 예시들에서, 발화의 표기를 콘텐츠 아이템 데이터와 연관시키는 단계는 표기의 일 부분을 엔티티를 식별하는 데이터로 대체하는 단계를 포함할 수 있다. 일부 예시들에서, 표기의 일 부분을 엔티티를 식별하는 데이터로 대체하는 단계는 발화의 표기의 하나 이상의 단어들을 엔티티를 식별하는 데이터로 대체하는 단계를 포함할 수 있다.In some examples,
쿼리는 자연 언어 프로세싱 엔진으로 제출된다(608). 예를 들어, 코디네이션 엔진(504)은 쿼리를 자연 언어 프로세싱 엔진(510)으로 제출한다. 쿼리는 표기의 적어도 일 부분 및 엔티티(예를 들어, 콘텐츠 아이템 데이터)를 식별하는 데이터를 포함할 수 있다. 예를 들어, 코디네이션 엔진(504)은 발화("누가 이 쇼를 감독했나요?")의 표기를 포함하는 쿼리 및 콘텐츠 아이템 데이터('텔레비전 쇼 이름')을 자연 언어 쿼리 프로세싱 엔진(510)으로 제공한다.The query is submitted to the natural language processing engine (608). For example,
쿼리에 대한 하나 이상의 결과들이 획득된다(610). 예를 들어, 코디네이션 엔진은 자연 언어 쿼리 프로세싱 엔진(510)으로부터 쿼리에 대한 하나 이상의 결과들(예를 들어, 텔레비전 쇼의 감독의 이름)을 획득한다. 일부 예시들에서, 코디네이션 엔진(504)은 이제 상기 하나 이상의 결과들을 모바일 컴퓨팅 디바이스(502)로 제공한다.One or more results for the query are obtained (610). For example, the coordination engine obtains one or more results for the query (eg, the name of the director of the television show) from the natural language query processing engine 510. In some examples,
도 7은 여기에 설명된 기술이 이용될 수 있는 일반적인(generic) 컴퓨팅 디바이스(700) 및 일반적인 모바일 컴퓨팅 디바이스(750)의 일 예시를 나타낸다. 컴퓨팅 디바이스(700)는 랩탑, 데스트탑, 워크스테이션, PDA, 서버, 블레이드(blade) 서버, 메인프레임, 및 그 밖의 적절한 컴퓨터들과 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위해 사용된다. 모바일 컴퓨팅 디바이스(750)는 PDA, 셀룰라 전화, 스마트폰, 및 그 밖의 유사한 컴퓨팅 디바이스와 같은 다양한 형태의 모바일 디바이스를 나타내기 위해 사용된다. 여기에 보여지는 컴포넌트들, 그 연결 및 관계, 및 그 기능들은 단지 예시를 의미하고, 본 명세서에서 설명하거나 또는 청구된 기술의 실시예를 제한하는 것을 의미하지 않는다.7 illustrates one example of a
컴퓨팅 디바이스(700)는 프로세서(702), 메모리(704), 저장 디바이스(706), 메모리(704)에 접속하는 고속 인터페이스(708)와 고속 확장 포트(710), 및 저속 버스(714)와 저장 디바이스(706)에 접속하는 저속 인터페이스(712)를 포함한다. 각 구성요소(702, 704, 706, 708, 710, 및 512)는 다양한 버스들을 사용하여 서로 접속되고, 일반적인 마더보드 또는 적절한 경우 다른 방식으로 탑재될 수 있다. 프로세서(702)는 컴퓨팅 디바이스(700) 내에서 실행하기 위한 명령어를 처리할 수 있으며, 이러한 명령어에는, 고속 인터페이스(708)에 연결된 디스플레이(716)와 같은 외장 입/출력 디바이스상에서 GUI용 그래픽 정보를 디스플레이하기 위해, 메모리(704) 또는 저장 디바이스(706)에 저장되는 명령어가 포함된다. 다른 실시예에서, 다중 프로세서 및/또는 다중 버스는 적절한 경우, 다중 메모리 및 메모리 타입과 함께 사용될 수 있다. 또한, 다중 컴퓨팅 디바이스(700)는 각 디바이스가 필요 동작의 부분을 제공하는 형태(예를 들어, 서버 뱅크, 블레이드 서버의 그룹, 또는 다중 프로세서 시스템)로 접속될 수 있다.
메모리(704)는 컴퓨팅 디바이스(700)내에 정보를 저장한다. 일 실시예에서, 메모리(704)는 휘발성 메모리 유닛 또는 유닛들이다. 또 다른 실시예에서, 메모리(704)는 비휘발성 메모리 유닛 또는 유닛들이다. 또한, 메모리(704)는 마그네틱 또는 광 디스크와 같은 다른 형태의 컴퓨터 판독가능 매체일 수 있다.Memory 704 stores information in
저장 디바이스(706)는 컴퓨팅 디바이스(700)를 위한 대용량 저장소(mass storage)를 제공할 수 있다. 일 실시예에서, 저장 디바이스(706)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스, 또는 테이프 디바이스, 플래쉬 메모리 또는 다른 유사한 고체 상태(solid state) 메모리 디바이스, 또는 저장 영역 네트워크 또는 다른 구성에 존재하는 디바이스를 포함하는 디바이스 배열(array)일 수 있다. 컴퓨터 프로그램 제품은 정보 캐리어(information carrier) 내에 유형적으로 구체화될 수 있다. 또한, 컴퓨터 프로그램 제품은 실행될 때, 상술한 것과 같은 하나 이상의 방법을 수행하는 명령어를 포함할 수 있다. 정보 캐리어는 메모리(704), 저장 디바이스(706), 프로세서(702)상의 메모리와 같은 컴퓨터 또는 기계 판독가능 매체이다.The
저속 제어부(712)가 저대역-집약적 동작(lower bandwidth-intensive operations)을 관리하는 반면, 고속 제어부(708)는 컴퓨팅 디바이스(700)에 대한 대역-집약적 동작을 관리한다. 이러한 기능들의 배치는 단지 예시적일 뿐이다. 일 실시예에서, 고속 제어부(708)는 메모리(704), 디스플레이(716)(예를 들어, 그래픽 프로세서 또는 가속기를 통함)에 연결되고, 다양한 확장 카드(도시되지 않음)을 수용할 수 있는 고속 확장 포트(710)에 연결된다. 일부 실시예에서는, 저속 제어부(712)는 저장 디바이스(706) 및 저속 확장 포트(714)에 연결된다. 다양한 통신 포트(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있는 저속 확장 포트는 키보드, 포인팅 디바이스, 스캐너와 같은 하나 이상의 입/출력 디바이스들에 연결되거나, 또는 예컨대 네트워크 어댑터를 통하여, 스위치나 라우터와 같은 네트워킹 디바이스에 연결될 수 있다.The
컴퓨팅 디바이스(700)는 도면에 도시된 바와 같이, 복수의 다른 형태로 구현될 수 있다. 예를 들어, 컴퓨팅 디바이스(700)는 표준 서버(720)로 구현되거나 이러한 서버들의 그룹에서 여러 번(multiple time) 구현될 수 있다. 또한, 컴퓨팅 디바이스(700)는 랙 서버 시스템(724)의 부분으로서 구현될 수 있다. 이에 더하여, 컴퓨팅 디바이스(700)는 랩탑 컴퓨터(722)와 같은 개인용 컴퓨터내에 구현될 수 있다. 선택적으로, 컴퓨팅 디바이스 (700)로부터의 구성요소는 디바이스(750)와 같은 모바일 디바이스(도시되지 않음)내 다른 구성요소와 조합될 수 있다. 이러한 디바이스 각각은 하나 이상의 컴퓨팅 디바이스(700, 750)를 포함하고, 전체 시스템은 서로 통신하는 다중 컴퓨팅 디바이스(700, 750)로 구성될 수 있다.The
컴퓨팅 디바이스(750)는 여러 구성요소 중에서 프로세서(752), 메모리(764), 디스플레이(754)와 같은 입/출력 디바이스, 통신 인터페이스(766), 및 트랜스시버(768)를 포함한다. 또한, 디바이스(750)에는 추가적인 저장소를 제공하기 위하여, 마이크로 드라이브 또는 다른 디바이스와 같은 저장 디바이스가 제공될 수 있다. 각 구성요소(750, 752, 764, 754, 766, 및 568)는 다양한 버스를 이용하여 서로 접속되고, 구성요소의 몇몇은 통상의 마더보드에 탑재되거나 적절한 다른 방법으로 탑재될 수 있다.
프로세서(752)는 컴퓨팅 디바이스(750) 내에서 명령어를 실행하며, 이 명령어에는 메모리(764)에 저장된 명령어가 포함된다. 프로세서는 개별적이고 다중의 아날로그 및 디지털 프로세서를 포함하는 칩들의 칩 세트로서 구현될 수 있다. 프로세서는, 예를 들어, 사용자 인터페이스의 컨트롤, 디바이스(750)에 의해 실행되는 애플리케이션, 및 컴퓨팅 디바이스(750)에 의한 무선 통신과 같은 디바이스(750)의 다른 구성요소들 사이에 조정을 제공할 수 있다.
프로세서(752)는 제어 인터페이스(758) 및 디스플레이(754)에 연결된 디스플레이 인터페이스(756)를 통해 사용자와 통신할 수 있다. 디스플레이(754)는, 예를 들어, TFT LCD(Thin-Film-Tansistor Liquid Crystal Display) 또는 OLED(Organic Light Emitting Diode) 디스플레이, 또는 다른 적절한 디스플레이 기술일 수 있다. 디스플레이 인터페이스(756)는 그래픽 및 다른 정보를 사용자에게 나타내기 위해 디스플레이(754)를 구동하는 적절한 회로를 포함할 수 있다. 제어 인터페이스(758)는 사용자로부터 명령들을 수신하고, 프로세서(752)에 제출하기 위해 그 명령들을 변환한다. 더욱이, 확장 인터페이스(762)는 디바이스(750)와 다른 디바이스들간에 근거리 통신이 가능하도록 하기 위해, 프로세서(752)와의 통신에 제공될 수 있다. 확장 인터페이스(762)는, 예를 들어, 일부 실시예에서는 유선 통신을 제공하고 다른 실시예에서 무선 통신을 제공하며, 또한 다중 인터페이스가 사용될 수 있다.The
메모리(764)는 컴퓨팅 디바이스(750)내에 정보를 저장한다. 메모리(764)는 컴퓨터 판독가능 매체 또는 미디어, 휘발성 메모리 유닛 또는 유닛들, 또는 비휘발성 메모리 유닛 또는 유닛들 중 하나 이상으로서 구현될 수 있다. 또한, 확장 메모리(774)가 제공되어, 예를 들어 SIMM(Single In Line Memory Module) 카드 인터페이스를 포함하는 확장 인터페이스(774)를 통해 디바이스(750)에 접속될 수 있다. 이러한 확장 메모리(774)는 디바이스(750)를 위한 여분의 저장 공간을 제공할 수 있고, 또한 어플리케이션 또는 디바이스(750)를 위한 다른 정보를 저장할 수 있다. 특히, 확장 메모리(774)는 상술된 프로세스를 실행하거나 보조하기 위한 명령어를 포함하고, 또한 보안 정보를 포함할 수 있다. 따라서, 예를 들어, 확장 메모리(774)는 디바이스(750)용 보안 모듈(security module)로서 제공될 수 있고, 디바이스(750)의 안전한 사용을 가능하게 하는 명령어로 프로그램될 수 있다. 더욱이, 보안 어플리케이션은, 해킹할 수 없는 방식(non-hackable manner)으로 SIMM 카드상에 식별 정보를 위치시킨 것과 같은 추가적 정보와 함께 SIMM 카드를 통해 제공될 수 있다.
메모리는 아래에서 논의되는 것과 같이, 예를 들어, 플래시 메모리 및/또는 NVRAM 메모리를 포함할 수 있다. 일 실시예에서, 컴퓨터 프로그램 제품은 정보 캐리어에 유형적으로 구체화된다. 컴퓨터 프로그램 제품은 실행될 때, 상술된 것과 같은 하나 이상의 방법을 수행하는 명령어를 포함한다. 정보 캐리어는 메모리(764), 확장 메모리(774), 프로세서(752)상의 메모리, 또는 예를 들어 트랜스시버(768) 또는 확장 인터페이스(762)를 통해 수신될 수 있는 전달된 신호와 같은 컴퓨터-또는 기계-판독가능 매체이다.The memory may include, for example, flash memory and / or NVRAM memory, as discussed below. In one embodiment, the computer program product is tangibly embodied in an information carrier. The computer program product, when executed, comprises instructions for performing one or more methods as described above. The information carrier may be a computer- or machine such as a
디바이스(750)는 디지털 신호 처리 회로를 필요에 따라 포함하는 통신 인터페이스(766)를 통해 무선으로 통신할 수 있다. 통신 인터페이스(766)는 GSM 음성 호, SMS, EMS, 또는 MMS 메시징, CDMA, TDMA, PDC, WCDMA, CDMA2000, 또는 GPRS 등과 같은 다양한 모드 또는 프로토콜 하에서의 통신을 제공할 수 있다. 이러한 통신은 예를 들어, 무선-주파수 트랜스시버(768)를 통해 수행될 수 있다. 또한, 단거리(short range) 통신은 예를 들어, 블루투스, WiFi, 또는 다른 이러한 트랜스시버(도시되지 않음)를 사용하여 수행될 수 있다. 이에 더하여, GPS(Global Position System) 수신기 모듈(770)은 추가적인 항법- 및 위치- 관련 무선 데이터를 디바이스(750)에 제공할 수 있다. 이 무선 데이터는 디바이스(750)에서 실행중인 어플리케이션에 의해 적절하게 사용될 수 있다.
또한, 디바이스(750)는 사용자로부터의 발화 정보(spoken information)를 수신하고, 그 발화 정보를 사용가능한 디지털 정보로 변환하는 오디오 코덱(760)을 이용하여, 청취가능하게(audibly) 통신할 수 있다. 또한, 오디오 코덱(760)은 예를 들어, 디바이스(750)의 핸드셋 내의 스피커를 통하는 것과 같이 해서, 사용자가 들을 수있는 음성을 생성한다. 이러한 음성은 음성 전화 호로부터의 음성을 포함할 수 있고, 녹음된 음성(예를 들어, 음성 메시지, 뮤직 파일 등)은 포함할 수 있고, 또한 디바이스(750) 상에서 동작하는 애플리케이션에 의해 생성된 음성을 포함할 수 있다.The
컴퓨팅 디바이스(750)는 도면에 도시된 바와 같이, 복수의 다양한 형태로 구현될 수 있다. 예를 들어, 컴퓨팅 디바이스(750)는 셀룰러 전화(780)로서 구현될 수 있다. 또한, 컴퓨팅 디바이스(750)는 스마트폰(782), PDA, 또는 다른 유사한 모바일 디바이스의 일부로서 구현될 수 있다.The
본 명세서에 설명된 다양한 시스템과 방법의 여러 실시예는 디지털 전자 회로, 집적 회로, 특정 목적으로 설계된 ASICs(application specific integrated circuits), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 실시예에는 하나 이상의 컴퓨터 프로그램의 실시예가 포함되고, 이 컴퓨터 프로그램은 프로그램 가능한 시스템 상에서 실행가능 및/또는 해석가능(interpretable)하며, 프로그램 가능한 시스템은 저장 시스템에 연결되어 데이터와 명령을 송수신하는, 전용 또는 범용인 적어도 하나의 프로그램 가능한 프로세서, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스를 포함한다.Various embodiments of the various systems and methods described herein may be realized with digital electronic circuits, integrated circuits, application specific integrated circuits (ASICs) designed for specific purposes, computer hardware, firmware, software, and / have. Embodiments include embodiments of one or more computer programs that are executable and / or interpretable on a programmable system, and a programmable system is coupled to a storage system for transmitting and receiving instructions At least one programmable processor, at least one input device, and at least one output device.
이러한 컴퓨터 프로그램(또한, 프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드라 함)은 프로그램 가능한 프로세서용 기계 명령을 포함하고, 고레벨 절차 및/또는 객체지향 프로그래밍 언어, 및/또는 어셈블리/기계 언어로 구현될 수 있다. 본 명세서에 사용되는 바와 같이, 용어 "기계-판독가능 매체", "컴퓨터-판독가능 매체"는 기계 명령 및/또는 데이터를 프로그램 가능한 프로세서에 제공하는데 사용되는, 임의의 컴퓨터 프로그램 제품, 장치 및/또는 디바이스(예를 들어, 자기 디스크, 광디스크, 메모리, 프로그램 가능한 로직 디바이스(PLD))를 지칭하며, 기계-판독가능 신호로써 기계 명령을 수신하는 기계-판독가능 매체도 포함된다. 용어 "기계-판독가능 신호"는 명령어 및/또는 데이터를 프로그램 가능한 프로세서로 제공하기 위해 사용되는 어떠한 신호라도 참조한다.Such computer programs (also referred to as programs, software, software applications, or code) may include machine instructions for a programmable processor and may be implemented in a high-level procedure and / or object-oriented programming language, and / have. As used herein, the terms “machine-readable medium”, “computer-readable medium” are any computer program product, apparatus, and / or used to provide machine instructions and / or data to a programmable processor. Or a device (eg, magnetic disk, optical disk, memory, programmable logic device (PLD)), and includes machine-readable media that receive machine instructions as machine-readable signals. The term “machine-readable signal” refers to any signal used to provide instructions and / or data to a programmable processor.
사용자와의 상호작용을 제공하기 위하여, 본 명세서에 설명되는 시스템과 방법은, 정보를 사용자에게 디스플레이 하는 디스플레이 디바이스(예를 들어, 음극선관(CRT) 또는 LCD(liquid crystal display) 모니터) 및 사용자가 컴퓨터에 입력하는데 사용하는 키보드와 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 구비한 컴퓨터상에서 구현될 수 있다. 다른 카테고리의 디바이스도 사용자와의 상호작용을 제공하기 위하여 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 지각 피드백(시각, 청각 또는 촉각 피드백)의 임의 형태가 될 수 있고, 사용자로부터의 입력은 음향(acoustic), 음성(speech) 또는 촉각 입력을 포함하는 임의 형태로 수신될 수 있다.To provide for interaction with a user, the systems and methods described herein include a display device (e.g., a cathode ray tube (CRT) or liquid crystal display (LCD) monitor) that displays information to a user, May be implemented on a computer with a keyboard and a pointing device (e.g., a mouse or trackball) for input to a computer. Other categories of devices may also be used to provide interactions with the user. For example, the feedback provided to the user may be any form of the perceptual feedback (visual, auditory, or tactile feedback), and the input from the user may be any form of acoustic, Lt; / RTI >
본 명세서에 설명된 다양한 시스템과 방법은, 백엔드 구성요소(예를 들어, 데이터 서버), 또는 미들웨어 구성요소(예를 들어, 애플리케이션 서버) 또는 전치(frontend) 구성요소(예를 들어, 본 명세서에 설명된 시스템 및 방법의 실시예와 상호작용하기 위해 사용자가 사용할 수 있는 그래픽 사용자 인터페이스(GUI) 또는 웹브라우저를 구비한 클라이언트 컴퓨터) 또는 이러한 백엔드, 미들웨어 또는 전치(frontend) 구성요소의 임의 조합을 포함하는 컴퓨팅 시스템으로 구현될 수 있다. 시스템의 구성요소는 임의 형태 또는 디지털 데이터 통신의 매체(예를 들어, 통신 네트워크)에 의해 상호접속될 수 있다. 통신 네트워크의 예는 근거리 네트워크("LAN"), 광역 네트워크("WAN"), 및 인터넷을 포함한다.The various systems and methods described herein may be implemented with a backend component (e.g., a data server), or a middleware component (e.g., an application server) or a frontend component (e.g., A client computer with a graphical user interface (GUI) or web browser that a user can use to interact with embodiments of the described systems and methods), or any combination of such backend, middleware, or frontend components And the like. The components of the system may be interconnected by any form or medium of digital data communication (e.g., a communication network). Examples of communication networks include a local area network ("LAN"), wide area network ("WAN"), and the Internet.
컴퓨팅 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 떨어져 있고, 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는, 각 컴퓨터에서 실행 중이며 서로에 대하여 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들에 의해 발생한다.The computing system may include a client and a server. Clients and servers are generally separate from each other and interact through a communications network. The relationship between a client and a server is generated by computer programs running on each computer and having a client-server relationship to each other.
본 명세서가 몇몇 특징들을 포함하지만, 이것들은 개시된 내용 또는 청구될 수 있는 내용의 범위를 제한하는 것으로 해석되서는 안되며, 개시된 내용의 예시 실시예들의 특징의 설명으로써 해석되어야 할 것이다. 본 명세서에서 분리된 실시예들의 콘텍스트에 기재된 어떤 특징들은 하나의 실시예에서 결합되어 제공될 수도 있다. 역으로, 하나의 실시예의 콘텍스트에 기재된 다양한 특징들은 별개의 또는 어떤 적절한 서브컴비네이션의 다수의 실시예에서 제공될 수 있다. 나아가, 특징들이 위에서 특정 조건들에서 동작하거나 심지어 그와 같이 제기되었다 하더라도, 제기된 조합들로부터의 하나 이상의 특징들은 어떤 경우에는 조합으로부터 삭제될 수 있고, 제기된 조합은 하위조합 또는 하위조합의 변형으로 지시될 수 있다.Although the specification includes several features, these should not be construed as limiting the scope of the disclosed or claimed subject matter, but rather as a description of features of exemplary embodiments of the disclosed subject matter. Certain features that are described in the context of separate embodiments herein may be provided in combination in one embodiment. Conversely, various features described in the context of one embodiment may be provided in multiple embodiments of separate or any suitable subcombination. Furthermore, even if features operate under certain conditions or even are raised as above, one or more features from the raised combinations may in some cases be deleted from the combination, and the raised combination may be a subcombination or a variation of the subcombination. Can be indicated.
유사하게, 동작들이 도면에서 특정 순서로 도시되었지만, 이는 그러한 동작들이 도시된 특정 순서 또는 시계열적 순서로 수행되어야 하는 것, 또는 원하는 결과를 달성하기 위해 모든 도시된 동작들이 수행되는 것을 요구하는 것으로 이해되서는 안된다. 특정 상황에서는, 멀티태스킹 및 병행 처리가 유리할 수 있다. 나아가, 위에서 기술된 실시예들의 다양한 시스템 컴퍼넌트의 구분은 모든 실시예에서 그러한 구분이 요구되는 것으로 해석되어서는 안되며, 기술된 프로그램 컴퍼넌트 및 시스템은 일반적으로 하나의 소프트웨어 제품에 통합되거나 멀티플 소프트웨어 제품으로 패키지 될 수 있는 것으로 이해되어야 한다.Similarly, although the actions are shown in a particular order in the figures, it is understood that such actions must be performed in the specific order or time series order shown, or that all illustrated actions are performed to achieve the desired result. It should not be. In certain circumstances, multitasking and parallel processing may be advantageous. Furthermore, the division of various system components of the embodiments described above should not be construed as requiring such division in all embodiments, and the described program components and systems are generally integrated into one software product or packaged into multiple software products. It should be understood as possible.
즉, 본 발명의 특정 실시예들이 기술되었다. 다른 실시예들도 다음의 청구항의 범위 내에 있다. 예를 들어, 청구항에서 인용하는 동작들은 다른 순서로 수행될 수 있고 여전히 원하는 결과를 달성할 수 있다. 다수의 실시예들이 기술되었다. 그럼에도 불구하고, 본 발명의 범위 및 사상으로부터 벗어나지 않고 다양한 변형들이 가해질 수 있음이 이해될 것이다. 예를 들어, 순서 재배치된(re-ordered), 추가된, 제거된 단계들과 함께 위에서 보여진 다양한 형태의 플로우가 사용될 수 있다. 따라서, 다른 실시예들도 다음의 청구항들의 범위 내에 있다.That is, certain embodiments of the invention have been described. Other embodiments are also within the scope of the following claims. For example, the actions recited in the claims may be performed in a different order and still achieve the desired result. A number of embodiments have been described. Nevertheless, it will be understood that various modifications may be made without departing from the scope and spirit of the invention. For example, various types of flows shown above with re-ordered, added, removed steps may be used. Accordingly, other embodiments are also within the scope of the following claims.
104: 명확화 엔진
106: 음성 인식 엔진
108: 키워드 매핑 엔진
110: 콘텐츠 인식 엔진104: disambiguation engine
106: speech recognition engine
108: Keyword Mapping Engine
110: Content Aware Engine
Claims (52)
상기 발화에 대한 표기(transcription)를 획득하는 단계;
상기 환경 데이터를 이용하여 엔티티를 식별하는 단계;
상기 표기의 적어도 일부와 상기 엔티티를 식별하는 데이터를 포함하는 쿼리를 자연 언어 쿼리 프로세싱 엔진(natural language query processing engine)에 제출하는 단계; 및
상기 쿼리에 대한 하나 이상의 결과를 획득하는 단계를 포함하는 컴퓨터 구현 방법. Receiving utterance and environmental data;
Obtaining a transcription for said utterance;
Identifying an entity using the environment data;
Submitting a query to a natural language query processing engine that includes at least a portion of the notation and data identifying the entity; And
Obtaining one or more results for the query.
적어도 하나의 결과의 표현(representation)을 출력하는 단계를 더 포함하는 컴퓨터 구현 방법. The method according to claim 1,
And outputting a representation of the at least one result.
상기 엔티티는 상기 발화를 추가로 이용하여 식별되는 컴퓨터 구현 방법.The method according to claim 1,
And the entity is identified using the speech further.
상기 쿼리를 생성하는 단계를 더 포함하는 컴퓨터 구현 방법. The method according to claim 1,
Generating the query.
상기 쿼리를 생성하는 단계는 상기 표기와, 상기 엔티티를 식별하는 상기 데이터를 연관시키는 단계를 포함하는 컴퓨터 구현 방법. The method of claim 4,
Generating the query includes associating the notation with the data identifying the entity.
상기 연관시키는 단계는 상기 표기를, 상기 엔티티를 식별하는 상기 데이터로 태깅(tagging)하는 단계를 더 포함하는 컴퓨터 구현 방법. The method according to claim 5,
The associating further comprises tagging the notation with the data identifying the entity.
상기 연관시키는 단계는 상기 표기의 일부를, 상기 엔티티를 식별하는 상기 데이터로 대체(substitute)하는 단계를 더 포함하는 컴퓨터 구현 방법. The method according to claim 5,
The associating further comprises substituting a portion of the notation with the data identifying the entity.
상기 대체하는 단계는 상기 표기의 하나 이상의 단어를, 상기 엔티티를 식별하는 상기 데이터로 대체하는 단계를 더 포함하는 컴퓨터 구현 방법. The method of claim 7,
And the replacing step further comprises replacing one or more words of the notation with the data identifying the entity.
상기 환경 데이터를 수신하는 단계는 환경 오디오 데이터, 환경 이미지 데이터, 또는 이 둘 모두를 수신하는 단계를 더 포함하는 컴퓨터 구현 방법. The method according to claim 1,
Receiving the environmental data further comprises receiving environmental audio data, environmental image data, or both.
상기 환경 오디오 데이터를 수신하는 단계는 배경 소음(background noise)을 포함하는 추가 오디오 데이터를 수신하는 단계를 더 포함하는 컴퓨터 구현 방법.The method of claim 9,
Receiving the environmental audio data further comprises receiving additional audio data comprising background noise.
발화 및 환경 데이터를 수신하는 동작;
상기 발화에 대한 표기를 획득하는 동작;
상기 환경 데이터를 이용하여 엔티티를 식별하는 동작;
상기 표기의 적어도 일부와 상기 엔티티를 식별하는 데이터를 포함하는 쿼리를 자연 언어 쿼리 프로세싱 엔진에 제출하는 동작; 및
상기 쿼리에 대한 하나 이상의 결과를 획득하는 동작을 수행할 수 있게 하는 시스템. A system comprising one or more computers and one or more storage devices for storing instructions, wherein the instructions, when executed by the one or more computers, cause the one or more computers to execute.
Receiving speech and environmental data;
Obtaining a notation for the utterance;
Identifying an entity using the environment data;
Submitting a query to a natural language query processing engine that includes at least a portion of the notation and data identifying the entity; And
Enable to perform an operation to obtain one or more results for the query.
쿼리를 생성하는 동작을 더 포함하고,
상기 쿼리를 생성하는 동작은 상기 표기와, 상기 엔티티를 식별하는 상기 데이터를 연관시키는 동작을 포함하는 시스템. The method of claim 11,
Further includes generating a query,
Generating the query comprises associating the notation with the data identifying the entity.
상기 연관시키는 동작은 상기 표기를, 상기 엔티티를 식별하는 상기 데이터로 태깅하는 동작을 더 포함하는 시스템. The method of claim 12,
The associating further comprises tagging the notation with the data identifying the entity.
상기 연관시키는 동작은 상기 표기의 일부를, 상기 엔티티를 식별하는 상기 데이터로 대체하는 동작을 더 포함하는 시스템. The method of claim 12,
The associating further comprises replacing a portion of the notation with the data identifying the entity.
상기 대체하는 동작은 상기 표기의 하나 이상의 단어를, 상기 엔티티를 식별하는 상기 데이터로 대체하는 동작을 더 포함하는 시스템. The method according to claim 14,
And the replacing operation further comprises replacing one or more words of the notation with the data identifying the entity.
상기 환경 데이터를 수신하는 동작은 환경 오디오 데이터, 환경 이미지 데이터, 또는 이 둘 모두를 수신하는 동작을 더 포함하는 시스템. The method of claim 11,
Receiving the environmental data further comprises receiving environmental audio data, environmental image data, or both.
상기 환경 오디오 데이터를 수신하는 동작은 배경 소음을 포함하는 추가 오디오 데이터를 수신하는 동작을 더 포함하는 시스템.18. The method of claim 16,
Receiving the environmental audio data further comprises receiving additional audio data comprising background noise.
발화 및 환경 데이터를 인코딩하는 오디오 데이터를 수신하는 동작;
상기 발화에 대한 표기를 획득하는 동작;
상기 환경 데이터를 이용하여 엔티티를 식별하는 동작;
상기 표기의 적어도 일부와 상기 엔티티를 식별하는 데이터를 포함하는 쿼리를 자연 언어 쿼리 프로세싱 엔진에 제출하는 동작; 및
상기 쿼리에 대한 하나 이상의 결과를 획득하는 동작을 수행하게 하는 컴퓨터-판독가능 매체. A computer-readable medium storing software containing instructions executable by one or more computers, wherein the instructions, when executed by the one or more computers, cause the one or more computers to execute.
Receiving audio data encoding utterance and environmental data;
Obtaining a notation for the utterance;
Identifying an entity using the environment data;
Submitting a query to a natural language query processing engine that includes at least a portion of the notation and data identifying the entity; And
And perform an operation of obtaining one or more results for the query.
쿼리를 생성하는 동작을 더 포함하고,
상기 쿼리를 생성하는 동작은 상기 표기와, 상기 엔티티를 식별하는 상기 데이터를 연관시키는 동작을 포함하는 컴퓨터-판독가능 매체. 19. The method of claim 18,
Further includes generating a query,
Generating the query comprises associating the notation with the data identifying the entity.
상기 연관시키는 동작은 상기 표기를 상기 엔티티를 식별하는 상기 데이터로 태깅하는 동작을 더 포함하는 컴퓨터-판독가능 매체. The method of claim 19,
And the associating further comprises tagging the notation with the data identifying the entity.
상기 연관시키는 동작은 상기 표기의 일부를, 상기 엔티티를 식별하는 상기 데이터로 대체하는 동작을 더 포함하는 컴퓨터-판독가능 매체. The method of claim 19,
And the associating further comprises replacing a portion of the notation with the data identifying the entity.
상기 대체하는 동작은 상기 표기의 하나 이상의 단어를, 상기 엔티티를 식별하는 상기 데이터로 대체하는 동작을 더 포함하는 컴퓨터-판독가능 매체. 23. The method of claim 21,
And the replacing operation further comprises replacing one or more words of the notation with the data identifying the entity.
상기 발화된 자연 언어 쿼리에 대한 표기를 획득하는 단계;
상기 표기에 있는 하나 이상의 키워드에 연관된 특정 콘텐츠 유형(particular content type)을 판단하는 단계;
상기 환경 오디오 데이터의 적어도 일부를 콘텐츠 인식 엔진에 제공하는 단계; 및
상기 콘텐츠 인식 엔진에 의해 출력되었고, 상기 특정 콘텐츠 유형에 매칭되는 콘텐츠 아이템을 식별하는 단계를 포함하는 컴퓨터 구현 방법.(Iii) receiving audio data encoding a spoken natural language query and (ii) environmental audio data;
Obtaining a notation for the spoken natural language query;
Determining a specific content type associated with one or more keywords in the notation;
Providing at least a portion of the environmental audio data to a content recognition engine; And
Identifying a content item that has been output by the content recognition engine and that matches the particular content type.
상기 특정 콘텐츠 유형은 영화 콘텐츠 유형, 음악 콘텐츠 유형, 텔레비전 쇼 콘텐츠 유형, 오디오 팟캐스트 콘텐츠 유형, 북 콘텐츠 유형, 미술작품 콘텐츠 유형, 예고편(trailer) 콘텐츠 유형, 비디오 팟게스트 콘텐츠 유형, 인터넷 비디오 콘텐츠 유형, 또는 비디오 게임 콘텐츠 유형인 컴퓨터 구현 방법. 24. The method of claim 23,
The specific content type may be a movie content type, a music content type, a television show content type, an audio podcast content type, a book content type, an artwork content type, a trailer content type, a video podcast content type, or an internet video content type. , Or a computer implemented method that is a type of video game content.
상기 환경 오디오 데이터를 수신하는 단계는 배경 소음을 포함하는 추가 오디오 데이터를 수신하는 단계를 더 포함하는 컴퓨터 구현 방법.24. The method of claim 23,
Receiving the environmental audio data further comprises receiving additional audio data comprising background noise.
비디오 데이터 또는 이미지 데이터를 포함하는 추가 환경 데이터를 수신하는 단계를 더 포함하는 컴퓨터 구현 방법. 24. The method of claim 23,
And receiving additional environmental data comprising video data or image data.
상기 콘텐츠 아이템을 식별하는 데이터를 출력하는 단계를 더 포함하는 컴퓨터 구현 방법.24. The method of claim 23,
Outputting data identifying the content item.
상기 환경 오디오 데이터의 적어도 일부를 상기 콘텐츠 인식 엔진에 제공하는 단계는 상기 환경 오디오 데이터의 상기 일부를 오디오 핑거프린팅 엔진(audio fingerprinting engine)에 제공하는 단계를 더 포함하는 컴퓨터 구현 방법. 24. The method of claim 23,
Providing at least a portion of the environmental audio data to the content recognition engine further comprises providing the portion of the environmental audio data to an audio fingerprinting engine.
상기 특정 콘텐츠 유형을 판단하는 단계는 하나 이상의 데이터베이스를 이용하여, 복수의 콘텐츠 유형 각각에 대해, 상기 키워드들 중 적어도 하나가 상기 복수의 콘텐츠 유형 중 적어도 하나에 매핑되는 하나 이상의 키워드를 식별하는 단계를 더 포함하는 컴퓨터 구현 방법.24. The method of claim 23,
The determining of the specific content type may include identifying, for each of the plurality of content types, one or more keywords in which at least one of the keywords is mapped to at least one of the plurality of content types using one or more databases. Computer implemented method further comprising.
상기 복수의 콘텐츠 유형은 상기 특정 콘텐츠 유형을 포함하고,
상기 매핑되는 단계는 상기 키워드들 중 적어도 하나가 상기 특정 콘텐츠 유형에 매핑되는 단계를 더 포함하는 컴퓨터 구현 방법. 29. The method of claim 29,
The plurality of content types includes the specific content type,
Wherein said mapping further comprises mapping at least one of said keywords to said particular content type.
상기 제공하는 단계는 상기 특정 콘텐츠 유형을 식별하는 데이터를 상기 콘텐츠 인식 엔진에 제공하는 단계를 더 포함하고, 및
상기 콘텐츠 아이템을 식별하는 단계는 상기 콘텐츠 인식 엔진으로부터 상기 콘텐츠 아이템을 식별하는 데이터를 수신하는 단계를 더 포함하는 컴퓨터 구현 방법. 24. The method of claim 23,
The providing step further comprises providing data identifying the specific content type to the content recognition engine, and
Identifying the content item further comprises receiving data identifying the content item from the content recognition engine.
상기 콘텐츠 인식 시스템으로부터 2개 이상의 콘텐츠 인식 후보를 수신하는 단계를 더 포함하고,
상기 콘텐츠 아이템을 식별하는 단계는 상기 특정 콘텐츠 유형에 기초하여 특정 콘텐츠 인식 후보를 선택하는 단계를 더 포함하는 컴퓨터 구현 방법. 24. The method of claim 23,
Receiving at least two content recognition candidates from the content recognition system,
Identifying the content item further comprises selecting a particular content recognition candidate based on the specific content type.
상기 2개 이상의 콘텐츠 인식 후보 각각은 랭킹 스코어(ranking score)와 연관되고,
상기 특정 콘텐츠 유형에 기초하여 상기 2개 이상의 콘텐츠 인식 후보의 랭킹 스코어를 조정하는 단계를 더 포함하는 컴퓨터 구현 방법. 33. The method of claim 32,
Each of the two or more content recognition candidates is associated with a ranking score,
And adjusting a ranking score of the two or more content recognition candidates based on the specific content type.
상기 조정된 랭킹 스코어들에 기초하여 상기 2개 이상의 콘텐츠 인식 후보들의 순위를 부여하는 단계를 더 포함하는 컴퓨터 구현 방법.34. The method of claim 33,
Ranking the two or more content recognition candidates based on the adjusted ranking scores.
(ⅰ) 발화된 자연 언어 쿼리를 인코딩하는 오디오 데이터 및 (ⅱ) 환경 오디오 데이터를 수신하는 동작;
상기 발화된 자연 언어 쿼리에 대한 표기를 획득하는 동작;
상기 표기에 있는 하나 이상의 키워드에 연관된 특정 콘텐츠 유형을 판단하는 동작;
상기 환경 오디오 데이터의 적어도 일부를 콘텐츠 인식 엔진에 제공하는 동작; 및
상기 콘텐츠 인식 엔진에 의해 출력되었고, 상기 특정 콘텐츠 유형에 매칭되는 콘텐츠 아이템을 식별하는 동작을 수행할 수 있게 하는 시스템.A system comprising one or more computers and one or more storage devices for storing instructions, wherein the instructions, when executed by the one or more computers, cause the one or more computers to execute.
(Iii) receiving audio data encoding a spoken natural language query and (ii) environmental audio data;
Obtaining a notation for the spoken natural language query;
Determining a particular content type associated with one or more keywords in the notation;
Providing at least a portion of the environmental audio data to a content recognition engine; And
And identify the content item that has been output by the content recognition engine and that matches the particular content type.
상기 환경 오디오 데이터를 수신하는 동작은 배경 소음을 포함하는 추가 오디오 데이터를 수신하는 동작을 더 포함하는 시스템.36. The method of claim 35,
Receiving the environmental audio data further comprises receiving additional audio data comprising background noise.
비디오 데이터 또는 이미지 데이터를 포함하는 추가 환경 데이터를 수신하는 동작을 더 포함하는 시스템. 36. The method of claim 35,
Receiving further environmental data comprising video data or image data.
상기 환경 오디오 데이터의 적어도 일부를 상기 콘텐츠 인식 엔진에 제공하는 동작은 상기 환경 오디오 데이터의 상기 일부를 오디오 핑거프린팅 엔진에 제공하는 동작을 더 포함하는 시스템. 26. The method of claim 25,
Providing at least a portion of the environmental audio data to the content recognition engine further comprises providing the portion of the environmental audio data to an audio fingerprinting engine.
상기 특정 콘텐츠 유형을 판단하는 동작은 하나 이상의 데이터베이스를 이용하여, 복수의 콘텐츠 유형 각각에 대해, 상기 키워드들 중 적어도 하나가 상기 복수의 콘텐츠 유형 중 적어도 하나에 매핑되는 하나 이상의 키워드를 식별하는 동작을 더 포함하는 시스템.36. The method of claim 35,
The determining of the specific content type may include identifying, for each of a plurality of content types, at least one of the keywords mapped to at least one of the plurality of content types, using at least one database. More including the system.
상기 복수의 콘텐츠 유형은 상기 특정 콘텐츠 유형을 포함하고,
상기 매핑되는 동작은 상기 키워드들 중 적어도 하나가 상기 특정 콘텐츠 유형에 매핑되는 동작을 더 포함하는 시스템. 42. The method of claim 39,
The plurality of content types includes the specific content type,
The mapped operation further includes the operation of mapping at least one of the keywords to the specific content type.
상기 제공하는 동작은 상기 특정 콘텐츠 유형을 식별하는 데이터를 상기 콘텐츠 인식 엔진에 제공하는 동작을 더 포함하고, 및
상기 콘텐츠 아이템을 식별하는 동작은 상기 콘텐츠 인식 엔진으로부터 상기 콘텐츠 아이템을 식별하는 데이터를 수신하는 동작을 더 포함하는 시스템. 36. The method of claim 35,
The providing operation further comprises providing data identifying the specific content type to the content recognition engine, and
Identifying the content item further comprises receiving data identifying the content item from the content recognition engine.
상기 콘텐츠 인식 시스템으로부터 2개 이상의 콘텐츠 인식 후보를 수신하는 동작을 더 포함하고,
상기 콘텐츠 아이템을 식별하는 동작은 상기 특정 콘텐츠 유형에 기초하여 특정 콘텐츠 인식 후보를 선택하는 동작을 더 포함하는 시스템. 36. The method of claim 35,
Receiving at least two content recognition candidates from the content recognition system,
Identifying the content item further comprises selecting a particular content recognition candidate based on the specific content type.
상기 2개 이상의 콘텐츠 인식 후보 각각은 랭킹 스코어와 연관되고,
상기 특정 콘텐츠 유형에 기초하여 상기 2개 이상의 콘텐츠 인식 후보의 랭킹 스코어를 조정하는 동작을 더 포함하는 시스템. 43. The method of claim 42,
Each of the two or more content recognition candidates is associated with a ranking score,
Adjusting a ranking score of the two or more content recognition candidates based on the specific content type.
상기 조정된 랭킹 스코어들에 기초하여 상기 2개 이상의 콘텐츠 인식 후보들의 순위를 부여하는 동작을 더 포함하는 시스템.The method of claim 43,
Ranking the two or more content recognition candidates based on the adjusted ranking scores.
(ⅰ) 발화된 자연 언어 쿼리를 인코딩하는 오디오 데이터 및 (ⅱ) 환경 오디오 데이터를 수신하는 동작;
상기 발화된 자연 언어 쿼리에 대한 표기를 획득하는 동작;
상기 표기에 있는 하나 이상의 키워드에 연관된 특정 콘텐츠 유형을 판단하는 동작;
상기 환경 오디오 데이터의 적어도 일부를 콘텐츠 인식 엔진에 제공하는 동작; 및
상기 콘텐츠 인식 엔진에 의해 출력되었고, 상기 특정 콘텐츠 유형에 매칭되는 콘텐츠 아이템을 식별하는 동작을 수행하도록 하는 컴퓨터 판독가능 매체.A non-transitory computer-readable medium storing software that includes instructions executable by one or more computers, the instructions that when executed by the one or more computers cause the one or more computers to execute.
(Iii) receiving audio data encoding a spoken natural language query and (ii) environmental audio data;
Obtaining a notation for the spoken natural language query;
Determining a particular content type associated with one or more keywords in the notation;
Providing at least a portion of the environmental audio data to a content recognition engine; And
And identify an item of content output by the content recognition engine that matches the particular content type.
상기 환경 오디오 데이터의 적어도 일부를 상기 콘텐츠 인식 엔진에 제공하는 동작은 상기 환경 오디오 데이터의 상기 일부를 오디오 핑거프린팅 엔진에 제공하는 동작을 더 포함하는 컴퓨터 판독가능 매체. 46. The method of claim 45,
Providing at least a portion of the environmental audio data to the content recognition engine further comprises providing the portion of the environmental audio data to an audio fingerprinting engine.
상기 특정 콘텐츠 유형을 판단하는 동작은 하나 이상의 데이터베이스를 이용하여, 복수의 콘텐츠 유형 각각에 대해, 상기 키워드들 중 적어도 하나가 상기 복수의 콘텐츠 유형 중 적어도 하나에 매핑되는 하나 이상의 키워드를 식별하는 동작을 더 포함하는 컴퓨터 판독가능 매체.46. The method of claim 45,
The determining of the specific content type may include identifying, for each of a plurality of content types, one or more keywords in which at least one of the keywords is mapped to at least one of the plurality of content types by using one or more databases. A computer readable medium further comprising.
상기 복수의 콘텐츠 유형은 상기 특정 콘텐츠 유형을 포함하고,
상기 매핑되는 동작은 상기 키워드들 중 적어도 하나가 상기 특정 콘텐츠 유형에 매핑되는 동작을 더 포함하는 컴퓨터 판독가능 매체. 48. The method of claim 47,
The plurality of content types includes the specific content type,
The mapped operation further comprises the operation of mapping at least one of the keywords to the specific content type.
상기 콘텐츠 아이템을 식별하는 데이터를 출력하는 동작을 더 포함하는 컴퓨터 판독가능 매체.46. The method of claim 45,
And outputting data identifying the content item.
상기 제공하는 동작은 상기 특정 콘텐츠 유형을 식별하는 데이터를 상기 콘텐츠 인식 엔진에 제공하는 동작을 더 포함하고, 및
상기 콘텐츠 아이템을 식별하는 동작은 상기 콘텐츠 인식 엔진으로부터 상기 콘텐츠 아이템을 식별하는 데이터를 수신하는 동작을 더 포함하는 컴퓨터 판독가능 매체. 46. The method of claim 45,
The providing operation further comprises providing data identifying the specific content type to the content recognition engine, and
Identifying the content item further comprises receiving data identifying the content item from the content recognition engine.
상기 콘텐츠 인식 시스템으로부터 2개 이상의 콘텐츠 인식 후보를 수신하는 동작을 더 포함하고,
상기 콘텐츠 아이템을 식별하는 동작은 상기 특정 콘텐츠 유형에 기초하여 특정 콘텐츠 인식 후보를 선택하는 동작을 더 포함하는 컴퓨터 판독가능 매체. 46. The method of claim 45,
Receiving at least two content recognition candidates from the content recognition system,
Identifying the content item further comprises selecting a particular content recognition candidate based on the specific content type.
상기 2개 이상의 콘텐츠 인식 후보 각각은 랭킹 스코어와 연관되고,
상기 특정 콘텐츠 유형에 기초하여 상기 2개 이상의 콘텐츠 인식 후보의 랭킹 스코어를 조정하는 동작을 더 포함하는 컴퓨터 판독가능 매체. 54. The method of claim 51,
Each of the two or more content recognition candidates is associated with a ranking score,
And adjusting a ranking score of the two or more content recognition candidates based on the specific content type.
Applications Claiming Priority (10)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261698934P | 2012-09-10 | 2012-09-10 | |
US201261698949P | 2012-09-10 | 2012-09-10 | |
US61/698,949 | 2012-09-10 | ||
US61/698,934 | 2012-09-10 | ||
US13/626,351 US8484017B1 (en) | 2012-09-10 | 2012-09-25 | Identifying media content |
US13/626,439 | 2012-09-25 | ||
US13/626,439 US20140074466A1 (en) | 2012-09-10 | 2012-09-25 | Answering questions using environmental context |
US13/626,351 | 2012-09-25 | ||
US13/768,232 | 2013-02-15 | ||
US13/768,232 US8655657B1 (en) | 2012-09-10 | 2013-02-15 | Identifying media content |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190119592A Division KR102140177B1 (en) | 2012-09-10 | 2019-09-27 | Answering questions using environmental context |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140034034A true KR20140034034A (en) | 2014-03-19 |
KR102029276B1 KR102029276B1 (en) | 2019-10-07 |
Family
ID=50237523
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130037540A KR102029276B1 (en) | 2012-09-10 | 2013-04-05 | Answering questions using environmental context |
KR1020190119592A KR102140177B1 (en) | 2012-09-10 | 2019-09-27 | Answering questions using environmental context |
KR1020200092439A KR102241972B1 (en) | 2012-09-10 | 2020-07-24 | Answering questions using environmental context |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190119592A KR102140177B1 (en) | 2012-09-10 | 2019-09-27 | Answering questions using environmental context |
KR1020200092439A KR102241972B1 (en) | 2012-09-10 | 2020-07-24 | Answering questions using environmental context |
Country Status (3)
Country | Link |
---|---|
KR (3) | KR102029276B1 (en) |
CN (2) | CN106250508B (en) |
WO (1) | WO2014039106A1 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170018020A (en) * | 2014-06-13 | 2017-02-15 | 플립보드, 인크. | Presenting advertisements in a digital magazine by clustering content |
KR20190127380A (en) * | 2018-05-04 | 2019-11-13 | 삼성전자주식회사 | Method for providing content and electronic device using the same |
KR20200007891A (en) * | 2017-10-03 | 2020-01-22 | 구글 엘엘씨 | Creator-provided content-based interactive conversation application tailing |
KR20200103876A (en) * | 2016-01-06 | 2020-09-02 | 구글 엘엘씨 | Voice recognition system |
WO2020180001A1 (en) * | 2019-03-07 | 2020-09-10 | 삼성전자주식회사 | Electronic device and control method therefor |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10133821B2 (en) * | 2016-01-06 | 2018-11-20 | Google Llc | Search result prefetching of voice queries |
US10311876B2 (en) * | 2017-02-14 | 2019-06-04 | Google Llc | Server side hotwording |
CN107403619B (en) * | 2017-06-30 | 2021-05-28 | 武汉泰迪智慧科技有限公司 | Voice control method and system applied to bicycle environment |
US10546583B2 (en) * | 2017-08-30 | 2020-01-28 | Amazon Technologies, Inc. | Context-based device arbitration |
CA3194708A1 (en) * | 2020-10-01 | 2022-04-07 | Thomas KEHLER | Diagnosing sources of noise in an evaluation |
KR20240012973A (en) * | 2022-07-21 | 2024-01-30 | 삼성전자주식회사 | Display apparatus that provides answer to question based on image and controlling method thereof |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050075881A1 (en) * | 2003-10-02 | 2005-04-07 | Luca Rigazio | Voice tagging, voice annotation, and speech recognition for portable devices with optional post processing |
US20090030698A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using speech recognition results based on an unstructured language model with a music system |
US7562392B1 (en) * | 1999-05-19 | 2009-07-14 | Digimarc Corporation | Methods of interacting with audio and ambient music |
KR20110100620A (en) * | 2008-11-10 | 2011-09-14 | 구글 인코포레이티드 | Multisensory speech detection |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7760905B2 (en) * | 1999-06-29 | 2010-07-20 | Digimarc Corporation | Wireless mobile phone with content processing |
KR100676863B1 (en) * | 2004-08-31 | 2007-02-02 | 주식회사 코난테크놀로지 | System and method for providing music search service |
US7640160B2 (en) * | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7949529B2 (en) * | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US20070073651A1 (en) * | 2005-09-23 | 2007-03-29 | Tomasz Imielinski | System and method for responding to a user query |
US20080243788A1 (en) * | 2007-03-29 | 2008-10-02 | Reztlaff James R | Search of Multiple Content Sources on a User Device |
CN101431573B (en) * | 2007-11-08 | 2013-02-20 | 上海撼世网络科技有限公司 | Method and equipment for implementing automatic customer service through human-machine interaction technology |
US8055675B2 (en) * | 2008-12-05 | 2011-11-08 | Yahoo! Inc. | System and method for context based query augmentation |
KR20100067174A (en) * | 2008-12-11 | 2010-06-21 | 한국전자통신연구원 | Metadata search apparatus, search method, and receiving apparatus for iptv by using voice interface |
KR101042515B1 (en) * | 2008-12-11 | 2011-06-17 | 주식회사 네오패드 | Method for searching information based on user's intention and method for providing information |
CN101917553B (en) * | 2009-11-27 | 2013-05-01 | 新奥特(北京)视频技术有限公司 | System for collectively processing multimedia data |
KR20120034378A (en) * | 2010-10-01 | 2012-04-12 | 엔에이치엔(주) | Advertisement information providing system through recognition of sound and method thereof |
KR101369931B1 (en) * | 2010-11-17 | 2014-03-04 | 주식회사 케이티 | System and method for hybrid semantic searching service |
-
2013
- 2013-04-03 WO PCT/US2013/035095 patent/WO2014039106A1/en active Application Filing
- 2013-04-05 KR KR1020130037540A patent/KR102029276B1/en active IP Right Grant
- 2013-04-05 CN CN201610628594.XA patent/CN106250508B/en active Active
- 2013-04-05 CN CN201310394518.3A patent/CN103714104B/en not_active Expired - Fee Related
-
2019
- 2019-09-27 KR KR1020190119592A patent/KR102140177B1/en active IP Right Grant
-
2020
- 2020-07-24 KR KR1020200092439A patent/KR102241972B1/en active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7562392B1 (en) * | 1999-05-19 | 2009-07-14 | Digimarc Corporation | Methods of interacting with audio and ambient music |
US20050075881A1 (en) * | 2003-10-02 | 2005-04-07 | Luca Rigazio | Voice tagging, voice annotation, and speech recognition for portable devices with optional post processing |
US20090030698A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using speech recognition results based on an unstructured language model with a music system |
KR20110100620A (en) * | 2008-11-10 | 2011-09-14 | 구글 인코포레이티드 | Multisensory speech detection |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170018020A (en) * | 2014-06-13 | 2017-02-15 | 플립보드, 인크. | Presenting advertisements in a digital magazine by clustering content |
KR20200103876A (en) * | 2016-01-06 | 2020-09-02 | 구글 엘엘씨 | Voice recognition system |
KR20200007891A (en) * | 2017-10-03 | 2020-01-22 | 구글 엘엘씨 | Creator-provided content-based interactive conversation application tailing |
KR20190127380A (en) * | 2018-05-04 | 2019-11-13 | 삼성전자주식회사 | Method for providing content and electronic device using the same |
WO2020180001A1 (en) * | 2019-03-07 | 2020-09-10 | 삼성전자주식회사 | Electronic device and control method therefor |
Also Published As
Publication number | Publication date |
---|---|
CN106250508A (en) | 2016-12-21 |
CN106250508B (en) | 2019-07-23 |
CN103714104A (en) | 2014-04-09 |
WO2014039106A1 (en) | 2014-03-13 |
KR20200093489A (en) | 2020-08-05 |
KR102241972B1 (en) | 2021-04-20 |
KR102029276B1 (en) | 2019-10-07 |
KR102140177B1 (en) | 2020-08-03 |
CN103714104B (en) | 2016-10-05 |
KR20190113712A (en) | 2019-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9786279B2 (en) | Answering questions using environmental context | |
KR102241972B1 (en) | Answering questions using environmental context | |
US9031840B2 (en) | Identifying media content | |
US11842727B2 (en) | Natural language processing with contextual data representing displayed content | |
US20200349943A1 (en) | Contact resolution for communications systems | |
US9123330B1 (en) | Large-scale speaker identification | |
US10056078B1 (en) | Output of content based on speech-based searching and browsing requests | |
US9972340B2 (en) | Deep tagging background noises | |
US10217458B2 (en) | Technologies for improved keyword spotting | |
US10909972B2 (en) | Spoken language understanding using dynamic vocabulary | |
WO2018174849A1 (en) | Contextually disambiguating queries | |
US11657807B2 (en) | Multi-tier speech processing and content operations | |
US11705113B2 (en) | Priority and context-based routing of speech processing | |
EP2706470A1 (en) | Answering questions using environmental context | |
US11657805B2 (en) | Dynamic context-based routing of speech processing | |
US11935533B1 (en) | Content-related actions based on context | |
US11830497B2 (en) | Multi-domain intent handling with cross-domain contextual signals | |
US20220415311A1 (en) | Early invocation for contextual data processing | |
WO2022271555A1 (en) | Early invocation for contextual data processing | |
CN118916443A (en) | Information retrieval method and device and electronic equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |