CN106095766A - 使用选择性重新讲话来校正话音识别 - Google Patents
使用选择性重新讲话来校正话音识别 Download PDFInfo
- Publication number
- CN106095766A CN106095766A CN201610273179.7A CN201610273179A CN106095766A CN 106095766 A CN106095766 A CN 106095766A CN 201610273179 A CN201610273179 A CN 201610273179A CN 106095766 A CN106095766 A CN 106095766A
- Authority
- CN
- China
- Prior art keywords
- text
- voice
- speech recognition
- recognition engine
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims description 57
- 230000009471 action Effects 0.000 abstract description 11
- 230000008569 process Effects 0.000 description 31
- 238000012545 processing Methods 0.000 description 17
- 238000004590 computer program Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 235000013399 edible fruits Nutrition 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000013515 script Methods 0.000 description 4
- 230000000712 assembly Effects 0.000 description 3
- 238000000429 assembly Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000009527 percussion Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/638—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/685—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了使用选择性重新讲话来校正话音识别。本公开的实施方式包括以下的动作:提供用于在用户的计算设备上的显示的第一文本,第一文本基于从所述计算设备的第一语音而从第一语音识别引擎来提供,并且作为搜索查询显示,从所述计算设备接收语音校正指示,所述语音校正指示指示第一文本要校正的部分,从所述计算设备接收第二语音,基于所述第二语音从第二语音识别引擎接收第二文本,所述第二语音识别引擎不同于所述第一语音识别引擎,使用所述第二文本代替所述第一文本的所述部分以提供组合文本,以及提供组合文本以用于作为修正搜索查询在所述计算设备上显示。
Description
背景技术
互联网提供对诸如图像文件、音频文件、视频文件、和网页的多种资源的访问。搜索系统可以响应于由用户提交的查询来识别资源并且以对于用户有用的方式提供关于该资源的信息。用户可以通过例如点击来导航搜索结果以获取感兴趣的信息。
发明内容
本说明书涉及在搜索系统中的语音识别,例如话音至文本。
本公开的实施方式一般地指向使用选择性的重新讲出而校正语音识别。更具体地,本公开的实施方式指向基于(由用户)重新讲出文本搜索查询的部分,来校正该文本搜索查询的该部分。在一些示例中,文本搜索查询的该部分被校正以提供校正的文本搜索查询。
一般地,在本说明书中描述的主题内容的创造方面可以在包括以下动作的方法中实现,所述动作包括:提供第一文本以用于在用户的计算设备上显示,所述第一文本基于从所述计算设备的第一语音而从第一语音识别引擎来提供,并且作为搜索查询显示,从所述计算设备接收语音校正指示,所述语音校正指示用于指示所述第一文本的要校正的部分,从所述计算设备接收第二语音,基于所述第二语音从第二语音识别引擎接收第二文本,所述第二语音识别引擎不同于所述第一语音识别引擎,使用所述第二文本代替所述第一文本的所述部分以提供组合文本,以及提供所述组合文本以用于作为修正搜索查询在所述计算设备上显示。本方面的其他的实施方式包括被配置成执行在计算机存储设备上编码的方法的动作的对应系统、装置、和计算机程序。
这些和其他的实施方式每个都可以实施方式地包括以下的特征中的一个或多个:所述部分包括所述第一文本的整体;所述部分包括小于所述第一文本的整体;所述第二语音识别引擎包括所述第一语音识别引擎和至少一个附加的功能;所述至少一个附加的功能包括基于与所述第一文本相关联的一个或多个实体选择潜在的文本作为所述第二文本;所述动作还包括:接收基于所述第一文本的第一搜索结果,以及提供所述第一搜索结果以用于在所述计算设备上显示;所述动作还包括:接收基于所述第二文本的第二搜索结果,以及提供所述第二搜索结果以用于在所述计算设备上代替所述第一搜索结果显示;并且所述语音校正指示包括对所述第一文本的多个单词中的至少一个单词的用户选择。
在本说明书中描述的本主题的特定实施方式可以被实施从而实现以下优点中的一个或多个优点。在一些示例中,对初始查询的部分的校正是更快的并且资源效率更高的。例如,从用户观点,重新讲出该部分而不是重新讲出初始查询的整体是更快/更容易的。从资源观点,与对初始查询的整体执行语音识别相对,对该部分执行语音识别需要更少的带宽以及更少的计算机处理能力和/或存储器。在一些示例中,与计算设备的用户交互被简化,例如,用户拼写出单个单词而不是整个查询。在一些示例中,可以在不消耗增加的资源的情况下,将更复杂的语音识别可以用于将第二语音更精确地转换为文本,例如,因为第二语音比初始查询的整体短。
在本说明书中描述的本主题的一个或多个实施方式的细节在下文的附图和描述中提出。本主题的其他特征、方面、和优点将从描述、附图、和权利要求变得明显。
附图说明
图1描绘了示例在其中搜索系统提供搜索结果的示例环境。
图2A-2D描绘了根据本公开的实施方式的示例使用案例。
图3描绘了根据本公开的实施方式的示例语音识别系统。
图4描绘了可以根据本公开的实施方式执行的示例过程。
在各个附图中的相似的附图标记和指代指示相似的元件。
具体实施方式
本公开的实施方式一般地指向使用选择性的再说话校正语音识别。更具体地,本公开的实施方式指向基于用户重新讲出搜索查询的部分来校正该部分。在一些实施方式中,提供第一文本以用于向用户显示,该第一文本基于从计算设备的用户的第一语音而从第一语音识别引擎来提供。在一些示例中,该第一文本是提交至搜索系统的搜索查询。在一些实施方式中,用户可以指示第一文本的要校正的部分,并且可以提供第二语音,使用第二语音识别引擎对其进行处理以提供第二文本。在一些实施方式中,该第一文本的该部分被该第二文本代替以提供组合文本。在一些示例中,组合文本是提交至搜索系统的修正搜索查询。
图1描绘了在其中搜索系统基于用户查询提供搜索结果的示例环境100。在一些示例中,示例环境100使得用户能够与一个或多个计算机实现的服务交互。示例的计算机实现的服务可以包括搜索服务、电子邮件服务、聊天服务、文档共享服务、日程表共享服务、照片共享服务、视频共享服务、博客服务、微博服务、社交网络服务、定位(地点认知)服务、登记服务、以及评级和检查服务。在图1的示例中,描绘了搜索系统120,其提供搜索服务,如在本文中更详细地描述的。
继续参照图1,示例环境100包括连接网站104、用户设备106、和搜索系统120的网络102,网络102例如局域网(LAN)、广域网(WAN)、互联网、或其组合。在一些示例中,可以经过有线和/或无线通信链路访问网络102。例如,诸如智能电话的移动计算设备可以利用蜂窝网络来访问网络102。环境100可以包括上百万的网站104和用户设备106。
在一些示例中,提供网站104作为与域名相关联并且由一个或多个服务器托管的一个或多个资源105。示例的网站是以合适的机器可读语言(例如超文本标记语言(HTML))格式化的网页的集合,其可以包含文本、图像、多媒体内容、和例如脚本的编程元素。每个网站104被发布者维护,例如管理和/或拥有该网站的实体。
在一些示例中,资源105是通过网络102提供的并且与资源地址(例如统一资源定位符(URL))相关联的数据。在一些示例中,可以由网站104提供的资源105包括网页、单词处理文档、和便携文档格式(PDF)文档、图像、视频、和馈送源,以及其他的合适的数字内容。资源105可以包括例如单词、短语、图像、和声音的内容,并且可以包括嵌入信息,例如,元信息和超链接、和/或嵌入的指令(例如,脚本)。
在一些示例中,用户设备106是能够通过网络102请求和接收资源105的电子设备。示例的用户设备106包括可以通过网络102发送和接收数据的个人计算机、膝上型计算机、和移动计算设备,例如,智能电话和/或平板计算设备。如在整个文档中使用的,术语移动计算设备(“移动设备”)是指被配置成通过移动通信网络通信的用户设备。智能电话(例如实现通过互联网通信的电话)是移动设备的一个示例。用户设备106可以执行用户应用(例如web浏览器)以有助于通过网络102发送和接收数据。
在一些示例中,为了有助于资源105的搜索,搜索系统120通过爬行和索引在网站104上提供的资源105来识别资源105。关于资源105的数据可以基于该数据所对应的资源来索引。资源105的经索引并且可选地缓存的副本存储在搜索索引122中。
用户设备106将搜索查询109提交至搜索系统120。在一些示例中,用户设备106可以包括一个或多个输入模式。示例的模式可以包括键盘、触摸屏、和/或麦克风。例如,用户可以使用键盘和/或触摸屏在搜索查询中打字。作为另一个示例,用户可以说出搜索查询,用户语音通过麦克风来捕获,并且通过语音识别来处理以提供搜索查询。
响应于接收到搜索查询109,搜索系统120访问搜索索引122以识别与搜索查询109相关(例如具有对于搜索查询109的至少一个最小的指定相关性评分)的资源105。搜索系统120识别资源105,产生包括识别资源105的搜索结果112的搜索结果显示111,并且将搜索结果显示111返回至用户设备106。在一个示例场境中,搜索结果显示可以包括一个或多个网页,例如,一个或多个搜索结果页面。在一些示例中,可以基于可以以任何合适的机器可读语言编写的web文档来提供网页。然而,设想,本公开的实施方式可以包括其他合适的显示类型。例如,可以在由在计算设备上执行的应用所生成的显示中和/或由操作系统(例如移动操作系统)生成的显示中提供搜索结果。在一些示例中,可以基于任何合适的形式(例如,Javascript-html、纯文本)来提供搜索结果。
搜索结果112是由搜索系统120生成的数据,其识别对特定搜索查询作出响应的资源105,并且包括指向该资源105的链接。示例的搜索结果112可以包括网页标题、从网页提取的文本片段或图像部分、和网页的URL。在一些示例中,可以从资源数据存储库中检索到在搜索结果112中提供的数据。例如,搜索系统120可以提供搜索结果显示111,其显示搜索结果112。在一些示例中,可以用从资源数据存储库提供的信息填入搜索结果显示111,例如网页标题、从网页提取的文本片段或图像部分。
在一些示例中,用于在用户会话期间提交的搜索查询109的数据存储在数据存储库中,诸如历史数据存储库124。例如,搜索系统120可以将的搜索查询存储在历史数据存储库124中。
在一些示例中,指定响应于对每个搜索查询109作出响应而提供的搜索结果112而采取的动作的选择数据也(例如,由搜索系统120)存储在历史数据存储库124中。这些动作可以包括搜索结果112是否被选择,例如,用指针点击或悬停。对于搜索结果112的每个选择,选择数据可以还包括识别针对其提供搜索结果112的搜索查询109的数据。
在一些实施方式中,用户可以基于语音提交搜索查询109。例如,用户可以对着用户设备106的麦克风讲话,并且用户的语音可以作为语音数据(也称为第一语音)被捕获在数据文件中。在一些示例中,提供语音数据作为通过网络102提交至搜索系统120的搜索查询109。在一些实施方式中,搜索系统120可以将语音数据提供至语音识别系统130。在一些示例中,语音识别系统130可以处理语音数据以提供文本。例如,语音识别系统130可以使用话音至文本引擎(也称为第一语音识别引擎)来处理语音数据以提供文本。在一些示例中,语音识别系统130将文本提供至搜索系统120,搜索系统120将该文本作为搜索查询处理以提供搜索结果112。在一些示例中,可以提供搜索查询以用于向用户显示,例如,与搜索结果一起。以这种方式,用户可以看到如何识别语音,以及搜索结果所基于的搜索查询。
虽然搜索系统120和语音识别系统130在图1的示例中描绘为分立的系统,应意识到,搜索系统120和语音识别系统130可以被包括在同一个系统中,例如,搜索系统120可以包括其中的语音识别系统130。
根据本公开的实施方式,用户可以校正搜索查询的一部分,例如一个或多个单词。在一些示例中,用户可以确定搜索查询的一部分是不正确的,例如,对于该部分的语音识别不精确地识别用户的语音,并且可以指示该部分是要校正的。例如,用户可以选择被使用用户设备106向用户显示的该搜索查询的该部分。在一些实施方式中,用户再次对着用户设备106的麦克风讲话,并且用户的语音可以作为部分语音数据(也称为第二语音)被捕获在数据文件中。在一些示例中,提供该部分语音数据作为搜索查询的该部分的重新讲话,并且通过网络102提交至搜索系统120。在一些实施方式中,搜索系统120可以将该部分语音数据提供至语音识别系统130,并且可以包括与语音输入的重新讲话相对应的该部分语音数据的指示。在一些示例中,语音识别系统130可以处理该部分语音数据以提供修正文本。例如,语音识别系统130可以使用话音至文本引擎(也称为第二语音识别引擎)处理该部分语音数据。
在一些实施方式中,用于处理语音数据的第一语音识别引擎不同于用于处理部分语音数据的第二语音识别引擎。在一些示例中,相对于第二语音识别引擎,第一语音识别引擎可以被用于利用不那么严格的精确度阈值提供语音数据的相对迅速的处理。例如,第一语音识别引擎可以使用更少的资源,例如,处理器、存储器,并且可以比第二语音识别引擎更迅速地提供结果。在一些示例中,相对于第一语音识别引擎,第二语音识别引擎可以被用于提供对部分语音数据的更精确的处理,例如,更严格的精确度阈值。例如,第二语音识别引擎可以使用更多的资源,例如,处理器、存储器,并且可以提供比第一语音识别引擎更精确的结果。在一些示例中,虽然第二语音识别引擎比第一语音识别引擎更复杂,并且可能消耗更多的资源,但是提供结果的速度可以是相似的。例如,并且如在本文中更详细地描述的,第一语音识别引擎可以正在处理比第二语音识别引擎多的语音,例如,第二语音识别引擎正在仅处理原始提交的语音的部分。
在一些实施方式中,语音识别系统130将修正文本提供至搜索系统120,搜索系统120基于搜索查询和该修正文本提供修正的搜索查询。例如,搜索系统120用修正的文本代替搜索查询的该部分以提供修正的搜索查询。搜索系统120处理修正的搜索查询以提供已修正的搜索结果112。在一些示例中,可以提供修正的搜索查询以用于向用户显示,例如,与搜索结果一起。以这种方式,用户可以看到语音如何被修正,以及搜索结果所基于的搜索查询。
图2A-2D描绘了根据本公开的实施方式的示例使用案例。具体地参照图2A,用户200使用计算设备202进行搜索。更具体地,用户200使用计算设备202将搜索查询提交至搜索系统,例如,图1的搜索系统120,搜索系统提供搜索结果以用于在计算设备202上向用户显示。在所描绘的示例中,提供计算设备202作为移动计算设备,例如,智能电话、平板。然而,应意识到,可以使用任何合适类型的计算设备来实现本公开的实施方式,例如,桌面型计算机、膝上型计算机、诸如智能手表的可穿戴计算设备。
在所描绘的示例中,计算设备202显示用户200可以使用其提交搜索查询和接收搜索结果的搜索界面204。示例的搜索界面204包括搜索框206、搜索按钮208、搜索结果区域210和麦克风按钮212。在一些示例中,被提交至搜索系统的搜索查询在搜索框206中显示,并且所得到的搜索结果在搜索结果区域210中显示。在一些示例中,用户200可以选择搜索按钮208以启动提交搜索查询至搜索系统。在一些示例中,搜索查询被自动地提交至搜索系统,而不要求用户选择搜索按钮208。
根据本公开的实施方式,用户200提供第一语音220作为至搜索界面204的输入。在所描绘的示例中,第一语音220包括查询[给我看Maradona的图片]。在一些示例中,计算设备202使用麦克风记录第一语音220,并且生成将第一语音220作为音频数据存储的一个或多个数据文件(例如.wav文件、.mp3文件)。在一些实施方式中,计算设备202将第一语音220提供至搜索系统。在一些示例中,将第一语音220自动地提供至搜索系统,例如,不要求用户选择搜索按钮208。在一些示例中,在用户已经说出第一语音220的整体之后,第一语音220被传送至搜索系统。例如,搜索系统120在一个请求中接收第一语音220的整体。在一些示例中,第一语音220的部分在它们被说出时传送至搜索系统。例如,在第一语音220的每个部分被说出时,搜索系统这些部分(例如单词)。
在一些实施方式中,并且如在本文中更详细地描述的,第一语音220被语音识别系统(例如图1的语音识别系统130)处理以提供第一文本(例如文本搜索查询)。例如,搜索系统可以将音频数据提供至语音识别系统以用于处理。在一些示例中,语音识别系统使用第一语音识别引擎处理第一语音220以提供第一文本。
在一些实施方式中,提供第一文本以用于在计算设备202上显示。在一些示例中,搜索系统从语音识别系统接收第一文本并且将第一文本传送至计算设备202。在一些示例中,第一文本作为搜索查询222显示在搜索框206中。在一些示例中,搜索系统将第一文本作为搜索查询处理以提供搜索结果,其中的至少一些被发送至计算设备202并且作为搜索结果224被显示在搜索结果区域210中。在一些示例中,在计算设备202搜索结果224和显示其之前,将搜索查询222显示给用户。例如,第一文本可以并且作为搜索查询222在搜索框206中显示,并且可以随后并显示搜索结果224,例如,在搜索查询222的显示和搜索结果224的显示之间存在时间滞后。
在所描绘的示例中,搜索查询222被提供为[给我看Madonna的图片]。据此,单词[Maradona]被语音识别系统不正确地识别为[Madonna]。因此,搜索结果224包括歌手-作曲家、女演员、和制片人Madonna的图像。即,搜索结果224所基于的搜索查询222是不正确的,因为其应当被提供为[给我看Maradona的图片]。
根据本公开的实施方式,用户200可以校正搜索查询222的部分以提供修正的搜索查询,可以将所述修正的搜索查询提交至搜索系统。在一些实施方式中,用户200可以提供语音校正指示,其指示搜索查询222(例如第一文本)要校正的部分。例如,用户可以选择搜索查询222的要校正的一个或多个单词。在一些示例中,用户200可以在该部分上敲击,例如,包括触摸屏设备的计算设备202。
图2B描绘了搜索查询222的要校正的部分230。在所描绘的示例中,用户200选择要校正的单词[Madonna]。
图2C描绘了用户200重新讲出部分230。在所描绘的示例中,用户200提供第二语音232作为至搜索界面204的输入。在所描绘的示例中,第二语音232包括[Maradona]。在一些示例中,用户200可以拼写出要校正的部分230。在图2A-2C的示例中,用户200可以拼写出第二文本232,例如,“M-A-R-A-D-O-N-A”。在一些示例中,计算设备202使用麦克风记录第二语音232,并且生成将第二语音232作为音频数据存储的一个或多个数据文件,例如.wav文件、.mp3文件。在一些实施方式中,计算设备202将第二语音232提供至搜索系统。在一些示例中,第二语音232被自动地提供至搜索系统,例如,不要求用户选择搜索按钮208。
在一些实施方式中,并且如在本文中更详细地描述的,将第二语音232和第二语音232与要校正的部分相对应的指示(也称为校正指示)提供至语音识别系统。在一些示例中,第二语音232被语音识别系统处理以提供第二文本。在一些示例中,并且也响应于校正指示,语音识别系统使用第二语音识别引擎处理第二语音232以提供第二文本。在一些示例中,并且如在本文中更详细地描述的,第二语音识别引擎不同于第一语音识别引擎。
根据本公开的实施方式,基于第一文本和第二文本提供组合文本。在一些实施方式中,第一文本的该部分,例如在所描绘的示例中,将[Madonna]从第一文本删除并且被例如[Maradona]的第二文本代替以提供组合文本。在一些实施方式中,搜索系统从语音识别系统接收第二文本并且基于第一文本和第二文本提供组合文本。
现在参照图2D,并且在一些实施方式中,提供组合文本以用于在计算设备202上的显示。在一些示例中,搜索系统将组合文本传送至计算设备202。在一些示例中,组合文本在搜索框206中作为修正的搜索查询222'显示。在一些示例中,搜索系统将组合文本作为搜索查询处理以提供搜索结果,其至少一些被发送至计算设备202并且作为搜索结果240在搜索结果区域210中显示。在一些示例中,在计算设备202并显示搜索结果240之前,将修正的搜索查询222'显示给用户。例如,可以组合文本并且作为修正的搜索查询222'在搜索框206中显示,并且可以随后并显示搜索结果240,例如,在修正的搜索查询222'的显示和搜索结果240的显示之间可以存在时间滞后。
在一些实施方式中,并且如在图2A-2D的示例中描绘的,用户选择文本的要校正的部分,并且说出该校正,例如,选择[Madonna]并说出[Maradona]例如作为第二语音。在一些示例中,响应于对文本要校正的部分的用户选择,自动地激活计算设备的麦克风。在一些示例中,用户选择文本的要校正的部分,并且用户激活麦克风,例如,选择麦克风按钮212。
在一些实施方式中,代替重新讲出该要校正的部分,用户讲出向该要校正的部分提供上下文的短语。例如,并且继续图2A-2D的示例,代替说出[Maradona]或[M-A-R-A-D-O-N-A],如上文描述的,用户可以说出[我的意思是那个足球运动员],例如,作为第二语音,其向要校正的部分提供上下文。在一些示例中,该上下文可以被用于在该部分的潜在校正之间做出辨别,如在本文中更详细地描述的。
在一些实施方式中,要校正的部分未被用户明确地选择。在图2A-2D的示例中,用户选择单词[Madonna],例如通过在计算设备的触摸屏上敲击[Madonna]。在一些示例中,并且代替选择部分,用户可以提供第二语音以提供该校正的上下文,处理该第二语音以确定要校正的部分,并且提供用于校正该部分的第二文本。例如,并且继续图2A-2D的示例,第二语音可以包括[不,我的意思是那个足球运动员]、[我的意思是Maradona]、[将Madonna改为Maradona]、或[删除Madonna]。据此,第二语音提供上下文来选择要校正的部分,并且可以用于在对该部分的潜在校正之间做出辨别,如在本文中更详细地描述的。在一些示例中,用户在提供第二语音之前激活麦克风,例如选择麦克风按钮212。
在一些实施方式中,在一部分要被校正的情况下自动地激活麦克风。例如,并且如上文讨论的,响应于对要校正的部分的用户选择,可以自动地激活麦克风。在一些示例中,在搜索查询被显示至用户之后可以自动地激活麦克风。以这种方式,用户可以提供第二语音,而不要求用户首先激活麦克风。
图3描绘了根据本公开的实施方式的示例语音识别系统300。示例语音识别系统300包括第一语音识别引擎302和第二语音识别引擎304。在一些示例中,语音识别系统300接收输入数据306,使用第一语音识别引擎302或第二语音识别引擎304处理输入数据306,并且提供输出数据308。在一些示例中,输入数据306被从搜索系统提供至语音识别系统300,并且语音识别系统300将输出数据提供至搜索系统。
在一些实施方式中,输入数据306包括由用户提供至搜索系统的第一语音的音频数据(语音数据)。参照图2A-2D的示例,输入数据306可以包括第一语音[给我看Maradona的图片]的音频文件。在一些示例中,第一语音识别引擎302处理输入数据306以提供输出数据308。在一些实施方式中,输出数据308是基于音频数据的第一文本。参照图2A-2D的示例,输出数据308可以包括包含例如[给我看Madonna的图片]的第一文本的文本文件。
在一些示例中,第一文本可以由第一语音识别引擎基于潜在文本的集合来选择。在一些示例中,基于与潜在文本相关联的相应置信度评分而从潜在文本的集合中选择第一文本。例如,并且使用图2A-2D的示例,可以处理第一语音以提供[给我看Madonna的图片]和[给我看Maradona的图片]。在本示例中,[给我看Madonna的图片]与第一置信度评分(例如95%)相关联,并且[给我看Maradona的图片]与第二置信度评分(例如92%)相关联。可以确定,第一置信度评分超过第二置信度评分。因此,选择[给我看Madonna的图片]作为第一文本。换句话说,可以选择在潜在文本的集合中具有最高的置信度评分的潜在文本作为第一文本。
在一些实施方式中,输入数据306包括由用户提供至搜索系统的第二语音的音频数据(部分语音数据),以及校正指示。参照图2A-2D的示例,输入数据306可以包括第二语音[Maradona]的音频文件,以及校正指示。在一些示例中,第二语音识别引擎304处理输入数据306以提供输出数据308。例如,响应于输入数据306包括校正指示,将第二语音识别引擎304用于处理该音频数据。在一些实施方式中,输出数据308是基于该音频数据的第二文本。参照图2A-2D的示例,输出数据308可以包括包含例如[Maradona]的第二文本的文本文件。
在一些实施方式中,第一语音识别引擎302不同于第二语音识别引擎304。在一些示例中,相对于第二语音识别引擎304,第一语音识别引擎302可以被用于使用的不那么严格的精确度阈值来提供语音数据的相对更迅速的处理。例如,相对于第二语音识别引擎304,第一语音识别引擎302可以实现更不复杂、更不精确的语音识别算法。以这种方式,相比于第二语音识别引擎304,第一语音识别引擎302可以相对更迅速地提供结果并且可以使用更少的例如处理器、存储器的资源。在一些示例中,相对于第一语音识别引擎302,第二语音识别引擎304可以被用于提供对部分语音数据的更精确的处理,例如更严格的精确度阈值。例如,相对于第一语音识别引擎302,第二语音识别引擎304可以实现更复杂的、更精确的语音识别算法。以这种方式,如果处理相同的音频数据的话,相比于第一语音识别引擎304,第二语音识别引擎304将相对更慢地提供结果并且可以使用更多的例如处理器、存储器的资源,。
在一些实施方式中,虽然第二语音识别引擎302是比第一语音识别引擎304更复杂的,但是提供结果的速度和用于提供结果的资源的量可以是相似的。例如,并且如在本文中更详细地描述的,第一语音识别引擎302可以正在处理比第二语音识别引擎304更多的音频数据,例如,第二语音识别引擎304正在仅处理原始提交的语音的部分。参照图2A-2D的示例,第一语音识别引擎302处理文本[给我看Maradona的图片],而第二语音识别引擎304仅处理文本[Maradona]。
如上文描述的,第一语音识别引擎不同于第二语音识别引擎。在一些示例中,第二语音识别是不同的,因为第二语音识别包括第一语音识别引擎,以及用于处理第二语音的附加的功能和/或不同的参数。也就是说,并且在一些示例中,第二语音识别引擎是第一语音识别以及用于处理第二语音的附加的功能和/或不同的参数。
在一些实施方式中,处理第二语音以提供潜在文本的集合,可以根据其确定第二文本。在一些示例中,从对基于第二语音所提供的潜在文本的集合的选择中排除包括在第一文本中的文本。例如,从对潜在文本的集合的选择中排除文本的要校正的部分。继续图2A-2D的示例,第二语音可以包括[Maradona],可以对其进行处理以提供包括[Madonna]和[Maradona]的潜在文本的集合,例如。因为[Madonna]已经包括在例如第一文本中并且经选择以用于校正,所以从对于第二文本的选择中排除[Madonna]。因此,选择潜在文本[Maradona]作为潜在文本。
在一些实施方式中,并且响应于第二语音,可以处理用于确定第一文本的潜在文本以使相应实体彼此相关联。在一些示例中,可以处理第二语音并且一个或多个实体可以与其相关联。在一些实施方式中,与第二语音相关联的实体可以与和潜在文本的集合中的潜在文本中的每一个相关联的实体进行比较。在一些示例中,选择具有至少一个实体的潜在文本,所述实体与和第二语音相关联的实体相匹配。
以示例的方式,并且使用图2A-2D的示例,可以处理第一语音以提供[给我看Madonna的图片]和[给我看Maradona的图片]作为潜在文本的集合中的潜在的文本。在一些示例中,[给我看Madonna的图片]可以与实体[歌手]、[女演员]、[制片人]、和[音乐家]等相关联,并且[给我看Maradona的图片]可以与实体[运动员]、[足球运动员]、和[踢足球的]等相关联。在一些示例中,第二语音被提供为[我的意思是那个足球运动员],并且可以与实体[体育]、[足球]、和[足球运动员]相关联。可以确定,潜在文本和第二语音共同地具有实体[足球运动员]。因此,可以选择潜在文本[给我看Maradona的图片]作为校正的文本,例如组合文本。
在一些实施方式中,多个实体和与其相关联的信息可以作为结构数据存储在知识图中。在一些示例中,知识图包括多个节点和在节点之间的边。在一些示例中,节点代表实体,并且边代表实体之间的关系。在一些示例中,可以基于以域、类型、和性质为基础的结构数据的方案而提供知识图。在一些示例中,域包括共享命名空间的一个或多个类型。在一些示例中,提供命名空间作为唯一命名的对象的目录,其中命名空间中的每个对象具有唯一名称,例如,标识符。在一些示例中,类型表示关于话题的“是”关系,并且用于保存性质的集合。在一些示例中,话题代表诸如人、地点或事物的实体。在一些示例中,每个话题可以具有与其相关联的一个或多个类型。在一些示例中,性质与话题相关联并且定义该话题和该性质的值之间的“具有”关系。在一些示例中,该性质的值可以包括另一个话题。
图4描绘了根据本公开的实施方式的可以执行的示例过程400。示例过程400可以例如被图1的示例环境100实现,例如,搜索系统120和/或语音识别系统130。在一些示例中,示例过程400可以由使用一个或多个计算设备所执行的一个或多个计算机可执行程序来提供。
接收第一语音数据(402)。例如,搜索系统(例如图1的搜索系统120)从用户设备接收第一语音数据。接收基于第一语音数据的第一文本(404)。例如,搜索系统从语音识别系统(例如图1的语音识别系统130)接收第一文本。在一些示例中,搜索系统将第一语音数据提供至语音识别系统。提供第一文本以用于显示(406)。例如,搜索系统将用于显示的第一文本传送至用户设备,例如,将第一文本作为搜索查询在搜索界面的搜索框中显示。确定是否已经指示对第一文本的校正(408)。例如,搜索系统可以从用户设备接收校正指示。在一些示例中,可以响应于用户设备的用户选择第一文本的部分而提供校正指示。在一些示例中,可以响应于用户提供后续的语音输入而提供校正指示。如果未接收到校正指示,则提供搜索结果以用于显示(410)。例如,搜索系统可以确定对作为搜索查询的第一文本作出响应的搜索结果,并且可以提供该搜索结果以用于显示。
如果接收到校正指示,则第二语音数据(412)。例如,搜索系统从用户设备接收第二语音数据。基于第二语音数据的第二文本(414)。例如,搜索系统从语音识别系统第二文本。在一些示例中,搜索系统将第二语音数据提供至语音识别系统。提供组合文本以用于显示(416)。例如,搜索系统将用于显示的组合文本传送至用户设备,例如将组合文本作为修正的搜索查询显示在搜索界面的搜索框中。在一些示例中,搜索系统基于第一文本和第二文本提供组合文本。例如,该第一文本的要校正的部分可以被第二文本代替。在一些示例中,该第一文本的该部分是第一文本的整体。在一些示例中,该第一文本的该部分小于第一文本的整体。提供搜索结果以用于显示(410)。例如,搜索系统可以确定对作为修正的搜索查询的组合文本作出响应的搜索结果,并且可以提供该搜索结果以用于显示。
图4的示例过程400包括在已经提供了第一文本(例如,作为搜索查询)以用于显示之后,或在已经提供了组合文本(例如,作为已修正的搜索查询)以用于显示之后,提供搜索结果以用于显示。然而,设想搜索结果可以与第一文本或组合文本的显示相对同时地显示。例如,在一些实施方式中,第一文本和基于第一文本的搜索结果可以在确定是否对第一文本进行校正之前显示。
在本说明书中描述的主题内容的实施方式和操作可以在包括在本说明书中公开的结构和它们的结构等同物的数字电子电路中或在计算机软件、固件或硬件中,或在它们中的一个或多个的组合中实现。在本说明书中描述的主题的实施方式可以使用一个或多个计算机程序,即计算机程序指令的一个或多个模块来实现,所述一个或多个计算机程序在计算机存储介质上编码以用于由数据处理装置执行或用于控制数据处理装置的操作。替选地或另外地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光、或电磁信号,所述信号被生成以对用于向合适的接收器装置传输以用于由数据处理装置执行的信息进行编码。计算机存储介质可以是或被包括在计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器阵列或设备、或它们中的一个或多个的组合中。此外,当计算机存储介质不是传播信号时,计算机存储介质可以是在人工生成的传播信号中编码的计算机程序指令的源或目的地。计算机存储介质也可以是或被包括在一个或多个分立的物理组件或介质(例如,多个CD、盘、或其他的存储设备)中。
在本说明书中描述的操作可以被实现为由数据处理装置对存储在一个或多个计算机可读的存储部设备上的数据或从其他源的数据所执行的操作。
术语“数据处理装置”涵盖用于处理数据的所有类型的装置、设备和机器,包括以示例方式的可编程处理器、计算机、芯片上系统、或前述的多个或组合。该装置可以包括专用逻辑电路,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,该装置还可以包括创建用于所讨论的计算机程序的执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机、或它们中的一个或多个的组合的代码。该装置和执行环境可以实现各种不同的计算模型基础架构,诸如web服务、分布式计算和网格计算基础架构。
计算机程序(也被称为程序、软件、软件应用、脚本、或代码)可以被以任何形式的编程语言编写,包括汇编或解释语言、说明性或过程语言,并且其可以被以任何形式部署,包括作为独立程序或作为模块、组件、子例程、对象、或适合于在计算环境中使用的其他单元。计算机程序可以但不需要,与文件系统中的文件相对应。程序可以被存储在保持其他程序或数据的文件的部分(例如,在标记语言文档中存储的一个或多个脚本)中,在专用于所讨论的程序的单个的文件中,或在多个协同文件(例如,存储一个或多个模块、子程序、或代码部分的文件)中。计算机程序可以被部署,以在一个计算机上、或在位于一个站点处或被跨多个站点分布并且被通信网络互连的多个计算机上执行。
在本说明书中描述的过程和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程处理器执行,以通过对于输入数据进行操作并且生成输出来执行动作。所述过程和逻辑流也可以由例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)的专用逻辑电路来执行,并且装置也可以被实现为例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)的专用逻辑电路。
以示例方式,适合于执行计算机程序的处理器包括,通用微处理器和专用微处理器二者,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或二者接收指令和数据。计算机的元件可以包括用于执行根据指令的动作的处理器,和用于存储指令和数据的一个或多个存储器设备。通常,计算机将还包括或操作地耦合用于存储数据的一个或多个大量存储部设备,以从其接收数据或向其转移数据,或二者,例如,磁盘、磁光盘、或光盘。然而,计算机不需要具有这样的设备。此外,计算机可以被嵌入在另一个设备中,例如,移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、或便携式存储设备(例如,通用串行总线(USB)闪速驱动),仅举几个例子。适合于存储计算机程序指令和数据的设备包括所有的形式的非易失性存储器、介质、和存储器设备,以示例的方式包括半导体存储器设备(例如,EPROM、EEPROM、和闪速存储器设备);磁盘(例如,内部硬盘或可移动盘);磁光盘;和CD ROM和DVD-ROM盘。处理器和存储器可以被专用逻辑电路补充或被合并在专用逻辑电路中。
为了提供与用户的交互,在本说明书中描述的主题的实施方式可以被实现在具有用于向用户显示信息的显示设备(例如CRT(阴极射线管)或LCD(液晶显示器)监视器),和用户可以通过其向计算机提供输入的键盘和指示设备(例如鼠标或轨迹球)的计算机上。也可以提供其他类型的设备来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如,视觉反馈、听觉反馈、或触觉反馈;并且来自用户的输入可以被以任何形式接收,包括声学的、语音的、或触觉的输入。此外,计算机可以通过向用户使用的设备发送文档和从其接收文档来与用户交互;例如,通过响应于从web浏览器的请求而将网页发送至在用户的客户端设备上的该web浏览器。
在本说明书中描述的本主题的实施方式可以被实现在包括后端组件(例如作为数据服务器)、或包括中间件组件(例如应用服务器)、或包括前端组件(例如通过其用户可以与在本说明书中描述的主题的实施方式交互的具有图形用户界面或Web浏览器的客户端计算机)、或一个或多个这样的后端、中间件或前端组件的任何组合的计算系统中。系统的组件可以被例如通信网络数字数据通信的任何形式或介质互连,例如通信网络。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互联网络(例如,互联网)、和对等网络(例如,自组织对等网络)。
计算系统可以包括客户端和服务器。客户端和服务器通常是彼此远离并且通常通过通信网络交互的。客户端和服务器的关系借助于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施方式中,服务器将数据(例如HTML页面)传送至客户端设备(例如,出于向与客户端设备交互的用户显示数据以及从其接收用户输入的目的)。在客户端设备处生成的数据(例如,用户交互的结果)可以在服务器处从客户端设备来接收。
虽然本说明书包含许多特定的实施方式细节,但是这些不应当被视为对本公开的任何实施方式或可以被要求保护的范围的限制,而是视为对特定于示例实施方式的特征的描述。在本说明书中以分立实施方式的场境所描述的特征,也可以在单个实施方式的组合中来实现。相反地,在单个实施方式的场境中所描述的各种特征也可以分立地实现在多个实施方式中,或在任何合适的子组合中。此外,虽然上文可能将特征描述为以某些组合来起作用,并且甚至初始也是这样要求保护的,但是来自要求保护的组合的一个或多个特征可以在某些情况下从该组合去除,并且该要求保护的组合可以指向子组合或子组合的变化。
相似地,虽然操作在附图中以特定的顺序描绘,但是这不应当被理解为要求这样的操作应当以所示出的特定的顺序或以相继的顺序执行,或所有所图示的操作应当被执行以实现期望的结果。在一些情况下,多任务和并行处理可以是有利的。此外,在上文描述的实施方式中的各种系统组件的分离不应当被理解为要求在所有的实施方式中的这样的分离,并且应当理解,所描述的程序组件和系统可以通常在单一的软件产品中被集成在一起或被封装到多个软件产品中。
因此,已经描述了本主题的特定实施方式。其他实施方式在以下权利要求的范围内。在一些情况下,在权利要求中记载的动作可以以不同的顺序来执行并且仍然实现期望的结果。此外,在附图中描绘的过程不一定要求所示出的特定的顺序或相继的顺序来实现期望的结果。在某些实施方式中,多任务和并行处理可以是有利的。
Claims (32)
1.一种计算机实现的方法,所述方法包括:
提供第一文本以用于在用户的计算设备上显示,基于从所述计算设备接收的第一语音,所述第一文本从第一语音识别引擎被提供,并且作为搜索查询被显示;
从所述计算设备接收语音校正指示,所述语音校正指示用于指示所述第一文本中要被校正的部分;
从所述计算设备接收第二语音;
基于所述第二语音而从第二语音识别引擎接收第二文本,所述第二语音识别引擎不同于所述第一语音识别引擎;
使用所述第二文本代替所述第一文本的所述部分,以提供组合文本;以及
提供所述组合文本,以用于作为修正搜索查询在所述计算设备上显示。
2.根据权利要求1所述的方法,其中,所述部分包括所述第一文本的整体。
3.根据权利要求1所述的方法,其中,所述部分包括小于所述第一文本的整体。
4.根据权利要求1-3中任一项所述的方法,其中,所述第二语音识别引擎包括所述第一语音识别引擎和至少一个附加的功能。
5.根据权利要求4所述的方法,其中,所述至少一个附加的功能包括:基于与所述第一文本相关联的一个或多个实体,选择潜在的文本作为所述第二文本。
6.根据权利要求1-3中任一项所述的方法,还包括:
接收基于所述第一文本的第一搜索结果;以及
提供所述第一搜索结果,以用于在所述计算设备上显示。
7.根据权利要求6所述的方法,还包括:
接收基于所述第二文本的第二搜索结果;以及
提供所述第二搜索结果,以用于在所述计算设备上代替所述第一搜索结果来显示。
8.根据权利要求1-3中任一项所述的方法,其中,所述语音校正指示包括所述对第一文本的多个单词中至少一个单词的用户选择。
9.一种计算机实现的方法,所述方法包括:
提供第一文本以用于在用户的计算设备上显示,基于从所述计算设备接收的第一语音,所述第一文本从第一语音识别引擎被提供,并且作为搜索查询被显示;
从所述计算设备接收语音校正指示,所述语音校正指示用于指示所述第一文本中要被校正的部分;
从所述计算设备接收第二语音;
基于所述第二语音而从第二语音识别引擎接收第二文本,所述第二语音识别引擎不同于所述第一语音识别引擎;
使用所述第二文本代替所述第一文本的所述部分,以提供组合文本;以及
提供所述组合文本,以用于作为修正搜索查询在所述计算设备上显示。
10.根据权利要求9所述的方法,其中,所述部分包括所述第一文本的整体。
11.根据权利要求9所述的方法,其中,所述部分包括小于所述第一文本的整体。
12.根据权利要求9至11中任一项所述的方法,其中,所述第二语音识别引擎包括所述第一语音识别引擎和至少一个附加的功能。
13.根据权利要求12所述的方法,其中,所述至少一个附加的功能包括:基于与所述第一文本相关联的一个或多个实体,选择潜在的文本作为所述第二文本。
14.根据权利要求9至11中任一项所述的方法,还包括:
接收基于所述第一文本的第一搜索结果;以及
提供所述第一搜索结果,以用于在所述计算设备上显示。
15.根据权利要求14所述的方法,其中所述操作还包括:
接收基于所述第二文本的第二搜索结果;以及
提供所述第二搜索结果,以用于在所述计算设备上代替所述第一搜索结果来显示。
16.根据权利要求9至11中任一项所述的方法,其中,所述语音校正指示包括对所述第一文本的多个单词中的至少一个单词的用户选择。
17.一种计算机实现的系统,包括
用于提供第一文本以用于在用户的计算设备上显示的装置,基于从所述计算设备接收的第一语音,所述第一文本从第一语音识别引擎被提供,并且作为搜索查询被显示;
用于从所述计算设备接收语音校正指示的装置,所述语音校正指示用于指示所述第一文本中要被校正的部分;
用于从所述计算设备接收第二语音的装置;
用于基于所述第二语音而从第二语音识别引擎接收第二文本的装置,所述第二语音识别引擎不同于所述第一语音识别引擎;
用于使用所述第二文本代替所述第一文本的所述部分以提供组合文本的装置;以及
用于提供所述组合文本以用于作为修正搜索查询在所述计算设备上显示的装置。
18.根据权利要求17所述的系统,其中,所述部分包括所述第一文本的整体。
19.根据权利要求17所述的计算机实现的系统,其中,所述部分包括小于所述第一文本的整体。
20.根据权利要求17至19中任一项所述的计算机实现的系统,其中,所述第二语音识别引擎包括所述第一语音识别引擎和至少一个附加的功能。
21.根据权利要求20所述的计算机实现的系统,其中,所述至少一个附加的功能包括:基于与所述第一文本相关联的一个或多个实体,选择潜在的文本作为所述第二文本。
22.根据权利要求17至19中任一项所述的系统,包括:
用于接收基于所述第一文本的第一搜索结果的装置;以及
用于提供所述第一搜索结果以用于在所述计算设备上显示的装置。
23.根据权利要求22所述的计算机实现的系统,其中,所述操作还包括:
用于接收基于所述第二文本的第二搜索结果的装置;以及
用于提供所述第二搜索结果以用于在所述计算设备上代替所述第一搜索结果来显示的装置。
24.根据权利要求17至19中任一项所述的计算机实现的系统,其中,所述语音校正指示包括对所述第一文本的多个单词中至少一个单词的用户选择。
25.一种计算机实现的系统,包括
用于提供第一文本以用于在用户的计算设备上显示的装置,基于从所述计算设备接收的第一语音,所述第一文本从第一语音识别引擎被提供,并且作为搜索查询被显示;
用于从所述计算设备接收语音校正指示的装置,所述语音校正指示用于指示所述第一文本中要被校正的部分;
用于从所述计算设备接收第二语音的装置;
用于基于所述第二语音而从第二语音识别引擎接收第二文本的装置,所述第二语音识别引擎不同于所述第一语音识别引擎;
用于使用所述第二文本代替所述第一文本的所述部分以提供组合文本的装置;以及
用于提供所述组合文本以用于作为修正搜索查询在所述计算设备上显示的装置。
26.根据权利要求25所述的系统,其中,所述部分包括所述第一文本的整体。
27.根据权利要求25所述的计算机实现的系统,其中,所述部分包括小于所述第一文本的整体。
28.根据权利要求25至27中任一项所述的计算机实现的系统,其中,所述第二语音识别引擎包括所述第一语音识别引擎和至少一个附加的功能。
29.根据权利要求28所述的计算机实现的系统,其中,所述至少一个附加的功能包括:基于与所述第一文本相关联的一个或多个实体,选择潜在的文本作为所述第二文本。
30.根据权利要求25至27中任一项所述的系统,还包括:
用于接收基于所述第一文本的第一搜索结果的装置;以及
用于提供所述第一搜索结果以用于在所述计算设备上显示的装置。
31.根据权利要求30所述的计算机实现的系统,其中,所述操作还包括:
用于接收基于所述第二文本的第二搜索结果的装置;以及
用于提供所述第二搜索结果以用于在所述计算设备上代替所述第一搜索结果来显示的装置。
32.根据权利要求25至27中任一项所述的计算机实现的系统,其中,所述语音校正指示包括对所述第一文本的多个单词中至少一个单词的用户选择。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562153839P | 2015-04-28 | 2015-04-28 | |
US62/153,839 | 2015-04-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106095766A true CN106095766A (zh) | 2016-11-09 |
CN106095766B CN106095766B (zh) | 2021-12-21 |
Family
ID=55755434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610273179.7A Active CN106095766B (zh) | 2015-04-28 | 2016-04-28 | 使用选择性重新讲话来校正话音识别 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10354647B2 (zh) |
EP (1) | EP3089159B1 (zh) |
CN (1) | CN106095766B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647190A (zh) * | 2018-04-25 | 2018-10-12 | 北京华夏电通科技有限公司 | 一种语音识别文本插入笔录文档的方法、装置及系统 |
CN110663079A (zh) * | 2017-05-24 | 2020-01-07 | 乐威指南公司 | 基于语音纠正使用自动语音识别生成的输入的方法和系统 |
CN110956958A (zh) * | 2019-12-04 | 2020-04-03 | 深圳追一科技有限公司 | 搜索方法、装置、终端设备及存储介质 |
CN112750438A (zh) * | 2019-10-30 | 2021-05-04 | Lg 电子株式会社 | 人工智能设备 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10331402B1 (en) * | 2017-05-30 | 2019-06-25 | Amazon Technologies, Inc. | Search and knowledge base question answering for a voice user interface |
US11100943B1 (en) | 2017-07-09 | 2021-08-24 | Otter.ai, Inc. | Systems and methods for processing and presenting conversations |
US10978073B1 (en) | 2017-07-09 | 2021-04-13 | Otter.ai, Inc. | Systems and methods for processing and presenting conversations |
US11024316B1 (en) * | 2017-07-09 | 2021-06-01 | Otter.ai, Inc. | Systems and methods for capturing, processing, and rendering one or more context-aware moment-associating elements |
US11423911B1 (en) | 2018-10-17 | 2022-08-23 | Otter.ai, Inc. | Systems and methods for live broadcasting of context-aware transcription and/or other elements related to conversations and/or speeches |
CN111128183B (zh) * | 2019-12-19 | 2023-03-17 | 北京搜狗科技发展有限公司 | 语音识别方法、装置和介质 |
CN111883122B (zh) * | 2020-07-22 | 2023-10-27 | 海尔优家智能科技(北京)有限公司 | 语音识别方法及装置、存储介质、电子设备 |
US11676623B1 (en) | 2021-02-26 | 2023-06-13 | Otter.ai, Inc. | Systems and methods for automatic joining as a virtual meeting participant for transcription |
KR20220124547A (ko) * | 2021-03-03 | 2022-09-14 | 삼성전자주식회사 | 사용자의 음성 입력을 정정하는 전자 장치 및 그 동작 방법 |
US12112742B2 (en) * | 2021-03-03 | 2024-10-08 | Samsung Electronics Co., Ltd. | Electronic device for correcting speech input of user and operating method thereof |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040172245A1 (en) * | 2003-02-28 | 2004-09-02 | Lee Rosen | System and method for structuring speech recognized text into a pre-selected document format |
US20050033574A1 (en) * | 2003-08-06 | 2005-02-10 | Samsung Electronics Co., Ltd. | Method and apparatus handling speech recognition errors in spoken dialogue systems |
US20080162137A1 (en) * | 2006-12-28 | 2008-07-03 | Nissan Motor Co., Ltd. | Speech recognition apparatus and method |
CN101593076A (zh) * | 2008-05-28 | 2009-12-02 | Lg电子株式会社 | 移动终端和用于修正其文本的方法 |
CN101655837A (zh) * | 2009-09-08 | 2010-02-24 | 北京邮电大学 | 一种对语音识别后文本进行检错并纠错的方法 |
US20110054900A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application |
CN103207769A (zh) * | 2012-01-16 | 2013-07-17 | 联想(北京)有限公司 | 语音修正的方法及用户设备 |
Family Cites Families (159)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5598797A (en) | 1979-01-20 | 1980-07-28 | Sharp Kk | Electronic translator |
US4866778A (en) | 1986-08-11 | 1989-09-12 | Dragon Systems, Inc. | Interactive speech recognition apparatus |
US5027406A (en) | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5983179A (en) | 1992-11-13 | 1999-11-09 | Dragon Systems, Inc. | Speech recognition system which turns its voice response on for confirmation when it has been turned off without confirmation |
DE69423838T2 (de) | 1993-09-23 | 2000-08-03 | Xerox Corp., Rochester | Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen |
US5510981A (en) | 1993-10-28 | 1996-04-23 | International Business Machines Corporation | Language translation apparatus and method using context-based translation models |
TW323364B (zh) | 1993-11-24 | 1997-12-21 | At & T Corp | |
US6070140A (en) | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
US5855000A (en) | 1995-09-08 | 1998-12-29 | Carnegie Mellon University | Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input |
US5712957A (en) | 1995-09-08 | 1998-01-27 | Carnegie Mellon University | Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists |
US6067521A (en) * | 1995-10-16 | 2000-05-23 | Sony Corporation | Interrupt correction of speech recognition for a navigation device |
US5794189A (en) | 1995-11-13 | 1998-08-11 | Dragon Systems, Inc. | Continuous speech recognition |
US6064959A (en) | 1997-03-28 | 2000-05-16 | Dragon Systems, Inc. | Error correction in speech recognition |
US5799279A (en) | 1995-11-13 | 1998-08-25 | Dragon Systems, Inc. | Continuous speech recognition of text and commands |
US6397180B1 (en) | 1996-05-22 | 2002-05-28 | Qwest Communications International Inc. | Method and system for performing speech recognition based on best-word scoring of repeated speech attempts |
US5857099A (en) | 1996-09-27 | 1999-01-05 | Allvoice Computing Plc | Speech-to-text dictation system with audio message capability |
GB2302199B (en) | 1996-09-24 | 1997-05-14 | Allvoice Computing Plc | Data processing method and apparatus |
US5829000A (en) * | 1996-10-31 | 1998-10-27 | Microsoft Corporation | Method and system for correcting misrecognized spoken words or phrases |
US5864805A (en) * | 1996-12-20 | 1999-01-26 | International Business Machines Corporation | Method and apparatus for error correction in a continuous dictation system |
US5953541A (en) | 1997-01-24 | 1999-09-14 | Tegic Communications, Inc. | Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use |
US5909667A (en) | 1997-03-05 | 1999-06-01 | International Business Machines Corporation | Method and apparatus for fast voice selection of error words in dictated text |
US6490561B1 (en) | 1997-06-25 | 2002-12-03 | Dennis L. Wilson | Continuous speech voice transcription |
US6182028B1 (en) | 1997-11-07 | 2001-01-30 | Motorola, Inc. | Method, device and system for part-of-speech disambiguation |
US6397179B2 (en) | 1997-12-24 | 2002-05-28 | Nortel Networks Limited | Search optimization system and method for continuous speech recognition |
JP2991178B2 (ja) | 1997-12-26 | 1999-12-20 | 日本電気株式会社 | 音声ワープロ |
US6195637B1 (en) | 1998-03-25 | 2001-02-27 | International Business Machines Corp. | Marking and deferring correction of misrecognition errors |
US5970451A (en) | 1998-04-14 | 1999-10-19 | International Business Machines Corporation | Method for correcting frequently misrecognized words or command in speech application |
US6424983B1 (en) | 1998-05-26 | 2002-07-23 | Global Information Research And Technologies, Llc | Spelling and grammar checking system |
US6374220B1 (en) | 1998-08-05 | 2002-04-16 | Texas Instruments Incorporated | N-best search for continuous speech recognition using viterbi pruning for non-output differentiation states |
US6195635B1 (en) | 1998-08-13 | 2001-02-27 | Dragon Systems, Inc. | User-cued speech recognition |
US6405170B1 (en) | 1998-09-22 | 2002-06-11 | Speechworks International, Inc. | Method and system of reviewing the behavior of an interactive speech recognition application |
US6606598B1 (en) | 1998-09-22 | 2003-08-12 | Speechworks International, Inc. | Statistical computing and reporting for interactive speech applications |
US6138099A (en) * | 1998-10-19 | 2000-10-24 | International Business Machines Corp. | Automatically updating language models |
US6192343B1 (en) | 1998-12-17 | 2001-02-20 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms |
US6922669B2 (en) | 1998-12-29 | 2005-07-26 | Koninklijke Philips Electronics N.V. | Knowledge-based strategies applied to N-best lists in automatic speech recognition systems |
EP1159688A2 (en) | 1999-03-05 | 2001-12-05 | Canon Kabushiki Kaisha | Database annotation and retrieval |
US6314397B1 (en) | 1999-04-13 | 2001-11-06 | International Business Machines Corp. | Method and apparatus for propagating corrections in speech recognition software |
US6611802B2 (en) | 1999-06-11 | 2003-08-26 | International Business Machines Corporation | Method and system for proofreading and correcting dictated text |
US6327566B1 (en) * | 1999-06-16 | 2001-12-04 | International Business Machines Corporation | Method and apparatus for correcting misinterpreted voice commands in a speech recognition system |
US6374221B1 (en) | 1999-06-22 | 2002-04-16 | Lucent Technologies Inc. | Automatic retraining of a speech recognizer while using reliable transcripts |
US6374214B1 (en) | 1999-06-24 | 2002-04-16 | International Business Machines Corp. | Method and apparatus for excluding text phrases during re-dictation in a speech recognition system |
CN1207664C (zh) | 1999-07-27 | 2005-06-22 | 国际商业机器公司 | 对语音识别结果中的错误进行校正的方法和语音识别系统 |
US6219640B1 (en) | 1999-08-06 | 2001-04-17 | International Business Machines Corporation | Methods and apparatus for audio-visual speaker recognition and utterance verification |
US6789231B1 (en) | 1999-10-05 | 2004-09-07 | Microsoft Corporation | Method and system for providing alternatives for text derived from stochastic input sources |
US6581033B1 (en) | 1999-10-19 | 2003-06-17 | Microsoft Corporation | System and method for correction of speech recognition mode errors |
DE60036486T2 (de) | 1999-10-28 | 2008-06-12 | Canon K.K. | Methode und apparat zum prüfen von musterübereinstimmungen |
US7310600B1 (en) | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
US20020111990A1 (en) | 1999-11-01 | 2002-08-15 | Wood Christopher Noah | Internet based message management system |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US20030182113A1 (en) | 1999-11-22 | 2003-09-25 | Xuedong Huang | Distributed speech recognition for mobile communication devices |
US7280964B2 (en) | 2000-04-21 | 2007-10-09 | Lessac Technologies, Inc. | Method of recognizing spoken language with recognition of language color |
AU2001259446A1 (en) | 2000-05-02 | 2001-11-12 | Dragon Systems, Inc. | Error correction in speech recognition |
US6587824B1 (en) * | 2000-05-04 | 2003-07-01 | Visteon Global Technologies, Inc. | Selective speaker adaptation for an in-vehicle speech recognition system |
US7149970B1 (en) | 2000-06-23 | 2006-12-12 | Microsoft Corporation | Method and system for filtering and selecting from a candidate list generated by a stochastic input method |
US7200555B1 (en) | 2000-07-05 | 2007-04-03 | International Business Machines Corporation | Speech recognition correction for devices having limited or no display |
US6856956B2 (en) | 2000-07-20 | 2005-02-15 | Microsoft Corporation | Method and apparatus for generating and displaying N-best alternatives in a speech recognition system |
US7216077B1 (en) | 2000-09-26 | 2007-05-08 | International Business Machines Corporation | Lattice-based unsupervised maximum likelihood linear regression for speaker adaptation |
US7085716B1 (en) | 2000-10-26 | 2006-08-01 | Nuance Communications, Inc. | Speech recognition using word-in-phrase command |
DE60113787T2 (de) | 2000-11-22 | 2006-08-10 | Matsushita Electric Industrial Co., Ltd., Kadoma | Verfahren und Vorrichtung zur Texteingabe durch Spracherkennung |
US7027987B1 (en) | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
CN1586066A (zh) | 2001-07-18 | 2005-02-23 | 金旻谦 | 在按键上输入字母字符的装置和方法 |
US7027988B1 (en) | 2001-07-20 | 2006-04-11 | At&T Corp. | System and method of ε removal of weighted automata and transducers |
US7809574B2 (en) | 2001-09-05 | 2010-10-05 | Voice Signal Technologies Inc. | Word recognition using choice lists |
US7444286B2 (en) | 2001-09-05 | 2008-10-28 | Roth Daniel L | Speech recognition using re-utterance recognition |
CN1235188C (zh) | 2001-09-17 | 2006-01-04 | 皇家飞利浦电子股份有限公司 | 通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本 |
US7149550B2 (en) | 2001-11-27 | 2006-12-12 | Nokia Corporation | Communication terminal having a text editor application with a word completion feature |
DE10211777A1 (de) | 2002-03-14 | 2003-10-02 | Philips Intellectual Property | Erzeugung von Nachrichtentexten |
US6928407B2 (en) | 2002-03-29 | 2005-08-09 | International Business Machines Corporation | System and method for the automatic discovery of salient segments in speech transcripts |
JP3762327B2 (ja) * | 2002-04-24 | 2006-04-05 | 株式会社東芝 | 音声認識方法および音声認識装置および音声認識プログラム |
US20040024585A1 (en) | 2002-07-03 | 2004-02-05 | Amit Srivastava | Linguistic segmentation of speech |
WO2004012431A1 (en) | 2002-07-29 | 2004-02-05 | British Telecommunications Public Limited Company | Improvements in or relating to information provision for call centres |
US7386454B2 (en) | 2002-07-31 | 2008-06-10 | International Business Machines Corporation | Natural error handling in speech recognition |
KR100668297B1 (ko) | 2002-12-31 | 2007-01-12 | 삼성전자주식회사 | 음성인식방법 및 장치 |
US20040249637A1 (en) | 2003-06-04 | 2004-12-09 | Aurilab, Llc | Detecting repeated phrases and inference of dialogue models |
US7475015B2 (en) | 2003-09-05 | 2009-01-06 | International Business Machines Corporation | Semantic language modeling and confidence measurement |
US20050102140A1 (en) | 2003-11-12 | 2005-05-12 | Joel Davne | Method and system for real-time transcription and correction using an electronic communication environment |
US7440895B1 (en) | 2003-12-01 | 2008-10-21 | Lumenvox, Llc. | System and method for tuning and testing in a speech recognition system |
US20060036438A1 (en) | 2004-07-13 | 2006-02-16 | Microsoft Corporation | Efficient multimodal method to provide input to a computing device |
US8335688B2 (en) | 2004-08-20 | 2012-12-18 | Multimodal Technologies, Llc | Document transcription system training |
US7533018B2 (en) | 2004-10-19 | 2009-05-12 | Motorola, Inc. | Tailored speaker-independent voice recognition system |
JP4679254B2 (ja) | 2004-10-28 | 2011-04-27 | 富士通株式会社 | 対話システム、対話方法、及びコンピュータプログラム |
JP4604178B2 (ja) * | 2004-11-22 | 2010-12-22 | 独立行政法人産業技術総合研究所 | 音声認識装置及び方法ならびにプログラム |
US20060149551A1 (en) | 2004-12-22 | 2006-07-06 | Ganong William F Iii | Mobile dictation correction user interface |
US7949533B2 (en) | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US20060215821A1 (en) | 2005-03-23 | 2006-09-28 | Rokusek Daniel S | Voice nametag audio feedback for dialing a telephone call |
US7565282B2 (en) | 2005-04-14 | 2009-07-21 | Dictaphone Corporation | System and method for adaptive automatic error correction |
US8438142B2 (en) | 2005-05-04 | 2013-05-07 | Google Inc. | Suggesting and refining user input based on original user input |
JP4680691B2 (ja) * | 2005-06-15 | 2011-05-11 | 富士通株式会社 | 対話システム |
EP1734509A1 (en) | 2005-06-17 | 2006-12-20 | Harman Becker Automotive Systems GmbH | Method and system for speech recognition |
US20060293889A1 (en) | 2005-06-27 | 2006-12-28 | Nokia Corporation | Error correction for speech recognition systems |
US20060293890A1 (en) | 2005-06-28 | 2006-12-28 | Avaya Technology Corp. | Speech recognition assisted autocompletion of composite characters |
DE102005030963B4 (de) | 2005-06-30 | 2007-07-19 | Daimlerchrysler Ag | Verfahren und Vorrichtung zur Bestätigung und/oder Korrektur einer einem Spracherkennungssystems zugeführten Spracheingabe |
KR20070002567A (ko) | 2005-06-30 | 2007-01-05 | 삼성전자주식회사 | 바코드 스캐너를 구비한 조리장치 및 그 제어방법 |
US8473295B2 (en) | 2005-08-05 | 2013-06-25 | Microsoft Corporation | Redictation of misrecognized words using a list of alternatives |
US7620549B2 (en) * | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
JP4542974B2 (ja) * | 2005-09-27 | 2010-09-15 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
US7930168B2 (en) | 2005-10-04 | 2011-04-19 | Robert Bosch Gmbh | Natural language processing of disfluent sentences |
US20070094022A1 (en) | 2005-10-20 | 2007-04-26 | Hahn Koo | Method and device for recognizing human intent |
US7941316B2 (en) | 2005-10-28 | 2011-05-10 | Microsoft Corporation | Combined speech and alternate input modality to a mobile device |
US7840406B2 (en) | 2006-02-07 | 2010-11-23 | Samsung Electronics Co., Ltd. | Method for providing an electronic dictionary in wireless terminal and wireless terminal implementing the same |
JP4734155B2 (ja) | 2006-03-24 | 2011-07-27 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
US7689420B2 (en) | 2006-04-06 | 2010-03-30 | Microsoft Corporation | Personalizing a context-free grammar using a dictation language model |
US8209175B2 (en) | 2006-06-08 | 2012-06-26 | Microsoft Corporation | Uncertainty interval content sensing within communications |
US7756710B2 (en) | 2006-07-13 | 2010-07-13 | Sri International | Method and apparatus for error correction in speech recognition applications |
GB0616070D0 (en) | 2006-08-12 | 2006-09-20 | Ibm | Speech Recognition Feedback |
US7949536B2 (en) | 2006-08-31 | 2011-05-24 | Microsoft Corporation | Intelligent speech recognition of incomplete phrases |
JP2008090625A (ja) | 2006-10-02 | 2008-04-17 | Sharp Corp | 文字入力装置、文字入力方法、制御プログラム、および、記録媒体 |
US7890326B2 (en) | 2006-10-13 | 2011-02-15 | Google Inc. | Business listing search |
US7840407B2 (en) | 2006-10-13 | 2010-11-23 | Google Inc. | Business listing search |
US8055502B2 (en) | 2006-11-28 | 2011-11-08 | General Motors Llc | Voice dialing using a rejection reference |
EP1933302A1 (en) * | 2006-12-12 | 2008-06-18 | Harman Becker Automotive Systems GmbH | Speech recognition method |
US7953627B2 (en) | 2006-12-12 | 2011-05-31 | American Express Travel Related Services Company, Inc. | Identifying industry segments with highest potential for new customers or new spending for current customers |
JP2008233678A (ja) | 2007-03-22 | 2008-10-02 | Honda Motor Co Ltd | 音声対話装置、音声対話方法、及び音声対話用プログラム |
WO2008148102A1 (en) | 2007-05-25 | 2008-12-04 | Tigerfish | Method and system for rapid transcription |
WO2008151212A1 (en) | 2007-06-04 | 2008-12-11 | Nexidia Inc. | Speech skills assessment |
US8831946B2 (en) | 2007-07-23 | 2014-09-09 | Nuance Communications, Inc. | Method and system of indexing speech data |
US8036464B2 (en) | 2007-09-07 | 2011-10-11 | Satyam Computer Services Limited | System and method for automatic segmentation of ASR transcripts |
JP4839291B2 (ja) | 2007-09-28 | 2011-12-21 | Kddi株式会社 | 音声認識装置およびコンピュータプログラム |
US8155959B2 (en) | 2007-11-07 | 2012-04-10 | Robert Bosch Gmbh | Dialog system for human agent to correct abnormal output |
KR101170612B1 (ko) | 2008-03-11 | 2012-08-03 | 에스케이 텔레콤주식회사 | 사용자 영상을 이용한 음성인식 시스템 및 방법 |
US8082148B2 (en) | 2008-04-24 | 2011-12-20 | Nuance Communications, Inc. | Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise |
US20090326938A1 (en) | 2008-05-28 | 2009-12-31 | Nokia Corporation | Multiword text correction |
US8296144B2 (en) | 2008-06-04 | 2012-10-23 | Robert Bosch Gmbh | System and method for automated testing of complicated dialog systems |
KR100988397B1 (ko) | 2008-06-09 | 2010-10-19 | 엘지전자 주식회사 | 이동 단말기 및 그의 텍스트 수정방법 |
US8140330B2 (en) * | 2008-06-13 | 2012-03-20 | Robert Bosch Gmbh | System and method for detecting repeated patterns in dialog systems |
JP5226401B2 (ja) | 2008-06-25 | 2013-07-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文書データの検索を支援する装置及び方法 |
US8364481B2 (en) | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
US20110112837A1 (en) | 2008-07-03 | 2011-05-12 | Mobiter Dicta Oy | Method and device for converting speech |
US8019608B2 (en) | 2008-08-29 | 2011-09-13 | Multimodal Technologies, Inc. | Distributed speech recognition using one way communication |
US8965765B2 (en) | 2008-09-19 | 2015-02-24 | Microsoft Corporation | Structured models of repetition for speech recognition |
EP2196989B1 (en) | 2008-12-10 | 2012-06-27 | Nuance Communications, Inc. | Grammar and template-based speech recognition of spoken utterances |
US8768852B2 (en) | 2009-01-13 | 2014-07-01 | Amazon Technologies, Inc. | Determining phrases related to other phrases |
KR101556594B1 (ko) * | 2009-01-14 | 2015-10-01 | 삼성전자 주식회사 | 신호처리장치 및 신호처리장치에서의 음성 인식 방법 |
US8739055B2 (en) | 2009-05-07 | 2014-05-27 | Microsoft Corporation | Correction of typographical errors on touch displays |
US8407617B2 (en) | 2009-09-11 | 2013-03-26 | Visual Study Bible, Llc | Providing a visual representation of various resources related to passages of classic literature |
WO2011059997A1 (en) * | 2009-11-10 | 2011-05-19 | Voicebox Technologies, Inc. | System and method for providing a natural language content dedication service |
US9275640B2 (en) | 2009-11-24 | 2016-03-01 | Nexidia Inc. | Augmented characterization for speech recognition |
US8589163B2 (en) | 2009-12-04 | 2013-11-19 | At&T Intellectual Property I, L.P. | Adapting language models with a bit mask for a subset of related words |
US8903793B2 (en) * | 2009-12-15 | 2014-12-02 | At&T Intellectual Property I, L.P. | System and method for speech-based incremental search |
US8914401B2 (en) | 2009-12-30 | 2014-12-16 | At&T Intellectual Property I, L.P. | System and method for an N-best list interface |
US8494852B2 (en) | 2010-01-05 | 2013-07-23 | Google Inc. | Word-level correction of speech input |
US20120016671A1 (en) | 2010-07-15 | 2012-01-19 | Pawan Jaggi | Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions |
US9099087B2 (en) | 2010-09-03 | 2015-08-04 | Canyon IP Holdings, LLC | Methods and systems for obtaining language models for transcribing communications |
US9123339B1 (en) | 2010-11-23 | 2015-09-01 | Google Inc. | Speech recognition using repeated utterances |
US9418152B2 (en) | 2011-02-09 | 2016-08-16 | Nice-Systems Ltd. | System and method for flexible speech to text search mechanism |
JP6317111B2 (ja) | 2011-02-22 | 2018-04-25 | スピーク・ウィズ・ミー・インコーポレイテッドSpeak With Me,Inc. | ハイブリッド型クライアントサーバ音声認識 |
CN102682763B (zh) * | 2011-03-10 | 2014-07-16 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
US8972240B2 (en) | 2011-05-19 | 2015-03-03 | Microsoft Corporation | User-modifiable word lattice display for editing documents and search queries |
JP2013025299A (ja) | 2011-07-26 | 2013-02-04 | Toshiba Corp | 書き起こし支援システムおよび書き起こし支援方法 |
EP2645364B1 (en) * | 2012-03-29 | 2019-05-08 | Honda Research Institute Europe GmbH | Spoken dialog system using prominence |
US8775175B1 (en) | 2012-06-01 | 2014-07-08 | Google Inc. | Performing dictation correction |
US9384736B2 (en) * | 2012-08-21 | 2016-07-05 | Nuance Communications, Inc. | Method to provide incremental UI response based on multiple asynchronous evidence about user input |
US10031968B2 (en) * | 2012-10-11 | 2018-07-24 | Veveo, Inc. | Method for adaptive conversation state management with filtering operators applied dynamically as part of a conversational interface |
US9190055B1 (en) * | 2013-03-14 | 2015-11-17 | Amazon Technologies, Inc. | Named entity recognition with personalized models |
US9940927B2 (en) * | 2013-08-23 | 2018-04-10 | Nuance Communications, Inc. | Multiple pass automatic speech recognition methods and apparatus |
US10446141B2 (en) * | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9514743B2 (en) * | 2014-08-29 | 2016-12-06 | Google Inc. | Query rewrite corrections |
US9830321B2 (en) * | 2014-09-30 | 2017-11-28 | Rovi Guides, Inc. | Systems and methods for searching for a media asset |
-
2016
- 2016-04-14 EP EP16165438.9A patent/EP3089159B1/en active Active
- 2016-04-28 CN CN201610273179.7A patent/CN106095766B/zh active Active
- 2016-04-28 US US15/140,891 patent/US10354647B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040172245A1 (en) * | 2003-02-28 | 2004-09-02 | Lee Rosen | System and method for structuring speech recognized text into a pre-selected document format |
US20050033574A1 (en) * | 2003-08-06 | 2005-02-10 | Samsung Electronics Co., Ltd. | Method and apparatus handling speech recognition errors in spoken dialogue systems |
US20080162137A1 (en) * | 2006-12-28 | 2008-07-03 | Nissan Motor Co., Ltd. | Speech recognition apparatus and method |
US20110054900A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application |
CN101593076A (zh) * | 2008-05-28 | 2009-12-02 | Lg电子株式会社 | 移动终端和用于修正其文本的方法 |
CN101655837A (zh) * | 2009-09-08 | 2010-02-24 | 北京邮电大学 | 一种对语音识别后文本进行检错并纠错的方法 |
CN103207769A (zh) * | 2012-01-16 | 2013-07-17 | 联想(北京)有限公司 | 语音修正的方法及用户设备 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110663079A (zh) * | 2017-05-24 | 2020-01-07 | 乐威指南公司 | 基于语音纠正使用自动语音识别生成的输入的方法和系统 |
CN108647190A (zh) * | 2018-04-25 | 2018-10-12 | 北京华夏电通科技有限公司 | 一种语音识别文本插入笔录文档的方法、装置及系统 |
CN112750438A (zh) * | 2019-10-30 | 2021-05-04 | Lg 电子株式会社 | 人工智能设备 |
CN112750438B (zh) * | 2019-10-30 | 2024-05-31 | Lg电子株式会社 | 人工智能设备 |
CN110956958A (zh) * | 2019-12-04 | 2020-04-03 | 深圳追一科技有限公司 | 搜索方法、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3089159A1 (en) | 2016-11-02 |
CN106095766B (zh) | 2021-12-21 |
US10354647B2 (en) | 2019-07-16 |
US20160322049A1 (en) | 2016-11-03 |
EP3089159B1 (en) | 2019-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106095766A (zh) | 使用选择性重新讲话来校正话音识别 | |
US11269873B2 (en) | Retrieving context from previous sessions | |
AU2014201827B2 (en) | Scoring concept terms using a deep network | |
US10783156B1 (en) | Scoring candidate answer passages | |
US9817646B1 (en) | Multiplatform and multichannel distribution of web applications across devices | |
CN105051732B (zh) | 本地应用内容的排名 | |
US10102482B2 (en) | Factorized models | |
CN105900087B (zh) | 用于查询答案的丰富内容 | |
US20230186348A1 (en) | Image Recognition Based Content Item Selection | |
US9679027B1 (en) | Generating related questions for search queries | |
US20120166276A1 (en) | Framework that facilitates third party integration of applications into a search engine | |
CN106471497B (zh) | 使用上下文的辅助浏览 | |
US10503803B2 (en) | Animated snippets for search results | |
RU2685991C1 (ru) | Основанные на контексте мгновенные поисковые рекомендации | |
US10180964B1 (en) | Candidate answer passages | |
US20170242900A1 (en) | Generating contextual search presentations | |
US20150169703A1 (en) | Ranking of presentation modes for particular content | |
US20220171779A1 (en) | Answer facts from structured content | |
CN107408125B (zh) | 用于查询答案的图像 | |
JP6162134B2 (ja) | ソーシャルページのトリガー | |
US20180285444A1 (en) | Rewriting contextual queries | |
US11151129B1 (en) | Modifying query in discourse context | |
CN106471492B (zh) | 索引资源的动作 | |
US11055332B1 (en) | Adaptive sorting of results | |
US20180137588A1 (en) | Contextual personalized list of recommended courses |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |