CN107316639A - 一种基于语音识别的信息输入方法及装置,电子设备 - Google Patents
一种基于语音识别的信息输入方法及装置,电子设备 Download PDFInfo
- Publication number
- CN107316639A CN107316639A CN201710358744.4A CN201710358744A CN107316639A CN 107316639 A CN107316639 A CN 107316639A CN 201710358744 A CN201710358744 A CN 201710358744A CN 107316639 A CN107316639 A CN 107316639A
- Authority
- CN
- China
- Prior art keywords
- recognition result
- voice
- word
- words
- words recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004590 computer program Methods 0.000 claims description 8
- 235000013399 edible fruits Nutrition 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供了一种基于语音识别的信息输入方法,解决现有技术中语音输入效率低的问题。所述方法包括:对输入语音进行识别,获取至少两条语音识别结果;每条所述语音识别结果为由所述输入语音中每个词语语音对应的词语识别结果组成的词语识别结果序列;确定所述每个词语语音对应的所述至少两条语音识别结果中的全部词语识别结果;按照所述词语识别结果序列中的顺序,显示所述每个词语对应的至少部分词语识别结果;根据用户对显示的词语识别结果的选择操作,生成待输入信息。本发明公开的方法,通过将每个词语语音对应的多个词语识别结果进行显示,并根据用户的选择组成待输入信息,准确生成待输入信息并完成输入,进一步提高了语音输入的效率。
Description
技术领域
本发明涉及信息输入领域,特别是涉及一种基于语音识别的信息输入方法及装置,电子设备。
背景技术
随着语音识别技术的发展,越来越多的电子设备或应用通过语音识别进行信息输入。现有技术中的语音输入方法通常为:首先,获取用户输入的语音数据;然后,对获取的语音数据进行识别;最后,直接输入语音识别结果。或者,当语音识别结果有多个时,以列表形式展示多个识别结果,然后,根据用户的选择输入用户选择的识别结果。但是,当用户输入的语音不标准或者输入同音词时,某个或某些词语的识别结果可能不准确或存在多个候选识别结果,因此,直接输入的语音识别结果或者列表显示的识别结果可能不是用户真正要输入的信息,这种情况下,用户只能删除识别错误的语音识别结果,然后重新进行语音输入。现有技术中,还有一种做法是将多条语音识别结果一列表形式显示出来,供用户选择输入。这种方法同样存在多条语音识别结果均不是用户真正要输入的信息的问题。
可见,现有技术中的基于语音识别的信息输入方法至少存在:由于单个词语语音识别结果不准确或存在多个候选,致使输入或展示给用户的识别结果不准确,需要用户重新输入,从而导致的输入效率低下的问题。
发明内容
本申请所要解决的技术问题是:现有技术中的基于语音识别的信息输入方法存在的输入效率低下的问题。
为了解决上述问题,本发明实施例提供了一种基于语音识别的信息输入方法,包括:
对输入语音进行识别,获取至少两条语音识别结果;其中,每条所述语音识别结果为由所述输入语音中每个词语语音对应的词语识别结果组成的词语识别结果序列;
确定所述每个词语语音对应的所述至少两条语音识别结果中的全部词语识别结果;
按照所述词语语音的输入顺序,显示所述每个词语语音对应的至少部分词语识别结果;
根据用户对显示的所述至少部分词语识别结果的选择操作,生成待输入信息。
另一方面,本发明实施例提供了一种基于语音识别的信息输入装置,包括:
语音识别模块,用于对输入语音进行识别,获取至少两条语音识别结果;其中,每条所述语音识别结果为由所述输入语音中每个词语语音对应的词语识别结果组成的词语识别结果序列;
词语识别结果确定模块,用于确定所述每个词语语音对应的所述至少两条语音识别结果中的全部词语识别结果;
词语识别结果显示模块,用于按照所述词语语音的输入顺序,显示所述词语识别结果确定模块确定的每个词语语音对应的至少部分词语识别结果;
输入信息生成模块,用于根据用户对所述词语识别结果显示模块显示的所述至少部分词语识别结果的选择操作,生成待输入信息。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例所述的基于语音识别的信息输入方法。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例所述的基于语音识别的信息输入方法的步骤。
本发明的实施例公开的基于语音识别的信息输入方法,通过对输入语音进行识别,获取至少两条语音识别结果;其中,每条所述语音识别结果为由所述输入语音中每个词语语音对应的词语识别结果组成的词语识别结果序列;确定所述每个词语语音对应的所述至少两条语音识别结果中的全部词语识别结果;并按照所述词语识别结果序列中的顺序,显示所述每个词语对应的至少部分词语识别结果;最后,根据用户对显示的词语识别结果的选择操作,生成待输入信息,解决了现有技术中基于语音识别的信息输入方法存在的输入效率低下的问题。通过将每个词语语音对应的多个词语识别结果进行显示,并根据用户的选择组成待输入信息,准确生成待输入信息并完成输入,进一步提高了语音输入的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一的基于语音识别的信息输入方法流程图;
图2是本发明实施例二的基于语音识别的信息输入方法流程图;
图3是实施例二中词语识别结果显示示意图之一;
图4是实施例二中词语识别结果显示示意图之一;
图5是本发明实施例三的基于语音识别的信息输入方法流程图;
图6是实施例三中词语识别结果显示示意图之一;
图7是实施例三中词语识别结果显示示意图之二;
图8是本发明实施例四基于语音识别的信息输入装置结构示意图之一;
图9是本发明实施例四基于语音识别的信息输入装置结构示意图之二;
图10是本发明实施例四基于语音识别的信息输入装置结构示意图之三。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明公开的一种基于语音识别的信息输入方法,如图1所示,所述方法包括:步骤100至步骤130。
步骤100,对输入语音进行识别,获取至少两条语音识别结果。
其中,每条所述语音识别结果为由所述输入语音中每个词语语音对应的词语识别结果组成的词语识别结果序列。
当用户通过应用,如输入法界面的语音输入控件输入语音之后,通过调用系统提供的接口,可以获取用户的输入语音。然后,应用将进一步调用语音识别引擎对获取的输入语音进行识别,以得到语音识别结果。
通常,语音识别引擎首先根据语音数据的音频特性对输入的语音进行分段处理,然后,对每一段语音分别进行识别。用户在输入语音时,不同词语之间通常会由短暂的发音间隔,因此,经过分段处理之后,每段语音将对应一个词语的语音。语音识别引擎对每段语音进行识别后,将会得到每个词语语音的词语识别结果。由于不同用户咬字和口音的差别,具体实施时,同一个词语语音可能会识别的到多个词语识别结果。或者,对于用户输入同音字或同音词的情况,语音识别引擎可能会识别得到多个词语识别结果。因此,通常,每个词语语音将会得到至少一个词语识别结果。
然后,语音识别引擎通过语言模型对输入语音中每个词语语音对应的词语识别结果进行修正,并进一步组合成词语序列。当某个词语语音有多个词语识别结果时,语音识别引擎将得到输入语音的至少两条语音识别结果。
步骤110,确定所述每个词语语音对应的所述至少两条语音识别结果中的全部词语识别结果。
语音识别引擎根据每段语音的词语识别结果,结合语言模型,得到至少两条语音识别结果之后,根据语音识别引擎输出的至少两条语音识别结果可以确定每段语音分别对应的词语识别结果,即每个词语语音分别对应的词语识别结果。以语音识别引擎输出的语音识别结果为:“Can’t you help me”和“Can you help me”为例,可以确定输入语音中:第一个词语语音对应的词语识别结果为:“Can’t”和“Can”、第二个词语语音对应的词语识别结果为:“you”、第三个词语语音对应的词语识别结果为:“help”、第四个词语语音对应的词语识别结果为:“me”。具体实施时,根据语音识别引擎输出的语音识别结果的数据格式可以确定每个词语语音分别对应的词语识别结果。
步骤120,按照所述词语语音的输入顺序,显示所述每个词语语音对应的至少部分词语识别结果。
输入语音中每个词语语音对应的词语识别结果可能为一个,也可能为多个,为了便于通过选择每个词语语音对应的词语识别结果以组成所述输入语音对应的输入信息,本发明将每个词语语音对应的词语识别结果采用相应的方式进行显示。例如:按照词语识别结果对应的词语语音在输入语音中的先后顺序,在相应的位置列表显示每个词语语音的词语识别结果。如某个词语语音对应的词语识别结果大于1个,则采用列表的形式显示该词语语音对应的全部词语识别结果或识别得分最高的部分词语识别结果。或者,如某个词语语音对应的词语识别结果大于1个,则采用拨盘的形式显示该词语语音对应的全部词语识别结果或识别得分最高的部分词语识别结果。或者,如某个词语语音对应的词语识别结果大于1个,则采用突出显示格式显示该词语语音中识别得分最高的一个词语识别结果,以指示用户通过触发该词语识别结果可以选择该词语语音的其他词语识别结果。
步骤130,根据用户对显示的词语识别结果的选择操作,生成待输入信息。
用户可以通过点击、滑动等操作选择显示的词语识别结果,然后由选择的词语识别结果组成词组或句子,作为待输入信息。
本发明实施例公开的基于语音识别的信息输入方法,通过对输入语音进行识别,获取至少两条语音识别结果;其中,每条所述语音识别结果为由所述输入语音中每个词语语音对应的词语识别结果组成的词语识别结果序列;确定所述每个词语语音对应的所述至少两条语音识别结果中的全部词语识别结果;并按照所述词语识别结果序列中的顺序,显示所述每个词语对应的至少部分词语识别结果;最后,根据用户对显示的词语识别结果的选择操作,生成待输入信息,解决了现有技术中基于语音识别的信息输入方法存在的输入效率低下的问题。通过将每个词语语音对应的多个词语识别结果进行显示,并根据用户的选择组成待输入信息,准确生成待输入信息并完成输入,进一步提高了语音输入的效率。
实施例二
本发明实施例公开的一种基于语音识别的信息输入方法,如图2所示,所述方法包括:步骤200至步骤230。
步骤200,对输入语音进行识别,获取至少两条语音识别结果。
其中,每条所述语音识别结果为由所述输入语音中每个词语语音对应的词语识别结果组成的词语识别结果序列。
对输入语音进行识别,获取至少两条语音识别结果的具体实施方式参见实施例一,此处不再赘述。
步骤210,确定所述每个词语语音对应的所述至少两条语音识别结果中的全部词语识别结果。
确定所述每个词语语音对应的所述至少两条语音识别结果中的全部词语识别结果的具体实施方式参见实施例一,此处不再赘述。
本实施例中,以语音识别引擎输出的语音识别结果为:“Can’tyouhitit”和“Canyou heat it”为例,可以确定输入语音中:第一个词语语音对应的词语识别结果为:“Can’t”和“Can”、第二个词语语音对应的词语识别结果为:“you”、第三个词语语音对应的词语识别结果为:“hit”和“heat”、第四个词语语音对应的词语识别结果为:“it”。
步骤220,按照所述词语语音的输入顺序,在相应位置并列显示对应同一词语语音的多个词语识别结果。
当语音识别引擎输出的语音识别结果中,存在于同一词语语音对应的多个词语识别结果时,显示所述每个词语语音对应的至少部分词语识别结果的步骤进一步包括:在相应位置并列显示对应同一词语语音的多个词语识别结果。
仍以上一步骤中确定的词语识别结果为例,第一个词语语音和第三个词语语音分别对应多个词语识别结果“Can’t”和“Can”,因此,在第一个位置并列显示第一个词语语音对应的两个词语识别结果,在第三个位置并列显示第三个词语语音对应的两个词语识别结果“hit”和“heat”。第二个词语语音和第四个词语语音分别与词语识别结果一一对应,在相应位置仅显示一个词语识别结果。具体词语识别结果显示示意图如图3所示。
具体实施时,为了直观的体现词语语音的输入顺序,以及由词语识别结果组成输入信息的可能性,可以通过箭头将词语识别结果连接起来,形成词语链条,如图4所示,即以词语链条的形式显示所述每个词语语音对应的词语识别结果;其中,将对应同一词语语音的多个词语识别结果作为不同词语链条的并列节点;将与词语语音一一对应的词语识别结果作为所述不同词语链条的共同节点。由图4中显示的词语识别结果可以看出,所述词语识别结果可以组成的输入的信息有四种,分别是:“Can’t you hit it”、“Can you heat it”、“Can’t you heat it”和“Can you hit it”。通过在相应位置并列显示对应同一词语语音的多个词语识别结果,增加了用户输入信息的可选性。
步骤230,根据用户对并列显示的所述多个词语识别结果的选择操作,生成包括所述选择操作针对的词语识别结果的待输入信息。
具体实施时,当语音识别引擎输出的语音识别结果中,存在于同一词语语音对应的多个词语识别结果时,根据用户对显示的所述至少部分词语识别结果的选择操作,生成待输入信息,进一步包括:根据用户对并列显示的所述多个词语识别结果的选择操作,生成包括所述选择操作针对的词语识别结果的待输入信息。
具体实施时,所述选择操作包括:点击并列显示的所述词语识别结果、执行滑动手势经过并列显示的所述词语识别结果和与词语语音一一对应的词语识别结果。以图3和图4中显示的词语识别结果为例,用户可以通过依次点击“Can’t”和“hit”,选择词语识别结果,然后,根据用户对并列显示的所述多个词语识别结果的选择操作,生成包括所述选择操作针对的词语识别结果“Can’t”和“hit”的待输入信息,如:“Can’t you hit it”。用户还可以通过执行滑动手势来选择词语识别结果。例如,用户通过手指沿图4中显示的词语链条滑动,手指依次经过词语链条上第一至第四个节点,即“Can”、“you”、“heat”、“it”所在节点,由所述滑动操作经过的节点处的词语识别结果,组成待输入信息:“Can you heat it”。
用户可以通过点击、滑动等操作选择显示的词语识别结果,然后由选择的词语识别结果组成词组或句子,作为待输入信息。
本发明实施例公开的基于语音识别的信息输入方法,通过对输入语音进行识别,获取至少两条语音识别结果;其中,每条所述语音识别结果为由所述输入语音中每个词语语音对应的词语识别结果组成的词语识别结果序列;确定所述每个词语语音对应的所述至少两条语音识别结果中的全部词语识别结果;按照所述词语语音的输入顺序,在相应位置并列显示对应同一词语语音的多个词语识别结果;最后,根据用户对并列显示的所述多个词语识别结果的选择操作,生成包括所述选择操作针对的词语识别结果的待输入信息,解决了现有技术中基于语音识别的信息输入方法存在的输入效率低下的问题。通过将每个词语语音对应的多个词语识别结果进行显示,并根据用户的选择组成待输入信息,准确生成待输入信息并完成输入,进一步提高了语音输入的效率。并且,通过并列显示多个词语识别结果,有效地提高了待输入信息的可选性。
实施例三
相应地,本发明实施例还公开了一种基于语音识别的信息输入方法,如图5所示,所述方法包括:步骤500至步骤540。
步骤500,对输入语音进行识别,获取至少两条语音识别结果。
其中,每条所述语音识别结果为由所述输入语音中每个词语语音对应的词语识别结果组成的词语识别结果序列。
对输入语音进行识别,获取至少两条语音识别结果的具体实施方式参见实施例一,此处不再赘述。
步骤510,确定所述每个词语语音对应的所述至少两条语音识别结果中的全部词语识别结果。
确定所述每个词语语音对应的所述至少两条语音识别结果中的全部词语识别结果的具体实施方式参见实施例一,此处不再赘述。
本实施例中,以语音识别引擎输出的语音识别结果为:“Can’t you he lp me”和“Can you help me”为例,可以确定输入语音中:第一个词语语音对应的词语识别结果为:“Can’t”和“Can”、第二个词语语音对应的词语识别结果为:“you”、第三个词语语音对应的词语识别结果为:“help”、第四个词语语音对应的词语识别结果为:“me”。
步骤520,按照所述词语语音的输入顺序,以第一样式显示与同一词语语音对应的多个词语识别结果,及以第二样式显示与词语语音一一对应的词语识别结果。
其中,所述第一样式区别于所述第二样式,所述第一样式用于指示该词语识别结果可编辑。
当语音识别引擎输出的语音识别结果中,存在于同一词语语音对应的多个词语识别结果时,显示所述每个词语语音对应的至少部分词语识别结果的步骤进一步包括:以第一样式显示与同一词语语音对应的多个词语识别结果,及以第二样式显示与词语语音一一对应的词语识别结果。
仍以上一步骤中确定的词语识别结果为例,第一个词语语音和第三个词语语音分别对应多个词语识别结果“Can’t”和“Can”,因此,在第一个位置以第一样式显示第一个词语语音对应的两个词语识别结果。第二个词语语音、第三个词语语音和第四个词语语音分别与词语识别结果一一对应,在相应位置以第二样式显示一个词语识别结果。具体实施时,所述第一样式为区别于第二样式的显示样式,如第一样式为:高亮显示、下划线格式显示、气泡显示等。图6为第一样式为下划线格式的具体显示示意图。
具体实施时,当语音识别引擎输出的语音识别结果中,存在于同一词语语音对应的多个词语识别结果时,根据用户对显示的所述至少部分词语识别结果的选择操作,生成待输入信息,进一步包括:根据用户的触发操作,显示所述触发操作针对的词语识别结果对应的候选词语识别结果,所述候选词语识别结果选自于所述触发操作针对的词语识别结果对应的词语语音的多个词语识别结果;根据用户对显示的所述候选词语识别结果的选择操作,生成待输入信息。
步骤530,根据用户的触发操作,显示所述触发操作针对的词语识别结果对应的候选词语识别结果。
具体实施时,当用户触发以第一样式显示的词语识别结果时,如点击图6中的“Can’t”,则弹出下拉菜单或子窗口,如图7中的700,在所述下拉菜单或子窗口中显示用户触发的词语识别结果“Can’t”对应的候选词语识别结果,如:“Can”。
步骤540,根据用户对显示的所述候选词语识别结果的选择操作,生成包括所述选择操作针对的候选词语识别结果的待输入信息。
检测用户对下拉菜单或弹出窗口中显示的候选词语识别结果的选择操作,如:检测用户点击某个候选词语识别结果的操作,然后,将用户点击的候选词语识别结果作为用户选择的候选词语识别结果,并根据用户选择的候选词语识别结果和其他词语识别结果共同组成待输入信息。其中,所述候选词语识别结果选自于所述触发操作针对的词语识别结果“Can’t”对应的词语语音的多个词语识别结果,如:“Can’t”、“Can”、“Count”。以图7中用户点击词语识别结果“Can’t”后,弹出下拉菜单显示“Can”和“Count”为例,用户可以进一步点击候选词语识别结果“Can”,以选择“Can”作为第一个词语语音的词语识别结果。最后,根据用户选择的候选词语识别结果“Can”和其他词语识别结果:“you”、“help”和“me”共同组成待输入信息:“Can you help me”。
具体实施时,在根据用户对显示的所述至少部分词语识别结果的选择操作,生成待输入信息时,当根据用户的触发操作,显示所述触发操作针对的词语识别结果对应的候选词语识别结果的步骤之后,所述方法还包括:显示语音输入控件,用于重新输入所述触发操作针对的词语识别结果对应的词语语音,如图7中的语音输入图标710。通过显示语音输入控件可以指示用户重新输入语音,对当前词语识别结果进行修改。通过实时检测用户对所述语音输入控件的触发操作,并获取语音输入控件的输出,即重新输入的词语语音。
所述通过重新输入的词语语音的词语识别结果,更新所述触发操作针对的词语识别结果对应的候选词语识别结果,包括:结合所述输入语音对所述重新输入的词语语音进行语音识别,得到更新的词语识别结果;通过所述更新的词语识别结果,更新触发操作针对的词语识别结果对应的候选词语识别结果。当获取到重新输入的词语语音之后,通过重新输入的词语语音替换原始输入语音中相应分段,将重新输入的语音和原始以输入语音进行语音融合,并再一次调用语音识别引擎对融合后的语音进行识别,得到重新输入的词语语音的更新词语识别结果。最后,通过所述更新的词语识别结果,更新触发操作针对的词语识别结果对应的候选词语识别结果。
本发明实施例公开的基于语音识别的信息输入方法,通过对输入语音进行识别,获取至少两条语音识别结果;其中,每条所述语音识别结果为由所述输入语音中每个词语语音对应的词语识别结果组成的词语识别结果序列;确定所述每个词语语音对应的所述至少两条语音识别结果中的全部词语识别结果;按照所述词语语音的输入顺序,以第一样式显示与同一词语语音对应的多个词语识别结果,及以第二样式显示与词语语音一一对应的词语识别结果;然后,根据用户的触发操作,显示所述触发操作针对的词语识别结果对应的候选词语识别结果;最后,根据用户对显示的所述候选词语识别结果的选择操作,生成待输入信息,解决了现有技术中基于语音识别的信息输入方法存在的输入效率低下的问题。
通过以不同样式显示具有多个候选的词语识别结果,以显示样式作为指示用户和词语识别结果是否可选择,当需要选择时才触发显示候选词语识别结果,可以有效的节省显示词语识别结果占用的显示空间。通过在显示候选词语识别结果同时显示语音输入控件,便于用户在词语语音的语音识别结果不是用户真正想输入的信息时,快速更新输入语音,进一步提升了通过语音是被输入信息的效率。
实施例四
相应地,本发明实施例还公开了一种基于语音识别的信息输入装置,如图8所示,所述装置包括:
语音识别模块810,用于对输入语音进行识别,获取至少两条语音识别结果;其中,每条所述语音识别结果为由所述输入语音中每个词语语音对应的词语识别结果组成的词语识别结果序列;
词语识别结果确定模块820,用于确定所述每个词语语音对应的所述至少两条语音识别结果中的全部词语识别结果;
词语识别结果显示模块830,用于按照所述词语语音的输入顺序,显示所述词语识别结果确定模块820确定的每个词语语音对应的至少部分词语识别结果;
输入信息生成模块840,用于根据用户对所述词语识别结果显示模块830显示的所述至少部分词语识别结果的选择操作,生成待输入信息。
可选的,如图9所示,所述词语识别结果显示模块830包括:
第一显示单元8301,用于在相应位置并列显示对应同一词语语音的多个词语识别结果。
可选的,所述输入信息生成模块840进一步包括:
第一输入信息生成单元8401,用于根据用户对并列显示的所述多个词语识别结果的选择操作,生成包括所述选择操作针对的词语识别结果的待输入信息。
可选的,所述选择操作包括:点击并列显示的所述词语识别结果、执行滑动手势经过并列显示的所述词语识别结果和与词语语音一一对应的词语识别结果。
可选的,如图10所示,所述词语识别结果显示模块830包括:
第二显示单元8302,用于以第一样式显示与同一词语语音对应的多个词语识别结果,及以第二样式显示与词语语音一一对应的词语识别结果;其中,所述第一样式用于指示该词语识别结果可编辑。
可选的,所述词语识别结果显示模块830进一步包括:
第三显示单元8303,用于根据用户的触发操作,显示所述触发操作针对的词语识别结果对应的候选词语识别结果,所述候选词语识别结果选自于所述触发操作针对的词语识别结果对应的词语语音的多个词语识别结果;
可选的,所述输入信息生成模块840进一步包括:
第二输入信息生成单元8402,用于根据用户对显示的所述候选词语识别结果的选择操作,生成包括所述选择操作针对的候选词语识别结果的待输入信息生成待输入信息。
可选的,如图10所示,所述词语识别结果显示模块830还包括:
第四显示单元8304,用于显示语音输入控件,用于重新输入所述触发操作针对的词语识别结果对应的词语语音;
词语识别结果更新单元8305,用于通过重新输入的词语语音的词语识别结果,更新所述触发操作针对的词语识别结果对应的候选词语识别结果。
可选的,所述词语识别结果更新单元8305具体用于:
结合所述输入语音对所述重新输入的词语语音进行语音识别,得到更新的词语识别结果;通过所述更新的词语识别结果,更新触发操作针对的词语识别结果对应的候选词语识别结果。
本发明实施例公开的基于语音识别的信息输入装置,通过对输入语音进行识别,获取至少两条语音识别结果;其中,每条所述语音识别结果为由所述输入语音中每个词语语音对应的词语识别结果组成的词语识别结果序列;确定所述每个词语语音对应的所述至少两条语音识别结果中的全部词语识别结果;按照所述词语语音的输入顺序,以第一样式显示与同一词语语音对应的多个词语识别结果,及以第二样式显示与词语语音一一对应的词语识别结果;然后,根据用户的触发操作,显示所述触发操作针对的词语识别结果对应的候选词语识别结果;最后,根据用户对显示的所述候选词语识别结果的选择操作,生成待输入信息,解决了现有技术中基于语音识别的信息输入方法存在的输入效率低下的问题。
通过以不同样式显示具有多个候选的词语识别结果,以显示样式作为指示用户和词语识别结果是否可选择,当需要选择时才触发显示候选词语识别结果,可以有效的节省显示词语识别结果占用的显示空间。通过在显示候选词语识别结果同时显示语音输入控件,便于用户在词语语音的语音识别结果不是用户真正想输入的信息时,快速更新输入语音,进一步提升了通过语音是被输入信息的效率。
相应地,本发明还公开的一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例一至实施例三所述的基于语音识别的信息输入方法。所述电子设备可以为:智能手机、平板电脑、游戏机、电子阅读器等。
相应地,本发明还公开的一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例一至实施例三所述的基于语音识别的信息输入方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置和电子设备实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请对提供的一种基于语音识别的信息输入方法、装置和电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
Claims (11)
1.一种基于语音识别的信息输入方法,其特征在于,包括:
对输入语音进行识别,获取至少两条语音识别结果;其中,每条所述语音识别结果为由所述输入语音中每个词语语音对应的词语识别结果组成的词语识别结果序列;
确定所述每个词语语音对应的所述至少两条语音识别结果中的全部词语识别结果;
按照所述词语语音的输入顺序,显示所述每个词语语音对应的至少部分词语识别结果;
根据用户对显示的所述至少部分词语识别结果的选择操作,生成待输入信息。
2.如权利要求1所述的方法,其特征在于,所述显示所述每个词语语音对应的至少部分词语识别结果的步骤,包括:
在相应位置并列显示对应同一词语语音的多个词语识别结果。
3.如权利要求2所述的方法,其特征在于,所述根据用户对显示的所述至少部分词语识别结果的选择操作,生成待输入信息的步骤,包括:
根据用户对并列显示的所述多个词语识别结果的选择操作,生成包括所述选择操作针对的词语识别结果的待输入信息。
4.如权利要求3所述的方法,其特征在于,所述选择操作包括:点击并列显示的所述词语识别结果、执行滑动手势经过并列显示的所述词语识别结果和与词语语音一一对应的词语识别结果。
5.如权利要求1所述的方法,其特征在于,所述显示所述每个词语语音对应的至少部分词语识别结果的步骤,包括:
以第一样式显示与同一词语语音对应的多个词语识别结果,及以第二样式显示与词语语音一一对应的词语识别结果;其中,所述第一样式用于指示该词语识别结果可编辑。
6.如权利要求5所述的方法,其特征在于,所述根据用户对显示的所述至少部分词语识别结果的选择操作,生成待输入信息的步骤,包括:
根据用户的触发操作,显示所述触发操作针对的词语识别结果对应的候选词语识别结果,所述候选词语识别结果选自于所述触发操作针对的词语识别结果对应的词语语音的多个词语识别结果;
根据用户对显示的所述候选词语识别结果的选择操作,生成包括所述选择操作针对的候选词语识别结果的待输入信息。
7.如权利要求6所述的方法,其特征在于,所述根据用户的触发操作,显示所述触发操作针对的词语识别结果对应的候选词语识别结果的步骤之后,还包括:
显示语音输入控件,用于重新输入所述触发操作针对的词语识别结果对应的词语语音;
通过重新输入的词语语音的词语识别结果,更新所述触发操作针对的词语识别结果对应的候选词语识别结果。
8.如权利要求7所述的方法,其特征在于,所述通过重新输入的词语语音的词语识别结果,更新所述触发操作针对的词语识别结果对应的候选词语识别结果的步骤,包括:
结合所述输入语音对所述重新输入的词语语音进行语音识别,得到更新的词语识别结果;
通过所述更新的词语识别结果,更新触发操作针对的词语识别结果对应的候选词语识别结果。
9.一种基于语音识别的信息输入装置,其特征在于,包括:
语音识别模块,用于对输入语音进行识别,获取至少两条语音识别结果;其中,每条所述语音识别结果为由所述输入语音中每个词语语音对应的词语识别结果组成的词语识别结果序列;
词语识别结果确定模块,用于确定所述每个词语语音对应的所述至少两条语音识别结果中的全部词语识别结果;
词语识别结果显示模块,用于按照所述词语语音的输入顺序,显示所述词语识别结果确定模块确定的每个词语语音对应的至少部分词语识别结果;
输入信息生成模块,用于根据用户对所述词语识别结果显示模块显示的所述至少部分词语识别结果的选择操作,生成待输入信息。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任意一项权利要求所述的基于语音识别的信息输入方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8任意一项权利要求所述的基于语音识别的信息输入方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710358744.4A CN107316639A (zh) | 2017-05-19 | 2017-05-19 | 一种基于语音识别的信息输入方法及装置,电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710358744.4A CN107316639A (zh) | 2017-05-19 | 2017-05-19 | 一种基于语音识别的信息输入方法及装置,电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107316639A true CN107316639A (zh) | 2017-11-03 |
Family
ID=60181507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710358744.4A Pending CN107316639A (zh) | 2017-05-19 | 2017-05-19 | 一种基于语音识别的信息输入方法及装置,电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107316639A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109215661A (zh) * | 2018-08-30 | 2019-01-15 | 上海与德通讯技术有限公司 | 语音转文字方法、装置设备及存储介质 |
CN110473543A (zh) * | 2019-09-25 | 2019-11-19 | 北京蓦然认知科技有限公司 | 一种语音识别方法、装置 |
CN111475129A (zh) * | 2019-01-24 | 2020-07-31 | 北京京东尚科信息技术有限公司 | 一种语音识别候选同音词的展示方法及设备 |
CN116825107A (zh) * | 2023-08-21 | 2023-09-29 | 北京集度科技有限公司 | 一种语音交互方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
CN102903361A (zh) * | 2012-10-15 | 2013-01-30 | Itp创新科技有限公司 | 一种通话即时翻译系统和方法 |
CN103366741A (zh) * | 2012-03-31 | 2013-10-23 | 盛乐信息技术(上海)有限公司 | 语音输入纠错方法及系统 |
CN104538032A (zh) * | 2014-12-19 | 2015-04-22 | 中国科学院计算技术研究所 | 一种融合用户反馈的汉语语音识别方法及系统 |
CN105161094A (zh) * | 2015-06-26 | 2015-12-16 | 徐信 | 一种语音音频切分手动调整切分点的系统及方法 |
CN105244026A (zh) * | 2015-08-24 | 2016-01-13 | 陈娟 | 一种语音处理方法及装置 |
CN105513589A (zh) * | 2015-12-18 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN106683662A (zh) * | 2015-11-10 | 2017-05-17 | 中国电信股份有限公司 | 一种语音识别方法和装置 |
-
2017
- 2017-05-19 CN CN201710358744.4A patent/CN107316639A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
CN103366741A (zh) * | 2012-03-31 | 2013-10-23 | 盛乐信息技术(上海)有限公司 | 语音输入纠错方法及系统 |
CN102903361A (zh) * | 2012-10-15 | 2013-01-30 | Itp创新科技有限公司 | 一种通话即时翻译系统和方法 |
CN104538032A (zh) * | 2014-12-19 | 2015-04-22 | 中国科学院计算技术研究所 | 一种融合用户反馈的汉语语音识别方法及系统 |
CN105161094A (zh) * | 2015-06-26 | 2015-12-16 | 徐信 | 一种语音音频切分手动调整切分点的系统及方法 |
CN105244026A (zh) * | 2015-08-24 | 2016-01-13 | 陈娟 | 一种语音处理方法及装置 |
CN106683662A (zh) * | 2015-11-10 | 2017-05-17 | 中国电信股份有限公司 | 一种语音识别方法和装置 |
CN105513589A (zh) * | 2015-12-18 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
Non-Patent Citations (2)
Title |
---|
JUN OGATA等: ""Speech Repair: Quick Error Correction Just by Using Selection Operation for Speech Input Interfaces"", 《INTERSPEECH-2005:9TH EUROPEAN CONFERENCE ON SPEECH COMMNUNICATION AND TECHNOLOGY》 * |
KEITH VERTANEN等: ""Intelligently Aiding Human-Guided Correction of Speech Recognition"", 《TWENTY-FOURTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109215661A (zh) * | 2018-08-30 | 2019-01-15 | 上海与德通讯技术有限公司 | 语音转文字方法、装置设备及存储介质 |
CN111475129A (zh) * | 2019-01-24 | 2020-07-31 | 北京京东尚科信息技术有限公司 | 一种语音识别候选同音词的展示方法及设备 |
CN110473543A (zh) * | 2019-09-25 | 2019-11-19 | 北京蓦然认知科技有限公司 | 一种语音识别方法、装置 |
CN116825107A (zh) * | 2023-08-21 | 2023-09-29 | 北京集度科技有限公司 | 一种语音交互方法、装置、电子设备及存储介质 |
CN116825107B (zh) * | 2023-08-21 | 2023-11-21 | 北京集度科技有限公司 | 一种语音交互方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI437449B (zh) | 多重模式輸入方法及輸入方法編輯器系統 | |
TWI510965B (zh) | 輸入方法編輯器整合 | |
JP2021089739A (ja) | 質問応答処理、言語モデルの訓練方法、装置、機器および記憶媒体 | |
US9569231B2 (en) | Device, system, and method for providing interactive guidance with execution of operations | |
TWI443551B (zh) | 用於輸入方法編輯器之方法及系統,及電腦程式產品 | |
CN107316639A (zh) | 一种基于语音识别的信息输入方法及装置,电子设备 | |
US8370808B2 (en) | Apparatus and a method for generating a test case | |
US20140236596A1 (en) | Emotion detection in voicemail | |
WO2018075191A1 (en) | Techniques for scheduling language models and character recognition models for handwriting inputs | |
CN105161095B (zh) | 语音识别语法树的构图方法及装置 | |
CN112286485B (zh) | 通过语音控制应用的方法、装置、电子设备与存储介质 | |
CN101989128B (zh) | 一种在固定位置展现候选词的方法及装置 | |
CN110060674A (zh) | 表格管理方法、装置、终端和存储介质 | |
JP2010044637A (ja) | データ処理装置、方法、及びプログラム | |
CN106484131A (zh) | 一种输入纠错方法和输入法装置 | |
CN114168718A (zh) | 信息处理装置、方法和信息记录介质 | |
CN112541052B (zh) | 确定问题的答案的方法、装置、设备及存储介质 | |
CN115879469B (zh) | 文本数据处理方法、模型训练方法、装置及介质 | |
US11928444B2 (en) | Editing files using a pattern-completion engine implemented using a machine-trained model | |
KR20210127613A (ko) | 대화 생성 방법, 장치, 전자 기기 및 기록 매체 | |
CN111880668A (zh) | 输入显示方法、装置及电子设备 | |
CN107247518A (zh) | 多元联想输入的方法、装置、设备以及可读存储介质 | |
CN108351710A (zh) | 连续的键盘识别 | |
CN104317416B (zh) | 一种输入的方法和装置 | |
CN104077105B (zh) | 一种信息处理方法以及一种电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171103 |