Nothing Special   »   [go: up one dir, main page]

CN108055617B - 一种麦克风的唤醒方法、装置、终端设备及存储介质 - Google Patents

一种麦克风的唤醒方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN108055617B
CN108055617B CN201711316840.9A CN201711316840A CN108055617B CN 108055617 B CN108055617 B CN 108055617B CN 201711316840 A CN201711316840 A CN 201711316840A CN 108055617 B CN108055617 B CN 108055617B
Authority
CN
China
Prior art keywords
operation instruction
microphone
keyword
library
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711316840.9A
Other languages
English (en)
Other versions
CN108055617A (zh
Inventor
段武杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201711316840.9A priority Critical patent/CN108055617B/zh
Publication of CN108055617A publication Critical patent/CN108055617A/zh
Application granted granted Critical
Publication of CN108055617B publication Critical patent/CN108055617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种麦克风的唤醒方法、装置、终端设备及存储介质。该方法包括:当获取到麦克风的检测范围内的语音信号时,如果语音信号对应的分贝值在有效语音范围内,则解析语音信号的关键词;根据关键词查找麦克风的操作指令库,如果关键词与操作指令库中的指令的相似度大于等于相似阈值,则根据查找到的指令生成麦克风的操作指令,并发送给麦克风的控制器。本发明实施例解决了现有技术中当用户的双手被占据或者距外接设备的距离较远的情况下,麦克风无法实现按照用户的需求快速开启的问题,实现了按照用户的需求快速开启麦克风的相应功能,提升了用户体验。

Description

一种麦克风的唤醒方法、装置、终端设备及存储介质
技术领域
本发明实施例涉及通信技术,尤其涉及一种麦克风的唤醒方法、装置、终端设备及存储介质。
背景技术
随着人工智能技术的发展,推动了认知能力、感知能力以及自然语音输出能力这三个维度上的进步。其中,针对认知能力,基于用户行为的画像,将人机交互从“单向”关系带入了“双向关系”;针对感知能力,由触摸输入到以语音输入、图像识别为核心的全自然交互;针对自然语音输出能力,其带来了新的“语音”设计材料。同时,在一定程度上也丰富了终端设备的使用方式,如麦克风。
现有技术中均是通过物理按键的方式来开启麦克风的相应的使用功能的,这样存在着当用户的双手被占据或者距外接设备的距离较远的情况下,麦克风无法实现按照用户的需求快速开启的问题。
发明内容
本发明提供一种麦克风的唤醒方法、装置、终端设备及存储介质,以实现按照用户的需求快速开启麦克风的相应功能。
第一方面,本发明实施例提供了一种麦克风的唤醒方法,该方法包括:
当获取到麦克风的检测范围内的语音信号时,如果所述语音信号对应的分贝值在有效范围内,则解析所述语音信号的关键词;
根据所述关键词查找麦克风的操作指令库,如果所述关键词与所述操作指令库中的指令的相似度大于等于相似阈值,则根据查找到的指令生成所述麦克风的操作指令,并发送给所述麦克风的控制器。
进一步的,所述根据所述关键词查找麦克风的操作指令库,如果所述关键词与所述操作指令库中的指令的相似度大于等于相似阈值,则根据查找到的指令生成所述麦克风的操作指令,并发送给所述麦克风的控制器,包括:
根据所述关联词查找所述麦克风的操作指令库,如果根据所述关联词与所述操作指令库中的指令的相似度大于等于相似阈值,查找到至少两个操作指令,则获取当前场景信息;
根据所述场景信息与预设的应用场景与操作指令的对应关系,确定第一目标操作指令,所述第一目标操作指令属于所述至少两个操作指令;
将所述第一目标操作指令作为所述麦克风的操作指令,并发送给所述麦克风的控制器。
进一步的,所述根据所述关键词查找麦克风的操作指令库,如果所述关键词与所述操作指令库中的指令的相似度大于等于相似阈值,则根据查找到的指令生成所述麦克风的操作指令,并发送给所述麦克风的控制器,包括:
根据所述关键词查找所述麦克风的操作指令库,如果根据所述关键词与所述操作指令库中的指令的相似度大于等于相似阈值,查找到至少两个操作指令,则获取关键词的优先级信息;
根据所述关键词的优先级信息,确定第二目标操作指令,所述第二目标操作指令属于所述至少两个操作指令;
将所述第二目标操作指令作为所述麦克风的操作指令,并发送给所述麦克风的控制器。
进一步的,所述根据所述关键词查找麦克风的操作指令库之前,该方法还包括:
获取至少一个语音样本信号;
提取所述语音样本信号中的关联关键词;
基于所述关联关键词,生成所述麦克风的操作指令。
进一步的,该方法还包括:
根据所述关键词查找所述麦克风的操作指令库,如果所述关键词与所述操作指令库中的指令的相似度小于所述相似阈值,则将所述关键词保存至所述麦克风的操作指令库中并提示用户对所述麦克风的唤醒操作失败。
第二方面,本发明实施例还提供了一种麦克风的唤醒装置,该装置包括:
关键词获取模块,用于当获取到麦克风的检测范围内的语音信号时,如果所述语音信号对应的分贝值在有效语音范围内,则解析所述语音信号的关键词;
操作指令生成模块,用于根据所述关键词查找麦克风的操作指令库,如果所述关键词与所述操作指令库中的指令的相似度大于等于相似阈值,则根据查找到的指令生成所述麦克风的操作指令,并发送给所述麦克风的控制器。
进一步的,所述操作指令生成模块,包括:
场景信息获取单元,用于根据所述关键词查找所述麦克风的操作指令库,如果根据所述关键词与所述操作指令库中的指令的相似度大于等于相似阈值,查找到至少两个操作指令,则获取当前场景信息;
第一目标指令获取单元,用于根据所述场景信息与预设的应用场景与操作指令的对应关系,确定第一目标操作指令,所述第一目标操作指令属于所述至少两个操作指令;
第一操作指令生成单元,用于将所述第一目标操作指令作为所述麦克风的操作指令,并发送给所述麦克风的控制器。
进一步的,所述操作指令生成模块,包括:
优先级信息获取模块,用于根据所述关键词查找所述麦克风的操作指令库,如果根据所述关键词与所述操作指令中的指令的相似度大于等于相似阈值,查找到至少两个操作指令,则获取关键词的优先级信息;
第二目标指令获取单元,用于根据所述关键词的优先级信息,确定第二目标操作指令,所述第二目标操作指令属于所述至少两个操作指令;
第二操作指令生成单元,用于将所述第二目标操作指令作为所述麦克风的操作指令,并发送给所述麦克风的控制器。
第三方面,本发明实施例还提供了一种终端设备,该终端设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如前文所述的麦克风的唤醒方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如前文所述的麦克风的唤醒方法。
本发明通过当获取到麦克风的检测范围内的语音信号时,如果判断出语音信号对应的分贝值在有效范围内,解析语音信号中的关键词,并根据关键词查找麦克风的操作指令库,如果关键词与操作指令库中的指令的相似度大于等于相似阈值,便根据查找到的指令生成麦克风的操作指令,同时发送给麦克风的控制器,解决了现有技术中当用户的双手被占据或者距外接设备的距离较远的情况下,麦克风无法实现按照用户的需求快速开启的问题,实现了按照用户的需求快速开启麦克风的相应功能,提升了用户体验。
附图说明
图1是本发明实施例中的一种麦克风的唤醒方法的流程图;
图2是本发明实施例二中的一种麦克风的唤醒方法的流程图;
图3是本发明实施例三中的一种麦克风的唤醒方法的流程图;
图4是本发明实施例四中的一种麦克风的唤醒装置的结构示意图;
图5是本发明实施例五中的一种终端设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种麦克风的唤醒方法的流程图,本实施例可适用于快速开启麦克风的相应功能的情况,该方法可以由麦克风的唤醒装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于终端设备中,例如典型的是麦克风等。如图1所示,该方法具体包括如下步骤:
步骤S110、当获取到麦克风的检测范围内的语音信号时,如果语音信号对应的分贝值在有效语音范围内,则解析语音信号的关键词;
在本发明的具体实施例中,预设麦克风的检测范围,判断麦克风在检测范围内是否可以搜索到语音信号,其中,语音信号为用户发出的声音信号。当在检测范围内获取到了语音信号时,继续判断该语音信号是否是满足预设条件的语音信号,其中,预设条件可以为语音信号对应的分贝值在有效语音范围内,具体的,有效语音范围可以为大于预设的分贝阈值,也可以为处于预设的分贝值区间,优选的,有效语音范围为大于预设的分贝阈值。当语音信号对应的分贝值在有效语音范围内时,解析语音信号中的关键词,其中,可以利用语音识别技术,更具体的为关键词识别技术来对语音信号进行解析从而获取关键词。其中,关键词识别技术主要的实现方式有三种,其一,基于特征相似度的关键词识别方式;其二,基于语音内容的关键词识别方式;其三,基于深度学习的关键词识别方式。优选的,利用基于语音内容的关键词识别方式对语音信号进行解析获取关键词。更为具体的,关键词的实现方式可以为基于Filler模型的方法、基于音节混淆网络的识别方法或基于大规模连续语音的识别方法。当然可以理解的是,上述预设的麦克风的检测范围、有效语音范围和关键词识别方式可根据实际情况进行设定,在此不作具体限定。
示例性的,如预设麦克风的检测范围为以麦克风为中心,半径为10m的距离,用户发出的声音信号为“我想下一首播放Palette”,有效语音范围为语音信号对应的分贝值大于30分贝,关键词识别方式为基于Filler模型的方法,相应的,在该检测范围内,判断麦克风是否可以搜索到用户发出的“我想下一首播放Palette”,当在上述检测范围内搜索到了“请播放Palette”后,继续判断获取到的语音信号“我想下一首播放Palette”的分贝值是否大于30分贝,当判断出分贝值大于30分贝后,便可以利用基于Filler模型的方法对该语音信号进行解析获取关键词,如获取到的关键词为“下一首播放Palette”。
此外,只有获取到麦克风的检测范围内的语音信号,且如果语音信号对应的分贝值在有效语音范围内的话,才对语音信号进行解析,获取其中包含的关键词,减少了数据处理量的同时,也在一定程度上提高了解析的准确率。
步骤S120、根据关键词查找麦克风的操作指令库,如果关键词与操作指令库中的指令的相似度大于等于相似阈值,则根据查找到的指令生成麦克风的操作指令,并发送给麦克风的控制器。
在本发明的具体实施例中,麦克风的操作指令库中预先存储有关键词对应的指令,根据关键词在麦克风的操作指令库进行查找指令的操作,当关键词与指令的相似度大于等于相似阈值时,便可以根据查找到的指令生成对应的麦克风的操作指令,同时将该操作指令发送给麦克风的控制器,使得麦克风可以根据该操作指令进行相应的操作。其中,相似度的计算方法可以采用相关系数的计算方法。需要说明的是,上述关键词对应的指令的设置方式、相似阈值的取值大小以及相似度的计算方法均可以根据实际情况进行设定,在此不作具体限定。
示例性的,麦克风的操作指令库中预先存储有关键词“下一首播放Palette”对应的“下一首播放Palette”的指令,相似阈值设置为80%。根据步骤S110中获取到的关键词“下一首播放Palette”在麦克风的操作指令库中进行查找指令的操作,计算获取到的关键词“下一首播放Palette”与指令“下一首播放Palette”的相关系数,显而易见,上述计算得到的相关系数为100%,其大于80%,因此,可以根据查找到的指令“下一首播放Palette”生成对应的麦克风的操作指令“下一首播放Palette”,并将该操作指令发送给麦克风的控制器,由控制器控制该麦克风进行相应的操作。
本实施例的技术方案,通过当获取到麦克风的检测范围内的语音信号时,如果判断出语音信号对应的分贝值在有效范围内,解析语音信号中的关键词,并根据关键词查找麦克风的操作指令库,如果关键词与操作指令库中的指令的相似度大于等于相似阈值,便根据查找到的指令生成麦克风的操作指令,同时发送给麦克风的控制器,解决了现有技术中当用户的双手被占据或者距外接设备的距离较远的情况下,麦克风无法实现按照用户的需求快速开启的问题,实现了按照用户的需求快速开启麦克风的相应功能,提升了用户体验。
进一步的,在上述技术方案的基础上,根据关键词查找麦克风的操作指令库,如果关键词与操作指令库中的指令的相似度大于等于相似阈值,则根据查找到的指令生成麦克风的操作指令,并发送给麦克风的控制器,具体可以包括:
步骤S131、根据关键词查找麦克风的操作指令库,如果根据关键词与操作指令库中的指令的相似度大于等于相似阈值,查找到至少两个操作指令,则获取当前场景信息;
在本发明的具体实施例中,可能存在如下情形:情形一,对语音信号进行解析生成了至少两个关键词,其中,关键词与操作指令库中的指令是一对一的对应关系,即N个关键词对应N个指令。在这种情形下,可能存在查找到了至少两个满足关键词与操作指令库中的指令的相似度大于等于相似阈值这一条件的操作指令;情形二,对语音信号进行解析生成了至少一个关键词,其中,关键词与操作指令库中的指令不是一对一的对应关系,即可能是N个关键词对应M个指令,其中,N≠M。在这种情形下,也可能存在查找到了至少两个满足关键词与操作指令库中的指令的相似度大于等于相似阈值这一条件的操作指令。上述N和M均为正整数。由于查找到了至少两个操作指令,在这种情况下,需要获取当前场景信息,这里所说的当前场景信息是指用户所处的环境状态或使用时段等。示例性的,如当前场景信息为“嘈杂的室外环境”,查找到的两个操作指令分别为“请放大音量”和“请播放Palette”。
步骤S132、根据场景信息与预设的应用场景与操作指令的对应关系,确定第一目标操作指令,第一目标操作指令属于至少两个操作指令;
在本发明的具体实施例中,应用场景与操作指令的对应关系可以基于用户的使用习惯来建立,应用场景同样是指用户所处的环境状态或使用时段等,示例性的,如应用场景为“嘈杂的室外环境”,预设的与之对应的操作指令为“请放大音量”,即将“嘈杂的室外环境”与“请放大音量”建立了对应关系;应用场景为“晚间睡觉时段”,预设的与之对应的操作指令为“请播放轻音乐”,即将“晚间睡觉时段”与“请播放轻音乐”建立了对应关系。根据场景信息从预设的应用场景与操作指令的对应关系中,确定第一目标操作指令,其中,第一目标操作指令属于上述获取到的至少两个操作指令。当然可以理解的是,上述应用场景与操作指令的对应关系可以根据实际情况进行设定,在此不作具体限定。
根据步骤S131和步骤S132,示例性的,如查找到的两个操作指令分别为“请放大音量”和“请播放Palette”,当前场景信息为“嘈杂的室外环境”,由于应用场景为“嘈杂的室外环境”,预设的与之对应的操作指令为“请放大音量”,因此,确定出的第一目标操作指令为“请放大音量”。
步骤S133、将第一目标操作指令作为麦克风的操作指令,并发送给麦克风的控制器。
在本发明的具体实施例,将第一目标操作指令作为麦克风的操作指令,示例性的,如将“请放大音量”作为麦克风的操作指令,并将该操作指令发送给麦克风的控制器。麦克风的控制器用于根据该操作指令控制麦克风执行与该操作指令对应的操作,示例性的,如麦克风的操作指令为“请放大音量”,则控制器根据该操作指令控制麦克风执行“请放大音量”的操作。
通过步骤S131-步骤S133,当查找到至少两个操作指令时,获取场景信息,并根据场景信息与预设的应用场景与操作指令的对应关系,确定第一目标操作指令,解决了在满足相似度大于等于相似阈值条件下,如果获取到不止一个操作指令,如何确定麦克风的操作指令的问题,进一步提升了用户体验。
进一步的,在上述技术方案的基础上,根据关键词查找麦克风的操作指令库,如果关键词与操作指令库中的指令的相似度大于等于相似阈值,则根据查找到的指令生成麦克风的操作指令,并发送给麦克风的控制器,具体可以包括:
步骤S134、根据关键词查找麦克风的操作指令库,如果根据关键词与操作指令库中的指令的相似度大于等于相似阈值,查找到至少两个操作指令,则获取关键词的优先级信息;
在本发明的具体实施例中,在本发明的具体实施例中,可能存在如下情形:对语音信号进行解析生成了至少两个关键词,其中,关键词与操作指令库中的指令是一对一的对应关系,即N个关键词对应N个指令。在这种情形下,可能存在查找到了至少两个满足关键词与操作指令库中的指令的相似度大于等于相似阈值这一条件的操作指令。由于查找到了至少两个操作指令,在这种情况下,需要获取关键词的优先级信息,其中,关键词的优先级信息指的是为关键词按照一定顺序进行排序得到的信息,可以定义排序越靠前的关键词,其优先级等级越高,相反的,其优先级等级越低;同样也可以定义排序越靠后的关键词,其优先级等级越高,相反的,其优先级等级越低;此外,还可以按照预设规则定义关键词的优先级等级,关键词的优先级信息可以基于用户的使用习惯来建立,当然可以理解的是,关键词的优先级信息可根据实际情况进行设定,在此不作具体限定。通常关键词的优先级等级越高,该关键词对应的操作指令被确定为目标操作指令的概率越大。示例性的,解析生成了两个关键词,分别为“请打开麦克风”和“请播放下一首”,相应的,查找到的两个目标操作指令分别为“请打开麦克风”和“请播放下一首”。此外,需要说明的是,这里所说的场景信息与步骤S131中所说的场景信息指代的含义相同,在此不再赘述。
步骤S135、根据关键词的优先级信息,确定第二目标操作指令,第二操作指令属于至少两个操作指令;
在本发明的具体实施例中,根据关键词的优先级信息来确定第二目标操作指令,示例性的,如目前获取到关键词为“请打开麦克风”和“请播放下一首”,且上述两个关键词均满足关键词与操作指令库中的指令的相似度大于等于相似阈值这一条件,即对应操作指令库中的指令分别为“请打开麦克风”和“请播放下一首”;预先设定的关键词的优先级信息为:关键词“请打开麦克风”的优先级等级高于关键词“请播放下一首”,且将关键词的优先级等级最高的关键词对应的指令作为目标操作指令。基于关键词的优先级信息,确定指令“请打开麦克风”为第二目标操作指令。
步骤S136、将第二目标指令作为麦克风的操作指令,并发送给麦克风的控制器。
在本发明的具体实施中,将第二目标操作指令作为麦克风的操作指令,示例性的,如将“请打开麦克风”作为麦克风的操作指令,并将该操作指令发送给麦克风的控制器。示例性的,如麦克风的操作指令为“请打开麦克风”,则控制器根据该操作指令控制麦克风执行“请打开麦克风”的操作。
通过步骤S134-步骤S136,当查找到至少两个操作指令时,获取关键词的优先级信息,并根据关键词的优先级信息,确定第二目标操作指令,解决了在满足相似度大于等于相似阈值条件下,如果获取到不止一个操作指令,如何确定麦克风的操作指令的问题,进一步提升了用户体验。
进一步的,在上述技术方案的基础上,根据关键词查找麦克风的操作指令库之前,该方法还可以包括:
步骤S100、获取至少一个语音样本信号;
步骤S101、提取语音样本信号中的关联关键词;
步骤S102、基于关联关键词,生成麦克风的操作指令库。
在本发明的具体实施例中,语音样本信号同样为用户发出的声音信号,可以事先收集至少一个语音样本信号,该语音样本信号可以由同名用户包含不同内容的声音信号构成,也可以由不同用户包含不同内容的声音信号构成,具体构成方式,根据实际情况进行设计,在此不作具体限制。可以采用与步骤S110中相同的方法来对语音样本信号进行提取,获取语音样本信号中的关联关键词,其中,关联关键词包括“请打开麦克风”、“请播放下一首”、“请播放Palette”和“请放大音量”等。基于关联关键词生成麦克风的操作指令库。
通过步骤S100-步骤S102,从语音样本信号中提取关联关键词,并基于关联关键词,生成麦克风的操作指令库,为之后进行的查找指令操作提供依据。
进一步的,在上述技术方案的基础上,该方法还可以包括:
步骤S140、根据关键词查找麦克风的操作指令库,如果关键词与操作指令库中的指令的相似度小于相似阈值,则将关键词保存至麦克风的操作指令库中并提示用户对麦克风的唤醒操作失败。
在本发明的具体实施例中,当关键词与操作指令库中的指令的相似度小于相似阈值时,说明该关键词可能并未存储在当前的麦克风的操作指令库中,因此,可以将该关键词保存至当前麦克风的操作指令库中,用以更新该操作指令库,以便提高以后需要麦克风执行与该关键词相关的操作时的成功率。同时,提示用户对麦克风的唤醒操作失败,具体的提示方式可以是麦克风进行震动,也可以是麦克风发出警报声音,当然,具体的提示方式可以根据实际情况进行设定,在此不作具体限定。
需要说明的是,麦克风的默认状态是处于待机状态,此时只消耗少量的电量(低于30mA/h)。
实施例二
图2为本发明实施例二提供的一种麦克风的唤醒方法的流程图,本实施例可适用于快速开启麦克风的相应功能的情况,该方法可以由麦克风的唤醒装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于终端设备中,例如典型的是麦克风等。如图2所示,该方法具体包括如下步骤:
步骤S210、判断麦克风在检测范围内是否可搜索到语音信号;若是,则执行步骤S220;若否,则继续执行步骤S210;
步骤S220、判断语音信号对应的分贝值是否在有效语音范围内;若是,则执行步骤S230;若否,则继续执行步骤S220;
步骤S230、解析语音信号中的关键词;
步骤S240、根据关键词查找麦克风的操作指令库,判断关键词与操作指令库中的指令的相似度是否大于等于相似阈值;若是,则执行步骤S250;若否,则执行步骤S260;
步骤S250、查找到至少两个操作指令,则获取当前场景信息;
步骤S260、将关键词保存至麦克风的操作指令库中并提示用户对麦克风的唤醒操作失败;
步骤S270、根据场景信息与预设的应用场景与操作指令的对应关系,确定第一目标操作指令,第一目标操作指令属于至少两个操作指令;
步骤S280、将第一目标操作指令作为麦克风的操作指令,并发送给麦克风的控制器。
本实施例的技术方案,通过当获取到麦克风的检测范围内的语音信号时,如果判断出语音信号对应的分贝值在有效范围内,解析语音信号中的关键词,并根据关键词查找麦克风的操作指令库,如果关键词与操作指令库中的指令的相似度大于等于相似阈值,便根据查找到的指令生成麦克风的操作指令,同时发送给麦克风的控制器,解决了现有技术中当用户的双手被占据或者距外接设备的距离较远的情况下,麦克风无法实现按照用户的需求快速开启的问题,实现了按照用户的需求快速开启麦克风的相应功能,提升了用户体验。
实施例三
图3为本发明实施例三提供的一种麦克风的唤醒方法的流程图,本实施例可适用于快速开启麦克风的相应功能的情况,该方法可以由麦克风的唤醒装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于终端设备中,例如典型的是麦克风等。如图3所示,该方法具体包括如下步骤:
步骤S310、判断麦克风在检测范围内是否可搜索到语音信号;若是,则执行步骤S320;若否,则继续执行步骤S310;
步骤S320、判断语音信号对应的分贝值是否在有效语音范围内;若是,则执行步骤S330;若否,则继续执行步骤S320;
步骤S330、解析语音信号中的关键词;
步骤S340、根据关键词查找麦克风的操作指令库,判断关键词与操作指令库中的指令的相似度是否大于等于相似阈值;若是,则执行步骤S350;若否,则执行步骤S360;
步骤S350、查找到至少两个操作指令,则获取关键词的优先级信息;
步骤S360、将关键词保存至麦克风的操作指令库中并提示用户对麦克风的唤醒操作失败;
步骤S370、根据关键词的优先级信息,确定第二目标操作指令,第二目标操作指令属于至少两个操作指令;
步骤S380、将第二目标操作指令作为麦克风的操作指令,并发送给麦克风的控制器。
本实施例的技术方案,通过当获取到麦克风的检测范围内的语音信号时,如果判断出语音信号对应的分贝值在有效范围内,解析语音信号中的关键词,并根据关键词查找麦克风的操作指令库,如果关键词与操作指令库中的指令的相似度大于等于相似阈值,便根据查找到的指令生成麦克风的操作指令,同时发送给麦克风的控制器,解决了现有技术中当用户的双手被占据或者距外接设备的距离较远的情况下,麦克风无法实现按照用户的需求快速开启的问题,实现了按照用户的需求快速开启麦克风的相应功能,提升了用户体验。
实施例四
图4为本发明实施例四提供的一种麦克风的唤醒装置的结构示意图,本实施例可适用于快速开启麦克风的相应功能的情况,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于终端设备中,例如典型的是麦克风等。如图4所示,该装置具体包括:
关键词获取模块410,用于当获取到麦克风的检测范围内的语音信号时,如果语音信号对应的分贝值在有效语音范围内,则解析语音信号的关键词;
操作指令生成模块420,用于根据关键词查找麦克风的操作指令库,如果关键词与操作指令库中的指令的相似度大于等于相似阈值,则根据查找到的指令生成麦克风的操作指令,并发送给麦克风的控制器。
本实施例的技术方案,关键词获取模块410通过当获取到麦克风的检测范围内的语音信号时,如果判断出语音信号对应的分贝值在有效范围内,解析语音信号中的关键词,操作指令生成模块420根据关键词查找麦克风的操作指令库,如果关键词与操作指令库中的指令的相似度大于等于相似阈值,便根据查找到的指令生成麦克风的操作指令,同时发送给麦克风的控制器,解决了现有技术中当用户的双手被占据或者距外接设备的距离较远的情况下,麦克风无法实现按照用户的需求快速开启的问题,实现了按照用户的需求快速开启麦克风的相应功能,提升了用户体验。
进一步的,在上述技术方案的基础上,操作指令生成模块420具体可以包括:
场景信息获取单元,用于根据关键词查找麦克风的操作指令库,如果根据关键词与操作指令库中的指令的相似度大于等于相似阈值,查找到至少两个操作指令,则获取当前场景信息;
第一目标指令获取单元,用于根据场景信息与预设的应用场景与操作指令的对应关系,确定第一目标操作指令,第一目标操作指令属于至少两个操作指令;
第一操作指令生成单元,用于将第一目标操作指令作为麦克风的操作指令,并发送给麦克风的控制器。
进一步的,在上述技术方案的基础上,操作指令生成模块420具体可以包括:
优先级信息获取模块,用于根据关键词查找麦克风的操作指令库,如果根据关键词与操作指令库中的指令的相似度大于等于相似阈值,查找到至少两个操作指令,则获取关键词的优先级信息;
第二目标指令获取单元,用于根据关键词的优先级信息,确定第二目标操作指令,第二目标操作指令属于所述至少两个操作指令;
第二操作指令生成单元,用于将第二目标操作指令作为麦克风的操作指令,并发送给麦克风的控制器。
进一步的,在上述技术方案的基础上,该装置具体还可以包括:
语音样本信号获取模块,用于获取至少一个语音样本信号;
关联关键词提取模块,用于提取语音样本信号中的关联关键词;
操作指令库生成模块,用于基于关联关键词,生成麦克风的操作指令库。
进一步的,在上述技术方案的基础上,该装置具体还可以包括:
唤醒操作失败模块,用于根据关键词查找麦克风的操作指令库,如果关键词与操作指令库中的指令的相似度小于相似阈值,则将关键词保存至麦克风的操作指令库中并提示用户对麦克风的唤醒操作失败。
本发明实施例所提供的配置于终端设备的麦克风的唤醒装置可执行本发明任意实施例所提供的应用于终端设备的麦克风的唤醒方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种终端设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性终端设备512的框图。图5显示的终端设备512仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,终端设备512以通用计算设备的形式表现。终端设备512的组件可以包括但不限于:一个或者多个处理器516,系统存储器528,连接于不同系统组件(包括系统存储器528和处理器516)的总线518。
总线518表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
终端设备512典型地包括多种计算机系统可读介质。这些介质可以是任何能够被终端设备512访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器528可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)530和/或高速缓存存储器532。终端设备512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统534可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线518相连。存储器528可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块542的程序/实用工具540,可以存储在例如存储器528中,这样的程序模块542包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块542通常执行本发明所描述的实施例中的功能和/或方法。
终端设备512也可以与一个或多个外部设备514(例如键盘、指向设备、显示器524等)通信,还可与一个或者多个使得用户能与该终端设备512交互的设备通信,和/或与使得该终端设备512能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口522进行。并且,终端设备512还可以通过网络适配器520与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器520通过总线518与终端设备512的其它模块通信。应当明白,尽管图5中未示出,可以结合终端设备512使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器516通过运行存储在系统存储器528中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种麦克风的唤醒方法,包括:
当获取到麦克风的检测范围内的语音信号时,如果语音信号对应的分贝值在有效语音范围内,则解析语音信号的关键词;
根据关键词查找麦克风的操作指令库,如果关键词与操作指令库中的指令的相似度大于等于相似阈值,则根据查找到的指令生成麦克风的操作指令,并发送给麦克风的控制器。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的一种麦克风的唤醒方法,该方法包括:
当获取到麦克风的检测范围内的语音信号时,如果语音信号对应的分贝值在有效语音范围内,则解析语音信号的关键词;
根据关键词查找麦克风的操作指令库,如果关键词与操作指令库中的指令的相似度大于等于相似阈值,则根据查找到的指令生成麦克风的操作指令,并发送给麦克风的控制器。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (4)

1.一种麦克风的唤醒方法,其特征在于,包括:
当获取到麦克风的检测范围内的语音信号时,如果所述语音信号对应的分贝值在有效语音范围内,则解析所述语音信号的关键词;
根据所述关键词查找麦克风的操作指令库,如果所述关键词与所述操作指令库中的指令的相似度大于等于相似阈值,则根据查找到的指令生成所述麦克风的操作指令,并发送给所述麦克风的控制器;
所述根据所述关键词查找麦克风的操作指令库,如果所述关键词与所述操作指令库中的指令的相似度大于等于相似阈值,则根据查找到的指令生成所述麦克风的操作指令,并发送给所述麦克风的控制器,包括:
根据所述关键词查找所述麦克风的操作指令库,如果根据所述关键词与所述操作指令库中的指令的相似度大于等于相似阈值,查找到至少两个操作指令,则获取当前场景信息;根据所述场景信息与预设的应用场景与操作指令的对应关系,确定第一目标操作指令,所述第一目标操作指令属于所述至少两个操作指令;将所述第一目标操作指令作为所述麦克风的操作指令,并发送给所述麦克风的控制器;
所述根据所述关键词查找麦克风的操作指令库之前,还包括:获取至少一个语音样本信号;提取所述语音样本信号中的关联关键词;基于所述关联关键词,生成所述麦克风的操作指令库;
根据所述关键词查找所述麦克风的操作指令库,如果所述关键词与所述操作指令库中的指令的相似度小于所述相似阈值,则将所述关键词保存至所述麦克风的操作指令库中并提示用户对所述麦克风的唤醒操作失败。
2.一种麦克风的唤醒装置,其特征在于,包括:
关键词获取模块,用于当获取到麦克风的检测范围内的语音信号时,如果所述语音信号对应的分贝值在有效语音范围内,则解析所述语音信号的关键词;
操作指令生成模块,用于根据所述关键词查找麦克风的操作指令库,如果所述关键词与所述操作指令库中的指令的相似度大于等于相似阈值,则根据查找到的指令生成所述麦克风的操作指令,并发送给所述麦克风的控制器;
所述操作指令生成模块,包括:场景信息获取单元,用于根据所述关键词查找所述麦克风的操作指令库,如果根据所述关键词与所述操作指令库中的指令的相似度大于等于相似阈值,查找到至少两个操作指令,则获取当前场景信息;第一目标指令获取单元,用于根据所述场景信息与预设的应用场景与操作指令的对应关系,确定第一目标操作指令,所述第一目标操作指令属于所述至少两个操作指令;第一操作指令生成单元,用于将所述第一目标操作指令作为所述麦克风的操作指令,并发送给所述麦克风的控制器;
语音样本信号获取模块,用于获取至少一个语音样本信号;
关联关键词提取模块,用于提取语音样本信号中的关联关键词;
操作指令库生成模块,用于基于关联关键词,生成麦克风的操作指令库;
唤醒操作失败模块,用于根据关键词查找麦克风的操作指令库,如果关键词与操作指令库中的指令的相似度小于相似阈值,则将关键词保存至麦克风的操作指令库中并提示用户对麦克风的唤醒操作失败。
3.一种终端设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1中所述的麦克风的唤醒方法。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1中所述的麦克风的唤醒方法。
CN201711316840.9A 2017-12-12 2017-12-12 一种麦克风的唤醒方法、装置、终端设备及存储介质 Active CN108055617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711316840.9A CN108055617B (zh) 2017-12-12 2017-12-12 一种麦克风的唤醒方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711316840.9A CN108055617B (zh) 2017-12-12 2017-12-12 一种麦克风的唤醒方法、装置、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN108055617A CN108055617A (zh) 2018-05-18
CN108055617B true CN108055617B (zh) 2020-12-15

Family

ID=62124096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711316840.9A Active CN108055617B (zh) 2017-12-12 2017-12-12 一种麦克风的唤醒方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN108055617B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110648660A (zh) * 2018-06-27 2020-01-03 深圳联友科技有限公司 一种bs端的语音激活方法
CN110910869B (zh) * 2018-09-14 2022-02-18 成都启英泰伦科技有限公司 一种语音识别方法和设备
CN109493857A (zh) * 2018-09-28 2019-03-19 广州智伴人工智能科技有限公司 一种自动休眠唤醒机器人系统
CN109065060B (zh) * 2018-10-23 2021-05-07 维沃移动通信有限公司 一种语音唤醒方法及终端
CN110119083A (zh) * 2019-04-17 2019-08-13 惠州市惠泽电器有限公司 智能手表的唤醒方法
CN111429914B (zh) * 2020-03-30 2023-04-18 招商局金融科技有限公司 麦克风控制方法、电子装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615359A (zh) * 2015-02-13 2015-05-13 小米科技有限责任公司 对应用软件进行语音操作的方法及装置
CN104820556A (zh) * 2015-05-06 2015-08-05 广州视源电子科技股份有限公司 唤醒语音助手的方法及装置
CN105407433A (zh) * 2015-12-11 2016-03-16 小米科技有限责任公司 控制声音输出设备的方法及装置
CN105991820A (zh) * 2015-02-02 2016-10-05 西安酷派软件科技有限公司 终端控制方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1215658A3 (en) * 2000-12-05 2002-08-14 Hewlett-Packard Company Visual activation of voice controlled apparatus
US7188066B2 (en) * 2002-02-04 2007-03-06 Microsoft Corporation Speech controls for use with a speech system
EP2665059B1 (en) * 2011-10-25 2016-02-10 Olympus Corporation Endoscope operation system
EP2639793B1 (en) * 2012-03-15 2016-04-20 Samsung Electronics Co., Ltd Electronic device and method for controlling power using voice recognition
CN103674012B (zh) * 2012-09-21 2017-09-29 高德软件有限公司 语音定制方法及其装置、语音识别方法及其装置
CN104751852B (zh) * 2015-03-20 2018-07-24 广东小天才科技有限公司 一种声音处理的方法和装置
CN104992709B (zh) * 2015-06-25 2019-06-11 广州视源电子科技股份有限公司 一种语音指令的执行方法及语音识别设备
KR102642666B1 (ko) * 2016-02-05 2024-03-05 삼성전자주식회사 음성인식 장치 및 방법, 음성인식시스템
CN106911829B (zh) * 2017-03-09 2018-07-27 维沃移动通信有限公司 一种根据语音输入进行对象查找的方法及移动终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105991820A (zh) * 2015-02-02 2016-10-05 西安酷派软件科技有限公司 终端控制方法及装置
CN104615359A (zh) * 2015-02-13 2015-05-13 小米科技有限责任公司 对应用软件进行语音操作的方法及装置
CN104820556A (zh) * 2015-05-06 2015-08-05 广州视源电子科技股份有限公司 唤醒语音助手的方法及装置
CN105407433A (zh) * 2015-12-11 2016-03-16 小米科技有限责任公司 控制声音输出设备的方法及装置

Also Published As

Publication number Publication date
CN108055617A (zh) 2018-05-18

Similar Documents

Publication Publication Date Title
CN108055617B (zh) 一种麦克风的唤醒方法、装置、终端设备及存储介质
CN107134279B (zh) 一种语音唤醒方法、装置、终端和存储介质
KR102315732B1 (ko) 음성 인식 방법, 디바이스, 장치, 및 저장 매체
CN107622770B (zh) 语音唤醒方法及装置
KR102309540B1 (ko) 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법
CN108520743B (zh) 智能设备的语音控制方法、智能设备及计算机可读介质
WO2021093449A1 (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
CN110069608B (zh) 一种语音交互的方法、装置、设备和计算机存储介质
RU2699399C2 (ru) Система и способ обнаружения орфанных высказываний
US11830482B2 (en) Method and apparatus for speech interaction, and computer storage medium
CN110164421B (zh) 语音解码方法、装置及存储介质
JP2022013610A (ja) 音声インタラクション制御方法、装置、電子機器、記憶媒体及びシステム
WO2018045646A1 (zh) 基于人工智能的人机交互方法和装置
CN107516526B (zh) 一种声源跟踪定位方法、装置、设备和计算机可读存储介质
CN111832308B (zh) 语音识别文本连贯性处理方法和装置
US11393490B2 (en) Method, apparatus, device and computer-readable storage medium for voice interaction
US11532301B1 (en) Natural language processing
TW202022849A (zh) 語音資料的識別方法、裝置及系統
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
WO2019169722A1 (zh) 快捷键识别方法、装置、设备以及计算机可读存储介质
CN110020429B (zh) 语义识别方法及设备
CN112652304B (zh) 智能设备的语音交互方法、装置和电子设备
CN106980640B (zh) 针对照片的交互方法、设备和计算机可读存储介质
US11626107B1 (en) Natural language processing
CN112669837A (zh) 智能终端的唤醒方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant