CN112053696A - 一种语音交互的方法、装置及终端设备 - Google Patents
一种语音交互的方法、装置及终端设备 Download PDFInfo
- Publication number
- CN112053696A CN112053696A CN201910485079.4A CN201910485079A CN112053696A CN 112053696 A CN112053696 A CN 112053696A CN 201910485079 A CN201910485079 A CN 201910485079A CN 112053696 A CN112053696 A CN 112053696A
- Authority
- CN
- China
- Prior art keywords
- voice
- instruction
- voice instruction
- sent
- recording
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000003993 interaction Effects 0.000 title claims abstract description 52
- 230000004044 response Effects 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 45
- 230000006870 function Effects 0.000 claims description 36
- 230000006399 behavior Effects 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 24
- 230000005236 sound signal Effects 0.000 description 13
- 230000005055 memory storage Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明适用于语音交互技术领域,提供了一种语音交互的方法、装置及终端设备,所述方法包括:在接收到第一语音指令后,响应所述第一语音指令并进入录音状态;在录音状态,接收第二语音指令,判断所述第一语音指令与所述第二语音指令是否为同一用户发出;若所述第一语音指令与所述第二语音指令不是同一用户发出,则根据所述第二语音指令进行响应处理。通过本发明解决了由于语音交互前后的关联性使得前后语音指令为不同用户发出时,对后一用户的语音指令发出错误的响应处理的问题。
Description
技术领域
本发明属于语音交互技术领域,尤其涉及一种语音交互的方法、装置及终端设备。
背景技术
随着人工智能的飞速发展,通过语音助手与智能终端进行语音交互越来越普遍,语音助手也成为各种智能终端设备必不可少的嵌入软件。
目前,在进行语音交互过程中,接收到用户发出的语音指令后,对语音指令进行响应并进入待录音状态,继续获取用户输入的声频信息,并对声频信息进行解析,根据声频信息执行与声频信息对应的响应处理;由于语音交互过程中前后语句的关联性,在前后两条声频信息为不同用户发出时,容易导致语音助手对后一用户的声频信息发出错误的响应处理。
发明内容
有鉴于此,本发明实施例提供了一种语音交互的方法、装置及终端设备,以解决现有技术中由于语音交互过程中前后语句的关联性,前后两条声频信息为不同用户发出时对后一用户的语音指令发出错误的响应的问题。
本发明实施例的第一方面提供了一种语音交互的方法,包括:
在接收到第一语音指令后,响应所述第一语音指令并进入录音状态;
在录音状态,接收第二语音指令,判断所述第一语音指令与所述第二语音指令是否为同一用户发出;
若所述第一语音指令与所述第二语音指令不是同一用户发出,则根据所述第二语音指令进行响应处理。
在一个实施例中,在接收到第一语音指令后,响应所述第一语音指令并进入录音状态,包括:
在接收到所述第一语音指令后,初始化语音存储单元的语音数据,存储所述第一语音指令;
响应所述第一语音指令,并进入待录音状态;
在预设时间内,判断是否检测到录音行为数据,所述录音行为数据包括语音唤醒指令或触控指令;
若检测到所述录音行为数据,则进入录音状态。
在一个实施例中,在进入待录音状态之后,还包括:
若在预设时间内,没有检测到所述录音行为数据,则进入休眠状态。
在一个实施例中,判断所述第一语音指令与所述第二语音指令是否为同一用户发出,包括:
对所述第一语音指令进行声纹识别,获取所述第一语音指令的第一声纹特征;
对所述第二语音指令进行声纹识别,获取所述第二语音指令的第二声纹特征;
计算所述第一声纹特征与所述第二声纹特征的相似度;
根据所述相似度判断所述第一语音指令和所述第二语音指令是否为同一用户发出。
在一个实施例中,若所述第一语音指令与所述第二语音指令不是同一用户发出,则根据所述第二语音指令进行响应处理,包括:
若所述相似度不在预设阈值范围内,则所述第一语音指令与所述第二语音指令不是同一用户发出;
若所述第一语音指令与所述第二语音指令为不同用户发出,则初始化语音存储单元的语音数据,存储所述第二语音指令;
根据所述第二语音指令进行第一响应处理,所述第一响应处理为根据所述语音存储单元删除历史语音数据后保存的所述第二语音指令所执行的功能响应。
在一个实施例中,判断所述第一语音指令与所述第二语音指令是否为同一用户发出之后,包括:
若所述相似度在预设阈值范围内,则所述第一语音指令与所述第二语音指令是同一用户发出;
若所述第一语音指令与所述第二语音指令是同一用户发出,则存储所述第二语音指令至语音存储单元;
根据所述语音存储单元的当前语音数据,进行第二响应处理,所述当前语音数据包括当前用户的历史语音数据和所述第二语音指令,所述第二响应处理为根据所述语音存储单元中当前用户的多项语音指令所执行的功能响应。
本发明实施例的第二方面提供了一种语音交互的装置,包括:
数据接收模块,用于在接收到第一语音指令后,响应所述第一语音指令并进入录音状态;
数据处理模块,用于在录音状态,接收第二语音指令,判断所述第一语音指令与所述第二语音指令是否为同一用户发出;
数据响应模块,用于若所述第一语音指令与所述第二语音指令不是同一用户发出,则根据所述第二语音指令进行响应处理。
在一个实施例中,所述数据接收模块包括:
语音存储单元,用于在接收到所述第一语音指令后,初始化语音存储单元的语音数据,存储所述第一语音指令;根据所述第一语音指令,执行第一响应处理,并进入待录音状态;
录音行为数据检测单元,用于在预设时间内,判断是否检测到录音行为数据,所述录音行为数据包括语音唤醒指令或触控指令;
录音控制单元,用于若检测到所述录音行为数据,则进入录音状态。
本发明实施例的第三方面提供了一种端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述所述方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例通过在接收到第一语音指令后,响应第一语音指令并进入录音状态;在录音状态,接收第二语音指令,判断第一语音指令与第二语音指令是否为同一用户发出;若第一语音指令与第二语音指令不是同一用户发出,则根据第二语音指令进行响应处理;在语音交互过程中,解决了由于语音前后的关联性,在前后用户不同时,使得语音助手对后一用户的语音指令发出错误响应的问题;实现了根据前后发出语音指令的用户的异同来规划相应的功能指向,做出准确的响应处理,使得语音交互过程更加灵活和流畅,具有较强的易用性与实用性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的语音交互的方法的实现流程示意图;
图2是本发明一个实施例提供的语音交互过程中声纹识别过程的实现流程示意图;
图3是本发明一个实施例提供的语音交互方法的整体实现流程示例图;
图4是本发明一个实施例提供的语音交互装置的示意图;
图5是本发明一个实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
参见图1,是本发明一个实施例提供的语音交互方法的实现流程示意图,该方法应用于智能终端,通过语音助手实现与用户的语音交互;所述智能终端包括但不限于手机、平板、电脑等终端设备。该方法针对智能终端的语音助手,在对上一条语音指令做出响应之后,进入录音状态,并获取当前语音指令,通过对当前语音指令和上一条语音指令进行识别,判断两次相邻语音指令是否为同一用户发出,进而对响应用户指令的功能指向进行规划,例如针对不同用户发出的指令做出不同的响应处理,避免由于前后语音指令的关联性对后一不同用户发出语音指令做出错误的响应,提高语音响应的准确度和灵活度。如图所示该语音交互方法包括以下步骤:
步骤S101,在接收到第一语音指令后,响应所述第一语音指令并进入录音状态。
在本实施例中,在终端设备的语音助手开启后,在录音状态接收用户输入的第一语音指令,第一语音指令为在语音助手开启状态下第一位用户发出的指令;接收到第一语音指令后,对语音助手在接收第一语音指令之前存储的语音指令进行初始化,删除之前的语音指令,存储当前第一语音指令,并对当前第一语音指令进行解析,做出与第一语音指令对应的响应,例如第一语音指令为“打电话”,则语音助手会做出“打电话给谁”的询问响应,再进一步等待下一语音指令。在响应第一语音指令后,语音助手会再次进入录音状态,等待接收下一语音指令,下一语音指令可能为第一位用户继续发出的语音指令,也可能为另外一位用户发出的语音指令。
可选的,在接收到第一语音指令后,响应所述第一语音指令并进入录音状态,包括:
A1、在接收到所述第一语音指令后,初始化语音存储单元的语音数据,存储所述第一语音指令;
A2、响应所述第一语音指令,并进入待录音状态。
在本实施例中,语音助手需要根据记忆存储单元所存储的内容进行功能指向的规划,进而对语音指令做出响应;记忆存储单元所存储的内容根据用户发出的语音指令生成。语音助手在接收到用户发出的第一条语音指令后,记忆存储单元会根据接收的第一条语音指令的内容进行记忆存储内容的初始化,对记忆存储单元所存储的内容进行综合解析处理,做出对第一条语音指令的响应。在响应第一条语音指令后,语音助手在固定的时间内处于待录音状态,即录音开关处于未开启的状态。
A3、在预设时间内,判断是否检测到录音行为数据,所述录音行为数据包括语音唤醒指令或触控指令;
A4、若检测到所述录音行为数据,则进入录音状态。
在本实施例中,对第一位用户发出的第一语音指令做出响应之后,语音助手会进入待录音状态,所述的待录音状态为录音开关未打开的状态;所述的预设时间根据语音助手进入休眠状态的最长时间与可检测到语音所需的最短时间进行设定,并将语音助手进入休眠状态的最长时间与可检测到语音所需的最短时间之差作为预设时间的大小。另外,预设时间还可以根据记录的历史语音交互的时间信息,综合分析语音交互过程中,语音助手由待录音状态进入录音状态的时间间隔,根据历史时间间隔对预设时间进行设定;还可以根据用户的语音交互习惯进行历史数据的统计,对预设时间进行可调节的设定。
录音行为数据包括语音数据,例如通过设定固定的唤醒词作为语音唤醒指令;针对带有触控功能的终端设备,录音行为数据还可以包括通过触摸屏显示的录音控件输入的触发信号;针对遥控式终端设备,录音行为数据还可以包括通过遥控按键输入的触发信号。语音助手在待录音状态可以检测周围环境中是否有足够分贝的语音,或是否接收到用户输入的触发信号。在检测录音行为数据时,检测到的语音可以是第一位用户发出的与第一语音指令相关联的语音内容,也可以是不同于第一位用户的其他用户发出的语音内容;其他用户发出的语音内容可以是打开录音开关的语音数据固定语音内容,也可以是任意内容,具体根据应用场景进行设定,例如针对家用或个人应用的终端设备可以对打开录音开关设定相应的固定内容的语音数据,针对公共应用场所则可以不局限该打开录音开关的语音数据的具体内容。
需要说明的是,录音行为数据包括语音唤醒指令或触控指令,语音助手通过音频采集单元,检测在预设时间内是否有语音输入;或者语音助手通过触控信号采集单元检测在预设时间内是否有通过触屏或遥控输入的触控指令。在语音助手的待录音状态,通过语音触发语音助手的录音开关,使语音助手进入录音状态,免去了通过手动触控打开录音开关的操作,使语音交互更加便捷、灵活。
可选的,在进入待录音状态之后,还包括:
若在预设时间内,没有检测到所述录音行为数据,则进入休眠状态。
在本实施例中,语音助手的待录音状态超过预设时间,则自动进入休眠状态,以节省电能和硬件的消耗。休眠状态可以是语音助手隐藏至终端设备的后台,在终端设备显示界面不可见的状态。
步骤S102,在录音状态,接收第二语音指令,判断所述第一语音指令与所述第二语音指令是否为同一用户发出。
在本实施例中,录音行为数据包括语音唤醒指令或触控指令,语音助手的音频采集单元检测到语音数据时,直接触发语音助手的录音开关,使得语音助手处于录音状态。
所获取的用户发出的第二语音指令为在录音状态,通过麦克风或其它音频采集设备直接接收用户输入的语音指令,所述第二语音指令可能为第一用户继续发出的语音指令,也可能为其它用户发出的语音指令。
对比存储的第一语音指令与接收到的第二语音指令,判断第一语音指令与第二语音指令是否为同一用户发出;具体的可以通过对前后相邻的两次语音数据进行声纹识别,根据声纹相似度判断相邻两次语音指令是否为同一用户发出。
可选的,如图2所示的语音交互过程中声纹识别过程的实现流程示意图,在接收到第一条语音指令后会初始化语音存储单元的语音数据,保存第一语音指令至语音存储单元,响应第一语音指令;在对第一条语音指令响应结束后,语音助手会进入待录音状态;通过检测语音,触发录音开关,进入录音状态,获取用户当前输入的第二语音指令,通过第二语音指令与上一条语音指令进行声纹识别,判定两次语音指令是否为同一用户发出。具体的,判断所述第一语音指令与所述第二语音指令是否为同一用户发出,包括:
步骤S201,对所述第一语音指令进行声纹识别,获取所述第一语音指令的第一声纹特征。
步骤S202,对所述第二语音指令进行声纹识别,获取所述第二语音指令的第二声纹特征。
在本实施例中,对第一语音指令和第二语音指令进行声纹识别,分别对第一语音指令和第二语音指令进行音频预处理。
获取第一语音指令和第二语音指令,分别对第一语音指令和第二语音指令进行预加重处理,提高语音指令的高频部分,增加语音的高频分辨率,使得音频信号的频谱特征趋于平坦;在音频信号的局部呈现为近似平坦的频谱特征,对局部音频信号进行分帧处理,获取相应的平稳的音频信号;在分帧处理后,对每帧音频信号进行加窗处理,使得分帧后的音频信号更加连续,每一帧音频信号出现周期函数的特征;对经过加窗处理的音频信号的进行快速傅里叶变换,以提取音频信号在时域上比较明显的特征;将提取的特征加入滤波器组,对音频信号的频谱进行平滑处理,其中滤波器组可以选择基于MATLAB和Python的MEL滤波器组;对经过平滑处理的音频信号进行对数运算和离散余弦变换(Discrete CosineTransform,DCT),提取梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC),获取通道归一化梅尔频谱图(Per-channel normalized mel-spectrograms,PCEN),以提取语音指令的梅尔频率倒谱系数MFCC语音特征;还可以是其它语音特征,例如基于声道的线性预测倒谱系数LPCC(Linear Prediction Cepstrum Coefficient)语音特征和基于听觉特性的梅尔频率倒谱系数MFCC语音特征;基于声道的线性预测倒谱系数LPCC(LinearPrediction Cepstrum Coefficient)语音特征能够完全消除激励信息对声纹识别的影响,梅尔频率倒谱系数MFCC语音特征为基于人耳听觉与频率的关系来提取的语音特征。
在本实施例中,将第一语音指令和第二语音指令的通道归一化梅尔频谱(Per-channel normalized mel-spectrograms,PCEN)特征输入到神经网络模型中,神经网络模型可以选择循环神经网络RNN(Recurrent Neural Network),但不仅限于循环神经网络RNN,还可以包括卷积神经网络CNN;通过循环神经网络RNN模型对音频信号的上下文信息进行叠加,获取高精度的语音特征,进一步将音频信号加入注意力机制和池化层,以分别提取第一语音指令和第二语音指令的声纹特征。
步骤S203,计算所述第一声纹特征与所述第二声纹特征的相似度。
步骤S204,根据所述相似度判断所述第一语音指令和所述第二语音指令是否为同一用户发出。
在本实施例中,将提取的第一声纹特征和第二声纹特征用余弦相似度函数进行计算,得出第一声纹特征与第二声纹特征的相似度得分。设定相似度阈值,通过将得到的相似度得分与相似度阈值进行比较,以判断前一条语音指令与当前语音指令是否为同一用户发出。
通过对语音指令的预处理,采用基于循环神经网络RNN(Recurrent NeuralNetwork)高效的机器学习模型,并加入注意力机制以及池化层,以及通过相似函数的计算,实现对语音指令高精度的识别,准确判定前后两次发出的语音指令者是否为同一用户。
可选的,判断所述第一语音指令与所述第二语音指令是否为同一用户发出之后,包括:
B1、若所述相似度在预设阈值范围内,则所述第一语音指令与所述第二语音指令是同一用户发出;
B2、若所述第一语音指令与所述第二语音指令是同一用户发出,则存储所述第二语音指令至语音存储单元;
B3、根据所述语音存储单元的当前语音数据,进行第二响应处理,所述当前语音数据包括当前用户的历史语音数据和所述第二语音指令,所述第二响应处理为根据所述语音存储单元中当前用户的多项语音指令所执行的功能响应。
在本实施例中,若第一语音指令与第二语音指令为不同用户发出,则清空语音存储单元之前的内容,将第二语音指令添加为本次记忆存储内容。根据语音存储单元本次记忆存储的内容,进行对第二语音指令的响应;为了避免由于在语音存储单元中语音指令上下文的关联性,使得对前后不同用户发出的语音指令做出错误的响应,在前后不同用户发出语音指令时,将缓存在语音存储单元的上一用户语音指令对应的内容清空,由当前用户发出的语音指令重新初始化记忆存储单元的内容,根据当前用户语音指令对应的记忆存储内容进行当前用户语音指令的响应。
步骤S103,若所述第一语音指令与所述第二语音指令不是同一用户发出,则根据所述第二语音指令进行响应处理。
在本实施例中,若第二语音指令与第一语音指令为不同用户发出,则根据第二语音指令对语音存储单元的语音数据进行初始化,更新语音存储单元所存储的内容;删除第一语音指令,存储第二语音指令,根据第二语音指令执行相应的功能处理;例如,第一语音指令为“打电话”,语音助手会响应询问,“打电话给谁”,第二语音指令会回复“张三”,如果第二语音指令与第一语音指令来自同一用户,则按正常打电话流程,调用电话功能并读取张三的联系方式,给张三打电话;如不是同一用户,对于第二语音指令命令,语音助手将删除语音存储单元原有存储内容,保存第二语音指令,只对第二语音指令的人名进行功能规划,做出响应处理,显示关于张三的信息,等待下一条指令。
需要说明的是,更新后的语音存储单元的内容,只针对用户发出的当前语音指令,与上一用户发出语音指令的内容不关联,从而避免做出错误指向的功能规划;用户通过语音启动语音助手的录音功能,使的语音交互过程更加流畅、简便。
另外,根据语音存储单元新的存储内容,规划功能指向,完成对语音指令的响应,执行相应的操作。对于每次的指令,语音助手都会综合语音存储单元中的内容,对当前语音指令进行响应,在相邻前后语音指令为同一用户发出时,会根据前后指令消息来响应;对于同一用户的多条指令进行综合响应,实现了语音响应功能的延展,对于不同用户发出的语音指令,针对最后一位用户发出的语音指令进行重新规划功能范围,做出准确的响应,使得语音交互过程更加灵活。
另外,语音助手响应指令之后再次进入待录音状态,循环以上操作。
由于语音助手对每次指令的响应,都会综合语音存储单元的内容,根据存储的内容响应当前语音指令;针对不同用户发出的语音指令,则重新规划功能指向的范围;因此对每次的语音指令以及相邻前一次的语音指令进行声纹识别,判定当前语音指令与相邻前一次语音指令是否为同一用户发出,以免对当前语音指令做出错误的响应或功能指向。
如图3所示本发明一个实施例提供的语音交互方法的整体实现流程示例图;该语音交互方法的整体实现流程图中的步骤与图1或图2中相应的步骤的实现原理相同,在此不再赘述,如图所示,该语音交互方法的整体实现流程图包括:
步骤S301,接收用户发出的第一语音指令。
在本实施例中,此处所接收用户发出的第一语音指令可以为第一条语音指令。
步骤S302,根据所述第一语音指令初始化语音存储单元存储的内容。
在本实施例中,在接收到用户发出的第一条语音指令后,根据语音指令将语音存储单元进行初始化,以免记忆存储单元存储有之前的内容,影响本次语音指令的响应。
步骤S303,综合语音存储单元的内容,响应第一语音指令,并进入待录音状态。
在本实施例中,对语音存储单元的内容进行综合分析,并响应语音指令,在响应语音指令结束后,语音助手进入待录音状态。
步骤S304,在待录音状态时,预设时间内,判断是否检测到录音行为数据。
步骤S305,若在所述预设时间内,没有检测到录音行为数据,则进入休眠状态。
在本实施例中,若语音助手处于待录音状态的时间超过设定的时间,则进入休眠状态,隐藏至终端设备的后端或其它不可见状态。
步骤S306,若检测到录音行为数据,则触发录音开关,获取用户发出的第二语音指令。
步骤S307,对所述第一语音指令和所述第二语音指令进行声纹识别,以判断所述第一语音指令与所述第二语义指令是否为同一用户发出。
在本实施例中,对于首次语音指令发出后的每一次语音指令,语音助手都会通过声纹识别,对当前获取的语音指令与上一条语音指令进行识别判断,以判断是否为同一用户发出。
步骤S308,若所述第二语音指令与相邻的所述第一语音指令为同一用户发出,则将所述第二语音指令添加到语音存储单元。
在本实施例中,若前后两条相邻的语音指令为同一用户发出的,则直接将当前的语音指令添加到语音助手的语音存储单元,综合语音存储单元的内容,针对前后语音指令为同一用户发出的语音指令,结合上下文,对当前语音指令进行响应,实现对同一用户的功能执行的延展;对于不同用户发出的语音指令,针对最后一位用户发出的语音指令进行重新规划功能范围;语音助手响应指令之后再次进入待录音状态,循环以上操作。
若所述当前语音指令与相邻的上一条语音指令为不同用户发出,则执行步骤S302,根据所述语音指令初始化语音存储单元的内容,清空语音存储单元之前的内容,依据当前语音指令对应的内容进行响应;语音助手响应指令之后再次进入待录音状态,循环以上操作。
需要说明的是,本领域技术人员在本发明揭露的技术范围内,可容易想到的其他排序方案也应在本发明的保护范围之内,在此不一一赘述。
通过本实施例,本发明实施例通过在语音助手处于待录音状态时,在预设时间内,判断是否检测到录音行为数据;若检测到所述录音行为数据,则触发录音开关,获取用户发出的当前语音指令;若所述当前语音指令与相邻的上一条语音指令为不同用户发出,则将所述当前语音指令作为本次语音内容存储至语音存储单元;根据语音存储单元的内容,规划相应的功能指向。
通常用户在使用语音助手进行语音交互过程中,每次输入语音指令之前,均需要用户通过手触摸屏或者遥控触发语音助手由待录音状态进入录音状态,在进行多次语音交互或输入多条语音指令时,需要用户进行多次触控操作,通过本发明实施例,在用户每次输入语音指令之前,通过语音即可触发语音助手由待录音状态进入录音状态,不再需要多次触控操作触发语音助手,从而解决了用户在语音交互过程中触发录音操作繁琐与不便的问题,使得语音交互过程更加便捷;由于语音前后的关联性,在前后用户不同时,避免了使得语音助手对后一用户的语音指令发出错误响应的问题;实现了根据语音触发语音助手的录音开关,以及根据前后发出语音指令的用户的异同来规划功能指向,使得语音交互过程更加便捷、灵活和流畅。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例二
参见图4,是本发明一个实施例提供的语音交互装置的示意图,为了便于说明,仅示出了与本发明实施例相关的部分。
所述语音交互装置包括:
数据接收模块41,用于在接收到第一语音指令后,响应所述第一语音指令并进入录音状态;
数据处理模块42,用于在录音状态,接收第二语音指令,判断所述第一语音指令与所述第二语音指令是否为同一用户发出;
数据响应模块43,用于若所述第一语音指令与所述第二语音指令不是同一用户发出,则根据所述第二语音指令进行响应处理。
通过本实施例,本发明实施例通过在语音助手处于待录音状态时,在预设时间内,判断是否检测到录音行为数据;若检测到所述录音行为数据,则触发录音开关,获取用户发出的当前语音指令;若所述当前语音指令与相邻的上一条语音指令为不同用户发出,则将所述当前语音指令作为本次语音内容存储至语音存储单元;根据语音存储单元的内容,规划相应的功能指向。通常用户在使用语音助手进行语音交互过程中,每次输入语音指令之前,均需要用户通过手触摸屏或者遥控触发语音助手由待录音状态进入录音状态,在进行多次语音交互或输入多条语音指令时,需要用户进行多次触控操作,通过本发明实施例,在用户每次输入语音指令之前,通过语音即可触发语音助手由待录音状态进入录音状态,不再需要多次触控操作触发语音助手,从而解决了用户在语音交互过程中触发录音操作繁琐与不便的问题,使得语音交互过程更加便捷;由于语音前后的关联性,在前后用户不同时,避免了使得语音助手对后一用户的语音指令发出错误响应的问题;实现了根据语音触发语音助手的录音开关,以及根据前后发出语音指令的用户的异同来规划功能指向,使得语音交互过程更加便捷、灵活和流畅。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述移动终端的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述移动终端中模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
实施例三
图5是本发明一实施例提供的终端设备的示意图。如图5所示,该实施例的终端设备5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52。所述处理器50执行所述计算机程序52时实现上述各个语音交互方法实施例中的步骤,例如图1所示的步骤101至103。或者,所述处理器50执行所述计算机程序52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块41至43的功能。
示例性的,所述计算机程序52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序52在所述终端设备5中的执行过程。例如,所述计算机程序52可以被分割成数据接收模块、数据处理模块以及数据响应模块,各模块具体功能如下:
数据接收模块,用于在接收到第一语音指令后,响应所述第一语音指令并进入录音状态;
数据处理模块,用于在录音状态,接收第二语音指令,判断所述第一语音指令与所述第二语音指令是否为同一用户发出;
数据响应模块,用于若所述第一语音指令与所述第二语音指令不是同一用户发出,则根据所述第二语音指令进行响应处理。
所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端设备5的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音交互的方法,其特征在于,所述方法包括:
在接收到第一语音指令后,响应所述第一语音指令并进入录音状态;
在录音状态,接收第二语音指令,判断所述第一语音指令与所述第二语音指令是否为同一用户发出;
若所述第一语音指令与所述第二语音指令不是同一用户发出,则根据所述第二语音指令进行响应处理。
2.如权利要求1所述的语音交互的方法,其特征在于,在接收到第一语音指令后,响应所述第一语音指令并进入录音状态,包括:
在接收到所述第一语音指令后,初始化语音存储单元的语音数据,存储所述第一语音指令;
响应所述第一语音指令,并进入待录音状态;
在预设时间内,判断是否检测到录音行为数据,所述录音行为数据包括语音唤醒指令或触控指令;
若检测到所述录音行为数据,则进入录音状态。
3.如权利要求2所述的语音交互的方法,其特征在于,在进入待录音状态之后,还包括:
若在预设时间内,没有检测到所述录音行为数据,则进入休眠状态。
4.如权利要求1所述的语音交互的方法,其特征在于,判断所述第一语音指令与所述第二语音指令是否为同一用户发出,包括:
对所述第一语音指令进行声纹识别,获取所述第一语音指令的第一声纹特征;
对所述第二语音指令进行声纹识别,获取所述第二语音指令的第二声纹特征;
计算所述第一声纹特征与所述第二声纹特征的相似度;
根据所述相似度判断所述第一语音指令和所述第二语音指令是否为同一用户发出。
5.如权利要求4所述的语音交互的方法,其特征在于,若所述第一语音指令与所述第二语音指令不是同一用户发出,则根据所述第二语音指令进行响应处理,包括:
若所述相似度不在预设阈值范围内,则所述第一语音指令与所述第二语音指令不是同一用户发出;
若所述第一语音指令与所述第二语音指令为不同用户发出,则初始化语音存储单元的语音数据,存储所述第二语音指令;
根据所述第二语音指令进行第一响应处理,所述第一响应处理为根据所述语音存储单元删除历史语音数据后保存的所述第二语音指令所执行的功能响应。
6.如权利要求4所述的语音交互的方法,其特征在于,判断所述第一语音指令与所述第二语音指令是否为同一用户发出之后,包括:
若所述相似度在预设阈值范围内,则所述第一语音指令与所述第二语音指令是同一用户发出;
若所述第一语音指令与所述第二语音指令是同一用户发出,则存储所述第二语音指令至语音存储单元;
根据所述语音存储单元的当前语音数据,进行第二响应处理,所述当前语音数据包括当前用户的历史语音数据和所述第二语音指令,所述第二响应处理为根据所述语音存储单元中当前用户的多项语音指令所执行的功能响应。
7.一种语音交互的装置,其特征在于,包括:
数据接收模块,用于在接收到第一语音指令后,响应所述第一语音指令并进入录音状态;
数据处理模块,用于在录音状态,接收第二语音指令,判断所述第一语音指令与所述第二语音指令是否为同一用户发出;
数据响应模块,用于若所述第一语音指令与所述第二语音指令不是同一用户发出,则根据所述第二语音指令进行响应处理。
8.如权利要求7所述的语音交互的装置,其特征在于,所述数据接收模块包括:
语音存储单元,用于在接收到所述第一语音指令后,初始化语音存储单元的语音数据,存储所述第一语音指令;根据所述第一语音指令,执行第一响应处理,并进入待录音状态;
录音行为数据检测单元,用于在预设时间内,判断是否检测到录音行为数据,所述录音行为数据包括语音唤醒指令或触控指令;
录音控制单元,用于若检测到所述录音行为数据,则进入录音状态。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910485079.4A CN112053696A (zh) | 2019-06-05 | 2019-06-05 | 一种语音交互的方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910485079.4A CN112053696A (zh) | 2019-06-05 | 2019-06-05 | 一种语音交互的方法、装置及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112053696A true CN112053696A (zh) | 2020-12-08 |
Family
ID=73609312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910485079.4A Pending CN112053696A (zh) | 2019-06-05 | 2019-06-05 | 一种语音交互的方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112053696A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105847520A (zh) * | 2016-05-19 | 2016-08-10 | 北京小米移动软件有限公司 | 实现通话过程中录音的方法及装置 |
CN106653021A (zh) * | 2016-12-27 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 语音唤醒的控制方法、装置及终端 |
CN107066229A (zh) * | 2017-01-24 | 2017-08-18 | 广东欧珀移动通信有限公司 | 录音的方法及终端 |
CN107680591A (zh) * | 2017-09-21 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 基于车载终端的语音交互方法、装置及其设备 |
CN107958668A (zh) * | 2017-12-15 | 2018-04-24 | 中广热点云科技有限公司 | 智能电视的声控选播方法、声控选播系统 |
CN108694947A (zh) * | 2018-06-27 | 2018-10-23 | Oppo广东移动通信有限公司 | 语音控制方法、装置、存储介质及电子设备 |
CN108766438A (zh) * | 2018-06-21 | 2018-11-06 | Oppo广东移动通信有限公司 | 人机交互方法、装置、存储介质及智能终端 |
CN109040444A (zh) * | 2018-07-27 | 2018-12-18 | 维沃移动通信有限公司 | 一种通话录音方法、终端及计算机可读存储介质 |
CN109559741A (zh) * | 2017-09-27 | 2019-04-02 | 浙江苏泊尔家电制造有限公司 | 烹饪方法及装置、烹饪系统 |
-
2019
- 2019-06-05 CN CN201910485079.4A patent/CN112053696A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105847520A (zh) * | 2016-05-19 | 2016-08-10 | 北京小米移动软件有限公司 | 实现通话过程中录音的方法及装置 |
CN106653021A (zh) * | 2016-12-27 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 语音唤醒的控制方法、装置及终端 |
CN107066229A (zh) * | 2017-01-24 | 2017-08-18 | 广东欧珀移动通信有限公司 | 录音的方法及终端 |
CN107680591A (zh) * | 2017-09-21 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 基于车载终端的语音交互方法、装置及其设备 |
CN109559741A (zh) * | 2017-09-27 | 2019-04-02 | 浙江苏泊尔家电制造有限公司 | 烹饪方法及装置、烹饪系统 |
CN107958668A (zh) * | 2017-12-15 | 2018-04-24 | 中广热点云科技有限公司 | 智能电视的声控选播方法、声控选播系统 |
CN108766438A (zh) * | 2018-06-21 | 2018-11-06 | Oppo广东移动通信有限公司 | 人机交互方法、装置、存储介质及智能终端 |
CN108694947A (zh) * | 2018-06-27 | 2018-10-23 | Oppo广东移动通信有限公司 | 语音控制方法、装置、存储介质及电子设备 |
CN109040444A (zh) * | 2018-07-27 | 2018-12-18 | 维沃移动通信有限公司 | 一种通话录音方法、终端及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN102568478B (zh) | 一种基于语音识别的视频播放控制方法和系统 | |
CN108899037B (zh) | 动物声纹特征提取方法、装置及电子设备 | |
CN107702706B (zh) | 路径确定方法、装置、存储介质及移动终端 | |
CN108346427A (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN112233698B (zh) | 人物情绪识别方法、装置、终端设备及存储介质 | |
CN110544473B (zh) | 语音交互方法和装置 | |
CN113488024B (zh) | 一种基于语义识别的电话打断识别方法和系统 | |
CN109947971B (zh) | 图像检索方法、装置、电子设备及存储介质 | |
CN113129867B (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
CN108831508A (zh) | 语音活动检测方法、装置和设备 | |
CN114127849A (zh) | 语音情感识别方法和装置 | |
CN110491373A (zh) | 模型训练方法、装置、存储介质及电子设备 | |
CN109977426A (zh) | 一种翻译模型的训练方法、装置以及机器可读介质 | |
CN109360551B (zh) | 一种语音识别方法及装置 | |
CN109688271A (zh) | 联系人信息输入的方法、装置及终端设备 | |
CN112017670B (zh) | 一种目标账户音频的识别方法、装置、设备及介质 | |
CN110706707A (zh) | 用于语音交互的方法、装置、设备和计算机可读存储介质 | |
CN108628819A (zh) | 处理方法和装置、用于处理的装置 | |
CN111400463A (zh) | 对话响应方法、装置、设备和介质 | |
CN108989551B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN114595692A (zh) | 一种情绪识别方法、系统及终端设备 | |
CN112053696A (zh) | 一种语音交互的方法、装置及终端设备 | |
CN111477248A (zh) | 一种音频噪声检测方法及装置 | |
CN109064720B (zh) | 位置提示方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201208 |
|
RJ01 | Rejection of invention patent application after publication |