Nothing Special   »   [go: up one dir, main page]

CN109102801A - 语音识别方法和语音识别装置 - Google Patents

语音识别方法和语音识别装置 Download PDF

Info

Publication number
CN109102801A
CN109102801A CN201710466754.XA CN201710466754A CN109102801A CN 109102801 A CN109102801 A CN 109102801A CN 201710466754 A CN201710466754 A CN 201710466754A CN 109102801 A CN109102801 A CN 109102801A
Authority
CN
China
Prior art keywords
operator
acoustic feature
voice
identification
feature collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710466754.XA
Other languages
English (en)
Inventor
杨向东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN201710466754.XA priority Critical patent/CN109102801A/zh
Priority to US16/327,319 priority patent/US11355124B2/en
Priority to PCT/CN2018/076031 priority patent/WO2018233300A1/zh
Publication of CN109102801A publication Critical patent/CN109102801A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开提供了一种语音识别方法及语音识别装置。所述语音识别方法包括以下操作:获取操作者的身份识别结果;基于操作者的身份识别结果,获取与所述操作者相对应的声学特征集;以及基于所获取的声学特征集,从所接收的声音中识别出所述操作者的语音。

Description

语音识别方法和语音识别装置
技术领域
本公开涉及语音识别领域,具体地涉及一种语音识别方法和一种语音识别装置。
背景技术
基于语音识别的语音控制技术正在得到越来越广泛的应用,然而,由于噪音或非控制人员发出的声音的存在,对控制人员的语音识别以及相应的语音控制操作会受到影响。因此,在对精确性、安全性要求较高的场景中,语音控制技术受到了相当大的限制。尤其是在狭小空间内,存在多个人员或较大噪音的情况下,控制者难以辨识,可能导致误操作或产生危险。比如,在车辆驾驶场景中,由于车内空间相对狭小,各个位置发出的声音都可能对车载系统的语音控制产生影响,这会严重影响驾驶安全。
发明内容
为了解决现有技术中存在的至少上述问题,本公开提出了一种语音识别方法及语音识别装置。
根据本公开的一个方面,提供了一种语音识别方法。所述语音识别方法包括:获取操作者的身份识别结果;基于操作者的身份识别结果,获取与所述操作者相对应的声学特征集;以及基于所获取的声学特征集,从所接收的声音中识别出所述操作者的语音。
在一个实施例中,在获取操作者的身份识别结果的步骤之前,所述语音识别方法还包括判断环境状态。所述获取操作者的身份识别结果的步骤还包括:根据所述环境状态,获取操作者的身份识别结果。
在一个实施例中,所述语音识别方法还包括:在预设时段内未获得身份识别的结果时,发出身份识别提醒。
在一个实施例中,所述语音识别方法还包括:为所述操作者创建身份,并为所述操作者建立相对应的声学特征集。
在一个实施例中,为所述操作者建立相对应的声学特征集包括:接收所述操作者的语音;从所接收的语音中提取所述操作者的声学特征;以及根据所提取的声学特征,建立与所述操作者相对应的声学特征集。
在一个实施例中,为所述操作者建立相对应的声学特征集包括:接收所述操作者的语音;向服务器发送所接收的语音;以及从服务器接收与所述操作者相对应的声学特征集。
在一个实施例中,从所接收的声音中识别出所述操作者的语音的步骤还包括:从所接收的声音提取声学特征;将所提取的声学特征与所获取的与所述操作者相对应的声学特征集进行匹配;如果匹配,则将所接收的声音识别为所述操作者的语音。
在一个实施例中,将所提取的声学特征与所获取的与所述操作者相对应的声学特征集进行匹配的步骤包括:基于所获取的与所述操作者相对应的声学特征集,计算所提取的声学特征的最大似然概率;当计算出的概率大于第一阈值时,确定所提取的声学特征与所述操作者的声学特征集匹配。
在一个实施例中,所述语音识别方法还包括:当计算出的概率大于第一阈值但小于第二阈值时,以所提取的声学特征更新所述操作者的声学特征集。
在一个实施例中,所述语音识别方法还包括:从所述操作者的语音中识别出将要执行的操作。
根据本公开的另一方面,还提出了一种语音识别装置。该语音识别装置包括:声音输入单元,用于接收声音;身份识别结果获取单元,用于获取操作者的身份识别结果;声学特征集获取单元,用于基于操作者的身份识别结果,获取与所述操作者相对应的声学特征集;以及声学识别单元,用于基于所获取的声学特征集,从所接收的声音中识别出所述操作者的语音。
在一个实施例中,所述语音识别装置还包括:环境状态判断单元,用于判断环境状态。所述身份识别结果获取单元还被配置为根据所述环境状态进行获取操作者的身份识别结果的操作。
在一个实施例中,所述语音识别装置还包括:身份识别提醒单元,用于在预设时段内未获得身份识别的结果时,发出身份识别提醒。
在一个实施例中,所述语音识别装置还包括:身份创建单元,用于为所述操作者创建身份,并为所述操作者建立相对应的声学特征集。
在一个实施例中,所述身份创建单元还被配置为:接收所述操作者的语音;从所接收的语音中提取所述操作者的声学特征;以及根据所提取的声学特征,建立与所述操作者相对应的声学特征集。
在一个实施例中,所述身份创建单元还被配置为:接收所述操作者的语音;向服务器发送所接收的语音;以及从服务器接收与所述操作者相对应的声学特征集。
在一个实施例中,所述声学识别单元还被配置为:从所接收的声音提取声学特征;将所提取的声学特征与所获取的与所述操作者相对应的声学特征集进行匹配;如果匹配,则将所接收的声音识别为所述操作者的语音。
在一个实施例中,所述声学识别单元还被配置为:基于所获取的与所述操作者相对应的声学特征集,计算所提取的声学特征的最大似然概率;当计算出的概率大于第一阈值时,确定所提取的声学特征与所述操作者的声学特征集匹配。
在一个实施例中,所述语音识别装置还包括:更新单元,用于当计算出的概率大于第一阈值但小于第二阈值时,以所提取的声学特征更新所述操作者的声学特征集。
在一个实施例中,所述语音识别装置还包括:指令识别单元,用于从所述操作者的语音中识别出将要执行的操作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,图中:
图1A示出了根据本公开实施例的车辆语音控制网络的网络架构;
图1B示出了根据本公开实施例的针对网络架构中的车辆的车内语音控制场景;
图2示出了根据本公开实施例的语音识别装置的结构框图;以及
图3示出了根据本公开实施例的语音识别方法的流程图。
具体实施方式
下面将详细描述本公开的具体实施例,应当注意,这里描述的实施例只用于举例说明,并不用于限制本公开。在以下描述中,为了提供对本公开的透彻理解,阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本公开。在其他实例中,为了避免混淆本公开,未具体描述公知的电路、材料或方法。
在整个说明书中,对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着:结合该实施例或示例描述的特定特征、结构或特性被包含在本公开至少一个实施例中。因此,在整个说明书的各个地方出现的短语“在一个实施例中”、“在实施例中”、“一个示例”或“示例”不一定都指同一实施例或示例。此外,可以以任何适当的组合和/或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。
应该理解的是,本公开提出的语音识别装置和语音识别方法可以应用于各种能够进行语音识别的场景,比如,家用电器控制、工业机械操作、车辆驾驶等等,本公开在此并不进行限制。本公开的语音识别装置和语音识别方法尤其适用于需要特定操作者对目标设备进行操作的应用场景,此时,将本公开所提出的语音识别装置和语音识别方法应用于所述目标设备,能够提高所述操作者对目标设备操作的准确性,增加所述目标设备的安全性。
本公开的以下具体描述中,为了便于理解,将以车辆驾驶场景作为示例对本公开的实施例进行描述。但应该理解的是,本公开的技术方案同样适用于以上所提及的其他场景。
首先,参照图1A和图1B描述能够用于实现本公开的语音识别装置和语音识别方法的车辆驾驶场景。
图1A示出了车辆语音控制网络100的网络架构,图1B示出了针对所述网络架构中的单个车辆110A的车内语音控制场景。
在图1A中,所述车辆语音控制网络100包括车辆110A和110B以及云服务器120。车辆110A和110B分别通过无线通信与云服务器120进行通信。应该理解的是,虽然图1A中只是示出了两个车辆110A和110B,但在其他实施例中,所述网络100可以包括更多或更少的车辆,本公开在此并不进行限制。
云服务器120可以是通过任意服务器配置实现的本地或远程服务器,其能够实现对来自车辆的数据的收发、计算、存储、训练等处理。云服务器120与车辆之间的无线通信可以通过蜂窝通信(如2G、3G、4G或5G移动通信技术)、WiFi、卫星通信等各种方式来实现,虽然图1A中将云服务器120与车辆110A和110B示为直接进行通信,但应该理解的是,在本公开的其他实施例中,二者之间可以是间接通信。
如上所述,车辆110A和110B通过无线通信与云服务器120进行通信,以通过从云服务器120获得的数据来实现对车辆或车载系统的语音控制。具体地,图1B中示出了作为示例的车辆110A的车内语音控制场景。
在图1B中,车辆110A中布置有语音控制装置112,并且还示例性地布置有身份识别装置114。在其他实施例中,身份识别装置114可以实现为语音识别装置112的一部分,比如作为语音识别装置112中集成的身份识别单元。
语音识别装置112能够采集并处理声音,并基于处理结果控制车辆操作。在一个实施例中,语音识别装置112包括声音输入单元和处理器。声音输入单元可以是例如麦克风,其用于从外界接收声音,并转换成电信号。处理器用于对生成的电信号进行处理,并根据处理的结果指示车辆进行操作。
在一个实施例中,所述语音识别装置112还可以包括数据库。数据库中能够存储与驾驶员的身份以及语音有关的数据。比如,数据库可包括用于供处理器对声音信号进行处理所需的数据,比如,声学模型参数、声学特征集合等。再例如,数据库中可以包括与驾驶员的身份有关的数据,比如驾驶员ID、驾驶员偏好数据、驾驶员脸部特征等。
身份识别装置114用于对驾驶员进行身份识别。尽管在图1B中将身份识别装置114示为用于进行人脸识别的相机(或摄像头),但应该理解都是,在本公开的其他实施例中,身份识别装置114可以实现为用于进行虹膜识别、指纹识别、密码识别、登录信息识别的其他设备,比如指纹读取器、键盘等。
在一个实施例中,车辆110A中还可布置各种传感器,比如车门传感器、驾驶位置传感器、行驶状态传感器等,以用于对驾驶员是否接近或进入车辆进行感测。在一个实施例中,只有在通过传感器感测到驾驶员接近或进入车辆时,才激活语音识别装置112和/或身份识别装置114,以减少功耗。在另一实施例中,还可以从车辆系统总线获得车辆运行信息,并根据车辆运行信息来判断是否激活语音识别装置112和/或身份识别装置114。
具体地,在各种传感器中,驾驶位置传感器可以利用行人跟踪技术。驾驶位置传感器可以是安装在后视镜上的摄像头,其用于获取驾驶位置上的图像。通过行人跟踪技术中的人体体型分类器对图像上驾驶位置上的人形特征进行识别。
行驶状态传感器可以是安装在车轴上的检测车速的开关型霍尔传感器。举例来讲,可以在车轮的非磁性材料的圆盘边上粘一块磁钢,霍尔传感器放在靠近圆盘边缘处,圆盘旋转一周,霍尔传感器就输出一个脉冲,从而可测出转数。当感应到有车速时,即可判断为车辆处于行驶状态;当感应不到车速时,则判断车辆为停止状态。
车门传感器是安装在车门上的霍尔传感器,其通过与门框上的磁体的接触状态来判断车门的开关。举例来讲,磁体靠近霍尔传感器,可输出特定电平,这时可判断车门为关闭。反之,则可判断车门开启。
图1B中还示意性地示出了位于驾驶位置的驾驶员P1和位于副驾驶位置的乘客P2。
应该理解的是,图1B中所示的语音识别装置112不仅可以实现为声音输入单元和单一处理器的形式,也可以实现为多个处理模块的形式。例如,图2示出了根据本公开实施例的语音识别装置112的结构框图,如图2所示,语音识别装置112可以包括声音输入单元210、身份识别结果获取单元220、声学特征集获取单元230、声学识别单元240、环境状态判断单元250、身份识别提醒单元260、身份创建单元270、指令识别单元280和更新单元290。其中,环境状态判断单元250、身份识别提醒单元260、身份创建单元270、指令识别单元280和更新单元290是通过虚线框示出的,这些单元在本公开的实施例中并不是必需的。在其他实施例中,可以省略或合并其中的一个或多个单元,或根据所执行的处理增加其他的处理模块。
具体地,声音输入单元210可以是例如麦克风,其用于从外界接收声音,并转换成电信号。身份识别结果获取单元220用于获取操作者(即,图1B中所示场景的驾驶员)的身份识别结果。声学特征集获取单元230用于基于操作者的身份识别结果,获取与所述操作者相对应的声学特征集。声学识别单元240用于基于所获取的声学特征集从所接收的声音中识别出所述操作者的语音。环境状态判断单元250用于判断环境状态。身份识别提醒单元260用于在预设时段内未获得身份识别的结果时,发出身份识别提醒。身份创建单元270用于为操作者创建身份,并为操作者建立相对应的声学特征集。指令识别单元280用于从操作者的语音中识别出将要执行的操作。更新单元290用于当计算出的概率大于第一阈值但小于第二阈值时,以所提取的声学特征更新操作者的声学特征集。
图3示出了根据本公开实施例的可结合图2所示的语音识别装置112一起使用的语音识别方法300的流程图。
如图3所示,方法300开始于步骤S310,其中,获取操作者的身份识别结果。然后,在步骤S320中,基于操作者的身份识别结果,获取与所述操作者相对应的声学特征集。接下来,在步骤S330中,基于所获取的声学特征集,从所接收的声音中识别出所述操作者的语音。
以下结合图2和图3对本公开的实施例进行详细描述。
首先,在步骤S310中,获取操作者的身份识别结果。
在一个实施例中,所述身份识别可以是通过例如图1B中所示的外置身份识别装置114实现的。比如,语音识别装置112中的身份识别结果获取单元220可以从身份识别装置114获取身份识别的结果。在这一情况下,步骤S310可以只是简单地执行从例如身份识别装置114接收身份识别结果的操作。
在另一实施例中,由语音识别装置112中的身份识别结果获取单元220自己来对操作者进行身份识别。在这一情况下,在步骤S310中,该获取步骤等同于进行身份识别的步骤。
如上文所述,可以通过人脸识别、虹膜识别、指纹识别、密码识别、登录信息识别等方式来实现身份识别。
在一个实施例中,在所述步骤S310之前,所述语音识别方法300还包括判断环境状态的步骤。并且,在步骤S310中,根据环境状态来确定是否获取身份识别的结果。举例来讲,可以只在环境状态满足预定条件时(比如,有人接近、驾驶位置传感器感测到压力)才执行步骤S310中的操作。
比如,在图2的语音识别装置112中,可以通过环境状态判断单元来执行步骤S310。具体地,可以通过从以下各项之一或其组合的信息来判断环境状态(以图1A和图1B所示的场景为例):车门传感器、驾驶位置传感器、行驶状态传感器以及车辆系统总线。如上文所述,通过判断环境状态,可以只在驾驶员(即,操作者)接近或进入车辆时(此时,车门传感器、驾驶位置传感器、行驶状态传感器以及车辆系统总线具有特定状态或数值)才激活获取身份识别结果的步骤,从而能够有效地减少功耗。
在一个实施例中,当根据环境状态确定将要获取身份识别的结果的情况下,如果在预设时段(比如,特定长度(例如,10秒)的时段或汽车启动之前的时段)内未获得身份识别的结果,则向操作者发出身份识别提醒。所述提醒可以是例如警报、灯光闪烁、振动等。在图2所示的语音识别装置112中,通过身份识别提醒单元260来执行这一操作。
举例来讲,以人脸识别为例,如果车处于停止状态、车门关闭和/或已经跟踪到驾驶位置有人员存在,则语音识别装置114确定应该进行身份识别。这时,身份识别装置114应该已经开始尝试对驾驶员脸部特征进行提取。如果在预定时段内没有检测到驾驶员脸部特征,即语音识别装置112异质未能获取身份识别的结果,则将向驾驶员进行语音提醒并继续进行检测,直到获取到驾驶员脸部特征为止。
接下来,在步骤S320中,基于操作者的身份识别结果,获取与所述操作者相对应的声学特征集。在图2所示的语音识别装置112中,通过声学特征集获取单元230来执行所述步骤S320。
声学特征集指的是声学特征的集合。声学特征是语音识别领域中的重要概念。以下对相关内容进行简述:
在语音识别领域,对于特定的语音输入序列O={o1,o2,…,on}(o1-ot为特定的语音单位,比如帧、状态),需要将其识别为特定的文字序列W={w1,w2,…,wn}。这个过程一般通过概率来表示,即语音识别事实上要解决的是以下问题:
由贝叶斯公式,得到
由于上式是针对单个句子进行计算的,而对于单个句子来讲P(O)是不变的,因此,上式可以改写成
其中,P(O|W)部分称为最大似然概率,可以通过声学模型进行计算;P(W)部分称为先验概率,可以通过语言模型计算得到。本实施例中主要涉及P(O|W)部分,即主要涉及声学模型。
具体地,声学模型关于怎样计算一个音素与一段语音信号的匹配程度。因此,需要找到一种合适的表示语音信号的方法。一般是把语音信号按照语音单位进行划分,比如分成许多帧。对于每一帧,通过所使用的声学模型(其中,利用傅里叶变换等一系列操作)把它转换成一个声学特征。声学特征的示例包括线性预测系数、倒谱系数、梅尔频率倒谱系数、感知线性预测系数等。
通过对语音材料的积累,可以从中提取出大量的声学特征,并可以得到这些声学特征与音素的对应关系,这些具有与音素的对应关系的声学特征构成声学特征集。从另一个角度讲,利用声学特征集,可以训练从声学特征到音素的分类器,这些分类器可以用于确定最大似然概率P(O|W)。常用的分类器包括高斯混合模型(GMM)以及深度神经网络(DNN)模型。举例来讲,GMM的原理是估计出每个音素的声学特征的分布,然后在识别阶段,计算每一帧的声学特征由相应音素产生的概率,把每一帧的概率相乘,就得到P(O|W)。
需要指出的是,在语音识别领域中,还常使用隐马尔科夫模型(HMM)和动态时间规划模型(DTW)来解决声学特征序列的可变长度问题,再结合以上分类器创建时使用的模型,便可得到各种可用的声学模型,比如GMM-HMM模型或CD-DNN-HMM模型。
在声学特征集中积累的声学特征足够多时,可以认为得到了较为完备的声学特征集,即,该声学特征集能够涵盖用户所发出的几乎全部语音单位的声学特征。声学特征集越完备,语音识别的结果就越准确。
事实上,在一些简单或特定的场景中,并不需要识别各种语音信号,而只需识别若干特定的语音命令。此时,声学特征集的完备程度对技术方案的影响不大。只要在训练或生成声学特征集的过程中积累了对应于某些特定因素的声学特征,即可实现较为准确的语音识别。比如,在驾驶场景中,只需通过驾驶时常用的语句进行训练,便能够得到符合特定要求的声学特征集。
一般地,声学特征集的生成和训练过程所使用的语音材料并不受到限制,这是一般意义上的声学特征集,其不具备针对用户的区分能力。然而,在本实施例的步骤S320中,在确定了操作者的身份后,所获取的声学特征集是与操作相对应的声学特征集,这一声学特征集是通过使用操作者发出的语音作为语音材料创建的(参见下文中的与操作者相对应的声学特征集的创建过程),具有用户区分能力。举例来讲,参照图1B中的场景,在检测到驾驶员是P1后,基于其身份获取与之相对应的声学特征集。
在一个实施例中,所述声学特征集是从云服务器获得的(比如图1A中的云服务器120)。在另一实施例中,所述声学特征集是从本地存储器获得的,比如上文所述的数据库。
这里还需要指出的是,本文中,术语“声学特征”并不对其自身的长度或数量进行限定。在以上所述的各实施例中,“声学特征”可以指一个或多个声学特征,也可以表示一个声学特征序列。
应当理解的是,在步骤S310-S320之前可以附加地设置模式选择步骤,在该步骤中可以对语音识别装置的模式进行选择,其中所述模式包括例如手动模式和自动模式。一旦选择了手动模式,则将不执行步骤S310-S320中的操作,而直接为操作者指派一般的非特定声学特征集。一旦选择了自动模式,则将执行步骤S310-S320,并基于步骤S320中确定的与所述操作者相对应的声学特征集进行后续操作。
接下来,在步骤S330中,基于所获取的声学特征集,从所接收的声音中识别出所述操作者的语音。在图2所示的语音识别装置112中,通过声学识别单元240来执行所述步骤S330。
在一个实施例中,步骤S330具体包括:
首先,从所接收的声音提取声学特征。
这一提取声学特征的过程使用建立针对操作者的声学特征集时所使用的声学模型来进行。
然后,将所提取的声学特征与所获取的与所述操作者相对应的声学特征集进行匹配。
具体地,这一匹配过程中,先基于所获取的与所述操作者相对应的声学特征集计算所提取的声学特征的最大似然概率,然后再判断计算出的概率是否大于第一阈值(比如,80%),并且当计算出的概率大于第一阈值时,确定所提取的声学特征与所述操作者的声学特征集匹配。这一步骤的原理在于,在确定了所使用的声学特征集的情况下,建立该声学特征集时所针对的操作者的语音计算得到的最大似然概率要高于其他人员的语音(或噪音)的计算出的最大似然概率。从而,通过设置特定的第一阈值,能够将操作者的语音与其他声音加以区分。
最后,如果确定了匹配,则可以将所接收的声音识别为所述操作者的语音。
在一个实施例中,可能会出现以下情况:虽然检测到了身份识别的特征,但无法根据检测到的身份识别特征,确定操作者的身份,例如,不存在该操作者的身份记录。在此情况下,语音识别方法300还包括以下步骤:为所述操作者创建身份,并为所述操作者建立相对应的声学特征集。在图2所示的语音识别装置112中,通过身份创建单元270来执行这一操作。
在一个实施例中,为所述操作者建立相对应的声学特征集的步骤包括:接收所述操作者的语音;从所接收的语音中提取所述操作者的声学特征;以及根据所提取的声学特征,建立与所述操作者相对应的声学特征集。该实施例对应于在语音识别装置本地创建身份和声学特征集的情况。
在另一实施例中,为所述操作者建立相对应的声学特征集的步骤包括:接收所述操作者的语音;向服务器发送所接收的语音;以及从服务器接收与所述操作者相对应的声学特征集。该实施例对应于在服务器上创建身份和声学特征集的情况。其中,所述服务器可以为例如图1A中所示的云服务器120。
在本公开中,在创建与操作者相对应的声学特征集的过程中,所使用的语音材料是由操作者自己发出的语音。这样,能够借助对操作者的识别而特定地在所述操作者操作时使用为其特别建立的声学特征集进行语音识别,从而能够更好地过滤掉噪音以及其他人员的语音对语音识别结果的影响。
在一个实施例中,为了避免由于操作者流动性大造成部署在本地或服务器上的身份识别特征模型及声学模型文件过多而使得系统存储空间紧张。系统允许设定N个专属操作者ID及N1个普通操作者ID,具体数量可以根据系统存储空间而定。N1个普通操作者ID在系统被擦除的优先级将根据操作目标设备的时间及次数的权重来决定。在统计周期内,如果某个操作者ID一直处于非操作状态,其优先级将降低。如果需要,可以选择手动清除低优先级的操作者ID及其数据。
在一个实施例中,使用每次接收到操作者的语音时所提取的声学特征自动地对该操作者的声学特征集进行更新。在另一实施例中,所述更新是手动进行的。在图2所示的语音识别装置112中,通过更新单元290来执行这一操作。
当然,还可以设定更新条件,比如,在一个实施例中,只有当计算出的最大似然概率大于上述第一阈值但小于第二阈值(比如,90%)时,才以所提取的声学特征更新所述操作者的声学特征集。在另一实施例中,还附加的设置一个时间长度参数,其中,只有在等于该时间长度参数的时间段期间所计算出的最大似然概率都大于上述第一阈值但小于第二阈值时,才以所提取的声学特征更新所述操作者的声学特征集。
在一个实施例中,在步骤S330中识别出所述操作者的语音后,可以根据预先设置,直接使目标设备执行相应的指令。在这种情况中,无需再进行进一步的语言识别(即从音素到文字的过程)。
在另一实施例中,在步骤S330之后,所述语音识别方法300还包括:从所述操作者的语音中识别出将要执行的操作。在图2所示的语音识别装置112中,通过指令识别单元280来执行这一操作。
在以上步骤S330中,根据对声学模型的描述,在识别出操作者的语音的同时,还能够确定所述语音所对应的音素(序列)。从而,在此可以进一步根据语言模型估计所确定的音素所对应的文字,并根据文字内容确定目标设备将要执行的操作。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (20)

1.一种语音识别方法,包括:
获取操作者的身份识别结果;
基于操作者的身份识别结果,获取与所述操作者相对应的声学特征集;以及
基于所获取的声学特征集,从所接收的声音中识别出所述操作者的语音。
2.根据权利要求1所述的语音识别方法,在获取操作者的身份识别结果的步骤之前,所述语音识别方法还包括:
判断环境状态;以及
所述获取操作者的身份识别结果的步骤还包括:
根据所述环境状态,获取操作者的身份识别结果。
3.根据权利要求2所述的语音识别方法,还包括:
在预设时段内未获得身份识别的结果时,发出身份识别提醒。
4.根据权利要求1所述的语音识别方法,还包括:
为所述操作者创建身份,并为所述操作者建立相对应的声学特征集。
5.根据权利要求4所述的语音识别方法,其中,为所述操作者建立相对应的声学特征集包括:
接收所述操作者的语音;
从所接收的语音中提取所述操作者的声学特征;以及
根据所提取的声学特征,建立与所述操作者相对应的声学特征集。
6.根据权利要求4所述的语音识别方法,其中,为所述操作者建立相对应的声学特征集包括:
接收所述操作者的语音;
向服务器发送所接收的语音;以及
从服务器接收与所述操作者相对应的声学特征集。
7.根据权利要求1所述的语音识别方法,其中,从所接收的声音中识别出所述操作者的语音的步骤还包括:
从所接收的声音提取声学特征;
将所提取的声学特征与所获取的与所述操作者相对应的声学特征集进行匹配;
如果匹配,则将所接收的声音识别为所述操作者的语音。
8.根据权利要求7所述的语音识别方法,其中,将所提取的声学特征与所获取的与所述操作者相对应的声学特征集进行匹配的步骤包括:
基于所获取的与所述操作者相对应的声学特征集,计算所提取的声学特征的最大似然概率;
当计算出的概率大于第一阈值时,确定所提取的声学特征与所述操作者的声学特征集匹配。
9.根据权利要求8所述的语音识别方法,还包括:
当计算出的概率大于第一阈值但小于第二阈值时,以所提取的声学特征更新所述操作者的声学特征集。
10.根据权利要求1所述的语音识别方法,还包括:
从所述操作者的语音中识别出将要执行的操作。
11.一种语音识别装置,包括:
声音输入单元,用于接收声音;
身份识别结果获取单元,用于获取操作者的身份识别结果;
声学特征集获取单元,用于基于操作者的身份识别结果,获取与所述操作者相对应的声学特征集;以及
声学识别单元,用于基于所获取的声学特征集,从所接收的声音中识别出所述操作者的语音。
12.根据权利要求11所述的语音识别装置,还包括:
环境状态判断单元,用于判断环境状态;以及
所述身份识别结果获取单元还被配置为根据所述环境状态进行获取操作者的身份识别结果的操作。
13.根据权利要求12所述的语音识别装置,还包括:
身份识别提醒单元,用于在预设时段内未获得身份识别的结果时,发出身份识别提醒。
14.根据权利要求11所述的语音识别装置,还包括:
身份创建单元,用于为所述操作者创建身份,并为所述操作者建立相对应的声学特征集。
15.根据权利要求14所述的语音识别装置,其中,所述身份创建单元还被配置为:
接收所述操作者的语音;
从所接收的语音中提取所述操作者的声学特征;以及
根据所提取的声学特征,建立与所述操作者相对应的声学特征集。
16.根据权利要求14所述的语音识别装置,其中,所述身份创建单元还被配置为:
接收所述操作者的语音;
向服务器发送所接收的语音;以及
从服务器接收与所述操作者相对应的声学特征集。
17.根据权利要求11所述的语音识别装置,其中,所述声学识别单元还被配置为:
从所接收的声音提取声学特征;
将所提取的声学特征与所获取的与所述操作者相对应的声学特征集进行匹配;
如果匹配,则将所接收的声音识别为所述操作者的语音。
18.根据权利要求17所述的语音识别装置,其中,所述声学识别单元还被配置为:
基于所获取的与所述操作者相对应的声学特征集,计算所提取的声学特征的最大似然概率;
当计算出的概率大于第一阈值时,确定所提取的声学特征与所述操作者的声学特征集匹配。
19.根据权利要求18所述的语音识别装置,还包括:
更新单元,用于当计算出的概率大于第一阈值但小于第二阈值时,以所提取的声学特征更新所述操作者的声学特征集。
20.根据权利要求11所述的语音识别装置,还包括:
指令识别单元,用于从所述操作者的语音中识别出将要执行的操作。
CN201710466754.XA 2017-06-20 2017-06-20 语音识别方法和语音识别装置 Pending CN109102801A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710466754.XA CN109102801A (zh) 2017-06-20 2017-06-20 语音识别方法和语音识别装置
US16/327,319 US11355124B2 (en) 2017-06-20 2018-02-09 Voice recognition method and voice recognition apparatus
PCT/CN2018/076031 WO2018233300A1 (zh) 2017-06-20 2018-02-09 语音识别方法和语音识别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710466754.XA CN109102801A (zh) 2017-06-20 2017-06-20 语音识别方法和语音识别装置

Publications (1)

Publication Number Publication Date
CN109102801A true CN109102801A (zh) 2018-12-28

Family

ID=64737440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710466754.XA Pending CN109102801A (zh) 2017-06-20 2017-06-20 语音识别方法和语音识别装置

Country Status (3)

Country Link
US (1) US11355124B2 (zh)
CN (1) CN109102801A (zh)
WO (1) WO2018233300A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112017658A (zh) * 2020-08-28 2020-12-01 北京计算机技术及应用研究所 一种基于智能人机交互的操作控制系统
CN112878854A (zh) * 2021-01-29 2021-06-01 中国第一汽车股份有限公司 基于人脸识别及声音识别的行李箱盖自动开启系统及方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11010461B2 (en) * 2017-12-22 2021-05-18 Vmware, Inc. Generating sensor-based identifier
CN110473540B (zh) * 2019-08-29 2022-05-31 京东方科技集团股份有限公司 语音交互方法及系统、终端设备、计算机设备及介质
CN112509587B (zh) * 2021-02-03 2021-04-30 南京大正智能科技有限公司 移动号码与声纹动态匹配及索引构建方法、装置与设备
CN114626039A (zh) * 2022-02-17 2022-06-14 浪潮软件集团有限公司 一种基于国产cpu和操作系统环境的语音识别登陆方法

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000080828A (ja) * 1998-09-07 2000-03-21 Denso Corp 車両制御装置
CN102645977A (zh) * 2012-03-26 2012-08-22 广东翼卡车联网服务有限公司 一种车载语音唤醒人机交互系统及方法
CN102915731A (zh) * 2012-10-10 2013-02-06 百度在线网络技术(北京)有限公司 一种个性化的语音识别的方法及装置
CN103730120A (zh) * 2013-12-27 2014-04-16 深圳市亚略特生物识别科技有限公司 电子设备的语音控制方法及系统
CN103871409A (zh) * 2012-12-17 2014-06-18 联想(北京)有限公司 一种语音识别的方法、信息处理的方法及电子设备
CN103903613A (zh) * 2014-03-10 2014-07-02 联想(北京)有限公司 一种信息处理方法及电子设备
CN104217152A (zh) * 2014-09-23 2014-12-17 陈包容 一种移动终端在待机状态下进入应用程序的实现方法和装置
CN104881117A (zh) * 2015-05-22 2015-09-02 广东好帮手电子科技股份有限公司 一种通过手势识别激活语音控制模块的装置和方法
CN105096940A (zh) * 2015-06-30 2015-11-25 百度在线网络技术(北京)有限公司 用于进行语音识别的方法和装置
US20160111088A1 (en) * 2014-10-17 2016-04-21 Hyundai Motor Company Audio video navigation device, vehicle and method for controlling the audio video navigation device
CN105529026A (zh) * 2014-10-17 2016-04-27 现代自动车株式会社 语音识别装置和语音识别方法
CN105895096A (zh) * 2016-03-30 2016-08-24 乐视控股(北京)有限公司 一种身份识别与语音交互操作的方法及装置
CN105957523A (zh) * 2016-04-22 2016-09-21 乐视控股(北京)有限公司 车载系统控制方法及装置
CN106164398A (zh) * 2014-04-10 2016-11-23 三菱电机株式会社 移动设备、车辆远程操作系统、车辆远程操作方法以及程序
CN106218557A (zh) * 2016-08-31 2016-12-14 北京兴科迪科技有限公司 一种带语音识别控制的车载麦克风
US20170011735A1 (en) * 2015-07-10 2017-01-12 Electronics And Telecommunications Research Institute Speech recognition system and method
CN106537493A (zh) * 2015-09-29 2017-03-22 深圳市全圣时代科技有限公司 语音识别系统及方法、客户端设备及云端服务器
CN106682090A (zh) * 2016-11-29 2017-05-17 上海智臻智能网络科技股份有限公司 主动交互实现装置、方法及智能语音交互设备
US20170148443A1 (en) * 2015-11-20 2017-05-25 At&T Intellectual Property I, L.P. Portable Acoustical Unit for Voice Recognition

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1257073B (it) * 1992-08-11 1996-01-05 Ist Trentino Di Cultura Sistema di riconoscimento, particolarmente per il riconoscimento di persone.
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US7158871B1 (en) * 1998-05-07 2007-01-02 Art - Advanced Recognition Technologies Ltd. Handwritten and voice control of vehicle components
DE10163814A1 (de) * 2001-12-22 2003-07-03 Philips Intellectual Property Verfahren und Einrichtung zur Nutzeridentifizierung
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
JP2005122128A (ja) * 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 音声認識システム及びプログラム
US9263034B1 (en) * 2010-07-13 2016-02-16 Google Inc. Adapting enhanced acoustic models
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9336781B2 (en) * 2013-10-17 2016-05-10 Sri International Content-aware speaker recognition
CN104143326B (zh) * 2013-12-03 2016-11-02 腾讯科技(深圳)有限公司 一种语音命令识别方法和装置
US20160366528A1 (en) * 2015-06-11 2016-12-15 Sony Mobile Communications, Inc. Communication system, audio server, and method for operating a communication system
US10178301B1 (en) * 2015-06-25 2019-01-08 Amazon Technologies, Inc. User identification based on voice and face
US10474800B2 (en) * 2016-11-16 2019-11-12 Bank Of America Corporation Generating alerts based on vehicle system privacy mode
US10573106B1 (en) * 2017-03-22 2020-02-25 Amazon Technologies, Inc. Personal intermediary access device

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000080828A (ja) * 1998-09-07 2000-03-21 Denso Corp 車両制御装置
CN102645977A (zh) * 2012-03-26 2012-08-22 广东翼卡车联网服务有限公司 一种车载语音唤醒人机交互系统及方法
CN102915731A (zh) * 2012-10-10 2013-02-06 百度在线网络技术(北京)有限公司 一种个性化的语音识别的方法及装置
CN103871409A (zh) * 2012-12-17 2014-06-18 联想(北京)有限公司 一种语音识别的方法、信息处理的方法及电子设备
CN103730120A (zh) * 2013-12-27 2014-04-16 深圳市亚略特生物识别科技有限公司 电子设备的语音控制方法及系统
CN103903613A (zh) * 2014-03-10 2014-07-02 联想(北京)有限公司 一种信息处理方法及电子设备
CN106164398A (zh) * 2014-04-10 2016-11-23 三菱电机株式会社 移动设备、车辆远程操作系统、车辆远程操作方法以及程序
CN104217152A (zh) * 2014-09-23 2014-12-17 陈包容 一种移动终端在待机状态下进入应用程序的实现方法和装置
US20160111088A1 (en) * 2014-10-17 2016-04-21 Hyundai Motor Company Audio video navigation device, vehicle and method for controlling the audio video navigation device
CN105529026A (zh) * 2014-10-17 2016-04-27 现代自动车株式会社 语音识别装置和语音识别方法
CN104881117A (zh) * 2015-05-22 2015-09-02 广东好帮手电子科技股份有限公司 一种通过手势识别激活语音控制模块的装置和方法
CN105096940A (zh) * 2015-06-30 2015-11-25 百度在线网络技术(北京)有限公司 用于进行语音识别的方法和装置
US20170011735A1 (en) * 2015-07-10 2017-01-12 Electronics And Telecommunications Research Institute Speech recognition system and method
CN106537493A (zh) * 2015-09-29 2017-03-22 深圳市全圣时代科技有限公司 语音识别系统及方法、客户端设备及云端服务器
US20170148443A1 (en) * 2015-11-20 2017-05-25 At&T Intellectual Property I, L.P. Portable Acoustical Unit for Voice Recognition
CN105895096A (zh) * 2016-03-30 2016-08-24 乐视控股(北京)有限公司 一种身份识别与语音交互操作的方法及装置
CN105957523A (zh) * 2016-04-22 2016-09-21 乐视控股(北京)有限公司 车载系统控制方法及装置
CN106218557A (zh) * 2016-08-31 2016-12-14 北京兴科迪科技有限公司 一种带语音识别控制的车载麦克风
CN106682090A (zh) * 2016-11-29 2017-05-17 上海智臻智能网络科技股份有限公司 主动交互实现装置、方法及智能语音交互设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李弼程 等主编: "《模式识别及应用》", 29 February 2008 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112017658A (zh) * 2020-08-28 2020-12-01 北京计算机技术及应用研究所 一种基于智能人机交互的操作控制系统
CN112878854A (zh) * 2021-01-29 2021-06-01 中国第一汽车股份有限公司 基于人脸识别及声音识别的行李箱盖自动开启系统及方法

Also Published As

Publication number Publication date
US20190180756A1 (en) 2019-06-13
WO2018233300A1 (zh) 2018-12-27
US11355124B2 (en) 2022-06-07

Similar Documents

Publication Publication Date Title
CN109102801A (zh) 语音识别方法和语音识别装置
US10380992B2 (en) Natural language generation based on user speech style
KR20180130672A (ko) 상황 기반 대화 개시 장치, 시스템, 차량 및 방법
JP4419758B2 (ja) 自動車用ユーザもてなしシステム
CN103403798B (zh) 声音识别装置及导航装置
JP6173477B2 (ja) ナビゲーション用サーバ、ナビゲーションシステムおよびナビゲーション方法
US9928833B2 (en) Voice interface for a vehicle
JP6612707B2 (ja) 情報提供装置
KR20180075050A (ko) 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법
JP2015089697A (ja) 車両用音声認識装置
US11404075B1 (en) Vehicle voice user interface
CN105763586A (zh) 一种远程控制车辆的系统及方法
US20190318746A1 (en) Speech recognition device and speech recognition method
CN110956967A (zh) 基于声纹识别的车辆控制方法与车辆
JP6075577B2 (ja) 運転支援装置
JP6677126B2 (ja) 車両用対話制御装置
CN111739525A (zh) 智能体装置、智能体装置的控制方法及存储介质
US20220198151A1 (en) Dialogue system, a vehicle having the same, and a method of controlling a dialogue system
US20220208213A1 (en) Information processing device, information processing method, and storage medium
US20230317072A1 (en) Method of processing dialogue, user terminal, and dialogue system
KR20200000621A (ko) 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법
CN114690896A (zh) 信息处理装置、信息处理方法及存储介质
US20210303263A1 (en) Dialogue system and vehicle having the same, and method of controlling dialogue system
JP2009251470A (ja) 車載情報システム
CN118928368A (zh) 泊车方法、系统、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181228

RJ01 Rejection of invention patent application after publication