CN112420020A

CN112420020A - 信息处理装置及信息处理方法

Info

Publication number: CN112420020A
Application number: CN202010127298.8A
Authority: CN
Inventors: 丁宁; 藤村浩司
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2019-08-23
Filing date: 2020-02-28
Publication date: 2021-02-26
Anticipated expiration: 2040-02-28
Also published as: JP7191792B2; US11823669B2; JP2021033051A; US20210056961A1; CN112420020B

Abstract

实施方式提供能够精度良好地根据声音检测关键词的信息处理装置和信息处理方法。有关实施方式的信息处理装置具有第一及第二取得部、第一及第二计算部和判定部。第一取得部取得声音数据，第二取得部取得已学习模型，当输入声音数据的特征量时输出与关键词和背景噪声相关的似然度。第一及第二计算部对声音数据的每一帧计算关键词分数及背景噪声分数。判定部判定声音数据是否包含关键词。

Description

信息处理装置及信息处理方法

本申请以第2019－153039号日本专利申请(申请日：2019年08月23日)为基础，并对该申请主张优先权。本申请通过引用该申请而包含该原专利申请的全部内容。

技术领域

本发明的实施方式涉及信息处理装置及信息处理方法。

背景技术

近年来，适应于声音操作的智能扬声器得到快速普及。智能扬声器例如通过根据声音检测还被称为“唤醒词”的特定的关键词而进行起动。用户仅说出关键词，即可使智能扬声器起动并继续进行各种各样的操作。因此，需要精度良好地根据声音检测关键词的技术。

发明内容

本发明要解决的课题是提供一种信息处理装置及信息处理方法，能够精度良好地根据声音检测关键词。

根据实施方式，信息处理装置具有第一取得部、第二取得部、第一计算部、第二计算部和判定部。第一取得部取得包括多个帧的声音数据。第二取得部取得模型，该模型被学习成当输入由上述声音数据被抽取的特征量时输出表示针对多个类中的各个类的似然度的信息，这些类包括特定的关键词的成分和上述关键词以外的背景噪声的成分。第一计算部对上述声音数据的上述每一帧抽取上述特征量并输入上述模型中，由此根据由上述模型被输出的信息计算表示上述关键词的成分的出现概率的高低的关键词分数。第二计算部对上述声音数据的上述每一帧抽取上述特征量并输入上述模型中，由此根据由上述模型被输出的信息计算表示上述背景噪声的成分的出现概率的高低的背景噪声分数。判定部根据上述关键词分数、上述背景噪声分数、和被预先设定的阈值，判定上述声音数据是否包含上述关键词。

根据上述结构的信息处理装置，能够精度良好地根据声音检测关键词。

附图说明

图1是表示具有有关第一实施方式的信息处理装置的系统的整体结构的例子的图。

图2是表示有关第一实施方式的信息处理装置的系统结构例的框图。

图3是表示有关第一实施方式的信息处理装置的功能结构例的框图。

图4是表示有关第一实施方式的信息处理装置的处理步骤和处理内容的例子的流程图。

图5是用于说明有关第一实施方式的信息处理装置所使用的模型的图。

图6是用于说明有关第一实施方式的信息处理装置的分数计算的图。

图7是表示有关第二实施方式的信息处理装置的处理步骤和处理内容的第一例的流程图。

图8是表示有关第二实施方式的信息处理装置的处理步骤和处理内容的第二例的流程图。

图9是表示有关第三实施方式的信息处理装置的处理步骤和处理内容的第一例的流程图。

图10是表示有关第三实施方式的信息处理装置的处理步骤和处理内容的第二例的流程图。

图11是表示有关第三实施方式的信息处理装置的处理步骤和处理内容的第三例的流程图。

标号说明

1…信息处理装置、声音关键词检测装置；2传声器；3输入装置；4输出装置；11输入输出接口(输入输出I/F)；12通信接口(通信I/F)；20控制部；20A硬件处理器；20B程序存储器；21声音取得部；22分数计算部；23关键词检测部；30数据存储器；31模型存储部；32阈值存储部；40总线；221关键词分数计算部；222背景噪声分数计算部；51输入层；52中间层；53输出层；531、532、533、534节点。

具体实施方式

下面，参照附图对有关本发明的实施方式进行说明。

[第一实施方式]

(1)声音关键词检测系统

图1是表示具有有关第一实施方式的信息处理装置的声音关键词检测系统的整体结构的一例的图。

该系统具有通过网络NW可以相互通信的服务器SV和客户端CL。

网络NW例如由以因特网为代表的IP(Internet Protocol)网、和用于访问该IP网的多个接入网构成。作为接入网，例如使用无线LAN(Loacl Area Network，局域网)、移动电话网、有线电话网、FTTH(Fiber To The Home，光纤到家)、CATV(Cable Television，有线电视)网。

服务器SV例如被作为服务器计算机来实现。客户端CL例如被作为个人电脑、平板电脑、智能电话、移动电话、PDA等便携式信息终端、或者被内置于各种电子设备中的嵌入系统来实现。服务器SV和客户端CL中至少一方具有根据声音检测关键词的声音关键词检测功能。另外，为了简化起见，在图1中仅示出了一个服务器SV和一个客户端CL，但可以分别连接任意数量的设备。

在图1所示的系统中，客户端CL具有将声音转换成声音信号(声音数据)的传声器等。并且，客户端CL在接收到声音时，使用传声器等生成声音数据，并通过网络NW发送给服务器SV。服务器SV具有根据声音数据检测关键词的功能。服务器SV在从客户端CL在接收到声音数据时，由声音数据中抽取关键词，将所抽取的关键词发送给客户端CL。接收到所检测的关键词的客户端CL能够开始与该关键词对应的特定的动作。另外，客户端CL不仅可以发送声音数据，而且还可以将由声音数据被抽取的特征量发送给服务器SV。服务器SV能够根据所接收到的声音特征量检测关键词，将该关键词发送给客户端1。

客户端CL还可以具有声音关键词检测功能。在这种情况下，客户端CL能够根据所生成的声音数据检测关键词。

这样，在上述系统中，客户端CL或者服务器SV至少一方具有声音关键词检测功能，能够根据声音数据检测关键词。

下面，为了简化说明，假设具有声音关键词检测功能的客户端CL是有关实施方式的信息处理装置进行说明，并称作“声音关键词检测装置”。

(2)声音关键词检测装置

(2-1)结构

图2是表示作为有关第一实施方式的信息处理装置的声音关键词检测装置1的系统结构的一例的框图。

声音关键词检测装置1例如具有CPU(Central Processing Unit，中央处理单元)等硬件处理器20A。并且，将程序存储器20B、数据存储器30、输入输出接口(输入输出I/F)11及通信接口(通信I/F)12经由总线40与该硬件处理器进行连接。

输入输出接口11与对声音关键词检测装置1附属设置的传声器2、输入装置3及输出装置4连接。输入输出接口11获取通过传声器2被集音得到的声音。输入输出接口11还获取操作者通过键盘、触摸屏、触摸垫、鼠标等输入装置3输入的操作数据。输入输出接口11还进行将输出数据向输出装置4进行输出并显示的处理，输出装置4包括使用液晶或者有机EL(Electro Luminescence，有机电致)等的显示装置或输出声音的扬声器。另外，传声器2、输入装置3及输出装置4可以使用被内置于声音关键词检测装置1中的装置，还可以使用通过网络可以进行通信的其他信息终端的传声器、输入装置及输出装置。

通信接口12包括例如一个以上的有线或者无线的通信接口单元，使得能够与外部设备之间进行信息的发送及接收。作为有线接口，使用例如有线LAN，另外，作为无线接口，使用例如无线LAN或Bluetooth(注册商标)等采用小功率无线数据通信标准规格的接口。

程序存储器20B作为存储介质，例如组合使用HDD(Hard Disk Drive，硬盘驱动)、SSD(Solid State Drive，固态驱动)等可以随时进行写入及读出的非易失性存储器和ROM等非易失性存储器，被存储有执行有关一个实施方式的各种控制处理所需要的程序。

数据存储器30作为存储介质，例如组合使用HDD或者SSD等可以随时进行写入及读出的非易失性存储器和RAM(Random Access Memory，随机存取存储器)等易失性存储器，被用于存储在进行信息处理的过程中取得及生成的各种数据。

具有声音关键词检测功能的装置例如在取得声音数据时，对输入声音的特征量计算关键词分数，如果分数在阈值以上，则可以判定为关键词。但是，在这种情况下，由于不判断特征量来自于背景噪声的可能性，因而即使是背景噪声，如果分数在阈值以上，则也有可能被检测为关键词。

在本实施方式中，不仅计算关键词的分数，而且还计算背景噪声的分数，使用所计算的关键词的分数及背景噪声的分数进行是否是关键词的判定。由此，能够抑制关键词的错误检测。

图3是表示有关第一实施方式的声音关键词检测装置1的功能结构的框图。

在数据存储器30的存储区域中设有模型存储部31和阈值存储部32。

模型存储部31存储包括关键词的成分和背景噪声的成分的模型。在该实施方式中，在模型存储部31被存储的模型是被学习成当输入由声音数据被抽取的特征量时，输出表示针对多个类中的各个类的似然度的信息的模型，这些类包括特定的关键词的成分和关键词以外的背景噪声的成分。该模型的格式可以是GMM(Gaussian Mixture Model，混合高斯模型)，还可以是DNN(Deep Neural Network，深层神经网络)。另外，当存在多个被预先设定的关键词的情况下，还可以存储与各个关键词对应的多个模型。

其中，所谓背景噪声是指由环境中产生的噪声的总称，包括声音和非声音两种。例如，在环境是会议室的情况下，背景噪声包括由工作中的空调发出的噪声和由相邻的会议室传出来的声音。或者，在环境是汽车的车内的情况下，背景噪声包括汽车的引擎声音和来自车载音响的音乐。

其中，所谓关键词的成分是指说出关键词的声音中包含的任意的构成单位。下面，作为一例，假设关键词的成分是音素进行说明。另外，其中所谓背景噪声的成分是指被预先设定的背景噪声中包含的任意的构成单位。下面，作为一例，将背景噪声的成分称为准“背景噪声的音素”。

阈值存储部32存储在声音关键词检测处理中使用的、被预先设定的各种阈值。

控制部20由上述硬件处理器20A和上述程序存储器20B构成，具有作为处理功能部的声音取得部21、分数计算部22和关键词检测部23。这些处理功能部都是通过使上述硬件处理器20A执行在程序存储器20B中存储的程序而实现的。控制部20还可以以其他多种多样的方式来实现，包括ASIC(Application Specific Integrated Circuit，专用集成电路)和FPGA(field-programmable gate array，现场可编程门阵列)等集成电路。另外，上述程序还可以是经由网络被提供的程序。

声音取得部21作为第一取得部，进行取得包括多个帧的声音数据的处理。声音取得部21例如接收通过传声器2被集音得到的声音波形，将声音波形数字化，抽取每一帧的声音特征量并输出给分数计算部22。其中，声音特征量可以是梅尔频率倒谱系数(MFCC，MelFrequency Cepstral Coefficient)，还可以是梅尔滤波器组(Mel Filter Bank)。或者，还可以使用音高特征量、或者它们的Δ成分或ΔΔ成分、或者这些特征量的组合。

分数计算部22将从声音取得部21接收到的声音特征量转发给关键词分数计算部221及背景噪声分数计算部222。分数计算部22还作为第二取得部，读出在模型存储部31被存储的已学习的模型，将所读出的模型转发给关键词分数计算部221及背景噪声分数计算部222，以便进行计算。

关键词分数计算部221作为第一计算部，将声音数据的各帧和模型的关键词的成分进行匹配，由此计算关键词分数。在该实施方式中，关键词分数计算部221对声音数据的每一帧，由声音数据中抽取特征量，根据将该特征量输入模型中得到的输出计算关键词分数。关键词分数是表示该声音数据中被预先设定的关键词的成分的出现概率的高低的信息。

背景噪声分数计算部222作为第二计算部，将声音数据的各帧和模型的背景噪声成分进行匹配，计算背景噪声分数。在该实施方式中，背景噪声分数计算部222对声音数据的每一帧，由声音数据中抽取特征量，根据将该特征量输入模型中得到的输出计算背景噪声分数。背景噪声分数是表示该声音数据中被预先设定的背景噪声的成分的出现概率的高低的信息。

关键词检测部23作为判定部，根据由关键词分数计算部221计算出的关键词分数、由背景噪声分数计算部222计算出的背景噪声分数、和在阈值存储部32中存储的预先设定的阈值，判定声音数据是否包含关键词。关于关键词检测部23的判定动作的详情在后面进行说明。关键词检测部23还能够输出判定结果。例如，关键词检测部23在被判定为声音数据包含关键词的情况下，还可以输出该关键词。

(2-2)动作

下面，对如上所述构成的声音关键词检测装置1的信息处理动作进行说明。图4是表示其处理步骤和处理内容的流程图。

在一个实施方式中，声音关键词检测装置1在经由输入输出接口11获取通过传声器2被集音得到的声音数据时开始该处理。

(2-2-1)声音数据的取得和声音特征量的输出

首先，在步骤S101中，声音关键词检测装置1在声音取得部21的控制下取得声音数据，并抽取声音特征量进行输出。

声音取得部21例如以16kHz采样声音波形的模拟波，并以16比特表示数字波的一试样的振幅值。声音取得部21每隔固定的时间就切取该数字波。在此，作为一例，假设每隔256点试样就错位128点试样来切取数字波。例如，声音取得部21将这256点试样作为1帧，由1帧计算MFCC特征量12次元。并且，把将3帧量的MFCC特征量连接而成的36次元作为特征量进行输出。另外，所连接的帧数不限于3帧，只要是1以上，则可以是任意的帧数。并且，切取的试样数和帧周期也不限定于上述的值。

由此，声音取得部21取得包括多个帧的声音数据，并且抽取声音特征量输出给分数计算部22。分数计算部22将所接收的声音特征量转发给关键词分数计算部221及背景噪声分数计算部222。

(2-2-2)关键词分数及背景噪声分数的计算

然后，在步骤S102中，声音关键词检测装置1在关键词分数计算部221的控制下，根据由模型存储部31被读出的模型和上述每帧的声音特征量，计算关键词分数score_KW。

关键词分数例如能够作为从声音数据的某一始端帧到终端帧的最大累计音响分数进行计算(例如，参照日本特开2018-155957号公报)。下面，作为这种分数计算的一例，示例使用left-to-right(由左到右)式的隐马尔可夫模型(HMM，Hidden Markov Model)和维特比算法进行计算的方法。另外，如上所述，模型既可以是GMM，也可以是DNN，这里假设模型是前馈型的DNN、关键词是“红色的”进行说明。

图5表示作为这种模型的一例的DNN50的概念。DNN50例如使用学习数据、并使用反向传播(back-propagation)被预先学习，该学习数据包括对多个讲话人的多个关键词的讲话进行集音得到的声音数据和作为各自的正解标签的文本数据的对、以及对背景噪声进行集音得到的背景噪声数据和其正解标签的对。DNN50具有输入层51、中间层52和输出层53。DNN50的输入层51具有36个节点(在图中省略图示)，通过声音取得部21被输出的36次元特征量被输入各个节点。在此，假设DNN50的中间层52是将具有256节点的层重叠3层得到的(在图中省略图示)。DNN50的输出层53的各节点531～534分别表示关键词“红色的”的音素“a”“ka”“i”和隐马尔可夫模型(HMM)的对应、以及背景噪声的音素“BN”(Backgroud Noise，BN)和HMM的对应。另外，为了简化，在图5中将HMM设为全部1状态。并且，作为HMM的参数，音素间的推移概率在哪个推移之间都设为相同概率，输出概率用每帧的音素的出现概率(音响分数)表示。

关键词分数计算部221将声音数据和如上所述的模型的关键词的成分进行匹配，由此计算关键词分数score_KW。在该实施方式中，首先，关键词分数计算部221使用声音数据的每帧的特征量和上述模型，计算关键词的各音素的出现概率的对数似然度作为音响分数。并且，使用维特比算法确定具有最大的累计音响分数的音道。关键词分数计算部221计算由某一始端帧t_s到终端帧t_e的最大累计音响分数，作为关键词分数score_KW。

关键词分数计算部221一面使t_e沿时间方向推进一面进行分数计算，但也可以是，此时使分数计算每次跳过几帧，以削减计算量。最大累计音响分数例如是对数似然度的时间序列之和，但也可以作为将该和规范化为特定的范围(例如1到100的范围、或者0到100的范围)的值进行使用。

另一方面，在步骤S103中，声音关键词检测装置1在背景噪声分数计算部222的控制下，使用与计算关键词分数时相同的声音数据的特征量，对模型的背景噪声成分计算背景噪声分数。具体地，与关键词分数的计算一样，首先使用声音数据的每帧的特征量和模型计算背景噪声的音素的出现概率的对数似然度作为噪声分数。并且，计算由某一始端帧t_s到终端帧t_e的累计噪声分数，作为背景噪声分数score_BN。

步骤S102和步骤S103可以并行地实施，也可以顺序地实施。并且，声音关键词检测装置1还可以同时计算关键词分数和背景噪声分数。

图6是用于说明如上所述的最大累计音响分数的计算的图。图6表示有关关键词“红色的”的关键词空间。纵轴表示针对各关键词的状态的分数，横轴表示帧(时间)。t_s表示声音数据中的关键词的始端帧t_s的始端的时间，下面也称为始端信息。t_e表示声音数据中的该关键词的终端帧t_e的终端的时间，下面也称为终端信息。作为score_KW被示出的粗线表示关键词空间中的最大的音道。对各帧也计算了背景噪声的分数score_BN，但未被绘制在关键词空间中，因而被示出在下方。

(2-2-3)关键词的检测

然后，在步骤S104中，声音关键词检测装置1在关键词检测部23的控制下，由阈值存储部32读出被预先设定的阈值，根据该读出的阈值、由关键词分数计算部221计算出的关键词分数、和由背景噪声分数计算部222计算出的背景噪声分数，判定声音数据是否包含关键词。

在该实施方式中，在关键词分数score_KW大于被预先设定的关键词分数阈值θ_KW、而且背景噪声分数score_BN小于被预先设定的背景噪声分数阈值θ_BN的情况下(是)，进入步骤S105。如果较高地设定关键词分数阈值θ_KW，则关键词不易被检测出来，如果较低地设定关键词分数阈值θ_KW，则关键词容易被检测出来。这对于背景噪声分数阈值θ_BN也是一样的。另外，在最大累计音响分数是被规范化为特定的范围的值的情况下，则阈值还可以被设定为该特定的范围中的任意一个值。

在步骤S105中，声音关键词检测装置1在关键词检测部23的控制下，判定(检测)满足上述条件的由某一始端帧t_s到终端帧t_e的声音数据作为关键词。另外，始端帧t_s和终端帧t_e在计算累计分数时被逐次存储，声音关键词检测装置1当在如图6所示的关键词空间中累计分数超过阈值的情况下，能够容易确定该关键词对应于由哪个帧到哪个帧的区间。(关于用于确定被检测出关键词的帧区间的方法的详情，参照日本特开2018-155957号公报)。

另一方面，在与步骤S104的条件不一致的情况下(否)，进入步骤S106。在步骤S106中，声音关键词检测装置1判定为由始端帧t_s到终端帧t_e的声音数据不是关键词。因此，即使是关键词分数score_KW为阈值θ_KW以上时，在背景噪声分数score_BN较大的情况下，作为背景噪声的可能性也比较大，因而不判定为关键词。

然后，关键词检测部23能够通过输入输出I/F11或者通信I/F12，将上述判定的结果作为检测结果进行输出。例如，关键词检测部23在被判定为关键词的情况下，能够将该关键词作为检测结果进行输出。在不被判定为关键词的情况下，关键词检测部23可以结束处理，或者使t_e沿时间方向推进对后续的声音数据反复进行处理。在结束处理的情况下，关键词检测部23可以生成表示检测不出关键词的消息并进行输出。

(3)效果

如以上说明的那样，根据第一实施方式，声音关键词检测装置1根据声音特征量对每帧不仅计算关键词分数，还计算背景噪声分数。并且，在关键词分数score_KW大于被预先设定的关键词分数阈值θ_KW、而且背景噪声分数score_BN小于被预先设定的背景噪声分数阈值θ_BN的情况下，将有关该帧的声音数据检测为关键词。

由此，与仅以关键词分数检测关键词的情况相比，能够实现被抑制了错误检测的、精度更高的关键词检测。

[第二实施方式]

(1)结构及动作

作为有关第二实施方式的信息处理装置的声音关键词检测装置1，即使是背景噪声较强的情况下，也可以精度良好地检测关键词。

有关第二实施方式的声音关键词检测装置1能够采用与参照图1～图3说明的第一实施方式相同的系统结构及功能结构。有关第二实施方式的声音关键词检测装置1与第一实施方式一样地具有声音取得部21、包括关键词分数计算部221和背景噪声分数计算部222的分数计算部22、关键词检测部23、模型存储部31及阈值存储部32。

(实施例1)

有关第二实施方式的声音关键词检测装置1在实施例1中使用关键词分数与背景噪声分数的差分。即，关键词检测部23在关键词分数与背景噪声分数的差分大于被预先设定的分数差分阈值的情况下，判定为声音数据包含关键词。具体地，在score_KW-score_BN>θ_D的情况下，将有关该帧的声音数据判定为关键词。

图7表示有关第二实施方式的实施例1的声音关键词检测装置1的处理内容和处理步骤。在图7中，对与图4所示的有关第一实施方式的处理相同的处理标注相同的标号，并省略详细说明。

首先，在步骤S101中，声音取得部21取得声音数据并输出声音特征量。

然后，在步骤S102中，关键词分数计算部221根据每帧的声音特征量和模型的关键词成分，计算关键词分数score_KW。然后，在步骤S103中，背景噪声分数计算部222根据每帧的声音特征量和模型的背景噪声成分，计算背景噪声分数score_BN。

然后，在步骤S114中，与图4的步骤S104不同，关键词检测部23计算所计算出的关键词分数score_KW与背景噪声分数score_BN的差分，并与由阈值存储部32被读出的分数差分阈值θ_D进行比较。如果被计算出的差分大于分数差分阈值θ_D(是)，则判定为关键词(S105)，如果在分数差分阈值θ_D以下(否)，则不判定为关键词(S106)。

(实施例2)

有关第二实施方式的声音关键词检测装置1在实施例2中使用关键词分数与背景噪声分数的比率。即，关键词检测部23在关键词分数与背景噪声分数的比率大于被预先设定的分数比率阈值的情况下，判定为声音数据包含关键词。具体地，在score_KW/score_BN>θ_R的情况下，将有关该帧的声音数据判定为关键词。

图8表示有关第二实施方式的实施例2的声音关键词检测装置1的处理内容和处理步骤。在图8中，对与图4所示的有关第一实施方式的处理相同的处理标注相同的标号，并省略详细说明。

首先，在步骤S101中，声音取得部21取得声音数据并输出声音特征量。在步骤S102中，关键词分数计算部221根据每帧的声音特征量和模型的关键词成分，计算关键词分数score_KW。然后，在步骤S103中，背景噪声分数计算部222根据每帧的声音特征量和模型的背景噪声成分，计算背景噪声分数score_BN。

然后，在步骤S124中，与图4的步骤S104不同，关键词检测部23计算所计算出的关键词分数score_KW与背景噪声分数score_BN的比率，并与由阈值存储部32被读出的分数比率阈值θ_R进行比较。如果被计算出的比率大于分数比率阈值θ_R(是)，则判定为关键词(S105)，如果在分数比率阈值θ_R以下(否)，则不判定为关键词(S106)。

无论在第二实施方式的实施例1及实施例2的哪一例中，关键词检测部23都能够与第一实施方式一样地输出检测结果。例如，关键词检测部23在被判定为声音数据包含关键词的情况下，作为检测结果能够输出该关键词。

(2)效果

有关第二实施方式的声音关键词检测装置1计算关键词分数和背景噪声分数，将它们的差分或者比率与被预先设定的阈值进行比较，根据比较结果判定声音数据是否包含关键词。

在背景噪声较强的情况下，被计算出较大的背景噪声分数，因而认为存在即使是声音数据实际包含关键词的情况下，也不能检测出关键词的情况。但是，根据第二实施方式，即使是背景噪声较强、背景噪声分数较大的情况下，只要关键词分数相比背景噪声分数足够大，就能够检测出关键词。因此，与还是仅进行关键词分数的评价的情况相比，能够抑制背景噪声被错误检测为关键词，提高关键词的检测精度。

[第三实施方式]

(1)结构及动作

作为有关第三实施方式的信息处理装置的声音关键词检测装置1，在降低计算量的情况下，也可以精度良好地检测关键词。

有关第三实施方式的声音关键词检测装置1能够采用与参照图1～图3说明的第一实施方式相同的系统结构及功能结构。有关第三实施方式的声音关键词检测装置1与第一实施方式一样地具有声音取得部21、包括关键词分数计算部221和背景噪声分数计算部222的分数计算部22、关键词检测部23、模型存储部31及阈值存储部32。然而，可以包括与图3所示的箭头的朝向不同的处理。

(实施例1)

有关第三实施方式的声音关键词检测装置1在实施例1中首先根据关键词分数进行关键词候选的检测，在被检测出关键词候选的情况下，对该关键词候选的帧计算背景噪声分数，使用背景噪声分数进行是否是关键词的判定。

即，与第一及第二实施方式不同，关键词检测部23将由关键词分数计算部221计算出的关键词分数和关键词分数阈值进行比较，判定是否是具有关键词的可能性的关键词候选。并且，背景噪声分数计算部222在被检测出关键词候选的情况下，使用该关键词候选的始端信息和终端信息计算背景噪声分数。

更具体地，关键词检测部23在关键词分数score_KW大于关键词分数阈值θ_KW的情况下，判定为声音数据包含关键词候选。并且，背景噪声分数计算部222使用该关键词候选的始端帧t_s和终端帧t_e计算背景噪声分数score_BN。

然后，关键词检测部23比较背景噪声分数score_BN和背景噪声分数阈值θ_BN的大小，并判定是否是关键词。具体地，关键词检测部23在背景噪声分数score_BN小于被预先设定的背景噪声分数阈值θ_BN的情况下，判定(检测)关键词候选的始端帧t_s和终端帧t_e之间的声音数据为关键词。

图9表示有关第三实施方式的实施例1的声音关键词检测装置1的处理内容和处理步骤。另外，对与参照图4说明的有关第一实施方式的处理相同的处理，将省略详细说明。

首先，在步骤S201中，声音关键词检测装置1在声音取得部21的控制下，与第一实施方式一样地取得声音数据并输出声音特征量。

然后，在步骤S202中，声音关键词检测装置1在关键词分数计算部221的控制下，与第一实施方式一样地计算关键词分数score_KW。

在步骤S203中，声音关键词检测装置1在关键词检测部23的控制下，由阈值存储部32读出关键词分数阈值θ_KW，判定由关键词分数计算部221计算出的关键词分数score_KW是否大于关键词分数阈值θ_KW。在是关键词分数阈值以下的情况下(否)，进入步骤S207，判定为不是关键词。另一方面，在大于关键词分数阈值的情况下(是)，判定为关键词候选，进入步骤S204。

然后，在步骤S204中，声音关键词检测装置1在背景噪声分数计算部222的控制下，使用该关键词候选的始端帧t_s和终端帧t_e的信息，计算与关键词候选对应的区间的背景噪声分数score_BN并转发给关键词检测部23。

在步骤S205中，声音关键词检测装置1在关键词检测部23的控制下，由阈值存储部32读出背景噪声分数阈值θ_BN，判定所计算出的背景噪声分数score_BN是否小于背景噪声分数阈值θ_BN。在小于背景噪声分数阈值的情况下(是)，进入步骤S206，判定为关键词。另一方面，在是背景噪声分数阈值以上的情况下(否)，进入步骤S207，判定为不是关键词。

(实施例2)

有关第三实施方式的声音关键词检测装置1在实施例2中，当被检测出关键词候选的情况下，计算背景噪声分数，使用关键词分数与背景噪声分数的差分进行是否是关键词的判定。

即，与上述实施例1一样，关键词检测部23将由关键词分数计算部221计算出的关键词分数和关键词分数阈值进行比较，判定是否是具有关键词的可能性的关键词候选。并且，背景噪声分数计算部222在被检测出关键词候选的情况下，使用该关键词候选的始端信息和终端信息计算背景噪声分数。

然后，关键词检测部23计算关键词分数与背景噪声分数的差分，并比较该差分和被预先设定的分数差分阈值的大小，判定是否是关键词。具体地，与在实施方式2的实施例1中说明的一样，在score_KW-score_BN>θ_D的情况下，判定(检测)关键词候选的始端帧t_s和终端帧t_e之间的声音数据为关键词。

图10表示有关第三实施方式的实施例2的声音关键词检测装置1的处理内容和处理步骤。在图10中，对与图9所示的有关第三实施方式的实施例1的处理相同的处理标注相同的标号，并省略详细说明。

首先，在步骤S201中，声音取得部21取得声音数据并输出声音特征量。在步骤S202中，关键词分数计算部221根据每帧的声音特征量和模型的关键词成分，计算关键词分数score_KW。

在步骤S203中，关键词检测部23由阈值存储部32读出关键词分数阈值θ_KW，判定由关键词分数计算部221计算出的关键词分数score_KW是否大于关键词分数阈值θ_KW。在是关键词分数阈值以下的情况下(否)，进入步骤S207，判定为不是关键词。另一方面，在大于关键词分数阈值的情况下(是)，判定为关键词候选，进入步骤S204。

在步骤S204中，背景噪声分数计算部222计算与该关键词候选对应的区间的背景噪声分数score_BN。

然后，在步骤S215中，与图9的步骤S205不同，关键词检测部23计算所计算出的关键词分数score_KW与背景噪声分数score_BN的差分，并与由阈值存储部32被读出的分数差分阈值θ_D进行比较。如果被计算出的差分大于分数差分阈值θ_D(是)，则判定为关键词(S206)，如果在分数差分阈值θ_D以下(否)，则判定为不是关键词(S207)。

(实施例3)

有关第三实施方式的声音关键词检测装置1在实施例3中，在被检测出关键词候选的情况下，计算背景噪声分数，使用关键词分数与背景噪声分数的比率进行是否是关键词的判定。

即，与上述实施例1、2一样地，关键词检测部23将由关键词分数计算部221计算出的关键词分数和关键词分数阈值进行比较，判定是否是具有关键词的可能性的关键词候选。并且，背景噪声分数计算部222在被检测出关键词候选的情况下，使用该关键词候选的始端信息和终端信息计算背景噪声分数。

并且，关键词检测部23计算关键词分数与背景噪声分数的比率，并比较该比率和被预先设定的分数比率阈值的大小，判定是否是关键词。具体地，与在实施方式2的实施例2中说明的一样，在score_KW/score_BN>θ_R的情况下，判定(检测)关键词候选的始端帧t_s和终端帧t_e之间的声音数据为关键词。

图11表示有关第三实施方式的实施例3的关键词检测装置1的处理内容和处理步骤。在图11中，对与图9所示的有关第三实施方式的实施例1的处理相同的处理标注相同的标号，并省略详细说明。

首先，在步骤S201中，声音取得部21取得声音数据并输出声音特征量。在步骤S202中，关键词分数计算部221根据每帧的声音特征量和模型的关键词成分，计算关键词分数score_KW。在步骤S203中，关键词检测部23由阈值存储部32读出关键词分数阈值θ_KW，判定由关键词分数计算部221计算出的关键词分数score_KW是否大于关键词分数阈值θ_KW。在是关键词分数阈值以下的情况下(否)，进入步骤S207，判定为不是关键词。另一方面，在大于关键词分数阈值的情况下(是)，判定为关键词候选，进入步骤S204。在步骤S204中，背景噪声分数计算部222计算与该关键词候选对应的区间的背景噪声分数score_BN。

在步骤S225中，与图9的步骤S205不同，关键词检测部23计算所计算出的关键词分数score_KW与背景噪声分数score_BN的比率，并与由阈值存储部32被读出的分数比率阈值θ_R进行比较。如果被计算出的比率大于分数比率阈值θ_R(是)，则判定为关键词(S206)，如果是分数比率阈值θ_R以下(否)，则判定为不是关键词(S207)。

无论在第三实施方式的实施例1～3的哪一例中，关键词检测部23都能够与第一、第二实施方式一样地输出检测结果。例如，关键词检测部23在被判定为声音数据包含关键词的情况下，作为检测结果能够输出该关键词。

(2)效果

有关第三实施方式的声音关键词检测装置1首先根据关键词分数和关键词分数阈值判定是否是关键词候选。并且，在被判定为是关键词候选的情况下，对于该关键词候选的帧计算背景噪声分数。并且，声音关键词检测装置1至少根据背景噪声分数和被预先设定的阈值，进一步判定关键词候选的帧是否是关键词。

这样，根据实施方式3，对全部的声音数据不仅计算背景噪声分数，而且在被判定为关键词的可能性较大的情况下计算背景噪声分数，因而能够抑制背景噪声被错误检测为关键词，削减计算量。

[其它实施方式]

另外，本发明不限于上述实施方式。例如，在上述实施方式中将背景噪声作为一个成分(音素)进行处理，但对于背景噪声包括多种类型的情况，也能够生成模型进行学习。例如，在行驶中的汽车内，除乘客的会话和起因于移动的噪声以外，还可能产生以引擎声音为代表的恒定的噪声。或者，在会议室内，除门的开门关门和隔壁房间的会话等噪声以外，还可能产生由运转中的空调产生的风扇和电机的恒定的噪声。因此，也可以是，将背景噪声划分为这样恒定的噪声和除此以外的非恒定的噪声，对它们分别计算背景噪声分数。并且，也可以是，此时对多种类型的背景噪声分别设定不同的阈值，如对恒定的噪声设定苛刻的阈值等。由此，能够区分恒定的噪声(例如，汽车和飞机的引擎声音、电冰箱和空调等的电机声音等)、和隔壁房间的会话或人的活动声音等，可以期待进一步的精度提高。

用于求出最大累计音响分数的模型不限于音素单位的模型。例如，也可以是，以音韵、音拍、发音表述或者表述文字的单位进行模型化。并且，累计分数的计算方法不限于使用HMM和维特比算法的方法，还可以适用组合具有继续教育构造的神经网络例如长短期记忆网络(LSTM，Long short-term memory)和连接时期分类(CTC，Connectionist TemporalClassification)进行计算的方法、使用Attention Model进行计算的方法。此外，对于帧单位的音响分数计算，不限定于前馈型的神经网络，还可以适用继续教育构造的神经网络(例如LSTM)。

另外，也可以是，将关于上述实施方式所说明的声音关键词检测装置1具有的各功能部分分散配置在多个装置(服务器、边缘服务器、其它客户端终端等)中，通过这些装置相互协作进行处理。另外，各功能部分还可以使用电路来实现。电路既可以是实现特定的功能的专用电路，也可以是如处理器那样的通用电路。

另外，以上说明的各处理的流程不限于所说明的步骤，也可以更换几个步骤的顺序，还可以同时并行地实施几个步骤。此外，以上说明的一系列的处理不需要按照时间连续地执行，也可以在任意的定时执行各步骤。

上述各实施方式的处理的至少一部分例如还可以通过使用在通用的计算机中安装的处理器作为基本硬件来实现。实现上述处理的程序还可以被存储在计算机可以读取的记录介质(存储介质)中进行提供。程序作为可以安装的形式的文件或者可以执行的形式的文件被存储在存储介质中。作为存储介质有磁盘、光盘(CD-ROM、CD-R、DVD等)、光磁盘(MO等)、半导体存储器等。存储介质只要可以存储程序而且计算机可以进行读取，则可以是任意介质。并且，还可以将实现上述处理的程序存储在与因特网等网络连接的计算机(服务器)中，经由网络被下载到计算机(客户端)上。

另外，关于声音数据的取得和模型的生成等，能够在不脱离本发明的主旨的范围内进行各种各样的变形来实施。

根据以上叙述的至少一个的实施方式的信息处理装置、信息处理方法或者程序，通过在关键词分数的基础上还使用背景噪声分数，能够精度良好地根据声音检测关键词。

对本发明的几个实施方式进行了说明，但这些实施方式是作为例子提示的，并非意图限定发明的范围。这些新的实施方式能够以其他各种各样的形态实施，在不脱离发明的主旨的范围内能够进行各种各样的省略、替换、变更等。这些实施方式及其变形包含在发明的范围或主旨中，并且包含在权利要求书所记载的发明和其等价的范围中。

另外，能够将上述的实施方式总结成如下的技术方案。

技术方案1

一种信息处理装置，具有：

第一取得部，取得包括多个帧的声音数据；

第二取得部，取得模型，该模型被学习成当输入由所述声音数据被抽取的特征量时输出表示针对多个类中的各个类的似然度的信息，这些类包括特定的关键词的成分和所述关键词以外的背景噪声的成分；

第一计算部，对所述声音数据的每一所述帧抽取所述特征量并输入所述模型中，由此根据由所述模型被输出的信息计算表示所述关键词的成分的出现概率的高低的关键词分数；

第二计算部，对所述声音数据的每一所述帧抽取所述特征量并输入所述模型中，由此根据由所述模型被输出的信息计算表示所述背景噪声的成分的出现概率的高低的背景噪声分数；以及

判定部，根据所述关键词分数、所述背景噪声分数、和被预先设定的阈值，判定所述声音数据是否包含所述关键词。

技术方案2

一种信息处理装置，具有：

第一取得部，取得包括多个帧的声音数据；

第二计算部，根据所述关键词分数和被预先设定的第一阈值判定所述声音数据是否包含所述关键词的候选，在被判定为所述声音数据包含所述关键词的候选的情况下，对与所述关键词的候选对应的每一所述帧抽取所述特征量并输入所述模型中，由此根据由所述模型被输出的所述信息计算表示所述背景噪声的成分的出现概率的高低的背景噪声分数；以及

判定部，至少根据所述背景噪声分数和被预先设定的第二阈值，判定所述声音数据是否包含所述关键词。

技术方案3

根据所述技术方案1或者2，由所述模型被输出的表示所述似然度的信息还包括：作为所述关键词的成分的音素和第一隐马尔可夫模型的对应、以及作为所述背景噪声的成分的音素和第二隐马尔可夫模型的对应。

技术方案4

根据所述技术方案1或者2，所述第一计算部对每一所述帧计算作为所述关键词的成分的音素和隐马尔可夫模型的对应的出现概率，还使用维特比算法计算所述出现概率的累计值，作为所述关键词分数。

技术方案5

根据所述技术方案1或者2，所述第二计算部对每一所述帧计算作为所述背景噪声的成分的音素和隐马尔可夫模型的对应的出现概率，还使用维特比算法计算所述出现概率的累计值，作为所述背景噪声分数。

技术方案6

根据所述技术方案1，在所述关键词分数大于被预先设定的第一阈值、而且所述背景噪声分数小于被预先设定的第二阈值的情况下，所述判定部判定为所述声音数据包含所述关键词。

技术方案7

根据所述技术方案1，在所述关键词分数与所述背景噪声分数的差分大于被预先设定的第三阈值的情况下，所述判定部判定为所述声音数据包含关键词。

技术方案8

根据所述技术方案1，在所述关键词分数与所述背景噪声分数的比率大于被预先设定的第四阈值的情况下，所述判定部判定为所述声音数据包含关键词。

技术方案9

根据所述技术方案2，所述第二计算部在所述关键词分数大于所述第一阈值的情况下，判定为所述声音数据包含所述关键词的候选，并使用所述关键词的候选的始端信息和终端信息，对与所述关键词的候选对应的帧计算所述背景噪声分数，

在所述背景噪声分数小于所述第二阈值的情况下，所述判定部判定为所述声音数据包含所述关键词。

技术方案10

在所述关键词分数与所述背景噪声分数的差分大于被预先设定的第三阈值的情况下，所述判定部判定为所述声音数据包含关键词。

技术方案11

在所述关键词分数与所述背景噪声分数的比率大于被预先设定的第四阈值的情况下，所述判定部判定为所述声音数据包含关键词。

技术方案12

根据所述技术方案1或者2，所述类包括多个所述背景噪声的成分，

所述第二计算部对每一所述帧，对于所述背景噪声的多个成分中的各个成分计算所述背景噪声分数。

技术方案13

一种由信息处理装置执行的信息处理方法，包括：

取得包括多个帧的声音数据；

取得模型，该模型被学习成当输入由所述声音数据被抽取的特征量时输出表示针对多个类中的各个类的似然度的信息，这些类包括特定的关键词的成分和所述关键词以外的背景噪声的成分；

对所述声音数据的每一所述帧抽取所述特征量并输入所述模型中，由此根据由所述模型被输出的信息计算表示所述关键词的成分的出现概率的高低的关键词分数；

对所述声音数据的每一所述帧抽取所述特征量并输入所述模型中，由此根据由所述模型被输出的信息计算表示所述背景噪声的成分的出现概率的高低的背景噪声分数；以及

根据所述关键词分数、所述背景噪声分数、和被预先设定的阈值，判定所述声音数据是否包含所述关键词。

技术方案14

一种由信息处理装置执行的信息处理方法，包括：

取得包括多个帧的声音数据；

根据所述关键词分数和被预先设定的第一阈值判定所述声音数据是否包含所述关键词的候选，在被判定为所述声音数据包含所述关键词的候选的情况下，对与所述关键词的候选对应的每一所述帧抽取所述特征量并输入所述模型中，由此根据由所述模型被输出的所述信息计算表示所述背景噪声的成分的出现概率的高低的背景噪声分数；以及

至少根据所述背景噪声分数和被预先设定的第二阈值，判定所述声音数据是否包含所述关键词。

技术方案15

一种记录了程序的记录介质，所述程序使处理器执行根据所述技术方案1～12中任意一个方案所述的装置的各部分进行的处理。

Claims

1.一种信息处理装置，具有：

第一取得部，取得包括多个帧的声音数据；

第二取得部，取得模型，该模型被学习成当输入从所述声音数据抽取的特征量时输出表示针对多个类中的各个类的似然度的信息，所述类包括特定的关键词的成分和所述关键词以外的背景噪声的成分；

第一计算部，按照所述声音数据的每一所述帧抽取所述特征量并输入到所述模型中，由此根据从所述模型输出的信息计算表示所述关键词的成分的出现概率的高低的关键词分数；

第二计算部，按照所述声音数据的每一所述帧抽取所述特征量并输入到所述模型中，由此根据从所述模型输出的信息计算表示所述背景噪声的成分的出现概率的高低的背景噪声分数；以及

判定部，根据所述关键词分数、所述背景噪声分数、以及预先设定的阈值，判定所述声音数据是否包含所述关键词。

2.一种信息处理装置，具有：

第一取得部，取得包括多个帧的声音数据；

第二计算部，根据所述关键词分数、预先设定的第一阈值，判定所述声音数据是否包含所述关键词的候选，在判定为所述声音数据包含所述关键词的候选的情况下，按照与所述关键词的候选对应的每一所述帧，抽取所述特征量并输入到所述模型中，由此根据从所述模型输出的信息计算表示所述背景噪声的成分的出现概率的高低的背景噪声分数；以及

判定部，至少根据所述背景噪声分数和预先设定的第二阈值，判定所述声音数据是否包含所述关键词。

3.根据权利要求1或2所述的信息处理装置，其特征在于，

从所述模型输出的表示所述似然度的信息还包括：作为所述关键词的成分的音素和第一隐马尔可夫模型的对应、以及作为所述背景噪声的成分的音素和第二隐马尔可夫模型的对应。

4.根据权利要求1或2所述的信息处理装置，其特征在于，

所述第一计算部按照每一所述帧计算作为所述关键词的成分的音素和隐马尔可夫模型的对应的出现概率，还使用维特比算法计算所述出现概率的累计值，作为所述关键词分数。

5.根据权利要求1或2所述的信息处理装置，其特征在于，

所述第二计算部按照每一所述帧计算作为所述背景噪声的成分的音素和隐马尔可夫模型的对应的出现概率，还使用维特比算法计算所述出现概率的累计值，作为所述背景噪声分数。

6.根据权利要求1所述的信息处理装置，其特征在于，

在所述关键词分数大于预先设定的第一阈值、而且所述背景噪声分数小于预先设定的第二阈值的情况下，所述判定部判定为所述声音数据包含所述关键词。

7.根据权利要求1所述的信息处理装置，其特征在于，

在所述关键词分数与所述背景噪声分数的差分大于预先设定的第三阈值的情况下，所述判定部判定为所述声音数据包含关键词。

8.根据权利要求1所述的信息处理装置，其特征在于，

在所述关键词分数与所述背景噪声分数的比率大于预先设定的第四阈值的情况下，所述判定部判定为所述声音数据包含关键词。

9.根据权利要求2所述的信息处理装置，其特征在于，

所述第二计算部在所述关键词分数大于所述第一阈值的情况下，判定为所述声音数据包含所述关键词的候选，并使用所述关键词的候选的始端信息和终端信息，对与所述关键词的候选对应的帧计算所述背景噪声分数，

10.根据权利要求2所述的信息处理装置，其特征在于，

11.根据权利要求2所述的信息处理装置，其特征在于，

12.根据权利要求1或2所述的信息处理装置，其特征在于，

所述类包括多个所述背景噪声的成分，

所述第二计算部按照每一所述帧对于所述背景噪声的多个成分中的各个成分计算所述背景噪声分数。

13.一种由信息处理装置执行的信息处理方法，其特征在于，包括：

取得包括多个帧的声音数据；

取得模型，该模型被学习成当输入从所述声音数据抽取的特征量时输出表示针对多个类中的各个类的似然度的信息，所述类包括特定的关键词的成分和所述关键词以外的背景噪声的成分；

按照所述声音数据的每一所述帧抽取所述特征量并输入到所述模型中，由此根据从所述模型输出的信息计算表示所述关键词的成分的出现概率的高低的关键词分数；

按照所述声音数据的每一所述帧抽取所述特征量并输入到所述模型中，由此根据从所述模型输出的信息计算表示所述背景噪声的成分的出现概率的高低的背景噪声分数；以及

根据所述关键词分数、所述背景噪声分数、以及预先设定的阈值，判定所述声音数据是否包含所述关键词。