CN108665907B - 声音识别装置、声音识别方法、记录介质以及机器人 - Google Patents
声音识别装置、声音识别方法、记录介质以及机器人 Download PDFInfo
- Publication number
- CN108665907B CN108665907B CN201810156095.4A CN201810156095A CN108665907B CN 108665907 B CN108665907 B CN 108665907B CN 201810156095 A CN201810156095 A CN 201810156095A CN 108665907 B CN108665907 B CN 108665907B
- Authority
- CN
- China
- Prior art keywords
- distance
- recognition
- voice recognition
- entry
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 230000005236 sound signal Effects 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 12
- 230000007704 transition Effects 0.000 claims description 11
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 13
- 230000004044 response Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000009471 action Effects 0.000 description 8
- 230000007717 exclusion Effects 0.000 description 7
- 238000012937 correction Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0255—Control of position or course in two dimensions specially adapted to land vehicles using acoustic signals, e.g. ultra-sonic singals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S901/00—Robots
- Y10S901/01—Mobile robot
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
- Probability & Statistics with Applications (AREA)
Abstract
本发明提供一种声音识别装置、声音识别方法、记录介质以及机器人。特征量提取部(203)从数字化的声音信号提取特征量并输出到似然计算部(207)。距离判别部(201)判别说话者与声音输入源的距离。似然计算部(207)根据判别,从识别对象表(105)选择在声音识别中使用的登记语,并将所选择的登记语用于似然计算部(207)中的似然计算。似然计算部(207)基于从特征量提取部(203)取得的特征量和所选择的登记语来计算似然,将似然最大的登记语作为识别结果而输出。
Description
本申请主张以在2017年3月27日申请的日本国专利申请特愿2017-061357为基础的优先权,并将该基础申请的内容全部援引至本申请中。
技术领域
本发明涉及声音识别装置、声音识别方法、记录介质以及机器人。
背景技术
在声音识别时,存在若背景噪声等的影响较大则误识别的可能性变高这样的问题。为了避免该问题,例如,在JP特开平11-161292号公报中公开的声音识别技术,对识别对象的各声音预先准备多个标准模式,在输入了声音时,进行针对各标准模式的评分,基于得分来进行识别。该声音识别技术基于背景噪声等的影响的大小等,来变更得分,从而降低背景噪声等的影响所引起的误识别的可能性。
发明内容
本发明所涉及的声音识别装置的一个方式具备:
距离判别部,其判别到声源的距离;
声音识别部,其对声音信号进行识别;和
识别登记语设定部,其根据由所述距离判别部判别出的距离,来变更由所述声音识别部能够识别的登记语的设定。
本发明所涉及的声音识别方法的一个方式的特征在于,具备:
距离判别工序,判别到声源的距离;和
声音识别工序,对声音信号进行识别处理,
在所述声音识别工序中,以与在所述距离判别工序中判别出的距离对应的登记语的设定对声音信号进行识别处理。
本发明所涉及的记录介质的一个方式的特征在于,
使计算机执行如下工序:
距离判别工序,判别到声源的距离;和
声音识别工序,对声音信号进行识别处理,
在所述声音识别工序中,使计算机以与在所述距离判别工序中判别出的距离对应的登记语的设定对声音信号进行识别处理。
附图说明
图1是本发明的实施方式1所涉及的机器人的外观图。
图2是本发明的实施方式1所涉及的机器人的硬件结构图。
图3是本发明的实施方式1所涉及的、作为声音识别装置的机器人的框图。
图4A是说明本发明的实施方式1所涉及的识别对象表内的登记语与距离参数的图。
图4B是说明本发明的实施方式1所涉及的识别对象表内的登记语与声学模型的图。
图5是说明本发明的实施方式1所涉及的声音识别装置中使用的声学模型(HMM)的一例的图。
图6是说明本发明的实施方式1所涉及的响应数据表的图。
图7是本发明的实施方式1所涉及的声音数据存储处理的流程图。
图8是本发明的实施方式1所涉及的声源的位置判别处理的流程图。
图9是本发明的实施方式1所涉及的声音识别处理的流程图。
图10是本发明的实施方式1所涉及的对应动作执行处理的流程图。
图11是说明本发明的实施方式1所涉及的特征量提取的图。
图12是说明本发明的实施方式2所涉及的输入声音信号的削波(clipping)的图。
图13是说明本发明的实施方式2所涉及的声音识别装置中使用的识别对象排除表的图。
图14A是说明在本发明的实施方式3所涉及的声音识别装置中使用的识别对象表内进行了分组的登记语的图。
图14B是说明在本发明的实施方式3所涉及的声音识别装置中使用的识别对象表内按照每个组设定的每个距离的加权的图。
图15是用于说明根据机器人的周边的声学环境来变更登记语的识别容易度的例子的图。
图16是用于说明根据距离来切换声音识别引擎的声音识别程序的例子的图。
具体实施方式
以下,参照附图对本发明的声音识别装置以及方法、还有将该声音识别装置以及方法作为指令输入手段来使用的机器人的实施方式进行说明。
(实施方式1)
图1是从正面观察实施方式1所涉及的机器人1的外观图。
机器人1,例如,在住宅内移动,此外,与居住者进行会话等。或者,机器人1在活动会场内移动,对出席者的询问进行响应,并通过声音向出席者提供该活动的信息,或者对出席者进行引导。
机器人1具备声音识别功能,对从用户提供的声音进行识别,并将其作为指令而进行对应的动作。如图1所示,机器人1具备头部2和躯体3。
在机器人1的头部2,配置有麦克风21、摄像机22、扬声器23和传感器组24。
麦克风21配置有多个,并构成阵列麦克风,作为输入周围的声音的声音输入部而发挥功能。
摄像机22设置在鼻部的位置,在后述的控制部100的控制下,进行摄像。
扬声器23设置在口部的位置,在后述的控制部100的控制下,输出各种声音。
传感器组24设置在眼部和耳部的位置,包含测距仪、加速度传感器、障碍物探测传感器等,检测各种物理量。
头部2和躯体3通过由虚线所示的颈关节31而相互连结。颈关节31包含多个电动机,通过后述的控制部100对这些多个电动机进行驱动,从而机器人1的头部2向俯仰(pitch)方向、横滚(roll)方向、偏航(yaw)方向旋转。
行走部32包含设置在躯体3的下部的车轮(wheel)和驱动电动机。车轮包含两个前轮和两个后轮。车轮例如由全向轮、麦克纳姆轮(Mecanum wheel)构成。后述的控制部100通过对电动机进行驱动而使车轮旋转,从而使机器人1移动。
接下来,参照图2对机器人1的硬件结构进行说明。
如图2所示,机器人1除了具备上述的麦克风21、摄像机22、扬声器23、传感器组24、颈关节31、行走部32以外,还具备操作按钮33、存储部101和控制部100。
操作按钮33是设置在躯体3的后背的位置的操作用按钮,包含电源按钮、音量调节按钮等。
存储部101包含闪存等,存储由后述的控制部100执行的程序、各种数据等。具体而言,存储部101存储距离判别程序102、声音识别程序103、动作控制程序104、识别对象表105、响应数据表106。
距离判别程序102是如下程序,即,从由多个麦克风21取得的声音信号,通过MUSIC(MUltiple SIgnal Classification,多重信号分类)法等波源推定法,来求取声源的方向和距离。在该实施方式中,声源为机器人1的用户。
声音识别程序103是如下程序,即,参照识别对象表105对由麦克风21取得的声音信号进行识别,并变换为文本数据。相当于识别结果的文本数据成为对机器人1的一种指令。声音识别程序103同时进行如下这样的特征性处理:随着到声源的距离变远,使识别对象表105的使用范围减少,即,使识别对象的登记语的数量减少。声音识别处理的详情参照图9在后面叙述。
动作控制程序104参照响应数据表106,针对扬声器23和颈关节31以及行走部32的电动机执行与相当于从声音识别程序103输出的识别结果的文本数据对应的控制,由此使机器人1执行响应于用户的呼叫的动作。
识别对象表105是具有作为根据到声源的距离来变更由声音识别程序103识别的登记语的识别登记语设定部的功能的部分,成为由声音识别程序103识别的对象的登记语(能够识别的登记语)按距离进行定义。另外,设为识别对象的各登记语是作为声音识别的单位的语句,不仅包含作为语法上的最小的语言单位的单词,而且广泛地包含词语、句子、语句、短语等。如图4A所示,各登记语与到声源的距离建立对应,设定为随着到声源的距离变长,识别对象的登记语(能够识别的登记语)阶段性地减少,而不能识别的登记语阶段性地增加。例如,在图4A的例子中,如果到声源的距离L大于10m,就会将识别对象的登记语设为0,不进行声音识别,此外,若到声源的距离L大于5.0m且为10m以下,则仅将“喂~”、“机器人1的名字”、“过来这里”这三个登记语设为识别的对象。此外,在到声源的距离L大于1.5m且为5.0m以下的情况下,直接建立了对应的“哎哎”等4个登记语和与大于5.0m且为10m以下建立了对应的“喂~”等3个登记语的共计7个登记语成为识别的对象。同样地,在到声源的距离L为0.5m以下的情况下,所登记的全部登记语成为识别对象。
若从另外的观点进行说明,则识别对象表105设定了可识别范围,使得到声源的距离为第一长度的情况下的能够识别的登记语的集合包含于到声源的距离比第一长度短的情况下的能够识别的登记语的集合。
换言之,识别对象表105根据距离来变更由声音识别程序103对输入声音进行识别的登记语。或者,识别对象表105随着到声源的距离变长,减少由声音识别程序103对输入声音进行识别的登记语。或者,识别对象表105根据到声源的距离,变更由声音识别程序103对输入声音进行识别的登记语的识别容易度。
进而,在识别对象表105中,如图4B所示,将各登记语与其声学模型的数据相关联。在此,设声学模型为HMM。如图5所例示的那样,HMM是表示声音从某个转变源的状态转变到下一个转变目标的状态的概率的公知的模型。另外,在图5中,若将i、j和t设为自然数,则Si表示各状态,aij表示从状态Si向状态Sj转变的概率,ot表示在状态转变时以给定的概率输出的特征向量,bj(ot)表示转变到状态Sj时输出ot的概率。声学模型内的这些参数通过预先对登记语进行声音学习而设定。
如图6所例示的那样,图2所示的响应数据表106是对基于声音识别程序103的识别结果、和在得到该识别结果时控制部100执行的处理进行定义的数据。另外,识别结果是在识别对象表105中作为识别对象而登记的登记语中的任意一者。
控制部100具备处理器(Processor)、RAM(Random Access Memory,随机存取存储器)等,与机器人1的上述的各部连接。控制部100通过执行存储在存储部101中的距离判别程序102、声音识别程序103和动作控制程序104,从而对来自麦克风21的声音数据进行处理,并通过对扬声器23和颈关节31以及行走部32内的电动机进行驱动,从而使机器人1执行相当于对声音的反应或者响应的动作。关于控制部100的动作的详情在后面叙述。
控制部100通过执行存储在存储部101中的距离判别程序102、声音识别程序103和动作控制程序104,从而在功能上作为图3所示的距离判别部201、声音识别部202和驱动部208而发挥功能。
距离判别部201对从多个麦克风21输入的声音信号进行处理,判别机器人1与声源的距离,并将表示所判别出的距离的距离数据输出到声音识别部202内的似然计算部207。该功能通过距离判别程序102和控制部100来实现。
声音识别部202具备特征量提取部203和似然计算部207。特征量提取部203从存储于内部RAM的声音信号提取特征量,并将所提取出的特征量作为特征向量序列而输出到似然计算部207。
似然计算部207基于从特征量提取部203取得的特征向量序列、从距离判别部201取得的距离数据和登记于识别对象表105的登记语来进行声音识别,并输出识别结果。更详细来说,似然计算部207,i)基于距离数据所示的到声源的距离,来确定登记于识别对象表105的登记语中的设为识别的对象的登记语,ii)对所确定的登记语的声学数据与从特征量提取部203取得的特征向量序列进行比较,iii)由此求取各登记语的似然,iv)将似然最高并且为阈值以上的登记语作为识别结果而输出。声音识别部202内的这些功能通过声音识别程序103和控制部100来实现。
驱动部208通过参照响应数据表106,将声音识别部202输出的识别结果作为一种指令,进行对应的控制,从而使机器人1执行朝向用户发出声音或者转向用户的方向,靠近用户等动作。驱动部208的功能通过动作控制程序104和控制部100来实现。
接下来,说明具有上述结构的机器人1的动作。
机器人1的动作大致划分为如下这些动作:i)输入并存储来自用户的声音;ii)从所存储的声音数据求取到用户的距离;iii)按照所求取出的距离,限制设为识别的对象的登记语并且对声音数据进行识别;iv)进行与识别结果对应的动作。
因此,以下,划分场景按顺序进行说明。
首先,说明机器人1取入用户发出的声音并存储的动作。
控制部100在电源接通(ON)的期间,连续执行图7所示的声音数据存储处理。
若开始该处理,则控制部100判别是否对麦克风21输入了声音(步骤S11)。在判别为未输入声音的情况下(步骤S11:“否”),返回至步骤S11。
另一方面,在判别为输入了声音的情况下(步骤S11:“是”),将来自全部麦克风21的声音信号数字化(步骤S12),存储到内部RAM(步骤S13),并返回至步骤S11。这样,用户发出的声音以数字声音信号的形式依次保存到内部RAM中。
控制部100的距离判别部201在电源接通的期间,执行图8所示的声源位置判别处理。
若开始处理,则距离判别部201使用MUSIC法声源定位方法对保存于内部RAM的由多个麦克风21取得的声音数据进行处理,从而判别用户的位置(步骤S21)。
接着,距离判别部201将表示到所判别出的位置的距离的距离数据和表示方向的方向数据存储到内部RAM中(步骤S22),并返回至步骤S21。
进而,控制部100的声音识别部202在电源接通的期间,连续执行图9所示的声音识别处理。
若开始处理,则声音识别部202判别在内部RAM中是否存储有新的声音数据(步骤S31)。在判别为未存储新的声音数据的情况下(步骤S31:“否”),返回至步骤S31。
另一方面,在判别为存储有新的声音数据的情况下(步骤S31:“是”),特征量提取部203从由多个麦克风21得到的多个声音信号中,确定振幅最大的声音数据,并从所确定的声音数据提取特征量(步骤S32)。此时,如图11所示,特征量提取部203将固定的帧宽度的处理帧每次挪动固定的帧移位(frame shift)而取得声音数据,以所取得的声音数据为单位来提取特征量。作为特征量,例如,使用由12个值的组构成的MFCC(Mel-FrequencyCepstral Coefficient,梅尔频率倒谱系数)。特征量提取部203将这些12个值的组作为一个12维的特征向量,并且将使特征向量按照帧的时序顺序排列的序列作为特征向量序列。特征量提取部203将从声音信号得到的特征向量序列输出到似然计算部207。
接着,似然计算部207从距离判别部201取得表示到作为声源的用户的距离的距离数据(步骤S33)。然后,基于距离数据参照图4A所示的识别对象表105,确定设为声音识别的对象的登记语(步骤S34)。例如,在距离数据为7m的情况下,似然计算部207仅将距离大于5.0m且为10.0m以下用的3个登记语确定为识别对象。另一方面,在距离数据为1m的情况下,将距离为0.5~1.5、1.5~5.0、5.0~10.0的登记语确定为识别对象。
接着,似然计算部207选择确定为识别对象的登记语中的一个(步骤S35)。
接着,似然计算部207参照图4B所示的识别对象表105,来求取所选择的登记语的声学模型,并计算所求取出的声学模型输出从特征量提取部203取得的特征向量o的序列O的似然(步骤S36)。若取图5为例,则在特征向量序列O表示为
O=(o1,o2,o3,o4,o5)
的情况下,在声学模型M中输出特征向量序列O的概率P(O,M)由下面的累计值表示。
P(O,M)=a12b2(o1)×a22b2(o2)×a23b2(o3)×···
这成为似然。另外,aij表示从状态Si向状态Sj转变的概率,ot表示在状态转变时以给定的概率输出的第t个特征向量,bj(ot)表示转变到状态Sj时输出ot的概率。
接着,判别是否针对在步骤S34中确定的全部登记语,已经完成似然的计算(步骤S37)。若判别为残留有尚未计算似然的登记语(步骤S37:“否”),则返回至步骤S35,选择一个未处理的登记语,继续进行同样的处理。若针对全部登记语已经完成似然的计算(步骤S37:“是”),则将所计算出的似然相互比较,输出被计算出最大并且阈值以上的似然的登记语作为识别结果(步骤S38),并返回至步骤S31对下一个声音信号的输入进行待机。
控制部100的驱动部208在电源接通的期间,连续地进行图10所示的对应动作执行处理。
驱动部208判别基于声音识别部202的识别结果的输出的有无(步骤S41)。在判别为没有识别结果的输出的情况下(步骤S41:“否”),返回至步骤S41。
另一方面,在判别为有识别结果的输出的情况下(步骤S41:“是”),驱动部208参照响应数据表106,对扬声器23、颈关节31内的电动机、行走部32内的电动机进行驱动来进行与识别结果对应的动作(步骤S42)。
以上,单独地说明了机器人1的动作。通过并行进行这些动作,从而机器人1能够针对来自用户的声音进行如下这样的动作,即,从扬声器23以声音进行回应,驱动颈关节31使面部朝向用户,并朝向用户进行移动。虽然对于来自用户的远距离的搭话,很多的登记语变得无法识别,但是关于没想为从远距离被搭话的登记语,误识别为其他的登记语的可能性降低,作为结果,背景噪声等的影响所引起的误识别率降低。这样,能够得到无论背景噪声如何都具有高识别率的声音识别装置以及方法、和能够以高识别率识别声音指令的机器人。
在上述的实施方式中,示出了机器人1与用户的距离越远,越对设为识别的对象的登记语进行限定,由此降低环境噪声的影响的例子,但是除此之外,也可以在与用户的距离比给定的距离近的情况下,将在与用户的距离较远的情况下设为识别的对象的登记语排除在识别的对象之外。在该情况下,在与用户的距离比给定的距离近的情况下,设想为从远距离被搭话的登记语变为识别的对象之外,因此成为识别对象的登记语会受到限制,作为结果,背景噪声等的影响所引起的误识别率降低。
此外,在上述的实施方式中,构成为在判别为有识别结果的输出的情况下参照响应数据表106,进行与识别结果对应的动作,但是并不限于此,也可以构成为取得全部来自麦克风21的声音数据,根据机器人1与用户的距离来进行所取得的声音数据的声音识别,并对扬声器23、颈关节31内的电动机、行走部32内的电动机进行驱动来进行与识别结果对应的动作。
这样,在本实施方式中,识别对象表105也根据距离来变更声音识别程序103识别输入声音的登记语。或者,识别对象表105根据到声源的距离来变更各登记语在声音识别部202中的识别容易度。
(实施方式2)
在实施方式1中,示出了距用户越远,越对设为识别的对象的登记语进行限定,由此降低环境噪声的影响的例子。本发明并不限定于此。例如,在距用户的距离较近的情况下,由麦克风收集的声音过大,如图12所示,存在麦克风输出的声音数据发生削波而失真的情况。在这样的情况下,若将大量的登记语作为识别对象来进行识别处理,则识别率也会下降。因此,在本实施方式中,在到用户的距离为基准以下的情况下,也限制设为识别对象的登记语的数量,从而降低误识别。
本实施方式的机器人1以小型的宠物机器人等能够在与说话者的距离某种程度接近的状态下使用为前提。此外,存储部101将图13中例示的识别对象排除表107与识别对象表105一起存储。识别对象排除表107是指示在与声源的距离成为所设定的距离以下,例子中成为0.2m以下时,从声音识别的对象中将所登记的“过来这里”等登记语排除在外的表。
该表对可识别范围进行了设定,使得到声源的距离为第二长度的情况下的能够识别的登记语的集合包含在到声源的距离比第二长度长的情况下的能够识别的登记语的集合中。
在本实施方式中,在图9所示的声音识别处理的步骤S34中,根据距离数据和图4A所示的识别对象表105,来确定设为声音识别的对象的登记语。接着,从所确定的登记语中,利用距离数据和图13所示的识别对象排除表107将设为排除对象的登记语排除在外,确定为声音识别对象的登记语。例如,在到声源的距离为0.2m以下的情况下,若根据识别对象表105则将所登记的全部登记语设为识别的对象,但是根据识别对象排除表107,将“过来这里”等登记语从识别对象中排除。登记在识别对象排除表107中的登记语,例如,是预想为仅在距离比较远时使用的登记语。
另外,虽然示出了在到声源的距离为近距离的情况下,将一部分的登记语从识别对象中排除的例子,但是也可以根据距离,从全部登记语中,对从识别对象排除的登记语建立对应地登记。
这样,在实施方式2中,也通过根据用户与机器人1的距离,使识别对象的登记语变化,从而防止了声音识别率的下降。
(实施方式3)
在上述实施方式中,在到用户的距离较远时和较近时,限制设为识别的对象的登记语,对其数量进行了限定。换言之,从识别的对象中进行了排除。
但是,可能存在如下情况,即,向较远位置的机器人,以较大的声音说出犹如在附近时那样的话语。在这样的情况下,机器人完全无视用户有时反而会显得不自然。
因此,在本实施方式中,不从识别的对象中排除登记语,取而代之,根据到用户的距离,使表示识别对象的登记语的识别的容易度的权重发生变化。
另外,本实施方式的机器人1的基本结构与实施方式1的结构相同。
但是,在识别对象表105、似然计算部207,与实施方式1存在不同之处。
关于识别对象表105,如图14A所示,按照设想使用登记语的每个距离将各登记语进行分组,并如图14B所示,针对各组按每个距离设定了加权参数。例如对于作为属于中距离的组的登记语的“看这里”,距离L为0.5m的情况下的加权参数成为2。
似然计算部207针对各登记语,在图9的步骤S36计算似然,进而,将所计算出的似然与对应于距离L的加权参数相乘来求积。以下,将该积称为校正似然。似然计算部207将该校正似然为阈值以上并且最大的登记语作为识别结果而输出。即,加权参数起到如下作用:根据远近使应识别的登记语的识别优先级变动,从而变更能够识别的登记语。
更具体地进行说明。作为第一例,考虑用户向相距7m的机器人1说出“过来这里”的情况。“过来这里”是属于极近以外组的登记语,与属于中距离组的“看这里”在声学上类似。因为距离数据为7m,所以“过来这里”的加权参数为1,“看这里”的加权参数为0.3。因此,相比于“看这里”,“过来这里”的校正似然容易变得更大,能够减少误识别。
作为第二例,考虑用户同样向相距7m的机器人1说出“告诉我天气”的情况。在该情况下,在实施方式1的情况下能够识别“告诉我天气”的可能性为零。另一方面,在该实施方式3的情况下,“告诉我天气”是属于中距离组的登记语,因为距离数据为7m,所以加权参数为0.3。因此,若是背景噪声的影响较少的状态,或者不存在其他在声学上与“告诉我天气”类似的登记语的状态,则可以认为“告诉我天气”的校正似然会成为最大。因此能够识别“告诉我天气”。
像这样,通过将登记语按设想使用的每个距离进行分组并进行加权,从而能够根据距离降低误识别的可能性,同时还保留即使从用户发出的话语来自设想距离外也能够识别的可能性。
以上,关于实施方式3的说明设为将登记语按设想使用的每个距离进行分组并进行加权来进行了说明,但即使不进行分组,而针对各登记语,按设想使用的每个距离来设定加权参数,也能够实现该实施方式3的目的。
在本实施方式中,识别对象表105也根据距离来变更声音识别程序103识别输入声音的登记语。或者,识别对象表105根据到声源的距离来变更各登记语在声音识别部202中的识别容易度。
(实施方式4)
如上所述,与想要识别的登记语在声学上类似的登记语作为识别对象的登记语而存在的情况下,识别率会下降。为了解决该问题,期望对识别对象表进行设计,使得根据距离,从识别候补中将在声学上类似的登记语排除。
例如,在实施方式1中,在识别对象表105为图4A以及图4B所示的识别对象表的情况下,“看这里”以及“喂喂”仅在距离数据小于5.0m的情况下成为识别候补。另一方面,在距离数据为5.0m以上的情况下使用的登记语“过来这里”与“看这里”在声学上类似,但是不存在与“喂喂”在声学上类似的登记语。因此,在距离数据例如为7m的情况下,若不从识别候补中将“看这里”排除,则“过来这里”的识别率会下降,但是即使“喂喂”不从识别候补中排除,识别率也不那么下降。因此,通过虽然在形式上进行与距离相应的分组,但基于在声学上是否类似来进行识别候补的排除,从而能够同时实现识别率的维持和能够识别的语句数量的确保。
即,识别对象表105设定为,基于到声源的距离,将第一登记语维持为能够识别,同时将与该第一登记语在声学上类似的第二登记语从能够识别的登记语变更为不能识别的登记语。
(变形例)
作为上述四个实施方式的变形例,也可以构成为在机器人1的周边的声音为无声或者接近于无声的情况下,优先识别分类为呼叫的话语。
例如,距离判别部201根据由麦克风21输入的多个声音信号,如图15所示,确定周围的声源的位置。声音识别部202在判别为声源不存在于机器人1的周边的半径r内的情况下,能够推定为用户不在机器人1的周边,被用户搭话的情况是从远处呼叫的。考虑这一点,也可以设定为,在判别为用户不在机器人1的半径r内的情况下,使登记在识别对象表105中的登记语中的相当于呼叫的登记语的识别变得容易。例如,也可以仅将呼叫系的登记语设为识别对象。此外,在实施方式3中,也可以使属于“极近以外”组的登记语的加权增加等。另外,作为机器人1的周围而例示了半径r的圆,但周围的形状和尺寸是任意的。
此外,作为其他的变形例,也可以使得在声音识别程序103中能够使用多个声音识别引擎,基于距离判别部201取得的距离数据,选择多个声音识别引擎中的一个最佳的来进行声音识别。一般来说,在用户和机器人1较远的情况下,用户大多对机器人1说出单词或较短的语句,在较近的情况下大多说出较长的语句。图4A以及图4B所示的识别对象表105考虑该倾向而设定。因此,如图16所例示的那样,在距离数据为1.5m以上的情况下使用单词识别用声音识别引擎,在小于1.5m的情况下使用语句识别用声音识别引擎来进行声音识别,由此能够实现识别率的提高。
以上,通过四个实施方式以及它们的变形例对本发明的实施方式进行了说明。全都是通过基于用户与机器人1的距离所涉及的距离数据和与登记语建立了关联的参数,来进行应识别的登记语的推定,从而实现了声音识别率的提高。在实施方式1以及2中,因为似然计算部207使用的登记语根据距离数据而变化,能够识别的登记语的集合变动,所以可以说是基于距离数据和参数来进行应识别的登记语的推定。在实施方式3中,由于基于距离数据,由似然计算部207进行乘法运算的加权参数变化,因此可以说是基于距离数据和参数来进行应识别的登记语的推定。
此外,例如在实施方式1中将识别对象的登记语根据距离而切换为四个阶段,但是对于该阶段不必特别进行限定,例如可以是两个阶段,也可以是十个阶段。此外,在实施方式1中从一个识别对象表根据距离对识别对象进行了限制,但是识别对象的登记语的切换并不特别限定于在一个表中施加限制的方法。例如,也可以具备多个识别对象表并根据距离进行切换。
此外,在实施方式1中,示出了如下例子,即,通过距用户越远,越对设为识别的对象的登记语进行限定,从而降低环境噪声的影响。进而,在实施方式3中,示出了将登记语按照设想使用的每个距离进行分组并进行加权的例子。这些不仅能够单独地实施,还可以通过将两者进行组合来识别登记语,从而降低背景噪声等的影响所引起的误识别率。
此外,在实施方式1的说明中,针对在从机器人1到声源的距离L大于10m时不进行声音识别进行了例示。此时,也可以通过由控制部100对行走部32进行控制,从而使机器人1移动到成为能够进行声音识别的距离。换言之,机器人1也可以在由声音识别部202不能识别声音信号的情况下,根据由距离判别部201判别出的距离L、和通过识别对象表105与能够识别的登记语建立了对应的距离的范围,进行移动。
另外,本发明的技术范围并不限于上述实施方式以及它们的变形例,能够进行各种变形。例如关于距离的判别,不仅可以通过位置判别处理对来自麦克风21的声音信号进行处理来求取声源的距离,也可以将通过摄像机22的自动对焦功能而得到的焦点距离作为到声源的距离来使用,还可以在传感器组24的一个采用激光距离计,利用其来求取到声源的距离。另外,用户与机器人的距离的判别不必是严格的,只要是能够根据距离数据对登记语赋予参数的程度即可。
以上,说明了作为机器人的输入装置而利用声音识别装置以及方法的例子,但是本发明的声音识别装置以及方法也可以是与其他装置独立地使用的声音识别装置以及方法,此外,也可以作为机器人以外的其他的机械装置、计算机、通信装置等的输入装置来利用。
以上,对本发明的优选实施方式进行了说明,但本发明并不限定于这些特定的实施方式,在本发明中,包含记载于权利要求书的发明及其等同的范围。
Claims (14)
1.一种声音识别装置,具备:
距离判别部,其判别到声源的距离;
声音识别部,其对声音信号进行识别;和
识别登记语设定部,其根据由所述距离判别部判别出的距离,来变更由所述声音识别部能够识别的登记语的设定,
所述识别登记语设定部对能够识别的登记语进行设定,使得所述距离判别部判别出的距离为第二长度的情况下的能够识别的登记语的集合包含在所述判别出的距离比第二长度长的情况下的能够识别的登记语的集合中。
2.根据权利要求1所述的声音识别装置,其特征在于,
所述识别登记语设定部确定能够识别的登记语和不能识别的登记语,根据由所述距离判别部判别出的距离来变更能够识别的登记语的数量,
所述声音识别部利用设定为能够识别的所述登记语对声音信号进行识别。
3.根据权利要求1所述的声音识别装置,其特征在于,
还具备:特征量提取单元,其从声音信号求取特征量,
所述声音识别部基于由所述特征量提取单元提取出的特征量和所述能够识别的登记语的声音数据,对声音信号进行识别。
4.根据权利要求3所述的声音识别装置,其特征在于,
由所述特征量提取单元求取出的特征量包含特征向量序列信息。
5.根据权利要求4所述的声音识别装置,其特征在于,
还具备:似然计算单元,其计算所述能够识别的登记语各自输出由所述特征量提取单元求取出的特征量中包含的特征向量序列的似然,
所述声音识别部基于计算出的似然,进行声音信号的识别。
6.根据权利要求5所述的声音识别装置,其特征在于,
所述似然计算单元求取遍及所述特征向量序列对从转变源的状态向转变目标的状态的转变概率、和状态转变时在该转变目标的状态下输出所述特征向量序列所涉及的各特征向量的概率反复进行乘法运算而得到的累计值。
7.根据权利要求1所述的声音识别装置,其特征在于,
还具备:声音输入部,其从外部输入声音信号,并提供给所述声音识别部。
8.根据权利要求1所述的声音识别装置,其特征在于,
由所述声音识别部能够识别的登记语与给定的距离的范围建立了对应。
9.根据权利要求1所述的声音识别装置,其特征在于,
所述识别登记语设定部基于所述判别出的距离,将第一登记语维持为能够识别,同时将与该第一登记语在声学上类似的第二登记语从能够识别的登记语变更为不能识别的登记语。
10.一种机器人,其特征在于,
具备权利要求1所述的声音识别装置,
基于所述声音识别装置的声音识别的结果进行动作。
11.根据权利要求10所述的机器人,其特征在于,
由所述声音识别部能够识别的登记语与给定的距离的范围建立对应,
在由所述声音识别部不能识别声音信号的情况下,
根据由所述距离判别部判别出的距离和所述给定的距离的范围进行移动。
12.一种声音识别方法,其特征在于,具备:
距离判别工序,判别到声源的距离;
声音识别工序,对声音信号进行识别处理;和
识别登记语设定工序,根据在所述距离判别工序中判别出的距离,来变更在所述声音识别工序中能够识别的登记语的设定,
在所述识别登记语设定工序中,对能够识别的登记语进行设定,使得在所述距离判别工序中判别出的距离为第二长度的情况下的能够识别的登记语的集合包含在所述判别出的距离比第二长度长的情况下的能够识别的登记语的集合中。
13.一种保存程序的记录介质,其特征在于,
所述程序使计算机执行如下工序:
距离判别工序,判别到声源的距离;
声音识别工序,对声音信号进行识别处理;和
识别登记语设定工序,根据在所述距离判别工序中判别出的距离,来变更在所述声音识别工序中能够识别的登记语的设定,
在所述识别登记语设定工序中,对能够识别的登记语进行设定,使得在所述距离判别工序中判别出的距离为第二长度的情况下的能够识别的登记语的集合包含在所述判别出的距离比第二长度长的情况下的能够识别的登记语的集合中。
14.根据权利要求13所述的记录介质,其特征在于,
在所述声音识别工序中,基于在所述距离判别工序中判别出的距离来选择多个声音识别引擎中的一个,并使计算机执行基于所选择的所述声音识别引擎的声音信号的识别处理。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017061357A JP6705410B2 (ja) | 2017-03-27 | 2017-03-27 | 音声認識装置、音声認識方法、プログラム及びロボット |
JP2017-061357 | 2017-03-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108665907A CN108665907A (zh) | 2018-10-16 |
CN108665907B true CN108665907B (zh) | 2023-04-28 |
Family
ID=63583545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810156095.4A Active CN108665907B (zh) | 2017-03-27 | 2018-02-23 | 声音识别装置、声音识别方法、记录介质以及机器人 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10540972B2 (zh) |
JP (1) | JP6705410B2 (zh) |
CN (1) | CN108665907B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3553775B1 (en) * | 2018-04-12 | 2020-11-25 | Spotify AB | Voice-based authentication |
CN111754995B (zh) * | 2019-03-29 | 2024-06-04 | 株式会社东芝 | 阈值调整装置、阈值调整方法以及记录介质 |
WO2019172735A2 (ko) * | 2019-07-02 | 2019-09-12 | 엘지전자 주식회사 | 커뮤니케이션 로봇 및 그의 구동 방법 |
TWI756966B (zh) * | 2020-12-04 | 2022-03-01 | 緯創資通股份有限公司 | 視訊裝置與其操作方法 |
JP7511623B2 (ja) | 2022-12-08 | 2024-07-05 | 株式会社アドバンスト・メディア | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0736477A (ja) * | 1993-07-16 | 1995-02-07 | Ricoh Co Ltd | パターンマッチング方式 |
JPH10143190A (ja) * | 1996-11-11 | 1998-05-29 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP3900628B2 (ja) | 1997-11-21 | 2007-04-04 | ソニー株式会社 | 音声認識装置 |
JP2003131683A (ja) * | 2001-10-22 | 2003-05-09 | Sony Corp | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
JP4247002B2 (ja) * | 2003-01-22 | 2009-04-02 | 富士通株式会社 | マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置 |
JP2005335001A (ja) | 2004-05-26 | 2005-12-08 | Sony Corp | ロボット制御装置および方法、記録媒体、並びにプログラム |
JP2008064892A (ja) | 2006-09-05 | 2008-03-21 | National Institute Of Advanced Industrial & Technology | 音声認識方法およびそれを用いた音声認識装置 |
JP5200712B2 (ja) * | 2008-07-10 | 2013-06-05 | 富士通株式会社 | 音声認識装置、音声認識方法及びコンピュータプログラム |
JP2013072904A (ja) * | 2011-09-26 | 2013-04-22 | Toshiba Corp | 音声認識方法および音声認識装置 |
JP2013257418A (ja) * | 2012-06-12 | 2013-12-26 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
-
2017
- 2017-03-27 JP JP2017061357A patent/JP6705410B2/ja active Active
-
2018
- 2018-01-31 US US15/884,741 patent/US10540972B2/en active Active
- 2018-02-23 CN CN201810156095.4A patent/CN108665907B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108665907A (zh) | 2018-10-16 |
US20180277111A1 (en) | 2018-09-27 |
JP6705410B2 (ja) | 2020-06-03 |
JP2018163313A (ja) | 2018-10-18 |
US10540972B2 (en) | 2020-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108665907B (zh) | 声音识别装置、声音识别方法、记录介质以及机器人 | |
US12100396B2 (en) | Indicator for voice-based communications | |
US9972339B1 (en) | Neural network based beam selection | |
US10074369B2 (en) | Voice-based communications | |
US10453449B2 (en) | Indicator for voice-based communications | |
US8275616B2 (en) | System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands | |
US11651780B2 (en) | Direction based end-pointing for speech recognition | |
US9159319B1 (en) | Keyword spotting with competitor models | |
US10872599B1 (en) | Wakeword training | |
JP5174937B2 (ja) | 音声認識装置及び方法 | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
US20230386461A1 (en) | Voice user interface using non-linguistic input | |
US12080269B2 (en) | Synthetic speech processing | |
US11348579B1 (en) | Volume initiated communications | |
WO2018045154A1 (en) | Voice-based communications | |
US11693622B1 (en) | Context configurable keywords | |
US10623843B1 (en) | Using bandwidth-limited audio devices | |
WO2021098318A1 (zh) | 应答方法、终端及存储介质 | |
KR20190059381A (ko) | 자동 음성/제스처 인식 기반 멀티미디어 편집 방법 | |
WO2021146857A1 (zh) | 音频处理方法及装置 | |
JP7511374B2 (ja) | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム | |
JP4539313B2 (ja) | 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット | |
WO2024044586A1 (en) | Methods, devices and systems for implementing pinned-state connectionist sequential classification | |
Kim | Discriminative Modeling For Always-On Robust Keyword Spotting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TG01 | Patent term adjustment | ||
TG01 | Patent term adjustment |