Nothing Special   »   [go: up one dir, main page]

CN106340309A - 一种基于深度学习的狗叫情感识别方法及装置 - Google Patents

一种基于深度学习的狗叫情感识别方法及装置 Download PDF

Info

Publication number
CN106340309A
CN106340309A CN201610709581.5A CN201610709581A CN106340309A CN 106340309 A CN106340309 A CN 106340309A CN 201610709581 A CN201610709581 A CN 201610709581A CN 106340309 A CN106340309 A CN 106340309A
Authority
CN
China
Prior art keywords
cry
barking
signal
model
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610709581.5A
Other languages
English (en)
Other versions
CN106340309B (zh
Inventor
居一
刘美丽
刘家铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Kechakoyate Network Technology Co.,Ltd.
Original Assignee
Nanjing Great Air Wing Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Great Air Wing Information Technology Co Ltd filed Critical Nanjing Great Air Wing Information Technology Co Ltd
Priority to CN201610709581.5A priority Critical patent/CN106340309B/zh
Publication of CN106340309A publication Critical patent/CN106340309A/zh
Application granted granted Critical
Publication of CN106340309B publication Critical patent/CN106340309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于深度学习的狗叫情感识别方法,包括:基于狗的叫声设计叫声存储层、端点检测层、带注意力模块的前馈深度神经网络模型、卷积神经网络模型、线性集成模型;叫声信号经存储、端点检测后计算MFCC特征,训练带注意力模块的前馈深度神经网络模型,判断狗叫声和非狗叫声;计算狗叫信号的MFCC特征和Mel Filterbank特征,交叉输入训练带注意力模块的前馈深度神经网络模型和卷积神经网络模型,将产生的四个模型线性集成,识别狗叫的十种情感,并将结果可视化。此外,本发明还提供了一种基于深度学习的狗叫情感识别转装置,本装置可以实时监测狗叫的感情变化,且能够远程显示其感情状态。

Description

一种基于深度学习的狗叫情感识别方法及装置
技术领域
本发明属于声音技术处理领域,具体是一种基于深度学习的狗叫情感识别方法及装置。
背景技术
现代家庭生活中,狗越来越成为重要的一份子。但是在我们与它们相处的过程中,并不能及时了解它们的需求,如想吃饭、想玩、想出去溜;在它们出现负面情绪,如害怕、警觉、愤怒、委屈、悲伤时也不能及时提供安慰和解决;更不能和他们共同分享正面情绪(开心)。在现有技术中,深度学习研究的蓬勃发展,使得人语音识别的准确率得到了极大的提高,但是在动物叫声信号的处理和感情分类上还处于空白状态。
发明内容
针对上述现有技术存在的问题,本发明的目的是提供一种基于深度学习的狗叫情感识别方法及装置。本装置能够实时监测狗叫的感情变化,且能够远程显示其感情状态。
为了实现上述目的,本基于深度学习的狗叫情感识别方法,包括:
基于狗的叫声设计叫声存储层、叫声信号端点检测层、带注意力模块的前馈深度神经网络模型、卷积神经网络模型、线性集成模型;
叫声语音信号经存储、声音端点检测后计算MFCC特征,训练带注意力模块的前馈深度神经网络模型,判断狗叫声和非狗叫声;计算狗叫信号的MFCC特征和Mel Filterbank特征,交叉输入训练带注意力模块的前馈深度神经网络模型和卷积神经网络模型,将产生的四个模型线性集成,识别狗叫的十种情感,并将结果可视化。
进一步,所述叫声存储层的叫声存储格式为PCM格式。
进一步,所述叫声信的端点检测,其包括如下步骤:
(1)将采集的叫声信号按秒分帧,加窗,计算每帧信号的短时能量:和短时过零率其中N=400,xn为第n帧叫声信号,其中
(2)采用双门限法,剔除噪音,并将有效语音信号发送至叫声检测单元。
进一步,所述带注意力模块的前馈深度神经网络模型,包含一个注意力层,3个全连接层和一个Softmax分类层,其中的注意力机制的公式为:
ht=LReLu(wxhxt+bxh);(3)
et=a(ht)=tanh(whcxt+bhc);(4)
α t = exp ( e t ) Σ k = 1 T exp ( e t ) ; - - - ( 5 )
c = Σ t = 1 T α t h t ; - - - ( 6 )
公式(3)、(4)、(5)、(6)中,wxh、whc为模型的权值,bxh、bhc为模型的阈值,LReLu函数的公式为LReLu(x)=max(x.,01x)(7),tanh函数的公式为xt是t时刻叫声输入数据的特征,ht是xt通过浅层前馈网络得到的特征变换,αt是根据注意力机制计算的到的xt在整段叫声信号中的权重,最终通过公式(6)的加权平均得到了整段叫声信号的统计特征表述c,进一步的建立三层深度前馈网络进行识别,输入信号为c,输出信号为情感标签,将c映射至该段声音对应的情感标签。
进一步,所述叫声识别单元的卷积神经网络模型,包含3个卷积层,3个池化层,2个全连接层和一个Softmax分类层。
进一步,所述Softmax分类层,代价函数为:
J ( θ ) = - 1 m [ Σ i = 1 m Σ j = 1 k 1 { y ( i ) = j } l o g e θ 1 T x ( i ) Σ l = 1 k e θ l T x ( i ) ] - - - ( 9 )
在公式(9)中,函数1{y(i)=j}的取值规则是1{值为真的表达式}=1,y(i)表示第i段叫声的情感标签,x(i)表示第i段叫声在上一层网络中的输出值,m为所有叫声的总个数,k=10表示情感的10个分类,分别为开心,警觉,愤怒,悲伤,委屈,好奇,害怕,想吃东西,想玩,想出去溜,θ表示Softmax分类器的权重参数。
进一步,所述线性集成模型,是对四个模型(MFCC特征的带注意力模块的前馈深度神经网络模型,Mel Filterbank特征的带注意力模块的前馈深度神经网络模型,MFCC特征的卷积神经网络,Mel Filterbank特征的卷积神经网络)的Softmax分类层产生的10个概率值按 权重线性相加,权重取决于模型在测试集中的正确率,最终选择概率值最大的情感作为输出结果。
本基于深度学习的狗叫情感识别装置,包括:音频采集单元、叫声检测单元、叫声识别单元、显示单元;所述音频采集单元对采集到的狗叫声信号进行存储、端点检测,并将有效声音信号通过无线发送至叫声检测单元;所述叫声检测单元通过计算叫声信号的MFCC特征,输入到带注意力模块的前馈深度神经网络模型,判断狗叫声和非狗叫声,将叫声信号传递到叫声识别单元;所述叫声识别单元通过计算狗叫信号的MFCC特征和Mel Filterbank特征,输入到线性集成模型,识别狗叫的十种情感,并将结果传递到显示单元;所述数据显示单元将狗叫声的情感判断结果进行可视化。
进一步,所述数据显示单元可视化方法,可以为LCD显示、LED显示、PC上位机的一种,也可以为通过QQ、微信公众号、手机APP、短息的一种发送给狗的主人。
作为本发明的优选,所述音频采集单元可佩带与狗身上,所述叫声检测单元、叫声识别单元捆绑在一起;所述无线发送方法可以是RF射频、wifi、蓝牙、GPRS的一种。
与现有技术相比,本基于深度学习的狗叫情感识别方法及装置的有益效果如下:
1.设计音频采集单元,通过端点检测处理,并将叫声信号进行PCM编码,方便后续数据处理。
2.设计叫声检测单元,区分出狗叫声,减轻后续其它单元的运算处理负担。
3.建立神经模型进行信号处理与分类,工作高效,准确。
4.分类结果通过无线传输给显示模块,实现了远程的监测。
附图说明
图1是本狗叫情感识别方法的原理示意图;
图2是本狗叫情感识别装置的结构示意图。
具体实施方式
下面结合附图对本发明做进一步说明。
如图1所示,本基于深度学习的狗叫情感识别方法,包括:
基于狗的叫声设计叫声存储层、叫声信号端点检测层、带注意力模块的前馈深度神经网络模型、卷积神经网络模型、线性集成模型;
经存储、端点检测处理的叫声语音信号通过计算MFCC特征并归一化,通过所述带注意力模块的前馈深度神经网络模型,判断狗叫声和非狗叫声;计算狗叫信号的MFCC特征和Mel Filterbank特征,分别训练两个特征的带注意力模块的前馈深度神经网络模型和卷积神经网络模型,将产生的四个模型通过线性集成模型,判断狗叫的情感(共十种情感),并将结果可视化。
进一步,所述叫声存储层的叫声存储格式为PCM格式。
进一步,所述叫声信号端点检测层,其包括如下步骤:
(1)将采集的叫声信号按秒分帧,加窗,计算每帧信号的短时能量:和短时过零率其中N=400,xn为第n帧叫声信号,其中
(2)采用双门限法,剔除噪音,并将有效语音信号发送至叫声检测单元,减轻了后续单元的负担。
进一步,所述带注意力模块的前馈深度神经网络模型,包含一个注意力层,3个全连接层和一个Softmax分类层,其中的注意力机制的公式为:
ht=LReLu(wxhxt+bxh); (3)
et=a(ht)=tanh(whcxt+bhc); (4)
α t = exp ( e t ) Σ k = 1 T exp ( e t ) ; - - - ( 5 )
c = Σ t = 1 T α t h t ; - - - ( 6 )
公式(3)、(4)、(5)、(6)中,wxh、whc为模型的权值,bxh、bhc为模型的阈值,LReLu函数的公式为LReLu(x)=max(x.,01x)(7),tanh函数的公式为xt是t时刻叫声输入数据的特征,ht是xt通过浅层前馈网络得到的特征变换,αt是根据注意力机制计算的到的xt在整段叫声信号中的权重,最终通过公式(6)的加权平均得到了整段叫声信号的统计特征表述c,进一步的建立三层深度前馈网络进行识别,输入信号为c,输出信号 为情感标签,将c映射至该段声音对应的情感标签。
进一步,所述叫声识别单元的卷积神经网络模型,包含3个卷积层,3个池化层,2个全连接层和一个Softmax分类层。池化在卷积特征提取的基础上,对每个卷积特征进行取平均等,继续缩小隐藏节点对于的卷积特征维数,减小分类器的设计负担。
进一步,所述Softmax分类层,代价函数为:
J ( θ ) = - 1 m [ Σ i = 1 m Σ j = 1 k 1 { y ( i ) = j } l o g e θ 1 T x ( i ) Σ l = 1 k e θ l T x ( i ) ] - - - ( 9 )
在公式(9)中,函数1{y(i)=j}的取值规则是1{值为真的表达式}=1,y(i)表示第i段叫声的情感标签,x(i)表示第i段叫声在上一层网络中的输出值,m为所有叫声的总个数,k=10表示情感的10个分类,分别为开心,警觉,愤怒,悲伤,委屈,好奇,害怕,想吃东西,想玩,想出去溜,θ表示Softmax分类器的权重参数。
进一步,所述线性集成模型,是对四个模型(MFCC特征的带注意力模块的前馈深度神经网络模型,Mel Filterbank特征的带注意力模块的前馈深度神经网络模型,MFCC特征的卷积神经网络Mel Filterbank特征的卷积神经网络)的Softmax分类层产生的10个概率值按权重线性相加,权重取决于模型在测试集中的正确率,最终选择概率值最大的情感作为输出结果。
如图2所示,本基于深度学习的狗叫情感识别装置,包括:音频采集单元、叫声检测单元、叫声识别单元、显示单元;所述音频采集单元佩带与狗身上,对采集到的狗叫声信号进行存储、端点检测,并将有效声音信号通过无线发送至叫声检测单元;所述叫声检测单元通过计算叫声信号的MFCC特征并归一化,构建带注意力模块的前馈深度神经网络模型,判断狗叫声和非狗叫声,将叫声信号传递到叫声识别单元;所述叫声识别单元通过计算狗叫信号的MFCC特征和Mel Filterbank特征,分别训练两个特征的带注意力模块的前馈深度神经网络模型和卷积神经网络模型,将产生的四个模型线性集成,判断狗叫的情感(共十种情感),并将结果传递到显示单元;所述数据显示单元将狗叫声的情感判断结果进行可视化。
进一步,所述数据显示单元可视化方法,可以为LCD显示、LED显示、PC上位机的一种,也可以为通过QQ、微信公众号、短息的一种发送给狗的主人。
作为本发明的优选,所述叫声检测单元、叫声识别单元捆绑在一起;所述无线发送方法可以是RF射频、wifi、蓝牙、GPRS的一种。

Claims (10)

1.一种基于深度学习的狗叫情感识别方法,其特征在于,包括:
基于狗的叫声设计叫声存储层、叫声信号端点检测层、带注意力模块的前馈深度神经网络模型、卷积神经网络模型、线性集成模型;
叫声语音信号经存储、声音端点检测后计算MFCC特征,训练带注意力模块的前馈深度神经网络模型,判断狗叫声和非狗叫声;计算狗叫信号的MFCC特征和Mel Filterbank特征,交叉输入训练带注意力模块的前馈深度神经网络模型和卷积神经网络模型,将产生的四个模型线性集成,识别狗叫的十种情感,并将结果可视化。
2.根据权利要求1所述的一种基于深度学习的狗叫情感识别方法,其特征在于,所述叫声存储层的叫声存储格式为PCM格式。
3.根据权利要求1所述的一种基于深度学习的狗叫情感识别方法,其特征在于,所述叫声信的端点检测,其包括如下步骤:
(1)将采集的叫声信号按秒分帧,加窗,计算每帧信号的短时能量:和短时过零率其中N=400,xn为第n帧叫声信号,其中
(2)采用双门限法,剔除噪音,并将有效语音信号发送至叫声检测单元。
4.根据权利要求1所述的一种基于深度学习的狗叫情感识别方法,其特征在于,所述带注意力模块的前馈深度神经网络模型,包含一个注意力层,3个全连接层和一个Softmax分类层,其中的注意力机制的公式为:
ht=LReLu(wxhxt+bxh); (3)
et=a(ht)=tanh(whcxt+bhc); (4)
α t = exp ( e t ) Σ k = 1 T exp ( e t ) ; - - - ( 5 )
c = Σ t = 1 T α t h t ; - - - ( 6 )
公式(3)、(4)、(5)、(6)中,wxh、whc为模型的权值,bxh、bhc为模型的阈值,L Re Lu函数的公式为L Re Lu(x)=max(x,01x)(7),tanh函数的公式为xt是t时刻叫声输入数据的特征,ht是xt通过浅层前馈网络得到的特征变换,αt是根据注意力机制计算的到的xt在整段叫声信号中的权重,最终通过公式(6)的加权平均得到了整段叫声信号的统计特征表述c,进一步的建立三层深度前馈网络进行识别,输入信号为c,输出信号为情感标签,将c映射至该段声音对应的情感标签。
5.根据权利要求1所述的一种基于深度学习的狗叫情感识别方法,其特征在于,所述叫声识别单元的卷积神经网络模型,包含3个卷积层,3个池化层,2个全连接层和一个Softmax分类层。
6.根据权利要求1、4或5所述的一种基于深度学习的狗叫情感识别方法,其特征在于,所述Softmax分类层,代价函数为:
J ( θ ) = - 1 m [ Σ i = 1 m Σ j = 1 k 1 { y ( i ) = j } log e θ 1 T x ( i ) Σ l = 1 k e θ l T x ( i ) ] - - - ( 9 )
在公式(9)中,函数1{y(i)=j}的取值规则是1{值为真的表达式}=1,y(i)表示第i段叫声的情感标签,x(i)表示第i段叫声在上一层网络中的输出值,m为所有叫声的总个数,k=10表示情感的10个分类,分别为开心,警觉,愤怒,悲伤,委屈,好奇,害怕,想吃东西,想玩,想出去溜,θ表示Softmax分类器的权重参数。
7.根据权利要求1所述的一种基于深度学习的狗叫情感识别方法,其特征在于,所述线性集成模型,是对四个模型(MFCC特征的带注意力模块的前馈深度神经网络模型,MelFilterbank特征的带注意力模块的前馈深度神经网络模型,MFCC特征的卷积神经网络,MelFilterbank特征的卷积神经网络)的Softmax分类层产生的10个概率值按权重线性相加,权重取决于模型在测试集中的正确率,最终选择概率值最大的情感作为输出结果。
8.一种基于深度学习的狗叫情感识别装置,其特征在于:包括音频采集单元、叫声检测单元、叫声识别单元、显示单元;
所述音频采集单元对采集到的狗叫声信号进行存储、端点检测,并将有效声音信号通过无线发送至叫声检测单元;
所述叫声检测单元通过计算叫声信号的MFCC特征,输入到带注意力模块的前馈深度神经网络模型,判断狗叫声和非狗叫声,将叫声信号传递到叫声识别单元;
所述叫声识别单元通过计算狗叫信号的MFCC特征和Mel Filterbank特征,输入到线性集成模型,识别狗叫的十种情感,并将结果传递到显示单元;
所述数据显示单元将狗叫声的情感判断结果进行可视化。
9.根据权利要求8所述的一种基于深度学习的狗叫情感识别装置,其特征在于,所述数据显示单元可视化方法,可以为LCD显示、LED显示、PC上位机的一种,也可以为通过QQ、微信公众号、手机APP、短息的一种发送给狗的主人。
10.根据权利要求8所述的一种基于深度学习的狗叫情感识别装置,其特征在于,所述音频采集单元可佩带与狗身上,所述叫声检测单元、叫声识别单元捆绑在一起;所述无线发送方法可以是RF射频、wifi、蓝牙、GPRS的一种。
CN201610709581.5A 2016-08-23 2016-08-23 一种基于深度学习的狗叫情感识别方法及装置 Active CN106340309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610709581.5A CN106340309B (zh) 2016-08-23 2016-08-23 一种基于深度学习的狗叫情感识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610709581.5A CN106340309B (zh) 2016-08-23 2016-08-23 一种基于深度学习的狗叫情感识别方法及装置

Publications (2)

Publication Number Publication Date
CN106340309A true CN106340309A (zh) 2017-01-18
CN106340309B CN106340309B (zh) 2019-11-12

Family

ID=57825516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610709581.5A Active CN106340309B (zh) 2016-08-23 2016-08-23 一种基于深度学习的狗叫情感识别方法及装置

Country Status (1)

Country Link
CN (1) CN106340309B (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106901758A (zh) * 2017-02-23 2017-06-30 南京工程学院 一种基于卷积神经网络的言语置信度评测方法
CN107515855A (zh) * 2017-08-18 2017-12-26 武汉红茶数据技术有限公司 一种结合表情符的微博情感分析方法和系统
CN107886959A (zh) * 2017-09-30 2018-04-06 中国农业科学院蜜蜂研究所 一种提取蜜蜂访花视频片段的方法和装置
CN108122001A (zh) * 2017-12-13 2018-06-05 北京小米移动软件有限公司 图像识别方法及装置
CN108154169A (zh) * 2017-12-11 2018-06-12 北京小米移动软件有限公司 图像处理方法及装置
CN108172213A (zh) * 2017-12-26 2018-06-15 北京百度网讯科技有限公司 娇喘音频识别方法、装置、设备及计算机可读介质
CN108447048A (zh) * 2018-02-23 2018-08-24 天津大学 基于关注层的卷积神经网络图像特征处理方法
CN108550375A (zh) * 2018-03-14 2018-09-18 鲁东大学 一种基于语音信号的情感识别方法、装置和计算机设备
CN108597541A (zh) * 2018-04-28 2018-09-28 南京师范大学 一种增强愤怒与开心识别的语音情感识别方法及系统
CN108846048A (zh) * 2018-05-30 2018-11-20 大连理工大学 基于循环神经网络和注意力机制的音乐流派分类方法
CN108899037A (zh) * 2018-07-05 2018-11-27 平安科技(深圳)有限公司 动物声纹特征提取方法、装置及电子设备
CN109008961A (zh) * 2018-06-21 2018-12-18 郑州云海信息技术有限公司 婴幼儿辅助护理方法、设备、系统、服务中心及存储介质
CN109036465A (zh) * 2018-06-28 2018-12-18 南京邮电大学 语音情感识别方法
CN109074822A (zh) * 2017-10-24 2018-12-21 深圳和而泰智能控制股份有限公司 特定声音识别方法、设备和存储介质
CN109256150A (zh) * 2018-10-12 2019-01-22 北京创景咨询有限公司 基于机器学习的语音情感识别系统及方法
CN109272986A (zh) * 2018-08-29 2019-01-25 昆明理工大学 一种基于人工神经网络的狗声音情感分类方法
CN109817246A (zh) * 2019-02-27 2019-05-28 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN110045348A (zh) * 2019-05-05 2019-07-23 应急管理部上海消防研究所 一种基于改进卷积神经网络的人体运动状态分类方法
WO2019179036A1 (zh) * 2018-03-19 2019-09-26 平安科技(深圳)有限公司 深度神经网络模型、电子装置、身份验证方法和存储介质
CN110288974A (zh) * 2018-03-19 2019-09-27 北京京东尚科信息技术有限公司 基于语音的情绪识别方法及装置
CN110415727A (zh) * 2018-04-28 2019-11-05 科大讯飞股份有限公司 宠物情绪识别方法及装置
CN110826358A (zh) * 2018-08-08 2020-02-21 杭州海康威视数字技术股份有限公司 动物情绪的识别方法、装置及存储介质
WO2020048295A1 (zh) * 2018-09-05 2020-03-12 深圳追一科技有限公司 音频标签的设置方法、设备和存储介质
CN110970037A (zh) * 2019-11-28 2020-04-07 歌尔股份有限公司 宠物语言识别方法、装置、电子设备及可读存储介质
CN111128242A (zh) * 2020-01-02 2020-05-08 渤海大学 一种基于双深度网络的多模式情感信息融合与识别方法
CN111428817A (zh) * 2020-04-22 2020-07-17 浙江工业大学 一种面向无线电信号识别对抗攻击的防御方法
CN112634947A (zh) * 2020-12-18 2021-04-09 大连东软信息学院 一种动物声音情感特征集合排序识别方法及系统
WO2021208287A1 (zh) * 2020-04-14 2021-10-21 深圳壹账通智能科技有限公司 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN113775942A (zh) * 2021-08-28 2021-12-10 特斯联科技集团有限公司 用于管道状态监控的人工智能数据采集系统
CN115104152A (zh) * 2020-02-25 2022-09-23 松下电器(美国)知识产权公司 讲话者识别装置、讲话者识别方法以及程序
CN110045348B (zh) * 2019-05-05 2024-11-12 应急管理部上海消防研究所 一种基于改进卷积神经网络的人体运动状态分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050049877A1 (en) * 2003-08-28 2005-03-03 Wildlife Acoustics, Inc. Method and apparatus for automatically identifying animal species from their vocalizations
US20110082574A1 (en) * 2009-10-07 2011-04-07 Sony Corporation Animal-machine audio interaction system
US20150037778A1 (en) * 2013-08-01 2015-02-05 Steven Philp Signal processing system for comparing a human-generated signal to a wildlife call signal
CN104700829A (zh) * 2015-03-30 2015-06-10 中南民族大学 动物声音情绪识别系统及其方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050049877A1 (en) * 2003-08-28 2005-03-03 Wildlife Acoustics, Inc. Method and apparatus for automatically identifying animal species from their vocalizations
US20110082574A1 (en) * 2009-10-07 2011-04-07 Sony Corporation Animal-machine audio interaction system
US20150037778A1 (en) * 2013-08-01 2015-02-05 Steven Philp Signal processing system for comparing a human-generated signal to a wildlife call signal
CN104700829A (zh) * 2015-03-30 2015-06-10 中南民族大学 动物声音情绪识别系统及其方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSABA MOLNAR,等: "Classification of dog barks: A machine learning approach", 《ANIM COGN (2008)》 *
郭春宇: "不同语语音情感识别技术的研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106901758A (zh) * 2017-02-23 2017-06-30 南京工程学院 一种基于卷积神经网络的言语置信度评测方法
CN106901758B (zh) * 2017-02-23 2019-10-25 南京工程学院 一种基于卷积神经网络的言语置信度评测方法
CN107515855A (zh) * 2017-08-18 2017-12-26 武汉红茶数据技术有限公司 一种结合表情符的微博情感分析方法和系统
CN107886959A (zh) * 2017-09-30 2018-04-06 中国农业科学院蜜蜂研究所 一种提取蜜蜂访花视频片段的方法和装置
WO2019079972A1 (zh) * 2017-10-24 2019-05-02 深圳和而泰智能控制股份有限公司 特定声音识别方法、设备和存储介质
CN109074822A (zh) * 2017-10-24 2018-12-21 深圳和而泰智能控制股份有限公司 特定声音识别方法、设备和存储介质
CN108154169A (zh) * 2017-12-11 2018-06-12 北京小米移动软件有限公司 图像处理方法及装置
CN108122001A (zh) * 2017-12-13 2018-06-05 北京小米移动软件有限公司 图像识别方法及装置
CN108122001B (zh) * 2017-12-13 2022-03-11 北京小米移动软件有限公司 图像识别方法及装置
CN108172213A (zh) * 2017-12-26 2018-06-15 北京百度网讯科技有限公司 娇喘音频识别方法、装置、设备及计算机可读介质
CN108447048B (zh) * 2018-02-23 2021-09-14 天津大学 基于关注层的卷积神经网络图像特征处理方法
CN108447048A (zh) * 2018-02-23 2018-08-24 天津大学 基于关注层的卷积神经网络图像特征处理方法
CN108550375A (zh) * 2018-03-14 2018-09-18 鲁东大学 一种基于语音信号的情感识别方法、装置和计算机设备
CN110288974B (zh) * 2018-03-19 2024-04-05 北京京东尚科信息技术有限公司 基于语音的情绪识别方法及装置
WO2019179036A1 (zh) * 2018-03-19 2019-09-26 平安科技(深圳)有限公司 深度神经网络模型、电子装置、身份验证方法和存储介质
CN110288974A (zh) * 2018-03-19 2019-09-27 北京京东尚科信息技术有限公司 基于语音的情绪识别方法及装置
CN108597541A (zh) * 2018-04-28 2018-09-28 南京师范大学 一种增强愤怒与开心识别的语音情感识别方法及系统
CN110415727B (zh) * 2018-04-28 2021-12-07 科大讯飞股份有限公司 宠物情绪识别方法及装置
CN108597541B (zh) * 2018-04-28 2020-10-02 南京师范大学 一种增强愤怒与开心识别的语音情感识别方法及系统
CN110415727A (zh) * 2018-04-28 2019-11-05 科大讯飞股份有限公司 宠物情绪识别方法及装置
CN108846048A (zh) * 2018-05-30 2018-11-20 大连理工大学 基于循环神经网络和注意力机制的音乐流派分类方法
CN109008961A (zh) * 2018-06-21 2018-12-18 郑州云海信息技术有限公司 婴幼儿辅助护理方法、设备、系统、服务中心及存储介质
CN109036465A (zh) * 2018-06-28 2018-12-18 南京邮电大学 语音情感识别方法
CN109036465B (zh) * 2018-06-28 2021-05-11 南京邮电大学 语音情感识别方法
WO2020006935A1 (zh) * 2018-07-05 2020-01-09 平安科技(深圳)有限公司 动物声纹特征提取方法、装置及计算机可读存储介质
CN108899037B (zh) * 2018-07-05 2024-01-26 平安科技(深圳)有限公司 动物声纹特征提取方法、装置及电子设备
CN108899037A (zh) * 2018-07-05 2018-11-27 平安科技(深圳)有限公司 动物声纹特征提取方法、装置及电子设备
CN110826358A (zh) * 2018-08-08 2020-02-21 杭州海康威视数字技术股份有限公司 动物情绪的识别方法、装置及存储介质
CN109272986A (zh) * 2018-08-29 2019-01-25 昆明理工大学 一种基于人工神经网络的狗声音情感分类方法
WO2020048295A1 (zh) * 2018-09-05 2020-03-12 深圳追一科技有限公司 音频标签的设置方法、设备和存储介质
CN109256150B (zh) * 2018-10-12 2021-11-30 北京创景咨询有限公司 基于机器学习的语音情感识别系统及方法
CN109256150A (zh) * 2018-10-12 2019-01-22 北京创景咨询有限公司 基于机器学习的语音情感识别系统及方法
CN109817246A (zh) * 2019-02-27 2019-05-28 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN109817246B (zh) * 2019-02-27 2023-04-18 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN110045348B (zh) * 2019-05-05 2024-11-12 应急管理部上海消防研究所 一种基于改进卷积神经网络的人体运动状态分类方法
CN110045348A (zh) * 2019-05-05 2019-07-23 应急管理部上海消防研究所 一种基于改进卷积神经网络的人体运动状态分类方法
CN110970037A (zh) * 2019-11-28 2020-04-07 歌尔股份有限公司 宠物语言识别方法、装置、电子设备及可读存储介质
CN111128242A (zh) * 2020-01-02 2020-05-08 渤海大学 一种基于双深度网络的多模式情感信息融合与识别方法
CN111128242B (zh) * 2020-01-02 2023-01-24 渤海大学 一种基于双深度网络的多模式情感信息融合与识别方法
CN115104152A (zh) * 2020-02-25 2022-09-23 松下电器(美国)知识产权公司 讲话者识别装置、讲话者识别方法以及程序
WO2021208287A1 (zh) * 2020-04-14 2021-10-21 深圳壹账通智能科技有限公司 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN111428817A (zh) * 2020-04-22 2020-07-17 浙江工业大学 一种面向无线电信号识别对抗攻击的防御方法
CN111428817B (zh) * 2020-04-22 2023-06-02 浙江工业大学 一种面向无线电信号识别对抗攻击的防御方法
CN112634947B (zh) * 2020-12-18 2023-03-14 大连东软信息学院 一种动物声音情感特征集合排序识别方法及系统
CN112634947A (zh) * 2020-12-18 2021-04-09 大连东软信息学院 一种动物声音情感特征集合排序识别方法及系统
CN113775942A (zh) * 2021-08-28 2021-12-10 特斯联科技集团有限公司 用于管道状态监控的人工智能数据采集系统

Also Published As

Publication number Publication date
CN106340309B (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN106340309A (zh) 一种基于深度学习的狗叫情感识别方法及装置
CN110853680B (zh) 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法
CN102723078B (zh) 基于自然言语理解的语音情感识别方法
CN112687263B (zh) 语音识别神经网络模型及其训练方法、语音识别方法
CN107492382A (zh) 基于神经网络的声纹信息提取方法及装置
CN107122807A (zh) 一种家庭监控方法、服务端及计算机可读存储介质
CN107305773B (zh) 语音情绪辨识方法
CN105611477A (zh) 数字助听器中深度和广度神经网络相结合的语音增强算法
CN109271901A (zh) 一种基于多源信息融合的手语识别方法
CN102298694A (zh) 一种应用于远程信息服务的人机交互识别系统
CN107085717A (zh) 一种家庭监控方法、服务端及计算机可读存储介质
CN106328134A (zh) 监狱语音数据识别及监测预警系统
CN109394258A (zh) 一种肺部呼吸音的分类方法、装置及终端设备
CN105244042A (zh) 一种基于有限状态自动机的语音情感交互装置与方法
CN113129867B (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
Lalitha et al. Emotion detection using perceptual based speech features
CN106356054A (zh) 一种基于语音识别的农产品信息采集方法和系统
CN115910097A (zh) 一种高压断路器潜伏性故障可听声信号识别方法及系统
CN111128240B (zh) 一种基于对抗语义擦除的语音情感识别方法
CN113823323A (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
Xie et al. High accuracy individual identification model of crested ibis (nipponia nippon) based on autoencoder with self-attention
CN106875944A (zh) 一种语音控制家庭智能终端的系统
Lanjewar et al. Speech emotion recognition: a review
Espi et al. Spectrogram patch based acoustic event detection and classification in speech overlapping conditions
KR20170086233A (ko) 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190912

Address after: Room 023, 13 storeys, Building No. 588 Zixing Road, Minhang District, Shanghai 201100

Applicant after: Shanghai Solo Information Technology Co.,Ltd.

Address before: Yao Yao Jia Lu, Qixia District of Nanjing city streets Jiangsu province 210000 No. 7 city scenery Beiyuan 16 Room 806

Applicant before: NANJING DAKONGYI INFORMATION TECHNOLOGY CO.,LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230109

Address after: 411-A, Xingzhou Building, No. 168, Yonghui Road, Suzhou Industrial Park, Suzhou Area, China (Jiangsu) Pilot Free Trade Zone, Suzhou, Jiangsu 215000

Patentee after: Suzhou Kechakoyate Network Technology Co.,Ltd.

Address before: Room 023, 13/F, Building 2, No. 588, Zixing Road, Minhang District, Shanghai, 201100

Patentee before: Shanghai Solo Information Technology Co.,Ltd.

TR01 Transfer of patent right