CN113724712A - 一种基于多特征融合和组合模型的鸟声识别方法 - Google Patents
一种基于多特征融合和组合模型的鸟声识别方法 Download PDFInfo
- Publication number
- CN113724712A CN113724712A CN202110912736.6A CN202110912736A CN113724712A CN 113724712 A CN113724712 A CN 113724712A CN 202110912736 A CN202110912736 A CN 202110912736A CN 113724712 A CN113724712 A CN 113724712A
- Authority
- CN
- China
- Prior art keywords
- bird sound
- training
- bird
- models
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000003491 array Methods 0.000 claims abstract description 7
- 238000009432 framing Methods 0.000 claims abstract description 7
- 238000001228 spectrum Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000001914 filtration Methods 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 12
- 238000012360 testing method Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于多特征融合和组合模型的鸟声识别方法,包括:对读取的原始鸟声音频进行预处理,包括预加重和分帧加窗;提取鸟声的梅尔倒谱系数、梅尔滤波后的能量系数、短时过零率和短时频谱质心四种特征,分别归一化后进行纵向拼接形成融合特征;绘制STFT语谱图;将融合特征和绘制的STFT语谱图分别输入构建的两个基于Inception模块的CNN模型进行训练,训练完成后将两个模型输出的概率数组进行拼接形成一个特征数组,并将该特征数组作为ANN模型的输入进行训练,训练完成后加载上述三个模型的最优参数;将待测的任一鸟声音频输入加载最优参数后的三个模型,得到鸟声识别分类结果。本发明可提高不同鸟声之间特征的差异性,并且提高了鸟声识别准确率。
Description
技术领域
本发明涉及一种基于多特征融合和组合模型的鸟声识别方法,属于鸟鸣声分类识别的技术领域。
背景技术
鸟类是自然生态系统的重要组成部分,由于其对所生活的生态环境的变化十分敏感且易被观察和研究,因此对鸟类的监测和识别有助于对生态环境的监测,对生态环境保护工作的开展具有重大意义。鸟类监测是国内外研究的一个重要领域,传统的鸟类监测主要依赖于鸟类的形态特征差异完成,而在听觉上鸟鸣声中也包含着独有的特征,并且具有大范围性、稳定性、低干扰等优点,因此对鸟声识别的研究显得尤为重要。
鸟声识别的一般过程主要是预处理、特征参数提取、分类方法选择三个方面。目前国内外在鸟声识别技术上的改进主要是在于特征参数提取上,然后使用深度学习的方法构建神经网络进行训练完成鸟声识别。然而现有方法所提取的鸟声特征多基于人声领域的特征且较为单一,识别效果易受外界环境噪声影响。为解决此问题提出一种基于多特征融合和组合模型的鸟声识别方法。
发明内容
为解决现有的鸟声识别方法中提取特征单一,所代表的鸟声特性不足的问题,本发明提供一种基于多特征融合和组合模型的鸟声识别方法,使用融合特征替代了单一的特征,使不同鸟声之间的特征差异更大,更易被区分,且使用三个神经网络模型组合识别,提高了鸟声识别准确率。
本发明具体采用以下技术方案解决上述技术问题:
一种基于多特征融合和组合模型的鸟声识别方法,包括以下步骤:
步骤1、对读取的原始鸟声音频进行预处理,包括预加重和分帧加窗;
步骤2、对预处理后的原始鸟声音频提取鸟声的梅尔倒谱系数、梅尔滤波后的能量系数、短时过零率和短时频谱质心四种特征,并对四种特征分别归一化后进行纵向拼接形成一个融合特征;以及,对预处理后的原始鸟声音频经短时傅里叶变换STFT的结果绘制STFT语谱图;
步骤3、将形成的一个融合特征和绘制的STFT语谱图分别输入构建的两个基于Inception模块的CNN模型进行训练,训练完成后将两个模型输出的概率数组进行拼接形成一个特征数组,并将该特征数组作为ANN模型的输入进行训练,训练完成后加载上述三个模型的最优参数;
步骤4、将待测的任一鸟声音频输入加载最优参数后的三个模型,得到鸟声识别分类结果。
进一步地,作为本发明的一种优选技术方案:所述步骤1中对原始鸟声音频采用一阶FIR高通数字滤波器进行预加重。
进一步地,作为本发明的一种优选技术方案:所述步骤1中对原始鸟声音频采用汉明窗进行分帧加窗。
进一步地,作为本发明的一种优选技术方案:所述步骤2中对预处理后的原始鸟声音频经短时傅里叶变换后的结果再进行梅尔滤波,得到梅尔滤波后的能量系数特征,并通过对梅尔滤波后的结果取对数再进行离散余弦变换DCT得到梅尔倒谱系数特征。
进一步地,作为本发明的一种优选技术方案:所述步骤3中采用单层神经元个数为512的ANN模型。
本发明采用上述技术方案,能产生如下技术效果:
1.本发明的方法,提出将梅尔倒谱系数(MFCC)、梅尔滤波后的能量系数、短时平均过零率和短时频谱质心四个特征参数进行融合形成一个融合特征,利用融合特征提高不同鸟声之间特征的差异性,使用融合特征替代了单一的特征,使不同鸟声之间的特征差异更大,更易被区分,有效地解决了单一特征所表征的鸟声特征不足的问题。此外,利用短时傅里叶变换(STFT)的结果数据绘制STFT语谱图,将语谱图也作为一种识别特征,增加了特征范围。
2.使用基于Inception模块搭建的自搭建卷积神经网络模型,降低了训练参数量。
3.为了提高识别准确率,提出了一种由三个神经网络组合而成的组合模型判决方法,首先选用深度学习方法中经典的卷积神经网络CNN作为网络模型,分别将融合特征和STFT语谱图作为构建的两个CNN模型的输入进行训练,将两种特征经两个模型的输出结果的概率数组进行组合得到特征数组并作为人工神经网络ANN模型的输入,其输出即识别结果。本方法基于融合特征和STFT语谱图特征的不同,使用这两个不同特征分别通过两个CNN模型的输出作为ANN模型的输入进行训练,即共使用三个神经网络模型组合的方法提高了鸟声识别准确率。
附图说明
图1为本发明基于多特征融合和组合模型的鸟声识别方法的原理示意图。
图2为本发明方法中的特征融合过程示意图。
图3为本发明方法中搭建的基于Inception模块的CNN模型示意图。
图4为本发明方法中Inception模块结构示意图。
图5为本发明方法中MFCC系数训练结果图。
图6为本发明方法中融合特征训练结果图。
图7为本发明方法中STFT语谱图训练结果图。
图8为本发明方法中ANN模型的训练结果图。
具体实施方式
下面结合说明书附图对本发明的实施方式进行描述。
如图1所示,本发明涉及一种基于多特征融合和组合模型的鸟声识别方法,该方法主要包括以下步骤:
步骤1、对读取的原始鸟声音频进行预处理,包括预加重和分帧加窗,具体如下:
首先,以22.5KHz的频率读取原始鸟声音频,对读取的原始鸟声音频采用一阶FIR高通数字滤波器进行预加重,预加重系数为0.9665。然后采用汉明窗进行分帧加窗,帧长为23ms,帧移为11.5ms,共可分得173帧鸟声数据。
步骤2、对预处理后的原始鸟声音频提取鸟声的梅尔倒谱系数(MFCC)、梅尔滤波后的能量系数、短时过零率和短时频谱质心四种特征,并对四种特征分别归一化后进行纵向拼接形成一个融合特征;以及,对预处理后的原始鸟声音频经短时傅里叶变换STFT的结果绘制STFT语谱图,具体如下:
首先,设置等面积梅尔滤波器组,梅尔滤波器数量选为128,并对预处理后的原始鸟声音频经短时傅里叶变换STFT得到一个二维数组的结果,其第一维是幅值和相位信息,第二维是帧数,根据该短时傅里叶变换STFT后的结果进行梅尔滤波,以此结果得到梅尔滤波后的能量系数数据大小为[128,173]的二维数组,再对其取对数后进行离散余弦变换DCT得到MFCC系数并取前40位,即得大小为[40,173]的二维数组。
然后,分别提取短时过零率、短时频谱质心特征,大小均为[1,173]的二维数组数据。
最后,由于四组二维数据的量级不同,因此对四组二维数据分别进行归一化,使其分布在[-1,1]之间,最后进行纵向拼接,形成大小为[170,173,1]的三维数组,如图2所示,形成融合特征。
同时,为了提高鸟声识别的准确率,通过上述短时傅里叶变换(STFT)后得到的一个二维数组结果绘制了STFT语谱图,保存为图像数据并归一化,大小为[256,256,3]的三维数组。
步骤3、将形成的一个融合特征和绘制的STFT语谱图分别输入构建的两个基于Inception模块的CNN模型进行训练,训练完成后将两个模型输出的概率数组进行拼接形成一个特征数组,并将该特征数组作为ANN模型的输入进行训练,并加载上述三个模型的最优参数;具体如下:
如图3所示,首先,搭建两个独立的基于Inception模块的CNN模型。首先,输入的特征经过64个3×3的卷积核,步长为1,然后经过4个Inception模块,卷积核和池化核数量分别为16和32,最后经过全局平均池化后完成20分类的输出。其中Inception模块结构如图4所示,共有4个分支,每个分支有不同尺寸的卷积核和池化核,每个卷积核和池化核的步长由调用时参数决定,最后将4个分支通过聚合操作在深度上聚合。
然后,将融合特征和STFT语谱图分别放入上述两个基于Inception模块的CNN模型进行训练,训练完成后将各模型输出的概率数组进行拼接,形成一个特征数组;
将上述形成的一个特征数组作为单层神经元个数为512的ANN模型的输入进行训练,并在训练完成后加载两个基于Inception模块的CNN模型和ANN模型三个模型的最优参数,以得到最优参数后的两个基于Inception模块的CNN模型和ANN模型,即本方法共使用三个神经网络模型组合的方法提高鸟声识别准确率。
步骤4、最后,将待测的任一鸟声音频输入加载最优参数后的三个模型,得到鸟声识别分类结果,具体如下:
将上述获得最优参数后的三个模型搭建成组合模型,然后将待测的任一鸟声音频输入获得最优参数的三个模型搭建成的组合模型,根据上述方法的步骤,依次通过提取得到鸟声音频的一个融合特征和绘制STFT语谱图,并将其分别输入两个加载了最优参数的CNN模型,由该两个CNN模型分别输出一个概率数组,然后将这两个概率数组进行拼接形成一个特征数组,并将该特征数组作为加载了最优参数的ANN模型的输入,最终由ANN模型输出得到鸟声识别分类结果。
本实施例中,实验采用的鸟声音频是由百鸟数据科技(Birdsdata.com)有限责任公司发布的Birdsdata(公开部分),该数据集均是在自然场景中设计和收集,共收集了中国常见20种鸟类鸣声合集音频文件14311个,实验时将鸟声音频随机打乱并划分为训练集、验证集和测试集,比例为8600:2855:2856,约6:2:2。
本实施例的实验以PyCharm为软件平台,编写Python代码在Tensorflow框架下完成,准确率为评价指标。共分为两个部分实验:1.对比单一的MFCC特征、融合特征和STFT语谱图特征分别在VGG16和基于Inception模块的自搭建模型两种CNN模型下训练时的表现;2.利用测试集鸟声数据测试单一模型和组合模型的识别准确率。
如图5所示,为单一的MFCC经100次迭代的训练结果示意图。如图6所示,为融合特征经100次迭代的训练结果示意图。如图7所示,为STFT语谱图经100次迭代的训练结果示意图。如图8所示,为本发明的将两个CNN模型的输出作为ANN模型输入经20次迭代的训练结果示意图。
以及,下述表1为三种不同特征训练后验证集在两种CNN模型下加载最优参数后的表现,从表1中可以看出,本发明采用的融合特征和STFT语谱图特征的表现均优于单一的MFCC特征,因此融合特征有效地解决了单一特征所表征的鸟声特征不足的问题。通过图5、图6、图7也可看出,MFCC和融合特征在训练达到70次左右时,训练集准确率达到1,随后验证集交叉熵损失开始增加,在此前MFCC训练时波动更大,最优参数下识别准确率较低。此外,基于Inception模块自搭建的模型准确率在训练参数量远远小于VGG16的情况下,本发明的融合特征和STFT语谱图训练后CNN模型的识别准确率均高于VGG16网络,具有更好的应用前景。
下述表2为测试集鸟声数据在组合模型下与单一模型下识别结果对比,从表2中可以看出,对于完全陌生的测试集鸟声数据,本发明采用的融合特征和STFT语谱图的识别结果均十分良好,因此具有良好的泛化能力,另外,本发明使用三个模型作为组合模型的结果可以有效地提升了鸟声识别的准确率,降低了交叉熵损失。
表1:三种特征的验证集在两种CNN模型上的表现
表2:测试集在单一模型和组合模型下鸟声识别结果
综上,本发明的方法通过提取四个特征参数形成融合特征,提高不同鸟声之间特征的差异性,使用融合特征替代了单一的特征,使不同鸟声之间的特征差异更大,更易被区分,有效地解决了单一特征所表征的鸟声特征不足的问题。并且,本发明基于融合特征和STFT语谱图特征的不同,使用这两个不同特征分别通过两个CNN模型的输出作为ANN模型的输入进行训练,即共使用三个神经网络模型组合的方法有效提高了鸟声识别准确率。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (5)
1.一种基于多特征融合和组合模型的鸟声识别方法,其特征在于,包括以下步骤:
步骤1、对读取的原始鸟声音频进行预处理,包括预加重和分帧加窗;
步骤2、对预处理后的原始鸟声音频提取鸟声的梅尔倒谱系数、梅尔滤波后的能量系数、短时过零率和短时频谱质心四种特征,并对四种特征分别归一化后进行纵向拼接形成一个融合特征;以及,对预处理后的原始鸟声音频经短时傅里叶变换STFT的结果绘制STFT语谱图;
步骤3、将形成的一个融合特征和绘制的STFT语谱图分别输入构建的两个基于Inception模块的CNN模型进行训练,训练完成后将两个模型输出的概率数组进行拼接形成一个特征数组,并将该特征数组作为ANN模型的输入进行训练,训练完成后加载上述三个模型的最优参数;
步骤4、将待测的任一鸟声音频输入加载最优参数后的三个模型,得到鸟声识别分类结果。
2.根据权利要求1所述基于多特征融合和组合模型的鸟声识别方法,其特征在于:所述步骤1中对原始鸟声音频采用一阶FIR高通数字滤波器进行预加重。
3.根据权利要求1所述基于多特征融合和组合模型的鸟声识别方法,其特征在于:所述步骤1中对原始鸟声音频采用汉明窗进行分帧加窗。
4.根据权利要求1所述基于多特征融合和组合模型的鸟声识别方法,其特征在于:所述步骤2中对预处理后的原始鸟声音频经短时傅里叶变换后的结果再进行梅尔滤波,得到梅尔滤波后的能量系数特征,并通过对梅尔滤波后的结果取对数再进行离散余弦变换DCT得到梅尔倒谱系数特征。
5.根据权利要求1所述基于多特征融合和组合模型的鸟声识别方法,其特征在于:所述步骤3中采用单层神经元个数为512的ANN模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110912736.6A CN113724712B (zh) | 2021-08-10 | 2021-08-10 | 一种基于多特征融合和组合模型的鸟声识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110912736.6A CN113724712B (zh) | 2021-08-10 | 2021-08-10 | 一种基于多特征融合和组合模型的鸟声识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113724712A true CN113724712A (zh) | 2021-11-30 |
CN113724712B CN113724712B (zh) | 2023-05-30 |
Family
ID=78675320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110912736.6A Active CN113724712B (zh) | 2021-08-10 | 2021-08-10 | 一种基于多特征融合和组合模型的鸟声识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113724712B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113066481A (zh) * | 2021-03-31 | 2021-07-02 | 南京信息工程大学 | 一种基于混合特征选择和gwo-kelm模型的鸟声识别方法 |
CN114446326A (zh) * | 2022-01-27 | 2022-05-06 | 四川大学华西医院 | 基于时频分辨率的吞咽障碍患者识别方法及设备 |
CN114495990A (zh) * | 2022-03-07 | 2022-05-13 | 浙江工业大学 | 一种基于特征融合的语音情感识别方法 |
CN114742378A (zh) * | 2022-03-25 | 2022-07-12 | 中国环境科学研究院 | 一种基于鸟类完整性评价湿地生态状况的方法 |
CN114863938A (zh) * | 2022-05-24 | 2022-08-05 | 西南石油大学 | 一种基于注意力残差和特征融合的鸟语识别方法和系统 |
CN117592014A (zh) * | 2024-01-19 | 2024-02-23 | 北京科技大学 | 基于多模态融合的大五人格特征预测方法 |
CN117854540A (zh) * | 2024-03-08 | 2024-04-09 | 中国人民解放军军事科学院战略评估咨询中心 | 基于神经网络和多维特征融合的水声目标识别方法及系统 |
CN118506792A (zh) * | 2024-07-18 | 2024-08-16 | 青岛科技大学 | 基于改进Inception块与SACGAN的海洋哺乳动物叫声数据增强方法 |
CN118609576A (zh) * | 2024-07-31 | 2024-09-06 | 西安工程大学 | 低信噪比下基于三通道深度神经网络的鸟声目标识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110120224A (zh) * | 2019-05-10 | 2019-08-13 | 平安科技(深圳)有限公司 | 鸟声识别模型的构建方法、装置、计算机设备及存储介质 |
CN110246504A (zh) * | 2019-05-20 | 2019-09-17 | 平安科技(深圳)有限公司 | 鸟类声音识别方法、装置、计算机设备和存储介质 |
US20210127003A1 (en) * | 2019-10-28 | 2021-04-29 | Baidu Online Network Technology (Beijing) Co., Ltd. | Interactive voice-control method and apparatus, device and medium |
-
2021
- 2021-08-10 CN CN202110912736.6A patent/CN113724712B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110120224A (zh) * | 2019-05-10 | 2019-08-13 | 平安科技(深圳)有限公司 | 鸟声识别模型的构建方法、装置、计算机设备及存储介质 |
CN110246504A (zh) * | 2019-05-20 | 2019-09-17 | 平安科技(深圳)有限公司 | 鸟类声音识别方法、装置、计算机设备和存储介质 |
US20210127003A1 (en) * | 2019-10-28 | 2021-04-29 | Baidu Online Network Technology (Beijing) Co., Ltd. | Interactive voice-control method and apparatus, device and medium |
Non-Patent Citations (5)
Title |
---|
KOH C Y: "\"Bird Sound Classification Using Convolutional Neural Networks\"" * |
徐淑正;孙忆南;皇甫丽英;方玮骐;: "基于MFCC和时频图等多种特征的综合鸟声识别分类器设计" * |
秦楚雄;张连海;: "低资源语音识别中融合多流特征的卷积神经网络声学建模方法" * |
谢将剑;李文彬;张军国;丁长青;: "基于Chirplet语图特征和深度学习的鸟类物种识别方法" * |
谢将剑;杨俊;邢照亮;张卓;陈新;: "多特征融合的鸟类物种识别方法" * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113066481B (zh) * | 2021-03-31 | 2023-05-09 | 南京信息工程大学 | 一种基于混合特征选择和gwo-kelm模型的鸟声识别方法 |
CN113066481A (zh) * | 2021-03-31 | 2021-07-02 | 南京信息工程大学 | 一种基于混合特征选择和gwo-kelm模型的鸟声识别方法 |
CN114446326A (zh) * | 2022-01-27 | 2022-05-06 | 四川大学华西医院 | 基于时频分辨率的吞咽障碍患者识别方法及设备 |
CN114495990A (zh) * | 2022-03-07 | 2022-05-13 | 浙江工业大学 | 一种基于特征融合的语音情感识别方法 |
CN114742378A (zh) * | 2022-03-25 | 2022-07-12 | 中国环境科学研究院 | 一种基于鸟类完整性评价湿地生态状况的方法 |
CN114863938B (zh) * | 2022-05-24 | 2024-09-13 | 西南石油大学 | 一种基于注意力残差和特征融合的鸟语识别方法和系统 |
CN114863938A (zh) * | 2022-05-24 | 2022-08-05 | 西南石油大学 | 一种基于注意力残差和特征融合的鸟语识别方法和系统 |
CN117592014A (zh) * | 2024-01-19 | 2024-02-23 | 北京科技大学 | 基于多模态融合的大五人格特征预测方法 |
CN117854540B (zh) * | 2024-03-08 | 2024-05-17 | 中国人民解放军军事科学院战略评估咨询中心 | 基于神经网络和多维特征融合的水声目标识别方法及系统 |
CN117854540A (zh) * | 2024-03-08 | 2024-04-09 | 中国人民解放军军事科学院战略评估咨询中心 | 基于神经网络和多维特征融合的水声目标识别方法及系统 |
CN118506792A (zh) * | 2024-07-18 | 2024-08-16 | 青岛科技大学 | 基于改进Inception块与SACGAN的海洋哺乳动物叫声数据增强方法 |
CN118506792B (zh) * | 2024-07-18 | 2024-10-18 | 青岛科技大学 | 基于改进Inception块与SACGAN的海洋哺乳动物叫声数据增强方法 |
CN118609576A (zh) * | 2024-07-31 | 2024-09-06 | 西安工程大学 | 低信噪比下基于三通道深度神经网络的鸟声目标识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113724712B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113724712B (zh) | 一种基于多特征融合和组合模型的鸟声识别方法 | |
CN109767785A (zh) | 基于卷积神经网络的环境噪声识别分类方法 | |
CN103765506B (zh) | 使用听觉注意线索进行音调/语调识别的方法 | |
CN108369813B (zh) | 特定声音识别方法、设备和存储介质 | |
CN109378010A (zh) | 神经网络模型的训练方法、语音去噪方法及装置 | |
CN115762533A (zh) | 一种鸟鸣声分类识别方法及装置 | |
CN108630209B (zh) | 一种基于特征融合与深度置信网络的海洋生物识别方法 | |
CN110111773A (zh) | 基于卷积神经网络的音乐信号多乐器识别方法 | |
CN114863937B (zh) | 基于深度迁移学习与XGBoost的混合鸟鸣识别方法 | |
CN103680493A (zh) | 区分地域性口音的语音数据识别方法和装置 | |
CN109308912A (zh) | 音乐风格识别方法、装置、计算机设备及存储介质 | |
CN110085218A (zh) | 一种基于特征金字塔网络的音频场景识别方法 | |
CN117095694A (zh) | 一种基于标签层级结构属性关系的鸟类鸣声识别方法 | |
WO2018166316A1 (zh) | 融合多种端到端神经网络结构的说话人感冒症状识别方法 | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN102982351A (zh) | 基于bp神经网络的瓷绝缘子振动声学检测数据分类方法 | |
CN109584904B (zh) | 应用于基础音乐视唱教育的视唱音频唱名识别建模方法 | |
CN114299986B (zh) | 一种基于跨域迁移学习的小样本声音识别方法及系统 | |
CN109872720A (zh) | 一种基于卷积神经网络对不同场景鲁棒的重录语音检测算法 | |
CN110728991B (zh) | 一种改进的录音设备识别算法 | |
CN117727307B (zh) | 基于特征融合的鸟类声音智能识别方法 | |
CN117275510A (zh) | 一种基于多梯度流网络的小样本水声目标识别方法及系统 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
CN110610722B (zh) | 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法 | |
CN108806725A (zh) | 语音区分方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |