CN114863937B - 基于深度迁移学习与XGBoost的混合鸟鸣识别方法 - Google Patents
基于深度迁移学习与XGBoost的混合鸟鸣识别方法 Download PDFInfo
- Publication number
- CN114863937B CN114863937B CN202210536031.3A CN202210536031A CN114863937B CN 114863937 B CN114863937 B CN 114863937B CN 202210536031 A CN202210536031 A CN 202210536031A CN 114863937 B CN114863937 B CN 114863937B
- Authority
- CN
- China
- Prior art keywords
- bird
- spectrogram
- mel
- bird song
- xgboost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013508 migration Methods 0.000 title claims abstract description 17
- 230000005012 migration Effects 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 27
- 241000894007 species Species 0.000 claims description 16
- 238000013526 transfer learning Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 13
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 13
- 230000005236 sound signal Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 239000012634 fragment Substances 0.000 claims description 5
- 230000003068 static effect Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 230000007613 environmental effect Effects 0.000 abstract description 4
- 230000008859 change Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 abstract description 2
- 238000013145 classification model Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Complex Calculations (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明提供了基于深度迁移学习与XGBoost的混合鸟鸣识别方法,通过计算log‑Mel频谱图的一阶差分系数和二阶差分系数,反映鸟鸣信号的变化过程,在保留物种有效信息的同时减少环境噪声等无关因素的影响,提升了识别鸟类物种的准确率;减少了环境背景噪声等无关因素的影响,有效识别了自然场景下的多种鸟类物种。本发明采用深度迁移学习微调VGG16模型构建特征提取器,提升了少样本训练数据下深度卷积神经网络的泛化能力,减少了参数训练,提升了运行效率。本发明将鸟鸣信号更准确的映射为鸟类物种,对自然环境中多种鸟类鸣声均具有良好的识别性能。
Description
技术领域
本发明属于生态和人工智能技术领域,具体涉及基于深度迁移学习与XGBoost的混合鸟鸣识别方法。
背景技术
通过对自然环境下鸟类的识别与监测,统计区域生态环境中鸟类物种及分布状态,有利于生态学家分析研究动物的行为并掌握植物种类的丰富度,能够加强对区域生态环境的保护。自然环境中大部分场景下难以利用鸟类个体的图像特征进行识别,因此通过分析鸟类鸣声信号来自动识别鸟类物种受到研究者的广泛关注。
早期,基于模板匹配的方法通过衡量不同时间序列长度鸟鸣信号的相似度解决鸟类发音长短不一的问题达到准确识别鸟类物种的目的,该方法过于依赖鸟类个体原来的发音且无法对样本进行动态训练,难以应对自然场景下鸟类的发音易受个体生理因素以及环境场景的影响。一些研究者则探索基于鸟鸣特征建立分类模型的方法,其过程是先人工提取和选择合适的鸟鸣特征,再根据鸟鸣特征建立高效的分类模型进行识别。经过人工手动提取的鸟鸣特征多为静态的声学特征,对噪声敏感,易造成分类模型识别准确率低。近年来,计算机视觉技术的发展使得通过提取鸟鸣信号的时频域特征训练深度卷积神经网络模型对鸟类鸣声进行分类识别成为可能,深度卷积神经网络的特性可以克服音频信号的复杂多样性并且其强大的隐式特征提取能力可以自动获取并表征输入的鸟鸣信号,但现实中只能获取指定自然场景中少量的高质量鸟鸣数据,这限制了深度卷积神经网络通过鸟鸣信号描述鸟类物种的能力并且训练的网络模型容易产生过拟合,其次随着深度卷积神经网络模型深度的提高,惊人的参数量会耗费大量的时间和资源来训练。
发明内容
本发明要解决的技术问题是:提供基于深度迁移学习与XGBoost的混合鸟鸣识别方法,用于在自然场景下实时识别和监测鸟类物种。
本发明为解决上述技术问题所采取的技术方案为:基于深度迁移学习与XGBoost的混合鸟鸣识别方法,包括以下步骤:
S1:收集自然环境下的多种鸟类鸣声,每种鸟类鸣声信号包括多个时间序列相同的鸣声片段;建立基于自然场景设计和收集的鸟鸣音频库;
S2:对鸟鸣音频库的每个鸣声片段进行预处理获得短时平稳的鸣声信号,将每帧鸣声信号通过快速傅里叶变换后取绝对值的平方得到能量谱图;
S3:将能量谱图经过64阶梅尔滤波器映射为Mel频谱图,作为深度迁移学习与XGBoost混合鸟鸣识别模型的输入;对Mel频谱图取对数得到log-Mel频谱图;计算log-Mel频谱图的一阶差分系数和二阶差分系数获得动态声学特征;将一阶差分系数和二阶差分系数与log-Mel频谱图组合成为三维log-Mel频谱图;
S4:采用参数迁移微调在ImageNet数据集上预训练的深度卷积神经网络VGG16模型,得到针对鸟鸣信息的特征提取器,并提取三维log-Mel时频谱图的高维隐式特征;
S5:将三维log-Mel时频谱图的高维隐式特征按照一定比例划分为训练集、测试集和验证集;采用训练集训练XGBoost分类器,并在验证集上调整XGBoost分类器的参数,最后在测试集上将高维隐式特征映射为鸟类物种。
按上述方案,所述的步骤S1中,每个鸟鸣片段的时间序列长度为2秒,采样率为22.05khz,存储格式为.wav。
进一步的,所述的步骤S2中,具体步骤为:
S21:将2秒的鸟鸣片段分割为1.5秒并设置1秒的重叠保证鸣声的连续性;
S22:对分割后的鸟鸣信号进行分帧,设置帧长为2048个采样点,帧移为512个采样点得到短时平稳信号;
S23:设n为采样点的取值,N为帧长,则汉明窗计算公式ω(n)为:
设每帧信号为s(n),对分帧后的每帧信号乘以汉明窗进行加窗得到x(n):
x(n)=w(n)·s(n),0≤n≤N-1;
S24:设k是快速傅里叶变换的点数,对加窗后的鸟鸣信号x(n)进行快速傅里叶变换计算各帧的频谱,并对频谱取绝对值的平方,得到用于反映时域和频域特征信息的能量谱:
S25:绘制以时间为横轴、频率为纵轴的能量谱图,通过颜色明暗表示能量高低。
进一步的,所述的步骤S3中,具体步骤为:
S31:64阶梅尔滤波器具有人耳滤波功能,使用64阶梅尔滤波器对能量谱图进行滤波得到大小为64×64的Mel频谱图;
S32:对Mel频谱图取对数得到log-Mel频谱图L(m),log-Mel频谱图L(m)具备静态声学特征;
S33:计算log-Mel频谱图L(m)的一阶差分系数L(m) d和二阶差分系数L(m) dd获得动态声学特征,用于捕捉相邻两帧与相邻三帧之间音频信号的动态关系:
S34:将一阶差分系数L(m) d和二阶差分系数L(m) dd作为log-Mel频谱图L(m)的动态补充特征形成大小为64×64×3的三维log-Mel频谱图。
进一步的,所述的步骤S4中,具体步骤为:
S40:在ImageNet数据集上预训练深度卷积神经网络VGG16模型;
S41:采用参数迁移保留VGG16模型的浅层结构与参数权重;
S42:微调VGG16模型的深层结构;
S43:使用三维log-Mel频谱图重新训练深层结构的参数权重,得到针对鸟鸣信息的特征提取器;
S44:通过特征提取器提取三维log-Mel时频谱图的高维隐式特征。
进一步的,所述的步骤S42中,具体步骤为:
将VGG16模型的输入尺度调整为64×64×3;
VGG16模型包括5组共13个卷积层;每个卷积层的卷积核大小为3×3,其中第一组2个卷积层各有64个通道,卷积层之后使用RelU激活函数用于增加非线性映射、缓解梯度消失、提升网络的稀疏性;
还包括4个2x2的最大池化层分别连接在每组卷积层之间,用于对上层输出特征进行下采样,使池化后输入变成输出大小的一半,通道数增大一倍;
还包括2个全连接层,通过全局平均池化层连接最后一层卷积层;全连接层包括512个神经元,用于把分布式特征表示映射到样本标记空间;全连接层后添加有Dropout函数,用于按照一定的概率随机丢弃神经元,防止网络产生过拟合。
进一步的,所述的步骤S43中,具体步骤为:
把从鸟鸣信号中提取的大小为64×64×3的三维log-Mel频谱图作为VGG16模型的输入,重新训练最后两组卷积层和全连接层,得到基于VGG16模型的特征提取器。
进一步的,所述的步骤S5中,具体步骤为:
S51:将三维log-Mel时频谱图的高维隐式特征按6:2:2的比例随机划分为训练集、测试集和验证集,分别与实际对应标签存储为DMatrix格式以符合XGBoost的输入要求;
S52:采用训练集训练XGBoost分类器,将无意义的高维隐式特征重新描述为显示特征,用于增加所提取特征的可解释性;
S53:在验证集上不断调整参数达到最优组合;
S54:在测试集上将鸟鸣信号映射为鸟类物种。
一种计算机存储介质,其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行基于深度迁移学习与XGBoost的混合鸟鸣识别方法。
本发明的有益效果为:
1.本发明的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,通过计算log-Mel频谱图的一阶差分系数和二阶差分系数,反映鸟鸣信号的变化过程,保留物种有效信息的同时减少环境噪声等无关因素的影响,提升了识别鸟类物种的准确率;克服了传统鸟鸣识别方法依赖鸟类个体发音且无法进行动态训练、需要人工提取和选择合适谱图特征、鸟鸣识别模型因训练样本不足导致泛化能力弱的缺点,减少了环境背景噪声等无关因素的影响,有效识别了自然场景下的多种鸟类物种。
2.本发明引入通过深度卷积神经网络VGG16自动提取鸟鸣信号的高维隐式特征,克服了自然环境中鸟鸣音频背景噪声的复杂性。
3.本发明采用深度迁移学习微调VGG16模型构建特征提取器,提升了少样本训练数据下深度卷积神经网络的泛化能力,减少了参数训练,提升了运行效率。
4.本发明构建XGBoost分类器将高维隐式特征重新描述为可解释的显示特征,将鸟鸣信号更准确的映射为鸟类物种,对自然环境中多种鸟类鸣声均具有良好的识别性能。
附图说明
图1是本发明实施例的流程图。
图2是本发明实施例的三维log-Mel频谱的提取流程图。
图3是本发明实施例的三维log-Mel频谱图。
图4是本发明实施例的深度迁移学习与XGBoost的混合网络结构图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
参见图1,本发明实施例的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,包括以下步骤:
S1:收集基于自然环境下录制的10种鸟类鸣声共14311条音频,每种鸟类鸣声信号包含多个时间序列相同的鸣声片段,每个鸟鸣片段的时间序列长度为2秒,采样率为22.05khz,存储格式为.wav,建立基于自然场景设计和收集的鸟鸣音频库如下表。
S2:对鸟鸣音频库的每个鸣声片段进行预处理获得短时平稳的鸣声信号,将每帧鸣声信号通过快速傅里叶变换并取绝对值的平方得到能量谱图。其中预处理是将2秒的鸟鸣片段分割为1.5秒并设置1秒的重叠保证鸣声的连续性,对分割后的鸟鸣信号进行分帧,设置帧长为2048个采样点,帧移为512个采样点得到短时平稳信号,加窗即对分帧之后对每帧信号乘以汉明窗,增强帧与帧之间的连续性,减少特征信息的丢失,计算方法为
x(n)=w(n)·s(n),0≤n≤N-1 (2)
其公式(1)中ω(n)为汉明窗计算公式,通过公式(2)将汉明窗与给定的每帧信号s(n)相乘进行加窗,N为帧长。
将经过预处理的鸟鸣信号x(n)利用快速傅里叶变换计算各帧的频谱,并对频谱取绝对值的平方得到能够反映时域和频域特征信息的能量谱。快速傅里叶变换的计算方法如公式(3)。
S3:三维log-Mel频谱图是由静态的log-Mel频谱图与动态一阶差分系数和动态二阶差分系数组合而成。结合图2,该步骤具体为:
1.使用64阶Mel滤波器组对能量谱图进行滤波得到大小为64×64的Mel频谱,其中Mel滤波器组可以模仿人耳特殊的滤波功能,在具有噪声的环境种以及各种编译情况下仍能准确分辨处各种鸟类的鸣声,将得到的Mel频谱图取对数得到log-Mel频谱图。
2.由于log-Mel频谱图是一种对噪声鲁棒性差的静态声学特征,通过计算log-Mel频谱图的一阶差分系数和二阶差分系数可以获得动态声学特征,能够捕捉音频信号相邻两帧与相邻三帧之间的动态关系,具有良好抗噪性能;将一阶差分系数与二阶差分系数作为log-Mel频谱图的动态补充特征形成大小为64×64×3的三维log-Mel频谱图,如图3所示。log-Mel频谱图的一阶差分系数与二阶差分系数计算方法如公式(4),公式(5)。
其中L(m)表示log-Mel频谱图,L(m) d代表一阶差分系数,L(m) dd是二阶差分系数。
S4:基于VGG16的特征提取器是以ImageNet数据集上预训练的深度卷积神经网络VGG16为源模型,采用深度迁移学习中的参数迁移方法,用三维log-Mel频谱图对VGG16网络结构微调并进行重训练得到。模型的输入尺度调整为64×64×3,模型有5组共13个卷积层,每组卷积层之间以最大池化层连接共4个最大池化层,使用全局平均池化层连接卷积层与全连接层,2个全连接层之后都添加了Dropout函数。具体来说每个卷积层的卷积核大小为3×3,其中第一组的2个卷积层各有64个通道,卷积层之后使用RelU激活函数以增加非线性映射缓解梯度消失,提升网络的稀疏性,减少了参数的相互依存关系,更好地挖掘相关特征,拟合训练数据。为了减少无用信息的影响,保留更多谱图纹理信息,提升所提取特征的泛化能力,每组卷积层之间均采用2x2的最大池化层来对上层输出特征进行下采样,池化后输入变成输出大小的一半,通道数增大一倍。经过多组卷积层与最大池化层的处理,最后一层卷积层的输出不是直接与全连接层相连,而是先经过全局平均池化层处理后再输入到全连接层,这样可以极大的减少网络模型的参数,获得全局感受野,提升识别效率。全连接层包含512个神经元,主要作用是把分布式特征表示映射到样本标记空间,减少特征位置对分类带来的影响。全连接层之后通过Droupout函数按照一定的概率随机丢弃神经元,防止网络产生过拟合。网络结构如图4所示。把从鸟鸣信号中提取的大小为64×64×3的三维log-Mel频谱图作为模型的输入,重新训练最后两组卷积层以及全连接层得到基于VGG16的特征提取器并提取三维log-Mel频谱图的高维隐式特征。
S5:将三维log-Mel时频谱图的高维隐式特征按6:2:2的比例随机划分为训练集、测试集和验证集,分别与实际对应标签存储为DMatrix格式以符合XGBoost的输入要求。利用训练集对XGBoost分类器进行训练将无意义的高维隐式特征重新描述为显示特征,通过增加所提取特征的可解释性,提升对鸟鸣识别的有效性,然后在验证集上不断调整参数达到最优组合后在测试集上将鸟鸣信号映射为鸟类物种。
综上所述,本发明以自然环境下收集和设计的真实鸟鸣为基础建立鸟鸣音频库,对鸟鸣信号进行预处理、快速傅里叶变化等计算后提取log-Mel频谱图的一阶差分系数和二阶差分系数作为log-Mel频谱图的补充特征形成三维log-Mel频谱图。最后使用深度迁移学习的参数迁移方法微调预训练的VGG16构建特征提取器提取鸟鸣信号的高维隐式特征作为XGBoost分类器的输入实现鸟鸣信号到鸟类物种的识别。本发明所提供的技术方案,可应对自然环境中的多种鸟类进行识别,具有一定的抗噪性,所需计算资源低,可以实现对实际场景中鸟类物种的非侵入式识别与监测,对生态环境的研究具有重要意义。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
Claims (9)
1.基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:包括以下步骤:
S1:收集自然环境下的多种鸟类鸣声,每种鸟类鸣声信号包括多个时间序列相同的鸣声片段;建立基于自然场景设计和收集的鸟鸣音频库;
S2:对鸟鸣音频库的每个鸣声片段进行预处理获得短时平稳的鸣声信号,将每帧鸣声信号通过快速傅里叶变换后取绝对值的平方得到能量谱图;
S3:将能量谱图经过64阶梅尔滤波器映射为Mel频谱图,作为深度迁移学习与XGBoost混合鸟鸣识别模型的输入;对Mel频谱图取对数得到log-Mel频谱图;计算log-Mel频谱图的一阶差分系数和二阶差分系数获得动态声学特征;将一阶差分系数和二阶差分系数与log-Mel频谱图组合成为三维log-Mel频谱图;
S4:采用参数迁移微调在ImageNet数据集上预训练的深度卷积神经网络VGG16模型,得到针对鸟鸣信息的特征提取器,并提取三维log-Mel时频谱图的高维隐式特征;
S5:将三维log-Mel时频谱图的高维隐式特征按照一定比例划分为训练集、测试集和验证集;采用训练集训练XGBoost分类器,并在验证集上调整XGBoost分类器的参数,最后在测试集上将高维隐式特征映射为鸟类物种。
2.根据权利要求1所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S1中,每个鸟鸣片段的时间序列长度为2秒,采样率为22.05khz,存储格式为.wav。
3.根据权利要求2所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S2中,具体步骤为:
S21:将2秒的鸟鸣片段分割为1.5秒并设置1秒的重叠保证鸣声的连续性;
S22:对分割后的鸟鸣信号进行分帧,设置帧长为2048个采样点,帧移为512个采样点得到短时平稳信号;
S23:设n为采样点的取值,N为帧长,则汉明窗计算公式ω(n)为:
设每帧信号为s(n),对分帧后的每帧信号乘以汉明窗进行加窗得到x(n):
x(n)=w(n)·s(n),0≤n≤N-1;
S24:设k是快速傅里叶变换的点数,对加窗后的鸟鸣信号x(n)进行快速傅里叶变换计算各帧的频谱,并对频谱取绝对值的平方,得到用于反映时域和频域特征信息的能量谱:
S25:绘制以时间为横轴、频率为纵轴的能量谱图,通过颜色明暗表示能量高低。
4.根据权利要求3所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S3中,具体步骤为:
S31:64阶梅尔滤波器具有人耳滤波功能,使用64阶梅尔滤波器对能量谱图进行滤波得到大小为64×64的Mel频谱图;
S32:对Mel频谱图取对数得到log-Mel频谱图L(m),log-Mel频谱图L(m)具备静态声学特征;
S33:计算log-Mel频谱图L(m)的一阶差分系数L(m) d和二阶差分系数L(m) dd获得动态声学特征,用于捕捉相邻两帧与相邻三帧之间音频信号的动态关系:
S34:将一阶差分系数L(m) d和二阶差分系数L(m) dd作为log-Mel频谱图L(m)的动态补充特征形成大小为64×64×3的三维log-Mel频谱图。
5.根据权利要求4所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S4中,具体步骤为:
S40:在ImageNet数据集上预训练深度卷积神经网络VGG16模型;
S41:采用参数迁移保留VGG16模型的浅层结构与参数权重;
S42:微调VGG16模型的深层结构;
S43:使用三维log-Mel频谱图重新训练深层结构的参数权重,得到针对鸟鸣信息的特征提取器;
S44:通过特征提取器提取三维log-Mel时频谱图的高维隐式特征。
6.根据权利要求5所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S42中,具体步骤为:
将VGG16模型的输入尺度调整为64×64×3;
VGG16模型包括5组共13个卷积层;每个卷积层的卷积核大小为3×3,其中第一组2个卷积层各有64个通道,卷积层之后使用RelU激活函数用于增加非线性映射、缓解梯度消失、提升网络的稀疏性;
还包括4个2x2的最大池化层分别连接在每组卷积层之间,用于对上层输出特征进行下采样,使池化后输入变成输出大小的一半,通道数增大一倍;
还包括2个全连接层,通过全局平均池化层连接最后一层卷积层;全连接层包括512个神经元,用于把分布式特征表示映射到样本标记空间;全连接层后添加有Dropout函数,用于按照一定的概率随机丢弃神经元,防止网络产生过拟合。
7.根据权利要求6所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S43中,具体步骤为:
把从鸟鸣信号中提取的大小为64×64×3的三维log-Mel频谱图作为VGG16模型的输入,重新训练最后两组卷积层和全连接层,得到基于VGG16模型的特征提取器。
8.根据权利要求7所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S5中,具体步骤为:
S51:将三维log-Mel时频谱图的高维隐式特征按6:2:2的比例随机划分为训练集、测试集和验证集,分别与实际对应标签存储为DMatrix格式以符合XGBoost的输入要求;
S52:采用训练集训练XGBoost分类器,将无意义的高维隐式特征重新描述为显示特征,用于增加所提取特征的可解释性;
S53:在验证集上不断调整参数达到最优组合;
S54:在测试集上将鸟鸣信号映射为鸟类物种。
9.一种计算机存储介质,其特征在于:其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行如权利要求1至权利要求8中任意一项所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210536031.3A CN114863937B (zh) | 2022-05-17 | 2022-05-17 | 基于深度迁移学习与XGBoost的混合鸟鸣识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210536031.3A CN114863937B (zh) | 2022-05-17 | 2022-05-17 | 基于深度迁移学习与XGBoost的混合鸟鸣识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114863937A CN114863937A (zh) | 2022-08-05 |
CN114863937B true CN114863937B (zh) | 2024-06-18 |
Family
ID=82637701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210536031.3A Active CN114863937B (zh) | 2022-05-17 | 2022-05-17 | 基于深度迁移学习与XGBoost的混合鸟鸣识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114863937B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117238299B (zh) * | 2023-11-14 | 2024-01-30 | 国网山东省电力公司电力科学研究院 | 输电线路鸟类声音识别模型优化方法、系统、介质及设备 |
CN117727308B (zh) * | 2024-02-18 | 2024-04-26 | 百鸟数据科技(北京)有限责任公司 | 基于深度迁移学习的混合鸟鸣识别方法 |
CN117727309B (zh) * | 2024-02-18 | 2024-04-26 | 百鸟数据科技(北京)有限责任公司 | 基于tdnn结构的鸟鸣物种自动识别方法 |
CN117981744B (zh) * | 2024-04-07 | 2024-06-18 | 国网山东省电力公司淄博供电公司 | 一种输电线路防鸟害保护系统、方法、电子设备及存储介质 |
CN118173106B (zh) * | 2024-05-15 | 2024-07-05 | 百鸟数据科技(北京)有限责任公司 | 一种野外鸟类鸣声音频数据增强方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110570874A (zh) * | 2018-06-05 | 2019-12-13 | 中国科学院声学研究所 | 一种用于监测野外鸟类鸣声强度及分布的系统及其方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11558699B2 (en) * | 2020-03-11 | 2023-01-17 | Sonova Ag | Hearing device component, hearing device, computer-readable medium and method for processing an audio-signal for a hearing device |
CN113707158A (zh) * | 2021-08-02 | 2021-11-26 | 南昌大学 | 一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法 |
CN114038479B (zh) * | 2021-11-09 | 2024-09-27 | 中南林业科技大学 | 应对低信噪比的鸟鸣声识别分类方法、装置及存储介质 |
-
2022
- 2022-05-17 CN CN202210536031.3A patent/CN114863937B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110570874A (zh) * | 2018-06-05 | 2019-12-13 | 中国科学院声学研究所 | 一种用于监测野外鸟类鸣声强度及分布的系统及其方法 |
Non-Patent Citations (1)
Title |
---|
随机森林和大规模声学特征的噪声环境鸟声识别仿真;刘钊;系统仿真技术;20171128;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114863937A (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114863937B (zh) | 基于深度迁移学习与XGBoost的混合鸟鸣识别方法 | |
CN109243491B (zh) | 在频谱上对语音进行情绪识别的方法、系统及存储介质 | |
CN112581979B (zh) | 一种基于语谱图的语音情绪识别方法 | |
CN103765506B (zh) | 使用听觉注意线索进行音调/语调识别的方法 | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN109767785A (zh) | 基于卷积神经网络的环境噪声识别分类方法 | |
CN110880329B (zh) | 一种音频识别方法及设备、存储介质 | |
CN106952649A (zh) | 基于卷积神经网络和频谱图的说话人识别方法 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN102982803A (zh) | 基于hrsf及改进dtw算法的孤立词语音识别方法 | |
Wang et al. | Rainfall observation using surveillance audio | |
CN117095694A (zh) | 一种基于标签层级结构属性关系的鸟类鸣声识别方法 | |
CN105448291A (zh) | 基于语音的帕金森症检测方法及检测系统 | |
CN109272986A (zh) | 一种基于人工神经网络的狗声音情感分类方法 | |
CN114299986A (zh) | 一种基于跨域迁移学习的小样本声音识别方法及系统 | |
Qiu et al. | Sound Recognition of Harmful Bird Species Related to Power Grid Faults Based on VGGish Transfer Learning | |
Sun et al. | A novel convolutional neural network voiceprint recognition method based on improved pooling method and dropout idea | |
CN110136746B (zh) | 一种基于融合特征的加性噪声环境下手机来源识别方法 | |
CN113782054B (zh) | 基于智能语音技术的闪电哨声波自动识别方法及系统 | |
CN115641839A (zh) | 一种智能语音识别方法和系统 | |
Wang et al. | A hierarchical birdsong feature extraction architecture combining static and dynamic modeling | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN110931024B (zh) | 基于音频的圈养大熊猫自然交配结果的预测方法及系统 | |
Chen et al. | An intelligent nocturnal animal vocalization recognition system | |
CN117711442A (zh) | 一种基于cnn-gru融合模型的婴儿哭声分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |