Nothing Special   »   [go: up one dir, main page]

CN112509601B - 一种音符起始点检测方法及系统 - Google Patents

一种音符起始点检测方法及系统 Download PDF

Info

Publication number
CN112509601B
CN112509601B CN202011292733.9A CN202011292733A CN112509601B CN 112509601 B CN112509601 B CN 112509601B CN 202011292733 A CN202011292733 A CN 202011292733A CN 112509601 B CN112509601 B CN 112509601B
Authority
CN
China
Prior art keywords
max
frame
point
feature data
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011292733.9A
Other languages
English (en)
Other versions
CN112509601A (zh
Inventor
王军
马连航
文亮
阮林萍
汪万涛
赵罡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETHIK Group Ltd
Original Assignee
CETHIK Group Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETHIK Group Ltd filed Critical CETHIK Group Ltd
Priority to CN202011292733.9A priority Critical patent/CN112509601B/zh
Publication of CN112509601A publication Critical patent/CN112509601A/zh
Application granted granted Critical
Publication of CN112509601B publication Critical patent/CN112509601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Auxiliary Devices For Music (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种音符起始点检测方法及系统,方法包括:获取待检测的原始音频进行短时傅里叶变换,得到音频时谱图;依次取音频时谱图中的一帧作为当前帧,将当前帧以及当前帧的前p帧和后q帧组合为一条特征数据,得到多条特征数据;对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑,并利用平滑后的均值向量和标准差向量对每条特征数据中的每一帧进行标准化处理;将标准化处理后的每条特征数据依次输入卷积神经网络中,得到卷积神经网络输出的针对每条特征数据是否为音符起始点的预测结果,根据预测结果标注待检测的原始音频中的音符起始点。本发明旨在解决现有技术中音符起始点检测准确率不高,且存在民乐检测空白的问题。

Description

一种音符起始点检测方法及系统
技术领域
本发明属于音频信号处理技术领域,特别涉及一种音符起始点检测方法及系统。
背景技术
音符起始点是音乐特征信息中最基础的特征,指的是音乐中某一音符开始的时间。如图1所示,一个音符时间域信息中起始(Attack)阶段能量突然上升,一段过渡期(Transient)后能量逐渐下降(Decay),其中起始(Attack)阶段的起始点(Onset)即为音符起始点。音符起始点检测在信号处理领域有很多应用方向和重要用途,如:对音乐进行节拍划分、节奏检测、音高估计等。
目前现有的起始点检测方法大多通过提取音频信号在时域或频域上的特征来检测音符起始点,如幅度谱、相位谱、波形包络等。这些方法准确性不高,易受噪声干扰,对不同类型的音频的泛化性较弱。且在现有大多数关于音乐音符起始点检测的研究中多数均以西洋乐器为研究对象,针对中国民乐的研究少之又少。而西洋乐器的起始点特征与民乐乐器的起始点特征差异较大,其算法难以直接运用至民乐的起始点检测任务上。
现有技术如申请号为CN201910151671.0(2019.02.28)的专利,公开了使用幅度谱和相位谱作为音频信号特征,通过对二者进行综合加权,得到音频信号频谱曲线参数;由此确定曲线局部最高点,根据局部最高点确定音频的起始点位置。该方案将相位谱作为特征选取依据之一,因此算法容易受到相位畸变或噪声成分的干扰,进而产生误检。
现有技术又如申请号为CN201310557751.9(2013.11.11)的专利,公开了对实时跟踪的音乐信号进行离散采样,根据采样序列获取信号波形包络的有效峰值点,并选择其中具有最大幅度的多个有效峰值点作为起始点。该方法采用幅度包络作为特征,受时域噪声影响较大,一般在打击乐等能量特征明显的音乐中检测效率较高,对能量变化特征不明显的起始点(软起始点)的检测可靠性较弱。
发明内容
本申请的目的是提供一种音符起始点检测方法及系统,旨在解决现有技术中音符起始点检测准确率不高,且存在民乐检测空白的问题。
为了实现上述目的,本申请技术方案如下:
一种音符起始点检测方法,应用于基于内容的音乐特征识别,所述音符起始点检测方法,包括:
获取待检测的原始音频,对所述原始音频进行短时傅里叶变换,得到音频时谱图;
依次取所述音频时谱图中的一帧作为当前帧,将当前帧以及当前帧的前p帧和后q帧组合为一条特征数据,得到多条特征数据;
对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑,并利用平滑后的均值向量和标准差向量对每条特征数据中的每一帧进行标准化处理;
将标准化处理后的每条特征数据依次输入预训练的卷积神经网络中,得到卷积神经网络输出的针对每条特征数据是否为音符起始点的预测结果,根据所述预测结果标注待检测的原始音频中的音符起始点;
其中,所述均值向量和标准差向量,计算过程包括:
令音频时谱图为X={x1,x2,...,xN}∈RN*M,其中,N为音频时谱图的长度,即共有N帧,M表示M维向量;
若记所有特征数据为D,则特征数据的条数为|D|,第j条特征数据记为
Figure GDA0003741230240000021
其中
Figure GDA0003741230240000022
表示第j条特征数据中的第i帧,且
Figure GDA0003741230240000023
p、q为预设帧数,则特征数据的均值向量μ∈RM中,每个分量μk,k=1,2,...,M的计算方式如下:
Figure GDA0003741230240000024
其中,
Figure GDA0003741230240000025
表示第j条特征数据中第i帧的第k个频率区间对应的能量数据;
则特征数据的标准差向量σ∈RM中,每个分量σk,k=1,2,...,M的计算方式如下:
Figure GDA0003741230240000031
其中,
Figure GDA0003741230240000032
表示第j条特征数据中第i帧的第k个频率区间对应的能量数据。
作为优选,对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑,包括:
1)令音频时谱图为X={x1,x2,...,xN}∈RN*M,其中,N为音频时谱图的长度,即共有N帧,M表示M维向量,且多条特征数据的均值向量为μ∈RM、标准差向量为σ∈RM
2)遍历均值向量μ∈RM,找到能量极大值序列μmax,所述能量极大值序列μmax的选取方式为:遍历均值向量μ∈RM的所有点,若当前遍历点为前后共m个点中的最大值,则将该点加入μmax中,否则不加入μmax中;
3)遍历能量极大值序列μmax,找到并删除所有极小值点,所述极小值点的选取方式为:遍历能量极大值序列μmax中的所有点,若当前遍历点为前后共r个点中的最小值,则将该点从能量极大值序列μmax中删除;
4)重复执行步骤2)和步骤3),直至能量极大值序列μmax中不存在极小值点;
5)使用插值拟合方法将删除极小值点后剩余的能量极大值序列μmax中的点进行连接,连接所得曲线即为平滑后的均值向量μ′;
6)遍历标准差向量σ∈RM,找到能量极大值序列σmax,所述能量极大值序列σmax的选取方式为:遍历标准差向量σ∈RM的所有点,若当前遍历点为前后共m个点中的最大值,则将该点加入σmax中,否则不加入σmax中;
7)遍历能量极大值序列σmax,找到并删除所有极小值点,所述极小值点的选取方式为:遍历能量极大值序列σmax中的所有点,若当前遍历点为前后共r个点中的最小值,则将该点从序列σmax中删除;
8)重复执行步骤6)和步骤7),直至能量极大值序列σmax中不存在极小值点;
9)使用插值拟合方法将删除极小值点后剩余的能量极大值序列σmax中的点进行连接,连接所得曲线即为平滑后的标准差向量σ′。
作为优选,利用平滑后的均值向量和标准差向量对每条特征数据中的每一帧进行标准化处理,包括:
Figure GDA0003741230240000041
其中,
Figure GDA0003741230240000042
表示待处理的第j条特征数据中的第i帧,j=1,2,...,|D|,i=1,2,...,q+p+1,|D|为特征数据的条数,σ′为平滑后的标准差向量,μ′为平滑后的均值向量。
作为优选,所述卷积神经网络,从输入侧至输出侧依次包括:卷积核为4*3的卷积层、窗口为1*3的最大池化层、卷积核为3*3的卷积层、窗口为1*3的最大池化层、包含256个神经元的全连接层以及包含1个神经元的输出层。
本申请还提供一种音符起始点检测系统,所述音符起始点检测系统,包括:
时频转换模块,用于获取待检测的原始音频,对所述原始音频进行短时傅里叶变换,得到音频时谱图;
特征组合模块,用于依次取所述音频时谱图中的一帧作为当前帧,将当前帧以及当前帧的前p帧和后q帧组合为一条特征数据,得到多条特征数据;
特征平滑模块,用于对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑,并利用平滑后的均值向量和标准差向量对每条特征数据中的每一帧进行标准化处理;
特征识别模块,用于将标准化处理后的每条特征数据依次输入预训练的卷积神经网络中,得到卷积神经网络输出的针对每条特征数据是否为音符起始点的预测结果,根据所述预测结果标注待检测的原始音频中的音符起始点;
其中,所述均值向量和标准差向量,计算过程包括:
令音频时谱图为X={x1,x2,...,xN}∈RN*M,其中,N为音频时谱图的长度,即共有N帧,M表示M维向量;
若记所有特征数据为D,则特征数据的条数为|D|,第j条特征数据记为
Figure GDA0003741230240000051
其中
Figure GDA0003741230240000052
表示第j条特征数据中的第i帧,且
Figure GDA0003741230240000053
p、q为预设帧数,则特征数据的均值向量μ∈RM中,每个分量μk,k=1,2,...,M的计算方式如下:
Figure GDA0003741230240000054
其中,
Figure GDA0003741230240000055
表示第j条特征数据中第i帧的第k个频率区间对应的能量数据;
则特征数据的标准差向量σ∈RM中,每个分量σk,k=1,2,...,M的计算方式如下:
Figure GDA0003741230240000056
其中,
Figure GDA0003741230240000057
表示第j条特征数据中第i帧的第k个频率区间对应的能量数据。
作为优选,对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑,包括:
1)令音频时谱图为X={x1,x2,...,xN}∈RN*M,其中,N为音频时谱图的长度,即共有N帧,M表示M维向量,且多条特征数据的均值向量为μ∈RM、标准差向量为σ∈RM
2)遍历均值向量μ∈RM,找到能量极大值序列μmax,所述能量极大值序列μmax的选取方式为:遍历均值向量μ∈RM的所有点,若当前遍历点为前后共m个点中的最大值,则将该点加入μmax中,否则不加入μmax中;
3)遍历能量极大值序列μmax,找到并删除所有极小值点,所述极小值点的选取方式为:遍历能量极大值序列μmax中的所有点,若当前遍历点为前后共r个点中的最小值,则将该点从能量极大值序列μmax中删除;
4)重复执行步骤2)和步骤3),直至能量极大值序列μmax中不存在极小值点;
5)使用插值拟合方法将删除极小值点后剩余的能量极大值序列μmax中的点进行连接,连接所得曲线即为平滑后的均值向量μ′;
6)遍历标准差向量σ∈RM,找到能量极大值序列σmax,所述能量极大值序列σmax的选取方式为:遍历标准差向量σ∈RM的所有点,若当前遍历点为前后共m个点中的最大值,则将该点加入σmax中,否则不加入σmax中;
7)遍历能量极大值序列σmax,找到并删除所有极小值点,所述极小值点的选取方式为:遍历能量极大值序列σmax中的所有点,若当前遍历点为前后共r个点中的最小值,则将该点从序列σmax中删除;
8)重复执行步骤6)和步骤7),直至能量极大值序列σmax中不存在极小值点;
9)使用插值拟合方法将删除极小值点后剩余的能量极大值序列σmax中的点进行连接,连接所得曲线即为平滑后的标准差向量σ′。
作为优选,利用平滑后的均值向量和标准差向量对每条特征数据中的每一帧进行标准化处理,包括:
Figure GDA0003741230240000061
其中,
Figure GDA0003741230240000062
表示待处理的第j条特征数据中的第i帧,j=1,2,...,|D|,i=1,2,...,q+p+1,|D|为特征数据的条数,σ′为平滑后的标准差向量,μ′为平滑后的均值向量。
作为优选,所述卷积神经网络,从输入侧至输出侧依次包括:卷积核为4*3的卷积层、窗口为1*3的最大池化层、卷积核为3*3的卷积层、窗口为1*3的最大池化层、包含256个神经元的全连接层以及包含1个神经元的输出层。
本申请提出的音符起始点检测方法及系统,利用极值滤波的包络平滑方法对训练数据的均值和标准差进行平滑处理,再经过标准化强化起始点特征,随后送入卷积神经网络进行分类。该方法能够强化频域能量变化特性,更加凸显音符的起始点特征,更有利于提高卷积神经网络的分类准确性,且不直接依赖与音符的幅度、相位等表观特征,不仅能够去除音符中的噪音干扰,且对不同类型的音频的泛化性强。
附图说明
图1为一个音符的时间域信息示意图;
图2为本申请音符起始点检测方法的流程图;
图3为本申请卷积神经网络的一种实施例结构示意图;
图4为本申请试验例中音符起始点检测方法的流程图;
图5为本申请试验例中采用传统标准化方法处理的能量频谱图;
图6为本申请试验例中采用本申请标准化方法(ELES标准化)处理的能量频谱图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
在基于内容的音乐研究(例如音乐节拍划分、节奏检测、音高估计等)中,正确提取音符起始点信息是识别音高、节拍、节奏、段落等音乐高级特征的基础。本申请提供的一种音符起始点检测方法,不仅弥补了现有技术中对民乐音符起始点检测的薄弱性,同时也兼顾了对西洋乐音符的起始点检测,且具有较高的准确性,在基于内容的音乐特征识别中具有良好的应用前景。
基于内容的音乐特征识别作为基于内容的音乐信息检索(如听歌识曲)、音乐特征应用(如基于音乐特征实现音乐喷泉的智能控制)等技术的基础,使得音符起始点检测成为基于内容的音乐信息检索、音乐特征应用的关键环节。本申请提供一种高精度的音符起始点检测方法,有利于提升基于内容的音乐信息检索的准确性,同时提升音乐特征的应用效果。
如图2所示,本申请的一种音符起始点检测方法,包括:
步骤1、获取待检测的原始音频,对所述原始音频进行短时傅里叶变换,得到音频时谱图。
对于给定的一段原始音频(例如WAV格式),将其进行时频变换后得到长度为N的音频时谱图(Spectrogram)X={x1,x2,...,xN}∈RN*M。N为音频时谱图的长度,即总帧数,M表示M维向量。
进行短时傅里叶变换后,将音频信号转化为与时间相关的信号特征,以便于后续对音频特征的处理。
步骤2、依次取所述音频时谱图中的一帧作为当前帧,将当前帧以及当前帧的前p帧和后q帧组合为一条特征数据,得到多条特征数据。
大多数音符在起始(Attack)阶段会出现能量突然上升的过程。因此对于一个属于音符起始点的帧xt来说,时间上在其之前的p帧,即xt-p,xt-p+1,...,xt-1,每一帧的能量是及其微弱的,而在其之后的q帧,能量会突然升高。为此,对于卷积神经网络的输入,除了应包含当前帧xt,还应当包括其上下文帧的特征数据。
本申请在判断音符起始点对应帧时,不是仅针对一帧进行判断,而是结合音乐特点选取包含上下文帧的方式进行特征识别,该方式增加了输入卷积神经网络的特征数据的特征,既包含当前帧xt自身的特征,还增加了时序上特征的变化,充分利用有限的音频数据,有效提升音符起始点判断的准确性,而且可以降低原始音频中噪声的干扰,克服了对单帧进行判断时易受噪声影响出现误判的情况。
为了体现上下文帧的有效性,并降低对特征数据的处理和计算识别压力,在一实施例中取当前帧xt及其上下文共8帧(p=4,q=3)的数据作为特征数据,即xt-4,xt-3,...,xt,...,xt+3
需要说明的是,在一段音符中前p帧和后q帧无法满足获取p帧和后q帧的条件,即需要忽略对这几帧的检测。对于一段音符而言,起始点一般不位于最前几帧和最后几帧,因此忽略这几帧的检测不会造成很大的误差。
步骤3、对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑,并利用平滑后的均值向量和标准差向量对每条特征数据中的每一帧进行标准化处理。
对于音频信号特征而言,其信号值通常较大且相互帧之间的值大小相差较多,不利于卷积神经网络的计算识别,因此本申请利用特征数据的均值和标准差对每一帧数据进行标准化。
本申请对训练数据的均值向量μ和标准差向量σ逐帧累加后进行平滑,平滑结果平均分配至每一帧,然后利用平滑后的均值与标准差,对训练数据做标准化处理。具体步骤如下:
其中,所述均值向量和标准差向量,计算过程包括:
若记所有特征数据为D,则特征数据的条数为|D|,第j条特征数据记为
Figure GDA0003741230240000091
其中
Figure GDA0003741230240000092
表示第j条特征数据中的第i帧,且
Figure GDA0003741230240000093
p、q为预设帧数,则特征数据的均值向量μ∈RM中,每个分量μk,k=1,2,...,M的计算方式如下:
Figure GDA0003741230240000094
其中,
Figure GDA0003741230240000095
表示第j条特征数据中第i帧的第k个频率区间对应的能量数据。
则特征数据的标准差向量σ∈RM中,每个分量σk,k=1,2,...,M的计算方式如下:
Figure GDA0003741230240000096
其中,
Figure GDA0003741230240000097
表示第j条特征数据中第i帧的第k个频率区间对应的能量数据。
对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑,包括:
1)取多条特征数据的均值向量为μ∈RM和标准差向量为σ∈RM
2)遍历均值向量μ∈RM,找到能量极大值序列μmax,所述能量极大值序列μmax的选取方式为:遍历均值向量μ∈RM的所有点(即所有数据),若当前遍历点为前后共m个点中的最大值,则将该点加入μmax中,否则不加入μmax中。
例如m=5,若μi=max(μi-2i-1ii+1i+2)时,认为μi为极大值点。即若均值向量中存在10个点,则能量极大值序列μmax的选取方式为:若第3个点为第1、2、3、4、5个点中的最大值,则将第3个点加入μmax中;若第4个点为第2、3、4、5、6个点中的最大值,则将第4个点加入μmax中;依次判断直至判断至若第8个点为第6、7、8、9、10个点中的最大值,则将第8个点加入μmax中;由于需要要求结合当前点的前2个点和后2个点进行判断,因此忽略10个点中的第1、2和第9、10个点的判断。
需要说明的是,以上为当前点与前2个点和后2个点进行比较的方式,该方式为能量极大值序列选取的一种方式,不作为对本申请的限定,例如可以是在m=5,若μi=max(μi-3i-2i-1ii+1)时,认为μi为极大值点;或者可以是m=3,若μi=max(μi-1ii+1)时,认为μi为极大值点。
3)遍历能量极大值序列μmax,找到并删除所有极小值点,所述极小值点的选取方式为:遍历能量极大值序列μmax中的所有点,若当前遍历点为前后共r个点中的最小值,则将该点从能量极大值序列μmax中删除。
例如r=3,若μi=min(μi-1ii+1)时,认为μi为极小值点。即若能量极大值序列μmax中存在6个点,若第2个点为第1、2、3个点中的最小值则将其删除,若第3个点为第2、3、4个点中的最小值则将其删除,若第4个点为第3、4、5个点中的最小值则将其删除,直至若第5个点为第4、5、6个点中的最小值则将其删除。同理,由于对当前点的判断需要结合前1个点和后1个点,因此忽略对第1、6个点的判断,即本次保留第1、6个点。并且在判断到连续r个点中的最小值时,为其添加删除标记,并在遍历完成后进行删除,即在实际判断中是会应用到标记为删除的点的。
并且与判断极大值时m的取值与前后点的设置相同,判断极小值点时r的取值以及前后点的设置也具有多种形变。
4)重复执行步骤2)和步骤3),直至能量极大值序列μmax中不存在最小值点。
需要说明的是,本实施例提供的基于极值筛选的包络平滑效果好,且平滑步骤简单,所占计算资源少,为优选的包络平滑方法。但在实际应用中,可根据平滑效果要求、硬件计算资源等条件选用现有的其他包括平滑方法进行处理。
5)使用插值拟合方法将删除最小值点后剩余的能量极大值序列μmax中的点进行连接,连接所得曲线即为平滑后的均值向量μ′。
需要说明的是,本申请中采用的插值拟合方法为现有公开的任意插值拟合方法即可,例如拉格朗日插值、Newton插值、三次样条插值、线性回归拟合、多项式拟合等,这里就不再进行赘述。
本申请中对标准差向量的平滑处理过程与对均值向量的平滑处理过程相同,具体步骤如下:
6)遍历标准差向量σ∈RM,找到能量极大值序列σmax,所述能量极大值序列σmax的选取方式为:遍历标准差向量σ∈RM的所有点,若当前遍历点为前后共m个点中的最大值,则将该点加入σmax中,否则不加入σmax中。
7)遍历能量极大值序列σmax,找到并删除所有极小值点,所述极小值点的选取方式为:遍历能量极大值序列σmax中的所有点,若当前遍历点为前后共r个点中的最小值,则将该点从序列σmax中删除。
8)重复执行步骤6)和步骤7),直至能量极大值序列σmax中不存在最小值点。
9)使用插值拟合方法将删除最小值点后剩余的能量极大值序列σmax中的点进行连接,连接所得曲线即为平滑后的标准差向量σ′。
相对于现有的包络平滑方法而言,本实施例在获得极大值序列后,采用迭代遍历的方式,事先对极大值序列中的极小值进行筛查,排除干扰平滑毛刺。随后采用插值拟合的方式得到包络曲线。通过多次迭代删除极小值这一步,就能够起到过滤干扰和平滑毛刺的作用,不需要通过滤波进行后续处理,并且可以保证包络线是绝对平滑的。因此本实施例的平滑方法不仅省去了对包络曲线进行滤波的过程,节省平滑时间、降低平滑处理所占资源,而且还能够得到更优的平滑效果。
具体的,利用平滑后的均值向量和标准差向量对每条特征数据中的每一帧进行标准化处理,包括:
Figure GDA0003741230240000121
其中,
Figure GDA0003741230240000122
表示待处理的第j条特征数据中的第i帧,j=1,2,...,|D|,i=1,2,...,q+p+1,|D|为特征数据的条数,σ′为平滑后的标准差向量,μ′为平滑后的均值向量。标准化后,样本每个维度的分布都满足均值为0,标准差为1的高斯分布,本申请将标准化后的特征数据输入神经网络,解决了现有针对传统的神经网络特征预处理方法无法凸显民乐音符的起始点特征、对起始点识别率较低的问题。
步骤4、将标准化处理后的每条特征数据依次输入预训练的卷积神经网络中,得到卷积神经网络输出的针对每条特征数据是否为音符起始点的预测结果,根据所述预测结果标注待检测的原始音频中的音符起始点。
若卷积神经网络判断某一条特征数据为音符起始点,则取该条特征数据中的当前帧作为原始音频中的一个音符起始点,即起始帧。
如图3所示,本实施例提供的卷积神经网络,从输入侧至输出侧依次包括:卷积核为4*3的卷积层、窗口为1*3的最大池化层、卷积核为3*3的卷积层、窗口为1*3的最大池化层、包含256个神经元的全连接层以及包含1个神经元的输出层。
本实施例采用的卷积神经网络架构由2层卷积层、2层池化层和2层全连接层组成,网络的最后一层是单独的一层全连接层,只有一个神经元。因为是二分类问题,所以直接将该神经元和sigmod函数捆绑,看做是一层。实际上是将全连接层和输出层绑定在一起,联合起到二分类作用。
采用卷积网络的原因是对于整首曲子来说,音符的起始点其实是一个时序上的局部特征,包含起始点的帧(下文简称为起始帧)的能量与其时序上之前和之后的帧有密切关系,且起始帧在一首曲子中的多个时间点上发生,因此采用卷积的思想可以很好地捕捉到这种时序上的局部特征,同时减少网络的参数量。
本申请用于分类的卷积神经网络不限于本申请提供的结构,同样适用于现有公开的其他网络结构,例如二分类网络。本申请的神经网络的输入是二维的时谱图(8帧*472个频率子带),通过大小为4*3的卷积核后得到10个5*470大小的特征映射图,再通过1*3窗口的最大池化层后,将每个特征映射图维度缩减为5*156。紧接着的第二个卷积层的卷积核大小为3*3,最大池化层窗口大小为1*3,得到20个大小为3*51的特征映射图。最后送入包含256个神经元的全连接层,输出层只有一个神经元,以sigmoid函数的输出判断是否为音符起始点,保证具有较高的识别性能。
需要说明是的,卷积神经网络使用前需要对网络参数进行训练,本申请中对网络的训练基于已标注好的音频起始点和非起始点数据按照常规训练步骤进行,这里就不再进行赘述。
试验例
为了进一步说明本申请音符起始点检测方法,在一实施例中,先选取民乐中的古筝作为研究对象,将音符起始点检测问题建模为一个有监督的二分类问题,并采用神经网络模型进行分类。
如图4所示,对采集的古筝的音频源文件(WAV格式)进行短时傅里叶变换得到时谱图,后对时谱图进行特征选取和ELES标准化(即本申请采用的标准化方法)的预处理后输入至卷积神经网络中,由卷积神经网络输出针对每一帧预测的是否为音符起始点的预测结果,若是则预测结果为音符起始点;否则预测结果为非音符起始点。
对于选取的一端原始音频,采用传统标准化方法(无需对均值和标准差做额外处理,直接使用特征量减均值后除以标准差,标准化后特征数据每个维度的均值为0,标准差为1)处理的能量频谱图如图5所示,图中横坐标表示时间上连续的8帧,包括起始帧(图中两条虚线之间)和其上下文帧(前4帧和后3帧),纵坐标表示能量值。采用本申请标准化方法(ELES标准化)处理的能量频谱图如图6所示,图中横坐标表示时间上连续的8帧,包括起始帧(图中两条虚线之间)和其上下文帧(前4帧和后3帧),纵坐标表示能量值。
对比图5和图6可以看到,经过本申请标准化后的起始帧及其上下文帧共8帧频谱能量较为集中,过滤掉大多数的毛刺与凸起,且前4帧能量较低,后4帧能量则突然升高,符合音符起始点的能量变化规律。而传统标准化方法处理后的8帧频谱能量中仍存在较多毛刺与凸起,标准化效果不佳。
本申请民乐音符起始点检测方法基于标准化处理后的数据能够有效检测民乐曲目中的特殊技法和连续十六分音符起始点。以古筝演奏的三首乐曲分别为《关山月》《孟姜女》及《北京的金山上》为例,其中《关山月》包含丰富的特殊技法;《孟姜女》包含大量十六分音符;《北京的金山上》包含技法及强弱变换。在三首包含特殊技法和连续十六分音符起始点的曲目上进行了实验,结果如表1所示。
表1 本发明方法与一般音频信号的方法的准确性对比实验结果(P代表精确率,R代表召回率,F1=2*P*R/(P+R))
Figure GDA0003741230240000141
其中,一般音频信号处理方法得到广泛使用的有基于STFT的谱通量计算方法、基于常数Q变换的梅尔滤波方法等。本发明选取基于STFT的谱通量计算方法为对比方法。由表1可以看到,基于一般音频信号处理的起始点检测算法大幅度牺牲精确率以提升召回率值,导致F1值可靠性较低。本发明提出的音符起始点检测算法的精确率、召回率、F1值优于采用传统标准化的起始点检测算法,且远远高于传统的基于一般音频信号处理的音符起始点检测算法。并且本申请针对含有不同技法、音符的音频,均具有较高的精确率、召回率F1值,识别稳定可靠。
本申请进一步以表1中的方法针对西洋乐的音频进行对比实验,同样取三首音符区别较大的曲目作为实验对象。实验后发现在精确率、召回率、F1值这三个评价指标上,本申请的检测方法相对于其他两种方法与应用在民乐上的检测结果十分相近,即本发明提出的音符起始点检测算法的精确率、召回率、F1值优于采用传统标准化的起始点检测算法,且远远高于传统的基于一般音频信号处理的音符起始点检测算法。由此可以看出,本申请不仅针对民乐音符具有优异的起始点检测效果,且同时适用于对民乐和西洋乐的音符起始点检测,具有较强的泛化性。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,本申请还提供了一种音符起始点检测系统,包括:
时频转换模块,用于获取待检测的原始音频,对所述原始音频进行短时傅里叶变换,得到音频时谱图;
特征组合模块,用于依次取所述音频时谱图中的一帧作为当前帧,将当前帧以及当前帧的前p帧和后q帧组合为一条特征数据,得到多条特征数据;
特征平滑模块,用于对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑,并利用平滑后的均值向量和标准差向量对每条特征数据中的每一帧进行标准化处理;
特征识别模块,用于将标准化处理后的每条特征数据依次输入预训练的卷积神经网络中,得到卷积神经网络输出的针对每条特征数据是否为音符起始点的预测结果,根据所述预测结果标注待检测的原始音频中的音符起始点。
关于音符起始点检测系统的具体限定可以参见上文中对于音符起始点检测方法的限定,在此不再赘述。
上述音符起始点检测系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器中存储有可在处理器上运行的计算机程序,所述处理器通过运行存储在存储器内的计算机程序,从而实现本发明实施例中的音符起始点检测方法。
其中,所述存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器用于存储程序,所述处理器在接收到执行指令后,执行所述程序。
所述处理器可能是一种集成电路芯片,具有数据的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种音符起始点检测方法,应用于基于内容的音乐特征识别,其特征在于,所述音符起始点检测方法,包括:
获取待检测的原始音频,对所述原始音频进行短时傅里叶变换,得到音频时谱图;
依次取所述音频时谱图中的一帧作为当前帧,将当前帧以及当前帧的前p帧和后q帧组合为一条特征数据,得到多条特征数据;
对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑,并利用平滑后的均值向量和标准差向量对每条特征数据中的每一帧进行标准化处理;
将标准化处理后的每条特征数据依次输入预训练的卷积神经网络中,得到卷积神经网络输出的针对每条特征数据是否为音符起始点的预测结果,根据所述预测结果标注待检测的原始音频中的音符起始点;
其中,所述均值向量和标准差向量,计算过程包括:
令音频时谱图为X={x1,x2,...,xN}∈RN*M,其中,N为音频时谱图的长度,即共有N帧,M表示M维向量;
若记所有特征数据为D,则特征数据的条数为|D|,第j条特征数据记为
Figure FDA0003741230230000011
其中
Figure FDA0003741230230000012
表示第j条特征数据中的第i帧,且
Figure FDA0003741230230000013
p、q为预设帧数,则特征数据的均值向量μ∈RM中,每个分量μk,k=1,2,...,M的计算方式如下:
Figure FDA0003741230230000014
其中,
Figure FDA0003741230230000015
表示第j条特征数据中第i帧的第k个频率区间对应的能量数据;
则特征数据的标准差向量σ∈RM中,每个分量σk,k=1,2,...,M的计算方式如下:
Figure FDA0003741230230000021
其中,
Figure FDA0003741230230000022
表示第j条特征数据中第i帧的第k个频率区间对应的能量数据。
2.如权利要求1所述的音符起始点检测方法,其特征在于,对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑,包括:
1)令音频时谱图为X={x1,x2,...,xN}∈RN*M,其中,N为音频时谱图的长度,即共有N帧,M表示M维向量,且多条特征数据的均值向量为μ∈RM、标准差向量为σ∈RM
2)遍历均值向量μ∈RM,找到能量极大值序列μmax,所述能量极大值序列μmax的选取方式为:遍历均值向量μ∈RM的所有点,若当前遍历点为前后共m个点中的最大值,则将该点加入μmax中,否则不加入μmax中;
3)遍历能量极大值序列μmax,找到并删除所有极小值点,所述极小值点的选取方式为:遍历能量极大值序列μmax中的所有点,若当前遍历点为前后共r个点中的最小值,则将该点从能量极大值序列μmax中删除;
4)重复执行步骤2)和步骤3),直至能量极大值序列μmax中不存在极小值点;
5)使用插值拟合方法将删除极小值点后剩余的能量极大值序列μmax中的点进行连接,连接所得曲线即为平滑后的均值向量μ′;
6)遍历标准差向量σ∈RM,找到能量极大值序列σmax,所述能量极大值序列σmax的选取方式为:遍历标准差向量σ∈RM的所有点,若当前遍历点为前后共m个点中的最大值,则将该点加入σmax中,否则不加入σmax中;
7)遍历能量极大值序列σmax,找到并删除所有极小值点,所述极小值点的选取方式为:遍历能量极大值序列σmax中的所有点,若当前遍历点为前后共r个点中的最小值,则将该点从序列σmax中删除;
8)重复执行步骤6)和步骤7),直至能量极大值序列σmax中不存在极小值点;
9)使用插值拟合方法将删除极小值点后剩余的能量极大值序列σmax中的点进行连接,连接所得曲线即为平滑后的标准差向量σ′。
3.如权利要求2所述的音符起始点检测方法,其特征在于,利用平滑后的均值向量和标准差向量对每条特征数据中的每一帧进行标准化处理,包括:
Figure FDA0003741230230000031
其中,
Figure FDA0003741230230000032
表示待处理的第j条特征数据中的第i帧,j=1,2,...,|D|,i=1,2,...,q+p+1,|D|为特征数据的条数,σ′为平滑后的标准差向量,μ′为平滑后的均值向量。
4.如权利要求1所述的音符起始点检测方法,其特征在于,所述卷积神经网络,从输入侧至输出侧依次包括:卷积核为4*3的卷积层、窗口为1*3的最大池化层、卷积核为3*3的卷积层、窗口为1*3的最大池化层、包含256个神经元的全连接层以及包含1个神经元的输出层。
5.一种音符起始点检测系统,应用于基于内容的音乐特征识别,其特征在于,所述音符起始点检测系统,包括:
时频转换模块,用于获取待检测的原始音频,对所述原始音频进行短时傅里叶变换,得到音频时谱图;
特征组合模块,用于依次取所述音频时谱图中的一帧作为当前帧,将当前帧以及当前帧的前p帧和后q帧组合为一条特征数据,得到多条特征数据;
特征平滑模块,用于对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑,并利用平滑后的均值向量和标准差向量对每条特征数据中的每一帧进行标准化处理;
特征识别模块,用于将标准化处理后的每条特征数据依次输入预训练的卷积神经网络中,得到卷积神经网络输出的针对每条特征数据是否为音符起始点的预测结果,根据所述预测结果标注待检测的原始音频中的音符起始点;
其中,所述均值向量和标准差向量,计算过程包括:
令音频时谱图为X={x1,x2,...,xN}∈RN*M,其中,N为音频时谱图的长度,即共有N帧,M表示M维向量;
若记所有特征数据为D,则特征数据的条数为|D|,第j条特征数据记为
Figure FDA0003741230230000041
其中
Figure FDA0003741230230000042
表示第j条特征数据中的第i帧,且
Figure FDA0003741230230000043
p、q为预设帧数,则特征数据的均值向量μ∈RM中,每个分量μk,k=1,2,...,M的计算方式如下:
Figure FDA0003741230230000044
其中,
Figure FDA0003741230230000045
表示第j条特征数据中第i帧的第k个频率区间对应的能量数据;
则特征数据的标准差向量σ∈RM中,每个分量σk,k=1,2,...,M的计算方式如下:
Figure FDA0003741230230000046
其中,
Figure FDA0003741230230000047
表示第j条特征数据中第i帧的第k个频率区间对应的能量数据。
6.如权利要求5所述的音符起始点检测系统,其特征在于,对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑,包括:
1)令音频时谱图为X={x1,x2,...,xN}∈RN*M,其中,N为音频时谱图的长度,即共有N帧,M表示M维向量,且多条特征数据的均值向量为μ∈RM、标准差向量为σ∈RM
2)遍历均值向量μ∈RM,找到能量极大值序列μmax,所述能量极大值序列μmax的选取方式为:遍历均值向量μ∈RM的所有点,若当前遍历点为前后共m个点中的最大值,则将该点加入μmax中,否则不加入μmax中;
3)遍历能量极大值序列μmax,找到并删除所有极小值点,所述极小值点的选取方式为:遍历能量极大值序列μmax中的所有点,若当前遍历点为前后共r个点中的最小值,则将该点从能量极大值序列μmax中删除;
4)重复执行步骤2)和步骤3),直至能量极大值序列μmax中不存在极小值点;
5)使用插值拟合方法将删除极小值点后剩余的能量极大值序列μmax中的点进行连接,连接所得曲线即为平滑后的均值向量μ′;
6)遍历标准差向量σ∈RM,找到能量极大值序列σmax,所述能量极大值序列σmax的选取方式为:遍历标准差向量σ∈RM的所有点,若当前遍历点为前后共m个点中的最大值,则将该点加入σmax中,否则不加入σmax中;
7)遍历能量极大值序列σmax,找到并删除所有极小值点,所述极小值点的选取方式为:遍历能量极大值序列σmax中的所有点,若当前遍历点为前后共r个点中的最小值,则将该点从序列σmax中删除;
8)重复执行步骤6)和步骤7),直至能量极大值序列σmax中不存在极小值点;
9)使用插值拟合方法将删除极小值点后剩余的能量极大值序列σmax中的点进行连接,连接所得曲线即为平滑后的标准差向量σ′。
7.如权利要求6所述的音符起始点检测系统,其特征在于,利用平滑后的均值向量和标准差向量对每条特征数据中的每一帧进行标准化处理,包括:
Figure FDA0003741230230000051
其中,
Figure FDA0003741230230000052
表示待处理的第j条特征数据中的第i帧,j=1,2,...,|D|,i=1,2,...,q+p+1,|D|为特征数据的条数,σ′为平滑后的标准差向量,μ′为平滑后的均值向量。
8.如权利要求5所述的音符起始点检测系统,其特征在于,所述卷积神经网络,从输入侧至输出侧依次包括:卷积核为4*3的卷积层、窗口为1*3的最大池化层、卷积核为3*3的卷积层、窗口为1*3的最大池化层、包含256个神经元的全连接层以及包含1个神经元的输出层。
CN202011292733.9A 2020-11-18 2020-11-18 一种音符起始点检测方法及系统 Active CN112509601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011292733.9A CN112509601B (zh) 2020-11-18 2020-11-18 一种音符起始点检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011292733.9A CN112509601B (zh) 2020-11-18 2020-11-18 一种音符起始点检测方法及系统

Publications (2)

Publication Number Publication Date
CN112509601A CN112509601A (zh) 2021-03-16
CN112509601B true CN112509601B (zh) 2022-09-06

Family

ID=74956703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011292733.9A Active CN112509601B (zh) 2020-11-18 2020-11-18 一种音符起始点检测方法及系统

Country Status (1)

Country Link
CN (1) CN112509601B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115472143B (zh) * 2022-09-13 2024-10-01 天津大学 一种调性音乐音符起始点检测与音符解码方法及装置
CN116049341B (zh) * 2023-03-08 2023-08-15 北京七兆科技有限公司 一种水文数据标准化方法、装置、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106409313B (zh) * 2013-08-06 2021-04-20 华为技术有限公司 一种音频信号分类方法和装置
CN103578478B (zh) * 2013-11-11 2016-08-17 科大讯飞股份有限公司 实时获取音乐节拍信息的方法及系统
JP6747236B2 (ja) * 2016-10-24 2020-08-26 ヤマハ株式会社 音響解析方法および音響解析装置
CN109119070B (zh) * 2018-10-19 2021-03-16 科大讯飞股份有限公司 一种语音端点检测方法、装置、设备及存储介质
CN109841232B (zh) * 2018-12-30 2023-04-07 瑞声科技(新加坡)有限公司 音乐信号中音符位置的提取方法和装置及存储介质
CN110070884B (zh) * 2019-02-28 2022-03-15 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN110599987A (zh) * 2019-08-25 2019-12-20 南京理工大学 基于卷积神经网络的钢琴音符识别算法
CN111179975B (zh) * 2020-04-14 2020-08-04 深圳壹账通智能科技有限公司 用于情绪识别的语音端点检测方法、电子设备及存储介质
CN111680187B (zh) * 2020-05-26 2023-11-24 平安科技(深圳)有限公司 乐谱跟随路径的确定方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112509601A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN109308912B (zh) 音乐风格识别方法、装置、计算机设备及存储介质
CN102799899B (zh) 基于svm和gmm的特定音频事件分层泛化识别方法
US7396990B2 (en) Automatic music mood detection
US7022907B2 (en) Automatic music mood detection
CN108806718B (zh) 基于对enf相位谱和瞬时频率谱分析的音频鉴定方法
CN112509601B (zh) 一种音符起始点检测方法及系统
CN113488060B (zh) 一种基于变分信息瓶颈的声纹识别方法及系统
CN106294331A (zh) 音频信息检索方法及装置
US8718803B2 (en) Method for calculating measures of similarity between time signals
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN112053694A (zh) 一种基于cnn与gru网络融合的声纹识别方法
CN103761965A (zh) 一种乐器信号的分类方法
John et al. Classification of Indian classical carnatic music based on raga using deep learning
CN114548586A (zh) 一种基于混合模型的短期电力负荷预测方法及系统
CN116895288A (zh) 基于伪Wigner-Ville分布的数字音频自适应复制粘贴检测方法及装置
CN112489625A (zh) 语音情绪识别方法、系统、移动终端及存储介质
Shen et al. RARS: Recognition of audio recording source based on residual neural network
Zhang et al. Temporal Transformer Networks for Acoustic Scene Classification.
CN117116290A (zh) 基于多维特征的数控机床部件缺陷定位方法和相关设备
CN116884431A (zh) 基于cfcc特征的鲁棒音频复制粘贴篡改检测方法及装置
CN114048770B (zh) 面向数字音频删除和插入篡改操作自动检测方法及系统
CN116861217A (zh) 用于移动终端的身份识别方法及系统
WO2023093029A1 (zh) 唤醒词能量计算方法、系统、语音唤醒系统及存储介质
CN115472179A (zh) 面向数字音频删除和插入篡改操作自动检测方法及系统
CN107437414A (zh) 基于嵌入式gpu系统的并行化游客识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant