CN112509601B

CN112509601B - 一种音符起始点检测方法及系统

Info

Publication number: CN112509601B
Application number: CN202011292733.9A
Authority: CN
Inventors: 王军; 马连航; 文亮; 阮林萍; 汪万涛; 赵罡
Original assignee: CETHIK Group Ltd
Current assignee: CETHIK Group Ltd
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2022-09-06
Anticipated expiration: 2040-11-18
Also published as: CN112509601A

Abstract

本发明公开了一种音符起始点检测方法及系统，方法包括：获取待检测的原始音频进行短时傅里叶变换，得到音频时谱图；依次取音频时谱图中的一帧作为当前帧，将当前帧以及当前帧的前p帧和后q帧组合为一条特征数据，得到多条特征数据；对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑，并利用平滑后的均值向量和标准差向量对每条特征数据中的每一帧进行标准化处理；将标准化处理后的每条特征数据依次输入卷积神经网络中，得到卷积神经网络输出的针对每条特征数据是否为音符起始点的预测结果，根据预测结果标注待检测的原始音频中的音符起始点。本发明旨在解决现有技术中音符起始点检测准确率不高，且存在民乐检测空白的问题。

Description

一种音符起始点检测方法及系统

技术领域

本发明属于音频信号处理技术领域，特别涉及一种音符起始点检测方法及系统。

背景技术

音符起始点是音乐特征信息中最基础的特征，指的是音乐中某一音符开始的时间。如图1所示，一个音符时间域信息中起始(Attack)阶段能量突然上升，一段过渡期(Transient)后能量逐渐下降(Decay)，其中起始(Attack)阶段的起始点(Onset)即为音符起始点。音符起始点检测在信号处理领域有很多应用方向和重要用途，如：对音乐进行节拍划分、节奏检测、音高估计等。

目前现有的起始点检测方法大多通过提取音频信号在时域或频域上的特征来检测音符起始点，如幅度谱、相位谱、波形包络等。这些方法准确性不高，易受噪声干扰，对不同类型的音频的泛化性较弱。且在现有大多数关于音乐音符起始点检测的研究中多数均以西洋乐器为研究对象，针对中国民乐的研究少之又少。而西洋乐器的起始点特征与民乐乐器的起始点特征差异较大，其算法难以直接运用至民乐的起始点检测任务上。

现有技术如申请号为CN201910151671.0(2019.02.28)的专利，公开了使用幅度谱和相位谱作为音频信号特征，通过对二者进行综合加权，得到音频信号频谱曲线参数；由此确定曲线局部最高点，根据局部最高点确定音频的起始点位置。该方案将相位谱作为特征选取依据之一，因此算法容易受到相位畸变或噪声成分的干扰，进而产生误检。

现有技术又如申请号为CN201310557751.9(2013.11.11)的专利，公开了对实时跟踪的音乐信号进行离散采样，根据采样序列获取信号波形包络的有效峰值点，并选择其中具有最大幅度的多个有效峰值点作为起始点。该方法采用幅度包络作为特征，受时域噪声影响较大，一般在打击乐等能量特征明显的音乐中检测效率较高，对能量变化特征不明显的起始点(软起始点)的检测可靠性较弱。

发明内容

本申请的目的是提供一种音符起始点检测方法及系统，旨在解决现有技术中音符起始点检测准确率不高，且存在民乐检测空白的问题。

为了实现上述目的，本申请技术方案如下：

一种音符起始点检测方法，应用于基于内容的音乐特征识别，所述音符起始点检测方法，包括：

获取待检测的原始音频，对所述原始音频进行短时傅里叶变换，得到音频时谱图；

依次取所述音频时谱图中的一帧作为当前帧，将当前帧以及当前帧的前p帧和后q帧组合为一条特征数据，得到多条特征数据；

对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑，并利用平滑后的均值向量和标准差向量对每条特征数据中的每一帧进行标准化处理；

将标准化处理后的每条特征数据依次输入预训练的卷积神经网络中，得到卷积神经网络输出的针对每条特征数据是否为音符起始点的预测结果，根据所述预测结果标注待检测的原始音频中的音符起始点；

其中，所述均值向量和标准差向量，计算过程包括：

令音频时谱图为X＝{x₁,x₂,...,x_N}∈R^N*M，其中，N为音频时谱图的长度，即共有N帧，M表示M维向量；

若记所有特征数据为D，则特征数据的条数为|D|，第j条特征数据记为

其中

表示第j条特征数据中的第i帧，且

p、q为预设帧数，则特征数据的均值向量μ∈R^M中，每个分量μ_k，k＝1,2,...,M的计算方式如下：

其中，

表示第j条特征数据中第i帧的第k个频率区间对应的能量数据；

则特征数据的标准差向量σ∈R^M中，每个分量σ_k，k＝1,2,...,M的计算方式如下：

其中，

表示第j条特征数据中第i帧的第k个频率区间对应的能量数据。

作为优选，对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑，包括：

1)令音频时谱图为X＝{x₁,x₂,...,x_N}∈R^N*M，其中，N为音频时谱图的长度，即共有N帧，M表示M维向量，且多条特征数据的均值向量为μ∈R^M、标准差向量为σ∈R^M；

2)遍历均值向量μ∈R^M，找到能量极大值序列μ_max，所述能量极大值序列μ_max的选取方式为：遍历均值向量μ∈R^M的所有点，若当前遍历点为前后共m个点中的最大值，则将该点加入μ_max中，否则不加入μ_max中；

3)遍历能量极大值序列μ_max，找到并删除所有极小值点，所述极小值点的选取方式为：遍历能量极大值序列μ_max中的所有点，若当前遍历点为前后共r个点中的最小值，则将该点从能量极大值序列μ_max中删除；

4)重复执行步骤2)和步骤3)，直至能量极大值序列μ_max中不存在极小值点；

5)使用插值拟合方法将删除极小值点后剩余的能量极大值序列μ_max中的点进行连接，连接所得曲线即为平滑后的均值向量μ′；

6)遍历标准差向量σ∈R^M，找到能量极大值序列σ_max，所述能量极大值序列σ_max的选取方式为：遍历标准差向量σ∈R^M的所有点，若当前遍历点为前后共m个点中的最大值，则将该点加入σ_max中，否则不加入σ_max中；

7)遍历能量极大值序列σ_max，找到并删除所有极小值点，所述极小值点的选取方式为：遍历能量极大值序列σ_max中的所有点，若当前遍历点为前后共r个点中的最小值，则将该点从序列σ_max中删除；

8)重复执行步骤6)和步骤7)，直至能量极大值序列σ_max中不存在极小值点；

9)使用插值拟合方法将删除极小值点后剩余的能量极大值序列σ_max中的点进行连接，连接所得曲线即为平滑后的标准差向量σ′。

作为优选，利用平滑后的均值向量和标准差向量对每条特征数据中的每一帧进行标准化处理，包括：

其中，

表示待处理的第j条特征数据中的第i帧，j＝1,2,...,|D|,i＝1,2,...,q+p+1，|D|为特征数据的条数，σ′为平滑后的标准差向量，μ′为平滑后的均值向量。

作为优选，所述卷积神经网络，从输入侧至输出侧依次包括：卷积核为4*3的卷积层、窗口为1*3的最大池化层、卷积核为3*3的卷积层、窗口为1*3的最大池化层、包含256个神经元的全连接层以及包含1个神经元的输出层。

本申请还提供一种音符起始点检测系统，所述音符起始点检测系统，包括：

时频转换模块，用于获取待检测的原始音频，对所述原始音频进行短时傅里叶变换，得到音频时谱图；

特征组合模块，用于依次取所述音频时谱图中的一帧作为当前帧，将当前帧以及当前帧的前p帧和后q帧组合为一条特征数据，得到多条特征数据；

特征平滑模块，用于对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑，并利用平滑后的均值向量和标准差向量对每条特征数据中的每一帧进行标准化处理；

特征识别模块，用于将标准化处理后的每条特征数据依次输入预训练的卷积神经网络中，得到卷积神经网络输出的针对每条特征数据是否为音符起始点的预测结果，根据所述预测结果标注待检测的原始音频中的音符起始点；

其中，所述均值向量和标准差向量，计算过程包括：

其中

表示第j条特征数据中的第i帧，且

其中，

其中，

其中，

本申请提出的音符起始点检测方法及系统，利用极值滤波的包络平滑方法对训练数据的均值和标准差进行平滑处理，再经过标准化强化起始点特征，随后送入卷积神经网络进行分类。该方法能够强化频域能量变化特性，更加凸显音符的起始点特征，更有利于提高卷积神经网络的分类准确性，且不直接依赖与音符的幅度、相位等表观特征，不仅能够去除音符中的噪音干扰，且对不同类型的音频的泛化性强。

附图说明

图1为一个音符的时间域信息示意图；

图2为本申请音符起始点检测方法的流程图；

图3为本申请卷积神经网络的一种实施例结构示意图；

图4为本申请试验例中音符起始点检测方法的流程图；

图5为本申请试验例中采用传统标准化方法处理的能量频谱图；

图6为本申请试验例中采用本申请标准化方法(ELES标准化)处理的能量频谱图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在基于内容的音乐研究(例如音乐节拍划分、节奏检测、音高估计等)中，正确提取音符起始点信息是识别音高、节拍、节奏、段落等音乐高级特征的基础。本申请提供的一种音符起始点检测方法，不仅弥补了现有技术中对民乐音符起始点检测的薄弱性，同时也兼顾了对西洋乐音符的起始点检测，且具有较高的准确性，在基于内容的音乐特征识别中具有良好的应用前景。

基于内容的音乐特征识别作为基于内容的音乐信息检索(如听歌识曲)、音乐特征应用(如基于音乐特征实现音乐喷泉的智能控制)等技术的基础，使得音符起始点检测成为基于内容的音乐信息检索、音乐特征应用的关键环节。本申请提供一种高精度的音符起始点检测方法，有利于提升基于内容的音乐信息检索的准确性，同时提升音乐特征的应用效果。

如图2所示，本申请的一种音符起始点检测方法，包括：

步骤1、获取待检测的原始音频，对所述原始音频进行短时傅里叶变换，得到音频时谱图。

对于给定的一段原始音频(例如WAV格式)，将其进行时频变换后得到长度为N的音频时谱图(Spectrogram)X＝{x₁,x₂,...,x_N}∈R^N*M。N为音频时谱图的长度，即总帧数，M表示M维向量。

进行短时傅里叶变换后，将音频信号转化为与时间相关的信号特征，以便于后续对音频特征的处理。

步骤2、依次取所述音频时谱图中的一帧作为当前帧，将当前帧以及当前帧的前p帧和后q帧组合为一条特征数据，得到多条特征数据。

大多数音符在起始(Attack)阶段会出现能量突然上升的过程。因此对于一个属于音符起始点的帧x_t来说，时间上在其之前的p帧，即x_t-p,x_t-p+1,...,x_t-1,每一帧的能量是及其微弱的，而在其之后的q帧，能量会突然升高。为此，对于卷积神经网络的输入，除了应包含当前帧x_t，还应当包括其上下文帧的特征数据。

本申请在判断音符起始点对应帧时，不是仅针对一帧进行判断，而是结合音乐特点选取包含上下文帧的方式进行特征识别，该方式增加了输入卷积神经网络的特征数据的特征，既包含当前帧x_t自身的特征，还增加了时序上特征的变化，充分利用有限的音频数据，有效提升音符起始点判断的准确性，而且可以降低原始音频中噪声的干扰，克服了对单帧进行判断时易受噪声影响出现误判的情况。

为了体现上下文帧的有效性，并降低对特征数据的处理和计算识别压力，在一实施例中取当前帧x_t及其上下文共8帧(p＝4,q＝3)的数据作为特征数据，即x_t-4,x_t-3,...,x_t,...,x_t+3。

需要说明的是，在一段音符中前p帧和后q帧无法满足获取p帧和后q帧的条件，即需要忽略对这几帧的检测。对于一段音符而言，起始点一般不位于最前几帧和最后几帧，因此忽略这几帧的检测不会造成很大的误差。

步骤3、对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑，并利用平滑后的均值向量和标准差向量对每条特征数据中的每一帧进行标准化处理。

对于音频信号特征而言，其信号值通常较大且相互帧之间的值大小相差较多，不利于卷积神经网络的计算识别，因此本申请利用特征数据的均值和标准差对每一帧数据进行标准化。

本申请对训练数据的均值向量μ和标准差向量σ逐帧累加后进行平滑，平滑结果平均分配至每一帧，然后利用平滑后的均值与标准差，对训练数据做标准化处理。具体步骤如下：

其中，所述均值向量和标准差向量，计算过程包括：

其中

表示第j条特征数据中的第i帧，且

其中，

其中，

对多条特征数据的均值向量和标准差向量进行基于极值筛选的包络平滑，包括：

1)取多条特征数据的均值向量为μ∈R^M和标准差向量为σ∈R^M。

2)遍历均值向量μ∈R^M，找到能量极大值序列μ_max，所述能量极大值序列μ_max的选取方式为：遍历均值向量μ∈R^M的所有点(即所有数据)，若当前遍历点为前后共m个点中的最大值，则将该点加入μ_max中，否则不加入μ_max中。

例如m＝5，若μ_i＝max(μ_i-2,μ_i-1,μ_i,μ_i+1,μ_i+2)时，认为μ_i为极大值点。即若均值向量中存在10个点，则能量极大值序列μ_max的选取方式为：若第3个点为第1、2、3、4、5个点中的最大值，则将第3个点加入μ_max中；若第4个点为第2、3、4、5、6个点中的最大值，则将第4个点加入μ_max中；依次判断直至判断至若第8个点为第6、7、8、9、10个点中的最大值，则将第8个点加入μ_max中；由于需要要求结合当前点的前2个点和后2个点进行判断，因此忽略10个点中的第1、2和第9、10个点的判断。

需要说明的是，以上为当前点与前2个点和后2个点进行比较的方式，该方式为能量极大值序列选取的一种方式，不作为对本申请的限定，例如可以是在m＝5，若μ_i＝max(μ_i-3,μ_i-2,μ_i-1,μ_i,μ_i+1)时，认为μ_i为极大值点；或者可以是m＝3，若μ_i＝max(μ_i-1,μ_i,μ_i+1)时，认为μ_i为极大值点。

3)遍历能量极大值序列μ_max，找到并删除所有极小值点，所述极小值点的选取方式为：遍历能量极大值序列μ_max中的所有点，若当前遍历点为前后共r个点中的最小值，则将该点从能量极大值序列μ_max中删除。

例如r＝3，若μ_i＝min(μ_i-1,μ_i,μ_i+1)时，认为μ_i为极小值点。即若能量极大值序列μ_max中存在6个点，若第2个点为第1、2、3个点中的最小值则将其删除，若第3个点为第2、3、4个点中的最小值则将其删除，若第4个点为第3、4、5个点中的最小值则将其删除，直至若第5个点为第4、5、6个点中的最小值则将其删除。同理，由于对当前点的判断需要结合前1个点和后1个点，因此忽略对第1、6个点的判断，即本次保留第1、6个点。并且在判断到连续r个点中的最小值时，为其添加删除标记，并在遍历完成后进行删除，即在实际判断中是会应用到标记为删除的点的。

并且与判断极大值时m的取值与前后点的设置相同，判断极小值点时r的取值以及前后点的设置也具有多种形变。

4)重复执行步骤2)和步骤3)，直至能量极大值序列μ_max中不存在最小值点。

需要说明的是，本实施例提供的基于极值筛选的包络平滑效果好，且平滑步骤简单，所占计算资源少，为优选的包络平滑方法。但在实际应用中，可根据平滑效果要求、硬件计算资源等条件选用现有的其他包括平滑方法进行处理。

5)使用插值拟合方法将删除最小值点后剩余的能量极大值序列μ_max中的点进行连接，连接所得曲线即为平滑后的均值向量μ′。

需要说明的是，本申请中采用的插值拟合方法为现有公开的任意插值拟合方法即可，例如拉格朗日插值、Newton插值、三次样条插值、线性回归拟合、多项式拟合等，这里就不再进行赘述。

本申请中对标准差向量的平滑处理过程与对均值向量的平滑处理过程相同，具体步骤如下：

6)遍历标准差向量σ∈R^M，找到能量极大值序列σ_max，所述能量极大值序列σ_max的选取方式为：遍历标准差向量σ∈R^M的所有点，若当前遍历点为前后共m个点中的最大值，则将该点加入σ_max中，否则不加入σ_max中。

7)遍历能量极大值序列σ_max，找到并删除所有极小值点，所述极小值点的选取方式为：遍历能量极大值序列σ_max中的所有点，若当前遍历点为前后共r个点中的最小值，则将该点从序列σ_max中删除。

8)重复执行步骤6)和步骤7)，直至能量极大值序列σ_max中不存在最小值点。

9)使用插值拟合方法将删除最小值点后剩余的能量极大值序列σ_max中的点进行连接，连接所得曲线即为平滑后的标准差向量σ′。

相对于现有的包络平滑方法而言，本实施例在获得极大值序列后，采用迭代遍历的方式，事先对极大值序列中的极小值进行筛查，排除干扰平滑毛刺。随后采用插值拟合的方式得到包络曲线。通过多次迭代删除极小值这一步，就能够起到过滤干扰和平滑毛刺的作用，不需要通过滤波进行后续处理，并且可以保证包络线是绝对平滑的。因此本实施例的平滑方法不仅省去了对包络曲线进行滤波的过程，节省平滑时间、降低平滑处理所占资源，而且还能够得到更优的平滑效果。

具体的，利用平滑后的均值向量和标准差向量对每条特征数据中的每一帧进行标准化处理，包括：

其中，

表示待处理的第j条特征数据中的第i帧，j＝1,2,...,|D|,i＝1,2,...,q+p+1，|D|为特征数据的条数，σ′为平滑后的标准差向量，μ′为平滑后的均值向量。标准化后，样本每个维度的分布都满足均值为0，标准差为1的高斯分布，本申请将标准化后的特征数据输入神经网络，解决了现有针对传统的神经网络特征预处理方法无法凸显民乐音符的起始点特征、对起始点识别率较低的问题。

步骤4、将标准化处理后的每条特征数据依次输入预训练的卷积神经网络中，得到卷积神经网络输出的针对每条特征数据是否为音符起始点的预测结果，根据所述预测结果标注待检测的原始音频中的音符起始点。

若卷积神经网络判断某一条特征数据为音符起始点，则取该条特征数据中的当前帧作为原始音频中的一个音符起始点，即起始帧。

如图3所示，本实施例提供的卷积神经网络，从输入侧至输出侧依次包括：卷积核为4*3的卷积层、窗口为1*3的最大池化层、卷积核为3*3的卷积层、窗口为1*3的最大池化层、包含256个神经元的全连接层以及包含1个神经元的输出层。

本实施例采用的卷积神经网络架构由2层卷积层、2层池化层和2层全连接层组成，网络的最后一层是单独的一层全连接层，只有一个神经元。因为是二分类问题，所以直接将该神经元和sigmod函数捆绑，看做是一层。实际上是将全连接层和输出层绑定在一起，联合起到二分类作用。

采用卷积网络的原因是对于整首曲子来说，音符的起始点其实是一个时序上的局部特征，包含起始点的帧(下文简称为起始帧)的能量与其时序上之前和之后的帧有密切关系，且起始帧在一首曲子中的多个时间点上发生，因此采用卷积的思想可以很好地捕捉到这种时序上的局部特征，同时减少网络的参数量。

本申请用于分类的卷积神经网络不限于本申请提供的结构，同样适用于现有公开的其他网络结构，例如二分类网络。本申请的神经网络的输入是二维的时谱图(8帧*472个频率子带)，通过大小为4*3的卷积核后得到10个5*470大小的特征映射图，再通过1*3窗口的最大池化层后，将每个特征映射图维度缩减为5*156。紧接着的第二个卷积层的卷积核大小为3*3，最大池化层窗口大小为1*3，得到20个大小为3*51的特征映射图。最后送入包含256个神经元的全连接层，输出层只有一个神经元，以sigmoid函数的输出判断是否为音符起始点，保证具有较高的识别性能。

需要说明是的，卷积神经网络使用前需要对网络参数进行训练，本申请中对网络的训练基于已标注好的音频起始点和非起始点数据按照常规训练步骤进行，这里就不再进行赘述。

试验例

为了进一步说明本申请音符起始点检测方法，在一实施例中，先选取民乐中的古筝作为研究对象，将音符起始点检测问题建模为一个有监督的二分类问题，并采用神经网络模型进行分类。

如图4所示，对采集的古筝的音频源文件(WAV格式)进行短时傅里叶变换得到时谱图，后对时谱图进行特征选取和ELES标准化(即本申请采用的标准化方法)的预处理后输入至卷积神经网络中，由卷积神经网络输出针对每一帧预测的是否为音符起始点的预测结果，若是则预测结果为音符起始点；否则预测结果为非音符起始点。

对于选取的一端原始音频，采用传统标准化方法(无需对均值和标准差做额外处理，直接使用特征量减均值后除以标准差，标准化后特征数据每个维度的均值为0，标准差为1)处理的能量频谱图如图5所示，图中横坐标表示时间上连续的8帧，包括起始帧(图中两条虚线之间)和其上下文帧(前4帧和后3帧)，纵坐标表示能量值。采用本申请标准化方法(ELES标准化)处理的能量频谱图如图6所示，图中横坐标表示时间上连续的8帧，包括起始帧(图中两条虚线之间)和其上下文帧(前4帧和后3帧)，纵坐标表示能量值。

对比图5和图6可以看到，经过本申请标准化后的起始帧及其上下文帧共8帧频谱能量较为集中，过滤掉大多数的毛刺与凸起，且前4帧能量较低，后4帧能量则突然升高，符合音符起始点的能量变化规律。而传统标准化方法处理后的8帧频谱能量中仍存在较多毛刺与凸起，标准化效果不佳。

本申请民乐音符起始点检测方法基于标准化处理后的数据能够有效检测民乐曲目中的特殊技法和连续十六分音符起始点。以古筝演奏的三首乐曲分别为《关山月》《孟姜女》及《北京的金山上》为例，其中《关山月》包含丰富的特殊技法；《孟姜女》包含大量十六分音符；《北京的金山上》包含技法及强弱变换。在三首包含特殊技法和连续十六分音符起始点的曲目上进行了实验，结果如表1所示。

表1 本发明方法与一般音频信号的方法的准确性对比实验结果(P代表精确率，R代表召回率，F1＝2*P*R/(P+R))

其中，一般音频信号处理方法得到广泛使用的有基于STFT的谱通量计算方法、基于常数Q变换的梅尔滤波方法等。本发明选取基于STFT的谱通量计算方法为对比方法。由表1可以看到，基于一般音频信号处理的起始点检测算法大幅度牺牲精确率以提升召回率值，导致F1值可靠性较低。本发明提出的音符起始点检测算法的精确率、召回率、F1值优于采用传统标准化的起始点检测算法，且远远高于传统的基于一般音频信号处理的音符起始点检测算法。并且本申请针对含有不同技法、音符的音频，均具有较高的精确率、召回率F1值，识别稳定可靠。

本申请进一步以表1中的方法针对西洋乐的音频进行对比实验，同样取三首音符区别较大的曲目作为实验对象。实验后发现在精确率、召回率、F1值这三个评价指标上，本申请的检测方法相对于其他两种方法与应用在民乐上的检测结果十分相近，即本发明提出的音符起始点检测算法的精确率、召回率、F1值优于采用传统标准化的起始点检测算法，且远远高于传统的基于一般音频信号处理的音符起始点检测算法。由此可以看出，本申请不仅针对民乐音符具有优异的起始点检测效果，且同时适用于对民乐和西洋乐的音符起始点检测，具有较强的泛化性。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，本申请还提供了一种音符起始点检测系统，包括：

特征识别模块，用于将标准化处理后的每条特征数据依次输入预训练的卷积神经网络中，得到卷积神经网络输出的针对每条特征数据是否为音符起始点的预测结果，根据所述预测结果标注待检测的原始音频中的音符起始点。

关于音符起始点检测系统的具体限定可以参见上文中对于音符起始点检测方法的限定，在此不再赘述。

上述音符起始点检测系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器中存储有可在处理器上运行的计算机程序，所述处理器通过运行存储在存储器内的计算机程序，从而实现本发明实施例中的音符起始点检测方法。

其中，所述存储器可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器用于存储程序，所述处理器在接收到执行指令后，执行所述程序。

所述处理器可能是一种集成电路芯片，具有数据的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。