CN113409800B

CN113409800B - 一种监控音频的处理方法、装置、存储介质及电子设备

Info

Publication number: CN113409800B
Application number: CN202010182251.1A
Authority: CN
Inventors: 王平; 吴辉
Original assignee: Zhejiang Uniview Technologies Co Ltd
Current assignee: Zhejiang Uniview Technologies Co Ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2024-07-12
Anticipated expiration: 2040-03-16
Also published as: CN113409800A

Abstract

本申请实施例公开了一种监控音频的处理方法、装置、存储介质及电子设备。该方法包括：根据当前环境的场景类型，确定音频质量提升参数，采用所述音频质量提升参数进行监控视频的录制；若录制过程中监控到声源目标，则根据声源目标的距离确定增益大小；以及若监控到声源目标发出的声音信息，则根据声音信息的类型确定增益频段；根据所述增益大小以及增益频段对监控音频进行处理。通过执行本技术方案，可以通过软件的处理方式，对监控音频进行有效处理，以得到高质量的监控音频的效果。

Description

一种监控音频的处理方法、装置、存储介质及电子设备

技术领域

本申请实施例涉及音频识别技术领域，尤其涉及一种监控音频的处理方法、装置、存储介质及电子设备。

背景技术

随着视频监控领域越来越受重视以及投入的资源越来越多，人们对监控质量的要求也在不断提高。当前的监控视频不仅仅需要高清的视频，还需要对音频质量有所提升。

目前对音频质量的控制，往往是考虑视频获取设备所处的声音环境，例如学校、道路、医院以及商场等等。根据该位置所属声音环境类型来对环境声音进行音量调节。然而在噪声音量较高的情况下，通过降低音量来降低噪声的同时，人声也被抑制。

发明内容

本申请实施例提供一种监控音频的处理方法、装置、存储介质及电子设备，可以通过软件的处理方式，对监控音频进行有效处理，以得到高质量的监控音频的效果。

第一方面，本申请实施例提供了一种监控音频的处理方法，该方法包括：

根据当前环境的场景类型，确定音频质量提升参数，采用所述音频质量提升参数进行监控视频的录制；

若录制过程中监控到声源目标，则根据声源目标的距离确定增益大小；以及若监控到声源目标发出的声音信息，则根据声音信息的类型确定增益频段；

根据所述增益大小以及增益频段对监控音频进行处理。

可选的，所述当前环境的场景类型的确定过程包括：

获取至少一段环境音频片段；

根据所述环境音频片段与预设参考音频之间的相似度，确定与环境音频片段相似度最高的预设参考音频；

将所述相似度最高的预设参考音频关联的场景类型确定为当前环境的场景类型。

可选的，所述音频质量提升参数包括降噪参数，均衡器参数以及增益调节参数；

相应的，根据当前环境的场景类型，确定音频质量提升参数，包括：

根据当前环境的场景类型，确定与当前环境的场景类型相对应的降噪参数，均衡器参数以及增益调节参数。

可选的，在根据声源目标的距离确定增益大小之前，所述方法还包括：

基于预设频率音频发出后的回声采集结果，确定所述声源目标的距离；其中，所述预设频率音频是通过扬声器发出的。

可选的，所述预设频率音频包括频率为25kHz的音频。

可选的，录制过程中监控到声源目标，包括：

录制过程中，通过人形检测算法计算当前录制视频的范围内是否包含声源目标；

若是，则确定录制过程中监控到声源目标；并将人形检测算法输出的人形特征进行保存。

可选的，若监控到声源目标发出的声音信息，则根据声音信息的类型确定增益频段，包括：

若监控到声源目标发出的声音信息，则根据声音信息的类型以及所保存的人形特征确定增益频段。

第二方面，本申请实施例提供了一种监控音频的处理装置，该装置包括：

提升参数确定模块，用于根据当前环境的场景类型，确定音频质量提升参数，采用所述音频质量提升参数进行监控视频的录制；

增益确定模块，用于若录制过程中监控到声源目标，则根据声源目标的距离确定增益大小；以及若监控到声源目标发出的声音信息，则根据声音信息的类型确定增益频段；

音频处理模块，用于根据所述增益大小以及增益频段对监控音频进行处理。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例所述的监控音频的处理方法。

第四方面，本申请实施例提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例所述的监控音频的处理方法。

本申请实施例所提供的技术方案，根据当前环境的场景类型，确定音频质量提升参数，采用所述音频质量提升参数进行监控视频的录制；若录制过程中监控到声源目标，则根据声源目标的距离确定增益大小；以及若监控到声源目标发出的声音信息，则根据声音信息的类型确定增益频段；根据所述增益大小以及增益频段对监控音频进行处理。通过采用本申请所提供的技术方案，可以通过软件的处理方式，对监控音频进行有效处理，以得到高质量的监控音频的效果。

附图说明

图1是本申请实施例提供的监控音频的处理方法的流程图；

图2是本申请实施例提供的监控音频的处理方法的示意图；

图3是本申请实施例提供的监控音频的处理装置的结构示意图；

图4是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

图1是本申请实施例提供的监控音频的处理方法的流程图，本实施例可适用于监控录制的情况，该方法可以由本申请实施例所提供的监控音频的处理装置执行，该装置可以由软件和/或硬件的方式来实现，并可集成于用于监控录制的电子设备中。

如图1所示，所述监控音频的处理方法包括：

S110、根据当前环境的场景类型，确定音频质量提升参数，采用所述音频质量提升参数进行监控视频的录制。

其中，场景类型可以是根据场景的声音特点，对场景进行分类得到的。例如可以根据声音的波形、频率以及幅度的不同，将场景分为办公室、会议室、商场、医院、地铁等类型。

其中，音频质量提升参数可以是根据当前场景的场景类型来确定的，例如为每一种场景确定相应的音频质量提升参数，如果当前场景属于某一类型，则可以根据该类型预先设置的音频质量提升参数，确定当前场景的音频质量提升参数。其中，音频质量提升参数可以是对音频进行降噪、均衡器以及增益调节的相关参数。在确定音频质量提升参数之后，可以根据所得到的的音频质量提升参数对监控中的音频进行处理，以得到适合当前环境的声音特点的音频效果。

在本实施例中，可选的，所述当前环境的场景类型的确定过程包括：获取至少一段环境音频片段；根据所述环境音频片段与预设参考音频之间的相似度，确定与环境音频片段相似度最高的预设参考音频；将所述相似度最高的预设参考音频关联的场景类型确定为当前环境的场景类型。其中，获取至少一段环境音频片段，具体的，可以是连续的获取，还可以是间断的获取，例如每一小时获取一段环境音频片段。在本技术方案中，也可以是在一天内固定的几个时间分别获取各时间的环境音频片段。在获取到之后，可以与预设参考音频进行比较，确定与当前环境获取的环境音频片段最为接近的一个预设参考音频。并根据预设参考音频关联的场景类型确定当前环境的场景类型。其中，可以是每一种场景类型提供一个或者多个预设参考音频。比较的方式可以是将频率、波形以及振幅等参数进行分别对比，并分别评分，最终加权后得到与各个预设参考音频的相似度。本技术方案通过这样的设置，可以较为准确地智能检测当前环境的场景类型，并根据该场景类型采取一定的音频处理方式，使得监控的音频更加突出监控场景中声音信息。

S120、若录制过程中监控到声源目标，则根据声源目标的距离确定增益大小；以及若监控到声源目标发出的声音信息，则根据声音信息的类型确定增益频段。

其中，声源目标可以是人，可以在检测到监控中存在人形目标物时，确定监控到声源目标。在本实施例中，具体的可以通过对当前监控中每一帧画面的图像识别来确定是否存在人形目标物。还可以通过其他方式来实现。

若录制过程中监控到声源目标，则根据声源目标的距离确定增益大小，在本方案中，在确定声源目标之后，可以根据声源目标的距离，来确定增益的大小。其中声源目标的距离可以是绝对距离，例如声源目标与监控设备的距离，还可以是相对距离，例如声源目标相对于场景中其他物体的距离。

其中，若监控到声源目标发出的声音信息，则根据声音信息的类型确定增益频段。当确定增益大小之后，可以在监控过程中进行声音信息的采集和处理，若采集过程中声源目标发出声音，则可以根据所发出的声音信息，对声音信息的类型进行确定，并根据声音信息的类型来确定增益频段。例如发出的声音频率相对较低，是成年男性的声音类型，则可以确定对该声音类型的所属的频段进行增益调节，例如增高该频段的增益，降低其他频段的增益。

本技术方案通过对声源目标的识别与声源目标的声音信息的确定，可以针对监控到的场景中的声源目标进行特定的增益大小和增益频段的处理，从而可以更加智能的对监控的场景进行声音信息的处理。

S130、根据所述增益大小以及增益频段对监控音频进行处理。

其中，在确定增益大小以及增益频段之后，可以根据增益大小以及增益频段进行监控音频的处理。

在本技术方案中，可以理解的，如果检测到声源目标移动出监控场景，而存在其他的声源目标进入到监控场景，则可以对该声源目标进行重新的分析，来确定该声源目标的增益大小以及增益频段。通过这样的设置，可以自动的对监控场景的音频进行动态处理，以满足用户对监控场景中声音信息的获取需求。

在上述各技术方案的基础上，可选的，所述音频质量提升参数包括降噪参数，均衡器参数以及增益调节参数；相应的，根据当前环境的场景类型，确定音频质量提升参数，包括：根据当前环境的场景类型，确定与当前环境的场景类型相对应的降噪参数，均衡器参数以及增益调节参数。音频质量提升参数包括降噪参数，均衡器参数以及增益调节参数，其中，降噪、均衡器以及增益可以更加直接的对声音信号进行有效的处理，因此采用这三种中的一种或者多种，可以有效的对当前环境的场景类型进行声音信号的处理，从而得到适合当前环境的场景类型的处理模式。

在上述各技术方案的基础上，可选的，在根据声源目标的距离确定增益大小之前，所述方法还包括：基于预设频率音频发出后的回声采集结果，确定所述声源目标的距离；其中，所述预设频率音频是通过扬声器发出的。其中，预设音频可以是超声波或者次声波，以降低对环境音频的干扰。例如可以是25kHz，28Db的音频。在本技术方案中，预设频率音频可以是基于设备的扬声器发出的。在发出预设频率音频之后，可以通过接收器接收预设频率音频的衰减程度，来判断当前监控的场景中声源目标与监控设备之间的距离。本技术方案提供这样是设置，可以更加准确的确定声源目标的距离，并且无需对监控视频进行处理，节省了资源传输所带来的时间和传输资源的能力的消耗。

在上述技术方案的基础上，可选的，所述预设频率音频包括频率为25kHz的音频。其中，由于人类可听到的音源是20Hz-20kHz，采用25kHz的超声波既不会对人耳听到的音频造成干扰，也不会在采集过程中影响监控环境中的声音采集，而且可以在被监控的环境中人们无感知的情况下进行距离检测。

在上述各技术方案的基础上，可选的，录制过程中监控到声源目标，包括：录制过程中，通过人形检测算法计算当前录制视频的范围内是否包含声源目标；若是，则确定录制过程中监控到声源目标；并将人形检测算法输出的人形特征进行保存。其中，人形检测算法，是通过对静态图像小波变换提取目标的局部形状突变特征，并结合动态帧的步态特征，然后利用支持向量机对小样本进行学习与识别。通过实验验证，该算法具有实时性好、识别率高、可靠性高、适用范围广等特点，以达到实现自动化和智能化的监控人形目标的效果。

在上述各技术方案的基础上，可选的，若监控到声源目标发出的声音信息，则根据声音信息的类型确定增益频段，包括：若监控到声源目标发出的声音信息，则根据声音信息的类型以及所保存的人形特征确定增益频段。其中，在确定人形特征之后，可以根据获取到的声源目标的声音信息的类型和人形特征共同来确定增益频段。通过这样的设置，可以提高对增益频段的确定过程的准确性，从而确保所处理得到的监控音频更加符合用户的需求。

为了能够让本领域技术人员更加清楚的了解本方案，本申请还提供了一种优选的实施方式。

图2是本申请实施例提供的监控音频的处理方法的示意图。如图2所示，监控音频的处理方法可以包括如下步骤：

第一步，设备启动，通过多Mic拾取当前环境音，分析六段音频的波形、频率以及幅度，与设备中存储的不同场景(例如：办公室、会议室、商场、地铁)音频相匹配，通过各个场景中存在的典型频率和波形分析，可以基本断定设备所处场景。

第二步，通过分析环境音，并结合智能场景检测算法，判断出当前所处环境，进而配置不同的Vqe参数，因为不同的场景，环境音差异较大，所以需要配置不同的默认音频参数，使得当前环境下可以拾取质量最高的音频。

第三步，人形检测算法同步启动，实时判断监控视野前是否有人类活动，并上报特征人物属性(性别、年龄、体重等等信息)至音频线程

第四步，本设计采用多Mic实时采集当前环境音，检测是否存在500Hz～2500Hz之间的音源，存在即说明有人类出入，进而分析其音源特性，中年男人音频大概在300～1000Hz，成熟女性大概在500～1.2Khz等等，老人大概在400～700Hz，这样就可以大致确定目标人所属群体。

第五步，根据第三、四步确定监控视野范围内确实有人活动，并且产生人类音源。

第六步，此时设备Speaker发出固定频率和增益大小的声音(25kHz，28Db)，人类可听到的音源是20Hz-20kHz。

第七步，多Mic通过采集Speaker的回声衰减程度(波形，频率，幅度)，判断出目标物与设备的距离。

第八步，根据经验实测不同距离设置不同数字增益、模拟增益。

第九步，根据人物属性，归类为各个属性群体：小孩、老人、男人、女人，综合特征群体声音信息，以及特征人说话频段增强声音信息，并衰减其他频段声音，以达到去除噪声，凸显监控音频中人声的效果。

第十步，最后根据不同属性人群，针对性的优化其声音信息，使得男声更嘹亮，女生更清脆，老人声音更浑厚。

本申请提供的技术方案，通过智能场景检测算法和环境音分析，减小场景识别的误差率，使得音频场景选择更加准确，进而使用针对确定场景更准确的音频优化方案。加入特征物属性检测算法，得到特征人所属的群体，例如男人、女人、老人、儿童等，进而获得特征群体声音信息，最后综合分析声音频率范围，双重确认目标物所属群体(男人、女人、老人、儿童)进而提升特征群体频率增益，即Eq值，并降低其他频段增益，滤除噪声信息，突显人声。通过软件层面合理方案设计，在不增加过多硬件成本的前提下，提升人声特征。

本发明可以降低音频的成本投入，使用较廉价的音频拾音器件，通过在软件层面上设计合理的方案，使得设备自适应于各种应用场景，并且对人声进行自动检测，之后通过合理的数字增益、模拟增益配置，增强人声频率范围增益(Eq值)，降低其他频段增益，以达到滤除除人声以外的噪声，以提升特征人声音信息。

图3是本申请实施例提供的监控音频的处理装置的结构示意图。如图3所示，所述监控音频的处理装置，包括：

提升参数确定模块310，用于根据当前环境的场景类型，确定音频质量提升参数，采用所述音频质量提升参数进行监控视频的录制；

增益确定模块320，用于若录制过程中监控到声源目标，则根据声源目标的距离确定增益大小；以及若监控到声源目标发出的声音信息，则根据声音信息的类型确定增益频段；

音频处理模块330，用于根据所述增益大小以及增益频段对监控音频进行处理。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种监控音频的处理方法，该方法包括：

根据所述增益大小以及增益频段对监控音频进行处理。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的监控音频的处理操作，还可以执行本申请任意实施例所提供的监控音频的处理方法中的相关操作。

本申请实施例提供了一种电子设备，该电子设备中可集成本申请实施例提供的监控音频的处理装置。图4是本申请实施例提供的一种电子设备的结构示意图。如图4所示，本实施例提供了一种电子设备400，其包括：一个或多个处理器420；存储装置410，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器420执行，使得所述一个或多个处理器420实现本申请实施例所提供的监控音频的处理方法，该方法包括：

根据所述增益大小以及增益频段对监控音频进行处理。

当然，本领域技术人员可以理解，处理器420还实现本申请任意实施例所提供的监控音频的处理方法的技术方案。

图4显示的电子设备400仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，该电子设备400包括处理器420、存储装置410、输入装置430和输出装置440；电子设备中处理器420的数量可以是一个或多个，图4中以一个处理器420为例；电子设备中的处理器420、存储装置410、输入装置430和输出装置440可以通过总线或其他方式连接，图4中以通过总线450连接为例。

存储装置410作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块单元，如本申请实施例中的监控音频的处理方法对应的程序指令。

存储装置410可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置410可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置410可进一步包括相对于处理器420远程设置的存储器，这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字、字符信息或语音信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏、扬声器等设备。

本申请实施例提供的电子设备，可以通过软件的处理方式，对监控音频进行有效处理，以得到高质量的监控音频的效果。

上述实施例中提供的监控音频的处理装置、存储介质及电子设备可执行本申请任意实施例所提供的监控音频的处理方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的监控音频的处理方法。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种监控音频的处理方法，其特征在于，包括：

根据所述增益大小以及增益频段对监控音频进行处理；

其中，所述录制过程中监控到声源目标，包括：

录制过程中，通过人形检测算法计算当前录制视频的范围内是否包含声源目标，其中，所述声源目标是人；

若是，则确定录制过程中监控到声源目标；并将人形检测算法输出的人形特征进行保存；

其中，所述若监控到声源目标发出的声音信息，则根据声音信息的类型确定增益频段，包括：

2.根据权利要求1所述的方法，其特征在于，所述当前环境的场景类型的确定过程包括：

获取至少一段环境音频片段；

3.根据权利要求1所述的方法，其特征在于，所述音频质量提升参数包括降噪参数，均衡器参数以及增益调节参数；

4.根据权利要求1所述的方法，其特征在于，在根据声源目标的距离确定增益大小之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述预设频率音频包括频率为25kHz的音频。

6.一种监控音频的处理装置，其特征在于，包括：

音频处理模块，用于根据所述增益大小以及增益频段对监控音频进行处理；

其中，所述增益确定模块，包括：

声源目标检测单元，用于在录制过程中通过人形检测算法计算当前录制视频的范围内是否包含声源目标，其中，所述声源目标是人；

人形特征保存单元，用于若所述声源目标检测单元的检测结果是包含声源目标，则确定录制过程中监控到声源目标；并将人形检测算法输出的人形特征进行保存；

其中，所述增益确定模块，还包括：

增益频段确定单元，用于若监控到声源目标发出的声音信息，则根据声音信息的类型以及所保存的人形特征确定增益频段。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的监控音频的处理方法。

8.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的监控音频的处理方法。