CN109087634A - 一种基于音频分类的音质设置方法 - Google Patents
一种基于音频分类的音质设置方法 Download PDFInfo
- Publication number
- CN109087634A CN109087634A CN201811278861.0A CN201811278861A CN109087634A CN 109087634 A CN109087634 A CN 109087634A CN 201811278861 A CN201811278861 A CN 201811278861A CN 109087634 A CN109087634 A CN 109087634A
- Authority
- CN
- China
- Prior art keywords
- audio
- frame
- voice data
- mel
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 10
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 7
- 238000001228 spectrum Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种基于音频分类的音质设置方法,首先提取一段语音数据的特征,生成特征图像,然后采用卷积神经网络分类方法对特征图像进行分类。最后根据不同的分类音频,在杜比音效、均衡设置上做出相应的调整。通过自动对不同音频场景进行识别和相应设置,使Android智能电视更加智能,提升用户的使用体验,感受Android智能电视带来的乐趣。
Description
技术领域
本发明属于语音技术领域,具体涉及一种基于音频分类的音质设置方法。
背景技术
随着人工智能技术在各行各业的大力发展,已进入到人类生活的各个方面,电视行业也不例外。利用人工智能技术,使电视具备智能化,能更好的满足用户需求,改善用户的使用体验。
视频、音频等多媒体数据都是电视机中重要的信息媒体形式,其中音频信息占有很重要的地位。如何对音频信息进行处理、组织分析和利用是信息处理领域中的一个重要课题,而音频分类是其中的关键技术之一。不同场景的音频信息是有各自特点的,比如新闻类,抑扬顿挫,具备一定的语速是这类音频场景的特点;比如音乐类,高低音频兼备,且有一定节奏感是这类音频场景的特点。针对不同的音频场景,在电视上可以设置不同的音频模式来更好的适应不同的场景。
目前大部分产品的人工智能技术都是运行在互联网的云服务器端,因为搭载Android系统本身的硬件条件限制,无法运行大规模的计算,也不能占据太多的资源,如CPU的占用。
发明内容
本发明的目的在于提供一种基于音频分类的音质设置方法,具有对运行在Arm板上的音频场景分类技术进行设计、优化和实现的优点。
本发明的上述目的是通过以下技术方案得以实现的:
一种基于音频分类的音质设置方法,包括音频特征提取模块、音频分类模块和音频设置模块,还包括以下步骤:
S1、音频特征提取;
S11、预加重,将9S的语音数据通过高通滤波器,提升语音数据中的高频部分,使信号的频谱变得平坦;
S12、分帧,采样率为22.05KHz,设置822个采样点为一帧,即一帧的时间为40ms,9S的语音数据分为225帧;
S13、加窗,将每一帧乘以汉明窗,增加左右两端的连续性;
S14、快速傅氏变换,对加窗后的每帧信号进行快速傅里叶变换,得到各帧的频谱,再对频谱取模平方,最后得到语音信号的功率谱;
S15、Mel滤波,将信号的功率谱通过Mel滤波器,将线形的自然频谱转换为体现人类听觉特性的Mel频谱,仅取每一帧信号的前224个特征;
S16、取对数,对Mel频谱取完对数,便可以得到225*224大小的频谱图,即横坐标为帧,纵坐标为Mel特征,在实际计算中,会舍弃一帧数据,即采用224*224大小的频谱图去做分类,但是此刻的频谱图的值并不全在图像0~255的范围内,为了将频谱图的值映射到图像0~255取值的范围内,本发明做了以下的线性映射计算:
f(x)=1.5×(10x+80) (公式1)
经过公式1的计算,Mel频谱图的值基本可以映射到图像0~255的取值范围中;
S2、音频分类;
S21、音频分类模块采用深度学习的CNN卷积神经网络——MobileNet分类网络来进行语音数据的分类;
S3、音质设置;
S31、对音乐类的语音数据,通过杜比音效的音频优化器功能衰减低频部分,提升人声对应频段,使用杜比音效语音清晰功能强化人声部分效果;
S32、对新闻类的语音数据,通过杜比音效智能EQ功能勾画大致声音风格曲线,通过杜比音效重低音和环绕声等功能配合调节音效;
S33、对其他类的语音数据,默认标准模式参数。
综上所述,本发明具有以下有益效果:
(1)通过自动对不同音频场景进行识别和相应设置,使Android智能电视更加智能,提升用户的使用体验,感受Android智能电视带来的乐趣。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的流程图。
具体实施方式
在下面的详细描述中,提出了许多具体细节,以便于对本发明的全面理解。但是,对于本领域技术人员来说很明显的是,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好地理解。
下面将结合附图,对本发明实施例的技术方案进行描述。
实施例:
如图1所示,一种基于音频分类的音质设置方法,包括音频特征提取模块、音频分类模块和音频设置模块,还包括以下步骤:
S1、音频特征提取;
S11、预加重,将9S的语音数据通过高通滤波器,提升语音数据中的高频部分,使信号的频谱变得平坦;
S12、分帧,采样率为22.05KHz,设置822个采样点为一帧,即一帧的时间为40ms,9S的语音数据分为225帧;
S13、加窗,将每一帧乘以汉明窗,增加左右两端的连续性;
S14、快速傅氏变换,对加窗后的每帧信号进行快速傅里叶变换,得到各帧的频谱,再对频谱取模平方,最后得到语音信号的功率谱;
S15、Mel滤波,将信号的功率谱通过Mel滤波器,将线形的自然频谱转换为体现人类听觉特性的Mel频谱,仅取每一帧信号的前224个特征;
S16、取对数,对Mel频谱取完对数,便可以得到225*224大小的频谱图,即横坐标为帧,纵坐标为Mel特征,在实际计算中,会舍弃一帧数据,即采用224*224大小的频谱图去做分类,但是此刻的频谱图的值并不全在图像0~255的范围内,为了将频谱图的值映射到图像0~255取值的范围内,本发明做了以下的线性映射计算:
f(x)=1.5×(10x+80) (公式1)
经过公式1的计算,Mel频谱图的值基本可以映射到图像0~255的取值范围中;
S2、音质设置;
S21、音频分类模块采用深度学习的CNN卷积神经网络——MobileNet分类网络来进行语音数据的分类;
S3、音质设置;
S31、对音乐类的语音数据,通过杜比音效的音频优化器功能衰减低频部分,提升人声对应频段,使用杜比音效语音清晰功能强化人声部分效果;
S32、对新闻类的语音数据,通过杜比音效智能EQ功能勾画大致声音风格曲线,通过杜比音效重低音和环绕声等功能配合调节音效;
S33、对其他类的语音数据,默认标准模式参数。
本发明是针对运行在Arm板上的音频场景分类技术进行设计、优化和实现,通过自动对不同音频场景进行识别和相应设置,使Android智能电视更加智能,提升用户的使用体验,感受Android智能电视带来的乐趣。
以上实施例仅用以说明本发明的技术方案,而非对发明的保护范围进行限制。显然,所描述的实施例仅仅是本发明部分实施例,而不是全部实施例。基于这些实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明所要保护的范围。
尽管参照上述实施例对本发明进行了详细的说明,本领域普通技术人员依然可以在不冲突的情况下,不作出创造性劳动对本发明各实施例中的特征根据情况相互组合、增删或作其他调整,从而得到不同的、本质未脱离本发明的构思的其他技术方案,这些技术方案也同样属于本发明所要保护的范围。
Claims (1)
1.一种基于音频分类的音质设置方法,其特征在于,包括音频特征提取模块、音频分类模块和音频设置模块,还包括以下步骤:
S1、音频特征提取;
S11、预加重,将9S的语音数据通过高通滤波器,提升语音数据中的高频部分,使信号的频谱变得平坦;
S12、分帧,采样率为22.05KHz,设置822个采样点为一帧,即一帧的时间为40ms,9S的语音数据分为225帧;
S13、加窗,将每一帧乘以汉明窗,增加左右两端的连续性;
S14、快速傅氏变换,对加窗后的每帧信号进行快速傅里叶变换,得到各帧的频谱,再对频谱取模平方,最后得到语音信号的功率谱;
S15、Mel滤波,将信号的功率谱通过Mel滤波器,将线形的自然频谱转换为体现人类听觉特性的Mel频谱,仅取每一帧信号的前224个特征;
S16、取对数,对Mel频谱取完对数,便可以得到225*224大小的频谱图,即横坐标为帧,纵坐标为Mel特征,在实际计算中,会舍弃一帧数据,即采用224*224大小的频谱图去做分类,但是此刻的频谱图的值并不全在图像0~255的范围内,为了将频谱图的值映射到图像0~255取值的范围内,本发明做了以下的线性映射计算:
f(x)=1.5×(10x+80) (公式1)
经过公式1的计算,Mel频谱图的值基本可以映射到图像0~255的取值范围中;
S2、音频分类;
S21、音频分类模块采用深度学习的CNN卷积神经网络——MobileNet分类网络来进行语音数据的分类;
S3、音质设置;
S31、对音乐类的语音数据,通过杜比音效的音频优化器功能衰减低频部分,提升人声对应频段,使用杜比音效语音清晰功能强化人声部分效果;
S32、对新闻类的语音数据,通过杜比音效智能EQ功能勾画大致声音风格曲线,通过杜比音效重低音和环绕声等功能配合调节音效;
S33、对其他类的语音数据,默认标准模式参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811278861.0A CN109087634A (zh) | 2018-10-30 | 2018-10-30 | 一种基于音频分类的音质设置方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811278861.0A CN109087634A (zh) | 2018-10-30 | 2018-10-30 | 一种基于音频分类的音质设置方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109087634A true CN109087634A (zh) | 2018-12-25 |
Family
ID=64844448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811278861.0A Pending CN109087634A (zh) | 2018-10-30 | 2018-10-30 | 一种基于音频分类的音质设置方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109087634A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111028852A (zh) * | 2019-11-06 | 2020-04-17 | 杭州哲信信息技术有限公司 | 一种基于cnn的智能呼叫系统中的噪声去除方法 |
CN111274989A (zh) * | 2020-02-11 | 2020-06-12 | 中国科学院上海微系统与信息技术研究所 | 一种基于深度学习的野外车辆识别方法 |
CN111583890A (zh) * | 2019-02-15 | 2020-08-25 | 阿里巴巴集团控股有限公司 | 音频分类方法和装置 |
WO2021137551A1 (en) * | 2019-12-31 | 2021-07-08 | Samsung Electronics Co., Ltd. | Equalizer for equalization of music signals and methods for the same |
CN113257276A (zh) * | 2021-05-07 | 2021-08-13 | 普联国际有限公司 | 一种音频场景检测方法、装置、设备及存储介质 |
CN113314148A (zh) * | 2021-07-29 | 2021-08-27 | 中国科学院自动化研究所 | 基于原始波形的轻量级神经网络生成语音鉴别方法和系统 |
CN113990294A (zh) * | 2021-09-07 | 2022-01-28 | 浙江讯飞智能科技有限公司 | 语音分类方法以及相关装置、设备 |
WO2023078093A1 (zh) * | 2021-11-03 | 2023-05-11 | 华为技术有限公司 | 一种音频播放方法及系统、电子设备 |
CN117711440A (zh) * | 2023-12-20 | 2024-03-15 | 书行科技(北京)有限公司 | 一种音频质量评测方法及相关装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104811864A (zh) * | 2015-04-20 | 2015-07-29 | 深圳市冠旭电子有限公司 | 一种自适应调节音效的方法及系统 |
CN104819846A (zh) * | 2015-04-10 | 2015-08-05 | 北京航空航天大学 | 一种基于短时傅里叶变换和稀疏层叠自动编码器的滚动轴承声音信号故障诊断方法 |
CN105405448A (zh) * | 2014-09-16 | 2016-03-16 | 科大讯飞股份有限公司 | 一种音效处理方法及装置 |
CN105895110A (zh) * | 2016-06-30 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种音频文件的分类方法及装置 |
CN106600559A (zh) * | 2016-12-21 | 2017-04-26 | 东方网力科技股份有限公司 | 模糊核获取以及图像去模糊方法及装置 |
CN106775562A (zh) * | 2016-12-09 | 2017-05-31 | 奇酷互联网络科技(深圳)有限公司 | 音频参数处理的方法及装置 |
CN107393554A (zh) * | 2017-06-20 | 2017-11-24 | 武汉大学 | 一种声场景分类中融合类间标准差的特征提取方法 |
CN107910018A (zh) * | 2017-10-30 | 2018-04-13 | 广州视源电子科技股份有限公司 | 音效处理方法和系统、计算机存储介质及设备 |
CN108281152A (zh) * | 2018-01-18 | 2018-07-13 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置及存储介质 |
-
2018
- 2018-10-30 CN CN201811278861.0A patent/CN109087634A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105405448A (zh) * | 2014-09-16 | 2016-03-16 | 科大讯飞股份有限公司 | 一种音效处理方法及装置 |
CN104819846A (zh) * | 2015-04-10 | 2015-08-05 | 北京航空航天大学 | 一种基于短时傅里叶变换和稀疏层叠自动编码器的滚动轴承声音信号故障诊断方法 |
CN104811864A (zh) * | 2015-04-20 | 2015-07-29 | 深圳市冠旭电子有限公司 | 一种自适应调节音效的方法及系统 |
CN105895110A (zh) * | 2016-06-30 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种音频文件的分类方法及装置 |
CN106775562A (zh) * | 2016-12-09 | 2017-05-31 | 奇酷互联网络科技(深圳)有限公司 | 音频参数处理的方法及装置 |
CN106600559A (zh) * | 2016-12-21 | 2017-04-26 | 东方网力科技股份有限公司 | 模糊核获取以及图像去模糊方法及装置 |
CN107393554A (zh) * | 2017-06-20 | 2017-11-24 | 武汉大学 | 一种声场景分类中融合类间标准差的特征提取方法 |
CN107910018A (zh) * | 2017-10-30 | 2018-04-13 | 广州视源电子科技股份有限公司 | 音效处理方法和系统、计算机存储介质及设备 |
CN108281152A (zh) * | 2018-01-18 | 2018-07-13 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置及存储介质 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583890A (zh) * | 2019-02-15 | 2020-08-25 | 阿里巴巴集团控股有限公司 | 音频分类方法和装置 |
CN111028852A (zh) * | 2019-11-06 | 2020-04-17 | 杭州哲信信息技术有限公司 | 一种基于cnn的智能呼叫系统中的噪声去除方法 |
WO2021137551A1 (en) * | 2019-12-31 | 2021-07-08 | Samsung Electronics Co., Ltd. | Equalizer for equalization of music signals and methods for the same |
US11515853B2 (en) | 2019-12-31 | 2022-11-29 | Samsung Electronics Co., Ltd. | Equalizer for equalization of music signals and methods for the same |
CN111274989A (zh) * | 2020-02-11 | 2020-06-12 | 中国科学院上海微系统与信息技术研究所 | 一种基于深度学习的野外车辆识别方法 |
CN113257276A (zh) * | 2021-05-07 | 2021-08-13 | 普联国际有限公司 | 一种音频场景检测方法、装置、设备及存储介质 |
CN113257276B (zh) * | 2021-05-07 | 2024-03-29 | 普联国际有限公司 | 一种音频场景检测方法、装置、设备及存储介质 |
CN113314148A (zh) * | 2021-07-29 | 2021-08-27 | 中国科学院自动化研究所 | 基于原始波形的轻量级神经网络生成语音鉴别方法和系统 |
CN113990294A (zh) * | 2021-09-07 | 2022-01-28 | 浙江讯飞智能科技有限公司 | 语音分类方法以及相关装置、设备 |
WO2023078093A1 (zh) * | 2021-11-03 | 2023-05-11 | 华为技术有限公司 | 一种音频播放方法及系统、电子设备 |
CN117711440A (zh) * | 2023-12-20 | 2024-03-15 | 书行科技(北京)有限公司 | 一种音频质量评测方法及相关装置 |
CN117711440B (zh) * | 2023-12-20 | 2024-08-20 | 书行科技(北京)有限公司 | 一种音频质量评测方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109087634A (zh) | 一种基于音频分类的音质设置方法 | |
CN107293286B (zh) | 一种基于网络配音游戏的语音样本收集方法 | |
CN104735528A (zh) | 一种音效匹配方法及装置 | |
CN104900238B (zh) | 一种基于感知滤波的音频实时比对方法 | |
CN101366078A (zh) | 从单音音频信号分离音频信源的神经网络分类器 | |
JP6335301B2 (ja) | ステレオ位相パラメータを符号化する方法及び装置 | |
JPS6011899A (ja) | 聴覚応答情報を模倣する方法及び装置 | |
CN104078051B (zh) | 一种人声提取方法、系统以及人声音频播放方法及装置 | |
CN108198571B (zh) | 一种基于自适应带宽判断的带宽扩展方法及系统 | |
CN113488063B (zh) | 一种基于混合特征及编码解码的音频分离方法 | |
CN109841223B (zh) | 一种音频信号处理方法、智能终端及存储介质 | |
CN110782915A (zh) | 一种基于深度学习的波形音乐成分分离方法 | |
CN112750459B (zh) | 音频场景识别方法、装置、设备及计算机可读存储介质 | |
CN115081473A (zh) | 一种多特征融合的制动噪声分类识别方法 | |
CN113593601A (zh) | 基于深度学习的视听多模态语音分离方法 | |
US10991375B2 (en) | Systems and methods for processing an audio signal for replay on an audio device | |
Chu et al. | A noise-robust FFT-based auditory spectrum with application in audio classification | |
CN105227763A (zh) | 一种在智能移动设备上实现的乐器音频实时分割方法 | |
CN112992167A (zh) | 音频信号的处理方法、装置及电子设备 | |
CN104900239A (zh) | 一种基于沃尔什-哈达码变换的音频实时比对方法 | |
CN111009259B (zh) | 一种音频处理方法和装置 | |
US8462984B2 (en) | Data pattern recognition and separation engine | |
Meng et al. | An empirical envelope estimation algorithm | |
CN113470652A (zh) | 一种基于工业互联网的语音识别及处理方法 | |
CN112259118A (zh) | 单声道人声与背景音乐分离方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181225 |
|
RJ01 | Rejection of invention patent application after publication |