CN114598767A - 基于惯性测量单元的跨设备手机语音信息恢复方法及系统 - Google Patents
基于惯性测量单元的跨设备手机语音信息恢复方法及系统 Download PDFInfo
- Publication number
- CN114598767A CN114598767A CN202210027042.9A CN202210027042A CN114598767A CN 114598767 A CN114598767 A CN 114598767A CN 202210027042 A CN202210027042 A CN 202210027042A CN 114598767 A CN114598767 A CN 114598767A
- Authority
- CN
- China
- Prior art keywords
- measurement unit
- data
- inertial measurement
- mobile phone
- accelerometer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005259 measurement Methods 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000005070 sampling Methods 0.000 claims abstract description 46
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 10
- 230000009467 reduction Effects 0.000 claims description 30
- 238000011084 recovery Methods 0.000 claims description 29
- 230000011218 segmentation Effects 0.000 claims description 29
- 238000001914 filtration Methods 0.000 claims description 23
- 238000001228 spectrum Methods 0.000 claims description 8
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims 1
- 239000004576 sand Substances 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 8
- 230000006872 improvement Effects 0.000 description 7
- 238000010606 normalization Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 101100261000 Caenorhabditis elegans top-3 gene Proteins 0.000 description 1
- 101150041570 TOP1 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01H—MEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
- G01H1/00—Measuring characteristics of vibrations in solids by using direct conduction to the detector
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/7243—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
- H04M1/72433—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/02—Preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/02—Preprocessing
- G06F2218/04—Denoising
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Telephone Function (AREA)
Abstract
本发明公开了一种基于惯性测量单元的跨设备手机语音信息恢复方法及系统,该方法通过在智能手机中读取惯性测量单元在手机因扬声器播放语音而振动时的数据。利用惯性测量单元读出的数据和信号处理技术,实现能够跨设备的手机语音信息恢复方法。系统包括数据采集模块、数据处理模块和预训练人工神经网络模型。有别于之前的基于惯性测量单元恢复手机语音的方法,本发明所提出的方法能够实现在200Hz的低采样率限制下的语音信息恢复,同时消除了设备特征,实现了跨设备语音信息恢复功能。
Description
技术领域
本发明涉及一种基于惯性测量单元(Inertial Measurement Units,IMU)的跨设备手机语音信息恢复方法及系统。
背景技术
智能手机因其丰富的功能、多样的交互和优越的便携性,得到了广泛的普及和应用。智能手机中诸如触摸屏、麦克风、摄像头、惯性测量单元等传感器为多样的人机交互提供了硬件基础,让软件开发者能够使用这些传感器构建多媒介、多形式的应用。由于手机自带扬声器播放音频时产生的振动能够通过机体传导至惯性测量单元传感器,通过使用惯性测量单元传感器中的加速度计和陀螺仪采集包含语音信息的振动信号,再使用数据处理和神经网络技术能够恢复扬声器播放的原始语音的语义信息。这种语音信息恢复技术可以应用于跨模态语音识别、校验和语音转文字领域。
现有的基于惯性测量单元进行手机语音信息恢复的方法,利用手机扬声器播放语音时加速度计和陀螺仪传感器的数据,使用人工神经网络等技术能够达到最高81%的语音识别准确率。但这些方法都存在如下问题:(1)已有方法使用惯性测量单元传感器能够达到的最高采样率(约500Hz)采集数据,在业界限制惯性测量单元的最高采样率为200Hz后的语音信息恢复能力不明;(2)已有方法未提升语音信息恢复模型跨设备性能,使用惯性测量单元对未知设备进行语音信息恢复的能力较差。
本发明提出一种基于惯性测量单元的跨设备手机语音信息恢复方法及系统,能够在传感器低采样率限制下完成语音信息恢复,并有效提升了语音信息恢复模型的跨设备性能。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于惯性测量单元的跨设备手机语音信息恢复方法及系统。本发明是通过以下技术方案来实现的:
本发明公开了一种基于惯性测量单元的跨设备手机语音信息恢复方法,其他特征在于,包括:
在手机播放语音时,读取并保存手机内置惯性测量单元采集的数据;所述惯性测量单元为加速度计或加速度计和陀螺仪。
对惯性测量单元采集的数据利用信号相关性进行词语分割,获取单个词对应的惯性测量单元数据切片;对每个惯性测量单元数据切片依次进行降维、标准化、高通滤波和随机降采样的数据增强处理,获得每个惯性测量单元增强数据切片;将每个惯性测量单元增强数据切片输入至一训练好的人工神经网络模型,获得每个惯性测量单元增强数据切片的词语分类结果,组合获得语音的语义信息。
其中,所述人工神经网络模型通过已采集的惯性测量单元增强数据切片为输入,以每个惯性测量单元增强数据切片对应的词语分类结果为输出,通过最小化输出与惯性测量单元增强数据切片对应的词语分类结果真值的损失训练获得。
作为进一步的改进,所述的惯性测量单元采集的数据包括加速度计或加速度计和陀螺仪的x、y、z三轴数据及对应的时间戳。
作为进一步的改进,对惯性测量单元采集的数据利用信号相关性进行词语分割之前,还包括对惯性测量单元采集的数据进行降噪处理的步骤。
作为进一步的改进,所述降噪处理采用维纳滤波方法。
作为进一步的改进,所述惯性测量单元为加速度计或加速度计和陀螺仪,所述对惯性测量单元采集的数据利用信号相关性进行词语分割,获取单个词对应的惯性测量单元数据切片具体为:
分别选取加速度计信号幅度较强的两轴数据或加速度计和陀螺仪信号幅度最强轴的数据进行相乘,对相乘的结果过滤得到直流分量;
使用最大类间方差法确定直流分量值域上的分割阈值,计算该分割阈值与直流分量交点对应的采样时间;
在加速度计、陀螺仪降噪处理后的x、y、z三轴数据中每个交点对应的采样时间,向无语音对应的方向移动Fs/5个采样点作为词语分割点,其中Fs为惯性测量单元信号采样频率,根据词语分割点移除无语音对应的数据片段得到词语分割片段,获得加速度计三轴或加速度计和陀螺仪共六轴的词语分割数据片段。
作为进一步的改进,所述对每个惯性测量单元数据切片依次进行降维、标准化、高通滤波和随机降采样的数据增强处理具体为:
降维:使用降维的方法将加速度计、陀螺仪的x、y、z三轴每个惯性测量单元数据切片数据进行融合:
其中,||A||(t)为加速度计x、y、z三轴数据矢量和的模,||G||(t)为陀螺仪x、y、z三轴数据矢量和的模,amax(t)为加速度计信号最强轴的数据,gmax(t)为陀螺仪信号最强轴的数据,sign(·)为取符号的函数;
其中,interp(·)表示拼接操作,norm(·)表示标准化操作。
高通滤波和随机降采样:对标准化后的数据D(t)进行高通滤波,然后采用随机删除采样点的方法将数据降采样,获得惯性测量单元增强数据切片:
S(t)=DS(HPF(D(t)))
其中,HPF(·)表示高通滤波操作,DS(·)表示随机删除采样点操作。
作为进一步的改进,本发明所述的基于惯性测量单元的跨设备手机语音信息恢复方法,其特征是,人工神经网络模型输入的惯性测量单元增强数据切片的形式为数据矩阵或图片。所述图片为时频谱灰度图I=specgram(S(t))。其中S(t)为惯性测量单元增强数据切片的时域数据矩阵,specgram(·)表示时域数据转换为时频谱灰度图的过程。
作为进一步的改进,所述的人工神经网络模型为卷积神经网络分类模型。
本发明还公开一种的跨设备手机语音信息恢复系统,所述系统用于执行上述任一项所述方法,包括:
数据采集模块,用于在手机播放语音时,读取并保存手机内置惯性测量单元采集的数据;
数据处理模块,对惯性测量单元采集的数据利用信号相关性进行词语分割,获取单个词对应的惯性测量单元数据切片;对每个惯性测量单元数据切片依次进行降维、标准化、高通滤波和随机降采样的数据增强处理,获得每个惯性测量单元增强数据切片;
预训练人工神经网络模型:将每个惯性测量单元增强数据切片输入至一训练好的人工神经网络模型,获得每个惯性测量单元增强数据切片的词语分类结果,组合获得语音的语义信息。
本发明的有益效果是,本发明利用智能手机内置的惯性测量单元,使用传感器数据增强的方法,实现了一种惯性测量单元低采样率(200Hz)限制下的语音内容自动词语分割和语音信息恢复系统,并通过数据降维、高通滤波和随机降采样的数据增强方法减弱了不同型号手机设备间的差异,提高了基于惯性测量单元语音信息恢复方法的跨设备性能,能够大大增加未知设备语音信息恢复的准确率。
附图说明
图1是基于惯性测量单元的跨设备手机语音信息恢复方法系统框图;
图2是维纳滤波数据降噪效果图,其中(a)为加速度计z轴原始数据,(b)为加速度计z轴数据维纳滤波后的结果,(c)为陀螺仪y轴原始数据,(d)为陀螺仪y轴数据维纳滤波后的结果;
图3是词语分割过程示意图;
图4是Dense Block和DenseNet示意图;
图5是本方法在传感器不同采样率下的性能对比图;
图6是本方法在主扬声器和听筒的不同音量下的性能对比图;
图7是本方法在实际场景不同握持姿势下的性能对比图;
图8是本方法在跨设备条件下的性能表现图。
具体实施方式
下面根据附图详细说明本发明。
本发明基于惯性测量单元的跨设备手机语音信息恢复方法,包括以下步骤:
步骤一:手机语音信息恢复的数据采集。
当手机主扬声器或听筒扬声器播放如图1所示的通话等语音信息时,振动会经过手机内电路板或机体传导使得惯性测量单元振动,设置惯性测量单元采样率,读取并保存惯性测量单元采集的数据,其中,惯性测量单元为加速度计或加速度计和陀螺仪,优选为加速度计和陀螺仪,则采集的数据包括加速度计和陀螺仪各自的x、y、z三轴数据及对应的时间戳。
步骤二:惯性测量单元数据处理和训练。
该步骤是本发明的核心,分为以下子步骤:
1)对所采集的惯性测量单元数据进行降噪处理。
惯性测量单元读取的数据中不仅携带了语音相关的信号,还叠加了传感器内禀的白噪声。为了提高信噪比,同时削弱设备特性、增加设备无关性,对所采集的加速度计和陀螺仪的各轴数据使用维纳滤波进行降噪处理。进一步地,为解决手机惯性测量单元传感器不均匀采样问题,先结合时间戳信息使用线性插值方法将加速度计和陀螺仪的各轴数据重采样为均匀采样的数据,而后使用维纳滤波进行降噪处理,结果如图2所示。
2)对降噪后的数据利用加速度计和陀螺仪数据的相关性进行词语分割。
加速度计和陀螺仪同时对手机扬声器播放音频产生的振动信号进行采样,故两传感器的数据具有一定的相关性,同时两传感器的数据具有不同的内禀噪声和运动噪声分布。
利用以上特点,对数据进行词语分割具体包括以下步骤:
分别选取加速度计和陀螺仪信号幅度最强轴的数据用以进行词语分割。所述加速度计信号幅度最强的轴数据对应降噪后的信号记为陀螺仪信号幅度最强的轴数据对应降噪后的信号记为其中,max=x,y或z为信号幅度最强的轴向,Fs为惯性测量单元信号采样频率,fL为语音信号中频率f经过加速度计和陀螺仪采样后的混叠频率,是语音信号中的频率为f的成分混叠后的信号,可以表示为:
公式(1)、公式(2)中,ka、kg为增益系数,t为时间,nwamax、nwgmax为信号中残留的白噪声,mamax、mgmax为高频运动噪声,nhamax为加速度计的三次谐波噪声。
使用低通滤波器过滤公式(3)所得信号得到直流分量kakg/2,如图3所示。
使用改进的最大类间方差算法确定语音对应的数据片段的阈值。首先,选取直流分量kakg/2数据值域范围内的一点作为划分点,将信号分类为大于划分点和小于划分点的两类,计算两类的类间方差。然后,在信号值域上遍历,选取使得上述类间方差最大的划分点作为确定分割交点的分割阈值。
计算分割阈值与直流分量kakg/2交点对应的采样时间,然后在加速度计、陀螺仪降噪处理后的x、y、z三轴数据中,找到每个交点对应的采样时间并向无语音信号对应的方向移动若干个采样点作为词语分割点,确保分割数据片段的完整,优选地,一般移动Fs/5个采样点。根据词语分割点移除无语音对应的数据片段,得到图3所示的加速度计和陀螺仪共六个轴的词语分割数据片段。
3)对惯性测量单元数据切片进行数据增强。
已有的基于惯性测量单元的手机语音信息恢复方法,没有在增加跨设备性能上对数据进行增强处理。本发明中方法为了削弱数据中的设备特征,增强恢复方法的跨设备信息恢复性能,采用以下数据增强方法处理数据:
使用降维的方法将加速度计、陀螺仪经步骤(2)词语分割后的x、y、z三轴数据进行融合,以加速度计为例:
上式中,||A||(t)为加速度计x、y、z三轴数据矢量和的模,amax(t)为加速度计信号幅度最强的轴数据,sign(·)为取符号的函数。
上式中,||G||(t)为陀螺仪x、y、z三轴数据矢量和的模,gmax(t)为陀螺仪信号幅度最强的轴数据,sign(·)为取符号的函数。
通过对数据取模的方法进行降维,最大限度地利用了加速度计和陀螺仪各个轴上的数据信息,消除了传感器不同轴间的能量差异造成的影响。增加能量最强轴的数据符号,可以防止数据频域上的失真。
公式(5)中,interp(·)表示拼接操作,norm(·)表示标准化操作。根据奈奎斯特采样定理可知,拼接后的数据等效采样率由单传感器的Fs增加到了2Fs,待恢复语音信息的信道带宽相应由Fs/2增加到了Fs,语音信息带宽的增加有利于语音语义的分类。对数据进行标准化处理,可以消除手机扬声器播放的音频信号强度、扬声器功率、播放音量设置的影响。
对标准化后的数据D(t)进行高通滤波,然后采用随机删除采样点的方法对数据进行降采样,记为:
S(t)=DS(HPF(D(t))) (6)
公式(6)中,HPF(·)表示高通滤波操作,DS(·)表示随机删除采样点操作。在标准化后的数据D(t)等效采样频率为2Fs时,优选地,高通滤波截止频率采用0.4Fs,随机降采样至0.975Fs。通过高通滤波处理,去除数据中0.4Fs以下的运动噪声和从高频段混叠到低频段的1.6Fs以上的噪声。随机删除采样点的方法虽然小幅降低了语音信息信道的带宽,但是消除了不同设备惯性传感器采样率的细微差别,增强高频失真并掩盖设备多样性带来的信号原始特征。同时随机采样点删除带来的采样抖动能够降低高频噪声的响应,而对带内信号几乎没有影响。
4)训练人工神经网络模型。
该步骤运用人工神经网络算法进行训练,得到用于分类语音信息的人工神经网络模型,具体包括以下步骤:
将经过步骤(3)数据增强的数据切片转换成时频谱灰度图:
I=specgram(S(t)) (7)
其中,specgram(·)表示时域数据转换为时频谱灰度图的过程;
优选地,将所有数据I随机抽取80%作为训练集,另外20%作为验证集;
构建一人工神经网络模型,以数据切片的时频谱灰度图作为输入,词语分类的结果作为输出,通过最小化输出与标签的损失进行训练,获得训练好的人工神经网络模型。
所述人工神经网络模型可以为常用的卷积神经网络,例如VGG、GoogLeNet、ResNet、DenseNet等。相较于其他的卷积神经网络,DenseNet的基本模块Dense Block的每一个卷积层的输入都来自模块内前面所有卷积层的输出,解决了普通神经网络的梯度消失问题,加强了特征的传递和利用,减少了网络的参数总量。
示例性地,图4所示为本发明一实施例使用的DenseNet的网络结构和其基本模块Dense Block。Dense Block由5层相连的卷积层构成,DenseNet由卷积层(Conv)、DenseBlock、卷积层和池化层(Conv+Pooling)、Dense Block、池化层和全连接层(Pooling+Linear)前后连接构成。输入数据(Input)为数据切片的时频谱灰度图,输出结果为词语分类的结果(Classes)。
模型使用交叉熵损失函数和反向传播算法进行训练,使用带有NesterovMomentum的SGD优化器作为训练优化器,同时在全连接层设置丢失率为0.3的Dropout,使用训练集和验证集训练基于DenseNet的人工神经网络分类模型。
步骤三:手机语音信息恢复。
在实际手机语音信息恢复应用中,利用模型的跨设备语音信息恢复特性,对采集训练数据所使用的同一型号或不同型号的手机,使用步骤一和步骤二中所述方法获取经过数据降噪、词语分割和数据增强后的数据切片输入步骤二中所述的训练得到的人工神经网络模型进行词语分类,获取待恢复语音的语义信息。
为了验证本发明的鲁棒性和跨设备性能,在低采样率、不同音量、不同使用场景以及跨设备条件下部署了本发明。
图5为本发明在不同的惯性测量单元传感器低采样率条件下语音信息恢复的准确率,展示了本发明在极低采样率下的性能。可见,在惯性测量单元分别以200Hz、100H、50Hz、40Hz的低采样率工作时,语音信息恢复的准确率均能达到接近或超过50%,其中200Hz的情况下信息恢复准确率达到了73.8%。这表明,与已有方法相比,本发明能够在200Hz低采样率条件下准确恢复语音信息,并且对更低的采样率具有较好的鲁棒性。
图6为本发明在听筒和主扬声器的不同音量条件下语音信息恢复的准确率,展示了本发明及系统在不同播放音量下的性能。可见,在智能手机两个扬声器100%和80%的音量下分别播放语音,本发明能够获得60%以上的信息恢复准确率,最高能够达到77.9%。在较低的扬声器音量下,本发明仍能维持50%左右的准确率,这表明了本发明在扬声器不同播放音量下能够较好地去除噪声、提高信噪比,具有对于播放音量的鲁棒性。
图7为本发明在不同真实使用场景下的语音信息恢复准确率,展示了本发明在不同真实场景下的性能。通过真实的通话场景测试本发明在实际应用中的端到端性能,桌面场景表示将手机静置于桌面通话,坐立表示使用坐姿手持手机通话,走动表示走动的同时手持手机通话,Top1、Top3和Top5三个系列分别表示本发明语音信息识别的概率最高的1、3、5个结果中含有正确目标的概率。可见,在三种场景下,本发明均能达到60%以上的信息恢复准确率,并且Top5的准确率都超过了90%,这表明了本发明在真实场景下对于手持抖动和大幅度运动的鲁棒性。
图8为本发明在跨设备条件下的语音信息恢复准确率,展示了本发明在未知设备上应用的性能。使用不同品牌的9种型号的智能手机作为跨设备性能测试手机,图表中三个系列分别表示使用本发明利用Huawei P40、Samsung Galaxy S8和混合两者数据共同训练得到的模型的跨设备语音信息恢复准确率。与已有发明最高26%的跨设备准确率相比,本发明达到了最高49.8%,平均33.1%的跨设备恢复准确率。可见,本发明通过轴间融合数据降维、降采样等处理,有效降低了不同设备间的差异,提高了跨设备语音信息恢复能力。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。
Claims (9)
1.一种基于惯性测量单元的跨设备手机语音信息恢复方法,其特征在于,包括:
在手机播放语音时,读取并保存手机内置惯性测量单元采集的数据;所述惯性测量单元为加速度计或加速度计和陀螺仪。
对惯性测量单元采集的数据利用信号相关性进行词语分割,获取单个词对应的惯性测量单元数据切片;对每个惯性测量单元数据切片依次进行降维、标准化、高通滤波和随机降采样的数据增强处理,获得每个惯性测量单元增强数据切片;将每个惯性测量单元增强数据切片输入至一训练好的人工神经网络模型,获得每个惯性测量单元增强数据切片的词语分类结果,组合所有惯性测量单元增强数据切片的词语分类结果获得语音的语义信息。
其中,所述人工神经网络模型以采集的惯性测量单元增强数据切片为输入,以每个惯性测量单元增强数据切片对应的词语分类结果为输出,通过最小化输出与惯性测量单元增强数据切片对应的词语分类结果真值的损失训练获得。
2.根据权利要求1所述的基于惯性测量单元的跨设备手机语音信息恢复方法,其特征是,所述的惯性测量单元采集的数据包括加速度计或加速度计和陀螺仪的x、y、z轴数据及对应的时间戳。
3.根据权利要求1所述的基于惯性测量单元的跨设备手机语音信息恢复方法,其特征是,对惯性测量单元采集的数据利用信号相关性进行词语分割之前,还包括对惯性测量单元采集的数据进行降噪处理的步骤。
4.根据权利要求3所述的基于惯性测量单元的跨设备手机语音信息恢复方法,其特征是,所述降噪处理采用维纳滤波方法。
5.根据权利要求1所述的基于惯性测量单元的跨设备手机语音信息恢复方法,其特征是,所述惯性测量单元为加速度计或加速度计和陀螺仪,所述对惯性测量单元采集的数据利用信号相关性进行词语分割,获取单个词对应的惯性测量单元数据切片具体为:
分别选取加速度计信号幅度最强的两轴数据或加速度计和陀螺仪信号幅度最强轴的数据进行相乘,对相乘的结果过滤得到直流分量;
使用最大类间方差法确定直流分量值域上的分割阈值,计算所述分割阈值与直流分量交点对应的采样时间;
在加速度计、陀螺仪降噪后的x、y、z轴数据中,找到每个交点对应的采样时间,并向无语音对应的方向移动Fs/5个采样点作为词语分割点,其中Fs为惯性测量单元信号采样频率,根据词语分割点移除无语音对应的数据片段得到词语分割片段,获得加速度计三轴或加速度计和陀螺仪共六轴的词语分割数据片段。
6.根据权利要求5所述的基于惯性测量单元的跨设备手机语音信息恢复方法,其特征是,所述对每个惯性测量单元数据切片依次进行降维、标准化、高通滤波和随机降采样的数据增强处理具体为:
降维:使用降维的方法将加速度计、陀螺仪的x、y、z轴每个惯性测量单元数据切片数据进行融合:
其中,||A||(t)为加速度计x、y、z三轴数据矢量和的模,||G||(t)为陀螺仪x、y、z三轴数据矢量和的模,amax(t)为加速度计信号最强轴的数据,gmax(t)为陀螺仪信号最强轴的数据,sign(·)为取符号的函数;
其中,interp(·)表示拼接操作,norm(·)表示标准化操作。
高通滤波和随机降采样:对标准化后的数据D(t)进行高通滤波,然后采用随机删除采样点的方法将数据降采样,获得惯性测量单元增强数据切片:
S(t)=DS(HPF(D(t)))
其中,HPF(·)表示高通滤波操作,DS(·)表示随机删除采样点操作。
7.根据权利要求1所述的基于惯性测量单元的跨设备手机语音信息恢复方法,其特征是,人工神经网络模型输入的惯性测量单元增强数据切片的形式为数据矩阵或图片。所述图片为时频谱灰度图I=specgram(S(t))。其中S(t)为惯性测量单元增强数据切片的时域数据矩阵,specgram(·)表示时域数据转换为时频谱灰度图的过程。
8.根据权利要求1所述的基于惯性测量单元的跨设备手机语音信息恢复方法,其特征是,所述的人工神经网络模型为卷积神经网络分类模型。
9.一种的跨设备手机语音信息恢复系统,其特征是,所述系统用于执行权利要求1-8任一项所述方法,包括:
数据采集模块,用于在手机播放语音时,读取并保存手机内置惯性测量单元采集的数据;数据处理模块,对惯性测量单元采集的数据利用信号相关性进行词语分割,获取单个词对应的惯性测量单元数据切片;用于对每个惯性测量单元数据切片依次进行降维、标准化、高通滤波和随机降采样的数据增强处理,获得每个惯性测量单元增强数据切片;
预训练人工神经网络模型:用于依据每个惯性测量单元增强数据切片,输出获得每个惯性测量单元增强数据切片的词语分类结果,并组合获得语音的语义信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210027042.9A CN114598767B (zh) | 2022-01-11 | 2022-01-11 | 基于惯性测量单元的跨设备手机语音信息恢复方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210027042.9A CN114598767B (zh) | 2022-01-11 | 2022-01-11 | 基于惯性测量单元的跨设备手机语音信息恢复方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114598767A true CN114598767A (zh) | 2022-06-07 |
CN114598767B CN114598767B (zh) | 2023-04-07 |
Family
ID=81803683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210027042.9A Active CN114598767B (zh) | 2022-01-11 | 2022-01-11 | 基于惯性测量单元的跨设备手机语音信息恢复方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114598767B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112750426A (zh) * | 2021-02-01 | 2021-05-04 | 福州大学 | 移动终端语音分析系统 |
WO2021208287A1 (zh) * | 2020-04-14 | 2021-10-21 | 深圳壹账通智能科技有限公司 | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 |
-
2022
- 2022-01-11 CN CN202210027042.9A patent/CN114598767B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021208287A1 (zh) * | 2020-04-14 | 2021-10-21 | 深圳壹账通智能科技有限公司 | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 |
CN112750426A (zh) * | 2021-02-01 | 2021-05-04 | 福州大学 | 移动终端语音分析系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114598767B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112949708B (zh) | 情绪识别方法、装置、计算机设备和存储介质 | |
CN103391347B (zh) | 一种自动录音的方法及装置 | |
CN110600017A (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
KR102367660B1 (ko) | 마이크로폰 어레이 스피치 향상 기법 | |
CN106463106B (zh) | 用于音频接收的风噪声降低 | |
CN113516990B (zh) | 一种语音增强方法、训练神经网络的方法以及相关设备 | |
CN112863538B (zh) | 一种基于视听网络的多模态语音分离方法及装置 | |
CN109887494B (zh) | 重构语音信号的方法和装置 | |
EP4207195A1 (en) | Speech separation method, electronic device, chip and computer-readable storage medium | |
CN114387977B (zh) | 基于双域深度特征和注意力机制的语音裁剪痕迹定位方法 | |
CN112289325A (zh) | 一种声纹识别方法及装置 | |
WO2016174491A1 (en) | Microphone array noise suppression using noise field isotropy estimation | |
CN111176465A (zh) | 使用状态识别方法、装置、存储介质与电子设备 | |
CN107690034A (zh) | 基于环境背景声音的智能情景模式切换系统及方法 | |
CN115472153A (zh) | 语音增强系统、方法、装置及设备 | |
CN115588437B (zh) | 语音增强方法、装置、设备和存储介质 | |
CN117746874A (zh) | 一种音频数据处理方法、装置以及可读存储介质 | |
CN112750426B (zh) | 移动终端语音分析系统 | |
CN114598767B (zh) | 基于惯性测量单元的跨设备手机语音信息恢复方法及系统 | |
US11302308B2 (en) | Synthetic narrowband data generation for narrowband automatic speech recognition systems | |
CN112562712A (zh) | 一种录音数据处理方法、系统、电子设备及存储介质 | |
CN117237359A (zh) | 传送带撕裂检测方法、装置、存储介质和电子设备 | |
CN113327589B (zh) | 一种基于姿态传感器的语音活动检测方法 | |
CN113255800B (zh) | 基于音视频的鲁棒情感建模系统 | |
CN116631380A (zh) | 一种音视频多模态的关键词唤醒方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |