Nothing Special   »   [go: up one dir, main page]

CN114598767A - 基于惯性测量单元的跨设备手机语音信息恢复方法及系统 - Google Patents

基于惯性测量单元的跨设备手机语音信息恢复方法及系统 Download PDF

Info

Publication number
CN114598767A
CN114598767A CN202210027042.9A CN202210027042A CN114598767A CN 114598767 A CN114598767 A CN 114598767A CN 202210027042 A CN202210027042 A CN 202210027042A CN 114598767 A CN114598767 A CN 114598767A
Authority
CN
China
Prior art keywords
measurement unit
data
inertial measurement
mobile phone
accelerometer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210027042.9A
Other languages
English (en)
Other versions
CN114598767B (zh
Inventor
刘亚杰
李一敏
高铭
陈奕可
韩劲松
巴钟杰
许贤
任奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210027042.9A priority Critical patent/CN114598767B/zh
Publication of CN114598767A publication Critical patent/CN114598767A/zh
Application granted granted Critical
Publication of CN114598767B publication Critical patent/CN114598767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H1/00Measuring characteristics of vibrations in solids by using direct conduction to the detector
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72433User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • G06F2218/04Denoising
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种基于惯性测量单元的跨设备手机语音信息恢复方法及系统,该方法通过在智能手机中读取惯性测量单元在手机因扬声器播放语音而振动时的数据。利用惯性测量单元读出的数据和信号处理技术,实现能够跨设备的手机语音信息恢复方法。系统包括数据采集模块、数据处理模块和预训练人工神经网络模型。有别于之前的基于惯性测量单元恢复手机语音的方法,本发明所提出的方法能够实现在200Hz的低采样率限制下的语音信息恢复,同时消除了设备特征,实现了跨设备语音信息恢复功能。

Description

基于惯性测量单元的跨设备手机语音信息恢复方法及系统
技术领域
本发明涉及一种基于惯性测量单元(Inertial Measurement Units,IMU)的跨设备手机语音信息恢复方法及系统。
背景技术
智能手机因其丰富的功能、多样的交互和优越的便携性,得到了广泛的普及和应用。智能手机中诸如触摸屏、麦克风、摄像头、惯性测量单元等传感器为多样的人机交互提供了硬件基础,让软件开发者能够使用这些传感器构建多媒介、多形式的应用。由于手机自带扬声器播放音频时产生的振动能够通过机体传导至惯性测量单元传感器,通过使用惯性测量单元传感器中的加速度计和陀螺仪采集包含语音信息的振动信号,再使用数据处理和神经网络技术能够恢复扬声器播放的原始语音的语义信息。这种语音信息恢复技术可以应用于跨模态语音识别、校验和语音转文字领域。
现有的基于惯性测量单元进行手机语音信息恢复的方法,利用手机扬声器播放语音时加速度计和陀螺仪传感器的数据,使用人工神经网络等技术能够达到最高81%的语音识别准确率。但这些方法都存在如下问题:(1)已有方法使用惯性测量单元传感器能够达到的最高采样率(约500Hz)采集数据,在业界限制惯性测量单元的最高采样率为200Hz后的语音信息恢复能力不明;(2)已有方法未提升语音信息恢复模型跨设备性能,使用惯性测量单元对未知设备进行语音信息恢复的能力较差。
本发明提出一种基于惯性测量单元的跨设备手机语音信息恢复方法及系统,能够在传感器低采样率限制下完成语音信息恢复,并有效提升了语音信息恢复模型的跨设备性能。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于惯性测量单元的跨设备手机语音信息恢复方法及系统。本发明是通过以下技术方案来实现的:
本发明公开了一种基于惯性测量单元的跨设备手机语音信息恢复方法,其他特征在于,包括:
在手机播放语音时,读取并保存手机内置惯性测量单元采集的数据;所述惯性测量单元为加速度计或加速度计和陀螺仪。
对惯性测量单元采集的数据利用信号相关性进行词语分割,获取单个词对应的惯性测量单元数据切片;对每个惯性测量单元数据切片依次进行降维、标准化、高通滤波和随机降采样的数据增强处理,获得每个惯性测量单元增强数据切片;将每个惯性测量单元增强数据切片输入至一训练好的人工神经网络模型,获得每个惯性测量单元增强数据切片的词语分类结果,组合获得语音的语义信息。
其中,所述人工神经网络模型通过已采集的惯性测量单元增强数据切片为输入,以每个惯性测量单元增强数据切片对应的词语分类结果为输出,通过最小化输出与惯性测量单元增强数据切片对应的词语分类结果真值的损失训练获得。
作为进一步的改进,所述的惯性测量单元采集的数据包括加速度计或加速度计和陀螺仪的x、y、z三轴数据及对应的时间戳。
作为进一步的改进,对惯性测量单元采集的数据利用信号相关性进行词语分割之前,还包括对惯性测量单元采集的数据进行降噪处理的步骤。
作为进一步的改进,所述降噪处理采用维纳滤波方法。
作为进一步的改进,所述惯性测量单元为加速度计或加速度计和陀螺仪,所述对惯性测量单元采集的数据利用信号相关性进行词语分割,获取单个词对应的惯性测量单元数据切片具体为:
分别选取加速度计信号幅度较强的两轴数据或加速度计和陀螺仪信号幅度最强轴的数据进行相乘,对相乘的结果过滤得到直流分量;
使用最大类间方差法确定直流分量值域上的分割阈值,计算该分割阈值与直流分量交点对应的采样时间;
在加速度计、陀螺仪降噪处理后的x、y、z三轴数据中每个交点对应的采样时间,向无语音对应的方向移动Fs/5个采样点作为词语分割点,其中Fs为惯性测量单元信号采样频率,根据词语分割点移除无语音对应的数据片段得到词语分割片段,获得加速度计三轴或加速度计和陀螺仪共六轴的词语分割数据片段。
作为进一步的改进,所述对每个惯性测量单元数据切片依次进行降维、标准化、高通滤波和随机降采样的数据增强处理具体为:
降维:使用降维的方法将加速度计、陀螺仪的x、y、z三轴每个惯性测量单元数据切片数据进行融合:
Figure BDA0003464449550000021
Figure BDA0003464449550000022
其中,||A||(t)为加速度计x、y、z三轴数据矢量和的模,||G||(t)为陀螺仪x、y、z三轴数据矢量和的模,amax(t)为加速度计信号最强轴的数据,gmax(t)为陀螺仪信号最强轴的数据,sign(·)为取符号的函数;
标准化:对降维后的
Figure BDA0003464449550000031
数据进行标准化处理,缩放到[0,1]之间,获取
Figure BDA0003464449550000032
Figure BDA0003464449550000033
或先对降维后的
Figure BDA0003464449550000034
按照时间戳进行拼接,对拼接后的数据进行标准化处理,获得标准化数据:
Figure BDA0003464449550000035
其中,interp(·)表示拼接操作,norm(·)表示标准化操作。
高通滤波和随机降采样:对标准化后的数据D(t)进行高通滤波,然后采用随机删除采样点的方法将数据降采样,获得惯性测量单元增强数据切片:
S(t)=DS(HPF(D(t)))
其中,HPF(·)表示高通滤波操作,DS(·)表示随机删除采样点操作。
作为进一步的改进,本发明所述的基于惯性测量单元的跨设备手机语音信息恢复方法,其特征是,人工神经网络模型输入的惯性测量单元增强数据切片的形式为数据矩阵或图片。所述图片为时频谱灰度图I=specgram(S(t))。其中S(t)为惯性测量单元增强数据切片的时域数据矩阵,specgram(·)表示时域数据转换为时频谱灰度图的过程。
作为进一步的改进,所述的人工神经网络模型为卷积神经网络分类模型。
本发明还公开一种的跨设备手机语音信息恢复系统,所述系统用于执行上述任一项所述方法,包括:
数据采集模块,用于在手机播放语音时,读取并保存手机内置惯性测量单元采集的数据;
数据处理模块,对惯性测量单元采集的数据利用信号相关性进行词语分割,获取单个词对应的惯性测量单元数据切片;对每个惯性测量单元数据切片依次进行降维、标准化、高通滤波和随机降采样的数据增强处理,获得每个惯性测量单元增强数据切片;
预训练人工神经网络模型:将每个惯性测量单元增强数据切片输入至一训练好的人工神经网络模型,获得每个惯性测量单元增强数据切片的词语分类结果,组合获得语音的语义信息。
本发明的有益效果是,本发明利用智能手机内置的惯性测量单元,使用传感器数据增强的方法,实现了一种惯性测量单元低采样率(200Hz)限制下的语音内容自动词语分割和语音信息恢复系统,并通过数据降维、高通滤波和随机降采样的数据增强方法减弱了不同型号手机设备间的差异,提高了基于惯性测量单元语音信息恢复方法的跨设备性能,能够大大增加未知设备语音信息恢复的准确率。
附图说明
图1是基于惯性测量单元的跨设备手机语音信息恢复方法系统框图;
图2是维纳滤波数据降噪效果图,其中(a)为加速度计z轴原始数据,(b)为加速度计z轴数据维纳滤波后的结果,(c)为陀螺仪y轴原始数据,(d)为陀螺仪y轴数据维纳滤波后的结果;
图3是词语分割过程示意图;
图4是Dense Block和DenseNet示意图;
图5是本方法在传感器不同采样率下的性能对比图;
图6是本方法在主扬声器和听筒的不同音量下的性能对比图;
图7是本方法在实际场景不同握持姿势下的性能对比图;
图8是本方法在跨设备条件下的性能表现图。
具体实施方式
下面根据附图详细说明本发明。
本发明基于惯性测量单元的跨设备手机语音信息恢复方法,包括以下步骤:
步骤一:手机语音信息恢复的数据采集。
当手机主扬声器或听筒扬声器播放如图1所示的通话等语音信息时,振动会经过手机内电路板或机体传导使得惯性测量单元振动,设置惯性测量单元采样率,读取并保存惯性测量单元采集的数据,其中,惯性测量单元为加速度计或加速度计和陀螺仪,优选为加速度计和陀螺仪,则采集的数据包括加速度计和陀螺仪各自的x、y、z三轴数据及对应的时间戳。
步骤二:惯性测量单元数据处理和训练。
该步骤是本发明的核心,分为以下子步骤:
1)对所采集的惯性测量单元数据进行降噪处理。
惯性测量单元读取的数据中不仅携带了语音相关的信号,还叠加了传感器内禀的白噪声。为了提高信噪比,同时削弱设备特性、增加设备无关性,对所采集的加速度计和陀螺仪的各轴数据使用维纳滤波进行降噪处理。进一步地,为解决手机惯性测量单元传感器不均匀采样问题,先结合时间戳信息使用线性插值方法将加速度计和陀螺仪的各轴数据重采样为均匀采样的数据,而后使用维纳滤波进行降噪处理,结果如图2所示。
2)对降噪后的数据利用加速度计和陀螺仪数据的相关性进行词语分割。
加速度计和陀螺仪同时对手机扬声器播放音频产生的振动信号进行采样,故两传感器的数据具有一定的相关性,同时两传感器的数据具有不同的内禀噪声和运动噪声分布。
利用以上特点,对数据进行词语分割具体包括以下步骤:
分别选取加速度计和陀螺仪信号幅度最强轴的数据用以进行词语分割。所述加速度计信号幅度最强的轴数据对应降噪后的信号记为
Figure BDA0003464449550000041
陀螺仪信号幅度最强的轴数据对应降噪后的信号记为
Figure BDA0003464449550000051
其中,max=x,y或z为信号幅度最强的轴向,Fs为惯性测量单元信号采样频率,fL为语音信号中频率f经过加速度计和陀螺仪采样后的混叠频率,
Figure BDA0003464449550000052
是语音信号中的频率为f的成分混叠后的信号,可以表示为:
Figure BDA0003464449550000053
Figure BDA0003464449550000054
公式(1)、公式(2)中,ka、kg为增益系数,t为时间,nwamax、nwgmax为信号中残留的白噪声,mamax、mgmax为高频运动噪声,nhamax为加速度计的三次谐波噪声。
Figure BDA0003464449550000055
Figure BDA0003464449550000056
相乘可得:
Figure BDA0003464449550000057
使用低通滤波器过滤公式(3)所得信号得到直流分量kakg/2,如图3所示。
使用改进的最大类间方差算法确定语音对应的数据片段的阈值。首先,选取直流分量kakg/2数据值域范围内的一点作为划分点,将信号分类为大于划分点和小于划分点的两类,计算两类的类间方差。然后,在信号值域上遍历,选取使得上述类间方差最大的划分点作为确定分割交点的分割阈值。
计算分割阈值与直流分量kakg/2交点对应的采样时间,然后在加速度计、陀螺仪降噪处理后的x、y、z三轴数据中,找到每个交点对应的采样时间并向无语音信号对应的方向移动若干个采样点作为词语分割点,确保分割数据片段的完整,优选地,一般移动Fs/5个采样点。根据词语分割点移除无语音对应的数据片段,得到图3所示的加速度计和陀螺仪共六个轴的词语分割数据片段。
3)对惯性测量单元数据切片进行数据增强。
已有的基于惯性测量单元的手机语音信息恢复方法,没有在增加跨设备性能上对数据进行增强处理。本发明中方法为了削弱数据中的设备特征,增强恢复方法的跨设备信息恢复性能,采用以下数据增强方法处理数据:
使用降维的方法将加速度计、陀螺仪经步骤(2)词语分割后的x、y、z三轴数据进行融合,以加速度计为例:
Figure BDA0003464449550000058
上式中,||A||(t)为加速度计x、y、z三轴数据矢量和的模,amax(t)为加速度计信号幅度最强的轴数据,sign(·)为取符号的函数。
同理,降维后的陀螺仪数据表示为:
Figure BDA0003464449550000061
上式中,||G||(t)为陀螺仪x、y、z三轴数据矢量和的模,gmax(t)为陀螺仪信号幅度最强的轴数据,sign(·)为取符号的函数。
通过对数据取模的方法进行降维,最大限度地利用了加速度计和陀螺仪各个轴上的数据信息,消除了传感器不同轴间的能量差异造成的影响。增加能量最强轴的数据符号,可以防止数据频域上的失真。
对降维后的
Figure BDA0003464449550000062
按照时间戳进行拼接,对拼接后的数据进行标准化处理,缩放到[0,1]之间,获取到的数据记为:
Figure BDA0003464449550000063
公式(5)中,interp(·)表示拼接操作,norm(·)表示标准化操作。根据奈奎斯特采样定理可知,拼接后的数据等效采样率由单传感器的Fs增加到了2Fs,待恢复语音信息的信道带宽相应由Fs/2增加到了Fs,语音信息带宽的增加有利于语音语义的分类。对数据进行标准化处理,可以消除手机扬声器播放的音频信号强度、扬声器功率、播放音量设置的影响。
对标准化后的数据D(t)进行高通滤波,然后采用随机删除采样点的方法对数据进行降采样,记为:
S(t)=DS(HPF(D(t))) (6)
公式(6)中,HPF(·)表示高通滤波操作,DS(·)表示随机删除采样点操作。在标准化后的数据D(t)等效采样频率为2Fs时,优选地,高通滤波截止频率采用0.4Fs,随机降采样至0.975Fs。通过高通滤波处理,去除数据中0.4Fs以下的运动噪声和从高频段混叠到低频段的1.6Fs以上的噪声。随机删除采样点的方法虽然小幅降低了语音信息信道的带宽,但是消除了不同设备惯性传感器采样率的细微差别,增强高频失真并掩盖设备多样性带来的信号原始特征。同时随机采样点删除带来的采样抖动能够降低高频噪声的响应,而对带内信号几乎没有影响。
4)训练人工神经网络模型。
该步骤运用人工神经网络算法进行训练,得到用于分类语音信息的人工神经网络模型,具体包括以下步骤:
将经过步骤(3)数据增强的数据切片转换成时频谱灰度图:
I=specgram(S(t)) (7)
其中,specgram(·)表示时域数据转换为时频谱灰度图的过程;
优选地,将所有数据I随机抽取80%作为训练集,另外20%作为验证集;
构建一人工神经网络模型,以数据切片的时频谱灰度图作为输入,词语分类的结果作为输出,通过最小化输出与标签的损失进行训练,获得训练好的人工神经网络模型。
所述人工神经网络模型可以为常用的卷积神经网络,例如VGG、GoogLeNet、ResNet、DenseNet等。相较于其他的卷积神经网络,DenseNet的基本模块Dense Block的每一个卷积层的输入都来自模块内前面所有卷积层的输出,解决了普通神经网络的梯度消失问题,加强了特征的传递和利用,减少了网络的参数总量。
示例性地,图4所示为本发明一实施例使用的DenseNet的网络结构和其基本模块Dense Block。Dense Block由5层相连的卷积层构成,DenseNet由卷积层(Conv)、DenseBlock、卷积层和池化层(Conv+Pooling)、Dense Block、池化层和全连接层(Pooling+Linear)前后连接构成。输入数据(Input)为数据切片的时频谱灰度图,输出结果为词语分类的结果(Classes)。
模型使用交叉熵损失函数和反向传播算法进行训练,使用带有NesterovMomentum的SGD优化器作为训练优化器,同时在全连接层设置丢失率为0.3的Dropout,使用训练集和验证集训练基于DenseNet的人工神经网络分类模型。
步骤三:手机语音信息恢复。
在实际手机语音信息恢复应用中,利用模型的跨设备语音信息恢复特性,对采集训练数据所使用的同一型号或不同型号的手机,使用步骤一和步骤二中所述方法获取经过数据降噪、词语分割和数据增强后的数据切片输入步骤二中所述的训练得到的人工神经网络模型进行词语分类,获取待恢复语音的语义信息。
为了验证本发明的鲁棒性和跨设备性能,在低采样率、不同音量、不同使用场景以及跨设备条件下部署了本发明。
图5为本发明在不同的惯性测量单元传感器低采样率条件下语音信息恢复的准确率,展示了本发明在极低采样率下的性能。可见,在惯性测量单元分别以200Hz、100H、50Hz、40Hz的低采样率工作时,语音信息恢复的准确率均能达到接近或超过50%,其中200Hz的情况下信息恢复准确率达到了73.8%。这表明,与已有方法相比,本发明能够在200Hz低采样率条件下准确恢复语音信息,并且对更低的采样率具有较好的鲁棒性。
图6为本发明在听筒和主扬声器的不同音量条件下语音信息恢复的准确率,展示了本发明及系统在不同播放音量下的性能。可见,在智能手机两个扬声器100%和80%的音量下分别播放语音,本发明能够获得60%以上的信息恢复准确率,最高能够达到77.9%。在较低的扬声器音量下,本发明仍能维持50%左右的准确率,这表明了本发明在扬声器不同播放音量下能够较好地去除噪声、提高信噪比,具有对于播放音量的鲁棒性。
图7为本发明在不同真实使用场景下的语音信息恢复准确率,展示了本发明在不同真实场景下的性能。通过真实的通话场景测试本发明在实际应用中的端到端性能,桌面场景表示将手机静置于桌面通话,坐立表示使用坐姿手持手机通话,走动表示走动的同时手持手机通话,Top1、Top3和Top5三个系列分别表示本发明语音信息识别的概率最高的1、3、5个结果中含有正确目标的概率。可见,在三种场景下,本发明均能达到60%以上的信息恢复准确率,并且Top5的准确率都超过了90%,这表明了本发明在真实场景下对于手持抖动和大幅度运动的鲁棒性。
图8为本发明在跨设备条件下的语音信息恢复准确率,展示了本发明在未知设备上应用的性能。使用不同品牌的9种型号的智能手机作为跨设备性能测试手机,图表中三个系列分别表示使用本发明利用Huawei P40、Samsung Galaxy S8和混合两者数据共同训练得到的模型的跨设备语音信息恢复准确率。与已有发明最高26%的跨设备准确率相比,本发明达到了最高49.8%,平均33.1%的跨设备恢复准确率。可见,本发明通过轴间融合数据降维、降采样等处理,有效降低了不同设备间的差异,提高了跨设备语音信息恢复能力。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。

Claims (9)

1.一种基于惯性测量单元的跨设备手机语音信息恢复方法,其特征在于,包括:
在手机播放语音时,读取并保存手机内置惯性测量单元采集的数据;所述惯性测量单元为加速度计或加速度计和陀螺仪。
对惯性测量单元采集的数据利用信号相关性进行词语分割,获取单个词对应的惯性测量单元数据切片;对每个惯性测量单元数据切片依次进行降维、标准化、高通滤波和随机降采样的数据增强处理,获得每个惯性测量单元增强数据切片;将每个惯性测量单元增强数据切片输入至一训练好的人工神经网络模型,获得每个惯性测量单元增强数据切片的词语分类结果,组合所有惯性测量单元增强数据切片的词语分类结果获得语音的语义信息。
其中,所述人工神经网络模型以采集的惯性测量单元增强数据切片为输入,以每个惯性测量单元增强数据切片对应的词语分类结果为输出,通过最小化输出与惯性测量单元增强数据切片对应的词语分类结果真值的损失训练获得。
2.根据权利要求1所述的基于惯性测量单元的跨设备手机语音信息恢复方法,其特征是,所述的惯性测量单元采集的数据包括加速度计或加速度计和陀螺仪的x、y、z轴数据及对应的时间戳。
3.根据权利要求1所述的基于惯性测量单元的跨设备手机语音信息恢复方法,其特征是,对惯性测量单元采集的数据利用信号相关性进行词语分割之前,还包括对惯性测量单元采集的数据进行降噪处理的步骤。
4.根据权利要求3所述的基于惯性测量单元的跨设备手机语音信息恢复方法,其特征是,所述降噪处理采用维纳滤波方法。
5.根据权利要求1所述的基于惯性测量单元的跨设备手机语音信息恢复方法,其特征是,所述惯性测量单元为加速度计或加速度计和陀螺仪,所述对惯性测量单元采集的数据利用信号相关性进行词语分割,获取单个词对应的惯性测量单元数据切片具体为:
分别选取加速度计信号幅度最强的两轴数据或加速度计和陀螺仪信号幅度最强轴的数据进行相乘,对相乘的结果过滤得到直流分量;
使用最大类间方差法确定直流分量值域上的分割阈值,计算所述分割阈值与直流分量交点对应的采样时间;
在加速度计、陀螺仪降噪后的x、y、z轴数据中,找到每个交点对应的采样时间,并向无语音对应的方向移动Fs/5个采样点作为词语分割点,其中Fs为惯性测量单元信号采样频率,根据词语分割点移除无语音对应的数据片段得到词语分割片段,获得加速度计三轴或加速度计和陀螺仪共六轴的词语分割数据片段。
6.根据权利要求5所述的基于惯性测量单元的跨设备手机语音信息恢复方法,其特征是,所述对每个惯性测量单元数据切片依次进行降维、标准化、高通滤波和随机降采样的数据增强处理具体为:
降维:使用降维的方法将加速度计、陀螺仪的x、y、z轴每个惯性测量单元数据切片数据进行融合:
Figure FDA0003464449540000022
Figure FDA0003464449540000023
其中,||A||(t)为加速度计x、y、z三轴数据矢量和的模,||G||(t)为陀螺仪x、y、z三轴数据矢量和的模,amax(t)为加速度计信号最强轴的数据,gmax(t)为陀螺仪信号最强轴的数据,sign(·)为取符号的函数;
标准化:对降维后的
Figure FDA0003464449540000024
数据进行标准化处理,缩放到[0,1]之间,获取
Figure FDA0003464449540000026
Figure FDA0003464449540000025
或先对降维后的
Figure FDA0003464449540000027
按照时间戳进行拼接,对拼接后的数据进行标准化处理,获得标准化数据:
Figure FDA0003464449540000021
其中,interp(·)表示拼接操作,norm(·)表示标准化操作。
高通滤波和随机降采样:对标准化后的数据D(t)进行高通滤波,然后采用随机删除采样点的方法将数据降采样,获得惯性测量单元增强数据切片:
S(t)=DS(HPF(D(t)))
其中,HPF(·)表示高通滤波操作,DS(·)表示随机删除采样点操作。
7.根据权利要求1所述的基于惯性测量单元的跨设备手机语音信息恢复方法,其特征是,人工神经网络模型输入的惯性测量单元增强数据切片的形式为数据矩阵或图片。所述图片为时频谱灰度图I=specgram(S(t))。其中S(t)为惯性测量单元增强数据切片的时域数据矩阵,specgram(·)表示时域数据转换为时频谱灰度图的过程。
8.根据权利要求1所述的基于惯性测量单元的跨设备手机语音信息恢复方法,其特征是,所述的人工神经网络模型为卷积神经网络分类模型。
9.一种的跨设备手机语音信息恢复系统,其特征是,所述系统用于执行权利要求1-8任一项所述方法,包括:
数据采集模块,用于在手机播放语音时,读取并保存手机内置惯性测量单元采集的数据;数据处理模块,对惯性测量单元采集的数据利用信号相关性进行词语分割,获取单个词对应的惯性测量单元数据切片;用于对每个惯性测量单元数据切片依次进行降维、标准化、高通滤波和随机降采样的数据增强处理,获得每个惯性测量单元增强数据切片;
预训练人工神经网络模型:用于依据每个惯性测量单元增强数据切片,输出获得每个惯性测量单元增强数据切片的词语分类结果,并组合获得语音的语义信息。
CN202210027042.9A 2022-01-11 2022-01-11 基于惯性测量单元的跨设备手机语音信息恢复方法及系统 Active CN114598767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210027042.9A CN114598767B (zh) 2022-01-11 2022-01-11 基于惯性测量单元的跨设备手机语音信息恢复方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210027042.9A CN114598767B (zh) 2022-01-11 2022-01-11 基于惯性测量单元的跨设备手机语音信息恢复方法及系统

Publications (2)

Publication Number Publication Date
CN114598767A true CN114598767A (zh) 2022-06-07
CN114598767B CN114598767B (zh) 2023-04-07

Family

ID=81803683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210027042.9A Active CN114598767B (zh) 2022-01-11 2022-01-11 基于惯性测量单元的跨设备手机语音信息恢复方法及系统

Country Status (1)

Country Link
CN (1) CN114598767B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750426A (zh) * 2021-02-01 2021-05-04 福州大学 移动终端语音分析系统
WO2021208287A1 (zh) * 2020-04-14 2021-10-21 深圳壹账通智能科技有限公司 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021208287A1 (zh) * 2020-04-14 2021-10-21 深圳壹账通智能科技有限公司 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN112750426A (zh) * 2021-02-01 2021-05-04 福州大学 移动终端语音分析系统

Also Published As

Publication number Publication date
CN114598767B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN112949708B (zh) 情绪识别方法、装置、计算机设备和存储介质
CN103391347B (zh) 一种自动录音的方法及装置
CN110600017A (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
KR102367660B1 (ko) 마이크로폰 어레이 스피치 향상 기법
CN106463106B (zh) 用于音频接收的风噪声降低
CN113516990B (zh) 一种语音增强方法、训练神经网络的方法以及相关设备
CN112863538B (zh) 一种基于视听网络的多模态语音分离方法及装置
CN109887494B (zh) 重构语音信号的方法和装置
EP4207195A1 (en) Speech separation method, electronic device, chip and computer-readable storage medium
CN114387977B (zh) 基于双域深度特征和注意力机制的语音裁剪痕迹定位方法
CN112289325A (zh) 一种声纹识别方法及装置
WO2016174491A1 (en) Microphone array noise suppression using noise field isotropy estimation
CN111176465A (zh) 使用状态识别方法、装置、存储介质与电子设备
CN107690034A (zh) 基于环境背景声音的智能情景模式切换系统及方法
CN115472153A (zh) 语音增强系统、方法、装置及设备
CN115588437B (zh) 语音增强方法、装置、设备和存储介质
CN117746874A (zh) 一种音频数据处理方法、装置以及可读存储介质
CN112750426B (zh) 移动终端语音分析系统
CN114598767B (zh) 基于惯性测量单元的跨设备手机语音信息恢复方法及系统
US11302308B2 (en) Synthetic narrowband data generation for narrowband automatic speech recognition systems
CN112562712A (zh) 一种录音数据处理方法、系统、电子设备及存储介质
CN117237359A (zh) 传送带撕裂检测方法、装置、存储介质和电子设备
CN113327589B (zh) 一种基于姿态传感器的语音活动检测方法
CN113255800B (zh) 基于音视频的鲁棒情感建模系统
CN116631380A (zh) 一种音视频多模态的关键词唤醒方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant