CN114598767A

CN114598767A - 基于惯性测量单元的跨设备手机语音信息恢复方法及系统

Info

Publication number: CN114598767A
Application number: CN202210027042.9A
Authority: CN
Inventors: 刘亚杰; 李一敏; 高铭; 陈奕可; 韩劲松; 巴钟杰; 许贤; 任奎
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-06-07
Anticipated expiration: 2042-01-11
Also published as: CN114598767B

Abstract

本发明公开了一种基于惯性测量单元的跨设备手机语音信息恢复方法及系统，该方法通过在智能手机中读取惯性测量单元在手机因扬声器播放语音而振动时的数据。利用惯性测量单元读出的数据和信号处理技术，实现能够跨设备的手机语音信息恢复方法。系统包括数据采集模块、数据处理模块和预训练人工神经网络模型。有别于之前的基于惯性测量单元恢复手机语音的方法，本发明所提出的方法能够实现在200Hz的低采样率限制下的语音信息恢复，同时消除了设备特征，实现了跨设备语音信息恢复功能。

Description

基于惯性测量单元的跨设备手机语音信息恢复方法及系统

技术领域

本发明涉及一种基于惯性测量单元(Inertial Measurement Units，IMU)的跨设备手机语音信息恢复方法及系统。

背景技术

智能手机因其丰富的功能、多样的交互和优越的便携性，得到了广泛的普及和应用。智能手机中诸如触摸屏、麦克风、摄像头、惯性测量单元等传感器为多样的人机交互提供了硬件基础，让软件开发者能够使用这些传感器构建多媒介、多形式的应用。由于手机自带扬声器播放音频时产生的振动能够通过机体传导至惯性测量单元传感器，通过使用惯性测量单元传感器中的加速度计和陀螺仪采集包含语音信息的振动信号，再使用数据处理和神经网络技术能够恢复扬声器播放的原始语音的语义信息。这种语音信息恢复技术可以应用于跨模态语音识别、校验和语音转文字领域。

现有的基于惯性测量单元进行手机语音信息恢复的方法，利用手机扬声器播放语音时加速度计和陀螺仪传感器的数据，使用人工神经网络等技术能够达到最高81％的语音识别准确率。但这些方法都存在如下问题：(1)已有方法使用惯性测量单元传感器能够达到的最高采样率(约500Hz)采集数据，在业界限制惯性测量单元的最高采样率为200Hz后的语音信息恢复能力不明；(2)已有方法未提升语音信息恢复模型跨设备性能，使用惯性测量单元对未知设备进行语音信息恢复的能力较差。

本发明提出一种基于惯性测量单元的跨设备手机语音信息恢复方法及系统，能够在传感器低采样率限制下完成语音信息恢复，并有效提升了语音信息恢复模型的跨设备性能。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于惯性测量单元的跨设备手机语音信息恢复方法及系统。本发明是通过以下技术方案来实现的：

本发明公开了一种基于惯性测量单元的跨设备手机语音信息恢复方法，其他特征在于，包括：

在手机播放语音时，读取并保存手机内置惯性测量单元采集的数据；所述惯性测量单元为加速度计或加速度计和陀螺仪。

对惯性测量单元采集的数据利用信号相关性进行词语分割，获取单个词对应的惯性测量单元数据切片；对每个惯性测量单元数据切片依次进行降维、标准化、高通滤波和随机降采样的数据增强处理，获得每个惯性测量单元增强数据切片；将每个惯性测量单元增强数据切片输入至一训练好的人工神经网络模型，获得每个惯性测量单元增强数据切片的词语分类结果，组合获得语音的语义信息。

其中，所述人工神经网络模型通过已采集的惯性测量单元增强数据切片为输入，以每个惯性测量单元增强数据切片对应的词语分类结果为输出，通过最小化输出与惯性测量单元增强数据切片对应的词语分类结果真值的损失训练获得。

作为进一步的改进，所述的惯性测量单元采集的数据包括加速度计或加速度计和陀螺仪的x、y、z三轴数据及对应的时间戳。

作为进一步的改进，对惯性测量单元采集的数据利用信号相关性进行词语分割之前，还包括对惯性测量单元采集的数据进行降噪处理的步骤。

作为进一步的改进，所述降噪处理采用维纳滤波方法。

作为进一步的改进，所述惯性测量单元为加速度计或加速度计和陀螺仪，所述对惯性测量单元采集的数据利用信号相关性进行词语分割，获取单个词对应的惯性测量单元数据切片具体为：

分别选取加速度计信号幅度较强的两轴数据或加速度计和陀螺仪信号幅度最强轴的数据进行相乘，对相乘的结果过滤得到直流分量；

使用最大类间方差法确定直流分量值域上的分割阈值，计算该分割阈值与直流分量交点对应的采样时间；

在加速度计、陀螺仪降噪处理后的x、y、z三轴数据中每个交点对应的采样时间，向无语音对应的方向移动F_s/5个采样点作为词语分割点，其中F_s为惯性测量单元信号采样频率，根据词语分割点移除无语音对应的数据片段得到词语分割片段，获得加速度计三轴或加速度计和陀螺仪共六轴的词语分割数据片段。

作为进一步的改进，所述对每个惯性测量单元数据切片依次进行降维、标准化、高通滤波和随机降采样的数据增强处理具体为：

降维：使用降维的方法将加速度计、陀螺仪的x、y、z三轴每个惯性测量单元数据切片数据进行融合：

其中，||A||(t)为加速度计x、y、z三轴数据矢量和的模，||G||(t)为陀螺仪x、y、z三轴数据矢量和的模，a_max(t)为加速度计信号最强轴的数据，g_max(t)为陀螺仪信号最强轴的数据，sign(·)为取符号的函数；

标准化：对降维后的

数据进行标准化处理，缩放到[0,1]之间，获取

或先对降维后的

按照时间戳进行拼接，对拼接后的数据进行标准化处理，获得标准化数据：

其中，interp(·)表示拼接操作，norm(·)表示标准化操作。

高通滤波和随机降采样：对标准化后的数据D(t)进行高通滤波，然后采用随机删除采样点的方法将数据降采样，获得惯性测量单元增强数据切片：

S(t)＝DS(HPF(D(t)))

其中，HPF(·)表示高通滤波操作，DS(·)表示随机删除采样点操作。

作为进一步的改进，本发明所述的基于惯性测量单元的跨设备手机语音信息恢复方法，其特征是，人工神经网络模型输入的惯性测量单元增强数据切片的形式为数据矩阵或图片。所述图片为时频谱灰度图I＝specgram(S(t))。其中S(t)为惯性测量单元增强数据切片的时域数据矩阵，specgram(·)表示时域数据转换为时频谱灰度图的过程。

作为进一步的改进，所述的人工神经网络模型为卷积神经网络分类模型。

本发明还公开一种的跨设备手机语音信息恢复系统，所述系统用于执行上述任一项所述方法，包括：

数据采集模块，用于在手机播放语音时，读取并保存手机内置惯性测量单元采集的数据；

数据处理模块，对惯性测量单元采集的数据利用信号相关性进行词语分割，获取单个词对应的惯性测量单元数据切片；对每个惯性测量单元数据切片依次进行降维、标准化、高通滤波和随机降采样的数据增强处理，获得每个惯性测量单元增强数据切片；

预训练人工神经网络模型：将每个惯性测量单元增强数据切片输入至一训练好的人工神经网络模型，获得每个惯性测量单元增强数据切片的词语分类结果，组合获得语音的语义信息。

本发明的有益效果是，本发明利用智能手机内置的惯性测量单元，使用传感器数据增强的方法，实现了一种惯性测量单元低采样率(200Hz)限制下的语音内容自动词语分割和语音信息恢复系统，并通过数据降维、高通滤波和随机降采样的数据增强方法减弱了不同型号手机设备间的差异，提高了基于惯性测量单元语音信息恢复方法的跨设备性能，能够大大增加未知设备语音信息恢复的准确率。

附图说明

图1是基于惯性测量单元的跨设备手机语音信息恢复方法系统框图；

图2是维纳滤波数据降噪效果图，其中(a)为加速度计z轴原始数据，(b)为加速度计z轴数据维纳滤波后的结果，(c)为陀螺仪y轴原始数据，(d)为陀螺仪y轴数据维纳滤波后的结果；

图3是词语分割过程示意图；

图4是Dense Block和DenseNet示意图；

图5是本方法在传感器不同采样率下的性能对比图；

图6是本方法在主扬声器和听筒的不同音量下的性能对比图；

图7是本方法在实际场景不同握持姿势下的性能对比图；

图8是本方法在跨设备条件下的性能表现图。

具体实施方式

下面根据附图详细说明本发明。

本发明基于惯性测量单元的跨设备手机语音信息恢复方法，包括以下步骤：

步骤一：手机语音信息恢复的数据采集。

当手机主扬声器或听筒扬声器播放如图1所示的通话等语音信息时，振动会经过手机内电路板或机体传导使得惯性测量单元振动，设置惯性测量单元采样率，读取并保存惯性测量单元采集的数据，其中，惯性测量单元为加速度计或加速度计和陀螺仪，优选为加速度计和陀螺仪，则采集的数据包括加速度计和陀螺仪各自的x、y、z三轴数据及对应的时间戳。

步骤二：惯性测量单元数据处理和训练。

该步骤是本发明的核心，分为以下子步骤：

1)对所采集的惯性测量单元数据进行降噪处理。

惯性测量单元读取的数据中不仅携带了语音相关的信号，还叠加了传感器内禀的白噪声。为了提高信噪比，同时削弱设备特性、增加设备无关性，对所采集的加速度计和陀螺仪的各轴数据使用维纳滤波进行降噪处理。进一步地，为解决手机惯性测量单元传感器不均匀采样问题，先结合时间戳信息使用线性插值方法将加速度计和陀螺仪的各轴数据重采样为均匀采样的数据，而后使用维纳滤波进行降噪处理，结果如图2所示。

2)对降噪后的数据利用加速度计和陀螺仪数据的相关性进行词语分割。

加速度计和陀螺仪同时对手机扬声器播放音频产生的振动信号进行采样，故两传感器的数据具有一定的相关性，同时两传感器的数据具有不同的内禀噪声和运动噪声分布。

利用以上特点，对数据进行词语分割具体包括以下步骤：

分别选取加速度计和陀螺仪信号幅度最强轴的数据用以进行词语分割。所述加速度计信号幅度最强的轴数据对应降噪后的信号记为

陀螺仪信号幅度最强的轴数据对应降噪后的信号记为

其中，max＝x,y或z为信号幅度最强的轴向，F_s为惯性测量单元信号采样频率，f_L为语音信号中频率f经过加速度计和陀螺仪采样后的混叠频率，

是语音信号中的频率为f的成分混叠后的信号，可以表示为：

公式(1)、公式(2)中，k_a、k_g为增益系数，t为时间，n_wamax、n_wgmax为信号中残留的白噪声，m_amax、m_gmax为高频运动噪声，n_hamax为加速度计的三次谐波噪声。

将

和

相乘可得：

使用低通滤波器过滤公式(3)所得信号得到直流分量k_ak_g/2，如图3所示。

使用改进的最大类间方差算法确定语音对应的数据片段的阈值。首先，选取直流分量k_ak_g/2数据值域范围内的一点作为划分点，将信号分类为大于划分点和小于划分点的两类，计算两类的类间方差。然后，在信号值域上遍历，选取使得上述类间方差最大的划分点作为确定分割交点的分割阈值。

计算分割阈值与直流分量k_ak_g/2交点对应的采样时间，然后在加速度计、陀螺仪降噪处理后的x、y、z三轴数据中，找到每个交点对应的采样时间并向无语音信号对应的方向移动若干个采样点作为词语分割点，确保分割数据片段的完整，优选地，一般移动F_s/5个采样点。根据词语分割点移除无语音对应的数据片段，得到图3所示的加速度计和陀螺仪共六个轴的词语分割数据片段。

3)对惯性测量单元数据切片进行数据增强。

已有的基于惯性测量单元的手机语音信息恢复方法，没有在增加跨设备性能上对数据进行增强处理。本发明中方法为了削弱数据中的设备特征，增强恢复方法的跨设备信息恢复性能，采用以下数据增强方法处理数据：

使用降维的方法将加速度计、陀螺仪经步骤(2)词语分割后的x、y、z三轴数据进行融合，以加速度计为例：

上式中，||A||(t)为加速度计x、y、z三轴数据矢量和的模，a_max(t)为加速度计信号幅度最强的轴数据，sign(·)为取符号的函数。

同理，降维后的陀螺仪数据表示为：

上式中，||G||(t)为陀螺仪x、y、z三轴数据矢量和的模，g_max(t)为陀螺仪信号幅度最强的轴数据，sign(·)为取符号的函数。

通过对数据取模的方法进行降维，最大限度地利用了加速度计和陀螺仪各个轴上的数据信息，消除了传感器不同轴间的能量差异造成的影响。增加能量最强轴的数据符号，可以防止数据频域上的失真。

对降维后的

按照时间戳进行拼接，对拼接后的数据进行标准化处理，缩放到[0,1]之间，获取到的数据记为：

公式(5)中，interp(·)表示拼接操作，norm(·)表示标准化操作。根据奈奎斯特采样定理可知，拼接后的数据等效采样率由单传感器的F_s增加到了2F_s，待恢复语音信息的信道带宽相应由F_s/2增加到了F_s，语音信息带宽的增加有利于语音语义的分类。对数据进行标准化处理，可以消除手机扬声器播放的音频信号强度、扬声器功率、播放音量设置的影响。

对标准化后的数据D(t)进行高通滤波，然后采用随机删除采样点的方法对数据进行降采样，记为：

S(t)＝DS(HPF(D(t))) (6)

公式(6)中，HPF(·)表示高通滤波操作，DS(·)表示随机删除采样点操作。在标准化后的数据D(t)等效采样频率为2F_s时，优选地，高通滤波截止频率采用0.4F_s，随机降采样至0.975F_s。通过高通滤波处理，去除数据中0.4F_s以下的运动噪声和从高频段混叠到低频段的1.6Fs以上的噪声。随机删除采样点的方法虽然小幅降低了语音信息信道的带宽，但是消除了不同设备惯性传感器采样率的细微差别，增强高频失真并掩盖设备多样性带来的信号原始特征。同时随机采样点删除带来的采样抖动能够降低高频噪声的响应，而对带内信号几乎没有影响。

4)训练人工神经网络模型。

该步骤运用人工神经网络算法进行训练，得到用于分类语音信息的人工神经网络模型，具体包括以下步骤：

将经过步骤(3)数据增强的数据切片转换成时频谱灰度图：

I＝specgram(S(t)) (7)

其中，specgram(·)表示时域数据转换为时频谱灰度图的过程；

优选地，将所有数据I随机抽取80％作为训练集，另外20％作为验证集；

构建一人工神经网络模型，以数据切片的时频谱灰度图作为输入，词语分类的结果作为输出，通过最小化输出与标签的损失进行训练，获得训练好的人工神经网络模型。

所述人工神经网络模型可以为常用的卷积神经网络，例如VGG、GoogLeNet、ResNet、DenseNet等。相较于其他的卷积神经网络，DenseNet的基本模块Dense Block的每一个卷积层的输入都来自模块内前面所有卷积层的输出，解决了普通神经网络的梯度消失问题，加强了特征的传递和利用，减少了网络的参数总量。

示例性地，图4所示为本发明一实施例使用的DenseNet的网络结构和其基本模块Dense Block。Dense Block由5层相连的卷积层构成，DenseNet由卷积层(Conv)、DenseBlock、卷积层和池化层(Conv+Pooling)、Dense Block、池化层和全连接层(Pooling+Linear)前后连接构成。输入数据(Input)为数据切片的时频谱灰度图，输出结果为词语分类的结果(Classes)。

模型使用交叉熵损失函数和反向传播算法进行训练，使用带有NesterovMomentum的SGD优化器作为训练优化器，同时在全连接层设置丢失率为0.3的Dropout，使用训练集和验证集训练基于DenseNet的人工神经网络分类模型。

步骤三：手机语音信息恢复。

在实际手机语音信息恢复应用中，利用模型的跨设备语音信息恢复特性，对采集训练数据所使用的同一型号或不同型号的手机，使用步骤一和步骤二中所述方法获取经过数据降噪、词语分割和数据增强后的数据切片输入步骤二中所述的训练得到的人工神经网络模型进行词语分类，获取待恢复语音的语义信息。

为了验证本发明的鲁棒性和跨设备性能，在低采样率、不同音量、不同使用场景以及跨设备条件下部署了本发明。

图5为本发明在不同的惯性测量单元传感器低采样率条件下语音信息恢复的准确率，展示了本发明在极低采样率下的性能。可见，在惯性测量单元分别以200Hz、100H、50Hz、40Hz的低采样率工作时，语音信息恢复的准确率均能达到接近或超过50％，其中200Hz的情况下信息恢复准确率达到了73.8％。这表明，与已有方法相比，本发明能够在200Hz低采样率条件下准确恢复语音信息，并且对更低的采样率具有较好的鲁棒性。

图6为本发明在听筒和主扬声器的不同音量条件下语音信息恢复的准确率，展示了本发明及系统在不同播放音量下的性能。可见，在智能手机两个扬声器100％和80％的音量下分别播放语音，本发明能够获得60％以上的信息恢复准确率，最高能够达到77.9％。在较低的扬声器音量下，本发明仍能维持50％左右的准确率，这表明了本发明在扬声器不同播放音量下能够较好地去除噪声、提高信噪比，具有对于播放音量的鲁棒性。

图7为本发明在不同真实使用场景下的语音信息恢复准确率，展示了本发明在不同真实场景下的性能。通过真实的通话场景测试本发明在实际应用中的端到端性能，桌面场景表示将手机静置于桌面通话，坐立表示使用坐姿手持手机通话，走动表示走动的同时手持手机通话，Top1、Top3和Top5三个系列分别表示本发明语音信息识别的概率最高的1、3、5个结果中含有正确目标的概率。可见，在三种场景下，本发明均能达到60％以上的信息恢复准确率，并且Top5的准确率都超过了90％，这表明了本发明在真实场景下对于手持抖动和大幅度运动的鲁棒性。

图8为本发明在跨设备条件下的语音信息恢复准确率，展示了本发明在未知设备上应用的性能。使用不同品牌的9种型号的智能手机作为跨设备性能测试手机，图表中三个系列分别表示使用本发明利用Huawei P40、Samsung Galaxy S8和混合两者数据共同训练得到的模型的跨设备语音信息恢复准确率。与已有发明最高26％的跨设备准确率相比，本发明达到了最高49.8％，平均33.1％的跨设备恢复准确率。可见，本发明通过轴间融合数据降维、降采样等处理，有效降低了不同设备间的差异，提高了跨设备语音信息恢复能力。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。

Claims

1.一种基于惯性测量单元的跨设备手机语音信息恢复方法，其特征在于，包括：

对惯性测量单元采集的数据利用信号相关性进行词语分割，获取单个词对应的惯性测量单元数据切片；对每个惯性测量单元数据切片依次进行降维、标准化、高通滤波和随机降采样的数据增强处理，获得每个惯性测量单元增强数据切片；将每个惯性测量单元增强数据切片输入至一训练好的人工神经网络模型，获得每个惯性测量单元增强数据切片的词语分类结果，组合所有惯性测量单元增强数据切片的词语分类结果获得语音的语义信息。

其中，所述人工神经网络模型以采集的惯性测量单元增强数据切片为输入，以每个惯性测量单元增强数据切片对应的词语分类结果为输出，通过最小化输出与惯性测量单元增强数据切片对应的词语分类结果真值的损失训练获得。

2.根据权利要求1所述的基于惯性测量单元的跨设备手机语音信息恢复方法，其特征是，所述的惯性测量单元采集的数据包括加速度计或加速度计和陀螺仪的x、y、z轴数据及对应的时间戳。

3.根据权利要求1所述的基于惯性测量单元的跨设备手机语音信息恢复方法，其特征是，对惯性测量单元采集的数据利用信号相关性进行词语分割之前，还包括对惯性测量单元采集的数据进行降噪处理的步骤。

4.根据权利要求3所述的基于惯性测量单元的跨设备手机语音信息恢复方法，其特征是，所述降噪处理采用维纳滤波方法。

5.根据权利要求1所述的基于惯性测量单元的跨设备手机语音信息恢复方法，其特征是，所述惯性测量单元为加速度计或加速度计和陀螺仪，所述对惯性测量单元采集的数据利用信号相关性进行词语分割，获取单个词对应的惯性测量单元数据切片具体为：

分别选取加速度计信号幅度最强的两轴数据或加速度计和陀螺仪信号幅度最强轴的数据进行相乘，对相乘的结果过滤得到直流分量；

使用最大类间方差法确定直流分量值域上的分割阈值，计算所述分割阈值与直流分量交点对应的采样时间；

在加速度计、陀螺仪降噪后的x、y、z轴数据中，找到每个交点对应的采样时间，并向无语音对应的方向移动F_s/5个采样点作为词语分割点，其中F_s为惯性测量单元信号采样频率，根据词语分割点移除无语音对应的数据片段得到词语分割片段，获得加速度计三轴或加速度计和陀螺仪共六轴的词语分割数据片段。

6.根据权利要求5所述的基于惯性测量单元的跨设备手机语音信息恢复方法，其特征是，所述对每个惯性测量单元数据切片依次进行降维、标准化、高通滤波和随机降采样的数据增强处理具体为：

降维：使用降维的方法将加速度计、陀螺仪的x、y、z轴每个惯性测量单元数据切片数据进行融合：

标准化：对降维后的

数据进行标准化处理，缩放到[0，1]之间，获取

或先对降维后的

其中，interp(·)表示拼接操作，norm(·)表示标准化操作。

S(t)＝DS(HPF(D(t)))

7.根据权利要求1所述的基于惯性测量单元的跨设备手机语音信息恢复方法，其特征是，人工神经网络模型输入的惯性测量单元增强数据切片的形式为数据矩阵或图片。所述图片为时频谱灰度图I＝specgram(S(t))。其中S(t)为惯性测量单元增强数据切片的时域数据矩阵，specgram(·)表示时域数据转换为时频谱灰度图的过程。

8.根据权利要求1所述的基于惯性测量单元的跨设备手机语音信息恢复方法，其特征是，所述的人工神经网络模型为卷积神经网络分类模型。

9.一种的跨设备手机语音信息恢复系统，其特征是，所述系统用于执行权利要求1-8任一项所述方法，包括：

数据采集模块，用于在手机播放语音时，读取并保存手机内置惯性测量单元采集的数据；数据处理模块，对惯性测量单元采集的数据利用信号相关性进行词语分割，获取单个词对应的惯性测量单元数据切片；用于对每个惯性测量单元数据切片依次进行降维、标准化、高通滤波和随机降采样的数据增强处理，获得每个惯性测量单元增强数据切片；

预训练人工神经网络模型：用于依据每个惯性测量单元增强数据切片，输出获得每个惯性测量单元增强数据切片的词语分类结果，并组合获得语音的语义信息。