CN113241077A

CN113241077A - 用于可穿戴设备的语音录入方法和装置

Info

Publication number: CN113241077A
Application number: CN202110650959.XA
Authority: CN
Inventors: 邵雅婷; 周强
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-08-10

Abstract

本发明公开用于可穿戴设备的语音录入方法和装置，其中，一种用于可穿戴设备的语音录入方法，包括：响应于获取到第一语音信号，判断与所述第一语音信号对应的第一声纹信息是否与所述可穿戴设备中预设的第二声纹信息一致；若一致，将所述第一语音信号增强并存储；基于存储的第一语音信号，将所述第一语音信号转换为文字信息。通过将与可穿戴设备中预设的声纹信息一致的语音信息存储并转换为文字信息，从而可以实现更加便捷和准确以及能够随时随地的语音录入。

Description

用于可穿戴设备的语音录入方法和装置

技术领域

本发明属于语音录入技术领域，尤其涉及用于可穿戴设备的语音录入方法和装置。

背景技术

声音包含着各种各样丰富的信息，例如最直观的语音内容，分析服务人员的语音内容，可以评价服务人员的服务态度和服务质量；监测病人的呼吸声和咳嗽声，可以判断病人的病情是否紧急，是否需要急救；甚至可以监测病人的夜间打鼾时长，用于判断是否需要医疗介入等。语音输入还可以代替传统手写以及打字方式，相比传统的记录方式，语音输入法快捷、方便，友好，只需要动动嘴巴，再配合离线或在线的识别转写技术就可以随时随地记录想要的信息；目前市面上能够录音的设备层出不穷，包括传统的只能记录声音的录音笔，手机上的录音机，以及最近比较热门的智能录音笔等。

其中，录音笔包括麦克风采集模块，扬声器播放模块，随着语音技术的发展，一些AI智能录音笔还包括AI降噪模块，以及语音转写模块，方便了日常工作，学习等各个场景的记录工作。

但是这些设备存在携带不方便的问题，语音录入时需要手持或者需要一张桌子或工作台放置设备，想要使用的时候可能不会恰巧在身边；还有语音录入的环境各种各样，可能会在服务大厅、餐厅、工厂、医院等，容易受到环境噪声或者其他人声的干扰。

发明内容

本发明实施例提供一种用于可穿戴设备的语音录入方法和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种用于可穿戴设备的语音录入方法，包括：响应于获取到第一语音信号，判断与所述第一语音信号对应的第一声纹信息是否与所述可穿戴设备中预设的第二声纹信息一致；若一致，将所述第一语音信号增强并存储；基于存储的第一语音信号，将所述第一语音信号转换为文字信息。

第二方面，本发明实施例提供一种用于可穿戴设备的语音录入装置，包括：获取判断程序模块，配置为响应于获取到第一语音信号，判断与所述第一语音信号对应的第一声纹信息是否与所述可穿戴设备中预设的第二声纹信息一致；增强存储程序模块，配置为若一致，将所述第一语音信号增强并存储；转换程序模块，配置为基于存储的第一语音信号，将所述第一语音信号转换为文字信息。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于可穿戴设备的语音录入方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的用于可穿戴设备的语音录入方法的步骤。

本申请的方法和装置通过将与可穿戴设备中预设的声纹信息一致的语音信息存储并转换为文字信息，从而可以实现更加便捷和准确以及能够随时随地的语音录入。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种用于可穿戴设备的语音录入方法的流程图；

图2为本发明一实施例提供的另一种用于可穿戴设备的语音录入方法的流程图；

图3为本发明一实施例提供的又一种用于可穿戴设备的语音录入方法的流程图；

图4为本发明一实施例提供的用于可穿戴设备的语音录入方法的一个具体示例的监测服务人员态度的流程图；

图5为本发明一实施例提供的一种用于可穿戴设备的语音录入装置的框图；

图6是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的用于可穿戴设备的语音录入方法一实施例的流程图。

如图1所示，在步骤101中，响应于获取到第一语音信号，判断与所述第一语音信号对应的第一声纹信息是否与所述可穿戴设备中预设的第二声纹信息一致；

在步骤102中，若一致，将所述第一语音信号增强并存储；

在步骤103中，基于存储的第一语音信号，将所述第一语音信号转换为文字信息。

在本实施例中，对于步骤101，用于可穿戴设备的语音录入装置响应于获取到第一语音信号，判断与第一语音信号对应的第一声纹信息是否与可穿戴设备中预设的第二声纹信息一致，例如，在可穿戴设备获取到语音信号后，基于获取到的语音信号中的声纹信息与预设的声纹信息进行匹配，判断获取到的语音信号是否是使用者发出的语音信号。

之后，对于步骤102，若第一语音信号对应的第一声纹信息与可穿戴设备中预设的第二声纹信息一致，将第一语音信号增强并存储。

最后，对于步骤103，用于可穿戴设备的语音录入装置基于存储的第一语音信号，将第一语音信号转换为文字信息，例如，穿戴可穿戴设备的用户为服务人员，能够随时将用户的语音录入并转换为文字信息，记录用户的服务态度和所服务人员的问题，例如穿戴可穿戴设备的用户为病人，还能够将用户的咳嗽和打鼾等声音记录生成文字病例，方便医护人员判断病情。

本实施例的方法通过将与可穿戴设备中预设的声纹信息一致的语音信息存储并转换为文字信息，从而可以实现更加便捷和准确以及能够随时随地的语音录入。

在上述实施例所述的方法中，所述判断与所述第一语音信号对应的第一声纹信息是否与所述可穿戴设备中预设的第二声纹信息一致，还包括：

若与第一语音信号对应的第一声纹信息与可穿戴设备中预设的第二声纹信息不一致，将第一语音信号屏蔽并消除。

本实施例的方法通过将与可穿戴设备中预设的第二声纹信息不一致的第一语音信号屏蔽并消除，从而可以屏蔽外界干扰和非穿戴者的声音。

请参考图2，其示出了本申请的用于可穿戴设备的语音录入方法另一实施例的流程图，该流程图主要是对流程图1“响应于获取到第一语音信号，判断与所述第一语音信号对应的第一声纹信息是否与所述可穿戴设备中预设的第二声纹信息一致”的流程之后进一步限定的步骤的流程图。

如图2所示，在步骤201中，响应于获取到第二语音信号，判断与所述第二语音信号对应的第三声纹信息是否与所述可穿戴设备中预设的第四声纹信息一致；

在步骤202中，若一致，基于预设的第二声纹信息和预设的第四声纹信息将所述第一语音信号和所述第二语音信号分类存储和转换文字。

在本实施例中，对于步骤201，用于可穿戴设备的语音录入装置响应于获取到第二语音信号，判断与第二语音信号对应的第三声纹信息是否与可穿戴设备中预设的第四声纹信息一致，例如，可穿戴设备中预设的第二声纹信息是佩戴可穿戴设备的病人，预设的第四声纹信息为医护人员，在获取到第二语音信号之后，判断第二语音信号的第三声纹信息是否与医护人员预设的第四声纹信息一致。

然后，对于步骤202，若与第二语音信号对应的第三声纹信息与可穿戴设备中预设的第四声纹信息一致，基于预设的第二声纹信息和预设的第四声纹信息将第一语音信号和所述第二语音信号分类存储和转换文字，例如，医护人员在询问病人的病情时，将医护人员的询问和病人的回答分类转换成文字，方便医护人员后续的查看和观察。

本实施例的方法通过将与可穿戴设备中预设的第二声纹信息一致的第一语音信号和与可穿戴设备中预设的第四声纹信息一致的第二语音信号分类存储并转换为文字，从而可以实现对说话人分割聚类和随时随地的进行语音录入。

在上述实施例所述的方法中，在所述将所述第一语音信号转换为文字信息之后，还包括：

获取可穿戴设备的穿戴用户的语音评价信息，将语音评价信息转换为评价文字信息。

本实施例的方法通过获取可穿戴设备的穿戴用户的语音评价信息，从而可以实现对服务人员的服务质量进行评价。

请参考图3，其示出了本申请的用于可穿戴设备的语音录入方法又一实施例的流程图，该流程图主要是对流程图1“将所述第一语音信号增强并存储”的流程进一步限定的步骤的流程图，其中，可穿戴设备通过麦克风阵列采集用户语音。

如图3所示，在步骤301中，获取所述麦克风阵列反馈的与所述第一语音信号对应的语音波束，判断所述语音波束是否来自所述可穿戴设备的穿戴用户的说话方向；

在步骤302中，若是来自所述可穿戴设备的穿戴用户的说话方向，将所述第一语音信号增强并存储。

在本实施例中，对于步骤301，用于可穿戴设备的语音录入装置获取麦克风阵列反馈的与第一语音信号对应的语音波束，判断语音波束是否来自可穿戴设备的穿戴用户的说话方向，例如，语音波束来自可穿戴设备的穿戴用户的说话方向，则能够判定第一语音信号是来自可穿戴设备的穿戴用户。

然后，对于步骤302，若是来自可穿戴设备的穿戴用户的说话方向，将第一语音信号增强并存储。

本实施例的方法通过麦克风阵列采集用户语音，判断与采集到的语音信号对应的语音波束是否来自穿戴用户方向，从而可以实现精准的语音录入，减少语音录入的错误。

在上述实施例所述的方法中，所述麦克风阵列能够替换为指向型麦克风，所述指向型麦克风能够指向所述可穿戴设备的穿戴用户的说话方向以及能够屏蔽其他方向的语音信号。

本实施例的方法通过将麦克风阵列替换为指向型麦克风，从而可以实现从硬件上直接做到指向穿戴用户的说话方向。

在上述任一实施例所述的方法中，所述可穿戴设备包括：胸牌、耳机、眼镜、颈挂式设备、手环和手表，所述可穿戴设备能够进行环境监测、异常声音监测、健康监测和场景识别，例如，能够通过智能语音算法来进行环境监测、异常声音监测、健康检测和场景识别等。

需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本申请在此没有限制。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的：现有的设备存在携带不方便的问题，语音录入时需要手持或者需要一张桌子或工作台放置设备，想要使用的时候可能不会恰巧在身边；还有语音录入的环境各种各样，可能会在服务大厅、餐厅、工厂、医院等，容易受到环境噪声或者其他人声的干扰。这些缺陷所导致的问题是该领域长期存在的问题。

发明人还发现，目前很少有比较实用的手段用来监测评价各行业服务人员的服务态度和质量，因为无法时时刻刻盯着所有的服务人员；医院里，病人的呼吸、咳嗽，打鼾等异常声音的监测手段也几乎不存在；对于需要记录的场景，手写的方式会比较慢浪费时间，且容易出错。

这些场景采用语音录入的方式会十分快捷，但是如果语音录入的设备还需要手持就显得极为不方便，因此可穿戴的设计很有必要；同时很多环境比较复杂，有其他人交流的声音，空调风扇的声音，户外路上汽车急速驶过的声音等，这些噪声会影响到录入语音的质量。

本申请的方案主要从以下几个方面入手进行设计和优化：

本专利设计将声音录入装置做成可穿戴的设备，包括但不限于胸牌，眼镜，耳机，颈挂式装置等，对录入的声音进行硬件或软件的处理，屏蔽外界干扰以及非佩戴者的声音，获得高质量的佩戴者声音信息。对录入的声音进行转写评价，环境监测，健康监测等，达到想要的目的。

请参考图4，其示出了本申请的用于可穿戴设备的语音录入方法的一个具体示例的监测服务人员态度的流程图。

如图4所示，步骤1：语音信号采集模块，安装麦克风采集语音信号。可以选用模拟或者数字麦克风，也可以采用麦克风阵列，便于使用后续的语音信号处理算法；

步骤2：语音信号处理模块，可以采用声纹识别算法，判断输入语音是否为佩戴者的声纹信息；也可以采用麦克风阵列信号处理算法，设计波束指向佩戴者的方向，按照方向性获得佩戴者的语音；

步骤3：如果判断不是佩戴者的语音，则屏蔽消除，如果判断为佩戴者的语音，则增强保留；

步骤4：使用在线或者离线转写功能，将语音信号转换为文字信息，进行后续的服务质量评价。

发明人在实现本发明的过程中形成的beta版：

在语音信号采集模块中也可以选用指向型麦克风，可以从硬件上直接做到指向佩戴者说话方向，屏蔽其他方向的声音，指向型麦克风简单方便，但是缺点是成本高，指向性比较单一，不像麦克风阵列，可以通过算法随意改变指向性。

发明人在实现本发明的过程中发现达到更深层次的效果：

可穿戴设计-------做到更便携，解放双手，方式更友好，可做到随时随地语音录入；

智能语音算法-----帮助实现声音的分离，转写评价，环境监测，异常声音监测，健康监测等。

其中，可穿戴设计，解放双手，包括但不限于胸牌，耳机，眼镜，颈挂式装置等；

智能语音算法帮助实现声音的分离，转写评价，环境监测，异常声音监测，健康监测等，手段包括定向麦方案，阵列信号处理方案，说话人分割聚类，场景识别等。

请参考图5，其示出了本发明一实施例提供的用于可穿戴设备的语音录入装置的框图。

如图5所示，用于可穿戴设备的语音录入装置500，包括获取判断程序模块510、增强存储程序模块520和转换程序模块530。

其中，获取判断程序模块510，配置为响应于获取到第一语音信号，判断与所述第一语音信号对应的第一声纹信息是否与所述可穿戴设备中预设的第二声纹信息一致；增强存储程序模块520，配置为若一致，将所述第一语音信号增强并存储；转换程序模块530，配置为基于存储的第一语音信号，将所述第一语音信号转换为文字信息。

应当理解，图5中记载的诸模块与参考图1、图2和图3中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块，在此不再赘述。

值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如获取判断程序模块可以描述为响应于获取到第一语音信号，判断与所述第一语音信号对应的第一声纹信息是否与所述可穿戴设备中预设的第二声纹信息一致的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如获取判断程序模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于可穿戴设备的语音录入方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于获取到第一语音信号，判断与所述第一语音信号对应的第一声纹信息是否与所述可穿戴设备中预设的第二声纹信息一致；

若一致，将所述第一语音信号增强并存储；

基于存储的第一语音信号，将所述第一语音信号转换为文字信息。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用于可穿戴设备的语音录入装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至用于可穿戴设备的语音录入装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项用于可穿戴设备的语音录入方法。

图6是本发明实施例提供的电子设备的结构示意图，如图6所示，该设备包括：一个或多个处理器610以及存储器620，图6中以一个处理器610为例。用于可穿戴设备的语音录入方法的设备还可以包括：输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例用于可穿戴设备的语音录入方法。输入装置630可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于用于可穿戴设备的语音录入装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

若一致，将所述第一语音信号增强并存储；

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于可穿戴设备的语音录入方法，包括：

若一致，将所述第一语音信号增强并存储；

2.根据权利要求1所述的方法，其中，在所述判断与所述第一语音信号对应的第一声纹信息是否与所述可穿戴设备中预设的第二声纹信息一致之后，还包括：

若不一致，将所述第一语音信号屏蔽并消除。

3.根据权利要求1所述的方法，其中，在所述响应于获取到第一语音信号，判断与所述第一语音信号对应的第一声纹信息是否与所述可穿戴设备中预设的第二声纹信息一致之后，还包括：

响应于获取到第二语音信号，判断与所述第二语音信号对应的第三声纹信息是否与所述可穿戴设备中预设的第四声纹信息一致；

若一致，基于预设的第二声纹信息和预设的第四声纹信息将所述第一语音信号和所述第二语音信号分类存储和转换文字。

4.根据权利要求1所述的方法，其中，在所述将所述第一语音信号转换为文字信息之后，还包括：

获取所述可穿戴设备的穿戴用户的语音评价信息，将所述语音评价信息转换为评价文字信息。

5.根据权利要求1所述的方法，其中，所述可穿戴设备通过麦克风阵列采集用户语音，所述将所述第一语音信号增强并存储包括：

获取所述麦克风阵列反馈的与所述第一语音信号对应的语音波束，判断所述语音波束是否来自所述可穿戴设备的穿戴用户的说话方向；

若是来自所述可穿戴设备的穿戴用户的说话方向，将所述第一语音信号增强并存储。

6.根据权利要求3所述的方法，其中，所述麦克风阵列能够替换为指向型麦克风，所述指向型麦克风能够指向所述可穿戴设备的穿戴用户的说话方向以及能够屏蔽其他方向的语音信号。

7.根据权利要求1-6中任一项所述的方法，其中，所述可穿戴设备包括：胸牌、耳机、眼镜、颈挂式设备、手环和手表，所述可穿戴设备能够进行环境监测、异常声音监测、健康监测和场景识别。

8.一种用于可穿戴设备的语音录入装置，包括：

获取判断程序模块，配置为响应于获取到第一语音信号，判断与所述第一语音信号对应的第一声纹信息是否与所述可穿戴设备中预设的第二声纹信息一致；

增强存储程序模块，配置为若一致，将所述第一语音信号增强并存储；

转换程序模块，配置为基于存储的第一语音信号，将所述第一语音信号转换为文字信息。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。