CN114285830B

CN114285830B - 语音信号处理方法、装置、电子设备及可读存储介质

Info

Publication number: CN114285830B
Application number: CN202111572482.4A
Authority: CN
Inventors: 许士宾
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2024-05-24
Anticipated expiration: 2041-12-21
Also published as: CN114285830A

Abstract

本公开公开了一种语音信号处理方法、装置、电子设备及可读存储介质，涉及计算机技术领域，尤其涉及语音技术领域。具体实现方案为：在接收到SFU服务器发送的至少两路语音信号时，将与各路语音信号对应的各语音包单独存储在匹配的缓存队列中；当满足多路语音信号的混音条件时，从各缓存队列中分别获取对应的语音包构成复合语音包；获取FreeSwitch通信网关中的解码模块对复合语音包中的各语音包进行解码得到的多个解码语音信号；将各解码语音信号进行混音处理，得到混音包，并将混音包发送至终端，可以将无法进行混音处理的终端加入至SFU会议中，使该终端获取到多个其他终端的语音内容。

Description

语音信号处理方法、装置、电子设备及可读存储介质

技术领域

本公开涉及计算机技术领域，具体涉及语音技术领域，尤其涉及一种语音信号处理方法、装置、电子设备及可读存储介质。

背景技术

目前，各类即时通信工具主要通过选择性转发单元(Selective ForwardingUnit，SFU)的会议方案实现多终端在线语音交互。SFU会议方案由服务器和多个终端组成，SFU不会音视频进行混流，而是根据特定算法选择会议中的某几个终端的音视频流，转发给会议中的其他终端，终端需要自己来混音。SFU实际上就是一个音视频路由转发器，适合大规模部署。如果SFU会议终端想要与通信协议不同的第三方网络中的第三方终端进行通话，就需要通信网关接入第三方网络中。

现有技术中，可以使用FreeSwitch(也可称为电话软交换)作为连接SFU会议终端以及第三方终端的通信网关。其中，FreeSwitch是一个开源的、多协议的通信软交换平台，实现多种通信功能。从技术上讲，FreeSwitch是一个背靠背用户代理(Back to Back UserAgent，B2BUA)，用来帮助所连接的双方进行音视频通话。但是，B2BUA机制无法对SFU会议中的转发的多路语音流进行混音，当第三方终端无法进行混音处理时，同一时间第三方终端只能听到多路语音流中的一路。

发明内容

本公开提供了一种语音信号处理方法、装置、电子设备及可读存储介质。

根据本公开的一方面，提供了一种语音信号处理方法，包括：

在接收到SFU服务器发送的至少两路语音信号时，将与各路所述语音信号对应的各语音包单独存储在匹配的缓存队列中；

当满足多路语音信号的混音条件时，从各缓存队列中分别获取对应的语音包构成复合语音包；

获取FreeSwitch通信网关中的解码模块对所述复合语音包中的各语音包进行解码得到的多个解码语音信号；

将各所述解码语音信号进行混音处理，得到混音包，并将所述混音包发送至终端。

根据本公开的另一方面，提供了一种语音信号处理方法，包括：

获取终端发送的原始语音数据包；

对所述原始语音数据包中的原始语音信号进行解析处理，并计算与所述原始语音信号对应的有效语音标识信息和语音能量值；

根据所述原始语音信号对应的有效语音标识信息和语音能量值，形成被SFU服务器采用进行选路处理的改进语音数据包；

将所述改进语音数据包发送至所述SFU服务器。

根据本公开的另一方面，提供了一种语音信号处理装置，包括：

语音包存储模块，用于在接收到SFU服务器发送的至少两路语音信号时，将与各路所述语音信号对应的各语音包单独存储在匹配的缓存队列中；

复合语音包构成模块，用于当满足多路语音信号的混音条件时，从各缓存队列中分别获取对应的语音包构成复合语音包；

解码语音信号获取模块，用于获取FreeSwitch通信网关中的解码模块对所述复合语音包中的各语音包进行解码得到的多个解码语音信号；

混音包发送模块，用于将各所述解码语音信号进行混音处理，得到混音包，并将所述混音包发送至终端。

原始语音数据包获取模块，用于获取终端发送的原始语音数据包；

原始语音信号信息计算模块，用于对所述原始语音数据包中的原始语音信号进行解析处理，并计算与所述原始语音信号对应的有效语音标识信息和语音能量值；

改进语音数据包形成模块，用于根据所述原始语音信号对应的有效语音标识信息和语音能量值，形成被SFU服务器采用进行选路处理的改进语音数据包；

改进语音数据包发送模块，用于将所述改进语音数据包发送至所述SFU服务器。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开所提供的语音信号处理方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开所提供的语音信号处理方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开所提供的语音信号处理方法。

根据本公开的技术解决了终端接入SFU会议进行通信的问题，可以通过FreeSwitch进行混音处理，使第三方终端听到多路语音。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的一种语音信号处理方法的流程示意图；

图2a是根据本公开实施例的另一种语音信号处理方法的流程示意图；

图2b是根据本公开实施例的目标语音包插入目标缓存队列的流程示意图；

图3a是根据本公开实施例的又一种语音信号处理方法的流程示意图；

图3b是根据本公开实施例的复合语音包构成的示意图；

图4a是根据本公开实施例的再一种语音信号处理方法的流程示意图；

图4b是根据本公开实施例的还一种语音信号处理方法的流程示意图；

图5是根据本公开实施例的一种语音信号处理装置的结构示意图；

图6是根据本公开实施例的又一种语音信号处理装置的结构示意图；

图7是用来实现本公开实施例的语音信号处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开实施例的一种语音信号处理方法的流程示意图，本实施例适用于将不同通信协议的第三方网络中的第三方终端接入至SFU会议中进行通信的情况，该方法可以通过语音信号处理装置来执行，该装置可以通过软件和/或硬件的方式实现，并集成于电子设备如FreeSwitch通信网关中。具体的，该语音信号处理方法可以由FreeSwitch通信网关中的左侧用户代理执行。参考图1，该方法具体包括如下步骤：

步骤110、在接收到SFU服务器发送的至少两路语音信号时，将与各路语音信号对应的各语音包单独存储在匹配的缓存队列中。

其中，SFU服务器对接收到的语音信号可以是有选择性的转发，而不是全部转发。SFU服务器可以根据特定的算法对接收到的语音信号进行选择，并通过FreeSwitch处理后转发至第三方终端。SFU服务器接收的语音信号可以来自于SFU会议中具有相同通信协议的终端，也可以来自于与SFU会议具有不同通信协议的第三方终端。当SFU服务器接收的语音信号来自于与SFU会议具有不同通信协议的第三方终端时，语音信号需要进行信号处理后才可以进行SFU服务器的语音信号选择处理，具体的信号处理方式在后续实施例中进行介绍。

在本公开中，SFU服务器使用的特定算法可以根据实际情况以及具体应用场景进行制定。例如，SFU服务器选择的语音信号路数可以具有上限。例如，SFU服务器可以至多转发6路语音信号至SFU会议的参与者(可以是第三方终端，也可以是其他终端)。

具体的，SFU服务器接收的语音包中可以包含有效语音标识信息(vad)和语音能量值(energy)。例如，在语音包如实时传输协议数据包(Real-time Transport Protocol，RTP)的扩展头中可以预先填写vad和energy，然后将语音包发送至SFU服务器。SFU服务器可以根据vad和energy大小对各路语音包进行排序。例如，SFU服务器可以选取vad为真，且energy最高的前n(n为大于等于2的自然数，可以根据实际需求进行配置)路语音包。

在本公开中，FreeSwitch通信网关中的左侧用户代理收到的每一路语音信号都是SFU服务器根据特定算法选择好的，左侧用户代理只需进行接收缓存操作即可。当SFU会议中的终端数量小于n值时，SFU服务器可以将全部路的语音包转发至左侧用户代理。

现有技术中，FreeSwitch通信网关中的用户代理只能处理一路下行语音信号。而在本公开中，FreeSwitch通信网关中的左侧用户代理可以同时接收多路语音信号，并在混音处理后转发至第三方终端。对于接收的多路语音信号，左侧用户代理需要解决各语音信号对应的各语音包的缓存处理。通过缓存队列对语音包进行缓存，可以避免多路语音信号因网络抖动而造成的混音杂音等问题。

具体的，可以采用有序队列的方式对语音信号进行缓存和排序。缓存队列节点的内存可以是在自己实现的一种可随时回收内存的简易内存池上申请的，可以避免频繁向系统申请、释放内存导致的内存碎片。例如，左侧用户代理可以通过套接字(Socket)接收语音包，并拷贝至对应的缓存队列节点，将语音包插入至缓存队列节点的匹配位置中。

示例性的，一路语音信号可以对应SFU会议中的一个终端。一路语音信号可以包含多个语音包。一路语音信号可以存储在一个缓存队列中。各缓存队列中的语音包可以是按照排序顺序缓存的。其中，排序顺序可以是语音包具有的序列号顺序，或者接收语音包的时间顺序等。

步骤120、当满足多路语音信号的混音条件时，从各缓存队列中分别获取对应的语音包构成复合语音包。

现有技术中，FreeSwitch通信网关通过1:1的B2BUA交换模型实现通信。其中，1:1可以理解为对单路语音信号进行接收和转发。1:1的B2BUA交换模型中会创建两个session，一个session代表一个用户代理，左侧的可以称为左侧用户代理，右侧的可以称为右侧用户代理。每个session会关联一个桥接线程(audio_bridge)，通过回调的方式处理信令和媒体的收发以及处理过程。当FreeSwitch收到呼叫请求时，可以创建左侧用户代理，启动对应的状态机，关联audio_bridge线程，执行拨号计划。之后，创建右侧用户代理，启动对应的状态机，关联audio_bridge线程。当状态机进入媒体交换状态时，audio_bridge线程可以通过回调方式完成左侧用户代理和右侧用户代理双方的媒体交换。

例如，可以通过回调函数io_read_frame完成对语音包的收取，通过回调函数io_write_frame完成对语音包的发送。其中，左侧用户代理通过io_read_frame进行语音包的收取过程可以是：左侧用户代理从网络中收到语音包后，可以将语音包复制到switch_frame_t**frame对象中，frame是io_read_frame一个参数。audio_bridge线程通过io_read_frame获取收到的语音包，然后调用右侧用户代理的回调函数io_write_frame，把左侧用户代理的语音包转发给右侧用户代理所代表的终端。

在本公开中，FreeSwitch通信网关采用的是n:1的B2BUA交换模型实现通信。其中，n:1可以理解为对多路语音信号进行接收，对单路语音信号进行转发。左侧用户代理对接收的多路语音信号处理情况与现有技术不同。在满足多路语音信号的混音条件时，左侧用户代理可以获取对应的多个语音包。

其中，多路语音信号的混音条件可以是多样的。例如，可以是当第三方终端确定接收混音包时，进行与SFU会议中其他终端的通信时。具体的，多路语音信号的混音条件可以是FreeSwitch通信网关中的io_read_frame回调时。左侧用户代理的audio_bridge线程对io_read_frame进行一次回调，可以收取多路语音信号，多路语音信号的语音包不是直接在网络接口获取，而是从缓存队列中间接获取，可以降低网络抖动导致的混音杂音。

具体的，左侧用户代理在各缓存队列中获取到对应的语音包时，可以在io_read_frame的参数frame中拆分出sub_frame，将各语音包作为sub_frame放到io_read_frame的参数frame中，在audio_bridge线程看来仍然是按照1:1的方式进行交换。即将各缓存队列中分别获取对应的语音包(可以理解为sub_feame)构成复合语音包(可以理解为frame)。其中，从各缓存队列中获取语音包，可以是从各缓存队列中均获取一个语音包。

步骤130、获取FreeSwitch通信网关中的解码模块对复合语音包中的各语音包进行解码得到的多个解码语音信号。

其中，FreeSwitch通信网关中的解码模块可以是session_write中的session_write_frame。对复合语音包的解码处理，可以是从参数frame中拆分出各sub_frame(即获取复合语音包中的各语音包)，对每个sub_frame进行独立解码。例如，解码的数据为脉冲编码调制数据(pcm)，可以通过pcm_data1，pcm_data2，…，pcm_data6等表示得到的解码语音信号。

步骤140、将各解码语音信号进行混音处理，得到混音包，并将混音包发送至终端。

其中，各解码语音信号可以作为混音处理(mix)的输入参数，mix调用完成后可以输出混音数据(mix_pcm_data)，mix_pcm_data编码后可以得到混音包。混音包可以经由右侧用户代理的回调函数io_write发送至终端。

其中，该终端可以是指第三方网络中的第三方终端。第三方网络可以是与SFU会议具有不同通信协议的网络。例如，第三方网络可以是公共交换电话网络(Public SwitchedTelephone Network，PSTN)。第三方终端可以是使用第三方网络进行通信的终端，如PSTN终端。PSTN终端具体可以是手机、全球广域网(World Wide Web，WEB)客户端或者会话发起协议(Session initialization Protocol，SIP)客户端等，不支持混音处理操作的终端。

本公开实施例的技术方案，通过在接收到SFU服务器发送的至少两路语音信号时，将与各路语音信号对应的各语音包单独存储在匹配的缓存队列中；当满足多路语音信号的混音条件时，从各缓存队列中分别获取对应的语音包构成复合语音包；获取FreeSwitch通信网关中的解码模块对复合语音包中的各语音包进行解码得到的多个解码语音信号；将各解码语音信号进行混音处理，得到混音包，并将混音包发送至终端，特别是第三方网络中的第三方终端，解决了第三方终端接入SFU会议进行通信的问题，可以通过FreeSwitch进行混音处理，使第三方终端听到多路语音，采用缓存队列对多语音包进行处理的方式可以避免混音杂音问题。

图2a是根据本公开实施例的另一种语音信号处理方法的流程示意图，本实施例是对上述技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施方式结合。

具体的，在本公开的一个可选实施方式中，将与各路语音信号对应的各语音包单独存储在匹配的缓存队列中，包括：

在检测到与第一目标路数匹配的目标语音包时，提取目标语音包的第一基础序列号；

获取与目标语音包匹配的目标缓存队列的当前序列号翻转次数以及序列号翻转门限值；

根据第一基础序列号、当前序列号翻转次数以及序列号翻转门限值，确定与目标语音包匹配的目标扩展序列号；

按照目标扩展序列号，将目标语音包插入至目标缓存队列中。

具体的，参考图2a，本公开提供的语音信号处理方法包括如下步骤：

步骤210、在接收到SFU服务器发送的至少两路语音信号时，且在检测到与第一目标路数匹配的目标语音包时，提取目标语音包的第一基础序列号。

其中，第一目标路数可以理解为终端、缓存队列或者目标语音包的标识。终端、缓存队列以及目标语音包之间可以具有一定的对应关系。例如，第一目标路数可以用于表示某终端发送至SFU服务器，并在对应的缓存队列进行存储的目标语音包。目标语音包本身存在的序列号(seq)可以作为第一基础序列号。具体的，第一基础序列号可以存储在目标语音包的包头。

示例性的，seq可以是采用unit_16表示的，最大值是65535，当超过65535时，seq又将从0开始进行新的序列号生成，即存在序列号翻转。

步骤220、获取与目标语音包匹配的目标缓存队列的当前序列号翻转次数以及序列号翻转门限值。

其中，当前序列号翻转次数(roll_num)可以理解为seq重新从0开始的次数。目标缓存队列每存在一次新的翻转，roll_num值可以加1。序列号翻转门限值可以理解为seq的最大值。例如，序列号翻转门限值可以是65535。

步骤230、根据第一基础序列号、当前序列号翻转次数以及序列号翻转门限值，确定与目标语音包匹配的目标扩展序列号。

其中，目标扩展序列号(ext_seq)可以理解为根据第一基础序列号、当前序列号翻转次数以及序列号翻转门限值重新确定的序列号。通过目标扩展序列号可以解决目标语音包存储至缓存队列时的序列号翻转问题，可以保证目标语音包存储位置的明确性以及正确性。

具体的，目标扩展序列号可以通过下式确定：ext_seq＝roll_num×seq_max+seq。其中，seq_max为序列号翻转门限值。示例性的，seq_max为65535时，ext_seq可以采用unit_32表示，可以扩展原本的unit_16，解决序列号翻转问题。

步骤240、按照目标扩展序列号，将目标语音包插入至目标缓存队列中。

其中，按照ext_seq进行目标缓存队列中的目标数据包插入时，可以使数据包有序排列，不会出现乱序情况。

在本公开的一个可选实施方式中，按照目标扩展序列号，将目标语音包插入至目标缓存队列中，包括：检测目标语音包是否为与设定语音片段对应的首个语音包；若是，则按照目标扩展序列号，将目标语音包插入至目标缓存队列中；否则，根据目标缓存队列中的末位扩展序列号，确定期望插入序列号；如果期望插入序列号与目标扩展序列号相匹配，则按照目标扩展序列号，将目标语音包插入至目标缓存队列中；如果期望插入序列号与目标扩展序列号不相匹配，则确定发生丢包事件，或者确定目标语音包为发生丢包事件后的重传数据包；如果确定发生丢包事件，则构建丢包重传请求包，并按照目标扩展序列号，将目标语音包插入至目标缓存队列中；如果确定目标语音包为发生丢包事件后的重传数据包，则检测目标语音包是否满足时效性要求；若是，则按照目标扩展序列号，将目标语音包插入至目标缓存队列中；否则，丢弃目标语音包。

其中，图2b是根据本公开实施例的目标语音包插入目标缓存队列的流程示意图。如图2b所示，可以首先检测目标语音包是否为设定语音片段的首个语音包。具体的，可以根据目标语音包的目标扩展序列号确定目标语音包是否为首个语音包。如果目标语音包为首个语音包，可以直接将目标语音包插入至目标缓存队列中，例如可以插入至目标缓存队列的首位置。如果目标语音包不是首个语音包，可以确定目标扩展序列号是否与期望插入序列号相匹配。其中，期望插入序列号可以是末尾扩展序列号的下一扩展序列号。

如图2b所示，如果期望插入序列号与目标扩展序列号相匹配(如相同)，则可以直接将目标语音包插入至目标缓存队列中，例如可以插入至目标缓存队列的当前末位位置的后一位置，即与期望插入序列号对应的位置。如果期望插入序列号与目标扩展序列号不相匹配(如不相同)，则可以确定发生丢包事件，或者目标语音包为丢包事件后的重传数据包。其中，当目标扩展序列号为期望插入序列号之前的扩展序列号时，可以确定目标语音包为丢包事件后的重传数据包；当目标扩展序列号为期望插入序列号之后的扩展序列号时，可以确定发生丢包事件。

如图2b所示，如果确定发生丢包事件，可以构建丢包重传请求包，目标语音包可以插入至目标缓存队列中，例如可以插入至目标缓存队列中与目标扩展序列号对应的位置。

如图2b所示，如果确定目标语音包为丢包事件后的重传数据包，可以检测目标语音包是否满足时效性要求，即判断目标语音包是否过期。如果目标语音包不满足时效性要求，即过期，可以直接丢弃目标语音包。如果目标语音包满足时效性要求，即不过期，可以将目标语音包插入至目标缓存队列中，例如可以插入至目标缓存队列中与目标扩展序列号对应的位置。

本公开通过在多种检测条件下，根据不同的条件判断将目标语音包插入至目标缓存队列中匹配的位置，可以对目标数据包进行精准排序，避免数据包的乱序存储，可以解决丢包问题，并保证数据包的时效性。对于过期数据包可以直接丢弃，避免造成数据包的无效排序。

在本公开的一个可选实施方式中，构建丢包重传请求包，包括：根据期望插入序列号和目标扩展序列号，确定与丢失语音包对应的第二基础序列号；根据第二基础序列号，构建丢包重传请求包，并将丢包重传请求包发送至SFU服务器，以请求发送丢失语音包的SFU终端对丢失语音包进行丢包重传。

其中，当确定发生丢包事件时，可以构建丢包重传请求包，进行丢包重传，获取发生丢包事件后的重传数据包，保证第三方终端可以获取尽可能多的语音数据，避免语音数据丢失。

具体的，期望插入序列号与目标扩展序列号之间的扩展序列号、以及期望插入序列号，可以作为与丢失语音包对应的第二基础序列号。第二基础序列号可以包括一个或者多个扩展序列号，即可以存在一个或者多个语音包丢失。例如，期望插入序列号为3501，目标扩展序列号为3504，可以确定ext_seq为3501、3502以及3503的三个语音包丢失，即第二基础序列号可以是3501、3502以及3503。

示例性的，左侧用户代理可以构建包含第二基础序列号的丢包重传请求包(RTCPNACK请求包)，并向SFU服务器发送RTCP NACK请求包。SFU服务器可以将RTCP NACK请求包转发至对应的终端(如与目标缓存队列对应的终端)。终端收到RTCP NACK请求包后，可以提取其中的第二基础序列号，如3501、3502以及3503。如果终端在本地缓存中查找到与第二基础序列号对应的语音包，可以重新向SFU服务器进行丢包重传，SFU服务器可以将获取的丢包数据发送至左侧用户代理，左侧用户代理根据第二基础序列号将重传数据包(丢包数据)插入至目标缓存队列中对应的位置。

步骤250、当满足多路语音信号的混音条件时，从各缓存队列中分别获取对应的语音包构成复合语音包。

步骤260、获取FreeSwitch通信网关中的解码模块对复合语音包中的各语音包进行解码得到的多个解码语音信号。

步骤270、将各解码语音信号进行混音处理，得到混音包，并将混音包发送至终端。

本公开实施例的技术方案，通过在接收到SFU服务器发送的至少两路语音信号时，且在检测到与第一目标路数匹配的目标语音包时，提取目标语音包的第一基础序列号；获取与目标语音包匹配的目标缓存队列的当前序列号翻转次数以及序列号翻转门限值；根据第一基础序列号、当前序列号翻转次数以及序列号翻转门限值，确定与目标语音包匹配的目标扩展序列号；按照目标扩展序列号，将目标语音包插入至目标缓存队列中；当满足多路语音信号的混音条件时，从各缓存队列中分别获取对应的语音包构成复合语音包；获取FreeSwitch通信网关中的解码模块对复合语音包中的各语音包进行解码得到的多个解码语音信号；将各解码语音信号进行混音处理，得到混音包，并将混音包发送至终端，特别是第三方网络中的第三方终端，解决了第三方终端接入SFU会议进行通信的问题，可以使获取目标语音包有序插入目标缓存队列中，保证语音包存储的有序性以及时效性，可以减少语音包丢失，保证终端获取数据的全面性，从而保证语音信号的服务质量，此外还可以通过FreeSwitch进行混音处理，使第三方终端接入SFU会议中进行通信，听到多路语音。

图3a是根据本公开实施例的又一种语音信号处理方法的流程示意图，本实施例是对上述技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施方式结合。

具体的，在本公开的一个可选实施方式中，当满足多路语音信号的混音条件时，从各缓存队列中分别获取对应的语音包构成复合语音包，包括：

当满足多路语音信号的混音条件时，判断是否能从各缓存队列中均获取一个语音包；

若是，则将从各缓存队列中分别获取的语音包构成复合语音包；

若否，则等待预设目标时长后，重新判断是否能从上次未获取到语音包的各缓存队列中均获取一个语音包；

如果确定能从上次未获取到语音包的各缓存队列中均获取一个语音包，则将前后两次获取的各语音包构成复合语音包；

如果确定不能从上次未获取到语音包的各缓存队列中均获取一个语音包，则构建与当前未能获取到语音包的各缓存队列分别对应的静音包，并将将前后两次获取的各语音包以及各静音包构成复合语音包。

具体的，参考图3a，本公开提供的语音信号处理方法包括如下步骤：

步骤310、在接收到SFU服务器发送的至少两路语音信号时，将与各路语音信号对应的各语音包单独存储在匹配的缓存队列中。

步骤320、当满足多路语音信号的混音条件时，判断是否能从各缓存队列中均获取一个语音包；若是，则执行步骤330；否则，执行步骤340。

其中，图3b是根据本公开实施例的复合语音包构成的示意图。如图3b所示，当满足多路语音信号的混音条件时，如io_read_frame回调时，可以从各缓存队列中均获取一个语音包。

步骤330、将从各缓存队列中分别获取的语音包构成复合语音包；执行步骤370。

如图3b所示，如果能从各缓存队列中均获取一个语音包，则可以将获取的语音直接构成复合语音包。之后可以根据复合语音包进行解码处理以及混音处理。

步骤340、等待预设目标时长后，重新判断是否能从上次未获取到语音包的各缓存队列中均获取一个语音包。

如图3b所示，如果不能从各缓存队列中均获取一个语音包，则可以等待预设目标时长后，重新尝试从未获取语音包的缓存队列中获取语音包。其中，预设目标时长可以是一个较短的时长，如20毫秒，可以避免等待时长过长，造成语音数据传输效率太低。

步骤350、如果确定能从上次未获取到语音包的各缓存队列中均获取一个语音包，则将前后两次获取的各语音包构成复合语音包；执行步骤370。

如图3b所示，如果能从上次未获取到语音包的各缓存队列中均获取一个语音包，则可以将前后两次获取的各语音包构成复合语音包。可以保证复合语音包中存在SFU服务器选中的各路语音数据分别对应的一个语音包。之后可以根据复合语音包进行解码处理以及混音处理。

步骤360、如果确定不能从上次未获取到语音包的各缓存队列中均获取一个语音包，则构建与当前未能获取到语音包的各缓存队列分别对应的静音包，并将前后两次获取的各语音包以及各静音包构成复合语音包。

如图3b所示，如果不能从上次未获取到语音包的各缓存队列中均获取一个语音包，则可以构建与当前未能获取到语音包的各缓存队列分别对应的静音包(CNG)。将前后两次获取的各语音包以及各静音包构成复合语音包，之后可以根据复合语音包进行解码处理以及混音处理。对于未获取语音包的缓存队列可以插入静音包，可以保证复合语音包中存在SFU服务器选中的各路语音数据分别对应的一个语音包，从而可以使混音处理后终端接收到的混音听觉效果更近似于真实情况用户听到的语音效果，提高语音效果的真实性。

在本公开的一个可选实施方式中，语音包中包括：有效语音标识信息和语音能量值；在判断是否能从各缓存队列中均获取一个语音包之前，还包括：检测各缓存队列当前缓存的各语音包是否超过预设数量门限值，并根据检测结果，确定过载缓存队列；剔除过载缓存队列中有效语音标识信息设置为无效，和/或，语音能量值小于或者等于预设能量门限值的语音包。

其中，有效语音标识信息(vad)可以表示语音包的有效性。例如，vad可以表示语音包中的数据是否为语音数据，当语音包中数据为语音数据时，vad可以为真；当语音包中数据为非语音数据如静音或者噪声时，vad可以为假。语音能量值(energy)可以表示语音包的能量值大小。例如，energy可以是语音包中数据的幅值大小。

如图3b所示，在从各缓存队列中获取语音包之前，可以确定缓存队列是否为过载缓存队列。具体的，当满足多路语音信号的混音条件时，左侧用户代理可以检测各缓存队列当前缓存的各语音包是否超过预设数量门限值，即可以判断缓存队列是否过长。如果确定缓存队列缓存的语音包超过预设数量门限值，可以确定缓存队列为过载缓存队列。当确定缓存队列为过载缓存队列时，可以根据vad和energy对过载缓存队列进行加速处理。具体的，可以剔除过载缓存队列中vad为无效即vad为假的语音包；或者，可以剔除过载缓存队列中energy小于等于预设能量门限值的语音包；或者，可以剔除vad为无效且energy小于等于预设能量门限值的语音包。通过对过载缓存队列进行加速处理，对无效的语音包和/或语音能量值很小的语音包可以不进行处理，可以加速语音数据传输，从而减少混音处理引入的延时问题。其中，energy小于等于预设能量门限值的语音包可以理解为无法听清语音包中内容的语音包。

步骤370、获取FreeSwitch通信网关中的解码模块对复合语音包中的各语音包进行解码得到的多个解码语音信号。

步骤380、将各解码语音信号进行混音处理，得到混音包，并将混音包发送至终端。

本公开实施例的技术方案，通过在接收到SFU服务器发送的至少两路语音信号时，将与各路语音信号对应的各语音包单独存储在匹配的缓存队列中；当满足多路语音信号的混音条件时，判断是否能从各缓存队列中均获取一个语音包；若是，则将从各缓存队列中分别获取的语音包构成复合语音包；否则，等待预设目标时长后，重新判断是否能从上次未获取到语音包的各缓存队列中均获取一个语音包；如果确定能从上次未获取到语音包的各缓存队列中均获取一个语音包，则将前后两次获取的各语音包构成复合语音包；如果确定不能从上次未获取到语音包的各缓存队列中均获取一个语音包，则构建与当前未能获取到语音包的各缓存队列分别对应的静音包，并将前后两次获取的各语音包以及各静音包构成复合语音包；获取FreeSwitch通信网关中的解码模块对复合语音包中的各语音包进行解码得到的多个解码语音信号；将各解码语音信号进行混音处理，得到混音包，并将混音包发送至终端，特别是第三方网络中的第三方终端，解决了第三方终端接入SFU会议进行通信的问题，可以保证复合语音包中包含各缓存队列的一个语音包，从而使混音处理后的音效更近似于真实环境下的语音效果；通过对过载缓存队列的加速处理，可以弥补混音处理引入的延时；并且可以通过FreeSwitch进行混音处理，使第三方终端接入SFU会议中进行通信，听到多路语音。

在上述实施方式的基础上，可选的，将各解码语音信号进行混音处理，得到混音包，包括：将各解码语音信号进行时域叠加，得到时域叠加信号；如果确定时域叠加信号出现信号幅值溢出，则按照预设溢出处理算法，对时域叠加信号进行溢出处理。

其中，解码语音信号进行时域叠加可以是量化语音信号进行时域叠加，可以等价于空气中声波的叠加。叠加后如果存在信号幅值溢出，需要进行溢出处理。预设溢出处理算法可以是平均算法、归一化处理算法或者箝位算法等，本公开对此不做具体限定。通过预设溢出处理算法进行溢出处理，可以避免信号失真。

图4a是根据本公开实施例的再一种语音信号处理方法的流程示意图，本实施例适用于将不同通信协议的第三方网络中的第三方终端接入至SFU会议中进行通信的情况，该方法可以通过语音信号处理装置来执行，该装置可以通过软件和/或硬件的方式实现，并集成于电子设备如FreeSwitch通信网关中。

具体的，该语音信号处理方法可以由FreeSwitch通信网关中的右侧用户代理执行。参考图4a，该方法具体包括如下步骤：

步骤410、获取终端发送的原始语音数据包。

其中，该原始语音数据包可以是第三方终端经由第三方网络发送的。第三方网络可以是PSTN网络；第三方终端可以是PSTN终端。原始语音数据包可以是第三方终端发送至右侧用户代理的语音数据包。

步骤420、对原始语音数据包中的原始语音信号进行解析处理，并计算与原始语音信号对应的有效语音标识信息和语音能量值。

其中，对原始语音信号的解析处理可以是解码提取其中的语音信号并进行处理。右侧用户代理可以确定原始语音信号中语音信号的有效性以及能量值大小。例如，右侧用户代理在确定原始语音信号为语音信号时，确定有效语音标识信息为真；在确定原始语音信号为非语音信号时，确定有效语音标识信息为假。右侧用户代理可以确定原始语音信号的幅值，作为能量值大小。

步骤430、根据原始语音信号对应的有效语音标识信息和语音能量值，形成被SFU服务器采用进行选路处理的改进语音数据包。

其中，右侧用户代理可以在原始语音数据包的包头添加有效语音标识信息和语音能量值，形成改进语音数据包。改进语音数据包中的有效语音标识信息和语音能量值可以作为SFU服务器进行选路处理的依据。可以将第三方终端生产的原本无法通过SFU服务器进行选路处理的语音信号进行处理，生成改进语音数据包，从而使第三方终端加入至SFU会议，使第三方终端生成的语音数据有机会被SFU会议中的其他终端进行收听。

步骤440、将改进语音数据包发送至SFU服务器。

其中，改进语音数据包中的信号可以作为一路语音信号被SFU服务器进行选路处理。当SFU服务器选中改进语音数据包中的信号时，该改进语音数据包中的信号可以发送至FreeSwitch通信网关中的左侧用户代理，进行后续的缓存、复合语音包构成、解码以及混音处理等操作，以使SFU会议中的其他终端听到包含该改进语音数据包中信号的多路语音信号。

本公开实施例的技术方案，通过获取第三方终端经由第三方网络发送的原始语音数据包；对原始语音数据包中的原始语音信号进行解析处理，并计算与原始语音信号对应的有效语音标识信息和语音能量值；根据原始语音信号对应的有效语音标识信息和语音能量值，形成被SFU服务器采用进行选路处理的改进语音数据包；将改进语音数据包发送至SFU服务器，解决了第三方终端接入SFU会议进行通信的问题，可以使第三方终端的语音数据能够参与SFU服务器的选取过程，进而使第三方终端的语音数据有机会被其他终端听到，实现第三方终端接入至SFU会议进行通信。

图4b是根据本公开实施例的还一种语音信号处理方法的流程示意图。如图4b所示，本公开实施例提供的一种语音信号处理方法的具体使用过程可以是：SFU服务器可以根据接收到的语音信号(如改进语音数据包中的信号)进行选路处理，选中的语音信号可以发送至FreeSwitch通信网关中的左侧用户代理。左侧用户代理的媒体接收线程可以从网络中获取对应的语音包插入至对应的缓存队列中。在进行语音包缓存时，可以检查语音包是否存在丢包，如果存在丢包可以进行丢包重传，获取对应的重传数据包。在进行语音包缓存时，还可以检查语音包是否过期，如果过期可以选择丢弃语音包。当满足多路语音信号的混音条件时，左侧用户代理对应的audio_bridge线程可以回调io_read_frame函数进行语音包获取，可以在各缓存队列中均获取一个语音包作为sub_frame构成复合语音包放入frame对象中。io_read_frame函数返回后，可以提取frame中的各sub_frame分别进行解码，得到多个解码语音信号，再进行混音处理以及编码得到混音包。左侧用户代理可以调用右侧用户代理的io_write_frame函数将混音包发送至终端，特别的，该终端可以第三方网络中的第三方终端。第三方终端可以接入SFU会议中，听到SFU会议中多个用户的发言。

其中，在左侧用户代理对应的audio_bridge线程回调io_read_frame函数进行语音包获取之前，左侧用户代理可以先检查各缓存队列的长度，确定缓存队列是否为过载缓存队列。如果确定缓存队列为过载缓存队列，可以对缓存队列进行加速处理。在左侧用户代理对应的audio_bridge线程回调io_read_frame函数进行语音包获取时，可以判断是否能各缓存队列中均获取一个语音包。如果可以在各缓存队列中均获取一个语音包，则可以直接构成复合语音包。如果不能在各缓存队列中均获取一个语音包，则可以等待20ms后，继续在未获取语音包的缓存队列中获取语音包。如果等待20ms后，可以在未获取语音包的缓存队列中获取语音包，则可以根据两次获取的语音包，构成复合语音包。如果等待20ms后，仍然不能在未获取语音包的缓存队列中获取语音包，则插入与未能获取语音包的缓存队列对应的静音包，并根据两次获取的语音包以及静音包，构成复合语音包。

如图4b所示，该终端可以将原始语音数据包发送至右侧用户代理。右侧用户代理收到原始语音数据包后，可以计算原始语音数据包的有效语音标识信息和语音能量值。例如，可以通过语音活动检测(Voice Activity Detection，VAD)算法进行计算。之后还可以进行降噪处理。右侧用户代理可以根据原始语音数据包以及对应的有效语音标识信息和语音能量值，形成改进语音数据包，并可以调用左侧用户代理的io_write_frame函数将改进语音数据包发送至SFU服务器，从而使第三方网络中的第三方终端的语音数据能够参与SFU服务的选路处理，实现了第三方终端接入SFU会议进行通信的效果。

通过本公开实施例提供的语音信号处理方法，可以使得终端，特别是第三方网络中的第三方终端接入SFU会议中，可以听到与其他终端一致的混音，不会漏掉细节；第三方终端也可以将自身的语音数据通过SFU服务器进行选路处理，发送至其他终端，实现与其他终端在SFU会议中的无差别通信。

图5是根据本公开实施例的一种语音信号处理装置的结构示意图，该装置可以设置于电子设备中。具体的，该装置可以由FreeSwitch通信网关中的左侧用户代理执行。如图5所示，语音信号处理装置500包括：语音包存储模块510，复合语音包构成模块520、解码语音信号获取模块530和混音包发送模块540。其中：

语音包存储模块，用于在接收到SFU服务器发送的至少两路语音信号时，将与各路语音信号对应的各语音包单独存储在匹配的缓存队列中；

解码语音信号获取模块，用于获取FreeSwitch通信网关中的解码模块对复合语音包中的各语音包进行解码得到的多个解码语音信号；

混音包发送模块，用于将各解码语音信号进行混音处理，得到混音包，并将混音包发送至终端。

可选的，语音包存储模块510，包括：

第一基础序列号提取单元，用于在检测到与第一目标路数匹配的目标语音包时，提取目标语音包的第一基础序列号；

次数及门限值获取单元，用于获取与目标语音包匹配的目标缓存队列的当前序列号翻转次数以及序列号翻转门限值；

目标扩展序列号确定单元，用于根据第一基础序列号、当前序列号翻转次数以及序列号翻转门限值，确定与目标语音包匹配的目标扩展序列号；

目标语音包插入单元，用于按照目标扩展序列号，将目标语音包插入至目标缓存队列中。

可选的，目标语音包插入单元，包括：

首个语音包检测子单元，用于检测目标语音包是否为与设定语音片段对应的首个语音包；

第一目标语音包插入子单元，用于若检测目标语音包是与设定语音片段对应的首个语音包，则按照目标扩展序列号，将目标语音包插入至目标缓存队列中；

期望插入序列号确定子单元，用于若检测目标语音包不是与设定语音片段对应的首个语音包，根据目标缓存队列中的末位扩展序列号，确定期望插入序列号；

第二目标语音包插入子单元，用于如果期望插入序列号与目标扩展序列号相匹配，则按照目标扩展序列号，将目标语音包插入至目标缓存队列中；

丢包事件或重传数据包确定子单元，用于如果期望插入序列号与目标扩展序列号不相匹配，则确定发生丢包事件，或者确定目标语音包为发生丢包事件后的重传数据包；

第三目标语音包插入子单元，用于如果确定发生丢包事件，则构建丢包重传请求包，并按照目标扩展序列号，将目标语音包插入至目标缓存队列中；

第四目标语音包出入子单元，用于如果确定目标语音包为发生丢包事件后的重传数据包，则检测目标语音包是否满足时效性要求；若是，则按照目标扩展序列号，将目标语音包插入至目标缓存队列中；否则，丢弃目标语音包。

可选的，第三目标语音包插入子单元，具体用于：

根据期望插入序列号和目标扩展序列号，确定与丢失语音包对应的第二基础序列号；

根据第二基础序列号，构建丢包重传请求包，并将丢包重传请求包发送至SFU服务器，以请求发送丢失语音包的SFU终端对丢失语音包进行丢包重传。

可选的，复合语音包构成模块520，包括：

语音包获取判断单元，用于当满足多路语音信号的混音条件时，判断是否能从各缓存队列中均获取一个语音包；

第一复合语音包构成单元，用于若能从各缓存队列中均获取一个语音包，则将从各缓存队列中分别获取的语音包构成复合语音包；

语音包获取重新判断单元，用于若不能从各缓存队列中均获取一个语音包，则等待预设目标时长后，重新判断是否能从上次未获取到语音包的各缓存队列中均获取一个语音包；

第二复合语音包构成单元，用于如果确定能从上次未获取到语音包的各缓存队列中均获取一个语音包，则将前后两次获取的各语音包构成复合语音包；

第三复合语音包构成单元，用于如果确定不能从上次未获取到语音包的各缓存队列中均获取一个语音包，则构建与当前未能获取到语音包的各缓存队列分别对应的静音包，并将将前后两次获取的各语音包以及各静音包构成复合语音包。

可选的，语音包中包括：有效语音标识信息和语音能量值；

所述装置，还包括：

过载缓存队列确定模块，用于在判断是否能从各缓存队列中均获取一个语音包之前，检测各缓存队列当前缓存的各语音包是否超过预设数量门限值，并根据检测结果，确定过载缓存队列；

语音包剔除模块，用于剔除过载缓存队列中有效语音标识信息设置为无效，和/或，语音能量值小于或者等于预设能量门限值的语音包。

可选的，混音包发送模块540，包括：

时域叠加信号获取单元，用于将各解码语音信号进行时域叠加，得到时域叠加信号；

信号溢出处理单元，用于如果确定时域叠加信号出现信号幅值溢出，则按照预设溢出处理算法，对时域叠加信号进行溢出处理。

本公开实施例所提供的语音信号处理装置可执行本发明任意实施例所提供的语音信号处理方法，具备执行方法相应的功能模块和有益效果。

图6是根据本公开实施例的又一种语音信号处理装置的结构示意图，该装置可以设置于电子设备中。具体的，该装置可以由FreeSwitch通信网关中的右侧用户代理执行。如图6所示，语音信号处理装置600包括：原始语音数据包获取模块610、原始语音信号信息计算模块620、改进语音数据包形成模块630和改进语音数据包发送模块640。其中：

原始语音数据包获取模块610，用于获取终端发送的原始语音数据包；

原始语音信号信息计算模块620，用于对原始语音数据包中的原始语音信号进行解析处理，并计算与原始语音信号对应的有效语音标识信息和语音能量值；

改进语音数据包形成模块630，用于根据原始语音信号对应的有效语音标识信息和语音能量值，形成被SFU服务器采用进行选路处理的改进语音数据包；

改进语音数据包发送模块640，用于将改进语音数据包发送至SFU服务器。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如语音信号处理方法。例如，在一些实施例中，语音信号处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的语音信号处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音信号处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音信号处理方法，其特征在于，由FreeSwitch通信网关执行，包括：

在接收到选择性转发单元SFU服务器发送的至少两路语音信号时，将与各路所述语音信号对应的各语音包单独存储在匹配的缓存队列中；

当满足多路语音信号的混音条件时，判断是否能从各缓存队列中均获取一个语音包；其中，所述多路语音信号的混音条件是FreeSwitch通信网关中的io_read_frame回调时，所述FreeSwitch通信网关采用的是n:1的B2BUA交换模型实现通信，所述n:1为对多路语音信号进行接收，对单路语音信号进行转发；

如果确定不能从上次未获取到语音包的各缓存队列中均获取一个语音包，则构建与当前未能获取到语音包的各缓存队列分别对应的静音包，并将前后两次获取的各语音包以及各静音包构成复合语音包；

获取电话软交换FreeSwitch通信网关中的解码模块对所述复合语音包中的各语音包进行解码得到的多个解码语音信号；

将各所述解码语音信号进行混音处理，得到混音包，并将所述混音包发送至终端；

其中，将与各路所述语音信号对应的各语音包单独存储在匹配的缓存队列中，包括：

在检测到与第一目标路数匹配的目标语音包时，提取所述目标语音包的第一基础序列号；其中，所述第一基础序列号是目标语音包本身存在的序列号，并存储在目标语音包的包头；

获取与所述目标语音包匹配的目标缓存队列的当前序列号翻转次数以及序列号翻转门限值；

根据所述第一基础序列号、所述当前序列号翻转次数以及所述序列号翻转门限值，确定与所述目标语音包匹配的目标扩展序列号；

按照所述目标扩展序列号，将所述目标语音包插入至所述目标缓存队列中；

其中，按照所述目标扩展序列号，将所述目标语音包插入至所述目标缓存队列中，包括：

检测所述目标语音包是否为与设定语音片段对应的首个语音包；

若是，则按照所述目标扩展序列号，将所述目标语音包插入至所述目标缓存队列中；

否则，根据所述目标缓存队列中的末位扩展序列号，确定期望插入序列号；

如果所述期望插入序列号与所述目标扩展序列号相匹配，则按照所述目标扩展序列号，将所述目标语音包插入至所述目标缓存队列中；

如果所述期望插入序列号与所述目标扩展序列号不相匹配，则确定发生丢包事件，或者确定所述目标语音包为发生丢包事件后的重传数据包；

如果确定发生丢包事件，则构建丢包重传请求包，并按照所述目标扩展序列号，将所述目标语音包插入至所述目标缓存队列中；

如果确定所述目标语音包为发生丢包事件后的重传数据包，则检测所述目标语音包是否满足时效性要求；若是，则按照所述目标扩展序列号，将所述目标语音包插入至所述目标缓存队列中；否则，丢弃所述目标语音包。

2.根据权利要求1所述的方法，其中，构建丢包重传请求包，包括：

根据所述期望插入序列号和所述目标扩展序列号，确定与丢失语音包对应的第二基础序列号；

根据所述第二基础序列号，构建丢包重传请求包，并将所述丢包重传请求包发送至所述SFU服务器，以请求发送所述丢失语音包的SFU终端对所述丢失语音包进行丢包重传。

3.根据权利要求1所述的方法，其中，所述语音包中包括：有效语音标识信息和语音能量值；

在判断是否能从各缓存队列中均获取一个语音包之前，还包括：

检测各缓存队列当前缓存的各语音包是否超过预设数量门限值，并根据检测结果，确定过载缓存队列；

剔除所述过载缓存队列中有效语音标识信息设置为无效，和/或，语音能量值小于或者等于预设能量门限值的语音包。

4.根据权利要求1所述的方法，其中，将各所述解码语音信号进行混音处理，得到混音包，包括：

将各所述解码语音信号进行时域叠加，得到时域叠加信号；

如果确定所述时域叠加信号出现信号幅值溢出，则按照预设溢出处理算法，对所述时域叠加信号进行溢出处理。

5.一种语音信号处理方法，包括：

获取终端发送的原始语音数据包；

根据所述原始语音信号对应的有效语音标识信息和语音能量值，对原本无法通过选择性转发单元SFU服务器进行选路处理的语音信号进行处理，形成被所述选择性转发单元SFU服务器采用进行选路处理的改进语音数据包；其中，所述改进语音数据包是在原始语音数据包的包头添加有效语音标识信息和语音能量值得到的，所述改进语音数据包中的有效语音标识信息和语音能量值是作为SFU服务器进行选路处理的依据；

将所述改进语音数据包发送至所述SFU服务器，并作为一路语音信号被所述SFU服务器进行选路处理；

当所述SFU服务器选中所述改进语音数据包中的信号时，将所述改进语音数据包中的信号发送至如权利要求1所述的FreeSwitch通信网关中进行处理。

6.一种语音信号处理装置，其特征在于，配置于FreeSwitch通信网关，包括：

语音包存储模块，用于在接收到选择性转发单元SFU服务器发送的至少两路语音信号时，将与各路所述语音信号对应的各语音包单独存储在匹配的缓存队列中；

复合语音包构成模块，包括，

语音包获取判断单元，用于当满足多路语音信号的混音条件时，判断是否能从各缓存队列中均获取一个语音包；其中，所述多路语音信号的混音条件是FreeSwitch通信网关中的io_read_frame回调时，所述FreeSwitch通信网关采用的是n:1的B2BUA交换模型实现通信，所述n:1为对多路语音信号进行接收，对单路语音信号进行转发；

第三复合语音包构成单元，用于如果确定不能从上次未获取到语音包的各缓存队列中均获取一个语音包，则构建与当前未能获取到语音包的各缓存队列分别对应的静音包，并将将前后两次获取的各语音包以及各静音包构成复合语音包；

解码语音信号获取模块，用于获取电话软交换FreeSwitch通信网关中的解码模块对所述复合语音包中的各语音包进行解码得到的多个解码语音信号；

混音包发送模块，用于将各所述解码语音信号进行混音处理，得到混音包，并将所述混音包发送至终端；

其中，语音包存储模块，包括：

第一基础序列号提取单元，用于在检测到与第一目标路数匹配的目标语音包时，提取所述目标语音包的第一基础序列号；其中，所述第一基础序列号是目标语音包本身存在的序列号，并存储在目标语音包的包头；

次数及门限值获取单元，用于获取与所述目标语音包匹配的目标缓存队列的当前序列号翻转次数以及序列号翻转门限值；

目标扩展序列号确定单元，用于根据所述第一基础序列号、所述当前序列号翻转次数以及所述序列号翻转门限值，确定与所述目标语音包匹配的目标扩展序列号；

目标语音包插入单元，用于按照所述目标扩展序列号，将所述目标语音包插入至所述目标缓存队列中；

其中，目标语音包插入单元，包括：

首个语音包检测子单元，用于检测所述目标语音包是否为与设定语音片段对应的首个语音包；

第一目标语音包插入子单元，用于若检测所述目标语音包是与设定语音片段对应的首个语音包，则按照所述目标扩展序列号，将所述目标语音包插入至所述目标缓存队列中；

期望插入序列号确定子单元，用于若检测所述目标语音包不是与设定语音片段对应的首个语音包，根据所述目标缓存队列中的末位扩展序列号，确定期望插入序列号；

第二目标语音包插入子单元，用于如果所述期望插入序列号与所述目标扩展序列号相匹配，则按照所述目标扩展序列号，将所述目标语音包插入至所述目标缓存队列中；

丢包事件或重传数据包确定子单元，用于如果所述期望插入序列号与所述目标扩展序列号不相匹配，则确定发生丢包事件，或者确定所述目标语音包为发生丢包事件后的重传数据包；

第三目标语音包插入子单元，用于如果确定发生丢包事件，则构建丢包重传请求包，并按照所述目标扩展序列号，将所述目标语音包插入至所述目标缓存队列中；

第四目标语音包出入子单元，用于如果确定所述目标语音包为发生丢包事件后的重传数据包，则检测所述目标语音包是否满足时效性要求；若是，则按照所述目标扩展序列号，将所述目标语音包插入至所述目标缓存队列中；否则，丢弃所述目标语音包。

7.根据权利要求6所述的装置，其中，第三目标语音包插入子单元，具体用于：

8.根据权利要求6所述的装置，其中，所述语音包中包括：有效语音标识信息和语音能量值；

所述装置，还包括：

语音包剔除模块，用于剔除所述过载缓存队列中有效语音标识信息设置为无效，和/或，语音能量值小于或者等于预设能量门限值的语音包。

9.根据权利要求6所述的装置，其中，混音包发送模块，包括：

时域叠加信号获取单元，用于将各所述解码语音信号进行时域叠加，得到时域叠加信号；

信号溢出处理单元，用于如果确定所述时域叠加信号出现信号幅值溢出，则按照预设溢出处理算法，对所述时域叠加信号进行溢出处理。

10.一种语音信号处理装置，包括：

改进语音数据包形成模块，用于根据所述原始语音信号对应的有效语音标识信息和语音能量值，对原本无法通过选择性转发单元SFU服务器进行选路处理的语音信号进行处理，形成被所述选择性转发单元SFU服务器采用进行选路处理的改进语音数据包；其中，所述改进语音数据包是在原始语音数据包的包头添加有效语音标识信息和语音能量值得到的，所述改进语音数据包中的有效语音标识信息和语音能量值是作为SFU服务器进行选路处理的依据；

改进语音数据包发送模块，用于将所述改进语音数据包发送至所述SFU服务器，并作为一路语音信号被所述SFU服务器进行选路处理；

其中，改进语音数据包发送模块，还用于当所述SFU服务器选中所述改进语音数据包中的信号时，将所述改进语音数据包中的信号发送至如权利要求1所述的FreeSwitch通信网关中进行处理。

11. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。