Nothing Special   »   [go: up one dir, main page]

CN115148198A - 一种语音数据识别的对讲系统 - Google Patents

一种语音数据识别的对讲系统 Download PDF

Info

Publication number
CN115148198A
CN115148198A CN202211064527.1A CN202211064527A CN115148198A CN 115148198 A CN115148198 A CN 115148198A CN 202211064527 A CN202211064527 A CN 202211064527A CN 115148198 A CN115148198 A CN 115148198A
Authority
CN
China
Prior art keywords
voice
module
voice information
information
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211064527.1A
Other languages
English (en)
Inventor
潘仁兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongruike Technology Co ltd
Original Assignee
Zhongruike Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongruike Technology Co ltd filed Critical Zhongruike Technology Co ltd
Priority to CN202211064527.1A priority Critical patent/CN115148198A/zh
Publication of CN115148198A publication Critical patent/CN115148198A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q5/00Selecting arrangements wherein two or more subscriber stations are connected by the same line to the exchange
    • H04Q5/24Selecting arrangements wherein two or more subscriber stations are connected by the same line to the exchange for two-party-line systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)

Abstract

本发明公开一种语音数据识别的对讲系统,其中所述系统包括:语音发出模块,用于发出语音信息,作为对讲系统的一端音频信息来源;语音信息提取模块;用于提取语音发出模块输出的语音音频数据信息;语音信息分析模块;用于分析语音信息提取模块提取的语音音频数据信息特征,以将传输中音频失真情况计算出来;语音信息识别模块;用于识别语音信息分析模块输出的语音信号;语音信息合成模块;用于合成语音信息识别模块输出的语音信号;语音接收模块;用于接收语音信息合成模块输出的数据信号;本发明的系统能够提高对讲者的通话质量,提高音频识别能力和对讲能力,提高了对讲通话质量。

Description

一种语音数据识别的对讲系统
技术领域
本发明涉及语音数据识别技术领域,且更确切地涉及一种语音数据识别的对讲系统。
背景技术
对讲系统是居民楼宇可视电话对讲系统、校园、停车场对讲、平安城市对讲、管廊对讲、等各行业与外来访客、应急通信的对话系统,网络IP对讲系统能充分提高管理的简洁性和方便性。尤其是距离比较远的对讲系统,容易由于距离原因造成语音数据丢失或者缺失,导致语音识别能力降低。为了提高语音识别能力,提高语音识别质量,就需要一种高效提高语音数据信息识别的方法,使得对讲系统两端数据音频信息得到了快速沟通。
发明内容
针对上述技术的不足,本发明公开一种语音数据识别的对讲系统,该系统能够提高对讲者的通话质量,提高音频识别能力和对讲能力,大大提高了对讲通话质量。
为了实现上述技术效果,本发明采用以下技术方案:
一种语音数据识别的对讲系统,其中所述系统包括:
语音发出模块,用于发出语音信息,作为对讲系统的一端音频信息来源;
语音信息提取模块;用于提取语音发出模块输出的语音音频数据信息;
语音信息分析模块;用于分析语音信息提取模块提取的语音音频数据信息特征,以将传输中音频失真情况计算出来;
语音信息识别模块;用于识别语音信息分析模块输出的语音信号;
语音信息合成模块;用于合成语音信息识别模块输出的语音信号;
语音接收模块;用于接收语音信息合成模块输出的数据信号;
其中语音发出模块的输出端与语音信息提取模块的输入端连接,所述语音信息提取模块的输出端与语音信息分析模块的输入端连接,所述语音信息分析模块的输出端与语音信息识别模块的输入端连接,所述语音信息识别模块的输出端与语音信息合成模块的输入端连接,所述语音信息合成模块的输出端与语音接收模块的输入端连接。
作为本发明进一步的技术方案,所述语音发出模块包括音频信息处理模块和与所述音频信息处理模块连接的语音输出端子。
作为本发明进一步的技术方案,所述音频信息处理模块的方法表示:
假设语音发出端输出的时域信号表示
Figure 823794DEST_PATH_IMAGE001
,处理后得到某一帧的语音音频信号表 示
Figure 407353DEST_PATH_IMAGE002
,则存在关系式:
Figure 502348DEST_PATH_IMAGE003
(1)
通过公式(1)表示音频信息处理前后的关系式;
其中
Figure 748522DEST_PATH_IMAGE004
Figure 321585DEST_PATH_IMAGE005
,N表示音频信号的帧长,T表示音频信 号帧移长度,音频信号中帧语音信号的短时能量表示:
Figure 523766DEST_PATH_IMAGE006
(2)
公式(2)中,N表示音频信号的帧长,
Figure 179875DEST_PATH_IMAGE007
表示语音音频信号序列;则某一帧的音频信 号短时过零率表示:
Figure 257552DEST_PATH_IMAGE008
(3)
公式(3)中,
Figure 978515DEST_PATH_IMAGE009
表示某一帧的音频信号能量,
Figure 582671DEST_PATH_IMAGE010
表示某一帧相邻帧的音频 信号能量;
其中
Figure 285048DEST_PATH_IMAGE011
(4)
公式(4)中,
Figure 223923DEST_PATH_IMAGE012
表示相邻帧的音频信号能量差值。
作为本发明进一步的技术方案,语音信息提取模块包括基于STM32F405处理器和与所述STM32F405处理器连接的gammatone滤波器。
作为本发明进一步的技术方案,语音信息分析模块为基于PFGA控制芯片的主控芯片,所述主控芯片连接有gammatone滤波组,所述gammatone滤波组通过欧式距离模型计算语音失真度。
作为本发明进一步的技术方案,欧式距离模型为:
Figure 466686DEST_PATH_IMAGE013
(5)
公式(5)中,
Figure 331873DEST_PATH_IMAGE014
表示原始语音的第
Figure 18201DEST_PATH_IMAGE015
帧第
Figure 195104DEST_PATH_IMAGE016
行系数,
Figure 179241DEST_PATH_IMAGE017
表示失真语音的第
Figure 7257DEST_PATH_IMAGE015
帧第
Figure 520278DEST_PATH_IMAGE016
行系数,
Figure 184478DEST_PATH_IMAGE018
表示频率倒谱系数的矩阵行数,
Figure 972305DEST_PATH_IMAGE019
表示语音信号的总帧数;
欧式距离来度量为:
Figure 156293DEST_PATH_IMAGE020
(6)
公式(6)中,
Figure 433690DEST_PATH_IMAGE021
Figure 460552DEST_PATH_IMAGE022
表示
Figure 160393DEST_PATH_IMAGE023
Figure 651417DEST_PATH_IMAGE024
的特 征矢量,
Figure 771820DEST_PATH_IMAGE025
表示特征矢量的行数。
作为本发明进一步的技术方案,所述语音信息识别模块为基于LD332X芯片的语音识别模块。
作为本发明进一步的技术方案,所述语音信息合成模块为基于SYN6288E的语音合成器,包括译码器和与译码器连接的语音编码器、节奏模块、嵌入式扬声器、状态向量和说话人特征向量。
作为本发明进一步的技术方案,所述语音接收模块为听筒或者耳机。
本发明有益的积极效果在于:
区别于常规技术,本发明通过语音发出模块发出语音信息,作为对讲系统的一端音频信息来源;通过语音信息提取模块提取语音发出模块输出的语音音频数据信息;通过音信息分析模块分析语音信息提取模块提取的语音音频数据信息特征,以将传输中音频失真情况计算出来;通过语音信息识别模块识别语音信息分析模块输出的语音信号;通过语音信息合成模块合成语音信息识别模块输出的语音信号;通过语音接收模块接收语音信息合成模块输出的数据信号;大大提高了数据信息对讲能力。
附图说明
表示了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图,其中:
图1为本发明系统的结构示意图;
图2为本发明中语音发出模块的初始语音数据信号;
图3为本发明中语音发出模块处理后的音频和动作信号波形示意图;
图4为本发明中语音信息提取模块原理示意图;
图5为本发发明中语音分析模块原理示意图;
图6为本发明中语音合成模块原理示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,一种语音数据识别的对讲系统:
语音发出模块,用于发出语音信息,作为对讲系统的一端音频信息来源;
语音信息提取模块;用于提取语音发出模块输出的语音音频数据信息;
语音信息分析模块;用于分析语音信息提取模块提取的语音音频数据信息特征,以将传输中音频失真情况计算出来;
语音信息识别模块;用于识别语音信息分析模块输出的语音信号;
语音信息合成模块;用于合成语音信息识别模块输出的语音信号;
语音接收模块;用于接收语音信息合成模块输出的数据信号;
其中语音发出模块的输出端与语音信息提取模块的输入端连接,所述语音信息提取模块的输出端与语音信息分析模块的输入端连接,所述语音信息分析模块的输出端与语音信息识别模块的输入端连接,所述语音信息识别模块的输出端与语音信息合成模块的输入端连接,所述语音信息合成模块的输出端与语音接收模块的输入端连接。
在上述实施例中,语音发出模块包括音频信息处理模块和与所述音频信息处理模块连接的语音输出端子。
在上述实施例中,音频信息处理模块的方法表示:
如图2和图3所示,双门限端点检测技术对具有高信噪比的时域信号检测效果较好。音频信号不是持续稳定的过程,通过加窗得到某一帧的音频信息。通过短时能量检测浊音,将清音和背景噪声分别开。设定两个较高的能量门限得到浊音部分,区分语音的开始和结束时的音频信息。
假设语音发出端输出的时域信号表示
Figure 426923DEST_PATH_IMAGE026
,处理后得到某一帧的语音音频信号表 示
Figure 290974DEST_PATH_IMAGE027
,则存在关系式:
Figure 636505DEST_PATH_IMAGE028
(1)
通过公式(1)表示音频信息处理前后的关系式;
其中
Figure 301710DEST_PATH_IMAGE029
Figure 365481DEST_PATH_IMAGE030
,N表示音频信号的帧长,T表示音频信号 帧移长度,音频信号中帧语音信号的短时能量表示:
Figure 643010DEST_PATH_IMAGE031
(2)
公式(2)中,N表示音频信号的帧长,
Figure 46309DEST_PATH_IMAGE007
表示语音音频信号序列;则某一帧的音频信 号短时过零率表示:
Figure 898728DEST_PATH_IMAGE032
(3)
公式(3)中,
Figure 433483DEST_PATH_IMAGE033
表示某一帧的音频信号能量,
Figure 904916DEST_PATH_IMAGE034
表示某一帧相邻帧的音频 信号能量;
其中
Figure 287355DEST_PATH_IMAGE035
(4)
公式(4)中,
Figure 999091DEST_PATH_IMAGE036
表示相邻帧的音频信号能量差值。
通过语音发出模块,能够保证原始音频数据信息的完整性和可计算性。
在上述实施例中,语音信息提取模块包括基于STM32F405处理器和与所述STM32F405处理器连接的gammatone滤波器。
在上述实施例,STM32F405处理器是基于高性能ARM®Cortex®-M4 32位RISC核心,工作频率高达168兆赫。Cortex-M4内核具有一个浮点单元(FPU)单精度,支持所有ARM单精度数据处理指令和数据类型。它还实现了一套完整的DSP指令和一个内存保护单元(MPU),增强了应用程序的安全性。Gammatone滤波器被广泛用于模拟人类听觉系统对信号的处理方式,作为语音信号的一类听觉分析滤波器(以下简称为GT滤波器)。GT滤波器只需要很少的参数就能很好地模拟听觉实验中的生理数据,能够体现基底膜尖锐的滤波特性,而且 GT滤波器具有简单的冲激响应函数,能够由此推导出GT函数的传递函数,进行各种滤波器性能分析,同时有利于听觉模型的电路实现。该滤波器能够提供三个12位ADC、两个DAC、一个低功耗RTC、十二个通用16位定时器,包括两个用于电机控制的PWM定时器、两个通用32位定时器。一个真正的随机数发生器(RNG)。gammatone滤波器输出的数据信息即为语音信息提取模块提取后的数据信息。
在上述实施例中,语音信息分析模块为基于PFGA控制芯片的主控芯片,所述主控芯片连接有gammatone滤波组,所述gammatone滤波组通过欧式距离模型计算语音失真度。
在上述实施例中,欧式距离模型为:
在具体实施例中,通过计算平均欧式距离来计算原始语音与失真语音频谱失真,其中平均欧式距离为:
Figure 709558DEST_PATH_IMAGE037
(5)
公式(5)中,
Figure 109315DEST_PATH_IMAGE014
表示原始语音的第
Figure 487207DEST_PATH_IMAGE015
帧第
Figure 556794DEST_PATH_IMAGE016
行系数,
Figure 66141DEST_PATH_IMAGE038
表示失真语音的第
Figure 4010DEST_PATH_IMAGE015
帧第
Figure 236409DEST_PATH_IMAGE016
行系数,
Figure 86684DEST_PATH_IMAGE039
表示频率倒谱系数的矩阵行数,
Figure 99639DEST_PATH_IMAGE019
表示语音信号的总帧数;
假设原始语音和受损语音的音频频谱特征分别表示为
Figure 716566DEST_PATH_IMAGE040
Figure 911792DEST_PATH_IMAGE041
,原始语音频率倒 谱系数特征表示为
Figure 385499DEST_PATH_IMAGE042
,受损语音特征表示为
Figure 292275DEST_PATH_IMAGE043
,两者 之间的失真表示为
Figure 588259DEST_PATH_IMAGE044
Figure 264090DEST_PATH_IMAGE045
Figure 174278DEST_PATH_IMAGE046
每个相应序列的失真计算,设
Figure 207830DEST_PATH_IMAGE047
是从
Figure 900980DEST_PATH_IMAGE045
Figure 24794DEST_PATH_IMAGE048
中随意选取序列号, 则序列特征矢量之间的失真用
Figure 653352DEST_PATH_IMAGE049
表示,选用欧式距离来度量为:
Figure 534721DEST_PATH_IMAGE050
(6)
公式(6)中,
Figure 156195DEST_PATH_IMAGE051
Figure 383783DEST_PATH_IMAGE052
表示
Figure 307876DEST_PATH_IMAGE053
Figure 207699DEST_PATH_IMAGE054
的特征 矢量,
Figure 632864DEST_PATH_IMAGE025
表示特征矢量的行数。计算失真
Figure 216424DEST_PATH_IMAGE055
时,需要考虑原始语音与受损语音序 列之间的关系状况,若
Figure 311419DEST_PATH_IMAGE056
时,可以依次计算
Figure 292013DEST_PATH_IMAGE057
,每个序列的失 真进行求和计算得到总失真。若
Figure 996836DEST_PATH_IMAGE058
时,则要考虑将
Figure 621853DEST_PATH_IMAGE059
Figure 215645DEST_PATH_IMAGE060
对齐,因此采用动态 规整的方法。
将原始语音的特征
Figure 824481DEST_PATH_IMAGE061
标在二维直角坐标系的横轴上,将受损语音的特征
Figure 76602DEST_PATH_IMAGE062
标在坐标系的纵轴上,在坐标系上标示过之后,形成一个纵横线交错的网格,网 格中的交点表示原始语音与受损语音的相交点
Figure 821704DEST_PATH_IMAGE063
Figure 586398DEST_PATH_IMAGE064
算法能够找到相交点
Figure 525273DEST_PATH_IMAGE063
的 路径,由此路径进行计算每个交点之间的距离之和,即原始语音和受损语音的失真距离。
在上述实施例中,语音信息识别模块为基于LD332X芯片的语音识别模块。
在具体实施例中,LD332X非特定人语音识别芯片:只需要51MCU将关键词语拼音串,设置寄存器传入LD332X芯片,就可以完成语音识别功能。直接将芯片设计加入系统中(LD332X芯片支持并口和SPI两种接口方式)即可以增加非特定人语音识别功能。LD332X系列是ICRoute生产的基于非特定人语音识别(SI-ASR:Speaker-Independent AutomaticSpeech Recognition)技术的语音识别/声控芯片。该系列产品提供了真正的单芯片语音识别解决方案。LD332X系列芯片在设计上注重节能与高效,不需要外接任何的辅助芯片如Flash、RAM、加密芯片等,直接集成在现有的产品中即可以实现语音识别/声控/人机对话功能。并且,识别的关键词语列表是可以任意动态编辑的。基于LD332X芯片,可以在任何的电子产品中,甚至包括最简单的51MCU作为主控芯片的系统中,轻松实现语音识别/声控/人机对话功能。为所有的电子产品增加VUI(Voice User Interface)语音用户操作界面。用户可以结合产品的实际应用场景来选择不同的用户使用模式。主控MCU对芯片的操作通过读写芯片内部寄存器完成。通过设置和读取寄存器可以方便地完成设置语音识别列表,启动语音识别,获得识别结果,播放MP3等功能。芯片内部已经准备了16位A/D转换器、16位D/A转换器和功放电路。麦克风、立体声耳机和单声道喇叭可以很方便地和芯片管脚连接。立体声耳机接口的输出功率为20mW,而喇叭接口的输出功率为550mW,能产生清晰响亮的声音。支持并行接口和串行接口SPI两种连接方式,串行方式可以简化与其他模块的连接。可把芯片设置为休眠状态,此时耗电非常少,而且可以方便地激活。支持MP3播放功能,无需外围辅助器件,主控MCU将MP3数据依次送入LD332X芯片内部就可以从芯片的D/A PIN输出声音。支持MPEG1(ISO/IEC11172-3), MPEG2(ISO/IEC13818-3) 和MPEG 2.5 layer 3等格式。工作供电为3.3V,如果用于便携式系统,使用3节AA电池就可以满足供电需要。
在上述实施例中,语音信息合成模块为基于SYN6288E的语音合成器,包括译码器和与译码器连接的语音编码器、节奏模块、嵌入式扬声器、状态向量和说话人特征向量。
在上述实施例中,还可以采用端到端语音识别模型RNN实现语音数据信息的合成与计算,比如将外部神经网络语言模型(NNLM)引入 RNN-T beam-search 解码中的方法,并探索了使用外部 NNLM 进行 MBR 训练的方法。在一种实施例中,如图6所示,将混频信号输出至语音编码器进行语音编码,通过将状态向量输出至译码器,音素序列通过编码器经由译码器,节奏模块通过节奏预测输送至译码器,嵌入式扬声器通过提取说话人特征向量输送至译码器,将不同形式的语音音频数据信息合成,最终实现语音输出。
在上述实施例中,语音接收模块为听筒或者耳机。
在上述实施例中,语音接收模块还可以为语音信息合成模块输出数据信息的语音数据信息。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。

Claims (9)

1.一种语音数据识别的对讲系统,其特征在于:所述系统包括:
语音发出模块,用于发出语音信息,作为对讲系统的一端音频信息来源;
语音信息提取模块;用于提取语音发出模块输出的语音音频数据信息;
语音信息分析模块;用于分析语音信息提取模块提取的语音音频数据信息特征,以将传输中音频失真情况计算出来;
语音信息识别模块;用于识别语音信息分析模块输出的语音信号;
语音信息合成模块;用于合成语音信息识别模块输出的语音信号;
语音接收模块;用于接收语音信息合成模块输出的数据信号;
其中语音发出模块的输出端与语音信息提取模块的输入端连接,所述语音信息提取模块的输出端与语音信息分析模块的输入端连接,所述语音信息分析模块的输出端与语音信息识别模块的输入端连接,所述语音信息识别模块的输出端与语音信息合成模块的输入端连接,所述语音信息合成模块的输出端与语音接收模块的输入端连接。
2.根据权利要求1所述的一种语音数据识别的对讲系统,其特征在于:所述语音发出模块包括音频信息处理模块和与所述音频信息处理模块连接的语音输出端子。
3.根据权利要求2所述的一种语音数据识别的对讲系统,其特征在于:所述音频信息处理模块的方法表示:
假设语音发出端输出的时域信号表示
Figure 63125DEST_PATH_IMAGE001
,处理后得到某一帧的语音音频信号表示
Figure 662733DEST_PATH_IMAGE002
,则存在关系式:
Figure 441071DEST_PATH_IMAGE003
(1)
通过公式(1)表示音频信息处理前后的关系式;
其中
Figure 227762DEST_PATH_IMAGE004
Figure 602111DEST_PATH_IMAGE005
,N表示音频信号的帧长,T表示音频信号帧移 长度,音频信号中帧语音信号的短时能量表示:
Figure 790647DEST_PATH_IMAGE006
(2)
公式(2)中,N表示音频信号的帧长,
Figure 444614DEST_PATH_IMAGE007
表示语音音频信号序列;则某一帧的音频信号短 时过零率表示:
Figure 984179DEST_PATH_IMAGE008
(3)
公式(3)中,
Figure 631061DEST_PATH_IMAGE009
表示某一帧的音频信号能量,
Figure 516847DEST_PATH_IMAGE010
表示某一帧相邻帧的音频信号 能量;
其中
Figure 466348DEST_PATH_IMAGE011
(4)
公式(4)中,
Figure 883423DEST_PATH_IMAGE012
表示相邻帧的音频信号能量差值。
4.根据权利要求1所述的一种语音数据识别的对讲系统,其特征在于:语音信息提取模块包括基于STM32F405处理器和与所述STM32F405处理器连接的gammatone滤波器。
5.根据权利要求1所述的一种语音数据识别的对讲系统,其特征在于:语音信息分析模块为基于PFGA控制芯片的主控芯片,所述主控芯片连接有gammatone滤波组,所述gammatone滤波组通过欧式距离模型计算语音失真度。
6.根据权利要求5所述的一种语音数据识别的对讲系统,其特征在于:欧式距离模型为:
Figure 943783DEST_PATH_IMAGE013
(5)
公式(5)中,
Figure 451119DEST_PATH_IMAGE014
表示原始语音的第
Figure 961734DEST_PATH_IMAGE015
帧第
Figure 210313DEST_PATH_IMAGE016
行系数,
Figure 651528DEST_PATH_IMAGE017
表示失真语音的第
Figure 59375DEST_PATH_IMAGE015
帧第
Figure 616259DEST_PATH_IMAGE016
行系数,
Figure 227500DEST_PATH_IMAGE019
表示频率倒谱系数的矩阵行数,
Figure 691979DEST_PATH_IMAGE020
表示语音信号的总帧数;
欧式距离来度量为:
Figure 469180DEST_PATH_IMAGE021
(6)
公式(6)中,
Figure 259281DEST_PATH_IMAGE022
Figure 482452DEST_PATH_IMAGE023
表示
Figure 94830DEST_PATH_IMAGE024
Figure 87057DEST_PATH_IMAGE025
的特征矢量,
Figure 48060DEST_PATH_IMAGE026
表示特征矢量的行数。
7.根据权利要求1所述的一种语音数据识别的对讲系统,其特征在于:所述语音信息识别模块为基于LD332X芯片的语音识别模块。
8.根据权利要求1所述的一种语音数据识别的对讲系统,其特征在于:所述语音信息合成模块为基于SYN6288E的语音合成器,包括译码器和与译码器连接的语音编码器、节奏模块、嵌入式扬声器、状态向量和说话人特征向量。
9.根据权利要求1所述的一种语音数据识别的对讲系统,其特征在于:所述语音接收模块为听筒或者耳机。
CN202211064527.1A 2022-09-01 2022-09-01 一种语音数据识别的对讲系统 Pending CN115148198A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211064527.1A CN115148198A (zh) 2022-09-01 2022-09-01 一种语音数据识别的对讲系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211064527.1A CN115148198A (zh) 2022-09-01 2022-09-01 一种语音数据识别的对讲系统

Publications (1)

Publication Number Publication Date
CN115148198A true CN115148198A (zh) 2022-10-04

Family

ID=83415157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211064527.1A Pending CN115148198A (zh) 2022-09-01 2022-09-01 一种语音数据识别的对讲系统

Country Status (1)

Country Link
CN (1) CN115148198A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101017428A (zh) * 2006-12-22 2007-08-15 广东电子工业研究院有限公司 一种嵌入式语音交互装置及交互方法
CN102881289A (zh) * 2012-09-11 2013-01-16 重庆大学 一种基于听觉感知特性的语音质量客观评价方法
CN107393544A (zh) * 2017-06-19 2017-11-24 维沃移动通信有限公司 一种语音信号修复方法及移动终端
CN110289014A (zh) * 2019-05-21 2019-09-27 华为技术有限公司 一种语音质量检测方法及电子设备
CN215420266U (zh) * 2021-07-02 2022-01-04 湖北达哲信息技术有限公司 一种基于物联网的工矿企业用无线对讲机

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101017428A (zh) * 2006-12-22 2007-08-15 广东电子工业研究院有限公司 一种嵌入式语音交互装置及交互方法
CN102881289A (zh) * 2012-09-11 2013-01-16 重庆大学 一种基于听觉感知特性的语音质量客观评价方法
CN107393544A (zh) * 2017-06-19 2017-11-24 维沃移动通信有限公司 一种语音信号修复方法及移动终端
CN110289014A (zh) * 2019-05-21 2019-09-27 华为技术有限公司 一种语音质量检测方法及电子设备
CN215420266U (zh) * 2021-07-02 2022-01-04 湖北达哲信息技术有限公司 一种基于物联网的工矿企业用无线对讲机

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋知用编著: "《MATLAB语音信号分析与合成 第2版》", 31 January 2018, 北京航空航天大学出版社 *

Similar Documents

Publication Publication Date Title
US11308978B2 (en) Systems and methods for energy efficient and low power distributed automatic speech recognition on wearable devices
JP2024084842A (ja) 高次アンビソニックス信号表現を圧縮又は圧縮解除するための方法又は装置
KR100594670B1 (ko) 자동 음성 인식 시스템 및 방법과, 자동 화자 인식 시스템
WO2023030235A1 (zh) 目标音频的输出方法及系统、可读存储介质、电子装置
WO2006070757A1 (ja) 音声符号化装置および音声符号化方法
CN103299365A (zh) 用于自适应地编码和解码带水印信号的装置
CN112908293B (zh) 一种基于语义注意力机制的多音字发音纠错方法及装置
CN111976924A (zh) 一种用于潜水全面罩的实时信息交流装置
JPH0946233A (ja) 音声符号化方法とその装置、音声復号方法とその装置
CN111246469B (zh) 人工智能保密通信系统及通信方法
CN113539232A (zh) 一种基于慕课语音数据集的语音合成方法
CN114863942B (zh) 音质转换的模型训练方法、提升语音音质的方法及装置
KR20080059657A (ko) 스펙트럼 변화에 기초한 신호 코딩 및 디코딩
CN205336318U (zh) 水声语音通信终端
CN115116458A (zh) 语音数据转换方法、装置、计算机设备及存储介质
CN115148198A (zh) 一种语音数据识别的对讲系统
WO2019169685A1 (zh) 语音处理方法、装置和电子设备
CN113936680B (zh) 基于多尺度信息感知卷积神经网络的单通道语音增强方法
CN113327589B (zh) 一种基于姿态传感器的语音活动检测方法
CN107680570A (zh) 一种midi数据转换成振感波形的设备与方法
CN114157371A (zh) 一种低功耗水下数字语音通信方法及通信系统
CN109697985B (zh) 语音信号处理方法、装置及终端
CN207651168U (zh) 一种超清晰语音传输和识别模块
CN111199747A (zh) 人工智能通信系统及通信方法
CN114007169B (zh) 用于tws蓝牙耳机的音频调节方法、系统和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221004

RJ01 Rejection of invention patent application after publication