CN115148198A - 一种语音数据识别的对讲系统 - Google Patents
一种语音数据识别的对讲系统 Download PDFInfo
- Publication number
- CN115148198A CN115148198A CN202211064527.1A CN202211064527A CN115148198A CN 115148198 A CN115148198 A CN 115148198A CN 202211064527 A CN202211064527 A CN 202211064527A CN 115148198 A CN115148198 A CN 115148198A
- Authority
- CN
- China
- Prior art keywords
- voice
- module
- voice information
- information
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 20
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 19
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000005236 sound signal Effects 0.000 claims description 31
- 239000013598 vector Substances 0.000 claims description 15
- 230000010365 information processing Effects 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 7
- 230000033764 rhythmic process Effects 0.000 claims description 5
- 230000037433 frameshift Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005316 response function Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 101000969688 Homo sapiens Macrophage-expressed gene 1 protein Proteins 0.000 description 1
- 102100021285 Macrophage-expressed gene 1 protein Human genes 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000000721 basilar membrane Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 229920005994 diacetyl cellulose Polymers 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q5/00—Selecting arrangements wherein two or more subscriber stations are connected by the same line to the exchange
- H04Q5/24—Selecting arrangements wherein two or more subscriber stations are connected by the same line to the exchange for two-party-line systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Interconnected Communication Systems, Intercoms, And Interphones (AREA)
Abstract
本发明公开一种语音数据识别的对讲系统,其中所述系统包括:语音发出模块,用于发出语音信息,作为对讲系统的一端音频信息来源;语音信息提取模块;用于提取语音发出模块输出的语音音频数据信息;语音信息分析模块;用于分析语音信息提取模块提取的语音音频数据信息特征,以将传输中音频失真情况计算出来;语音信息识别模块;用于识别语音信息分析模块输出的语音信号;语音信息合成模块;用于合成语音信息识别模块输出的语音信号;语音接收模块;用于接收语音信息合成模块输出的数据信号;本发明的系统能够提高对讲者的通话质量,提高音频识别能力和对讲能力,提高了对讲通话质量。
Description
技术领域
本发明涉及语音数据识别技术领域,且更确切地涉及一种语音数据识别的对讲系统。
背景技术
对讲系统是居民楼宇可视电话对讲系统、校园、停车场对讲、平安城市对讲、管廊对讲、等各行业与外来访客、应急通信的对话系统,网络IP对讲系统能充分提高管理的简洁性和方便性。尤其是距离比较远的对讲系统,容易由于距离原因造成语音数据丢失或者缺失,导致语音识别能力降低。为了提高语音识别能力,提高语音识别质量,就需要一种高效提高语音数据信息识别的方法,使得对讲系统两端数据音频信息得到了快速沟通。
发明内容
针对上述技术的不足,本发明公开一种语音数据识别的对讲系统,该系统能够提高对讲者的通话质量,提高音频识别能力和对讲能力,大大提高了对讲通话质量。
为了实现上述技术效果,本发明采用以下技术方案:
一种语音数据识别的对讲系统,其中所述系统包括:
语音发出模块,用于发出语音信息,作为对讲系统的一端音频信息来源;
语音信息提取模块;用于提取语音发出模块输出的语音音频数据信息;
语音信息分析模块;用于分析语音信息提取模块提取的语音音频数据信息特征,以将传输中音频失真情况计算出来;
语音信息识别模块;用于识别语音信息分析模块输出的语音信号;
语音信息合成模块;用于合成语音信息识别模块输出的语音信号;
语音接收模块;用于接收语音信息合成模块输出的数据信号;
其中语音发出模块的输出端与语音信息提取模块的输入端连接,所述语音信息提取模块的输出端与语音信息分析模块的输入端连接,所述语音信息分析模块的输出端与语音信息识别模块的输入端连接,所述语音信息识别模块的输出端与语音信息合成模块的输入端连接,所述语音信息合成模块的输出端与语音接收模块的输入端连接。
作为本发明进一步的技术方案,所述语音发出模块包括音频信息处理模块和与所述音频信息处理模块连接的语音输出端子。
作为本发明进一步的技术方案,所述音频信息处理模块的方法表示:
通过公式(1)表示音频信息处理前后的关系式;
作为本发明进一步的技术方案,语音信息提取模块包括基于STM32F405处理器和与所述STM32F405处理器连接的gammatone滤波器。
作为本发明进一步的技术方案,语音信息分析模块为基于PFGA控制芯片的主控芯片,所述主控芯片连接有gammatone滤波组,所述gammatone滤波组通过欧式距离模型计算语音失真度。
作为本发明进一步的技术方案,欧式距离模型为:
欧式距离来度量为:
作为本发明进一步的技术方案,所述语音信息识别模块为基于LD332X芯片的语音识别模块。
作为本发明进一步的技术方案,所述语音信息合成模块为基于SYN6288E的语音合成器,包括译码器和与译码器连接的语音编码器、节奏模块、嵌入式扬声器、状态向量和说话人特征向量。
作为本发明进一步的技术方案,所述语音接收模块为听筒或者耳机。
本发明有益的积极效果在于:
区别于常规技术,本发明通过语音发出模块发出语音信息,作为对讲系统的一端音频信息来源;通过语音信息提取模块提取语音发出模块输出的语音音频数据信息;通过音信息分析模块分析语音信息提取模块提取的语音音频数据信息特征,以将传输中音频失真情况计算出来;通过语音信息识别模块识别语音信息分析模块输出的语音信号;通过语音信息合成模块合成语音信息识别模块输出的语音信号;通过语音接收模块接收语音信息合成模块输出的数据信号;大大提高了数据信息对讲能力。
附图说明
表示了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图,其中:
图1为本发明系统的结构示意图;
图2为本发明中语音发出模块的初始语音数据信号;
图3为本发明中语音发出模块处理后的音频和动作信号波形示意图;
图4为本发明中语音信息提取模块原理示意图;
图5为本发发明中语音分析模块原理示意图;
图6为本发明中语音合成模块原理示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,一种语音数据识别的对讲系统:
语音发出模块,用于发出语音信息,作为对讲系统的一端音频信息来源;
语音信息提取模块;用于提取语音发出模块输出的语音音频数据信息;
语音信息分析模块;用于分析语音信息提取模块提取的语音音频数据信息特征,以将传输中音频失真情况计算出来;
语音信息识别模块;用于识别语音信息分析模块输出的语音信号;
语音信息合成模块;用于合成语音信息识别模块输出的语音信号;
语音接收模块;用于接收语音信息合成模块输出的数据信号;
其中语音发出模块的输出端与语音信息提取模块的输入端连接,所述语音信息提取模块的输出端与语音信息分析模块的输入端连接,所述语音信息分析模块的输出端与语音信息识别模块的输入端连接,所述语音信息识别模块的输出端与语音信息合成模块的输入端连接,所述语音信息合成模块的输出端与语音接收模块的输入端连接。
在上述实施例中,语音发出模块包括音频信息处理模块和与所述音频信息处理模块连接的语音输出端子。
在上述实施例中,音频信息处理模块的方法表示:
如图2和图3所示,双门限端点检测技术对具有高信噪比的时域信号检测效果较好。音频信号不是持续稳定的过程,通过加窗得到某一帧的音频信息。通过短时能量检测浊音,将清音和背景噪声分别开。设定两个较高的能量门限得到浊音部分,区分语音的开始和结束时的音频信息。
通过公式(1)表示音频信息处理前后的关系式;
通过语音发出模块,能够保证原始音频数据信息的完整性和可计算性。
在上述实施例中,语音信息提取模块包括基于STM32F405处理器和与所述STM32F405处理器连接的gammatone滤波器。
在上述实施例,STM32F405处理器是基于高性能ARM®Cortex®-M4 32位RISC核心,工作频率高达168兆赫。Cortex-M4内核具有一个浮点单元(FPU)单精度,支持所有ARM单精度数据处理指令和数据类型。它还实现了一套完整的DSP指令和一个内存保护单元(MPU),增强了应用程序的安全性。Gammatone滤波器被广泛用于模拟人类听觉系统对信号的处理方式,作为语音信号的一类听觉分析滤波器(以下简称为GT滤波器)。GT滤波器只需要很少的参数就能很好地模拟听觉实验中的生理数据,能够体现基底膜尖锐的滤波特性,而且 GT滤波器具有简单的冲激响应函数,能够由此推导出GT函数的传递函数,进行各种滤波器性能分析,同时有利于听觉模型的电路实现。该滤波器能够提供三个12位ADC、两个DAC、一个低功耗RTC、十二个通用16位定时器,包括两个用于电机控制的PWM定时器、两个通用32位定时器。一个真正的随机数发生器(RNG)。gammatone滤波器输出的数据信息即为语音信息提取模块提取后的数据信息。
在上述实施例中,语音信息分析模块为基于PFGA控制芯片的主控芯片,所述主控芯片连接有gammatone滤波组,所述gammatone滤波组通过欧式距离模型计算语音失真度。
在上述实施例中,欧式距离模型为:
在具体实施例中,通过计算平均欧式距离来计算原始语音与失真语音频谱失真,其中平均欧式距离为:
公式(6)中,和表示和的特征
矢量,表示特征矢量的行数。计算失真时,需要考虑原始语音与受损语音序
列之间的关系状况,若时,可以依次计算,每个序列的失
真进行求和计算得到总失真。若时,则要考虑将和对齐,因此采用动态
规整的方法。
将原始语音的特征标在二维直角坐标系的横轴上,将受损语音的特征标在坐标系的纵轴上,在坐标系上标示过之后,形成一个纵横线交错的网格,网
格中的交点表示原始语音与受损语音的相交点,算法能够找到相交点的
路径,由此路径进行计算每个交点之间的距离之和,即原始语音和受损语音的失真距离。
在上述实施例中,语音信息识别模块为基于LD332X芯片的语音识别模块。
在具体实施例中,LD332X非特定人语音识别芯片:只需要51MCU将关键词语拼音串,设置寄存器传入LD332X芯片,就可以完成语音识别功能。直接将芯片设计加入系统中(LD332X芯片支持并口和SPI两种接口方式)即可以增加非特定人语音识别功能。LD332X系列是ICRoute生产的基于非特定人语音识别(SI-ASR:Speaker-Independent AutomaticSpeech Recognition)技术的语音识别/声控芯片。该系列产品提供了真正的单芯片语音识别解决方案。LD332X系列芯片在设计上注重节能与高效,不需要外接任何的辅助芯片如Flash、RAM、加密芯片等,直接集成在现有的产品中即可以实现语音识别/声控/人机对话功能。并且,识别的关键词语列表是可以任意动态编辑的。基于LD332X芯片,可以在任何的电子产品中,甚至包括最简单的51MCU作为主控芯片的系统中,轻松实现语音识别/声控/人机对话功能。为所有的电子产品增加VUI(Voice User Interface)语音用户操作界面。用户可以结合产品的实际应用场景来选择不同的用户使用模式。主控MCU对芯片的操作通过读写芯片内部寄存器完成。通过设置和读取寄存器可以方便地完成设置语音识别列表,启动语音识别,获得识别结果,播放MP3等功能。芯片内部已经准备了16位A/D转换器、16位D/A转换器和功放电路。麦克风、立体声耳机和单声道喇叭可以很方便地和芯片管脚连接。立体声耳机接口的输出功率为20mW,而喇叭接口的输出功率为550mW,能产生清晰响亮的声音。支持并行接口和串行接口SPI两种连接方式,串行方式可以简化与其他模块的连接。可把芯片设置为休眠状态,此时耗电非常少,而且可以方便地激活。支持MP3播放功能,无需外围辅助器件,主控MCU将MP3数据依次送入LD332X芯片内部就可以从芯片的D/A PIN输出声音。支持MPEG1(ISO/IEC11172-3), MPEG2(ISO/IEC13818-3) 和MPEG 2.5 layer 3等格式。工作供电为3.3V,如果用于便携式系统,使用3节AA电池就可以满足供电需要。
在上述实施例中,语音信息合成模块为基于SYN6288E的语音合成器,包括译码器和与译码器连接的语音编码器、节奏模块、嵌入式扬声器、状态向量和说话人特征向量。
在上述实施例中,还可以采用端到端语音识别模型RNN实现语音数据信息的合成与计算,比如将外部神经网络语言模型(NNLM)引入 RNN-T beam-search 解码中的方法,并探索了使用外部 NNLM 进行 MBR 训练的方法。在一种实施例中,如图6所示,将混频信号输出至语音编码器进行语音编码,通过将状态向量输出至译码器,音素序列通过编码器经由译码器,节奏模块通过节奏预测输送至译码器,嵌入式扬声器通过提取说话人特征向量输送至译码器,将不同形式的语音音频数据信息合成,最终实现语音输出。
在上述实施例中,语音接收模块为听筒或者耳机。
在上述实施例中,语音接收模块还可以为语音信息合成模块输出数据信息的语音数据信息。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。
Claims (9)
1.一种语音数据识别的对讲系统,其特征在于:所述系统包括:
语音发出模块,用于发出语音信息,作为对讲系统的一端音频信息来源;
语音信息提取模块;用于提取语音发出模块输出的语音音频数据信息;
语音信息分析模块;用于分析语音信息提取模块提取的语音音频数据信息特征,以将传输中音频失真情况计算出来;
语音信息识别模块;用于识别语音信息分析模块输出的语音信号;
语音信息合成模块;用于合成语音信息识别模块输出的语音信号;
语音接收模块;用于接收语音信息合成模块输出的数据信号;
其中语音发出模块的输出端与语音信息提取模块的输入端连接,所述语音信息提取模块的输出端与语音信息分析模块的输入端连接,所述语音信息分析模块的输出端与语音信息识别模块的输入端连接,所述语音信息识别模块的输出端与语音信息合成模块的输入端连接,所述语音信息合成模块的输出端与语音接收模块的输入端连接。
2.根据权利要求1所述的一种语音数据识别的对讲系统,其特征在于:所述语音发出模块包括音频信息处理模块和与所述音频信息处理模块连接的语音输出端子。
4.根据权利要求1所述的一种语音数据识别的对讲系统,其特征在于:语音信息提取模块包括基于STM32F405处理器和与所述STM32F405处理器连接的gammatone滤波器。
5.根据权利要求1所述的一种语音数据识别的对讲系统,其特征在于:语音信息分析模块为基于PFGA控制芯片的主控芯片,所述主控芯片连接有gammatone滤波组,所述gammatone滤波组通过欧式距离模型计算语音失真度。
7.根据权利要求1所述的一种语音数据识别的对讲系统,其特征在于:所述语音信息识别模块为基于LD332X芯片的语音识别模块。
8.根据权利要求1所述的一种语音数据识别的对讲系统,其特征在于:所述语音信息合成模块为基于SYN6288E的语音合成器,包括译码器和与译码器连接的语音编码器、节奏模块、嵌入式扬声器、状态向量和说话人特征向量。
9.根据权利要求1所述的一种语音数据识别的对讲系统,其特征在于:所述语音接收模块为听筒或者耳机。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211064527.1A CN115148198A (zh) | 2022-09-01 | 2022-09-01 | 一种语音数据识别的对讲系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211064527.1A CN115148198A (zh) | 2022-09-01 | 2022-09-01 | 一种语音数据识别的对讲系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115148198A true CN115148198A (zh) | 2022-10-04 |
Family
ID=83415157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211064527.1A Pending CN115148198A (zh) | 2022-09-01 | 2022-09-01 | 一种语音数据识别的对讲系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115148198A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101017428A (zh) * | 2006-12-22 | 2007-08-15 | 广东电子工业研究院有限公司 | 一种嵌入式语音交互装置及交互方法 |
CN102881289A (zh) * | 2012-09-11 | 2013-01-16 | 重庆大学 | 一种基于听觉感知特性的语音质量客观评价方法 |
CN107393544A (zh) * | 2017-06-19 | 2017-11-24 | 维沃移动通信有限公司 | 一种语音信号修复方法及移动终端 |
CN110289014A (zh) * | 2019-05-21 | 2019-09-27 | 华为技术有限公司 | 一种语音质量检测方法及电子设备 |
CN215420266U (zh) * | 2021-07-02 | 2022-01-04 | 湖北达哲信息技术有限公司 | 一种基于物联网的工矿企业用无线对讲机 |
-
2022
- 2022-09-01 CN CN202211064527.1A patent/CN115148198A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101017428A (zh) * | 2006-12-22 | 2007-08-15 | 广东电子工业研究院有限公司 | 一种嵌入式语音交互装置及交互方法 |
CN102881289A (zh) * | 2012-09-11 | 2013-01-16 | 重庆大学 | 一种基于听觉感知特性的语音质量客观评价方法 |
CN107393544A (zh) * | 2017-06-19 | 2017-11-24 | 维沃移动通信有限公司 | 一种语音信号修复方法及移动终端 |
CN110289014A (zh) * | 2019-05-21 | 2019-09-27 | 华为技术有限公司 | 一种语音质量检测方法及电子设备 |
CN215420266U (zh) * | 2021-07-02 | 2022-01-04 | 湖北达哲信息技术有限公司 | 一种基于物联网的工矿企业用无线对讲机 |
Non-Patent Citations (1)
Title |
---|
宋知用编著: "《MATLAB语音信号分析与合成 第2版》", 31 January 2018, 北京航空航天大学出版社 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11308978B2 (en) | Systems and methods for energy efficient and low power distributed automatic speech recognition on wearable devices | |
JP2024084842A (ja) | 高次アンビソニックス信号表現を圧縮又は圧縮解除するための方法又は装置 | |
KR100594670B1 (ko) | 자동 음성 인식 시스템 및 방법과, 자동 화자 인식 시스템 | |
WO2023030235A1 (zh) | 目标音频的输出方法及系统、可读存储介质、电子装置 | |
WO2006070757A1 (ja) | 音声符号化装置および音声符号化方法 | |
CN103299365A (zh) | 用于自适应地编码和解码带水印信号的装置 | |
CN112908293B (zh) | 一种基于语义注意力机制的多音字发音纠错方法及装置 | |
CN111976924A (zh) | 一种用于潜水全面罩的实时信息交流装置 | |
JPH0946233A (ja) | 音声符号化方法とその装置、音声復号方法とその装置 | |
CN111246469B (zh) | 人工智能保密通信系统及通信方法 | |
CN113539232A (zh) | 一种基于慕课语音数据集的语音合成方法 | |
CN114863942B (zh) | 音质转换的模型训练方法、提升语音音质的方法及装置 | |
KR20080059657A (ko) | 스펙트럼 변화에 기초한 신호 코딩 및 디코딩 | |
CN205336318U (zh) | 水声语音通信终端 | |
CN115116458A (zh) | 语音数据转换方法、装置、计算机设备及存储介质 | |
CN115148198A (zh) | 一种语音数据识别的对讲系统 | |
WO2019169685A1 (zh) | 语音处理方法、装置和电子设备 | |
CN113936680B (zh) | 基于多尺度信息感知卷积神经网络的单通道语音增强方法 | |
CN113327589B (zh) | 一种基于姿态传感器的语音活动检测方法 | |
CN107680570A (zh) | 一种midi数据转换成振感波形的设备与方法 | |
CN114157371A (zh) | 一种低功耗水下数字语音通信方法及通信系统 | |
CN109697985B (zh) | 语音信号处理方法、装置及终端 | |
CN207651168U (zh) | 一种超清晰语音传输和识别模块 | |
CN111199747A (zh) | 人工智能通信系统及通信方法 | |
CN114007169B (zh) | 用于tws蓝牙耳机的音频调节方法、系统和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221004 |
|
RJ01 | Rejection of invention patent application after publication |