CN116527840B - 一种基于云边协同的直播会议智能字幕显示方法和系统 - Google Patents
一种基于云边协同的直播会议智能字幕显示方法和系统 Download PDFInfo
- Publication number
- CN116527840B CN116527840B CN202310816499.2A CN202310816499A CN116527840B CN 116527840 B CN116527840 B CN 116527840B CN 202310816499 A CN202310816499 A CN 202310816499A CN 116527840 B CN116527840 B CN 116527840B
- Authority
- CN
- China
- Prior art keywords
- video
- intelligent
- audio
- conference
- cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 104
- 230000003993 interaction Effects 0.000 claims description 24
- 230000002452 interceptive effect Effects 0.000 claims description 20
- 238000005516 engineering process Methods 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000013519 translation Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 7
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000005192 partition Methods 0.000 claims description 6
- 238000013518 transcription Methods 0.000 claims description 5
- 230000035897 transcription Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 claims description 2
- 230000008451 emotion Effects 0.000 claims description 2
- 238000000926 separation method Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 206010041250 Social phobia Diseases 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006555 catalytic reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8547—Content authoring involving timestamps for synchronizing content
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种基于云边协同的直播会议智能字幕显示方法和系统,若干视频会议终端用户将用户侧的声音、视频和图像发送至云端处理服务器,根据在线会议的不同场景分别在近用户的边缘侧和云端(具体)进行音视频处理,识别语音并转化为文本,然后切换为字幕再合并回视频,并推送带有字幕的视频流给在线会议的参与方;从而实现实时的字幕显示,让不同与会者在任何环境中都可以实时了解会议的内容,提高会议沟通效率。
Description
技术领域
本发明属于线上会议通讯技术领域,具体涉及一种基于云边协同的直播会议智能字幕显示方法和系统。
背景技术
近年来,传统的线下办公方式离我们渐行渐远,全球经济正迅速向“移动办公”转变;某些特殊事件的持续发展及其反复带来的是工作场景和工作模式的变化,而办公离散化需要依靠移动办公能力的技术支持,随着办公能力互动性和沟通效率的持续改善,用户远程线上办公习惯已养成。
移动办公场景应用最多的是多人在线视频会议,其能够实现多人同时在网络上进行面对面的会议,通过传输线路及手机或PC设备,将声音、影像及文件资料互传,实现即时且互动的沟通。与传统线下面对面开会最大的区别,是远程线上会议拉近了不同时空的人的距离。现有技术方案可以保障移动办公的音视频的同步和高质量播放,但是不能提供实时字幕;对于不便外放视频声音的公共场景,诸如公交、地铁、仪式现场等嘈杂环境中,或者使用对象为听障群体时,在缺乏字幕的情况下,依靠声音获得信息,是一个巨大的挑战。
传统字幕制作需要人工听写音频、翻译、切分时间轴、校对、制作以及压制等步骤,存在效率低下、时效性差等问题,不能满足当前视频会议实时字幕的需求。由于某些特殊事件的催化,移动办公非常普遍,虽然现有的在线会议系统解决了办公场景下员工刚性协作需求,但依然存在信息沟通不畅、音视频内容理解有偏差,以及沟通社交有限等短板。因此需要拓展将智能字幕应用到移动办公场合中的技术,有效弥补传统云办公的“弱理解”短板。
发明内容
为了解决现有技术存在的上述问题,本发明目的在于提供一种基于云边协同的直播会议智能字幕显示方法和系统,实现实时的字幕显示,让不同与会者在任何环境中都可以实时了解会议的内容,提高会议沟通效率。
本发明所采用的技术方案为:
一种基于云边协同的直播会议智能字幕显示系统,包括有云端处理服务器、边缘处理器和若干个视频会议终端用户;
所述云端处理服务器用于接收用户侧的声音、视频和图像,并实时响应生成对应的直播互动音视频画面;
所述边缘处理器用于利用AI技术对直播互动音视频画面进行处理形成智能字幕,并回传至每个所述视频会议终端用户;
每个所述视频会议终端用户用于向云端处理服务器发送用户侧的声音、视频和图像;并接收边缘处理器回传的智能字幕后,进行解码展示。
进一步地,所述边缘处理器设置有编解码处理模块、语音识别处理模块和字幕处理模块;编解码处理模块分为编码处理模块和解码处理模块;
所述编码处理模块用于对处理好的字幕重新加入到视频中;
所述解码处理模块用于针对流媒体进行音视频分离;
所述语音识别处理模块用于针对解码后的音频数据调用ASR技术进行语音转文本处理;
所述字幕处理模块用于调用NLP对文本内容进行人工智能的内容微调,并形成字幕内容后推送给编码模块。
进一步地,所述云端处理服务器还设置有云备份模块,所述云备份模块用于记录保存用户侧的原始声音、视频和图像信息;以及边缘处理器形成智能的字幕信息。
进一步地,所述边缘处理器对直播互动音视频画面通过识别视频类型、画面内容,对直播互动音视频画面进行智能识别语音分区,去除噪音,根据图谱热词、智能纠错、语义分析、音纹处理,实现语音听写、翻译、切分时间轴,从而对直播互动音视频画面进行编码压缩生成音视频流数据。
进一步地,所述边缘处理器对直播互动音视频画面进行智能字幕处理包括以下内容:
音频降噪和识别人声。
进一步地,所述边缘处理器通过音频降噪去除会议场景的会议背景音、杂音和会议室空调音;
所述边缘处理器识别人声包括以下内容:
采用特征提取、声学模型、语言模型和编码器进行信号处理,从直播流中识别语音。
进一步地,每个所述视频会议终端用户接收边缘处理器回传的智能字幕的同时合并视频源站,进行解码展示。
本发明还涉及一种基于云边协同的直播会议智能字幕显示方法,使用上述基于云边协同的直播会议智能字幕显示系统,包括有以下步骤:
S01,所有视频会议终端用户将在线会议音视频信息流输入至云端处理服务器;
S02,云端处理服务器收集所有视频会议终端用户的在线会议音视频输入信息流;
S03,云端处理服务器对在线会议音视频信息流进行转码、编码、压缩处理,生成对应的直播互动音视频画面;
S04,云端处理服务器将处理后的直播互动音视频画面通过网络传输至边缘处理器;
S05,边缘处理器进行智能字幕处理;
S06,边缘处理器对智能字幕与直播互动音视频画面进行混编,自动对齐直播互动音视频画面的时间轴;
S07,将混编有智能字幕的直播互动音视频画面传输返回至所有视频会议终端用户;
S08,根据在线会议的不同场景分别在近用户的边缘侧和云端进行音视频处理,识别语音并转化为文本,然后切换为字幕再合并回视频,并推送带有字幕的视频流给在线会议的参与方。
再进一步地,所述步骤S05中包括有以下内容:
边缘处理器对直播互动音视频画面进行音频分享,识别视频中的人声,并基于机器学习,获得文本结果,生成智能字幕。
再进一步地,所述步骤S05中包括有以下内容:
所述边缘处理器包括有遍布全国的若干个边缘计算节点;
所述边缘处理器通过若干个边缘计算节点将智能语音识别转写文字、自动解析语音并即时切分时间轴、NMT神经网络机器翻译三项核心技术放置边端处理,对讲话者停顿、上下文关系进行实时判断并完成断句,依据断句对时间轴智能切分,最终将字幕逐句、完整显示在对应的时间戳。
本发明的有益效果为:
一种基于云边协同的直播会议智能字幕显示系统和方法,若干视频会议终端用户将用户侧的声音、视频和图像发送至云端处理服务器,根据在线会议的不同场景分别在近用户的边缘侧和云端(具体)进行音视频处理,识别语音并转化为文本,然后切换为字幕再合并回视频,并推送带有字幕的视频流给在线会议的参与方;从而实现实时的字幕显示,让不同与会者在任何环境中都可以实时了解会议的内容,提高会议沟通效率。
附图说明
图1是本发明基于云边协同的直播会议智能字幕显示系统的架构示意图;
图2是本发明基于云边协同的直播会议智能字幕显示方法的简介示意图;
图3是本发明基于云边协同的直播会议智能字幕显示方法的原理示意图;
图4是本发明基于云边协同的直播会议智能字幕显示方法的流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1~4所示,为解决现有技术中普遍存在的问题,本发明提供一种基于云边协同的直播会议智能字幕显示方法和系统,整体策划方案为:
通过云边协同,根据在线会议的不同场景分别在近用户的边缘侧和云端进行音视频处理,识别语音并转化为文本,然后切换为字幕再合并回视频,并推送带有字幕的视频流给在线会议的参与方。
实时会议画面和语音的智能文本识别并提供字幕处理技术,是随处办公这种新形态在线会议的特点。未来移动办公的一个重要能力特征就是提供实时直播智能字幕技术。
智能字幕技术是利用AI技术,通过对视频中的语音进行智能识别,将视频内的语音转为文字,并以字幕的形式呈现在会议终端屏幕上。语音转文字功能都内嵌在视频中,通过AI算法让会议各方“看见”声音。
1、在线会议音视频处理运行在云端 GPU 机器上,运行的结果在云端进行
2、边缘端服务对音视频进行编码压缩生成音视频流数据,边缘在处理的过程中通过识别视频类型、画面内容,对直播视频智能识别语音分区,去除噪音,根据图谱热词、智能纠错、语义分析、音纹处理等智能手段,实现语音听写、翻译、切分时间轴等工作
3、字幕合并回源视频流,传送到用户终端,终端完成解码展示
4、视频会议终端用户互动过程中,向云端发送各种声音、图像,云端收到用户侧音视频后,云端实时响应生成对应的互动视频画面,然后再继续在边缘端对直播互动视频智能字幕处理后传回到用户终端,从而达成互动体验的一种新型模式,解决处于静音或噪杂环境下“听不见、听不清、听不准”的难题
算法的核心思想:云边协同的语音智能识别和直播会议字幕合成。
1.人声智能识别和转换
实时智能字幕是实时处理直播会议中音视频中的人声,自动转成字幕。核心在于音频降噪和识别人声。由于会议场景通常都比较复杂,有会议背景音、杂音、会议室空调音等干扰,通过引入降噪技术,可以有效降低噪音对语音转写的干扰,并依托信号处理和特征提取、声学模型、语言模型、编码器从直播流中识别语音。
2.云边协同,利用边缘算力实现实时字幕翻译
直播会议智能字幕能力从“端”到“云”和“边”,利用遍布全国的边缘计算节点,进行实现算力的高效合理利用和分配,将智能语音识别转写文字、自动解析语音并即时切分时间轴、NMT神经网络机器翻译三项核心技术放置边端处理,能快速实现自动解析语音并即时切分时间轴,实现对讲话者停顿、上下文关系的实时判断并完成断句。同时,依据断句对时间轴智能切分,最终实现字幕逐句、完整显示在对应的时间戳,最终呈现直播会议可以实施看到字幕的最佳效果。
具体地,首先提供一种基于云边协同的直播会议智能字幕显示系统,包括有云端处理服务器、边缘处理器和若干个视频会议终端用户;所述云端处理服务器用于接收用户侧的声音、视频和图像,并实时响应生成对应的直播互动音视频画面;
边缘处理器用于利用AI技术对直播互动音视频画面进行处理形成智能字幕,并回传至每个所述视频会议终端用户;
利用AI技术,先进行自动语音识别ASR处理( Automatic Speech Recognition,ASR),实现语音转文本。再针对文本,利用AI的NLP自然语言处理( Natural LanguageProcessing, NLP)进行机器翻译。
每个视频会议终端用户用于向云端处理服务器发送用户侧的声音、视频和图像;并接收边缘处理器回传的智能字幕后,进行解码展示。
进一步地,边缘处理器设置有编解码处理模块、语音识别处理模块和字幕处理模块;编解码处理模块分为编码处理模块和解码处理模块;
编码处理模块:对处理好的字幕重新加入到视频中;解码处理模块:针对流媒体进行音视频分离;语音识别处理模块,针对解码后的音频数据调用ASR技术进行语音转文本处理;字幕处理模块,调用NLP对文本内容进行人工智能的内容微调,确保文本内容和语音内容是相匹配,并形成字幕内容后推送给编码模块。
进一步地,云端处理服务器还设置云备份模块,云备份模块用于记录保存用户侧的原始声音、视频和图像信息;以及边缘处理器形成智能的字幕信息。
进一步地,边缘处理器对直播互动音视频画面通过识别视频类型、画面内容,对直播互动音视频画面进行智能识别语音分区,去除噪音,根据图谱热词、智能纠错、语义分析、音纹处理,实现语音听写、翻译、切分时间轴,从而对直播互动音视频画面进行编码压缩生成音视频流数据。
视频内容识别使用 AI 对视频内容进行智能识别。对视频执行内容识别后,执行结果将给出识别到的视频画面中的文字,以及语音中的文字。根据视频内容识别的结果,结合时间轴,生成字幕流,再将字幕流和直播流重新编码后推流回客户端。智能识别语音分区,去除噪音,根据图谱热词、智能纠错、语义分析、音纹处理具体包括:1、对视频的语音内容转化后的文本做数据分析;2、排查语音中的敏感词,进行去除;3、检索语音中提到的特定关键词(如热词,进行内容填补,如社恐,那么在字幕的时候,就打上社恐(社交恐惧症));智能纠错,因为中文是拼音法,所以包括了同音词纠错、模糊音纠错、多字纠错、少字纠错等。例如,同音词纠错。是针对比较容易出现同音词,通过知识图谱和先验概率数学理论,来找到出现概率较大的词语,比如“失误”和“食物”,那如果是在赛事直播中,基本上就是“失误”,而不是“食物”。知识图谱,主要围绕一些关键的人物、内容,进行。声纹识别是指人类在说话时,其状态相对稳定的。但受到场景、情绪的影响,声纹特型会出现变化。比如虽然都是同一个人,正常的对话的访谈音频和唱歌的歌曲音频,两种情况下的发声方式会有较大区别,经过样本训练后可以识别出场景,便于后续字幕内容的正确率提升。
进一步地,边缘处理器对直播互动音视频画面进行智能字幕处理包括以下内容:
音频降噪和识别人声。
进一步地,边缘处理器通过音频降噪去除会议场景的会议背景音、杂音和会议室空调音。
使用回声消除技术,使用DSP 数字信号处理技术对平稳的噪声建模,找到音频中的噪音的规律将其去除。例如闹钟的敲打声、下雨的滴答声。同时利用机器学习对主讲人的声音进行建模,采用复杂性较低的 CNN(卷积神经网络)将其他所有声音如敲打键盘的声音、麦克风的电干扰声当作噪音抹去。
进一步地,边缘处理器识别人声包括以下内容:
采用特征提取、声学模型、语言模型和编码器进行信号处理和特征提取,从直播流中识别语音。
语音识别包括输入和输出两部分。输入:对一段声音文件进行播放的序列。输出:一段文本序列。处理过程包括:声学模型、语音模型、语音解码和语义特征提取。根据声学模型,以及语音模型,语义特征进行说啥,构建的搜索空间,找到最合适的路径。解码完成后最终输出文本。
整个处理过程需要对流媒体进行音视频分流,对音频进行处理,其中声学识别模型是对语音到音节的计算,而语言理解模型是音节到字的计算。整体包括特征提取、声学模型、语言模型和解码器这四个主要部分。特征提取通过静音处理、噪音处理、语音增强等方法,消除外部环境对语音的影响,去除多余信息,保留能够反映语音本质特征的关键信息。声学模型是对声音进行建模,对音频波形进行声学特征提取,提取关键信息和表达语言含义的特征信息,把语音输入转换为声学表示的输出。语言模型是用来计算出一个句子出现概率的模型,通过计算来判断句子在语法上是否正确的概率。采用的是统计语法的语音模型、语义和语法结构命令语言模型为主,对语法和语义进行分析,减少搜索空间,提高系统识别。解码器就是指语音技术中的识别过程。语音识别的本质就是一种模式识别的过程,将未知的语音模式与已知的语音模式进行对比,最佳匹配的参考模式就被视为识别结果。
进一步地,每个所述视频会议终端用户接收边缘处理器回传的智能字幕的同时合并视频源站,进行解码展示。
视频源站就是指原始视频,也称视频源站。原始视频是不带字幕的,经过云边处理后,将字幕加入到视频中,形成带字幕的新视频。
在边缘完成上述语音识别处理后生成字幕流,再与源直播流合并。这样视频会议终端用户就可以看到带有字幕的直播视频流。
解码为正常的客户端视频会议终端的视频解码,例如H.265的解码等。
本发明还涉及一种基于云边协同的直播会议智能字幕显示方法,使用上述基于云边协同的直播会议智能字幕显示系统,包括有以下步骤:
S01,所有视频会议终端用户将在线会议音视频信息流输入至云端处理服务器;
S02,云端处理服务器收集所有视频会议终端用户的在线会议音视频输入信息流;
S03,云端处理服务器对在线会议音视频信息流进行转码、编码、压缩处理,生成对应的直播互动音视频画面;
S04,云端处理服务器将处理后的直播互动音视频画面通过网络传输至边缘处理器;
S05,边缘处理器进行智能字幕处理;
S06,边缘处理器对智能字幕与直播互动音视频画面进行混编,自动对齐直播互动音视频画面的时间轴;
S07,将混编有智能字幕的直播互动音视频画面传输返回至所有视频会议终端用户。
S08,根据在线会议的不同场景分别在近用户的边缘侧和云端进行音视频处理,识别语音并转化为文本,然后切换为字幕再合并回视频,并推送带有字幕的视频流给在线会议的参与方;
具体按客户访问的IP地址进行划分。
再进一步地,步骤S05中包括以下内容:
边缘处理器对直播互动音视频画面进行音频分享,识别视频中的人声,并基于机器学习,获得文本结果,生成智能字幕。
再进一步地,步骤S05中还包括以下内容:
边缘处理器包括有遍布全国的若干个边缘计算节点;
边缘处理器通过若干个边缘计算节点将智能语音识别转写文字、自动解析语音并即时切分时间轴、NMT神经网络机器翻译三项核心技术放置边端处理,对讲话者停顿、上下文关系进行实时判断并完成断句,依据断句对时间轴智能切分,最终将字幕逐句、完整显示在对应的时间戳。
一种基于云边协同的直播会议智能字幕显示系统和方法,若干视频会议终端用户将用户侧的声音、视频和图像发送至云端处理服务器,根据在线会议的不同场景分别在近用户的边缘侧和云端(具体)进行音视频处理,识别语音并转化为文本,然后切换为字幕再合并回视频,并推送带有字幕的视频流给在线会议的参与方;从而实现实时的字幕显示,让不同与会者在任何环境中都可以实时了解会议的内容,提高会议沟通效率。
本发明不局限于上述可选实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是落入本发明权利要求界定范围内的技术方案,均落在本发明的保护范围之内。
Claims (4)
1.一种基于云边协同的直播会议智能字幕显示系统,其特征在于:包括有云端处理服务器、边缘处理器和若干个视频会议终端用户;
所述云端处理服务器用于接收用户侧的声音、视频和图像,并实时响应生成对应的直播互动音视频画面;
所述边缘处理器用于利用AI技术对直播互动音视频画面进行音频降噪,以去除会议场景的会议背景音,并采用特征提取、声学模型、语言模型和编码器进行信号处理,从直播互动音视频画面中识别语音,形成智能字幕,并回传至每个所述视频会议终端用户;
所述边缘处理器设置有编解码处理模块、语音识别处理模块和字幕处理模块;编解码处理模块分为编码处理模块和解码处理模块;所述解码处理模块用于对所述直播互动音视频画面进行音视频分离;所述语音识别处理模块用于针对解码后的音频数据调用ASR技术进行语音转文本处理;所述字幕处理模块用于调用NLP对文本内容进行人工智能的内容微调,并形成智能字幕后推送给所述编码处理模块;所述编码处理模块用于将所述智能字幕重新加入到所述解码处理模块进行音视频分离后的视频中;每个所述视频会议终端用户用于向云端处理服务器发送用户侧的声音、视频和图像,并接收边缘处理器回传的混编有智能字幕的直播互动音视频画面,进行解码展示;
所述边缘处理器还用于使用AI技术对所述直播互动音视频画面通过识别视频类型、画面内容进行智能识别,对直播互动音视频画面进行智能识别语音分区,去除噪音,根据图谱热词、智能纠错、语义分析以及音纹处理,实现语音听写、翻译、切分时间轴,从而对直播互动音视频画面进行编码压缩生成音视频流数据,对所述直播互动音视频画面执行内容识别后,执行结果将给出识别到的视频画面中的文字,以及语音中的文字,根据视频内容识别的结果,结合时间轴,生成智能字幕,并将混编有所述智能字幕的直播互动音视频画面推流回所述视频会议终端用户;其中,智能识别语音分区,去除噪音,根据图谱热词、智能纠错、语义分析以及音纹处理具体包括:对语音内容转化后的文本做数据分析;排查语音中的敏感词,进行去除;检索语音中提到的特定关键词;智能纠错包括同音词纠错、模糊音纠错、多字纠错以及少字纠错;所述音纹处理是指同一个人在不同场景、情绪下发音会变化,经过样本训练后识别出场景。
2.根据权利要求1所述基于云边协同的直播会议智能字幕显示系统,其特征在于:所述云端处理服务器还设置有云备份模块,所述云备份模块用于记录保存用户侧的原始声音、视频和图像信息,以及边缘处理器形成的智能字幕信息。
3.一种基于云边协同的直播会议智能字幕显示方法,其特征在于:使用权利要求1~2之一所述基于云边协同的直播会议智能字幕显示系统,包括有以下步骤:
S01,所有视频会议终端用户将在线会议音视频信息流输入至云端处理服务器;
S02,云端处理服务器收集所有视频会议终端用户的在线会议音视频输入信息流;
S03,云端处理服务器对在线会议音视频信息流进行转码、编码、压缩处理,生成对应的直播互动音视频画面;
S04,云端处理服务器将处理后的直播互动音视频画面通过网络传输至边缘处理器;
S05,边缘处理器进行智能字幕处理;
S06,边缘处理器对智能字幕与直播互动音视频画面进行混编,自动对齐直播互动音视频画面的时间轴;
S07,将混编有智能字幕的直播互动音视频画面传输返回至所有视频会议终端用户。
4.根据权利要求3所述基于云边协同的直播会议智能字幕显示方法,其特征在于:所述步骤S05中包括有以下内容:
所述边缘处理器包括有遍布全国的若干个边缘计算节点;
所述边缘处理器通过若干个边缘计算节点将智能语音识别转写文字、自动解析语音并即时切分时间轴、NMT神经网络机器翻译三项核心技术放置边端处理,对讲话者停顿、上下文关系进行实时判断并完成断句,依据断句对时间轴智能切分,最终将字幕逐句、完整显示在对应的时间戳。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310816499.2A CN116527840B (zh) | 2023-07-05 | 2023-07-05 | 一种基于云边协同的直播会议智能字幕显示方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310816499.2A CN116527840B (zh) | 2023-07-05 | 2023-07-05 | 一种基于云边协同的直播会议智能字幕显示方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116527840A CN116527840A (zh) | 2023-08-01 |
CN116527840B true CN116527840B (zh) | 2024-07-12 |
Family
ID=87394486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310816499.2A Active CN116527840B (zh) | 2023-07-05 | 2023-07-05 | 一种基于云边协同的直播会议智能字幕显示方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116527840B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117998145B (zh) * | 2024-04-03 | 2024-06-18 | 海看网络科技(山东)股份有限公司 | 一种字幕实时监测方法、系统和设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112399133A (zh) * | 2016-09-30 | 2021-02-23 | 阿里巴巴集团控股有限公司 | 一种会议分享方法及装置 |
CN116033189A (zh) * | 2023-03-31 | 2023-04-28 | 卓望数码技术(深圳)有限公司 | 基于云边协同的直播互动视频分区智能控制方法和系统 |
CN116248906A (zh) * | 2023-01-05 | 2023-06-09 | 咪咕文化科技有限公司 | 直播字幕添加方法、装置及设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015041885A (ja) * | 2013-08-22 | 2015-03-02 | 株式会社日立製作所 | テレビ会議システム |
KR102426645B1 (ko) * | 2021-01-15 | 2022-07-29 | (주)소프트기획 | 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 |
CN113327619B (zh) * | 2021-02-26 | 2022-11-04 | 山东大学 | 一种基于云—边缘协同架构的会议记录方法及系统 |
CN112684967A (zh) * | 2021-03-11 | 2021-04-20 | 荣耀终端有限公司 | 一种用于字幕显示的方法及电子设备 |
US11936487B2 (en) * | 2021-08-17 | 2024-03-19 | Rovi Guides, Inc. | Systems and methods for associating context to subtitles during live events |
US11735185B2 (en) * | 2021-08-19 | 2023-08-22 | National Yang Ming Chiao Tung University | Caption service system for remote speech recognition |
CN114040255A (zh) * | 2021-10-28 | 2022-02-11 | 上海网达软件股份有限公司 | 直播字幕生成方法、系统、设备及存储介质 |
CN114040220A (zh) * | 2021-11-25 | 2022-02-11 | 京东科技信息技术有限公司 | 直播方法和装置 |
CN115665364A (zh) * | 2022-10-17 | 2023-01-31 | 上海理想信息产业(集团)有限公司 | 云边端协同计算的视频会议方法、装置、系统及设备 |
-
2023
- 2023-07-05 CN CN202310816499.2A patent/CN116527840B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112399133A (zh) * | 2016-09-30 | 2021-02-23 | 阿里巴巴集团控股有限公司 | 一种会议分享方法及装置 |
CN116248906A (zh) * | 2023-01-05 | 2023-06-09 | 咪咕文化科技有限公司 | 直播字幕添加方法、装置及设备 |
CN116033189A (zh) * | 2023-03-31 | 2023-04-28 | 卓望数码技术(深圳)有限公司 | 基于云边协同的直播互动视频分区智能控制方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116527840A (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240153523A1 (en) | Automated transcript generation from multi-channel audio | |
CN110049270B (zh) | 多人会议语音转写方法、装置、系统、设备及存储介质 | |
CN110517689B (zh) | 一种语音数据处理方法、装置及存储介质 | |
US10991380B2 (en) | Generating visual closed caption for sign language | |
US9547642B2 (en) | Voice to text to voice processing | |
JP3621686B2 (ja) | データ編集方法、データ編集装置、データ編集プログラム | |
CN101382937A (zh) | 基于语音识别的多媒体资源处理方法及其在线教学系统 | |
WO2003079328A1 (fr) | Appareil, procede et programme de conversion audio video | |
CN109256133A (zh) | 一种语音交互方法、装置、设备及存储介质 | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
US20020198716A1 (en) | System and method of improved communication | |
CN116527840B (zh) | 一种基于云边协同的直播会议智能字幕显示方法和系统 | |
JP4077656B2 (ja) | 発言者特定映像装置 | |
CN116756285A (zh) | 虚拟机器人的互动方法、设备和存储介质 | |
JPH10136327A (ja) | ディスクトップ会議システム | |
CN112581965A (zh) | 转写方法、装置、录音笔和存储介质 | |
CN114882861A (zh) | 语音生成方法、装置、设备、介质及产品 | |
CN113823300A (zh) | 语音处理方法及装置、存储介质、电子设备 | |
KR102464674B1 (ko) | 웹rtc·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 ai 회의록 생성장치 및 방법 | |
CN114125506A (zh) | 语音审核方法及装置 | |
US20230326369A1 (en) | Method and apparatus for generating sign language video, computer device, and storage medium | |
CN111160051A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
US20230362451A1 (en) | Generation of closed captions based on various visual and non-visual elements in content | |
CN116959447A (zh) | 语音转换模型的训练方法、装置、设备及介质 | |
CN114283493A (zh) | 基于人工智能的识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |