CN117750060A

CN117750060A - 一种基于多模态ai手语生成系统、方法

Info

Publication number: CN117750060A
Application number: CN202311546902.0A
Authority: CN
Inventors: 沈子强; 陆忠强; 文太益; 张佳仁; 余龙; 虞国祥
Original assignee: Hangzhou Wasu Media Tv Network Co ltd; Wasu Media & Network Co ltd
Current assignee: Hangzhou Wasu Media Tv Network Co ltd; Wasu Media & Network Co ltd
Priority date: 2023-11-17
Filing date: 2023-11-17
Publication date: 2024-03-22

Abstract

本发明提供的一种基于多模态AI手语生成系统、方法，其通过AI技术获取输入的多模态内容，将获取的视频字幕或音频转换为文本，与输入的音频、视频或文本共同输出；生成的文本通过LLM模型生成文本摘要，并将文本摘要的自然语序转换为手语语句；将分离出的音频、视频、文本和转换的文本通过情感计算进行情感融合，还原原视频情感；将手语语句按照词语查询动作库，动作库包括方言词目，增强了视频的亲和感和可理解度，生成手语动作序列；且按时间线查找对应的情感计算结果，生成头部表情动作；结合头部表情动作和手语动作序列，生成虚拟数字人手语视频，并对其进行渲染；最后将虚拟数字人手语视频与原视频通过FFmpeg编码生成带有手语的视频。

Description

一种基于多模态AI手语生成系统、方法

技术领域

本发明涉及视频技术领域，尤其涉及一种基于多模态AI手语生成系统、方法。

背景技术

随着科技的发展，电视机丰富了人们的业余生活的同时也给人们带来了各种信息，对于大多数人来说电视机的常规功能可满足用户的大部分需求，但是对于特殊人群来说，例如听力受阻的人来说，这类特殊人群仅能通过字幕的方式获取电视节目、电影的信息，但是对于一些年龄较小的小朋友，可能还不能完全认识全部的字，因而无法体会到看电视视频的乐趣，而手语是通过手势比量动作，根据手势的变化模拟形象或音节构成的一定意思或词语，是听力受损人士的一种交际工具。为了满足听力损人群看电视的乐趣，电视视频播放时与手语视频同步的展现出来，供视力受损人群观看。

现有技术中的将手语视频与电视视频何为一路视频的方式是在视频拍摄是，同时进行手语翻译并进行拍摄，在视频内容制作时，将视频内容和手语视频整合在一起，将含有手语的内容嵌入到视频实体文件中。然而，这种方式具有诸多的不便之处。首先，手语翻译视频拍摄工作量大，需要大量手语翻译工作人员，很难推广普及。因此现有视频中带手语翻译的内容量很少。其次，手语视频只支持标准手语词目，不支持手语方言，对听障人群来说不够友好。

发明内容

本发明为了克服现有技术的不足，提供一种基于多模态AI手语生成系统、方法。

为了实现上述目的，本发明提供了一种基于多模态AI手语生成系统，其特征在于，包括：文本生成模块、融合模块、手语转换模块和视频叠加模块。

文本生成模块，通过AI技术获取输入的多模态内容，多模态内容包括：文本、音频或视频；将获取的视频字幕或音频转换为文本，与输入的音频、视频或文本共同输出；

融合模块，将文本生成模块输出的文本通过LLM模型生成文本摘要，将文本摘要的自然语序转换为手语语序，分离出的音频、视频或文本和转换的文本通过情感计算进行情感融合；

手语转换模块，将手语语句按照词语查询动作库，生成手语动作序列；手语语句按照时间线查找对应的情感计算结果，生成头部表情动作；结合头部表情动作和生成的手语动作序列，生成虚拟数字人手语视频；动作库包括标准手语词目和方言手词目；

视频叠加模块，将虚拟数字人手语视频与原视频通过FFmpeg编码生成带有手语的视频。

优选的，文本生成模块的输入包括：文本输入、音频输入、视频输入、文本和音频输入、文本和视频输入；输入的视频包括：电影、电视剧、直播回放、短视频。

优选的，文本生成模块中，对输入的视频进行分离，分离后的音频或输入的音频采用ASR将音频转换为文本；对分离后的视频采用OCR将视频中的字幕转换为文本。

优选的，融合模块中，文本转化为文本摘要时，将文本通过jieba分词，分词过程中先对句子进行分割，构成句子列表；根据句子列表对每个句子进行分词和标注后，对字母、时间用正则表达式进行分割；通过查询停止词库对停止词和修饰词进行过滤，以获得句子的摘要。

优选的，融合模块中，进行情感计算时，将文本进行向量变换和情感分类；将音频信息转换为频谱信息后通过卷积神经网络提取情感特征；将视频拆分为图像，关注人脸和肢体动作，再用含有时序的三维卷积神经网络提取情感特征。

优选的，文本、音频、视频提取的情感特征，采用多注意力机制的神经网络，进行情感模态的融合，融合后通过长短期记忆循环神经网络进行情感计算。

优选的，融合模块中，自然语序转换为手语语序时，先识别自然语序中句子的主谓宾和修饰词，按照虚词表省略虚词后，根据语序规则表进行语序转换。

优选的，FFmpeg进行编码时，需根据虚拟数字人手语视频和原视频的配置信息进行视频叠加，其配置信息包括：手语视频的时间线、手语视频的位置、手语视频窗大小、识别原视频码率、格式。

本发明还提供了一种基于多模态AI手语生成方法，具体生成步骤包括：

S1：文本生成步骤，通过AI技术获取输入的多模态内容，多模态内容包括：文本、音频或视频；将获取的视频字幕或音频转换为文本，与输入的音频、视频或文本共同输出；

S2：融合步骤，将文本生成步骤输出的文本通过LLM模型生成文本摘要，并将文本摘要的自然语序转换为手语语序；同时将分离出的音频、视频或文本和转换的文本通过情感计算进行情感融合；

S3：手语转换步骤，将手语语句按照词语查询动作库，生成手语动作序列；且手语语句按照时间线查找对应的情感计算结果，生成头部表情动作；结合头部表情动作和生成的手语动作序列，生成虚拟数字人手语视频；动作库包括标准手语词目和方言手词目；

S4：视频叠加步骤，将虚拟数字人手语视频与原视频通过FFmpeg编码生成带有手语的视频。

优选的，文本生成步骤中输入的多模态内容为文本或文本和语音时，该手语生成方法中不包括步骤S4：视频叠加步骤。

本发明提供的一种基于多模态AI手语生成系统、方法的有益效果在于；通过AI技术生成数字虚拟人手语视频的方法，简化了制作手语视频的步骤，且也无需再拍摄和手语翻译的人员，降低了前期内容制作的成本，使手语视频的推广普及成为可能。本发明支持多模态内容输入，即包括文本、音频或视频作为手语视频生成的输入对象，扩展了手语视频生成的输入源。此外，本发明通过LLM模型生成文本摘要的方式，抓住了内容制作对象的主要内容，还可通过视频主要内容使手语视频的速度适中，便于用户看清动作，同时使手语时间和语音时间基本相同，达到同步的效果。其次，本发明通过对将自然语序转换为手语语序，使最终生成的手语视频更贴合听障人士的表达习惯，为听障人士提供便利。除此之外，本发明对文本、音频和视频进行整合时，通过情感计算的方式使虚拟数字人还原原视频的情感，进一步增强手语的可理解度。同时，本发明将文本转换为手语的过程中，将方言形成的词目加入动作库中，与标准词目一起作为手语动作序列查询词语的依据，使手语更贴近听障人群的可理解的词目范围，增强亲和感和可理解度。

附图说明

图1为本发明提供的一种基于多模态AI手语生成系统的系统框图；

图2为本发明提供过的一种基于多模态AI手语生成系统中，文本生成文本摘要的流程图；

图3为本发明提供的一种基于多模态AI手语生成系统中，自然语序转换为手语语句的流程图；

图4为本发明提供的一种基于多模态AI手语生成系统中，文本、音频和视频进行情感融合的流程图；

图5为本发明提供的一种基于多模态AI手语生成系统中，手语转换模块进行文本转手语的流程图；

图6为本发明提供的一种基于多模态AI手语生成系统中，虚拟数字人手语视频与原视频叠加的流程图；

图7本发明提供的一种基于多模态AI手语生成方法的流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

如图1所示，本发明提供了一种基于多模态AI手语生成系统，包括：文本生成模块、融合模块、手语转换模块和视频叠加模块。文本生成模块通过AI技术获取输入的多模态内容，多模态内容包括：文本、音频或视频；将获取的视频字幕或音频转换为文本，与输入的音频、视频或文本共同输出。融合模块，将文本生成模块输出的文本通过LLM模型生成文本摘要，将文本摘要的自然语序转换为手语语序，分离出的音频、视频或文本和转换的文本通过情感计算进行情感融合。手语转换模块将手语语句按照词语查询动作库，生成手语动作序列；手语语句按照时间线查找对应的情感计算结果，生成头部表情动作；结合头部表情动作和生成的手语动作序列，生成虚拟数字人手语视频；动作库包括标准手语词目和方言手词目。视频叠加模块，将虚拟数字人手语视频与原视频通过FFmpeg编码生成带有手语的视频。

本实施例中，本发明的多模态是指对文本、语音或视频的处理，本发明中AI技术对输入内容进行处理时，是以语音、文本、视频作为输入对象的。为了满足视力受损人群看视频的乐趣，采用AI技术获取输入多模态内容，其中，文本生成模块的输入包括：文本输入、音频输入、视频输入、文本和音频输入、文本和视频输入。其中输入的视频包括：电影、电视剧、直播回放、短视频等视频。文本生成模块通过AI技术识别输入内容后，当输入内容具有视频时，将输入视频分离为音频、视频，分离出的音频采用自动语音识别(ASR)技术将音频转换文本；将分离出来的视频拆分为若干图片，采用图片文字识别工具(OCR)分离出视频中的字幕并将字幕转换为文本信息。当输入内容具有音频时，采用自动语音识别(ASR)技术将音频转换文本。视频内容分离出的音频、视频与音频或视频字幕生成的文本或识别模块的输入文本，采用长短期记忆循环神经网络(LSTM)进行情感计算，以将文本信息和原视频内容的音频、视频进行过情感融合，使手语视频能更好还原原输入视频的情感，进一步增强手语的可理解度。

本实施例中，语音模块的输入的多模态内容中，输入模态内容为文本或文本和语音时，视频叠加模块不启动工作。当文本生成模块的输入模态内容为文本或文本和视频时，视频叠加模块启动运行。音频、视频的字幕转换为文本信息后，融合模块通过大语言模型(LLM)将转换文本或输入文本转换为文本摘要。其中，实现LLM模型的方式包括但不限于自然语言处理工具(GPT4)、文心一言。而文心一言是基于大语言模型的生成式AI产品。本发明通过LLM模型生成的文本摘要，可抓住文本的主要内容，根据主要内容调节生成的手语视频中手语速度适中，便于看清。同时能够使手语时间和语音时间基本相同，进而达到同步的效果。文本摘要生成后，对文本摘要进行语序转换，即将文本摘要的自然语序转换为手语语序，使手语视频符合听障人事的表达习惯，便于理解。

音频、视频的文本或输入文本经语序转换后，手语转换模块根据文本内容查询动作库，并生成手语动作序列，同时根据手语语句的时间线查询对应的感情计算结果，进而生成虚拟数字人手语视频后，对其进行渲染，以使虚拟人更贴近于现实人物，进而提高客户视觉体验。虚拟数字人的手语视频生成后，视频叠加模块将其与文本生成模块分离出来的原视频进行叠加，进而生成带有虚拟数字人手语的视频。

如图2所示，融合模块将音频或视频的字幕识别生成的文本或输入文本通过大语言模型(LLM)生成文本摘要时，将文本通过jieba分词，分词过程中先对句子进行分割，构成句子列表，根据句子列表对每个句子进行分词和标注后，对字母、时间等用正则表达式进行分割。通过查询停止词库对停止词和修饰词进行过滤，以获得句子的摘要。具体的，jieba分词是一个分词开源工具。当文本被分割为多个句子列表后，再对每个句子进行清洗，以去除句子中重复、错误或不存在的中文数据符，进而提高句子的整洁度，减少融合模块处理文字的压力。

句子清洗结束后，对句子的分词进行标注，其中句子中包括特殊符号和常规符号；其中特殊的字符是指不属于常规词汇或词语的符号、标点符号或特殊字符。于特殊符号而言，对其进行标注。于常规符号而言，通过自定义的词典中建立的分词DAG词图进行判断，判断常规符号是否存在于词图中，若存在，则按照词典中记载的内容对句子进行标注。若不存在，则判断不存在的符号或词语是否为中文；若非中文，则对句子中的英文、数字和时间进行识别，别标注；若为中文，则通过隐马尔可夫模型进行识别和标注，而后动态获取句子分词和标注。其中，自定义的词典建立分词DAG词图时，先不断的更新后加载词典，建立分词模型，通过DAG(有向无还图)技术建立词典的分词DAG词图。获得句子分词标注后，通过不断更新和加载更新已设置好的停止词库，对分词中的停止词和修饰词进行过滤，进而获取句子的文本摘要，确保突出主要内容，同时还能使手语视频的速度适中，以便用户看清动作；同时使手语时间和语音时间基本相同，达到同步的效果。

如图3所示，融合模块中，当音频和视频的文本或输入文本转换为文本摘要后，对文本摘要进行语序转换，即将文本摘要的自然语序转换为手语语序，进而生成手语语句。具体的，融合模块先识别自然语序中句子的“主-谓-宾”和修饰词，按照虚词表省略虚词后，根语序规则表进行语序转换，即转换为手语语序，进而生成手语语句。其中省略的虚词包括助词，介词，连词，副词，叹词，象声词等。上述描述的语序规则表为手语的语序规则表，具体规则为：动宾颠倒，修饰与被修饰的颠倒，肯定，否定和被肯定，被否定的颠倒，主谓颠倒，疑问句颠倒。本实施例通过对语序的转化，使输出的手语内容更符合听障人士的表达习惯，方便理解。

如图4所示，融合模块在音频和视频的文本或输入文本进行处理时，分离出的音频、视频或输入文本和转换的文本通过情感计算进行情感融合，具体的，进行情感计算时，融合模块将音频和视频生成的文本进行向量变换和情感分类；将音频信息转换为频谱信息后通过卷积神经网络提取情感特征；将视频拆分为图像，关注人脸和肢体动作，再用含有时序的三维卷积神经网络提取文本、音频、视频的情感特征。提取的情感特征的采用多注意力机制的神经网络，进行情感模态的融合，最后通过长短期记忆循环神经网络进行情感计算。本发明通过对文本、音频或视频进行情感计算，还原了原视频的情感，进一步增强了可理解度，提高了用户体验。

如图5所示，经语序转换生成的手语语句，由手语转换模块生成虚拟数字人视频。具体的，手语语句按词语查询动作库(与图1中的中文翻译为手语词目的过程等同(Text2Gloss))，其中动作库包括标准手语词目和方言手语词目。查询动作库时，先查询方言手语词目，再查询标准手语词目生成手语动作序列。本实施例中，先查询方言的词语木的原因在于，句子中方言较少，可加快查询速度。基于生成的手语动作序列，根据手语语句的时间线，查找对应的情感计算结果，驱动头部表情动作生成；其中，生成手语动作序列和头部表情动作的过程与图1中的手语词目生成手语动作序列(Gloss2Motion)等同。而后将头部表情动作和手语动作序列结合，生成虚拟数字人手语视频，并对其进行渲染(与图1中动作生成手语动画(Motion2Animation)的过程等同)，以满足听障人士的视觉审美。本实施例中，在动作库中增加的方言手语目，增强了手语的可理解度和亲和性，使听障人士融入性更好。

如图6所示，基于生成的虚拟数字人手语视频，视频叠加模块将其与原视频一起通过FFmpeg编码将两路视频整合为一路视频，进而形成带手语的视频。其中，FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。FFmpeg进行编码时，需根据虚拟数字人手语视频和原视频的配置信息进行视频叠加，其配置信息包括：手语视频的时间线、手语视频的位置、手语视频窗大小、识别原视频码率、格式。本实施例中所描述的原视频是指文本生成模块的输入视频内容，即电影、电视剧、直播回放和短视频等。

如图7所示，本发明还提供了一种基于多模态AI手语生成方法，其具体成成步骤包括：

S3：手语转换步骤，将手语语句按照词语查询动作库，生成手语动作序列；且手语语句按照时间线查找对应的情感计算结果，生成头部表情动作；结合头部表情动作和生成的手语动作序列，生成虚拟数字人手语视频；动作库包括标准手语词目和方言手词目。

本实施例中，当文本生成步骤中输入的多模态内容为文本或文本和音频时，该生成系统不包括步骤S4：视频叠加步骤，步骤S3：手语转换步骤生成的虚拟数字人手语视频为最终生成的手语视频。

综上所述，本发明提供的一种一种基于多模态AI手语生成系统、方法，通过AI技术生成数字虚拟人手语视频的方法且本发明支持多模态内容输入，即包括文本、音频或视频作为手语视频生成的输入对象，简化了制作手语视频的步骤，且也无需再拍摄和手语翻译的人员，降低了前期内容制作的成本，使手语视频的推广普及成为可能此外，本发明通过LLM模型生成文本摘要的方式，抓住了内容制作对象的主要内容，还可通过视频主要内容使手语视频的速度适中，便于用户看清动作，同时使手语时间和语音时间基本相同，达到同步的效果。其次，本发明通过对将自然语序转换为手语语序，使最终生成的手语视频更贴合听障人士的表达习惯，为听障人士提供便利。除此之外，本发明对文本、音频和视频进行整合时，通过情感计算的方式使虚拟数字人还原原视频的情感，进一步增强手语的可理解度。同时，本发明将文本转换为手语的过程中，将方言形成的词目加入动作库中，与标准词目一起作为手语动作序列查询词语的依据，使手语更贴近听障人群的可理解的词目范围，增强亲和感和可理解度。

显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

Claims

1.一种基于多模态AI手语生成系统，其特征在于，包括：

文本生成模块，通过AI技术获取输入的多模态内容，所述多模态内容包括：文本、音频或视频；将获取的视频字幕或音频转换为文本，与输入的音频、视频或文本共同输出；

手语转换模块，将手语语句按照词语查询动作库，生成手语动作序列；手语语句按照时间线查找对应的情感计算结果，生成头部表情动作；结合头部表情动作和生成的手语动作序列，生成虚拟数字人手语视频；所述动作库包括标准手语词目和方言手词目；

2.根据权利要求1所述的基于多模态AI手语生成系统，其特征在于，所述文本生成模块的输入包括：文本输入、音频输入、视频输入、文本和音频输入、文本和视频输入；所述输入的视频包括：电影、电视剧、直播回放、短视频。

3.根据权利要求2所述的基于多模态AI手语生成系统，其特征在于，所述文本生成模块中，对输入的视频进行分离，分离后的音频或输入的音频采用ASR将音频转换为文本；对分离后的视频采用OCR将视频中的字幕转换为文本。

4.根据权利要求1所述的基于多模态AI手语生成系统，其特征在于，所述融合模块中，文本转化为文本摘要时，将文本通过jieba分词，分词过程中先对句子进行分割，构成句子列表；根据句子列表对每个句子进行分词和标注后，对字母、时间用正则表达式进行分割；通过查询停止词库对停止词和修饰词进行过滤，以获得句子的摘要。

5.根据权利要求4所述的基于多模态AI手语生成系统，其特征在于，所述融合模块中，进行情感计算时，将文本进行向量变换和情感分类；将音频信息转换为频谱信息后通过卷积神经网络提取情感特征；将视频拆分为图像，关注人脸和肢体动作，再用含有时序的三维卷积神经网络提取情感特征。

6.根据权利要求5所述的基于多模态AI手语生成系统，其特征在于，所述文本、音频、视频提取的情感特征，采用多注意力机制的神经网络，进行情感模态的融合，融合后通过长短期记忆循环神经网络进行情感计算。

7.根据权利要求1所述的基于多模态AI手语生成系统，其特征在于，所述融合模块中，自然语序转换为手语语序时，先识别自然语序中句子的主谓宾和修饰词，按照虚词表省略虚词后，根据语序规则表进行语序转换。

8.根据权利要求1所述的基于多模态AI手语生成系统，其特征在于，所述FFmpeg进行编码时，需根据虚拟数字人手语视频和原视频的配置信息进行视频叠加，其配置信息包括：手语视频的时间线、手语视频的位置、手语视频窗大小、识别原视频码率、格式。

9.一种根据权利要求1～8任一项所述的基于多模态AI手语生成方法，其特征在于，具体生成步骤包括：

S1：文本生成步骤，通过AI技术获取输入的多模态内容，所述多模态内容包括：文本、音频或视频；将获取的视频字幕或音频转换为文本，与输入的音频、视频或文本共同输出；

S3：手语转换步骤，将手语语句按照词语查询动作库，生成手语动作序列；且手语语句按照时间线查找对应的情感计算结果，生成头部表情动作；结合头部表情动作和生成的手语动作序列，生成虚拟数字人手语视频；所述动作库包括标准手语词目和方言手词目；

10.根据权利要求9所述的基于多模态AI手语生成方法，其特征在于，所述文本生成步骤中输入的多模态内容为文本或文本和语音时，该手语生成方法中不包括步骤S4：视频叠加步骤。