CN108259971A

CN108259971A - 字幕添加方法、装置、服务器及存储介质

Info

Publication number: CN108259971A
Application number: CN201810094813.XA
Authority: CN
Inventors: 刘勇; 王晓峰; 孙凯
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2018-07-06

Abstract

本发明实施例公开了一种字幕添加方法、装置、服务器及存储介质，其中，该方法包括：提取待添加字幕的音视频资源中的音频内容；对所述音频内容进行语音识别；实时将识别出的字幕信息渲染到正在播放的所述音视频资源中进行同步显示，并在字幕修改界面实时显示所述识别出的字幕信息；在语音识别的过程中，根据接收到的校正信息实时对所述字幕修改界面的字幕信息进行修改，并同步更新渲染到所述音视频资源中的对应字幕。本发明实施例解决了人工添加字幕人力物力耗费大、效率低的问题，实现了自动生成字幕的同时实时对字幕进行显示和修改，保证字幕添加的实时高效与准确性。

Description

字幕添加方法、装置、服务器及存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种字幕添加方法、装置、服务器及存储介质。

背景技术

随着互联网技术的发展，在线学习领域85％以上的学习资料都是以视频、音频的形式存在的，为了便于用户观看或收听音视频资源，需要为音视频资源添加字幕。

目前，对音视频资源添加字幕的过程通常是人工通过专业软件一帧一帧的听每句话为其添加相应的字幕，并调整字幕的位置、字号、颜色等。上述字幕添加方法的时间成本高，需要耗费大量的人力物力，效率较低。

发明内容

本发明实施例提供了一种字幕添加方法、装置、服务器及存储介质，解决了人工添加字幕人力物力耗费大、效率低的问题，实现了自动生成字幕的同时实时对字幕进行显示和修改，保证字幕添加的实时高效与准确性。

第一方面，本发明实施例提供了一种字幕添加方法，包括：

提取待添加字幕的音视频资源中的音频内容；

对所述音频内容进行语音识别；

实时将识别出的字幕信息渲染到正在播放的所述音视频资源中进行同步显示，并在字幕修改界面实时显示所述识别出的字幕信息；

在语音识别的过程中，根据接收到的校正信息实时对所述字幕修改界面的字幕信息进行修改，并同步更新渲染到所述音视频资源中的对应字幕。

第二方面，本发明实施例提供了一种字幕添加装置，包括：

音频提取模块，用于提取待添加字幕的音视频资源中的音频内容；

语音识别模块，用于对所述音频内容进行语音识别；

字幕显示模块，用于实时将识别出的字幕信息渲染到正在播放的所述音视频资源中进行同步显示，并在字幕修改界面实时显示所述识别出的字幕信息；

字幕修改模块，用于在语音识别的过程中，根据接收到的校正信息实时对所述字幕修改界面的字幕信息进行修改，并同步更新渲染到所述音视频资源中的对应字幕。

第三方面，本发明实施例提供了一种服务器，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所述的字幕添加方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的字幕添加方法。

本发明实施例提供了一种字幕添加方法、装置、服务器及存储介质，通过从待添加字幕的音视频资源中提取音频内容，对其进行语音识别后实时将识别出的字幕信息渲染到正在播放的音视频资源中进行显示，并在字幕修改界面实时显示识别出的字幕信息，在语音识别的同时依据校正信息对字幕修改界面实时显示的字幕信息进行修改，并同步更新渲染到音视频资源中的对应字幕。解决了人工添加字幕人力物力耗费大、效率低的问题，实现了自动生成字幕的同时实时对字幕进行显示和修改，保证字幕添加的实时高效与准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明实施例的其它特征、目的和优点将会变得更明显：

图1是本发明实施例一提供的一种字幕添加方法的流程图；

图2是本发明实施例一提供的字幕添加界面示意图；

图3是本发明实施例二提供的一种字幕添加方法的流程图；

图4是本发明实施例三提供的校正语音识别模型及更新字幕的流程图；

图5是本发明实施例四提供的一种字幕添加方法的流程图；

图6是本发明实施例五提供的一种字幕添加装置的结构框图；

图7是本发明实施例六提供的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

实施例一

图1为本发明实施例一提供的一种字幕添加方法的流程图，本实施例可适用于为视频、音频添加字幕的情况。该方法可以由本发明实施例提供的字幕添加装置或服务器来执行，该装置可采用硬件和/或软件的方式实现，下面结合图2的字幕添加界面示意图对图1的字幕添加方法进行示意说明，该方法包括：

S101，提取待添加字幕的音视频资源中的音频内容。

待添加字幕的音视频资源是用户上传的没有字幕的视频或音频资源，其中，用户上传视频或音频的过程可以采用断点续传技术，即使在网络环境恶劣的情况下，也能保证上传文件的成功率。上传的音视频资源可以采用分布式文件系统进行存储，不仅支持海量数据的存储，还大大提高了系统的吞吐能力。

在提取音频内容的过程中，若待添加字幕的是音频资源，则是直接获取该音频资源的音频内容；若待添加字幕的是视频资源，则是把视频资源中的音频内容提取出来。具体的，提取待添加字幕的音视频资源中的音频内容的方法有很多，例如，可以是从音视频资源中直接对整个音视频资源进行音频内容的提取，也可以是多线程同时进行音频内容的提取。

优选的，多线程同时进行音频内容的提取包括：按照预设时间长度将音视频资源分割成多个子资源；多线程同时对多个子资源进行语音抽取，得到对应的多段音频内容，其中每段音频内容均具有对应的时间戳。

其中，预设时间长度是可以根据实际需求预先设定的，例如可以是一分钟。当然，用户根据具体情况可以随时对预设时间长度进行修改，以达到预期效果。时间戳是指抽取的音频内容在整个音视频资源中对应的起止时间。优选的，可以利用视频转换工具(如FFmpeg(Fast Forward Moving Picture Experts Group)工具)将音视频资源分割成多个子资源。对分割后的多个子资源分线程同时进行语音抽取，每个线程抽取得到一个对应的音频内容，该音频内容中包含其对应的时间戳。当音视频资源较大时，多线程进行音频内容的抽取能够极大提高音频内容的抽取速率。

S102，对音频内容进行语音识别。

其中，可以利用语音识别模型进行语音识别，语音识别模型是通过大量的音频内容及其对应的字幕信息组成的样本数据对神经网络模型进行训练后得到的，能够在输入音频内容后进行自动识别，输出该音频内容对应的字幕信息。

对S101中提取的音频内容进行识别的过程中，提取音频内容的方法不同对应的语音识别的过程也不同，具体的，若S101中是直接对整个音视频资源进行音频内容的提取，则可以按语意和时间一句一句地进行音频内容的识别，每一句音频识别得到一条字幕信息；若S101中是多线程同时进行音频内容的提取，则可以多线程同时对多段音频内容进行语音识别，得到对应的多条字幕信息，其中每条字幕信息均包括对应的时间戳。

具体的，将多线程提取出的多段音频内容，多线程同时输入多个语音识别模型中进行语音识别，得到对应的多条字幕信息，该字幕信息中不仅包括音频内容对应的字幕内容，还包括该字幕内容在整个音视频资源中对应的时间戳，保证后续对音视频资源渲染字幕时能够将字幕内容渲染的音视频资源对应的时刻。多线程进行语音识别给用户带来急速识别的体验，保证了语音识别在音视频播放过程中的实时性。

优选的，针对语音识别后的每条字幕信息可以进行进一步地分析，当字幕信息中的字数超过预设个数时，按预设规则将该字幕信息拆分为至少两条字幕信息，并确定拆分得到的字幕信息对应的时间戳。其中，预设个数是可以根据实际需求预先设定的，例如，可以是依据音视频播放界面一行最多可显示的字幕个数而设定。当然，用户根据具体情况可以随时对预设时间长度进行修改，以达到最佳观看效果。预设规则也是根据实际需求预先设定的，例如，可以是将字幕信息按字数平均分为多条，也可以是按每条字数依次增加分为多条。

示例性的，某一条字幕信息有60个字，且预设个数为25个字，当预设规则为将字幕信息按字数平均分为多条时，则将该条具有60字的字幕信息拆分为三条字幕信息，每条字幕信息为20字。当预设规则为将字幕信息按每条字数依次增加分为多条时，则该条具有60字的字幕信息拆分的三条字幕信息分别具有18字、20字和22字。

由于字幕信息拆分后，拆分前字幕对应的时间戳已经不能准确反应拆分后字幕对应的时间戳，因此还要确定拆分得到的字幕信息对应的新的时间戳。

S103，实时将识别出的字幕信息渲染到正在播放的音视频资源中进行同步显示，并在字幕修改界面实时显示识别出的字幕信息。

其中，字幕修改界面用于实时显示S102中识别出的字幕信息，并且可供用户在此进行字幕的修改。如图2所示，字幕添加界面20包括音视频播放界面201和字幕修改界面202。对于识别出的字幕信息，不仅可以渲染到音视频播放界面201正在播放的音视频资源中进行实时的显示，还可以在字幕修改界面202实时显示。也就是说对音频内容的识别和显示的过程是同时进行的，识别出一部分音频内容，实时将识别出的字幕信息在音视频播放界面201和字幕修改界面202同时显示，方便用户在观看音视频资源的同时实时进行字幕的核对，当发现问题时可以及时进行字幕的修改。

优选的，在字幕修改界面实时显示的字幕信息可以包括字幕内容及其对应的时间戳。其中，字幕内容对应的时间戳为该字幕内容在整个音视频中对应的起止时间，该起止时间用于在添加字幕时，按照每句字幕的起止时间，将该段时间对应的字幕内容添加到音视频资源对应的时间段内。

S104，在语音识别的过程中，根据接收到的校正信息实时对字幕修改界面的字幕信息进行修改，并同步更新渲染到音视频资源中的对应字幕。

其中，由S103可知，语音识别出的字幕信息会实时显示在字幕修改界面和正在播放的音视频资源中，用户可以依据音视频播放界面正在播放的音视频资源实时对字幕修改界面中显示的字幕信息进行修改。优选的，用户的修改操作可以是对字幕修改界面的字幕信息进行更改、删除和复原等。例如，当将“视频”识别成了“食品”时，用户可以进行更改操作；当识别出现多余的字时，用户可以进行删除操作；当用户修改后发现还是原始识别的字幕信息较准确时，可以进行复原操作，恢复识别出的原始字幕。

优选的，根据接收到的校正信息实时对字幕修改界面的字幕信息进行修改，可以包括：接收用户根据正在播放的音视频资源在字幕修改界面输入的校正信息；根据校正信息实时修改字幕修改界面的字幕信息，并保存修改后的字幕信息，其中字幕修改界面显示的字幕信息包括字幕内容及其对应的时间戳。

示例性的，如图2所示，用户在观看音视频播放界面201播放的音视频资源时，若发现字幕修改界面202实时显示的字幕信息与自己听到的内容不符，可以在该错误字幕所在位置输入校正信息，此时服务器会对修改后的字幕信息进行保存。其中，对字幕信息的保存可以是自动进行保存，例如可以是一分钟自动保存一次，也可以接收到用户在字幕添加界面20输入的保存指令后，对修改后的字幕信息进行保存。当字幕修改界面中的字幕信息发生了修改，要同步将修改过的字幕信息渲染到音视频资源中的对应字幕，保证渲染到音视频资源中的字幕内容的准确性。若接收到用户点击字幕添加界面20上的保存到本地的按钮203发出的指令，可以下载添加了字幕的音视频资源到本地。

本实施例提供了一种字幕添加方法，通过从待添加字幕的音视频资源中提取音频内容，对其进行语音识别后实时将识别出的字幕信息渲染到正在播放的音视频资源中进行显示，并在字幕修改界面实时显示识别出的字幕信息，在语音识别的同时依据校正信息对字幕修改界面实时显示的字幕信息进行修改，并同步更新渲染到音视频资源中的对应字幕。解决了人工添加字幕人力物力耗费大、效率低的问题，实现了自动生成字幕的同时实时对字幕进行显示和修改，保证字幕添加的实时高效与准确性。

实施例二

本实施例在上述实施例的基础上，提供了利用有修改的字幕信息来提高语音识别准确性的实施方式，具体是利用修改过的字幕对语音识别模型进行校正训练。

图3为本发明实施例二提供的一种字幕添加方法的流程图，如图3所示，该方法包括：

S301，提取待添加字幕的音视频资源中的音频内容。

S302，对音频内容进行语音识别。

S303，实时将识别出的字幕信息渲染到正在播放的音视频资源中进行同步显示，并在字幕修改界面实时显示识别出的字幕信息。

S304，在语音识别的过程中，根据接收到的校正信息实时对字幕修改界面的字幕信息进行修改，并同步更新渲染到音视频资源中的对应字幕。

S305，将修改过的字幕信息反馈给语音识别模型。

其中，存在对字幕信息的修改，就说明语音识别模型在识别音频内容时，出现了错误，为了使语音识别模型更加的智能，要将用户修改过的字幕信息反馈给语音识别模型，对语音识别模型进行修正。优选的，将修改过的字幕信息反馈给语音识别模型，可以是收到用户修改的字幕信息后实时进行反馈，也可以是整个音视频资源的全部字幕均修改完成后统一将修改过的字幕信息进行反馈，还可以按照预设时间间隔将这段时间内修改过的字幕信息反馈给语音识别模型。

S306，依据修改过的字幕信息及其对应的音频内容对语音识别模型进行校正训练。

由于字幕信息中包含了字幕内容及其对应的时间戳，所以要先依据修改过的字幕信息中的时间戳，找到该字幕信息对应的音频内容，然后将修改过的字幕信息及其对应的音频内容输入到语音识别模型中，对该模型进行校正训练。优选的，依据修改过的字幕信息及其对应的音频内容对语音识别模型进行校正的过程可以是用户修改字幕信息的同时实时进行的，也可以是在规定的时间统一进行模型的校正训练。由此可避免语音识别模型再出现同样的识别错误，在实际应用中不断的对语音识别模型进行校正，提高了模型识别的准确率。

本实施例提供的字幕添加方法，依据用户在线修改的字幕信息及其对应的音频内容及时对语音识别模型进行校正训练；在实际应用过程中，不断的对语音识别模型进行校正，极大地提高了语音识别模型的准确率，进而提高了字幕添加的效率和准确度，给用户带来更好的使用体验。

实施例三

本实施例在上述各实施例的基础上，除了得到渲染有字幕的音视频资源之外，还可以生成音视频资源的字幕文件。具体的，在S104根据接收到的校正信息实时对所述字幕修改界面的字幕信息进行修改之后，还包括：响应于字幕生成指令，根据修改后的字幕信息生成音视频资源的字幕文件。

其中，字幕生成指令可以是用户对字幕信息修改完成后，按下字幕添加界面中的字幕生成按钮发出的指令。用户也可以自行设置通过字幕添加服务器得到的结果，例如，可以设置为仅得到渲染有字幕的音视频资源，也可设置为仅得到字幕文件，还可以设置为同时得到字幕文件及渲染有字幕的音视频资源。如果用户设置的结果包括字幕文件，则字幕生成指令可以根据用户设置自动发出。音视频资源的字幕文件需要根据音视频资源的完整语音识别结果生成，因此用户对该音视频资源在字幕修改界面中出现错误的所有字幕信息修改后才可以生成字幕文件，即修改后的字幕信息包括无需修改的原始识别出的字幕信息和修改过的字幕信息。

服务器接收到字幕生成指令后，会根据修改后的字幕信息生成该音视频资源的字幕文件，其中字幕文件中包含字幕内容及其在该音视频资源中对应的时间戳。优选的，为了满足用户的需要，字幕文件的格式支持很多版本，例如，SRT(SubRip Text)、WebVTT等。

本实施例能够生成音视频资源的字幕文件，供用户下载使用，例如，点击图2字幕添加界面20上的保存到本地按钮203，完成下载。如果用户使用的播放器支持外挂，在利用该播放器观看字幕文件对应的音视频资源时，就可以将该字幕文件导入播放器，用户便可以看到带有字幕的音视频资源。

用户下载字幕文件到本地后，若发现字幕文件中存在错误，可以在本地对下载的字幕文件进行修改，然后可以将离线修改的字幕文件上传至字幕添加服务器中。

实施例二是利用用户在线修改的字幕信息对语音识别模型进行校正训练。本实施例中，也可以利用用户离线修改的字幕文件对语音识别模型进行校正训练，同时利用该离线修改的字幕文件更新对应的音视频资源中已添加的字幕。

图4为本发明实施例三提供的校正语音识别模型及更新字幕的流程图，如图4所示，该方法包括：

S401，检测到上传的字幕文件时，查找与上传的字幕文件对应的音视频资源和音频内容，其中上传的字幕文件对应的音视频资源已添加过字幕。

服务器检测到有上传的字幕文件时，由于服务器中存储的音视频资源较多，因此要查找上传字幕文件对应的音视频资源和音频内容，其中，此时查找的音视频资源是经过实施例一的操作已经添加过字幕的音视频资源。优选的，将用户此时上传的字幕文件替换该音视频资源对应的原始字幕文件，保证其他用户在进行字幕文件下载时能下载到准确的字幕文件。

S402，将上传的字幕文件渲染到对应的音视频资源中，替换原始字幕；

在S401中已经查找到上传的字幕文件对应的音视频资源，此时要将修改后的字幕文件渲染到对应的音视频资源中，由于该音视频资源之前已经添加过字幕，所以，此时要依据上传的字幕文件中的字幕内容及其对应的起止时间，重新为该音视频资源渲染字幕，替换该音视频资源原始的字幕。

S403，依据上传的字幕文件及其对应的音频内容对语音识别模型进行校正训练。

上传的字幕文件是在原始字幕文件的基础上进行修改后得到的，说明语音识别模型在识别音频内容时，出现了错误，为了对语音识别模型进行校正，要将上传的字幕文件以及S401中查找到的该字幕文件对应的音频内容输入语音识别模型中，对该模型进行校正训练，避免该模型以后再出现同样的识别错误，在实际应用中不断的对语音识别模型进行校正，提高了模型识别音频内容的准确率。

本实施例提供的字幕添加方法，依据用户离线修改的字幕信息及其对应的音频内容对语音识别模型进行校正训练；在实际应用过程中，不断的对语音识别模型进行校正，极大地提高了语音识别模型的准确率，进而提高了字幕添加的效率和准确度，给用户带来更好的使用体验。

实施例四

本实施例在上述各实施例的基础上，可以根据字幕文件生成音视频资源的摘要，图5为本发明实施例四提供的一种字幕添加方法的流程图，如图5所示，该方法包括：

S501，提取待添加字幕的音视频资源中的音频内容。

S502，对音频内容进行语音识别。

S503，实时将识别出的字幕信息渲染到正在播放的音视频资源中进行同步显示，并在字幕修改界面实时显示识别出的字幕信息。

S504，在语音识别的过程中，根据接收到的校正信息实时对字幕修改界面的字幕信息进行修改，并同步更新渲染到音视频资源中的对应字幕。

S505，响应于字幕生成指令，根据修改后的字幕信息生成音视频资源的字幕文件。

S506，响应于摘要生成指令，将字幕文件中的字幕内容切分成多个短句。

其中，摘要生成指令可以是用户想生成该音视频资源的摘要时，点击字幕添加界面上的摘要生成按钮后发出的指令。用户也可以自行设置通过字幕添加服务器得到的结果，例如，可以设置为得到字幕文件后自动生成音视频资源的摘要，此时，摘要生成指令可以根据用户设置在生成字幕文件之后自动发出。音视频资源的摘要是对音视频资源中关键内容的提炼，通过摘要，用户能够对音视频资源的文字内容进行有效检索。

在生成音视频资源摘要的过程中，先将字幕文件中的字幕内容切分成多个短句。具体的，可以通过分析字幕内容中的各词汇、句子以及段落结构信息后，将字幕内容切分成多个短句，在进行短句切分时可以按句进行切分，也可以按主题进行切分。例如，音视频资源是单词讲解的课程，对于该音视频资源对应的字幕内容，可以是以句为单位对字幕内容进行切分，也可以是按一个单词的讲解内容为一个主题对字幕内容进行切分。

S507，分别计算各短句的权重值。

分别计算S506中切分的各短句的权重值，相当于为每个短句进行打分的过程。具体的，计算各短句的权重值可以是先对各短句进行特征提取，找出各短句中出现的高频词和核心词，其中，高频词是在整个字幕文件中出现次数超过预设阈值的词汇，然而一些词(例如，的、是、因此等)虽然出现的频率高，但是不能作为计算权重值的参考，要在提取高频词时进行排除；核心词可以理解为字幕文件中的特有内容，具体是相应领域的词库中没有或者很少出现的词汇，该词库是预先设置的，包含各领域文件(如新闻、书籍等)中的高频词。

在对短句进行特征提取后，可以依据该短句中出现的高频词和核心词为该短句设定一个权重值，例如，可以是根据短句中高频词和核心词出现的频率进行权重值的设定，出现的次数越多，权重值越大。优选的，由于核心词代表着字幕文件中特有内容的词汇，因此在计算权重值时核心词的权重值可以高于高频词。

S508，依据预设选择策略和各短句的权重值，从多个短句中提取关键句。

其中，预设选择策略可以是结合各短句的权重值与该短句的冗余度而设置的关键句选择方法。例如，预设选择策略可以是设置短句权重值大且冗余度小的句子作为关键句。

具体的，进行关键句提取时，先要对每个短句进行冗余计算，按照预设选择策略，根据每个短句的权重值和冗余度进行选择，从多个短句中提取出关键句。优选的，在选取关键句时可以是为权重值和冗余度各设定一个阈值，将权重值大于权重阈值且冗余度小于冗余阈值的短句视为关键句，也可以是将各短句按照权重值和冗余度综合对所有的短句进行排序，选取排序靠前的N个短句作为关键句，其中，N值可以根据生成摘要需要的短句个数而定。

S509，对关键句进行处理生成音视频资源的摘要。其中，对关键句进行处理包括对关键句进行修改、压缩、融合等，以保证摘要的可读性。

本实施例在为音视频资源添加字幕后，能够生成音视频资源的字幕文件，并基于该字幕文件生成音视频资源的摘要，解决了音视频资源中文字内容无法被有效检索的问题，实现了自动生成字幕、实时对字幕进行显示和修改的同时，还可以生成音视频资源的摘要，方便用户对音视频资源进行检索，极大地提高了用户的使用体验。

实施例五

图6为本发明实施例五提供的一种字幕添加装置的结构框图，该装置可执行本发明任意实施例所提供的字幕添加方法，具备执行方法相应的功能模块和有益效果。如图6所示，该装置包括：

音频提取模块601，用于提取待添加字幕的音视频资源中的音频内容；

语音识别模块602，用于对音频内容进行语音识别；

字幕显示模块603，用于实时将识别出的字幕信息渲染到正在播放的音视频资源中进行同步显示，并在字幕修改界面实时显示识别出的字幕信息；

字幕修改模块604，用于在语音识别的过程中，根据接收到的校正信息实时对字幕修改界面的字幕信息进行修改，并同步更新渲染到音视频资源中的对应字幕。

优选的，字幕修改模块604在对字幕信息进行修改时，具体用于接收用户根据正在播放的音视频资源在字幕修改界面输入的校正信息；根据校正信息实时修改字幕修改界面的字幕信息，并保存修改后的字幕信息，其中，字幕信息包括字幕内容及其对应的时间戳。

本实施例提供了一种字幕添加装置，通过从待添加字幕的音视频资源中提取音频内容，对其进行语音识别后实时将识别出的字幕信息渲染到正在播放的音视频资源中进行显示，并在字幕修改界面实时显示识别出的字幕信息，在语音识别的同时依据校正信息对字幕修改界面实时显示的字幕信息进行修改，并同步更新渲染到音视频资源中的对应字幕。解决了人工添加字幕人力物力耗费大、效率低的问题，实现了自动生成字幕的同时实时对字幕进行显示和修改，保证字幕添加的实时高效与准确性。

进一步地，上述音频提取模块601包括：

资源分割单元，用于按照预设时间长度将音视频资源分割成多个子资源；

音频抽取单元，多线程同时对多个子资源进行语音抽取，得到对应的多段音频内容，其中每段音频内容均具有对应的时间戳；

相应的，上述语音识别模块602，具体用于多线程同时对多段音频内容进行语音识别，得到对应的多条字幕信息，其中每条字幕信息均包括对应的时间戳。

进一步地，由于语音识别模块602得到的字幕信息可能较长，所以，上述语音识别模块602中包括：

结果切分单元，用于针对识别出的每条字幕信息，当字幕信息的字数超过预设个数时，按预设规则将字幕信息拆分为至少两条字幕信息，并确定拆分得到的字幕信息对应的时间戳。

进一步地，为了在实际应用过程中，不断对语音识别模型进行校正，保证识别结果的正确性，上述装置还包括：

信息反馈模块，用于将修改过的字幕信息反馈给语音识别模型；

第一模型校正模块，用于依据修改过的字幕信息及其对应的音频内容对语音识别模型进行校正训练。

进一步地，为了满足不同用户对音视频资源字幕的需求，上述装置还包括：字幕文件生成模块，用于响应于字幕生成指令，根据修改后的字幕信息生成音视频资源的字幕文件。

进一步地，为了方便用户在观看音视频资源前对其内容进行检索，上述装置还包括：摘要生成模块，用于响应于摘要生成指令，将字幕文件中的字幕内容切分成多个短句；分别计算各短句的权重值；依据预设选择策略和各短句的权重值，从多个短句中提取关键句；对关键句进行处理生成音视频资源的摘要。

进一步地，用户可以下载字幕文件，并对字幕文件进行修改，且修改后还可以再次进行字幕文件的上传，此时上述装置还包括：

查找模块，用于检测到上传的字幕文件时，查找与上传的字幕文件对应的音视频资源和音频内容，其中上传的字幕文件对应的音视频资源已添加过字幕；

字幕替换模块，用于将上传的字幕文件渲染到对应的音视频资源中，替换原始字幕；

第二模型校正模块，用于依据上传的字幕文件及其对应的音频内容对语音识别模型进行校正训练。在实际应用中，第二模型校正模块与第一模型校正模块可以是同一模块。

此外，上述字幕添加装置还可以包括存储模块，用于存储用户上传的音视频资源、提取的音频内容、添加了字幕的音视频资源、音视频资源的字幕文件以及音视频资源的摘要等。

值得注意的是，上述字幕添加装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；例如，该装置可以仅包括资源上传模块、下载模块和处理模块，资源上传模块实现接收用户上传的音视频资源和字幕文件的功能；下载模块实现下载字幕文件、添加了字幕的音视频资源及摘要的功能；处理模块实现音频的提取及识别，字幕的添加、修改及显示，以及模型的训练等相关功能。另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例六

图7为本发明实施例六提供的一种服务器的结构示意图。图7示出了适于用来实现本发明实施方式的示例性服务器70的框图。图7显示的服务器70仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。如图7所示，该服务器70以通用计算设备的形式表现。该服务器70的组件可以包括但不限于：一个或者多个处理器或者处理单元701，系统存储器702，连接不同系统组件(包括系统存储器702和处理单元701)的总线703。

总线703表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

服务器70典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器70访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器702可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)704和/或高速缓存存储器705。服务器70可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统706可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线703相连。系统存储器702可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块707的程序/实用工具708，可以存储在例如系统存储器702中，这样的程序模块707包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块707通常执行本发明所描述的实施例中的功能和/或方法。

服务器70也可以与一个或多个外部设备706(例如键盘、指向设备、显示器710等)通信，还可与一个或者多个使得用户能与该设备交互的设备通信，和/或与使得该服务器70能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口711进行。并且，服务器70还可以通过网络适配器712与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图7所示，网络适配器712通过总线703与服务器70的其它模块通信。应当明白，尽管图中未示出，可以结合服务器70使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元701通过运行存储在系统存储器702中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的字幕添加方法。

实施例七

本发明实施例七还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可实现上述实施例所述的字幕添加方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

上述实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员应该明白，上述的本发明实施例的各模块或各操作可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或操作制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间的相同或相似的部分互相参见即可。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种字幕添加方法，其特征在于，包括：

提取待添加字幕的音视频资源中的音频内容；

对所述音频内容进行语音识别；

2.根据权利要求1所述的方法，其特征在于，根据接收到的校正信息实时对所述字幕修改界面的字幕信息进行修改，包括：

接收用户根据正在播放的所述音视频资源在所述字幕修改界面输入的校正信息；

根据所述校正信息实时修改所述字幕修改界面的字幕信息，并保存修改后的字幕信息，其中所述字幕修改界面上显示的字幕信息包括字幕内容及其对应的时间戳。

3.根据权利要求1所述的方法，其特征在于，提取待添加字幕的音视频资源中的音频内容，包括：

按照预设时间长度将所述音视频资源分割成多个子资源；

多线程同时对所述多个子资源进行语音抽取，得到对应的多段音频内容，其中每段音频内容均具有对应的时间戳；

相应的，对所述音频内容进行语音识别，包括：

多线程同时对所述多段音频内容进行语音识别，得到对应的多条字幕信息，其中每条字幕信息均包括对应的时间戳。

4.根据权利要求1或3所述的方法，其特征在于，对所述音频内容进行语音识别，包括：

针对识别出的每条字幕信息，当所述字幕信息中的字数超过预设个数时，按预设规则将所述字幕信息拆分为至少两条字幕信息，并确定拆分得到的字幕信息对应的时间戳。

5.根据权利要求1所述的方法，其特征在于，在根据接收到的校正信息实时对所述字幕修改界面的字幕信息进行修改之后，还包括：

将修改过的字幕信息反馈给语音识别模型；

依据所述修改过的字幕信息及其对应的音频内容对所述语音识别模型进行校正训练。

6.根据权利要求1所述的方法，其特征在于，在根据接收到的校正信息实时对所述字幕修改界面的字幕信息进行修改之后，还包括：

响应于字幕生成指令，根据修改后的字幕信息生成所述音视频资源的字幕文件。

7.根据权利要求6所述的方法，其特征在于，根据修改后的字幕信息生成所述音视频资源的字幕文件之后，还包括：

响应于摘要生成指令，将所述字幕文件中的字幕内容切分成多个短句；

分别计算各短句的权重值；

依据预设选择策略和各短句的权重值，从所述多个短句中提取关键句；

对所述关键句进行处理生成所述音视频资源的摘要。

8.根据权利要求1所述的方法，其特征在于，还包括：

检测到上传的字幕文件时，查找与所述上传的字幕文件对应的音视频资源和音频内容，其中所述上传的字幕文件对应的音视频资源已添加过字幕；

将所述上传的字幕文件渲染到对应的音视频资源中，替换原始字幕；

依据所述上传的字幕文件及其对应的音频内容对语音识别模型进行校正训练。

9.一种字幕添加装置，其特征在于，包括：

语音识别模块，用于对所述音频内容进行语音识别；

10.根据权利要求9所述的装置，其特征在于，所述音频提取模块包括：

资源分割单元，用于按照预设时间长度将所述音视频资源分割成多个子资源；

音频抽取单元，用于多线程同时对所述多个子资源进行语音抽取，得到对应的多段音频内容，其中每段音频内容均具有对应的时间戳；

相应的，所述语音识别模块，具体用于多线程同时对所述多段音频内容进行语音识别，得到对应的多条字幕信息，其中每条字幕信息均包括对应的时间戳。

11.根据权利要求9所述的装置，其特征在于，还包括：

第一模型校正模块，用于依据所述修改过的字幕信息及其对应的音频内容对所述语音识别模型进行校正训练。

12.根据权利要求9所述的装置，其特征在于，还包括：

字幕文件生成模块，用于响应于字幕生成指令，根据修改后的字幕信息生成所述音视频资源的字幕文件。

13.根据权利要求12所述的装置，其特征在于，还包括：

摘要生成模块，用于响应于摘要生成指令，将所述字幕文件中的字幕内容切分成多个短句；分别计算所述各短句的权重值；依据预设选择策略和各短句的权重值，从所述多个短句中提取关键句；对所述关键句进行处理生成所述音视频资源的摘要。

14.根据权利要求9所述的装置，其特征在于，还包括：

查找模块，用于检测到上传的字幕文件时，查找与所述上传的字幕文件对应的音视频资源和音频内容，其中所述上传的字幕文件对应的音视频资源已添加过字幕；

字幕替换模块，用于将所述上传的字幕文件渲染到对应的音视频资源中，替换原始字幕；

第二模型校正模块，用于依据所述上传的字幕文件及其对应的音频内容对语音识别模型进行校正训练。

15.一种服务器，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的字幕添加方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的字幕添加方法。