CN112165634B

CN112165634B - 建立音频分类模型的方法、自动转换视频的方法和装置

Info

Publication number: CN112165634B
Application number: CN202011046639.5A
Authority: CN
Inventors: 刘曦环; 邵世臣; 李永恒
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2022-09-16
Anticipated expiration: 2040-09-29
Also published as: CN112165634A

Abstract

本公开涉及一种建立音频分类模型的方法和装置、服务器和计算机可读存储介质，以及基于该模型将视频文件自动转换为音频文件的方法和装置、服务器和计算机可读存储介质，涉及人工智能技术中的大数据领域及音视频处理领域。建立音频分类模型包括获取多个音频文件，其中多个音频文件中的每个音频文件具有相对应的文字信息介绍；根据文字信息介绍，确定每个音频文件的内容分类；计算与所确定的内容分类相对应的规模指数；以及以所确定的内容分类和规模指数作为输入建立音频分类模型。通过该音频分类模型能够实现将视频文件自动转换为音频文件。

Description

建立音频分类模型的方法、自动转换视频的方法和装置

技术领域

本公开涉及人工智能技术中的大数据领域及音视频处理领域。具体地，本申请提供了一种建立音频分类模型的方法和装置、服务器和计算机可读存储介质，以及基于该模型将视频文件自动转换为音频文件的方法和装置、服务器和计算机可读存储介质。

背景技术

随着互联网技术的迅速发展，网络中涌现出大量的知识平台。通过各种知识平台，用户不仅可以直接购买、使用和学习知识平台上的视频和音频文件，还可以自行上传各种分类的视频和音频文件以供其他用户使用，从而在实现知识资源的共享的同时还可以获得一定的收益。

发明内容

根据本公开的第一方面，提供了一种建立音频分类模型的方法，包括：获取多个音频文件，其中多个音频文件中的每个音频文件具有相对应的文字信息介绍；根据文字信息介绍，确定每个音频文件的内容分类；计算与所确定的内容分类相对应的规模指数；以及以所确定的内容分类和规模指数作为输入建立音频分类模型。

根据本公开的第二方面，提供了一种将视频文件自动转换为音频文件的方法，包括：接收视频文件，其中视频文件具有相对应的文字信息介绍；根据文字信息介绍及音频分类模型，确定视频文件是否适合转换为音频文件，其中音频分类模型是根据上述建立音频分类模型的方法建立的；以及根据确定视频文件适合转换为音频文件，将视频文件自动转换为音频文件。

根据本公开的第三方面，提供了一种建立音频分类模型的装置，包括：获取音频文件模块，被配置为获取多个音频文件，其中多个音频文件中的每个音频文件具有相对应的文字信息介绍；确定内容分类模块，被配置为根据文字信息介绍，确定每个音频文件的内容分类；计算规模指数模块，被配置为计算与所确定的内容分类相对应的规模指数；以及建立音频分类模型模块，被配置为以所确定的内容分类和规模指数作为输入建立音频分类模型。

根据本公开的第四方面，提供了一种将视频文件自动转换为音频文件的装置，包括：接收视频文件模块，被配置为接收视频文件，其中视频文件具有相对应的文字信息介绍；判断转换模块，被配置为根据文字信息介绍及音频分类模型，确定视频文件是否适合转换为音频文件，其中音频分类模型是根据上述建立音频分类模型的方法建立的；以及自动转换模块，被配置为根据确定视频文件适合转换为音频文件，将视频文件自动转换为音频文件。

根据本公开的第五方面，提供了一种服务器，包括：处理器；以及存储程序的存储器，程序包括指令，指令在由处理器执行时使处理器执行上述建立音频分类模型的方法。

根据本公开的第六方面，提供了一种服务器，包括：处理器；以及存储程序的存储器，程序包括指令，指令在由处理器执行时使处理器执行上述将视频文件自动转换为音频文件的方法。

根据本公开的第七方面，提供了一种存储程序的计算机可读存储介质，程序包括指令，指令在由服务器的处理器执行时使得服务器执行上述建立音频分类模型的方法。

根据本公开的第八方面，提供了一种存储程序的计算机可读存储介质，程序包括指令，指令在由服务器的处理器执行时使得服务器执行上述将视频文件自动转换为音频文件的方法。

根据本公开的第九方面，提供了一种计算机程序产品，包括计算机程序，其中，计算机程序在被处理器执行时实现上述建立音频分类模型的方法。

根据本公开的第十方面，提供了一种计算机程序产品，包括计算机程序，其中，计算机程序在被处理器执行时实现上述将视频文件自动转换为音频文件的方法。

根据本公开的一个或多个实施例，可以方便地对视频文件的音频文件实现分类存储。

根据本公开的一个或多个实施例，可以在管理音频文件时准确地反映出用户对不同内容分类的音频文件的需求度，以提高音频的存储效率。

根据本公开另外一个或多个实施例，可以减少用户的操作从而节约时间、简化流程，同时可以满足用户对各种媒体文件的多样化需求场景。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图；

图2示出了根据本公开的实施例的建立音频分类模型的方法的流程图；

图3示出了根据本公开的实施例的根据文字信息介绍，确定每个音频文件的内容分类的流程图；

图4示出了根据本公开的实施例的计算与所确定的内容分类相对应的规模指数的流程图；

图5示出了根据本公开的实施例的以所确定的内容分类和规模指数作为输入建立音频分类模型的流程图；

图6示出了根据本公开的另一实施例的建立音频分类模型的方法的流程图；

图7示出了根据本公开的实施例的将视频文件自动转换为音频文件的方法的流程图；

图8示出了根据本公开的实施例的根据文字信息介绍及音频分类模型确定视频文件是否适合转换为音频文件的流程图；

图9示出了根据本公开的实施例的建立音频分类模型的装置的结构框图；

图10示出了根据本公开的实施例的将视频文件自动转换为音频文件的装置的结构框图；

图11示出了能够用于实现本公开的实施例的示例性服务器和客户端的结构框图。

具体实施方式

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

发明人发现，在现有的知识平台，用户可以根据需要自行上传各种分类的视频和音频文件。但是在每次上传时，用户仅能选择单一媒体类型的文件(即，只能选择视频文件或音频文件中的一种)。如果需要同时上传视频文件和音频文件，则用户需要手动将视频文件转换为音频文件，并完成二次上传过程。

由于用户无法及时了解其他用户或者消费者对与上传的视频文件相对应的音频文件的需求情况，因此，可能存在以下两种情况：用户并未进行视频文件转换为音频文件的操作，导致知识平台缺失相关音频资源，从而无法满足其他用户的需求；或者用户手动进行视频文件转换为音频文件的操作后，并无其他用户使用和学习该音频文件，不仅浪费用户手动转换视频文件的时间，同时占据大量存储空间。

此外，由于用户不了解转换视频文件的方法以及各知识平台所支持的音频格式，可能导致转换后的音频文件无法上传，从而使知识平台流失部分音频资源。并且，二次上传需要再次对音频文件重新审核与发布，延长了流程时间。

针对以上技术问题，本公开的一个或者多个实施例提供了一种建立音频分类模型的方法和装置、服务器和计算机可读存储介质，以及基于该模型将视频文件自动转换为音频文件的方法和装置、服务器和计算机可读存储介质。下面将结合附图详细描述本公开的实施例。

图1示出了根据本公开的实施例可以实现本文描述的各种方法和装置的示例性系统100的示意图。参考图1，该系统100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、104、105和106可以被配置为执行一个或多个应用程序。

在本公开的实施例中，服务器120可以运行使得能够执行建立音频分类模型的方法与将视频文件自动转换为音频文件的方法的一个或多个服务或软件应用。

在某些实施例中，服务器120还可以提供可以包括非虚拟环境和虚拟环境的其他服务或软件应用。在某些实施例中，这些服务可以作为基于web的服务或云服务提供，例如在软件即服务(SaaS)模型下提供给客户端设备101、102、103、104、105和/或106的用户。操作客户端设备101、102、103、104、105和/或106的用户可以依次利用一个或多个客户端应用程序来与服务器120进行交互以利用这些组件提供的服务。

在图1所示的配置中，服务器120可以包括实现由服务器120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。应当理解，各种不同的系统配置是可能的，其可以与系统100不同。因此，图1是用于实施本文所描述的各种方法的系统的一个示例，并且不旨在进行限制。

用户可以使用客户端设备101、102、103、104、105和/或106来上传视频文件。并根据需要由服务器调用所建立的音频分类模型，将视频文件自动转换为音频文件。客户端设备可以提供使客户端设备的用户能够与客户端设备进行交互的接口。客户端设备还可以经由该接口向用户输出信息。尽管图1仅描绘了六种客户端设备，但是本领域技术人员将能够理解，本公开可以支持任何数量的客户端设备。

客户端设备101、102、103、104、105和/或106可以包括各种类型的计算系统，例如便携式手持设备、通用计算机(诸如个人计算机和膝上型计算机)、工作站计算机、可穿戴设备、游戏系统、瘦客户端、各种消息收发设备、传感器或其他感测设备等。这些计算设备可以运行各种类型和版本的软件应用程序和操作系统，例如Microsoft Windows、Apple iOS、类UNIX操作系统、Linux或类Linux操作系统(例如Google Chrome OS)；或包括各种移动操作系统，例如Microsoft Windows Mobile OS、iOS、Windows Phone、Android。便携式手持设备可以包括蜂窝电话、智能电话、平板电脑、个人数字助理(PDA)等。可穿戴设备可以包括头戴式显示器和其他设备。游戏系统可以包括各种手持式游戏设备、支持互联网的游戏设备等。客户端设备能够执行各种不同的应用程序，例如各种与Internet相关的应用程序、通信应用程序(例如电子邮件应用程序)、短消息服务(SMS)应用程序，并且可以使用各种通信协议。

网络110可以是本领域技术人员熟知的任何类型的网络，其可以使用多种可用协议中的任何一种(包括但不限于TCP/IP、SNA、IPX等)来支持数据通信。仅作为示例，一个或多个网络110可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、公共交换电话网(PSTN)、红外网络、无线网络(例如蓝牙、WIFI)和/或这些和/或其他网络的任意组合。

服务器120可以包括一个或多个通用计算机、专用服务器计算机(例如PC(个人计算机)服务器、UNIX服务器、中端服务器)、大型计算机、服务器群集或任何其他适当的布置和/或组合。服务器120可以包括运行虚拟操作系统的一个或多个虚拟机，或者涉及虚拟化的其他计算架构(例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一个或多个灵活池)。在各种实施例中，服务器120可以运行提供下文所描述的功能的一个或多个服务或软件应用。

服务器120中的计算系统可以运行包括上述任何操作系统以及任何商业上可用的服务器操作系统的一个或多个操作系统。服务器120还可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一个，包括HTTP服务器、FTP服务器、CGI服务器、JAVA服务器、数据库服务器等。

在一些实施方式中，服务器120可以包括一个或多个应用程序，以分析和合并从客户端设备101、102、103、104、105和106的用户接收的数据馈送和/或事件更新。服务器120还可以包括一个或多个应用程序，以经由客户端设备101、102、103、104、105和106的一个或多个显示设备来显示数据馈送和/或实时事件。

系统100还可以包括一个或多个数据库130。在某些实施例中，这些数据库可以用于存储数据和其他信息。例如，数据库130中的一个或多个可用于存储诸如音频文件和视频文件的信息。数据存储库130可以驻留在各种位置。例如，由服务器120使用的数据存储库可以在服务器120本地，或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。数据存储库130可以是不同的类型。在某些实施例中，由服务器120使用的数据存储库可以是数据库，例如关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。

在某些实施例中，数据库130中的一个或多个还可以由应用程序使用来存储应用程序数据。由应用程序使用的数据库可以是不同类型的数据库，例如键值存储库，对象存储库或由文件系统支持的常规存储库。

图1的系统100可以以各种方式配置和操作，以使得能够应用根据本公开所描述的各种方法和装置。例如，图2示出了根据本公开的实施例的建立音频分类模型的方法200的流程图。在该实施例中，系统100可以根据方法200来进行配置，以实现将用户上传的视频文件所对应的音频文件存储起来。

如图2所示，建立音频分类模型的方法200可以包括：步骤S210，获取多个音频文件，其中多个音频文件中的每个音频文件具有相对应的文字信息介绍；步骤S220，根据文字信息介绍，确定每个音频文件的内容分类；步骤S230，计算与所确定的内容分类相对应的规模指数；以及步骤S240，以所确定的内容分类和规模指数作为输入建立音频分类模型。

根据本公开的实施例的建立音频分类模型的方法，通过以音频文件的内容分类和规模指数作为输入，可以准确地反映用户对不同内容分类的音频文件的需求度，从而满足用户的多样化需求场景。

根据一些实施例，获取多个音频文件可以包括利用网络爬虫从预定知识平台列表中的各个知识平台(例如，得到、喜马拉雅FM、文库知识店铺、分答等)获取在预设时间段内产生的多个音频文件。这里，预设时间段可以是根据需求设定的任意时间段，例如，一个月、半年、一年等。

另外，由于用户通过各个知识平台上传音频文件时通常会填写相对应的文字信息介绍，例如设定该音频文件的内容所属领域(诸如知识平台上预设的音频所属领域，用户可在上传时预先选择)、填写该音频文件的名称、简介和详细介绍等，因此获取的多个音频文件还可以包括上述相对应的文字信息介绍。

图3示出了根据本公开的实施例的根据文字信息介绍，确定每个音频文件的内容分类的流程图。根据一些实施例，参考图3，步骤220，根据文字信息介绍来确定每个音频文件的内容分类可以包括：步骤222，提取文字信息介绍中的至少一个关键字词；步骤224，确定至少一个关键字词与预先获取的音频分类集合是否匹配；以及步骤226，根据确定至少一个关键字词与预先获取的音频分类集合中的至少一个音频分类相匹配，确定每个音频文件的内容分类为相匹配的至少一个音频分类，其中，文字信息介绍包括经由终端设备获得的对音频文件的文字性描述。

通过提取文字信息介绍中的关键字词可以将音频文件快速、准确地与预先获取的音频分类集合中的音频分类进行匹配。另外，根据用户上传时填写的文字性描述，可以直接获得用户所期望的音频文件的使用场景，提高了音频分类的准确性，同时更符合用户意图，提升了用户体验。

提取文字信息介绍中的关键字词可以采用各种算法，包括但不限于：基于统计特征的关键字词提取算法(例如TF-IDF、topic-model等)以及基于主体模型的关键字词提取算法。在一个示例中，获取的文字信息介绍为“小升初数学辅导及考题解答”，基于上述关键字词提取算法可以获得例如“小升初”、“数学”、“辅导”和“考题解答”的关键字词。为对获取的关键字词进行匹配，还需预先获取音频分类集合。获取音频分类集合包括统计各个知识平台上的音频文件所覆盖的领域，例如历史、数学、考试、心理、财经等，并基于上述领域形成音频分类集合。继续上述示例，由于获取的关键字词中“数学”与“考题解答”与音频分类集合中的“数学”与“考试”相匹配，因此可以确定与该文字信息介绍相对应的音频文件的内容分类为“数学”与“考试”。

需要说明的是，此处的匹配并不限于获取的关键字词必须与音频分类集合中的音频分类完全一致，只要相关联即可。例如上述示例中的“考题解答”可能与音频分类集合中的任何一个音频分类都不完全一致，但由于其与音频分类“考试”相关联，则可认为二者是匹配的，从而可以确定与“考题解答”相关联的音频文件的内容分类为“考试”。

图4示出了根据本公开的实施例的计算与所确定的内容分类相对应的规模指数的流程图。根据一些实施例，参考图4，步骤S230，计算与所确定的内容分类相对应的规模指数可以包括：步骤S232，统计多个音频文件的数量；步骤S234，统计所确定的内容分类中的每个内容分类中包含的音频文件的数量；以及步骤S236，基于多个音频文件的数量和每个内容分类中包含的音频文件的数量，计算与所确定的内容分类相对应的规模指数。

根据本公开的实施例，规模指数直接反映了预设时间段内每个内容分类与全部内容分类之间的关系，因此可以准确地体现对各个内容分类的音频文件的需求度，进而提高音频分类模型的准确性。例如，在所有音频文件中，如果一些内容分类下的音频文件的数量明显高于另一些内容分类下的音频文件的数量，则可以从一定程度上说明用户对前者的需求度高于对后者的需求度。

根据一些实施例，步骤S236，基于多个音频文件的数量和每个内容分类中包含的音频文件的数量，计算与所确定的内容分类相对应的规模指数可以包括以下中的一个或多个：基于多个音频文件的数量与每个内容分类中包含的音频文件的数量的比值关系计算规模指数；基于多个音频文件的数量与每个内容分类中包含的音频文件的数量的指数关系计算规模指数；或者基于多个音频文件的数量与每个内容分类中包含的音频文件的数量的对数关系计算规模指数。

根据一个示例，在总音频文件的数量为X，某个内容分类下的音频文件的数量为Xi的情况下，可以通过等式(1)中表示的比值关系来计算与某个内容分类相对应的规模指数n_i：

根据另一个示例，还可以通过等式(2)中表示的指数关系来计算与某个内容分类相对应的规模指数n_i：

根据又一个示例，也可以通过等式(3)中表示的对数关系来计算与某个内容分类相对应的规模指数n_i：

n_i＝log_X X_i 等式(3)

以上仅为说明性目的列出了计算规模指数的三种数学方法。对于本领域技术人员来说，比值关系、指数关系与对数关系并不限于上述列出的等式(1)-(3)，还可以是其各种变形。并且，还可以根据实际需求(例如，音频文件数量的多少)采用比值关系、指数关系与对数关系的任何组合来计算规模指数。此外，任何其他形式的数学关系也是可行的。

由此，通过将包括但不限于比值关系、指数关系与对数关系的数学关系应用于计算规模指数，可以进一步提高规模指数的准确性，并且更适用于音频文件数量庞大的场景，能够进一步提高音频分类模型的结果准确性。

根据另一些实施例，在步骤S236之后，在步骤S230，计算与所确定的内容分类相对应的规模指数还可以包括：步骤S238、对规模指数进行归一化处理。

采用归一化处理可以避免与不同内容分类相对应的规模指数之间差异太大，从而导致弱化与某个内容分类相对应的规模指数对音频分类模型结果的影响。在总的音频文件数量过于庞大且涉及多个内容分类，而其中某些内容分类所对应的音频文件数量相差悬殊时，归一化处理将尤其有利。应当理解，归一化处理时设置的归一化区间可以为例如0-1(此时，音频文件数量越多的内容分类，与其相对应的规模指数越接近于1)，也可以为任意其他预设区间。

图5示出了根据本公开的实施例的以所确定的内容分类和规模指数作为输入建立音频分类模型的流程图。根据一些实施例，参考图5，步骤S240，以所确定的内容分类和规模指数作为输入建立音频分类模型可以包括：步骤S242，确定规模指数是否大于第一预设阈值；步骤S244，根据确定规模指数大于第一预设阈值，将音频分类模型的结果设定为预设值；以及步骤S246，根据确定规模指数不大于第一预设阈值，将音频分类模型的结果设定为另一预设值。

下面将结合特定示例进一步解释如何设定第一预设阈值以确定音频分类模型的结果。根据一个示例，多个音频文件可以涉及历史、数学、考试、心理、财经等内容分类，基于步骤S230可以计算获得例如与历史相对应的规模指数为0.1，与数学相对应的规模指数为0.7，与考试相对应的规模指数为1.0，与心理相对应的规模指数为0.01，与财经相对应的规模指数为0.4。基于这些规模指数可以看出，对心理类音频文件的需求远远低于对与其他内容分类的音频文件的需求。由此可以设定第一预设阈值例如为0.05，由于与历史、数学、考试、财经相对应的规模指数均大于第一预设阈值0.05，则可以将相应音频分类模型的结果设为某一预设值(例如为1)，而由于与心理相对应的规模指数小于第一预设值0.05，则可以将与心理相对应的音频分类模型的结果设为另一预设值(例如为0)。

应当理解，无论是第一预设阈值还是作为音频分类模型结果的预设值，都可以根据应用场景和用户需求来设定，而不限于上述示例中的值，从而可以丰富场景化需求，提高音频分类模型结果的准确性。

根据一些实施例，还可以基于音频文件所带来的收益对音频分类模型进行修正。图6示出了根据本公开的另一实施例的建立音频分类模型的方法的流程图。如图6所示，建立音频分类模型的方法还可以包括：在步骤S210～S240之后的步骤S250，统计每个音频文件在预定时间段内的收益；步骤S260，基于收益与音频分类模型，建立效果评估模型，得到效果评估结果；步骤S270，将效果评估结果与第二预设阈值进行比较，其中，第二预设阈值与内容分类相对应；以及步骤S280，当效果评估结果小于第二预设阈值时，利用效果评估模型修正音频分类模型。

通过引入音频文件的收益，可以提高音频分类模型的分类效率、减少存储空间浪费，同时满足用户需求，提升用户体验。

根据一些示例，可以统计用户上传到某知识平台的某一内容分类下的所有音频文件在一定时间段(例如一个月、半年或一年)内所产生的收益总和。该收益可以是其他用户下载、购买或分享该音频文件所支付的费用。应当理解，步骤S250包括但不限于统计并计算收益总和，还可以例如统计并计算收益的平均值等。

效果评估模型可以与收益成正相关，即收益越高，效果评估模型的结果越大。另外，更为有利的是，可以将第二预设阈值设定为与不同的内容分类相对应，而不必针对所有内容分类设定相同的值。这是因为从计算规模指数的过程中可以看出用户对不同内容分类的音频文件需求不同，而所产生的收益与用户对音频文件的需求紧密相关。如果将第二预设阈值统一设定为相同的值，则可能导致音频分类模型结果的准确度降低。

继续上述计算规模指数时所列举的示例，与数学相对应的规模指数为0.7，而与考试相对应的规模指数为1，则数学类音频文件所带来的收益可能低于考试类音频文件所带来的收益，从而导致对数学类音频文件的效果评估结果(例如500)小于对考试类音频文件的效果评估结果(1000)。基于此，如果将第二预设阈值设定为同一值(例如800)，则针对数学类音频文件，音频分类模型的输出将被修正为另一预设值(例如0)，从而可能与实际场景和需求不符(即，与其他内容分类音频文件相比，对数学类音频文件的需求仍然较高)。

上述示例列出了修正音频分类模型的一种方式，即将音频分类模型的结果设定为另一预设值。除此之外，根据另一些实施例，修正音频分类模型还可以包括上调第一预设阈值或采用二者的组合。通过上调第一预设阈值，可以改变规模指数与第一预设阈值的大小关系，从而使规模指数低于第一预设阈值，进而使得音频分类模型的结果变为与预设值不同的另一预设值。

图7示出了根据本公开的实施例的基于音频分类模型将视频文件自动转换为音频文件的方法300的流程图。

如图7所示，将视频文件自动转换为音频文件的方法可以包括：步骤S310，接收视频文件，其中，视频文件具有相对应的文字信息介绍；步骤S320，根据文字信息介绍及上述音频分类模型，确定视频文件是否适合转换为音频文件；以及步骤S330，根据确定视频文件适合转换为音频文件，将视频文件自动转换为音频文件。根据另一些实施例，可以将视频文件和/或自动转换的音频文件存储起来。

基于音频分类模型将视频文件自动转换为音频文件不仅可以以多种形态呈现媒体文件，满足用户的各种需求，同时减少了用户的手动操作，从而节约用户时间，还可以避免由于用户不了解转换视频文件格式的方法以及各知识平台所支持的音频格式而导致的无法上传转换后的音频文件，从而使知识平台流失部分音频资源。

根据一些实施例，接收视频文件可以包括从客户端实时地接收视频文件；以及从网络端获取存储的视频文件中的一个或多个。其中，网络端存储的视频文件可以是用户已经上传但并未执行转换音频文件操作的视频文件。通过实时与非实时两种方式接收视频文件，不仅可以满足用户的实时需求，还可以缓解之前由于用户并未执行视频文件的转换操作而导致的知识平台缺失相关音频资源的问题。

图8示出了根据本公开的实施例的根据文字信息介绍及音频分类模型确定视频文件是否适合转换为音频文件的流程图。

根据一些实施例，参考图8，步骤S320，根据文字信息介绍及上述音频分类模型，确定视频文件是否适合转换为音频文件可以包括：步骤S322，提取文字信息介绍中的至少一个关键字词；步骤S324，确定至少一个关键字词与作为音频分类模型的输入的音频文件的内容分类是否匹配；步骤S326，根据确定至少一个关键字词与作为音频分类模型的输入的音频文件的内容分类中的至少一个相匹配，调用音频分类模型；以及步骤S328，基于音频分类模型的结果确定视频文件是否适合转换为音频文件，其中文字信息介绍包括经由终端设备获得的对视频文件的文字性描述。

通过提取文字信息介绍中的关键字词可以将视频文件快速、准确地与音频内容分类进行匹配。并且，根据由终端设备获得的对视频文件的文字性描述可以直接地获得终端用户所期望的视频文件使用场景，提高了匹配度的准确性，同时更符合用户意图，提升了用户体验。

步骤S322-S324中实现提取关键字词与对关键字词进行匹配的方法与建立音频分类模型的方法中的步骤S222-S224相同，故不再赘述。此外，针对视频文件的文字性表述也与针对音频文件的文字性描述类似，即为用户在各个知识平台上传视频文件时填写的例如设定该视频文件的内容所属领域、填写的该视频文件的名称、简介和详细介绍等。

根据一些实施例，步骤S328，确定视频文件是否适合转换为音频文件可以包括：当音频分类模型的结果为预设值时，确定视频文件适合转换为音频文件。根据一个示例，当音频分类模型的结果为1时，表明该视频文件符合用户的需求，同时可以为用户带来收益，则向用户发出征求询问，在用户同意之后则自动将视频文件转换为音频文件。相反地，当音频分类模型的结果为0时，表明用户对此类视频文件的需求度较低，或者表明将此类视频文件转换为音频文件无法为用户带来收益，则不将该视频文件转换为音频文件，避免对用户发出征求询问。

在确定视频文件适合转换为音频文件，并且用户同意该征求询问后，可以自动提取该视频文件中的音频流，按照各知识平台支持上传和使用的音频格式进行封装，并以与视频文件相同的标题上传音频文件，从而避免了上传的音频文件出现格式不支持的情况。通常情况下，上传视频文件或音频文件后还需经过知识平台的审核，而根据上述将视频文件自动转换为音频文件的方法可以同时完成对视频文件和音频文件的审核，从而缩短了二次审核再发布的流程时间。

图9示出了根据本公开的实施例的建立音频分类模型的装置400的结构框图。如图9所示，建立音频分类模型的装置可以包括获取音频文件模块410、确定内容分类模块420、计算规模指数模块430和建立音频分类模型模块440。获取音频文件模块410被配置为获取多个音频文件，其中多个音频文件中的每个音频文件具有相对应的文字信息介绍。确定内容分类模块420被配置为根据文字信息介绍确定每个音频文件的内容分类。计算规模指数模块430被配置为计算与所确定的内容分类相对应的规模指数。建立音频分类模型模块440被配置为以所确定的内容分类和规模指数作为输入建立音频分类模型。

根据一些实施例，确定内容分类模块420可以包括提取模块、匹配模块和确定内容分类子模块。提取模块被配置为提取文字信息介绍中的至少一个关键字词。匹配模块被配置为确定至少一个关键字词与预先获取的音频分类集合是否匹配。确定内容分类子模块被配置为根据确定至少一个关键字词与预先获取的音频分类集合中的至少一个音频分类相匹配，确定每个音频文件的内容分类为相匹配的至少一个音频分类，其中文字信息介绍包括经由终端设备获得的对音频文件的文字性描述。

根据一些实施例，计算规模指数模块430可以包括第一统计模块、第二统计模块和计算规模指数子模块。第一统计模块被配置为统计多个音频文件的数量。第二统计模块被配置为统计所确定的内容分类中的每个内容分类中包含的音频文件的数量。计算规模指数子模块被配置为基于多个音频文件的数量和每个内容分类中包含的音频文件的数量，计算与所确定的内容分类相对应的规模指数。

根据另一些实施例，计算规模指数模块430还可以包括归一化模块，被配置为对规模指数进行归一化处理。

根据一些实施例，计算规模指数子模块可以包括第一计算规模指数子模块、第二计算规模指数子模块和第三计算规模指数子模块中的一个或多个。第一计算规模指数子模块被配置为基于多个音频文件的数量与每个内容分类中包含的音频文件的数量的比值关系计算规模指数。第二计算规模指数子模块被配置为基于多个音频文件的数量与每个内容分类中包含的音频文件的数量的指数关系计算规模指数。第三计算规模指数子模块被配置为基于多个音频文件的数量与每个内容分类中包含的音频文件的数量的对数关系计算规模指数。

根据一些实施例，建立音频分类模型模块440可以包括：阈值判断模块、第一设定模块和第二设定模块。阈值判断模块被配置为确定规模指数是否大于第一预设阈值。第一设定模块被配置为根据确定规模指数大于第一预设阈值，将音频分类模型的结果设定为预设值。第二设定模块被配置为根据确定规模指数不大于第一预设阈值，将音频分类模型的结果设定为另一预设值。

根据一些实施例，装置400还可以包括统计收益模块、建立效果评估模型模块、比较模块和修正模块。统计收益模块被配置为统计每个音频文件在预定时间段内的收益。建立效果评估模型模块被配置为基于收益与音频分类模型，建立效果评估模型，得到效果评估结果。比较模块被配置为将效果评估结果与第二预设阈值进行比较，其中第二预设阈值与内容分类相对应。修正模块被配置为当效果评估结果小于第二预设阈值时，利用效果评估模型修正音频分类模型。

根据一些实施例，修正模块可以包括调整模块和第三设定模块中的一个或多个。调整模块被配置为上调第一预设阈值。第三设定模块被配置为将音频分类模型的结果设定为另一预设值。

在上述实施例中，装置400及其相应功能模块的具体实现方式和技术效果可参考图2至6对应实施例中的相关说明，在此不再赘述。

图10示出了根据本公开的实施例的将视频文件自动转换为音频文件的装置500的结构框图。如图10所示，将视频文件自动转换为音频文件的装置可以包括接收视频文件模块510、判断转换模块520和自动转换模块530。接收视频文件模块被配置为接收视频文件，其中视频文件具有相对应的文字信息介绍。判断转换模块被配置为根据文字信息介绍及音频分类模型，确定视频文件是否适合转换为音频文件，其中音频分类模型是根据上述建立音频分类模型的方法建立的。自动转换模块被配置为根据确定视频文件适合转换为音频文件，将视频文件自动转换为音频文件。

根据另一些实施例，装置500还可以包括存储模块，被配置为将视频文件和/或自动转换的音频文件存储起来。

根据一些实施例，接收视频文件模块510可以包括第一接收模块和第二接收模块中的一个或多个。第一接收模块被配置为从客户端实时地接收视频文件。第二接收模块被配置为从网络端获取存储的视频文件。

根据一些实施例，判断转换模块520可以包括提取模块、匹配模块、调用模块和判断转换子模块。提取模块被配置为提取文字信息介绍中的至少一个关键字词。匹配模块被配置为确定至少一个关键字词与作为音频分类模型的输入的音频文件的内容分类是否匹配。调用模块被配置为根据确定至少一个关键字词与作为音频分类模型的输入的音频文件的内容分类中的至少一个相匹配，调用音频分类模型。判断转换子模块被配置为基于音频分类模型的结果确定视频文件是否适合转换为音频文件，其中文字信息介绍包括经由终端设备获得对视频文件的文字性描述。

根据一些实施例，判断转换子模块可以包括当音频分类模型的结果为预设值时，确定视频文件适合转换为音频文件的模块。

在上述实施例中，装置500及其相应功能单元的具体实现方式和技术效果可参考图7至8对应实施例中的相关说明，在此不再赘述。

根据本公开的另一方面，还提供一种服务器，可以包括：处理器；以及存储程序的存储器，程序包括由处理器执行时使处理器执行上述建立音频分类模型的方法的指令。

根据本公开的又一方面，还提供一种服务器，可以包括：处理器；以及存储程序的存储器，程序包括在由处理器执行时使处理器执行上述将视频文件自动转换为音频文件的方法的指令。

根据本公开的又一方面，还提供一种存储程序的计算机可读存储介质，程序可以包括在由服务器的处理器执行时使得服务器执行上述建立音频分类模型的方法的指令。

根据本公开的又一方面，还提供一种存储程序的计算机可读存储介质，程序可以包括在由服务器的处理器执行时使得服务器执行上述将视频文件自动转换为音频文件的方法的指令。

参考图11，现将描述可以作为本公开的服务器或客户端的计算设备2000的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。

计算设备2000可以包括(可能经由一个或多个接口)与总线2002连接或与总线2002通信的元件。例如，计算设备2000可以包括总线2002、一个或多个处理器2004、一个或多个输入设备2006以及一个或多个输出设备2008。一个或多个处理器2004可以是任何类型的处理器，并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。输入设备2006可以是能向计算设备2000输入信息的任何类型的设备，并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或遥控器。输出设备2008可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备2000还可以包括非暂时性存储设备2010或者与非暂时性存储设备2010连接，非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备，并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质，光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。非暂时性存储设备2010可以从接口拆卸。非暂时性存储设备2010可以具有用于实现上述方法和步骤的数据/程序(包括指令)/代码。计算设备2000还可以包括通信设备2012。通信设备2012可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组，例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算设备2000还可以包括工作存储器2014，其可以是可以存储对处理器2004的工作有用的程序(包括指令)和/或数据的任何类型的工作存储器，并且可以包括但不限于随机存取存储器和/或只读存储器设备。

软件要素(程序)可以位于工作存储器2014中，包括但不限于操作系统2016、一个或多个应用程序2018、驱动程序和/或其他数据和代码。用于执行上述方法和步骤的指令可以包括在一个或多个应用程序2018中，并且上述建立音频分类模型的方法以及将视频文件自动转换为音频文件的方法可以通过由处理器2004读取和执行一个或多个应用程序2018的指令来实现。更具体地，上述建立音频分类模型的方法中的步骤S210～步骤S240以及上述将视频文件自动转换为音频文件的方法中的步骤S310～S330可以例如通过处理器2004执行具有相应步骤的指令的应用程序2018而实现。此外，上述建立音频分类模型的方法以及将视频文件自动转换为音频文件的方法中的其它步骤可以例如通过处理器2004执行具有执行相应步骤中的指令的应用程序2018而实现。软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如上述存储设备2010)中，并且在执行时可以被存入工作存储器2014中(可能被编译和/或安装)。软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。

还应该理解，可以根据具体要求而进行各种变型。例如，也可以使用定制硬件，和/或可以用硬件、软件、固件、中间件、微代码，硬件描述语言或其任何组合来实现特定元件。例如，所公开的方法和设备中的一些或全部可以通过使用根据本公开的逻辑和算法，用汇编语言或硬件编程语言(诸如VERILOG，VHDL，C++)对硬件(例如，包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。

还应该理解，前述方法可以通过服务器-客户端模式来实现。例如，客户端可以接收用户输入的数据并将所述数据发送到服务器。客户端也可以接收用户输入的数据，进行前述方法中的一部分处理，并将处理所得到的数据发送到服务器。服务器可以接收来自客户端的数据，并且执行前述方法或前述方法中的另一部分，并将执行结果返回给客户端。客户端可以从服务器接收到方法的执行结果，并例如可以通过输出设备呈现给用户。

还应该理解，计算设备2000的组件可以分布在网络上。例如，可以使用一个处理器执行一些处理，而同时可以由远离该一个处理器的另一个处理器执行其他处理。计算系统2000的其他组件也可以类似地分布。这样，计算设备2000可以被解释为在多个位置执行处理的分布式计算系统。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种将视频文件自动转换为音频文件的方法，包括：

接收视频文件，其中，所述视频文件具有相对应的第一文字信息介绍；

根据所述第一文字信息介绍及音频分类模型，确定所述视频文件是否适合转换为音频文件，其中，所述音频分类模型是以为多个音频文件中的每个音频文件确定的内容分类以及与所确定的内容分类相对应的规模指数作为输入建立的，并且在所述规模指数大于第一预设阈值时，所述音频分类模型的结果被设定为第一预设值，在所述规模指数不大于所述第一预设阈值时，所述音频分类模型的结果被设定为第二预设值，其中，所述规模指数包括以下中的一个或多个：所述多个音频文件的数量与所确定的内容分类中的每个内容分类中包含的音频文件的数量的比值关系、所述多个音频文件的数量与每个内容分类中包含的音频文件的数量的指数关系、或者所述多个音频文件的数量与每个内容分类中包含的音频文件的数量的对数关系；以及

根据确定所述视频文件适合转换为音频文件，将视频文件自动转换为音频文件，

其中，根据所述第一文字信息介绍及音频分类模型，确定所述视频文件是否适合转换为音频文件包括：

提取所述第一文字信息介绍中的至少一个第一关键字词；

确定所述至少一个第一关键字词与作为所述音频分类模型的输入的音频文件的内容分类是否匹配；

根据确定所述至少一个第一关键字词与作为所述音频分类模型的输入的音频文件的内容分类中的至少一个相匹配，调用所述音频分类模型；以及

基于调用所述音频分类模型的结果确定所述视频文件是否适合转换为音频文件，

其中，所述第一文字信息介绍包括经由终端设备获得对视频文件的文字性描述。

2.根据权利要求1所述的方法，其中，所述音频分类模型通过执行以下步骤建立：

获取所述多个音频文件，其中，所述多个音频文件中的每个音频文件具有相对应的第二文字信息介绍；

根据所述第二文字信息介绍，确定所述每个音频文件的内容分类；

计算与所确定的内容分类相对应的规模指数；以及

以所确定的内容分类和所述规模指数作为输入建立音频分类模型。

3.根据权利要求2所述的方法，其中，根据所述第二文字信息介绍，确定所述每个音频文件的内容分类包括：

提取所述第二文字信息介绍中的至少一个第二关键字词；

确定所述至少一个第二关键字词与预先获取的音频分类集合是否匹配；以及

根据确定所述至少一个第二关键字词与预先获取的音频分类集合中的至少一个音频分类相匹配，确定所述每个音频文件的内容分类为相匹配的至少一个音频分类，

其中，所述第二文字信息介绍包括经由终端设备获得的对音频文件的文字性描述。

4.根据权利要求2所述的方法，其中，计算与所确定的内容分类相对应的规模指数包括：

统计所述多个音频文件的数量；

统计所确定的内容分类中的每个内容分类中包含的音频文件的数量；以及

基于所述多个音频文件的数量和所述每个内容分类中包含的音频文件的数量，计算与所确定的内容分类相对应的规模指数。

5.根据权利要求4所述的方法，其中，所述音频分类模型还通过执行以下步骤建立：对所述规模指数进行归一化处理。

6.根据权利要求2所述的方法，其中，所述音频分类模型还通过执行以下步骤建立：

统计所述每个音频文件在预定时间段内的收益；

基于所述收益与所述音频分类模型，建立效果评估模型，得到效果评估结果；

将所述效果评估结果与第二预设阈值进行比较，其中，所述第二预设阈值与所确定的内容分类相对应；以及

当所述效果评估结果小于所述第二预设阈值时，利用所述效果评估模型修正所述音频分类模型。

7.根据权利要求6所述的方法，其中，当所述效果评估结果小于所述第二预设阈值时，利用所述效果评估模型修正所述音频分类模型包括以下中的一个或多个：

上调所述第一预设阈值；或者

将所述音频分类模型的结果设定为所述第二预设值。

8.根据权利要求1所述的方法，其中，基于调用所述音频分类模型的结果确定所述视频文件是否适合转换为音频文件包括：当调用所述音频分类模型的结果为所述第一预设值时，确定所述视频文件适合转换为音频文件。

9.根据权利要求1所述的方法，其中，接收视频文件包括以下中的一个或多个：

从客户端实时地接收视频文件；以及

从网络端获取存储的视频文件。

10.根据权利要求1所述的方法，其中，将所述视频文件和/或自动转换的音频文件存储起来。

11.一种将视频文件自动转换为音频文件的装置，包括：

接收视频文件模块，被配置为接收视频文件，其中，所述视频文件具有相对应的第一文字信息介绍；

判断转换模块，被配置为根据所述第一文字信息介绍及音频分类模型，确定所述视频文件是否适合转换为音频文件，其中，所述音频分类模型是以为多个音频文件中的每个音频文件确定的内容分类以及与所确定的内容分类相对应的规模指数作为输入建立的，并且在所述规模指数大于第一预设阈值时，所述音频分类模型的结果被设定为第一预设值，在所述规模指数不大于所述第一预设阈值时，所述音频分类模型的结果被设定为第二预设值，其中，所述规模指数包括以下中的一个或多个：所述多个音频文件的数量与所确定的内容分类中的每个内容分类中包含的音频文件的数量的比值关系、所述多个音频文件的数量与每个内容分类中包含的音频文件的数量的指数关系、或者所述多个音频文件的数量与每个内容分类中包含的音频文件的数量的对数关系；以及

自动转换模块，被配置为根据确定所述视频文件适合转换为音频文件，将视频文件自动转换为音频文件，

其中，所述判断转换模块包括：

提取模块，被配置为提取所述第一文字信息介绍中的至少一个第一关键字词；

匹配模块，被配置为确定所述至少一个第一关键字词与作为所述音频分类模型的输入的音频文件的内容分类是否匹配；

调用模块，被配置为根据确定所述至少一个第一关键字词与作为所述音频分类模型的输入的音频文件的内容分类中的至少一个相匹配，调用所述音频分类模型；以及

判断转换子模块，被配置为基于调用所述音频分类模型的结果确定所述视频文件是否适合转换为音频文件，

12.根据权利要求11所述的装置，其中，所述音频分类模型是通过建立音频分类模型的装置建立的，所述建立音频分类模型的装置包括：

获取音频文件模块，被配置为获取所述多个音频文件，其中，所述多个音频文件中的每个音频文件具有相对应的第二文字信息介绍；

确定内容分类模块，被配置为根据所述第二文字信息介绍，确定所述每个音频文件的内容分类；

计算规模指数模块，被配置为计算与所确定的内容分类相对应的规模指数；以及

建立音频分类模型模块，被配置为以所确定的内容分类和所述规模指数作为输入建立音频分类模型。

13.根据权利要求12所述的装置，其中，所述确定内容分类模块包括：

提取模块，被配置为提取所述第二文字信息介绍中的至少一个第二关键字词；

匹配模块，被配置为确定所述至少一个第二关键字词与预先获取的音频分类集合是否匹配；以及

确定内容分类子模块，被配置为根据确定所述至少一个第二关键字词与预先获取的音频分类集合中的至少一个音频分类相匹配，确定所述每个音频文件的内容分类为相匹配的至少一个音频分类，

14.根据权利要求12所述的装置，其中，所述计算规模指数模块包括：

第一统计模块，被配置为统计所述多个音频文件的数量；

第二统计模块，被配置为统计所确定的内容分类中的每个内容分类中包含的音频文件的数量；以及

计算规模指数子模块，被配置为基于所述多个音频文件的数量和所述每个内容分类中包含的音频文件的数量，计算与所确定的内容分类相对应的规模指数。

15.根据权利要求14所述的装置，其中，所述建立音频分类模型的装置还包括：归一化模块，被配置为对所述规模指数进行归一化处理。

16.根据权利要求12所述的装置，其中，所述建立音频分类模型的装置还包括：

统计收益模块，被配置为统计所述每个音频文件在预定时间段内的收益；

建立效果评估模型模块，被配置为基于所述收益与所述音频分类模型，建立效果评估模型，得到效果评估结果；

比较模块，被配置为将所述效果评估结果与第二预设阈值进行比较，其中，所述第二预设阈值与所确定的内容分类相对应；以及

修正模块，被配置为当所述效果评估结果小于所述第二预设阈值时，利用所述效果评估模型修正所述音频分类模型。

17.根据权利要求16所述的装置，其中，所述修正模块包括以下中的一个或多个：

调整模块，被配置为上调所述第一预设阈值；或者

第三设定模块，被配置为将所述音频分类模型的结果设定为所述第二预设值。

18.根据权利要求11所述的装置，其中，判断转换子模块包括：当调用所述音频分类模型的结果为所述第一预设值时，确定所述视频文件适合转换为音频文件的模块。

19.根据权利要求11所述的装置，其中，接收视频文件模块包括以下中的一个或多个：

第一接收模块，被配置为从客户端实时地接收视频文件；以及

第二接收模块，被配置为从网络端获取存储的视频文件。

20.根据权利要求11所述的装置，还包括：存储模块，被配置为将所述视频文件和/或自动转换的音频文件存储起来。

21.一种服务器，包括：

处理器；以及

存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1至10中任一项所述的方法。

22.一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由服务器的处理器执行时使得所述服务器执行根据权利要求1至10中任一项所述的方法。