CN114512152A

CN114512152A - 一种广播音频格式文件生成方法、装置、设备及存储介质

Info

Publication number: CN114512152A
Application number: CN202111666346.1A
Authority: CN
Inventors: 吴健
Original assignee: Saiyinxin Micro Beijing Electronic Technology Co ltd
Current assignee: Saiyinxin Micro Beijing Electronic Technology Co ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-05-17

Abstract

本公开涉及一种广播音频格式文件生成方法、装置、设备及存储介质，该方法包括：获取用于生成广播音频格式文件的音频曲目数据和音频模型元数据；根据预设的广播音频格式，将所述音频曲目数据和所述音频模型元数据分配至所述广播音频格式文件的对应区块中；对所述音频模型元数据分别进行压缩和序列化格式，用于存储和传输XML格式元数据，使得所述广播音频格式文件能够携带预设数据容量的多声道文件和音频模型元数据。将音频模型中的模型元素转换为对应的广播音频格式文件，通过使用共享的核心元素，维持广播波兼容性。

Description

一种广播音频格式文件生成方法、装置、设备及存储介质

技术领域

本公开涉及音频处理的技术领域，尤其涉及一种广播音频格式文件生成方法、装置、设备及存储介质。

背景技术

随着科技的发展，音频变得越来越复杂。由早期的单声道音频演变成立体声，工作重心也注重左右声道的正确处理方式。但环绕声出现后，处理过程开始变得复杂。而环绕5.1扬声器系统则对多个通道进行排序约束，进而环绕6.1扬声器系统、环绕7.1扬声器系统等使音频处理千变万化，把正确的信号传递给合适的扬声器形成相互牵连的效果。因此，随着声音变得更具沉浸感和交互性，音频处理的复杂性也大大增加。

音频声道(或声道)，是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号。而声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。例如，在环绕5.1扬声器系统中包括6个不同空间位置的音频信号，每个独立的音频信号被用于驱动对应空间位置的扬声器；在环绕7.1扬声器系统中包括8个不同空间位置的音频信号，每个独立的音频信号被用于驱动对应空间位置的扬声器。

因此，当前扬声器系统实现的效果依赖于扬声器的数量和空间位置。例如，双声道扬声器系统无法实现环绕5.1扬声器系统的效果。

发明内容

本公开的目的在于提出一种广播音频格式文件生成方法、装置、设备及存储介质，以广播音频实现音频模型元数据的兼容性。

本公开第一方面提供了一种广播音频格式文件生成方法，包括：

获取用于生成广播音频格式文件的音频曲目数据和音频模型元数据；

根据预设的广播音频格式，将所述音频曲目数据和所述音频模型元数据分配至所述广播音频格式文件的对应区块中；

对所述音频模型元数据分别进行压缩和序列化格式，用于存储和传输XML格式元数据，使得所述广播音频格式文件能够携带预设数据容量的多声道文件和音频模型元数据；

其中，所述广播音频格式设置为包括资源交换文件格式定义块、WAVE标头和自定义WAVE块，所述自定义WAVE块至少包括以下广播波音频区块、数据尺寸和识别区块、占位符区块、音频可扩展标记语言区块、广播可扩展标记语言区块、串行可扩展标记语言区块和通道分配区块之一。

本公开第二方面提供了一种广播音频格式文件生成装置，包括：

获取模块，用于获取用于生成广播音频格式文件的音频曲目数据和音频模型元数据；

转换模块，用于根据预设的广播音频格式，将所述音频曲目数据和所述音频模型元数据分配至所述广播音频格式文件的对应区块中；

压缩模块，对所述音频模型元数据分别进行压缩和序列化格式，用于存储和传输XML格式元数据，使得所述广播音频格式文件能够携带预设数据容量的多声道文件和音频模型元数据；

本公开第三方面提供了一种电子设备，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如任意实施例提供的广播音频格式文件生成方法。

本公开第四方面提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器实现任意实施例提供的广播音频格式文件生成方法。

由上可见，本公开广播音频格式文件生成方法，将音频模型中的模型元素转换为对应的广播音频格式文件，通过使用共享的核心元素，维持广播波兼容性。

附图说明

图1为本公开实施例中提供了一种三维声音频模型的示意图；

图2为本公开实施例中的广播音频格式文件生成方法的流程图；

图3为本公开实施例中的广播音频格式文件生成装置的结构示意图；

图4为本公开实施例中的电子设备的结构示意图；

图5为本公开实施例中的64位广播波文件结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例

如图1所示，三维声音频模型由一组元素组成，每个元素用于描述音频的一个阶段，三维声音频模型包括内容制作部分和格式制作部分。

其中，所述内容部分包括：音频节目元素、音频内容元素、音频对象元素和音轨唯一标识元素；所述格式制作部分包括：音频包格式元素、音频通道格式元素、音频流格式元素和音频轨道格式元素；

所述音频节目元素引用至少一个所述音频内容元素；所述音频内容元素引用至少一个音频对象元素；所述音频对象元素引用对应的所述音频包格式元素和对应的所述音轨唯一标识元素；所述音轨唯一标识元素引用对应的所述音频轨道格式元素和对应的所述音频包格式元素；

所述音频包格式元素引用至少一个所述音频通道格式元素；所述音频流格式元素引用对应的所述音频通道格式元素和对应的所述音频包格式元素；所述音频轨道格式元素和对应的所述音频流格式元素相互引用。元素间的引用关系在图1中以箭头表示。

音频节目可以包括但不限于叙述、声音效果和背景音乐，所述音频节目元素可以用于描述节目，所述节目包括至少一个内容，所述音频内容元素用于描述所述音频节目元素中对应的一个内容。音频节目元素可以引用一个或多个音频内容元素，音频内容元素组合在一起以构建为完整的音频节目元素。

所述音频内容元素描述音频节目的一个组成部分(例如背景音乐)的内容，并引用一个或多个音频对象元素将内容与其格式联系起来。

所述音频对象元素用于建立内容、格式和有价值的信息，并确定实际音轨的音轨唯一标识。

格式制作部分包括：音频包格式元素、音频通道格式元素、音频流格式元素、音频轨道格式元素。

所述音频包格式元素，可以用于描述所述音频对象元素和原始音频数据依据通道分组打包时采用的格式。

所述音频通道格式元素可以用于表示单个音频采样序列和对其执行的预设操作，例如，在场景中渲染对象的移动。所述音频通道格式元素可以包含至少一个音频块格式元素。音频块格式元素可以视为音频通道格式元素的子元素，所以，音频通道格式元素和音频块格式元素之间为一种包含关系。

音频流，是渲染通道、对象、高阶环境音组件或包所需的音轨的组合。所述音频流格式元素用于建立音频轨道格式元素集和音频通道格式元素集之间的关系，或音频轨道格式集和音频包格式之间的关系。

所述音频轨道格式元素对应于单个音轨中的一组样本或数据，用于描述原始音频数据的格式，及渲染器的解码信号，还用于识别成功解码音轨数据所需的音轨组合。

通过三维声音频模型对原始音频数据进行制作后生成包含元数据的合成音频数据。

所述元数据(Metadata)是描述数据特性的信息，元数据支持的功能包括指示存储位置、历史数据、资源查找或文件记录。

合成音频数据以通信方式传输到远端后，由远端基于元数据对合成音频数据进行解析，还原原始声音场景或实时渲染成新的声音场景。

图1中示出了内容制作部分、格式制作部分和64位广播波(Broadcast Wave-64bit，BW64)文件之间的划分。内容制作部分和格式制作部分都构成了XML格式的元数据，它通常包含在64位广播波文件的一个音频可扩展标记语言(axml)区块中。底部的64位广播波文件部分包含通道分配(chna)区块，它是一个查找表，用于连接元数据和文件中的音频节目。

内容制作部分描述音频的技术内容，例如它是否包含对话或特定语言，以及响度元数据。格式部分描述音频曲目的通道类型以及它们是如何组合在一起的，例如立体声对中的左声道和右声道。内容制作部分的元索通常是音频和节目所独有的，而格式制作部分的元素可以复用。

如图2所示，本公开提供了一种广播音频格式文件生成方法，该方法包括：

S210、获取用于生成广播音频格式文件的音频曲目数据和音频模型元数据；

S220、根据预设的广播音频格式，将所述音频曲目数据和所述音频模型元数据分配至所述广播音频格式文件的对应区块中；

S230、对所述音频模型元数据分别进行压缩和序列化格式，用于存储和传输XML格式元数据，使得所述广播音频格式文件能够携带预设数据容量的多声道文件和音频模型元数据；

其中，所述广播音频格式设置为包括资源交换文件格式区块、WAVE标头和自定义WAVE块，所述自定义WAVE块至少包括以下广播波音频区块、数据尺寸和识别区块、占位符区块、音频可扩展标记语言区块、广播可扩展标记语言区块、串行可扩展标记语言区块和通道分配区块之一。

可选的，所述广播音频格式文件包含扩展名来支持预设数据容量的文件，包含的所述音频模型元数据与所述音频曲目数据链接。

可选的，所述广播波音频区块为通过读取音频广播顶层块来确定，每个所述广播波音频区块作为读取64位大小文件而存在；所述广播波音频块的元素，包括块识别字符数组、64位数据尺寸块大小和音频文件类型。

可选的，所述数据尺寸和识别区块，包含文件尺寸的尺寸值、数据区块和其他可定义区块的尺寸值数组。

可选的，所述数据尺寸和识别区块的数据尺寸区块元素，包含块识别、字节尺寸、代码块低字节尺寸、代码块高字节大小、数据代码块低字节、数据代码块高字节、低字节伪值、高字节伪值、数组的有效输入和超大块的块尺寸数值。

可选的，所述数据尺寸和识别区块的标识块元素，包含块识别、占位符字节和无效数据。

可选的，所述广播音频格式文件对应区块的类型包括：音频可扩展标记语言区块、广播可扩展标记语言区块、串行可扩展标记语言区块和通道分配区块，

音频可扩展标记语言区块基于对象的音频文件中，包含XML音频元数据，依照预设的XML格式以文本字符串的形式储存，XML数据结构是分级的；音频可扩展标记语言区块包含至少一个框架(Schema)的XML片段，在同一文件中与另一个资源交换文件格式区块以任何顺序出现。音频可扩展标记语言区块包含一个标头(标头下带有符合XML格式的数据)组成，音频可扩展标记语言区块的总长度不固定。使用64位广播波中的音频可扩展标记语言区块承载音频元数据，使用数据大小及识别(ds64)区块来允许用于音频可扩展标记语言区块的字段大小。音频可扩展标记语言区块的元素包括块识别字符数组、字节块数据大小和XML文本信息。广播可扩展标记语言区块(bxml区块)包含标头和文本指定的压缩方法压缩的XML广播元数据。即包含一个标头，后设置带有压缩方法类型(fmtType)中指定的压缩方法压缩的XML数据，广播可扩展标记语言区块的总长度不固定。使用数据大小及识别区块来允许用于广播可扩展标记语言区块的字段大小。

串行可扩展标记语言区块(sxml区块)可用于传输时变元数据，例如，串行音频元数据的串行表示(串行ADM)。包含符合预设的XML格式或与音频数据段相关联的压缩或未压缩XML的相关串行音频元数据；以任何顺序与同一文件中的其他资源交换文件格式区块一起出现。其包含一个标头，后设置带有压缩方法类型指定的压缩或未压缩XML数据的子块(SubXMLChunk)。每个XML数据的子块对应于与相邻XML数据的子块组(SubXMLChunkS)相邻的唯一数量的音频样本。串行可扩展标记语言区块由一个可选的对齐点表完成，该表允许基于时间戳的方式选定的XML数据的子块，串行可扩展标记语言区块总长度不固定，使用数据大小及识别区块来允许串行可扩展标记语言区块的字段大小。

通道分配区块提供从64位广播波文件中的每个音轨到音频模型元数据中的标识的引用，完成将文件中的每个音轨与其关联音频模型元数据链接，还允许更快地访问音频模型数据的唯一标识值(ADM ID)，不须访问XML元数据。通道分配区块的大小固定，并且位于数据(data)区块、音频可扩展标记语言区块区块、广播可扩展标记语言区块和串行可扩展标记语言区块之前可以即时访问、生成或修改其内容。

通道分配程序区块的元素包括块识别字符数组、块数据段长度、音轨数量、音轨的唯一标识值(UID)数量、音频参考ID集、音轨索引、音轨唯一标识值、音频轨道格式ID、音频包格式和音频ID结构字节。

音频模型是一个开放兼容的元数据通用模型，但音频模型元数据不适合用于实时制作和流式音频应用，而较适合用于本地文件存储时。当涉及到远程实时传送元数据与数字音频时，需要一个串行的音频元数据模式，以允许将现有音频及其相关的音频模型元数据文件切片成帧，并形成流式传输。

如图5所示，64位广播波格式是资源交换文件格式中详述的一种文件，以WAVE音频文件格式为基础，WAVE音频文件包括音频数据。资源交换文件格式文件格式的基本结构块为区块，包括一组密切相关的信息元。信息元包括块标识符，一个代表字节的长度和承载的信息的整数值。一个资源交换文件格式文件由块的组合构成，是64位广播波使用格式的核心元素。64位广播波是EBU TECH 3306中规定的RF64的后续产品。因此，它已经64位广播波指定两个新的资源交换文件格式块–音频可扩展标记语言区块和通道分配区块。资源交换文件格式(Resource Interchange File Format，简写为RIFF)：是一种文件格式(meta-format)标准，把资料存储在被标记的区块(tagged chunks)中。

广播音频格式文件具有与音频模型元数据相同的结构、属性和元素，以及用于规定区块格式的附加属性。广播音频格式文件区块不重叠，并与指定的开始时间和持续时间相连。在一个广播音频格式文件区块中包含的元数据，有可能用于描述使用的64位广播波格式，并通过使用共享的核心元素，维持兼容性。一个广播音频格式文件的区块包含一组音频模型元数据音频可扩展标记语言区块、广播可扩展标记语言区块和串行可扩展标记语言区块的定义，分别以压缩和序列化格式，用于存储和传输UTF-8编写的XML格式元数据。

音频模型元数据由内容部分(例如音频节目元素)和格式部分(例如音频通道格式元素)组成。只有音频节目元素、音频对象元素和音频块格式元素三个元素存有与时间相关的参数。在内容部分中，音频节目元素或音频对象元素的开始时间、结束时间和持续时间用于确定元素的开始时间、结束时间或时长，这些参数通常是固定的。在格式部分中，音频块格式元素中的所有参数都是时变参数。

音频模型元数据可以分成两组：即动态元数据(如音频通道格式元素中的音频块格式元素)和静态元数据(如音频节目元素和音频内容元素)。

广播音频格式文件帧由一个或多个元数据区块组成。

图3为本公开实施例提供的一种广播音频格式文件生成装置，包括：

获取模块310，用于获取用于生成广播音频格式文件的音频曲目数据和音频模型元数据；

转换模块320，用于根据预设的广播音频格式，将所述音频曲目数据和所述音频模型元数据分配至所述广播音频格式文件的对应区块中；

压缩模块330，对所述音频模型元数据分别进行压缩和序列化格式，用于存储和传输XML格式元数据，使得所述广播音频格式文件能够携带预设数据容量的多声道文件和音频模型元数据；

可选的，所述广播波音频区块为通过读取音频广播顶层块来确定，每个所述广播波音频块作为读取64位大小文件而存在；

所述广播波音频区块的元素，包括块识别字符数组、64位数据尺寸块大小和音频文件类型。

可选的，所述数据尺寸和识别区块的数据尺寸区块元素，包含块识别、字节尺寸、代码块低字节尺寸、代码块高字节尺寸、数据代码块低字节、数据代码块高字节、低字节伪值、高字节伪值、数组的有效输入和超大块的块尺寸数值。

所述音频可扩展标记语言区块基于对象的音频文件中，包含XML音频元数据，依照预设的XML格式以文本字符串的形式储存，XML数据结构是分级的；

所述广播可扩展标记语言区块包含标头和文本指定的压缩方法压缩的XML广播元数据；

所述串行可扩展标记语言区块用于传输时变元数据，包含符合预设的XML格式或与音频数据段相关联的压缩或未压缩XML的相关串行音频元数据；

所述通道分配区块从广播音频格式文件中的每个音轨到音频模型元数据中的标识的引用，完成将文件中的每个音轨与其关联音频模型元数据链接。

本发明实施例所提供的广播音频格式文件生成装置可执行本发明任意实施例所提供的广播音频格式文件生成方法，具备执行方法相应的功能模块和有益效果。

图4为本公开实施例提供的一种电子设备的结构示意图。如图4所示，该电子设备包括：处理器410、存储器420、输入装置430以及输出装置440。该电子设备中处理器30的数量可以是一个或者多个，图4中以一个处理器410为例。该电子设备中存储器420的数量可以是一个或者多个，图4中以一个存储器420为例。该电子设备的处理器410、存储器420、输入装置430以及输出装置440可以通过总线或者其他方式连接，图4中以通过总线连接为例。该电子设备可以是电脑和服务器等。本公开实施例以电子设备为服务器进行详细说明，该服务器可以是独立服务器或集群服务器。存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本公开任意实施例所述广播音频格式文件生成装置的程序指令/模块。存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或者字符信息，以及产生与电子设备的观众用户设置以及功能控制有关的键信号输入，还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置440可以包括扬声器等音频设备。需要说明的是，输入装置430和输出装置440的具体组成可以根据实际情况设定。

处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现广播音频格式文件生成方法。

本公开实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器生成包括任意实施例提供的广播音频格式文件生成方法。

当然，本公开实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的电子方法操作，还可以执行本公开任意实施例所提供的电子方法中的相关操作，且具备相应的功能和有益效果。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本公开可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本公开任意实施例所述的电子方法。

值得注意的是，上述电子装置中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本公开的保护范围。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“在一实施例中”、“在又一实施例中”、“示例性的”或“在具体的实施例中”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

虽然，上文中已经用一般性说明、具体实施方式及试验，对本公开作了详尽的描述，但在本公开基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本公开精神的基础上所做的这些修改或改进，均属于本公开要求保护的范围。

Claims

1.一种广播音频格式文件生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述广播音频格式文件包含扩展名来支持预设数据容量的文件，包含的所述音频模型元数据与所述音频曲目数据链接。

3.根据权利要求1所述的方法，其特征在于，所述广播波音频区块为通过读取音频广播顶层块来确定，每个所述广播波音频块作为读取64位大小文件而存在；

4.根据权利要求1所述的方法，其特征在于，所述数据尺寸和识别区块，包含文件尺寸的尺寸值、数据区块和其他可定义区块的尺寸值数组。

5.根据权利要求4所述的方法，其特征在于，所述数据尺寸和识别区块的数据尺寸区块元素，包含块识别、字节尺寸、代码块低字节尺寸、代码块高字节尺寸、数据代码块低字节、数据代码块高字节、低字节伪值、高字节伪值、数组的有效输入和超大块的块尺寸数值。

6.根据权利要求5所述的方法，其特征在于，所述数据尺寸和识别区块的标识块元素，包含块识别、占位符字节和无效数据。

7.根据权利要求6所述的方法，其特征在于，所述广播音频格式文件对应区块的类型包括：音频可扩展标记语言区块、广播可扩展标记语言区块、串行可扩展标记语言区块和通道分配区块，

所述音频可扩展标记语言区块，基于对象的音频文件中，包含XML音频元数据，依照预设的XML格式以文本字符串的形式储存，XML数据结构是分级的；

8.一种广播音频格式文件生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。

10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器实现如权利要求1-7任一项所述方法。