RU2702233C2 - Устройство обработки информации и способ обработки информации - Google Patents
Устройство обработки информации и способ обработки информации Download PDFInfo
- Publication number
- RU2702233C2 RU2702233C2 RU2016150994A RU2016150994A RU2702233C2 RU 2702233 C2 RU2702233 C2 RU 2702233C2 RU 2016150994 A RU2016150994 A RU 2016150994A RU 2016150994 A RU2016150994 A RU 2016150994A RU 2702233 C2 RU2702233 C2 RU 2702233C2
- Authority
- RU
- Russia
- Prior art keywords
- audio
- group
- track
- file
- information
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 59
- 238000003672 processing method Methods 0.000 title description 4
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 abstract description 21
- 230000000694 effects Effects 0.000 abstract description 6
- 239000000126 substance Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 9
- AWSBQWZZLBPUQH-UHFFFAOYSA-N mdat Chemical compound C1=C2CC(N)CCC2=CC2=C1OCO2 AWSBQWZZLBPUQH-UHFFFAOYSA-N 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 125000000174 L-prolyl group Chemical group [H]N1C([H])([H])C([H])([H])C([H])([H])[C@@]1([H])C(*)=O 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/122—File system administration, e.g. details of archiving or snapshots using management policies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/12—Formatting, e.g. arrangement of data block or words on the record carriers
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
- H04N21/2335—Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234327—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8455—Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/142—Detection of scene cut or scene change
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Hardware Redundancy (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Изобретение относится к устройству обработки информации и к способу процесса генерирования, которые позволяют легко воспроизводить аудиоданные заданного вида из множества видов аудиоданных. Техническим результатом является обеспечение воспроизведения аудиоданных желаемой группы из числа аудиоданных, состоящих из множества групп. Предложено устройство генерирования файла, которое генерирует аудиофайл, где аудиопотоки множества групп разделены по дорожкам для каждой одной или более групп и размещены на дорожках для каждой одной или более групп и на которых размещается информация, относящаяся к множеству групп. Настоящее раскрытие может быть применимо к системе обработки информации, состоящей, например, из устройства генерирования файла, генерирующего файл, веб-сервера, который записывает файл, сгенерированный устройством генерирования файла, и терминала воспроизведения движущегося изображения, который воспроизводит файл. 4 н. и 12 з.п. ф-лы, 53 ил.
Description
Область техники, к которой относится изобретение
Настоящее раскрытие относится к устройству обработки информации и к способу обработки информации и, в частности, относится к устройству обработки информации и к способу процесса генерирования, которые позволяют легко воспроизводить аудиоданные заданного вида из множества видов аудиоданных.
Уровень техники
В последние годы главным направлением развития служб потоковой передачи в Интернете была технология OTT-V (телевидение через Интернет). Эта технология, получающая все большее распространение в качестве базовой технологии, является технологией фазодинамичной адаптивной потоковой передачи, разработанной экспертной группой по кинематографии по протоколу HTTP (MPEG-DASH) (смотрите, например, непатентный документ 1).
В MPEG-DASH сервер распределения подготавливает группы данных движущегося изображения с различными размерами экрана и скоростями кодирования для одного фрагмента контента движущегося изображения и терминал воспроизведения запрашивает группу данных движущегося изображения с оптимальным размером экрана и оптимальной скоростью кодирования, соответствующими пути прохождения передачи, с тем чтобы реализовалось адаптивное распределение потоковой передачи.
Литература
Непатентный документ
Непатентный документ 1: Dynamic Adaptive Streaming over HTTP (MPEG-DASH) (URL:http://mpeg.chiariglione.org/standards/mpeg-dash/media-presentation-description-and-segment-formats/text-isoiec-23009-12012-dam-1).
Раскрытие сущности изобретения
Проблемы, решаемые изобретением
Однако простота воспроизведения аудиоданных заданной группы из числа аудиоданных множества групп не рассматривалась.
Настоящее раскрытие было сделано с учетом вышесказанного и позволяет легко воспроизводить аудиоданные желаемой группы из числа аудиоданных, состоящих из множества групп.
Решение проблем
Устройство обработки информации по первому варианту настоящего раскрытия является устройством обработки информации, содержащим блок генерирования файла для генерирования файла, в котором аудиоданные множества видов делятся по дорожкам для каждого одного или более видов и размещаются на дорожках для каждого одного или более видов и в котором размещается информация, связанная с множеством видов.
Способ обработки информации по первому варианту настоящего раскрытия соответствует устройству обработки информации по первому варианту настоящего раскрытия.
В первом варианте настоящего раскрытия генерируется файл, в котором аудиоданные множества видов делятся по дорожкам для каждого одного или более видов и размещаются на дорожках для каждого одного или более видов и в котором размещается информация, связанная с множеством видов.
Устройство обработки информации по второму варианту настоящего раскрытия является устройством обработки информации, содержащим блок воспроизведения, который воспроизводит аудиоданные заданной дорожки из файла, при этом аудиоданные множества видов делятся по дорожкам для каждого одного или более видов и размещаются на дорожках для каждого одного или более видов и в котором размещается информация, связанная с множеством видов.
Способ обработки информации по второму варианту настоящего раскрытия соответствует устройству обработки информации по второму варианту настоящего раскрытия.
Во втором варианте настоящего раскрытия аудиоданные заданной дорожки воспроизводятся из файла, в котором аудиоданные множества видов делятся по дорожкам для каждого одного или более видов и размещаются на дорожках для каждого одного или более видов и в котором размещается информация, связанная с множеством видов.
Заметим, что устройства обработки информации по первому и второму вариантам могут быть реализованы, посредством выполнения компьютером программы.
Дополнительно, чтобы реализовать устройства обработки информации по первому и второму вариантам, программа, исполняемая компьютером, может передаваться через среду передачи или может быть записана на носителе записи и предоставлена.
Результаты изобретения
Согласно первому варианту настоящего раскрытия, может быть сгенерирован файл. Дополнительно, согласно первому варианту настоящего раскрытия, может быть сгенерирован файл, позволяющий легко воспроизводить аудиоданные заданного вида из числа множества видов аудиоданных.
Согласно второму варианту настоящего раскрытия, могут воспроизводиться аудиоданные. Дополнительно, согласно второму варианту настоящего раскрытия, легко могут воспроизводиться аудиоданные заданного вида из числа множества видов аудиоданных.
Краткое описание чертежей
Фиг. 1 - структура файла MPD.
Фиг. 2 - соотношение между атрибутами "Period", "Representation" и "Segment".
Фиг. 3 - иерархическая структура файла MPD.
Фиг. 4 - взаимосвязь между структурой и временем файла MPD.
Фиг. 5 - общее представление дорожки формата трехмерного аудиофайла МР4.
Фиг. 6 - структура поля moov.
Фиг. 7 - иерархическая структура трехмерного аудио.
Фиг. 8 - общее представление системы обработки информации по первому варианту осуществления, к которому применяется настоящее раскрытие.
Фиг. 9 - общее представление первого примера дорожки по первому варианту осуществления, к которому применяется настоящее раскрытие.
Фиг. 10 - пример синтаксиса демонстрационной записи основной дорожки.
Фиг. 11 - пример синтаксиса демонстрационной записи дорожки из группы, образующей переключатель Group.
Фиг. 12 - первый пример структуры сегмента.
Фиг. 13 - второй пример структуры сегмента.
Фиг. 14 - пример описания поля назначения уровня.
Фиг. 15 - первый пример описания файла MPD по первому варианту осуществления, к которому применяется настоящее раскрытие.
Фиг. 16 - блок-схема примера конфигурации устройства генерирования файла, показанного на фиг. 8.
Фиг. 17 - блок-схема последовательности выполнения операций процесса генерирования файла в устройстве генерирования файла, показанном на фиг. 16.
Фиг. 18 - блок-схема примера конфигурации блока потокового воспроизведения, реализуемого терминалом воспроизведения движущегося изображения, показанным на фиг. 8.
Фиг. 19 - блок-схема последовательности выполнения операций процесса воспроизведения блока потокового воспроизведения, показанного на фиг. 18.
Фиг. 20 - общее представление второго примера дорожки по первому варианту осуществления, к которому применяется настоящее раскрытие.
Фиг. 21 - пример синтаксиса групповой демонстрационной записи дорожки из группы, генерирующей переключатель Group.
Фиг. 22 - пример синтаксиса демонстрационной записи дорожки каждой из групп.
Фиг. 23 - обще представление третьего примера дорожки аудиофайла.
Фиг. 24 - второй пример описания файла MPD.
Фиг. 25 - другой пример второго примера описания файла MPD.
Фиг. 26 - общее представление четвертого примера дорожки аудиофайла.
Фиг. 27 - третий пример описания файла MPD.
Фиг. 28 - общее представление пятого примера дорожки аудиофайла.
Фиг. 29 - пример синтаксиса демонстрационной записи, в которой 4сс равен "mha3".
Фиг. 30 - другой пример синтаксиса демонстрационной записи, в которой 4сс равно "mha3".
Фиг. 31 - четвертый пример описания файла MPD.
Фиг. 32 - общее представление другого примера третьего примера дорожки аудиофайла.
Фиг. 33 - общее представление другого примера четвертого примера дорожки аудиофайла.
Фиг. 34 - общее представление другого примера пятого примера дорожки аудиофайла.
Фиг. 35 - общее представление шестого примера дорожки аудиофайла.
Фиг. 36 - пример синтаксиса демонстрационной записи основной дорожки и групповой дорожки, показанной на фиг. 35.
Фиг. 37 - еще один пример синтаксиса демонстрационной записи, где 4сс равно "mha3".
Фиг. 38 - общее представление дорожки по второму варианту осуществления, к которому применяется настоящее раскрытие.
Фиг. 39 - первый пример описания файла MPD по второму варианту осуществления, к которому применяется настоящее раскрытие.
Фиг. 40 - общее представление системы обработки информации по второму варианту осуществления, к которому применяется настоящее раскрытие.
Фиг. 41 - пример конфигурации устройства генерирования файла, показанного на фиг. 40.
Фиг. 42 - блок-схема последовательности выполнения операций процесса генерирования файла устройства генерирования файла, показанного на фиг. 41.
Фиг. 43 - блок-схема примера конфигурации блока потокового воспроизведения, реализуемого с помощью терминала воспроизведения движущегося изображения, показанного на фиг. 40.
Фиг. 44 - блок-схема последовательности выполнения примера процесса воспроизведения блока потокового воспроизведения, показанного на фиг. 43.
Фиг. 45 - второй пример описания файла MPD по второму варианту осуществления, к которому применяется настоящее раскрытие.
Фиг. 46 - третий пример описания файла MPD по второму варианту осуществления, к которому применяется настоящее раскрытие.
Фиг. 47 - четвертый пример описания файла MPD по второму варианту осуществления, к которому применяется настоящее раскрытие.
Фиг. 48 - пятый пример описания файла MPD по второму варианту осуществления, к которому применяется настоящее раскрытие.
Фиг. 49 - шестой пример описания файла MPD по второму варианту осуществления, к которому применяется настоящее раскрытие.
Фиг. 50 - седьмой пример описания файла MPD по второму варианту осуществления, к которому применяется настоящее раскрытие.
Фиг. 51 - пример структуры дорожки аудиофайла, содержащего множество основных дорожек.
Фиг. 52 - другой пример структуры дорожки аудиофайла, содержащей множество основных дорожек.
Фиг. 53 - пример конфигурации аппаратных средств компьютера.
Осуществление изобретения
Здесь далее будет описаны предпосылки настоящего раскрытия и варианты осуществления реализации настоящего раскрытия (здесь далее упоминаемые как варианты осуществления). Заметим, что описание будет приведено в следующем порядке:
0. Предпосылки настоящего раскрытия (фиг. 1-7)
1. Первый вариант осуществления (фиг. 8-37)
2. Второй вариант осуществления (фиг. 38-50)
3. Другой пример основной дорожки (фиг. 51 и 52)
4. Третий вариант осуществления (фиг. 53).
Предпосылки настоящего раскрытия
Описание структуры файла MPD
На фиг. 1 представлена структура файла описания медиапредставления (MPD) по протоколу MPEG-DASH.
При анализе (синтаксическом разборе) файла MPD оптимальный файл выбирается из атрибутов "Presentation", содержащихся в атрибутах "Periods" файла MPD (Media Presentation, показанное на фиг. 1).
Затем файл получают и обрабатывают со ссылкой на унифицированный указатель ресурса (URL) и т.п. из сегмента инициализации "Initialization Segment" в заголовке выбранного атрибута "Representation". Вслед за этим, файл получают и воспроизводят со ссылкой на URL и т.п. последующего медиасегмента "Media Segment".
Заметим, что взаимосвязь между "Period", "Representation" и "Segment" в файле MPD показана на фиг. 2. То есть один фрагмент контента движущегося изображения может управляться блоками большей продолжительности, чем сегмент посредством атрибута "Period" и может управляться блоками сегмента посредством сегмента "Segment" в каждом из атрибутов "Periods". Дополнительно, в каждом из атрибутов "Periods", контент движущегося изображения может управляться в блоках атрибута потока посредством атрибута "Representation".
Поэтому файл MPD обладает иерархической структурой, показанной на фиг. 3, в пределах и согласно атрибуту "Period". Дополнительно, размещение структуры файла MPD по оси времени показано в примере на фиг. 4. Как видно из фиг. 4, множество атрибутов "Representation" существует относительно одного и того же сегмента. Адаптивно выбирая любой из этих атрибутов "Representation", поток желаемого атрибута пользователя может быть получен и воспроизведен.
Общее представление формата трехмерного аудиофайла
На фиг. 5 приводится общее представление дорожки формата трехмерного аудиофайла МР4.
В файле МР4 информация кодека контента движущегося изображения и информация о положении, указывающая положение в файле, могут управляться для каждой дорожки. В формате трехмерного аудиофайла МР4 все аудиопотоки (элементарные потоки (ES)) трехмерного аудио (аудио Channel/аудио Object/аудио SAOC Object SAOC/аудио НОА/метаданные) записываются как одна дорожка в блоках выборки (кадре). Дополнительно, информация кодека (конфигурация файл Pro/уровень/аудио) трехмерного аудио сохраняется как демонстрационная запись.
Аудио Channel, которое образует трехмерное аудио, является аудиоданными в блоках канала, и аудио Object является аудиоданными в блоках объекта. Заметим, что объект является источником звука, и аудиоданные в блоках объекта получают с помощью микрофона и т.п., подключенных к объекту. Объект может быть средством, таким как неподвижная микрофонная стойка или подвижным телом, таким как человек.
Дополнительно, аудио SAOC Object является аудиоданными пространственного объектного аудиокодирования (spatial audio object coding, SAOC), аудио НОА являются аудиоданными звукозаписи более высокого порядка с эффектом присутствия (higher order ambisonics, НО А) и метаданные являются метаданными аудио Channel, аудио Object, аудио SAOC Object и аудио НОА.
Структура поля moov
На фиг. 6 представлена структура поля moov файла МР4.
Как показано на фиг. 6, в файле МР4 данные изображения и аудиоданные записываются как разные дорожки. На фиг. 6, хотя подробности не описываются, дорожка аудиоданных подобна дорожке данных изображения. Демонстрационная запись включается в описание выборки, расположенное в поле stsd поля moov.
При этом во время широковещательного или локального воспроизведения хранящегося файла МР4 сторона сервера обычно посылает аудиопотоки всего трехмерного аудио. Затем сторона клиента декодирует и выводит только аудиопотоки необходимого трехмерного аудио, анализируя аудиопотоки всего трехмерного аудио. Однако в случае, когда битовая скорость высокая или когда существует ограничение по скорости считывания локального запоминающего устройства, желательно снизить загрузку процесса декодирования, получая только аудиопотоки необходимого трехмерного аудио.
Дополнительно, при потоковом воспроизведении файла МР4 по протоколу MPEG-DASH сторона сервера подготавливает аудиопотоки с множеством скоростей кодирования. Поэтому сторона клиента может выбирать и получать аудиопотоки со скоростью кодирования, оптимальной для среды воспроизведения, получая только аудиопотоки необходимого трехмерного аудио.
Как описано выше, в настоящем раскрытии, посредством деления аудиопотоков трехмерного аудио на дорожки в соответствии с видами и размещая аудиопотоки в аудиофайле, могут быть эффективно получены только аудиопотоки заданного вида трехмерного аудио. Соответственно, при широковещательном или локальном воспроизведении хранящихся данных нагрузка на процесс декодирования может быть снижена. Дополнительно, при потоковом воспроизведении аудиопотоки с наивысшим качеством аудиопотоков необходимого трехмерного аудио могут воспроизводиться в соответствии с шириной полосы.
Описание иерархической структуры трехмерного аудио
На фиг. 7 показана иерархическая структура трехмерного аудио.
Как показано на фиг. 7, аудиоданные трехмерного аудио являются аудиоэлементом (Element), который различен в каждых аудиоданных. Типы аудиоэлементов содержат элемент одиночного канала (SCE) и элемент пары каналов (СРЕ). Типом аудиоэлемента аудиоданных одного канала является SCE, а типом аудиоэлемента, соответствующего аудиоданным двух каналов, является СРЕ.
Аудиоэлементы одного и того же вида аудио (Channel/Object/SAOC Object/HOA) образуют группу. Поэтому примеры типа группы (GroupType) содержат Channels, Objects, SAOC Objects и HOA. Две или более групп могут, по мере необходимости, формировать переключатель Group или группу Preset.
Переключатель Group является группой (группой эксклюзивного воспроизведения), в которой аудиопоток содержащейся в ней группы воспроизводится эксклюзивно. То есть, как показано на фиг. 7, в случае, когда существуют группа аудио Object для английского языка (EN) и группа аудио Object для французского языка (FR), только одна из групп может воспроизводиться. Поэтому переключатель Group генерируется из группы аудио Object для английского языка с групповым идентификатором ID 2 и из группы аудио Object для французского языка с групповым идентификатором ID 3. Соответственно, воспроизводятся исключительно аудио Object на английском языке или аудио Object на французском языке.
При этом группа Preset определяет комбинацию групп, предполагаемую создателем контента.
Дополнительно, метаданными трехмерного аудио является элемент Extelement (Ext Element), который различен в каждых метаданных. Типы Extelement содержат Object Metadata, SAOC 3D Metadata, HOA Metadata, DRC Metadata, SpatialFrame, SaocFrame и т.п. Extelement для Object Metadata является метаданными для всех аудио Object, Extelement для SAOC 3D Metadata является метаданными для всех аудио SAOC. Дополнительно, Extelement для HOA Metadata является метаданными для всех аудио НОА и Extelement для метаданных управления динамическим диапазоном (DRC) является метаданными для всех аудио Object, аудио SAOC и аудио НОА.
Как описано выше, блоки деления аудиоданных, трехмерного аудио содержат аудиоэлемент, тип группы, группу, переключатель Group и группу Preset. Поэтому аудиопотоки аудиоданных трехмерного аудио могут быть разделены по разным дорожкам в каждом виде, где вид является аудиоэлементом, типом группы, группой, переключателем Group или группой Preset.
Дополнительно, блоки деления метаданных, трехмерного аудио содержат тип элемента Extelement и аудиоэлемент, соответствующий метаданным. Поэтому аудиопотоки метаданных трехмерного аудио могут быть разделены по разным дорожкам в каждом виде, где видом является элемент Extelement или аудиоэлемент, соответствующий метаданным.
В представленном ниже варианте осуществления аудиопотоки аудиоданных делятся по дорожкам в каждой одной или более группах и аудиопотоки метаданных делятся по дорожкам в каждом типе Extelement.
Первый вариант осуществления
Общее представление системы обработки информации
На фиг. 8 приведено общее представление системы обработки информации по первому варианту осуществления, к которому применяется настоящее раскрытие.
Система 140 обработки информации, показанная на фиг. 8, выполнена с возможностью соединения через Интернет 13 веб-сервера 142, соединенного с устройством 141 генерирования файла, и терминала 144 воспроизведения движущегося изображения.
В системе 140 обработки информации веб-сервер 142 направляет аудиопотоки дорожек в группе, которая должна воспроизводиться, терминалу 144 воспроизведения движущегося изображения способом, соответствующим MPEG-DASH.
Для конкретности, устройство 141 генерирования файла кодирует аудиоданные и метаданные трехмерного аудио контента движущегося изображения с множеством скоростей кодирования, чтобы сформировать аудиопотоки. Чтобы сформировать аудиофайл, устройство 141 генерирования файла создает файлы из всех аудиопотоков с разными скоростями кодирования и в каждом временном блоке от нескольких секунд до десяти секунд, который называют сегментом. В этом случае устройство 141 генерирования файла делит аудиопотоки каждой группы и каждого типа Extelement и размещает аудиопотоки в аудиофайле как аудиопотоки на различных дорожках. Устройство 141 генерирования файла загружает сгенерированный аудиофайл на веб-сервер 142.
Дополнительно, устройство 141 генерирования файла генерирует файл MPD (файл управления), управляющий аудиофайлом и т.п. Устройство 141 генерирования файла загружает файл MPD на веб-сервер 142.
Веб-сервер 142 хранит аудиофайл с каждой из скоростей кодирования и сегмент и файл MPD, загруженный устройством 141 генерирования файла. Веб-сервер 142 передает хранящийся аудиофайл, файл MPD и т.п. терминалу 144 воспроизведения движущегося изображения в ответ на запрос от терминала 144 воспроизведения движущегося изображения.
Терминал 144 воспроизведения движущегося изображения выполняет программное обеспечение 161 управления потоковой передачей данных (здесь далее упоминаемое как программное обеспечение управления), программное обеспечение 162 воспроизведения движущегося изображения, программное обеспечение 163 клиента для доступа по протоколу передачи гипертекста (HTTP) (в дальнейшем, упоминаемое как программное обеспечение доступа) и т.п.
Программное обеспечение 161 управления является программным обеспечением, управляющим данными, передаваемыми потоком от веб-сервера 142. Для конкретности, программное обеспечение 161 управления заставляет терминал 144 воспроизведения движущегося изображения получать файл MPD от веб-сервера 142.
Дополнительно, программное обеспечение 161 управления подает команду программному обеспечению 163 доступа отправить запрос передачи группы, которая должна воспроизводиться, определенной программным обеспечением 162 воспроизведения движущегося изображения, и аудиопотоки дорожек типа Extelement, соответствующие группе, основываясь на файле MPD.
Программное обеспечение 162 воспроизведения движущегося изображения является программным обеспечением, воспроизводящим аудиопотоки, полученные от веб-сервера 142. Для конкретности, программное обеспечение 162 воспроизведения движущегося изображения указывает программному обеспечению 161 управления группу, которая должна воспроизводиться, и тип Extelement, соответствующий группе. Дополнительно, программное обеспечение 162 воспроизведения движущегося изображения декодирует аудиопотоки, принятые от терминала 144 воспроизведения движущегося изображения, когда получает уведомление о запуске приема от программного обеспечения 163 доступа. Программное обеспечение 162 воспроизведения движущегося изображения, по мере необходимости, синтезирует и выводит аудиоданные, полученные в результате декодирования.
Программное обеспечение 163 доступа является программным обеспечением, управляющим связью между терминалом 144 воспроизведения движущегося изображения и веб-сервером 142 через Интернет 13, используя протокол HTTP. Для конкретности, программное обеспечение 163 доступа заставляет терминал 144 воспроизведения движущегося изображения передавать запрос передачи аудиопотока дорожки, которая должна воспроизводиться, содержащегося в аудиофайле, в ответ на команду программного обеспечения 161 управления. Дополнительно, программное обеспечение 163 доступа заставляет терминал 144 воспроизведения движущегося изображения запускать прием аудиопотоков, передаваемых от веб-сервера 142 в ответ на запрос передачи, и подает уведомление о запуске приема программному обеспечению 162 воспроизведения движущегося изображения.
Заметим, что в настоящем описании будет описан только аудиофайл контента движущегося изображения. Однако в действительности соответствующий файл изображения генерируется и воспроизводится вместе с аудиофайлом.
Общее представление первого примера дорожки аудиофайла
На фиг. 9 приведено общее представление первого примера дорожки аудиофайла.
Заметим, что на фиг. 9 для удобства описания показана только дорожка аудиоданных, трехмерного аудио. То же самое относится к фиг. 20, 23, 26, 28, 30, 32-35 и 38.
Как показано на фиг. 9, аудиопотоки всего трехмерного аудио хранятся в одном аудиофайле (3dauio.mp4). В аудиофайле (3dauio.mp4) аудиопотоки групп трехмерного аудио соответственно делятся по различным дорожкам и размещаются. Дополнительно, информация, связанная со всем трехмерным аудио, размещается как основная дорожка (Base Track).
Ссылочная дорожка Track Reference размещается в поле дорожки каждой из дорожек. Track Reference указывает ссылочное соотношение между соответствующей дорожкой и другой дорожкой. Для конкретности, ссылочная дорожка Track Reference указывает идентификатор Ш другой дорожки в ссылочном соотношении, уникальном для дорожки (здесь далее упоминаемый как ID дорожки).
В примере, показанном на фиг. 9, идентификаторы ID дорожек основной дорожки, дорожки в группе №1 с групповым ID1, дорожки в группе №2 с групповым ID2, дорожки в группе №3 с групповым ID3, дорожки в группе №4 с групповым ID4 являются идентификаторами 1, 2, 3,4 и 5. Дополнительно, Track Reference основной дорожки имеют идентификаторы 2, 3, 4, и 5 и Track Reference дорожек в группах №№1-4 имеет идентификатор 1, то есть является ID основной дорожки. Поэтому основная дорожка и дорожки в группах №№1-4 находятся в ссылочной взаимосвязи. То есть во время воспроизведения дорожек в группах №№1-4 ссыпка делается на основную дорожку.
Дополнительно, 4сс (символьный код) демонстрационной записи основной дорожки равен "mha2" и в демонстрационной записи основной дорожки размещаются поле mhaC, содержащее информацию конфигурации всех групп трехмерного аудио или информацию конфигурации, необходимую для декодирования только основной дорожки, и поле mhas, содержащее информацию, связанную со всеми группами и переключателем Group трехмерного аудио. Информация, связанная с группами, генерируется из ID групп, информация, указывающая контент данных элемента, классифицируется в группы и т.п. Информация, связанная с переключателем Group, генерируется из ID переключателя Group, ID групп, формирующих переключатель Group и т.п.
4сс демонстрационной записи дорожки каждой из групп равен "mhg1" и в демонстрационной записи дорожки каждой из групп может размещаться поле mhgC, содержащее информацию, связанную с группой. В случае, когда группа генерирует переключатель Group, поле mhsC, содержащее информацию, связанную с переключателем Group, размещается в демонстрационной записи дорожки в группе.
В демонстрационной записи основной дорожки размещается ссылочная информация на выборки дорожек в группах или информация конфигурации, необходимая для декодирования ссылочной информации. Размещая выборки групп, на которые делается ссылка, посредством ссылочной информации в порядке расположения ссылочной информации, аудиопотоки трехмерного аудио могут формироваться до деления на дорожки. Ссылочная информация генерируется, исходя из положений и размеров выборок дорожек групп, типов групп и т.п.
Пример синтаксиса демонстрационной записи основной дорожки
На фиг. 10 представлен пример синтаксиса демонстрационной записи основной дорожки.
Как показано на фиг. 10, в демонстрационной записи основной дорожки размещаются поле mhaC (MHAConfigration Box), поле mhas поле (MHAAudioSceneInfo Box) и т.п.В поле mhaC описывается информация конфигурации всех групп трехмерного аудио или информация конфигурации, необходимая для декодирования только основной дорожки. Дополнительно, в поле mhas описывается информация AudioScene, содержащая информацию, относящуюся ко всем группам и переключателю Group трехмерного аудио. Информация AudioScene описывает иерархическую структуру, показанную на фиг. 7.
Пример синтаксиса демонстрационной записи дорожки каждой из групп
На фиг. 11 показан пример синтаксиса демонстрационной записи дорожки для каждой из групп.
Как показано на фиг. 11, в демонстрационной записи дорожки каждой из групп размещаются поле mhaC (MHAConfigration Box), поле mhgC (MHASwitchGropuDefinition Box), поле mhsC (MHASvvitchGropuDefinition Box) и т.п.
В поле mhaC описывается информация конфигурации Config, необходимая для декодирования соответствующей дорожки. Дополнительно, в поле mhgC информация AudioScene, связанная с соответствующей группой, описывается как GroupDefinition. В поле mhsC информация AudioScene, связанная с переключателем Group, описывается в SwitchGroupDefinition в случае, когда соответствующая группа генерирует переключатель Group.
Первый пример структуры сегмента аудиофайла
На фиг. 12 представлен первый пример структуры сегмента аудиофайла.
В структуре сегмента, показанной на фиг. 12, сегмент Initial образуется из поля ftyp и поля moov. В поле moov поле trak размещается для каждой дорожки, содержащейся в аудиофайле. Дополнительно, в поле moov размещаются поле mvex, содержащее информацию, указьшающую соответствующую взаимосвязь между ID каждой из дорожек и уровнем, используемым в поле ssix в медиасегменте и т.п.
Дополнительно, медиасегмент образуется из поля sidx, поля ssix и одного или более субсегментов. В поле sidx размещается информации о положении субсегментов в аудиофайле. В поле ssix размещается информация о положении аудиопотоков уровней, расположенных в поле mdat. Заметим, что уровень соответствует дорожке. Дополнительно, информация о положении первой дорожки является информацией о положении данных, состоящих из поля moof и аудиопотока первой дорожки.
Субсегмент обеспечивается для каждой произвольной продолжительности времени и субсегмент генерируется из пары, состоящей из поля moof и поля mdat, являющегося общим для всех дорожек. В поле mdat аудиопотоки всех дорожек размещаются все вместе с произвольной длительностью по времени, и в поле moof размещается информация управления аудиопотоками. Аудиопотоки дорожек, расположенных в поле mdat, следуют один за другим на каждой дорожке.
В примере на фиг. 12, Track1 с идентификатором ID дорожки, равным 1, является основной дорожкой, и Track2-TrackN с идентификаторами ID дорожек, равными 2-N, являются дорожками в группах с групповым ID от 1 до N-1. То же самое относится к описанному ниже фиг. 13.
Второй пример структуры сегмента аудиофайла
На фиг. 13 показан второй пример структуры сегмента аудиофайла.
Структура сегмента, показанная на фиг. 13, отличается от структуры сегмента, показанной на фиг. 12, тем, что поле moof и поле mdat поле обеспечиваются для каждой дорожки.
То есть, сегмент Initial, показанный на фиг. 13, подобен сегменту Initial, показанному на фиг. 12. Дополнительно, медиасегмент, показанный на фиг. 13, состоит из поля sidx, поля ssix и одного или более субсегментов, аналогично субсегменту, показанному на фиг. 12. В поле sidx размещается информация о положении субсегментов, аналогично полю sidx, показанному на фиг. 12. В поле ssix вводится информация о положении данных уровней, образованная из поля moof и поля mdat.
Субсегмент обеспечивается для каждой произвольной длительности времени и субсегмент снабжается парой, состоящей из поля moof и поля mdat для каждой дорожки. То есть, в поле mdat каждой из дорожек аудиопотоки дорожек размещаются все вместе (чередующееся запоминание) с произвольной длительностью времени, а в поле moof размещается информация управлении аудиопотоками.
Как показано на фиг. 12 и 13, аудиопотоки дорожек размещаются все вместе с произвольной длительностью по времени. Поэтому эффективность получения аудиопотока посредством через HTTP и т.п. улучшается по сравнению со случаем, в котором аудиопотоки размещаются все вместе в блоках демонстрационной записи.
Пример описания поля mvex
На фиг. 14 показан пример описания поля назначения уровня, расположенного в поле mvex, показанном на фиг. 12 и 13.
Поле назначения уровня является полем, связывающим ID дорожки для каждой из дорожек и уровень, используемый в поле ssix. В примере, показанном на фиг. 14, основная дорожка с ID дорожки, равным 1, связывается с уровнем 0, и аудиодорожка канала с ID дорожки, равным 2, связывается с уровнем 1. Дополнительно, аудиодорожка НОА с ID дорожки, равным 3, связывается с уровнем 2, и дорожка метаданных объекта с ID дорожки, равным 4, связывается с уровнем 3. Дополнительно, аудиодорожка объекта с ID дорожки, равным 5, связывается с уровнем 4.
Первый пример описания файла MPD
На фиг. 15 показан первый пример описания файла MPD.
Как показано на фиг. 15, в файле MPD описываются атрибут "Representation", управляющий сегментом аудиофайла (3daudio.mp4) трехмерного аудио, атрибут "SubRepresentation", управляющий дорожкой, содержащейся в сегменте, и т.п.
"Representation" и "SubRepresentation" содержат "codecs", указывающие вид (профиль или уровень) кодека соответствующего сегмента в целом или дорожки в формате трехмерного аудиофайла.
"SubRepresentation" содержит "level", являющийся набором значений в поле назначения уровня как значение, указывающее уровень соответствующей дорожки. "SubRepresentation" содержит "dependencyLevel", что является значением, указывающим уровень, соответствующий другой дорожке (здесь далее называемой "ссылочной дорожкой"), имеющей соотношение ссылки (обладающей зависимостью).
Дополнительно, "SubRepresentation" содержит <EssentialProperty schemeIdUri = "urn:mpeg:DASH:3daudio:2014", value = "dataType,definition">.
"dataType" является числом, указывающим своего рода контент (определение) информации Audio Scene, описанной в демонстрационной записи соответствующей дорожки, и определение является ее контентом. Например, в случае, когда GroupDefinition вводится в демонстрационную запись дорожки, 1 описывается как "dataType" дорожки, и GroupDefinition описывается как "definition" (определение). Дополнительно, в случае, когда SwitchGroupDefinition вводится в демонстрационную запись дорожки, 2 описывается как "dataType" дорожки и SwitchGroupDefinition описывается как "definition". То есть, "dataType" и "definition" являются информацией, указывающей, существует ли SwitchGroupDefinition в демонстрационной записи соответствующей дорожки, "definition" является двоичными данными и кодируется способом base64.
Заметим, что в примере, показанном на фиг. 15, все группы формируют переключатель Group. Однако в случае, когда существует группа, которая не генерирует переключатель Group, <EssentialProperty schemeIdUri = "urn:mpeg:DASH:3daudio:2014" value = "2,SwitchGroupDefinition">, не описывается в атрибуте "SubRepresentation", соответствующем группе. То же самое относится к фиг. 24, 25, 31, 39, 45, 47, 48 и 50, описанным ниже.
Пример конфигурации устройства генерирования файла
На фиг. 16 представлена блок-схема примера конфигурации устройства 141 генерирования файла, показанного на фиг. 8.
Устройство 141 генерирования файла, показанное на фиг. 16, состоит из процессора 171 аудиокодирования, блока 172 генерирования аудиофайла, блока 173 генерирования MPD и процессора 174 загрузки сервера.
Процессор 171 аудиокодирования устройства 141 генерирования файла кодирует аудиоданные и метаданные трехмерного аудио контента движущегося изображения с множеством скоростей кодирования, чтобы сгенерировать аудиопотоки. Процессор 171 аудиокодирования подает аудиопоток с каждой из скоростей кодирования на блок 172 генерирования аудиофайла.
Блок 172 генерирования аудиофайла выделяет дорожку для аудиопотока, поданного от процессора 171 аудиокодирования, для каждой группы и каждого типа Extelement. Блок 172 генерирования аудиофайла генерирует аудиофайл в структуре сегмента, показанной на фиг. 12 или 13, в которой аудиопотоки дорожек размещаются в блоках субсегмента для каждой скорости кодирования и сегмента. Блок 172 генерирования аудиофайла подает сгенерированный аудиофайл на блок 173 генерирования MPD.
Блок 173 генерирования MPD определяет URL веб-сервера 142, в котором должен храниться аудиофайл, поданный от блока 172 генерирования аудиофайла, и т.п. Затем блок 173 генерирования MPD генерирует файл MPD, в котором URL аудиофайла и т.п. размещаются в атрибуте "Segment" атрибута "Representation" аудиофайла. Блок 173 генерирования MPD подает сгенерированный файл MPD и аудиофайл на процессор 174 загрузки на сервер.
Процессор 174 загрузки на сервер загружает аудиофайл и файл MPD, поданный от блока 173 генерирования MPD, на веб-сервер 142.
Описание действия устройства генерирования файла
На фиг. 17 представлена блок-схема последовательности выполнения этапов процесса генерирования файла устройства 141 генерирования файла, показанного на фиг. 16.
На этапе S191, показанном на фиг. 17, процессор 171 аудиокодирования кодирует аудиоданные и метаданные трехмерного аудио контента движущегося изображения с множеством скоростей кодирования, чтобы сгенерировать аудиопотоки. Процессор 171 аудиокодирования подает аудиопоток с каждой из скоростей кодирования на блок 172 генерирования аудиофайла.
На этапе S192 блок 172 генерирования аудиофайла назначает дорожку аудиофайлу, поданному от процессора 171 аудиокодирования для каждой группы и каждого типа Extelement.
На этапе S193 блок 172 генерирования аудиофайла генерирует аудиофайл в структуре сегмента, показанной на фиг. 12 или 13, где аудиопотоки дорожек размещаются в блоках субсегмента для каждой скорости кодирования и для каждого сегмента. Блок 172 генерирования аудиофайла подает сгенерированный аудиофайл на блок 173 генерирования MPD.
На этапе S194 блок 173 генерирования MPD генерирует файл MPD, содержащий URL аудиофайла и т.п. Блок 173 генерирования MPD подает сгенерированный файл MPD и аудиофайл на процессор 174 загрузки на сервер.
На этапе S195 процессор 174 загрузки на сервер загружает аудиофайл и файл MPD, поданные от блока 173 генерирования MPD 173, на веб-сервер 142. После этого процесс завершается.
Пример функциональный конфигурации терминала воспроизведения движущегося изображения
На фиг. 18 представлена блок-схема примера конфигурации блока потокового воспроизведения, реализованного так, что терминал 144 воспроизведения движущегося изображения, показанный на фиг. 8, выполняет программное обеспечение 161 управления, программное обеспечение 162 воспроизведения движущегося изображения и программное обеспечение 163 доступа.
Блок 190 потокового воспроизведения, показанный на фиг. 18, состоит из блока 91 получения MPD, блока 191 обработки MPD, блока 192 получения аудиофайла, блока 194 обработки аудиодекодирования и блока 195 обработки аудиосинтеза.
Блок 91 получения MPD 91 блока 190 потокового воспроизведения получает файл MPD от веб-сервера 142 и подает файл MPD на процессор 191 MPD.
Блок 191 обработки MPD извлекает информацию URL аудиофайла сегмента, который должен воспроизводиться, описанную в атрибуте "Segment" для аудиофайла и т.п., из файла MPD, поданного от блока 91 получения MPD, и подает информацию на блок 192 получения аудиофайла.
Блок 192 получения аудиофайла запрашивает веб-сервер 142 и получает аудиопоток дорожки, которая должна воспроизводиться, в аудиофайле, идентифицированном с помощью URL, поданного от процессора 191 MPD. Блок 192 получения аудиофайла подает полученный аудиопоток на процессор 194 аудиодекодирования.
Блок 194 обработки аудиодекодирования декодирует аудиопоток, поданный от блока 192 получения аудиофайла. Блок 194 обработки аудиодекодирования подает аудиоданные, полученные в результате декодирования, на процессор 195 аудиосинтеза. Блок 195 обработки аудиосинтеза, по мере необходимости, синтезирует аудиоданные, поданные от блока 194 обработки аудиодекодирования, и выводит аудиоданные.
Как описано выше, блок 192 получения аудиофайла, блок 194 обработки аудиодекодирования и блок 195 обработки аудиосинтеза функционируют как блок воспроизведения и получают и воспроизводят аудиопоток дорожки, которая должна воспроизводиться, из аудиофайла, хранящегося на веб-сервере 142.
Описание действия терминала воспроизведения движущегося изображения
На фиг. 19 представлена блок-схема последовательности выполнения операций процесса воспроизведения блока 190 потокового воспроизведения, показанного на фиг. 18.
На этапе S211, показанном на фиг. 19, блок 91 получения MPD блока 190 потокового воспроизведения получает файл MPD от веб-сервера 142 и подает файл MPD на процессор MPD 191.
На этапе S212 процессор 191 MPD извлекает информацию URL аудиофайла сегмента, который должен воспроизводиться, описанного в атрибуте "Segment" для аудиофайла, и т.п., из файла MPD, поданного от блока 91 получения MPD, и подает информацию на блок 192 получения аудио.
На этапе S213 блок 192 получения аудиофайла запрашивает веб-сервер 142 и получает поток аудио дорожки, которая должна воспроизводиться в аудиофайле, идентифицированном посредством URL, на основе URL, поданного от процессора 191 MPD. Блок 192 получения аудиофайла подает полученный поток аудио на процессор 194 аудиодекодирования.
На этапе S214 блок 194 обработки аудиодекодирования декодирует аудиопоток, поданный от блока 192 получения аудиофайла. Блок 194 обработки аудиодекодирования подает аудиоданные, полученные в результате декодирования, на процессор 195 аудиосинтеза. На этапе S215 блок 195 обработки аудиосинтеза, по мере необходимости, синтезирует аудиоданные, поданные от блока 194 обработки аудиодекодирования, и выводит аудиоданные.
Общее представление второго примера дорожки аудиофайла
Заметим, что в приведенном выше описании GroupDefinition и SwitchGroupDefinition размещаются в демонстрационной записи. Однако, как показано на фиг. 20, GroupDefinition и SwitchGroupDefinition могут быть расположены в групповой демонстрационной записи, которая является демонстрационной записью каждой группы субзаписи в дорожке.
В этом случае, как показано на фиг. 21, групповая демонстрационная запись дорожки группы, которая генерирует переключатель Group, содержит GroupDefinition и SwitchGroupDefinition. Хотя иллюстрация не приводится, выборочная групповая демонстрационная запись дорожки группы, которая не генерирует переключатель Group, содержит только GroupDefinition.
Дополнительно, демонстрационная запись дорожки каждой из групп становится такой, как показано на фиг. 22. То есть, как показано на фиг. 22, в демонстрационной записи дорожки каждой из групп описывается позиция MHAGroupAudioConfigrationBox, в которой описываются информация Config, такая как профиль (MPEGHAudioProfile) аудиопотока соответствующей дорожки, уровень (MPEGHAudioLevel) и т.п.
Общее представление третьего примера дорожки аудиофайла
На фиг. 23 приводится общее представление третьего примера дорожки аудиофайла.
Конфигурация дорожки аудиоданных, показанная на фиг. 23, отличается от конфигурации, показанной на фиг. 9, тем, что аудиопотоки одной или более групп трехмерного аудио вводятся в основную дорожку и количество групп, соответствующих аудиопотокам, разделенным по дорожкам (в дальнейшем упоминаемым как групповые дорожки), которые не содержат информацию, относящуюся к трехмерному аудио, в целом, равно 1 или больше.
То есть демонстрационная запись основной дорожки, показанная на фиг. 23, является демонстрационной записью с 4сс, равным "mha2", которая содержит синтаксис для основной дорожки, когда аудиопотоки аудиоданных трехмерного аудио делятся по множеству дорожек и размещаются подобно фиг. 9 (фиг. 10).
Дополнительно, демонстрационная запись групповой дорожки является демонстрационной записью с 4сс, равным "mhg1", которая содержит синтаксис для групповой дорожки, когда аудиопотоки аудиоданных трехмерного аудио делятся на множество дорожек и размещаются согласно фиг. 9 (фиг. 11). Поэтому основная дорожка и групповая дорожка идентифицируются с помощью 4сс демонстрационной записи и зависимость между дорожками может быть распознана.
Дополнительно, подобно фиг. 9, Track Reference размещается в поле дорожки каждой из дорожек. Поэтому даже в случае, когда "mha2" или "mhg1", который является 4сс демонстрационной записи основной дорожки или групповой дорожки, неизвестен, зависимость между дорожками может быть распознана с помощью Track Reference.
Заметим, что поле mhgC и поле mhsC не могут быть описаны в демонстрационной записи групповой дорожки. Дополнительно, в случае, когда поле mhaC, содержащее информацию конфигурации всех групп трехмерного аудио, описывается в демонстрационной записи основной дорожки, поле mhaC не может быть описано в демонстрационной записи групповой дорожки. Однако в случае, когда поле mhaC, содержащее информацию конфигурации, которая может независимо воспроизводить основную дорожку, описывается в демонстрационной записи основной дорожки, поле mhaC, содержащее информацию конфигурации, которая может независимо воспроизводить групповую дорожку, описывается в демонстрационной записи групповой дорожки. Находится ли она в первом состоянии или во втором состоянии, может быть распознано в соответствии с существованием/отсутствием информации конфигурации в демонстрационной записи. Однако распознавание может быть сделано, описывая флаг в демонстрационной записи или изменяя тип демонстрационной записи. Заметим, что хотя иллюстрация не приводится, в случае, когда первое состояние и второе состояние становятся распознаваемыми, изменяя тип демонстрационной записи, 4сс демонстрационной записи основной дорожки является "mha2" в случае состояния создания, и "mha4" в случае следующего состояния.
Второй пример описания файла MPD
На фиг. 24 представлен пример описания файла MPD в случае, когда конфигурация дорожек аудиофайла соответствует конфигурации, показанной на фиг. 23.
Файл MPD, показанный на фиг. 24, отличается от файла MPD, показанного на фиг. 15, в котором описывается атрибут "SubRepresentation" основной дорожки.
В атрибуте "SubRepresentation" основной дорожки "codecs" (кодеки) "level" (уровень), "dependencyLevel" основной дорожки и значение <EssentialProperty schemeIdUri = "urn:mpeg:DASH:3daudio:2014" value = "dataType,definition"> описываются аналогично атрибуту "SubRepresentation" групповой дорожки.
В примере, показанном на фиг. 24, "codecs" основной дорожки являются "mha2.2.1" и "level" (уровень) равен "0" как значение, которое указывает уровень основной дорожки. "dependencyLevel" равен "1" и "2" как значения, которые указывают уровни групповой дорожки. Дополнительно, "dataType" равно "3" как число, которое указывает информацию AudioScene в виде, описанном в поле mhas демонстрационной записи основной дорожки, и "definition" является двоичными данными информации AudioScene, кодированной способом base64.
Заметим, что, как показано на фиг. 25, в атрибуте "SubRepresentation" основной дорожки информация AudioScene может быть разделена и описана.
В примере, показанном на фиг. 25, "1" устанавливается как число, указывающее "Atmo" как вид, причем "Atmo" указывает контент группы с групповым ID "1" информации AudioScene (фиг. 7), описанной в поле mhas демонстрационной записи основной дорожки.
Дополнительно, "2"-"7" устанавливаются как числа, соответственно указывающие в качестве видов "Dialog EN", который указывает контент группы с групповым ID "2", "Dialog FR", который указывает контент группы с групповым ID "3", "GE VoiceOver", который указывает контент группы с групповым ID "4", "Effects", который указывает контент группы с групповым ID "5", "ЕгТесОффект", который указывает контент группы с групповым ID "6", и "Effect", который указывает контент группы с групповым ID "7".
Поэтому в атрибуте "SubRepresentation" основной дорожки, показанном на фиг. 25, описываются <EssentialProperty schemeIdUri = "urn:mpeg:DASH:3daudio:2014" value = "dataType,definition">, в котором "dataType" равен "1", и "definition" равно "Atmo". Аналогично описывается "ura:mpeg:DASH:3daudio:2014" value = "dataType,definition">, в котором "dataType" равен "2", "3", "4", "5", "6" и "7" и "definition" равно "Dialog EN", "Dialog FR", "VoiceOver GE", "Effects", "Effect" и "Effect" описывается. В примере, показанном на фиг. 25, был описан случай, в котором информация AudioScene основной дорожки делится и описывается. Однако GroupDefinition и SwitchGroupDefinition групповой дорожки также могут быть разделены и описаны.
Общее представление четвертого примера дорожки аудиофайла
На фиг. 26 приводится общее представление четвертого примера дорожки аудиофайла.
Конфигурация дорожки аудиоданных, показанная на фиг. 26, отличается от конфигурации, показанной на фиг. 23, тем, что демонстрационная запись групповой дорожки является демонстрационной записью с 4сс, являющимся "mha2".
В случае, показанном на фиг. 26, оба 4сс демонстрационных записей основной дорожки и групповой дорожки равны "mha2". Поэтому основная дорожка и групповая дорожка не могут быть идентифицированы, и зависимость между дорожками не может распознаваться с помощью демонстрационной записи 4сс. Поэтому зависимость между дорожками распознается с помощью Track Reference, расположенной в поле дорожки каждой из дорожек.
Дополнительно, поскольку 4сс демонстрационных записей равны "mha2", соответствующая дорожка, являющаяся дорожкой, полученной, когда аудиопотоки аудиоданных трехмерного аудио делятся и размещаются на множестве дорожек, может быть распознана.
Заметим, что в поле mhaC демонстрационной записи основной дорожки аналогично случаям, представленным на фиг. 9 и 23, описывается информация конфигурации всех групп трехмерного аудио или информация конфигурации, которая может независимо воспроизвести основную дорожку. Дополнительно, в поле mhas описывается информация AudioScene, содержащая информацию, связанную со всеми группами и переключателем Group трехмерного аудио.
При этом в демонстрационной записи групповой дорожки поле mhas не размещается. Дополнительно, в случае, когда в демонстрационной записи основной дорожки описывается поле mhaC, содержащее информацию конфигурации всех групп трехмерного аудио, поле mhaC может не описываться в демонстрационной записи групповой дорожки. Однако в случае, когда в демонстрационной записи основной дорожки описывается поле mhaC, содержащее информацию конфигурации, которая может независимо воспроизводить основную дорожку, в демонстрационной записи групповой дорожки описывается поле mhaC, содержащее информацию конфигурации, которая может независимо воспроизводить основную дорожку. Находится ли она в первом состоянии или во втором состоянии, может быть распознано в соответствии с существованием/отсутствием в демонстрационной записи информации конфигурации. Однако первое состояние и второе состояние могут быть идентифицированы, описывая флаг в демонстрационной записи или изменяя тип демонстрационной записи. Заметим, что хотя иллюстрация не приводится, в случае создания первого состояния и второго состояния, распознаваемого посредством изменения типа демонстрационной записи, 4сс для демонстрационной записи основной дорожки и 4сс для демонстрационной записи групповой дорожки равняются, например, "mha2" в случае состояния создания и "mha4" в случае следующего состояния.
Третий пример описания файла MPD
На фиг. 27 показан пример описания файла MPD в случае, когда конфигурация дорожек аудиофайла соответствует конфигурации, показанной на фиг. 26.
Файл MPD, показанный на фиг. 27, отличается от файла MPD, показанного на фиг. 24, тем, что "codecs" из "SubRepresentation" групповой дорожки равны "mha2.2.1", и <EssentialProperty schemeIdUri = "urn:mpeg:DASH:3daudio:2014" value = "dataType,definition"> не описывается в "SubRepresentation" групповой дорожки.
Заметим, что хотя иллюстрация не приводится, информация AudioScene может быть разделена и описана в "SubRepresentation" основной дорожки аналогично случаю, показанному на фиг. 25.
Общее представление пятого примера дорожки аудиофайла
На фиг. 28 приводится общее представление пятого примера дорожки аудиофайла.
Конфигурация дорожек аудиоданных, показанная на фиг. 28, отличается от конфигурации, показанной на фиг. 23, тем, что демонстрационные записи основной дорожки и групповой дорожки являются демонстрационной записью, содержащей синтаксис, пригодный как для основной дорожки, так и для групповой дорожки в случае, когда аудиопотоки аудиоданных трехмерного аудио делятся по множеству дорожек.
В случае, показанном на фиг. 28, оба 4сс демонстрационных записей основной дорожки и групповой дорожки равны "mha3", что является 4сс демонстрационной записи, содержащей синтаксис, пригодный для обеих дорожек, основной дорожки и групповой дорожки.
Поэтому аналогично случаю, показанному на фиг. 26, зависимость между дорожками распознается с помощью Track Reference, расположенного в поле дорожки каждой из дорожек. Дополнительно, поскольку 4сс демонстрационных записей равны "mha3", соответствующая дорожка, являющаяся дорожкой в том случае, когда аудиопотоки аудиоданных трехмерного аудио делятся на множество дорожек и размещаются, может быть распознана.
Пример синтаксиса демонстрационной записи, в которой 4сс равен "mha3"
На фиг. 29 показано пример синтаксиса демонстрационной записи с 4сс, равным "mha3".
Как показано на фиг. 29, синтаксис демонстрационной записи, где 4сс равен "mha3", является синтаксисом, полученным, синтезируя синтаксис, показанный на фиг. 10, и синтаксис, показанный на фиг. 11.
То есть в демонстрационной записи, сделанной с 4сс, равным "mha3", размещаются поле mhaC (поле MHAConfigration), поле mhas (поле MHAAudioSceneInfo), поле mhgC (MHAGroupDefinitionBox), поле mhsC (поле MHASwitchGropuDefinition) и т.п.
В поле mhaC демонстрационной записи основной дорожки описывается информация конфигурации всех групп трехмерного аудио или информация конфигурации, которая может независимо воспроизводить основную дорожку. Дополнительно, в поле mhas описывается информация AudioScene, содержащая информацию, связанную со всеми группами и переключателем Group трехмерного аудио, и поле mhgC и поле mhsC здесь не размещаются.
В случае, когда в демонстрационной записи основной дорожки описывается поле mhaC, содержащее информацию конфигурации всех групп трехмерного аудио, поле mhaC поле не может описываться в демонстрационной записи групповой дорожки. Однако в случае, когда в демонстрационной записи основной дорожки описывается поле mhaC, содержащее информацию конфигурации, в которой может независимо воспроизводиться основная дорожка, поле mhaC, содержащее информацию конфигурации, в которой может независимо воспроизводиться групповая дорожка, описывается в демонстрационной записи групповой дорожки. Находится ли оно в первом состоянии или во втором состоянии, может быть распознано в соответствии с существованием/отсутствием информации конфигурации в демонстрационной записи. Однако первое состояние и второе состояние могут распознаваться, описывая флаг в демонстрационной записи или посредством изменения типа демонстрационной записи. Заметим, что хотя иллюстрация не приводится, в случае возможности распознавания первого состояния и второго состояния посредством изменения типа демонстрационной записи, 4сс демонстрационных записей основной дорожки и групповой дорожки равны, например, "mha3" в случае первого состояния и равны "mha5" в случае второго состояния. Дополнительно, поле mhas не размещается в демонстрационной записи групповой дорожки. Поле mhgC и поле mhsC могут размещаться или могут не размещаться в этой записи.
Заметим, что, как показано на фиг. 30, в демонстрационной записи основной дорожки размещаются поле mhas, поле mhgC и поле mhsC, и описывается поле mhaC, в котором информация конфигурации, которая может независимо воспроизводить только основную дорожку, и может также быть размещаться поле mhaC, содержащее информацию конфигурации всех групп трехмерного аудио. В этом случае поле mhaC, в котором описывается информация конфигурации всех групп трехмерного аудио, и поле mhaC, в котором описывается информация конфигурации, которая может независимо воспроизводить только основную дорожку, распознаются с помощью флагов, содержащихся в этих полях mhaC. Дополнительно, в этом случае поле mhaC не может описываться в демонстрационной записи групповой дорожки. Описывается ли поле mhaC в демонстрационной записи групповой дорожки, может быть распознано в соответствии с существованием/отсутствием поля mhaC в демонстрационной записи групповой дорожки. Однако описывается ли поле mhaC в демонстрационной записи групповой дорожки, может быть распознано, описывая флаг в демонстрационной записи, или изменяя тип демонстрационной записи. Заметим, что, хотя иллюстрация не приводится, в случае, описывается ли поле mhaC в демонстрационной записи групповой дорожки, когда распознавание может делаться, изменяя тип демонстрационной записи, 4сс демонстрационных записей основной дорожки и групповой дорожки равняются, например, "mha3" в случае, когда поле mhaC описывается в демонстрационной записи групповой дорожки, и равняются "mha5" в случае, когда поле mhaC не описывается в демонстрационной записи групповой дорожки. Заметим, что на фиг. 30 поле mhgC и поле mhsC не могут описываться в демонстрационной записи основной дорожки.
Четвертый пример описания файла MPD
На фиг. 31 представлен пример описания файла MPD в случае, когда конфигурацией дорожек аудиофайла является конфигурация, показанная на фиг. 28 или 30.
Файл MPD, показанный на фиг. 31, отличается от файла MPD, показанного на фиг. 24, тем, что "codecs" в "Representation" равны "mha3.3.1", и "codecs" в "SubRepresentation" равны "тпаЗ.2.1".
Заметим, что хотя иллюстрация не приводится, информация AudioScene может быть разделена и описана в атрибуте "SubRepresentation" основной дорожки, аналогично фиг. 25.
Дополнительно, в приведенном выше описании атрибут Track Reference размещается в поле дорожки каждой из дорожек. Однако Track Reference может там не размещаться. Например, на фиг. 32-34, соответственно, показаны случаи, в которых Track Reference не размещается в полях дорожек для дорожек аудиофайлов, показанных на фиг. 23, 26 и 28. В случае, показанном на фиг. 32, Track Reference не размещается, но 4сс демонстрационных записей основной дорожки и групповой дорожки различаются и, таким образом, зависимость между дорожками может быть распознана. В случаях, показанных на фиг. 33 и 34, поскольку там размещается поле mhas, может быть распознано, является ли дорожка основной дорожкой.
Файлы MPD в случаях, когда конфигурации дорожек аудиофайла являются конфигурациями, показанными на фиг. 32-34, являются, соответственно, такими же, как файлы MPD, показанные на фиг. 24, 27 и 31. Заметим, что в этом случае информация AudioScene может быть разделена и описана в атрибуте "SubRepresentation" основной дорожки аналогично случаю, показанному на фиг. 25.
Общее представление шестого примера дорожки аудиофайла
На фиг. 35 показано общее представление шестого примера дорожки аудиофайла.
Конфигурация дорожек аудиоданных, показанная на фиг. 35, отличается от конфигурации, показанной на фиг. 33, тем, что информация ссылки на выборки дорожек групп и информация конфигурации, необходимая для декодирования ссылочной информации, не размещаются в выборке основной дорожки, аудиопотоки 0 или более групп содержатся в ней и ссылочная информация на выборки дорожек групп описывается в демонстрационной записи основной дорожки.
Для конкретности, поле mhmt, которое описывает, какие дорожки групп, описанных в информации AudioScene, делятся на вновь расположенные в демонстрационной записи с 4сс, равным "mha2", которая содержит синтаксис для основной дорожки, когда аудиопотоки аудиоданных трехмерного аудио делятся на множество дорожек.
Другой пример синтаксиса демонстрационной записи с использованием 4сс "mha2"
На фиг. 36 показан пример синтаксиса демонстрационных записей основной дорожки и групповой дорожки, показанных на фиг. 35, где 4сс соответствует "mha2".
Конфигурация демонстрационной записи с использованием 4сс, соответствующего "mha2", показанная на фиг. 36, отличается от конфигурации, показанной на фиг. 10, тем, что в ней размещается поле MHAMultiTrackDescription (поле mhmt).
В поле mhmt в качестве ссылочной информации описывается соответствующее соотношение между ID группы (group_ID) и ID дорожки (track_ID). Заметим, что в поле mhmt аудиоэлемент и ID дорожки могут быть описаны друг в связи друг с другом.
В случае, когда ссылочная информация не изменяется в каждой выборке, ссылочная информация может быть эффективно описана, размещая поле mhmt в демонстрационной записи.
Заметим, что хотя иллюстрация не приводится, в случаях, показанных на фиг. 9, 20, 23, 26, 28, 30, 32 и 34, поле mhmt может быть также расположено в демонстрационной записи основной дорожки, чтобы вместо описания ссылочной информации в выборках групповых дорожек, описать ее в выборке основной дорожки.
В этом случае синтаксис демонстрационной записи с 4сс, равным "mha3", становится таким, как показано на фиг. 37. То есть, конфигурация демонстрационной записи с 4сс, равным "mha3", как показано на фиг. 37, отличается от конфигурации, показанной на фиг. 29, тем, что в ней размещается поле MHAMultiTrackDescription (поле mhmt).
Дополнительно, на фиг. 23, 26, 28, 30, 32-34 и 35 аудиопотоки одной или более групп трехмерного аудио могут не вводиться в основную дорожку, аналогично фиг. 9. Дополнительно, количество групп, соответствующих аудиопотокам, разделенным по групповым дорожкам, может быть равно 1.
Дополнительно, на фиг. 23, 26, 28, 30, 32-34 и 35 GroupDefinition и SwitchGroupDefinition могут размещаться в демонстрационной групповой записи аналогично случаю, показанному на фиг. 20.
Второй вариант осуществления
Общее представление дорожки
На фиг. 38 приводится общее представление дорожек во втором варианте осуществления, к которому применяется настоящее раскрытие.
Как показано на фиг. 38, второй вариант осуществления отличается от первого варианта осуществления тем, что дорожки записываются как разные файлы (3da_base.mp4/3da_group1.mp4/3da_group2.mp4/3da_group3.mp4/3da_group 4.mp4). В этом случае, получая файл требуемой дорожки по протоколу HTTP, могут быть получены только данные требуемой дорожки. Поэтому данные требуемой дорожки, получаемые по протоколу HTTP, могут быть эффективно получены.
Примеры описания файла MPD
На фиг. 39 приводятся примеры описания файла MPD по второму варианту осуществления, к которому применяется настоящее раскрытие.
Как показано на фиг. 39, в файле MPD описывается атрибут "Representation", который управляет сегментами аудиофайлов (3da_base.mp4/3da_groupl.mp4/ 3da_group2.mp4/3da_group3.mp4/3da_group 4.mp4) трехмерного аудио и т.п.
Атрибут "Representation" содержит "codecs", "id", "associationld", и "assciationType". "id" является идентификатором атрибута "Representation", в том числе его самого, "associationld" является информацией, указывающей ссылочное соотношение между соответствующей дорожкой и другой дорожкой, и является "id" ссылочной дорожки. "assciationType" является кодом, указьшающим ссылочное соотношение (зависимость) со ссылочной дорожкой и используется, например, как значение, которое является таким же, как значение, используемое в качестве ссылки для дорожки МР4.
Дополнительно, атрибут "Representation" дорожек групп содержит <EssentialProperty schemeIdUri = "urn:mpeg:DASH:3daudio:2014" value = "dataType,definition">. В примере, приведенном на фиг. 39, атрибуты "Representations", которые управляют сегментами аудиофайлов, обеспечиваются как "AdaptationSet". Однако "AdaptationSet" может предоставляться для каждого из сегментов аудиофайлов, и атрибут "Representation", которое управляет сегментом, может обеспечиваться в соответствии с ними. В этом случае, в "AdaptationSet" "associationld" и <EssentialProperty schemeIdUri = "urn:mpeg:DASH:3daudioAssociationData:2014" value = "dataType,definition">, указывающие смысл ссылочного соотношения со ссылочной дорожкой, могут быть описаны аналогично "assciationType". Дополнительно, информация AudioScene, GroupDefinition, и SwitchGroupDefinition, описанные в атрибуте "Representations" основной дорожки и групповой дорожки, могут быть разделены и описаны, как в случае, показанном на фиг. 25. Дополнительно, информация AudioScene, GroupDefinition и SwitchGroupDefinition, которые разделяются и описываются в атрибутах "Representations", могут быть описаны в атрибуте "AdaptationSets".
Общее представление системы обработки информации
На фиг. 40 представлено описание общего представления системы обработки информации во втором варианте осуществления, к которому применяется настоящее раскрытие.
В конфигурациях, показанных на фиг. 40, те же самые элементы, что и в конфигурации, показанной на фиг. 8, обозначаются одними и теми же ссылочными позициями. Повторное описание, соответственно, не приводится.
Система 210 обработки информации, показанная на фиг. 40, выполнена таким образом, что веб-сервер 212, соединенный с устройством 211 генерирования файла, соединяется с терминалом 214 воспроизведения движущегося изображения через Интернет 13.
В системе 210 обработки информации веб-сервер 142 передает аудиопоток аудиофайла группы, который должен воспроизводиться, терминалу 144 воспроизведения движущегося изображения способом, соответствующим MPEG-DASH.
Для конкретности, устройство 211 генерирования файла кодирует аудиоданные и метаданные трехмерного аудио контента движущегося изображения с множеством скоростей кодирования, чтобы сгенерировать аудиопотоки. Устройство 211 генерирования файла делит аудиопотоки для каждой группы и каждого типа Extelement, чтобы получить аудиопотоки на различных дорожках. Устройство 211 генерирования файла создает файлы аудиопотоков на каждой скорости кодирования для каждого сегмента и для каждой дорожки, чтобы сгенерировать аудиофайлы. Устройство 211 генерирования файла загружает полученные в результате аудиофайлы на веб-сервер 212. Дополнительно, устройство 211 генерирования файла генерирует файл MPD и загружает файл MPD на вебсервер 212.
Веб-сервер 212 хранит аудиофайлы с каждой скоростью кодирования для каждого сегмента и для каждой дорожки и файл MPD, загруженный с устройства 211 генерирования файла. Веб-сервер 212, в ответ на запрос от терминала 214 воспроизведения движущегося изображения, передает хранящиеся аудиофайлы, хранящийся файл MPD и т.п. терминалу 214 воспроизведения движущегося изображения.
Терминал 214 воспроизведения движущегося изображения выполняет программное обеспечение 221 управления, программное обеспечение 162 воспроизведения движущегося изображения, программное обеспечение 223 доступа и т.п.
Программное обеспечение 221 управления является программным обеспечением, управляющим данными, передаваемыми в потоке от веб-сервера 212. Для конкретности, программное обеспечение 221 управления заставляет терминал 214 воспроизведения движущегося изображения получать файл MPD от веб-сервера 212.
Дополнительно, программное обеспечение 221 управления подает команду программному обеспечению 223 доступа послать запрос передачи группы, которая должна воспроизводиться, указанной с помощью программного обеспечения 162 воспроизведения движущегося изображения, и аудиопоток аудиофайла типа Extelement, соответствующего группе, на основе файла MPD.
Программное обеспечение 223 доступа является программным обеспечением, управляющим передачей между терминалом 214 воспроизведения движущегося изображения и веб-сервером 212 через Интернет 13, используя протокол HTTP. Для конкретности, программное обеспечение 223 доступа заставляет терминал воспроизведения 144 движущегося изображения передавать запрос передачи аудиопотока аудиофайла, который должен воспроизводиться, в ответ на команду программного обеспечения 221 управления. Дополнительно, программное обеспечение 223 доступа заставляет терминал 144 воспроизведения движущегося изображения запускать прием аудиопотока, передаваемого от веб-сервера 212, в ответ на запрос передачи, и подает уведомление о запуске приема программному обеспечению 162 воспроизведения движущегося изображения.
Пример конфигурации устройства генерирования файла
На фиг. 41 показана блок-схема примера конфигурации устройства 211 генерирования файла, показанного на фиг. 40.
Элементы конфигурации для конфигураций, показанных на фиг. 41, одинаковые с элементами конфигураций, показанных на фиг. 16, обозначаются одинаковыми ссылочными позициями. Совпадающие описания, соответственно, не приводятся.
Конфигурация устройства 211 генерирования файла, показанная на фиг. 41, отличается от устройства 141 генерирования файла, показанного на фиг. 16, тем, что блок 241 генерирования аудиофайла и блок 242 генерирования MPD обеспечиваются вместо блока 172 генерирования аудиофайла и блока 173 генерирования MPD.
Для конкретности, блок 241 генерирования аудиофайла устройства 211 генерирования файла выделяет дорожку аудиопотоку, подаваемому от процессора 171 аудиокодирования для каждой группы и каждого типа Extelement. Блок 241 генерирования аудиофайла генерирует аудиофайл, в котором размещается аудиопоток, с каждой скоростью кодирования для каждого сегмента и для каждой дорожки. Блок 241 генерирования файла подает сгенерированные аудиофайлы на блок 242 генерирования MPD.
Блок 242 генерирования MPD определяет URL для веб-сервера 142, в котором должны храниться аудиофайлы, подаваемые от блока 172 генерирования аудиофайла, и т.п. Блок 242 генерирования MPD генерирует файл MPD, в котором URL аудиофайла и т.п. размещаются в атрибуте "Segment" для атрибута "Representation" аудиофайла. Блок 173 генерирования MPD подает сгенерированный файл MPD и сгенерированные аудиофайлы на блок 174 процессора загрузки сервера.
Описание процесса действия устройства генерирования файла
На фиг. 42 представлена блок-схема последовательности осуществления этапов генерирования файла устройством 211 генерирования файла, показанным на фиг. 41.
Процесс на этапах S301 и S302, показанных на фиг. 42, подобен процессу на этапах S191 и S192, показанных на фиг. 17, и поэтому здесь повторно не приводится.
На этапе S303 блок 241 генерирования аудиофайла генерирует аудиофайл, в котором аудиопоток размещается с каждой скоростью кодирования, для каждого сегмента и для каждой дорожки. Блок 241 генерирования файла подает сгенерированные аудиофайлы на блок 242 генерирования MPD.
Процесс на этапах S304 и S305 подобен процессу на этапах S194 и S195, показанных на фиг. 17, и поэтому его описание повторно не приводится.
Пример функциональный конфигурации терминала воспроизведения движущегося изображения
На фиг. 43 показана блок-схема примера конфигурации блока потокового воспроизведения, реализуемого так, что терминал 214 воспроизведения движущегося изображения, показанный на фиг. 40, выполняет программное обеспечение 221 управления, программное обеспечение 162 воспроизведения движущегося изображения и программное обеспечение 223 доступа.
Элементы конфигурации для конфигураций, показанных на фиг. 43, одинаковые с элементами конфигураций, показанными на фиг. 18, обозначаются одинаковыми ссылочными позициями. Совпадающие описания, соответственно, не приводятся.
Конфигурация блока 260 потокового воспроизведения, показанная на фиг. 43, отличается от конфигурации блока 190 потокового воспроизведения, показанной на фиг. 18, тем, что вместо блока 192 получения аудиофайла обеспечивается блок 264 получения аудиофайла.
Блок 264 получения аудиофайла запрашивает веб-сервер 142, чтобы получить аудиопоток аудиофайла на основе URL аудиофайла дорожки, которая должна воспроизводиться, из числа тех URL, которые подаются от процессора 191 MPD. Блок 264 получения аудиофайла подает полученный аудиопоток на процессор 194 аудиодекодирования.
То есть блок 264 получения аудиофайла, процессор 194 аудиодекодирования и процессор 195 аудиосинтеза функционируют как блок воспроизведения и получают аудиопоток аудиофайла дорожки, которая должна воспроизводиться, из аудиофайлов, хранящихся на веб-сервере 212, и воспроизводят аудиопоток.
Описание действия терминала воспроизведения движущегося изображения
На фиг. 44 показана блок-схема последовательности осуществления операций процесса воспроизведения блоком 260 потокового воспроизведения, показанным на фиг. 43.
Процессы на этапах S321 и S322, показанных на фиг. 44, подобны процессам на этапах S211 и S212, показанных на фиг. 19, и поэтому их описание не приводится.
На этапе S323 блок 192 получения аудиофайла запрашивает веб-сервер 142, чтобы получить аудиопоток аудиофайла для URL, предоставленных от процессора 191 MPD, на основе URL аудиофайла дорожки, которая должна быть воспроизведена. Блок 264 получения аудиофайла 264 подает полученный аудиопоток на процессор 194 аудиодекодирования.
Процесс на этапах S324 и S325 подобен процессу на этапах S214 и S215, показанных на фиг. 19, и поэтому его описание повторно не приводится.
Заметим, что во втором варианте осуществления GroupDefinition и SwitchGroupDefinition могут также быть расположены в демонстрационной групповой записи аналогично первому варианту осуществления.
Дополнительно, во втором варианте осуществления, конфигурации дорожки аудиоданных могут также быть конфигурациями, показанными на фиг. 23, 26,28, 30, 32-34 и 35, аналогично первому варианту осуществления.
На фиг. 45-47 представлены диаграммы, соответственно поясняющие MPD в случае, когда конфигурации дорожки аудиоданных по второму варианту осуществления являются конфигурациями, показанными на фиг. 23, 26 и 28. Во втором варианте осуществления MPD в случае, когда конфигурации дорожки аудиоданных являются конфигурациями, показанными на фиг. 32, 33, 34 или 35, является таким же, как MPD в случае конфигураций, показанных на фиг. 23, 26 и 28.
MPD, показанное на фиг. 45, отличается от MPD, показанного на фиг. 39, в "codecs" и "associationld" основной дорожки, и тем, что <EssentialProperty schemeIdUri = "urn:mpeg:DASH:3daudio:2014" value = "dataType, definition"> вводится в атрибут "Representation" основной дорожки. Для конкретности, "codecs" для "Representation" основной дорожки MPD, показанного на фиг. 45, являются "mha2.2.1" и "associationld" является "g1" и "g2", которые являются "id" (идентификаторами) групповых дорожек.
Дополнительно, MPD, показанное на фиг. 46, отличается от MPD, показанного на фиг. 45, кодеками ("codecs") групповой дорожки и тем, что <EssentialProperty schemeIdUri = "urn:mpeg:DASH:3daudio:2014" value = "dataType,definition"> не вводится в "Representation" групповой дорожки. Для конкретности, "codecs" групповой дорожки MPD, показанный на фиг. 46, равен "mha2.2.1".
Дополнительно, MPD, показанное на фиг. 47, отличается от MPD, показанного на фиг. 45, кодеками ("codecs") основной дорожки и групповой дорожки. Для конкретности, "codecs" групповой дорожки MPD, показанный на фиг. 47, равен "mha3.2.1".
Заметим что в MPD, показанном на фиг. 45-47, "AdaptationSet" может быть поделен для каждого атрибута "Representation", как показано на фиг. 48-50.
Другой пример основной дорожки
В приведенном выше описании обеспечивается только одна основная дорожка. Однако может обеспечиваться множество основных дорожек. В этом случае, основная дорожка обеспечивается для каждой точки обзора трехмерного аудио (подробности будут приведены ниже), например, на основных дорожках размещаются поля mhaC, содержащие информацию конфигурации всех групп трехмерного аудио точек обзора. Заметим, что на основных дорожках могут быть расположены поля mhas, содержащие информацию AudioScene о точках обзора.
Точка обзора трехмерного аудио является положением, в котором можно слушать трехмерное аудио, таким как точка обзора изображения, воспроизводимого одновременно с трехмерным аудио, или является заданным положением, установленным заранее.
Как описано выше, в случае, когда основная дорожка делится для каждой точки обзора, аудио, различное для каждой точки обзора, может воспроизводиться из аудиопотока одного и того же трехмерного аудио на основе положения объекта на экране и т.п., содержащегося в информации конфигурации каждой из точек обзора. В результате объем данных аудиопотоков трехмерного аудио может быть уменьшен.
То есть в случае, когда точки обзора трехмерного аудио являются множеством точек обзора изображений бейсбольного стадиона, которые могут воспроизводиться одновременно с трехмерным аудио, изображение, имеющее точку обзора позади центра экрана, подготавливается как основное изображение, которое является изображением с основной точки обзора. Дополнительно, изображения, имеющие точки обзора в месте позади козырька, в открытом месте внутреннего поля первой базы, в открытом месте внутреннего поля третьей базы, в открытом месте левого внешнего поля, в открытом месте правого внешнего поля и т.п., подготавливаются как мультиизображения, которые являются изображениями точек обзора, отличных от основной точки обзора.
В этом случае, если подготовлено трехмерного аудио всех точек обзора, объем данных трехмерного аудио становится большим. Поэтому, описывая в основных дорожках положения объекта на экране и т.п. в точках обзора, аудиопотоки, такие как аудио Object и аудио SAOC Object, которые изменяются в соответствии с положениями объекта на экране, могут использоваться совместно точками обзора. В результате объем данных аудиопотоков трехмерного аудио можно уменьшить.
Во время воспроизведения трехмерного аудио, например, другое аудио воспроизводится в соответствии с точкой обзора, используя аудиопотоки, такие как аудио Object и аудио SAOC Object основной точки обзора, и основная дорожка, соответствующая точке обзора основного изображения или мультиизображения, воспроизводится одновременно с аудиопотоком.
Аналогично, например, в случае, когда точки обзора трехмерного аудио являются положениями множества мест на стадионе, установленными заранее, если подготавливается трехмерное аудио всех точек обзора, объем данных трехмерного аудио становится большим. Поэтому, описывая в основных дорожках положения объекта на экране в точках обзора, аудиопотоки, такие как аудио Object и аудио SAOC Object, могут использоваться точками обзора совместно. В результате, различное аудио может воспроизводиться в соответствии с местом, выбранным пользователем, использующим схему размещения мест, используя аудио и аудио SAOC Object одной точки обзора, и объем данных аудиопотоков трехмерного аудио можно уменьшить.
В случае, когда основная дорожка обеспечивается для каждой точки обзора трехмерного аудио в структуре дорожек, показанной на фиг. 28, структура дорожек становится такой, как показано на фиг. 51. В примере, показанном на фиг. 51, количество точек обзора трехмерного аудио равно трем. Дополнительно, в примере, показанном на фиг. 51, аудио Channel генерируется для каждой точки обзора трехмерного аудио, а другие аудиоданные используются точками обзора трехмерного аудио совместно. То же самое относится к примеру, показанному на фиг. 52, описанному ниже.
В этом случае, как показано на фиг. 51, для каждой точки обзора трехмерного аудио обеспечиваются три основных дорожки. Track Reference размещается в поле дорожки каждой из основных дорожек. Дополнительно, синтаксис демонстрационной записи каждой из основных дорожек является таким же, как синтаксис демонстрационной записи с 4сс, равным "mha3". 4сс, равный "mhcf, указывает, что основная дорожка обеспечивается для каждой точки обзора трехмерного аудио.
Поле mhaC, содержащее информацию конфигурации всех групп трехмерного аудио каждой из точек обзора, размещается в демонстрационной записи каждой из основных дорожек. В качестве информации конфигурации всех групп трехмерного аудио, каждая из точек обзора является положением объекта на экране, например, в точке обзора. Дополнительно, поле mhas, содержащее информацию AudioScene для каждой из точек обзора, размещается на каждой из основных дорожек.
Аудиопотоки групп аудио Channel точек обзора размещаются в выборках основных дорожек.
Заметим, что в случае, когда существуют объектные метаданные Object Metadata, которые описывают положение объекта на экране, в каждой из точек обзора в блоках выборки, Object Metadata также размещаются в выборке каждой из основных дорожек.
То есть в случае, когда объектом является движущееся тело (например, спортсмен-атлет), положение объекта на экране в каждой из точек обзора меняется во времени. Поэтому положение описывается как Object Metadata в блоках выборки. В этом случае, Object Metadata в блоках выборки размещаются для каждой точки обзора в выборке основной дорожки, соответствующей точке обзора.
Конфигурации групповых дорожек, показанные на фиг. 51, являются такими же, как конфигурация на фиг. 28, за исключением того, что аудиопоток группы аудио Channel не размещается, и поэтому описание повторно не приводится.
Заметим, что в структуре дорожки на фиг. 51 аудиопотоки групп аудио Channel точек обзора не могут размещаться на основной дорожке, а могут размещаться на различных групповых дорожках. В этом случае структура дорожки становится такой, как показано на фиг. 52.
В примере, показанном на фиг. 52, аудиопоток группы аудио Channel точки обзора, соответствующей основной дорожке с ID дорожки, равным "1", размещается на групповой дорожке с ID дорожки, равным "4". Дополнительно, аудиопоток группы аудио Channel точки обзора, соответствующей основной дорожке с ID дорожки, равным "2", размещается на групповой дорожке с ID дорожки, равным "5".
Дополнительно, аудиопоток группы аудио Channel точки обзора, соответствующей основной дорожке с ID дорожки, равным "3", размещается на групповой дорожке с ID дорожки, равным "6".
Заметим что в примерах, показанных на фиг. 51 и 52,4сс демонстрационной записи основной дорожки равен "mhcf. Однако 4сс может равняться "mha3", что то же самое, что в случае, показанном на фиг. 28.
Дополнительно, хотя иллюстрация не приводится, случай, в котором основная дорожка обеспечивается для каждой точки обзора трехмерного аудио во всех описанных выше структурах дорожек, кроме структуры дорожки, показанной на фиг. 28, аналогичен случаю, показанному на фиг. 51 и 52.
Третий вариант осуществления
Описание компьютера, к которому применяется настоящее раскрытие
Последовательности обработки на веб-сервере 142 (212) могут исполняться аппаратными средствами или посредством программного обеспечения. В случае исполнения последовательности обработки посредством программного обеспечения, программа, конфигурирующая программное обеспечение, устанавливается на компьютер. При этом компьютер содержит компьютер, содержащийся в специальных аппаратных средствах, и универсальный персональный компьютер, способный выполнять различные типы функций, устанавливая различные типы программ и т.п.
На фиг. 53 показана блок-схема примера конфигурации аппаратных средств компьютера, исполняющего последовательности обработки на веб-сервере 142 (212) с помощью программы.
В компьютере центральный процессор (CPU) 601, постоянное запоминающее устройство (ROM) 602 и оперативная память (RAM) 603 соединяются между собой шиной 604.
Интерфейс 605 ввода-вывода дополнительно соединяется с шиной 604. Устройство 606 ввода, устройство 607 вывода, запоминающее устройство 608, блок 609 связи и дисковод 610 соединяются с интерфейсом 605 ввода-вывода.
Устройство 606 ввода состоит из клавиатуры, мыши, микрофона и т.п. Устройство 607 вывода состоит из дисплея, громкоговорителя и т.п. Запоминающее устройство 608 состоит из жесткого диска, долговременной памяти и т.п. Блок 609 связи состоит из сетевого интерфейса и т.п. Дисковод 610 приводит в действие съемный носитель 611, такой как магнитный диск, оптический или магнитооптический диск или полупроводниковую память.
В компьютере, конфигурированном как описано выше, CPU 601 загружает программу, хранящуюся в запоминающем устройстве 608, на RAM 603 через интерфейс 605 ввода-вывода и шину 604 и исполняет программу, с тем чтобы исполнялась последовательность обработки.
Программа, исполняемая компьютером (CPU 601) может предоставляться как записанная на съемном носителе 611, например, в виде пакетного носителя. Дополнительно, программа может предоставляться через проводную или беспроводную среду передачи, такую как локальная сеть, Интернет, или цифровое спутниковое вещание.
В компьютере программа может быть установлена в запоминающее устройство 608 через интерфейс 605 ввода-вывода, устанавливая съемный носитель 611 на дисковод 610. Дополнительно, программа может быть принята блоком 609 связи через проводную или беспроводную среду передачи и установлена в запоминающее устройство 608. Кроме того, программа может быть установлена в ROM 602 или в запоминающее устройство 608 заранее.
Заметим, что программа, исполняемая компьютером, может быть программой, обрабатываемой во временной последовательности в порядке, описанном в настоящем описании, или может быть программой, обрабатываемой параллельно или с необходимой синхронизацией, когда она вызывается.
Дополнительно, конфигурация аппаратного оборудования терминала 144 (214) воспроизведения движущегося изображения может быть аналогична конфигурации компьютера, показанной на фиг. 53. В этом случае, например, CPU 601 исполняет программное обеспечение 161 (221) управления, программное обеспечение 162 воспроизведения движущегося изображения и программное обеспечение 163 (223) доступа. Обработка на терминале 144 (223) воспроизведения движущегося изображения 144 (214) может исполняться аппаратными средствами.
В настоящем описании система означает совокупность множества элементов конфигурации (устройства, модули (компоненты) и т.п.) и все элементы конфигурации могут находиться или не находиться в одном корпусе. Поэтому, системами являются как множество устройств, размещенных в отдельных корпусах и соединенных через сеть, так и единое устройство, в котором множество модулей находятся в едином корпусе.
Заметим, что варианты осуществления настоящего раскрытия не ограничиваются описанными выше вариантами осуществления и различные изменения могут быть произведены, не отступая от сущности и объема настоящего раскрытия.
Дополнительно, настоящее раскрытие может быть применено к системе обработки информации, которая выполняет широковещательную передачу или воспроизведение из локального запоминающего устройства вместо потокового воспроизведения.
В вариантах осуществления MPD информация описывается атрибутом EssentialProperty, имеющем определение дескриптора, которое может игнорироваться, когда контент, описанный схемой, не может быть понят. Однако информация может описываться атрибутом SupplementalProperty, имеющим определение дескриптора, которое может воспроизводиться, даже если контент, описанный схемой, не может быть понят. Этот способ описания выбирается стороной, которая создает контент с намерением.
Дополнительно, настоящее раскрытие может использовать конфигурации, подобные приведенным ниже.
(1) Устройство обработки информации содержащее:
блок генерирования файла, выполненный с возможностью генерирования файла, в котором аудиоданные множества видов делятся по дорожкам для каждого одного или более видов и размещаются, а также размещается информация, связанная с множеством видов.
(2) Устройство обработки информации по (1), в котором
информация, связанная с множеством видов, размещается в демонстрационной записи заданной дорожки.
(3) Устройство обработки информации по (2), в котором
заданная дорожка является одной из дорожек, на которые делятся аудиоданные множества видов и на которых они размещаются.
(4) Устройство обработки информации по любому из (1)-(3), в котором,
для каждой из дорожек информация, связанная с видом, соответствующим дорожке, размещается в файле.
(5) Устройство обработки информации по (4), в котором
для каждой из дорожек информация, связанная с эксклюзивным видом воспроизведения, состоящим из вида, соответствующего дорожке, и вида, соответствующего аудиоданным, эксклюзивно воспроизводится из аудиоданных вида, соответствующего дорожке, размещаемой в файле.
(6) Устройство обработки информации по (5), в котором
информация, связанная с видом, соответствующим дорожке, и информация, связанная с эксклюзивным видом воспроизведения, размещаются в демонстрационной записи соответствующей дорожки.
(7) Устройство обработки информации по (5) или (6), в котором
блок генерирования файла выполнен с возможностью генерирования файла управления, управляющий файлом, содержащим информацию, указывающую, существует ли для каждой из дорожек информация, связанная с эксклюзивным видом воспроизведения.
(8) Устройство обработки информации по любому из (1)-(7), в котором информация ссылки на дорожки, соответствующие множеству видов, размещается в файле.
(9) Устройство обработки информации по (8), в котором ссылочная информация размещается в выборке заданной дорожки.
(10) Устройство обработки информации по (9), в котором заданная дорожка является одной из дорожек, на которые делятся аудиоданные множества видов и на которых размещаются аудиоданные множества видов.
(11) Устройство обработки информации по любому из (1)-(10), в котором информация, указывающая ссылочное соотношение между дорожками, размещается в файле.
(12) Устройство обработки информации по любому из (1)-(11), в котором блок генерирования файла выполнен с возможностью генерирования файла управления, управляющего файлом, содержащим информацию, указывающую ссылочное соотношение между дорожками.
(13) Устройство обработки информации по любому из (1)-(12), в котором файл является одним файлом.
(14) Устройство обработки информации по любому из (1)-(12), в котором файл является файлом каждой из дорожек.
(15) Способ обработки информации, содержащий этап, на котором:
генерируют, с помощью устройства обработки информации, в котором аудиоданные множества видов делятся по дорожкам для каждого одного или более видов и размещаются на дорожках для каждого одного или более видов, а также размещается информация, связанная с множеством видов.
(16) Устройство обработки информации, содержащее:
блок воспроизведения, выполненный с возможностью воспроизведения аудиоданных заданной дорожки из файла, при этом аудиоданные множества видов делятся по дорожкам для каждого одного или более видов и размещаются на дорожках для каждого одного или более видов и на которых размещается информация, связанная с множеством видов.
(17) Способ обработки информации, содержащий этап, на котором:
воспроизводят, с помощью устройства обработки информации, аудиоданные заданной дорожки из файла, при этом аудиоданные множества видов делятся по дорожкам для каждого одного или более видов и размещаются на дорожках для каждого одного или более видов и на которых размещается информация, связанная с множеством видов.
Перечень ссылочных позиций
11 Устройство генерирования файла
192 Блок получения аудиофайла
194 Процессор аудиодекодирования
195 Процессор аудиосинтеза
211 Устройство генерирования файла
264 Блок получения аудиофайла.
Claims (40)
1. Устройство обработки информации содержащее:
блок генерирования файла, выполненный с возможностью:
распределения дорожки для каждого группового ID в один или более групповых ID, причем групповой ID назначен информации группы на основе информации Аудио Сцены, содержащей информацию группы 3D Аудио, и
генерирования аудио файла, хранящего один или более потоков аудио, соответствующих групповому ID, и информацию соответствующую групповому ID из информации Аудио Сцены в треке.
2. Устройство обработки информации по п. 1, в котором
информация, указывающая соответствие групповым ID, содержится в основной дорожке из множества дорожек.
3. Устройство обработки информации по п. 1, в котором
блок генерирования файла дополнительно выполнен с возможностью установки информации, указывающей соответствие групповым ID, в поле, отличающемся от информации аудио сцены, связанной с групповыми ID, и информации конфигурации групповых ID.
4. Устройство обработки информации по п. 1, в котором
информация, связанная с групповыми ID, размещена в демонстрационной записи заданной дорожки в файле.
5. Устройство обработки информации по п. 1, в котором
для каждой из множества дорожек информация, относящаяся к групповому ID из групповых ID, соответствующая множеству дорожек, размещена в файле.
6. Устройство обработки информации по п. 1, в котором
для каждой дорожки из множества дорожек, информация, относящаяся к групповому ID эксклюзивного воспроизведения и к групповому ID, соответствующему, эксклюзивно воспроизводимому аудиоэлементу, размещена в файле.
7. Устройство обработки информации по п. 6, в котором
информация размещена в демонстрационной записи соответствующей дорожки.
8. Устройство обработки информации по п. 6, в котором
блок генерирования файла, дополнительно, выполнен с возможностью генерирования файла управления, для управления файлом, при этом файл управления содержит информацию, указывающую, существует ли для каждой из множества дорожек информация, относящаяся к групповому ID эксклюзивного воспроизведения.
9. Устройство обработки информации по п. 1, в котором
файл содержит ссылочную информацию на множество дорожек.
10. Устройство обработки информации по п. 9, в котором
ссылочная информация размещена в выборке заданной дорожки из множества дорожек.
11. Устройство обработки информации по п. 1, в котором
файл содержит информацию, указывающую ссылочное соотношение между множеством дорожек.
12. Устройство обработки информации по п. 1, в котором
блок генерирования файла дополнительно выполнен с возможностью генерирования файла управления, для управления файлом, при этом файл управления содержит ссылочную информацию, указывающую ссылочное соотношение между множеством дорожек.
13. Устройство обработки информации по п. 1, в котором:
файл является одним файлом.
14. Способ обработки информации, содержащий этапы, на которых:
распределяют дорожку каждого группового ID в один или более групповых ID, причем групповой ID назначен информации группы на основе информации Аудио Сцены, содержащей информацию группы 3D Аудио, и
генерируют аудио файл, хранящий один или более потоков аудио, соответствующих групповому ID, и информацию, соответствующую групповому ID из информации Аудио Сцены в треке.
15. Устройство обработки информации, содержащее
блок воспроизведения, выполненный с возможностью:
приема аудио файла, хранящего один или более потоков аудио, соответствующих групповому ID, и информацию соответствующую групповому ID из информации Аудио Сцены в треке;
воспроизведения заданной дорожки из множества дорожек файла, причем
файл сгенерирован посредством распределения дорожки каждого группового ID в один или более групповых ID, причем групповой ID назначен информации группы на основе информации Аудио Сцены, содержащей информацию группы 3D Аудио.
16. Способ обработки информации, содержащий этапы, на которых:
принимают аудио файл, хранящий один или более потоков аудио, соответствующих групповому ID, и информацию, соответствующую групповому ID из информации Аудио Сцены в треке;
воспроизводят заданную дорожку из множества дорожек файла, причем
файл сгенерирован посредством распределения дорожки каждого группового ID в один или более групповых ID, причем групповой ID назначен информации группы на основе информации Аудио Сцены, содержащей информацию группы 3D Аудио.
Applications Claiming Priority (13)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014134878 | 2014-06-30 | ||
JP2014-134878 | 2014-06-30 | ||
JP2015107970 | 2015-05-27 | ||
JP2015-107970 | 2015-05-27 | ||
JP2015109838 | 2015-05-29 | ||
JP2015-109838 | 2015-05-29 | ||
JP2015119359 | 2015-06-12 | ||
JP2015-119359 | 2015-06-12 | ||
JP2015121336 | 2015-06-16 | ||
JP2015-121336 | 2015-06-16 | ||
JP2015-124453 | 2015-06-22 | ||
JP2015124453 | 2015-06-22 | ||
PCT/JP2015/068751 WO2016002738A1 (ja) | 2014-06-30 | 2015-06-30 | 情報処理装置および情報処理方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2016150994A RU2016150994A (ru) | 2018-06-25 |
RU2016150994A3 RU2016150994A3 (ru) | 2018-12-03 |
RU2702233C2 true RU2702233C2 (ru) | 2019-10-07 |
Family
ID=55019270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2016150994A RU2702233C2 (ru) | 2014-06-30 | 2015-06-30 | Устройство обработки информации и способ обработки информации |
Country Status (11)
Country | Link |
---|---|
US (2) | US20180165358A1 (ru) |
EP (1) | EP3163570A4 (ru) |
JP (4) | JP7080007B2 (ru) |
KR (3) | KR102422493B1 (ru) |
CN (3) | CN106471574B (ru) |
AU (3) | AU2015285344A1 (ru) |
CA (2) | CA3212162A1 (ru) |
MX (2) | MX368088B (ru) |
RU (1) | RU2702233C2 (ru) |
SG (1) | SG11201610951UA (ru) |
WO (1) | WO2016002738A1 (ru) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101261212B1 (ko) | 2004-10-26 | 2013-05-07 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 오디오 신호 처리 방법 및 장치 |
TWI529703B (zh) | 2010-02-11 | 2016-04-11 | 杜比實驗室特許公司 | 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法 |
CN103325380B (zh) | 2012-03-23 | 2017-09-12 | 杜比实验室特许公司 | 用于信号增强的增益后处理 |
US10844689B1 (en) | 2019-12-19 | 2020-11-24 | Saudi Arabian Oil Company | Downhole ultrasonic actuator system for mitigating lost circulation |
CN112185397B (zh) | 2012-05-18 | 2024-07-30 | 杜比实验室特许公司 | 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统 |
CN104937844B (zh) | 2013-01-21 | 2018-08-28 | 杜比实验室特许公司 | 在不同回放设备之间优化响度和动态范围 |
MY193854A (en) | 2013-01-21 | 2022-10-28 | Dolby Laboratories Licensing Corp | Audio decoder with program loudness and boundary metadata |
EP3582218A1 (en) | 2013-02-21 | 2019-12-18 | Dolby International AB | Methods for parametric multi-channel encoding |
CN104080024B (zh) | 2013-03-26 | 2019-02-19 | 杜比实验室特许公司 | 音量校平器控制器和控制方法以及音频分类器 |
WO2014165304A1 (en) | 2013-04-05 | 2014-10-09 | Dolby Laboratories Licensing Corporation | Acquisition, recovery, and matching of unique information from file-based media for automated file detection |
TWM487509U (zh) | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
CN117767898A (zh) | 2013-09-12 | 2024-03-26 | 杜比实验室特许公司 | 用于各种回放环境的动态范围控制 |
EP3044786B1 (en) | 2013-09-12 | 2024-04-24 | Dolby Laboratories Licensing Corporation | Loudness adjustment for downmixed audio content |
CN110808723B (zh) | 2014-05-26 | 2024-09-17 | 杜比实验室特许公司 | 音频信号响度控制 |
CN112164406B (zh) | 2014-10-10 | 2024-06-25 | 杜比实验室特许公司 | 基于发送无关的表示的节目响度 |
US10356545B2 (en) * | 2016-09-23 | 2019-07-16 | Gaudio Lab, Inc. | Method and device for processing audio signal by using metadata |
WO2018079293A1 (ja) * | 2016-10-27 | 2018-05-03 | ソニー株式会社 | 情報処理装置および方法 |
CN111684823B (zh) * | 2018-02-07 | 2022-07-01 | 索尼公司 | 发送装置、发送方法、处理装置以及处理方法 |
KR20200136393A (ko) * | 2018-03-29 | 2020-12-07 | 소니 주식회사 | 정보 처리 장치, 정보 처리 방법 및 프로그램 |
KR20200136394A (ko) * | 2018-03-29 | 2020-12-07 | 소니 주식회사 | 정보 처리 장치, 정보 처리 방법 및 프로그램 |
WO2024029634A1 (ja) * | 2022-08-03 | 2024-02-08 | マクセル株式会社 | 放送受信装置、コンテンツ保護方法、残響音付加処理方法および放送受信装置の制御方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100153395A1 (en) * | 2008-07-16 | 2010-06-17 | Nokia Corporation | Method and Apparatus For Track and Track Subset Grouping |
RU2393556C2 (ru) * | 2005-01-28 | 2010-06-27 | Панасоник Корпорейшн | Носитель записи, устройство воспроизведения и способы записи и воспроизведения |
EP2416321A1 (en) * | 2010-08-02 | 2012-02-08 | Sony Corporation | Data generating device and data generating method, and data processing device and data processing method |
US20120042050A1 (en) * | 2010-08-10 | 2012-02-16 | Qualcomm Incorporated | Representation groups for network streaming of coded multimedia data |
EP2665262A1 (en) * | 2011-01-12 | 2013-11-20 | Sharp Kabushiki Kaisha | Playback device, method of controlling playback device, production device, method of controlling production device, recording medium, data structure, control program, and recording medium whereon said program has been recorded |
US20140086333A1 (en) * | 2012-09-24 | 2014-03-27 | Qualcomm Incorporated | Bitstream properties in video coding |
WO2014099285A1 (en) * | 2012-12-21 | 2014-06-26 | Dolby Laboratories Licensing Corporation | Object clustering for rendering object-based audio content based on perceptual criteria |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3004096U (ja) * | 1994-03-14 | 1994-11-08 | 株式会社東芝 | 圧縮信号の作成及び再生装置 |
JPH1116250A (ja) * | 1997-06-20 | 1999-01-22 | Pioneer Electron Corp | 情報再生システム |
EP2071827A3 (en) * | 2000-12-15 | 2010-08-25 | BRITISH TELECOMMUNICATIONS public limited company | Transmission and reception of audio and/or video material |
KR100542129B1 (ko) * | 2002-10-28 | 2006-01-11 | 한국전자통신연구원 | 객체기반 3차원 오디오 시스템 및 그 제어 방법 |
EP1435620A1 (en) * | 2003-01-06 | 2004-07-07 | Thomson Licensing S.A. | Method for creating and accessing a menu for audio content without using a display |
JP3937223B2 (ja) * | 2003-01-21 | 2007-06-27 | ソニー株式会社 | 記録装置、再生装置、記録方法及び再生方法 |
JP3918772B2 (ja) * | 2003-05-09 | 2007-05-23 | 日本電気株式会社 | 映像編集装置、映像編集方法、および映像編集プログラム |
JP2004355780A (ja) * | 2003-05-30 | 2004-12-16 | Matsushita Electric Ind Co Ltd | オーディオシステム |
US20060245729A1 (en) * | 2003-08-08 | 2006-11-02 | Masanori Itoh | Data processing device and data processing method |
US7818077B2 (en) * | 2004-05-06 | 2010-10-19 | Valve Corporation | Encoding spatial data in a multi-channel sound file for an object in a virtual environment |
JP4236630B2 (ja) * | 2004-11-30 | 2009-03-11 | 三洋電機株式会社 | コンテンツデータ記録媒体 |
JP4626376B2 (ja) * | 2005-04-25 | 2011-02-09 | ソニー株式会社 | 音楽コンテンツの再生装置および音楽コンテンツ再生方法 |
CN101248421B (zh) * | 2005-08-26 | 2012-09-26 | 松下电器产业株式会社 | 数据存储系统及数据存储方法 |
CN101066720A (zh) * | 2006-04-06 | 2007-11-07 | 迈克尔·波宁斯基 | 交互式包装系统 |
US8762843B2 (en) * | 2006-06-16 | 2014-06-24 | Creative Technology Ltd | System and method for modifying media content playback based on limited input |
AU2007287222A1 (en) * | 2006-08-24 | 2008-02-28 | Nokia Corporation | System and method for indicating track relationships in media files |
US7842876B2 (en) * | 2007-01-05 | 2010-11-30 | Harman International Industries, Incorporated | Multimedia object grouping, selection, and playback system |
KR101042585B1 (ko) * | 2007-02-22 | 2011-06-20 | 후지쯔 가부시끼가이샤 | 음악 재생 장치 및 음악 재생 방법 |
WO2009079065A1 (en) * | 2007-12-14 | 2009-06-25 | Clear Channel Management Services, L.P. | Dynamic audio file and method of use |
US20090234886A1 (en) * | 2008-03-11 | 2009-09-17 | Gopalakrishna Raghavan | Apparatus and Method for Arranging Metadata |
CN101552905A (zh) * | 2008-04-03 | 2009-10-07 | 中国联合网络通信集团有限公司 | 信息切换驱动装置、信息切换装置、遥控设备和机顶盒 |
JP2010026985A (ja) * | 2008-07-24 | 2010-02-04 | Sony Corp | 情報処理装置及び情報処理方法 |
EP2417772B1 (en) * | 2009-04-09 | 2018-05-09 | Telefonaktiebolaget LM Ericsson (publ) | Media container file management |
US20110069934A1 (en) * | 2009-09-24 | 2011-03-24 | Electronics And Telecommunications Research Institute | Apparatus and method for providing object based audio file, and apparatus and method for playing back object based audio file |
JP2011087103A (ja) * | 2009-10-15 | 2011-04-28 | Sony Corp | コンテンツ再生システム、コンテンツ再生装置、プログラム、コンテンツ再生方法、およびコンテンツサーバを提供 |
JP2011188289A (ja) * | 2010-03-09 | 2011-09-22 | Olympus Imaging Corp | 画像音声記録システム |
CN101901595B (zh) * | 2010-05-05 | 2014-10-29 | 北京中星微电子有限公司 | 一种根据音频音乐生成动画的方法和系统 |
US8918533B2 (en) * | 2010-07-13 | 2014-12-23 | Qualcomm Incorporated | Video switching for streaming video data |
CN102347042B (zh) * | 2010-07-28 | 2014-05-07 | Tcl集团股份有限公司 | 一种音轨切换方法、系统及音视频文件播放设备 |
WO2012046437A1 (ja) * | 2010-10-08 | 2012-04-12 | パナソニック株式会社 | 記録媒体、及びデータのコピー方法 |
EP2450880A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
KR101739272B1 (ko) * | 2011-01-18 | 2017-05-24 | 삼성전자주식회사 | 멀티미디어 스트리밍 시스템에서 컨텐트의 저장 및 재생을 위한 장치 및 방법 |
JP2014520352A (ja) * | 2011-06-05 | 2014-08-21 | ミューズアミ, インコーポレイテッド | エンハンスされたメディア記録およびプレイバック |
KR102608968B1 (ko) | 2011-07-01 | 2023-12-05 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법 |
US9390756B2 (en) * | 2011-07-13 | 2016-07-12 | William Littlejohn | Dynamic audio file generation system and associated methods |
WO2013190684A1 (ja) * | 2012-06-21 | 2013-12-27 | パイオニア株式会社 | 再生装置及び方法 |
JP2014096766A (ja) * | 2012-11-12 | 2014-05-22 | Canon Inc | 記録装置及び記録方法 |
IES86526B2 (en) * | 2013-04-09 | 2015-04-08 | Score Music Interactive Ltd | A system and method for generating an audio file |
US9877116B2 (en) * | 2013-12-30 | 2018-01-23 | Gn Hearing A/S | Hearing device with position data, audio system and related methods |
CA2947549C (en) * | 2014-05-30 | 2023-10-03 | Sony Corporation | Information processing apparatus and information processing method |
US10762911B2 (en) * | 2015-12-01 | 2020-09-01 | Ati Technologies Ulc | Audio encoding using video information |
-
2015
- 2015-06-30 MX MX2016016820A patent/MX368088B/es active IP Right Grant
- 2015-06-30 KR KR1020167034549A patent/KR102422493B1/ko active IP Right Grant
- 2015-06-30 CA CA3212162A patent/CA3212162A1/en active Pending
- 2015-06-30 WO PCT/JP2015/068751 patent/WO2016002738A1/ja active Application Filing
- 2015-06-30 CN CN201580034444.XA patent/CN106471574B/zh active Active
- 2015-06-30 SG SG11201610951UA patent/SG11201610951UA/en unknown
- 2015-06-30 US US15/318,654 patent/US20180165358A1/en not_active Abandoned
- 2015-06-30 EP EP15816059.8A patent/EP3163570A4/en not_active Withdrawn
- 2015-06-30 RU RU2016150994A patent/RU2702233C2/ru active
- 2015-06-30 JP JP2016531369A patent/JP7080007B2/ja active Active
- 2015-06-30 CN CN202111110986.4A patent/CN113851138A/zh active Pending
- 2015-06-30 KR KR1020247014791A patent/KR20240065194A/ko active Search and Examination
- 2015-06-30 KR KR1020227024283A patent/KR20220104290A/ko active Search and Examination
- 2015-06-30 CA CA2953242A patent/CA2953242C/en active Active
- 2015-06-30 CN CN202111111163.3A patent/CN113851139A/zh active Pending
- 2015-06-30 AU AU2015285344A patent/AU2015285344A1/en not_active Abandoned
-
2016
- 2016-12-16 MX MX2019010556A patent/MX2019010556A/es unknown
-
2020
- 2020-12-18 AU AU2020289874A patent/AU2020289874A1/en not_active Abandoned
- 2020-12-24 JP JP2020214925A patent/JP7103402B2/ja active Active
-
2021
- 2021-04-13 US US17/228,953 patent/US20210326378A1/en active Pending
-
2022
- 2022-07-07 JP JP2022109532A patent/JP7424420B2/ja active Active
-
2023
- 2023-03-03 AU AU2023201334A patent/AU2023201334A1/en active Pending
-
2024
- 2024-01-17 JP JP2024005069A patent/JP2024038407A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2393556C2 (ru) * | 2005-01-28 | 2010-06-27 | Панасоник Корпорейшн | Носитель записи, устройство воспроизведения и способы записи и воспроизведения |
US20100153395A1 (en) * | 2008-07-16 | 2010-06-17 | Nokia Corporation | Method and Apparatus For Track and Track Subset Grouping |
EP2416321A1 (en) * | 2010-08-02 | 2012-02-08 | Sony Corporation | Data generating device and data generating method, and data processing device and data processing method |
US20120042050A1 (en) * | 2010-08-10 | 2012-02-16 | Qualcomm Incorporated | Representation groups for network streaming of coded multimedia data |
EP2665262A1 (en) * | 2011-01-12 | 2013-11-20 | Sharp Kabushiki Kaisha | Playback device, method of controlling playback device, production device, method of controlling production device, recording medium, data structure, control program, and recording medium whereon said program has been recorded |
US20140086333A1 (en) * | 2012-09-24 | 2014-03-27 | Qualcomm Incorporated | Bitstream properties in video coding |
WO2014099285A1 (en) * | 2012-12-21 | 2014-06-26 | Dolby Laboratories Licensing Corporation | Object clustering for rendering object-based audio content based on perceptual criteria |
Also Published As
Publication number | Publication date |
---|---|
AU2015285344A1 (en) | 2016-12-22 |
KR102422493B1 (ko) | 2022-07-20 |
KR20220104290A (ko) | 2022-07-26 |
CN106471574A (zh) | 2017-03-01 |
CN113851139A (zh) | 2021-12-28 |
US20180165358A1 (en) | 2018-06-14 |
CA2953242C (en) | 2023-10-10 |
AU2020289874A1 (en) | 2021-01-28 |
MX2016016820A (es) | 2017-04-27 |
JP7424420B2 (ja) | 2024-01-30 |
JPWO2016002738A1 (ja) | 2017-05-25 |
MX2019010556A (es) | 2019-10-14 |
RU2016150994A3 (ru) | 2018-12-03 |
CN106471574B (zh) | 2021-10-12 |
EP3163570A4 (en) | 2018-02-14 |
SG11201610951UA (en) | 2017-02-27 |
CA3212162A1 (en) | 2016-01-07 |
EP3163570A1 (en) | 2017-05-03 |
JP7080007B2 (ja) | 2022-06-03 |
AU2023201334A1 (en) | 2023-04-06 |
WO2016002738A1 (ja) | 2016-01-07 |
US20210326378A1 (en) | 2021-10-21 |
CA2953242A1 (en) | 2016-01-07 |
JP2024038407A (ja) | 2024-03-19 |
KR20170021778A (ko) | 2017-02-28 |
JP2022133422A (ja) | 2022-09-13 |
CN113851138A (zh) | 2021-12-28 |
JP2021061628A (ja) | 2021-04-15 |
MX368088B (es) | 2019-09-19 |
KR20240065194A (ko) | 2024-05-14 |
JP7103402B2 (ja) | 2022-07-20 |
RU2016150994A (ru) | 2018-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2702233C2 (ru) | Устройство обработки информации и способ обработки информации | |
JP7072649B2 (ja) | 高品質のエクスペリエンスのためのオーディオメッセージの効率的な配信および使用のための方法および装置 | |
CN114339297B (zh) | 音频处理方法、装置、电子设备和计算机可读存储介质 | |
JP6384480B2 (ja) | 情報処理装置および情報処理方法 | |
JP6459006B2 (ja) | 情報処理装置および情報処理方法 | |
JP2011182109A (ja) | コンテンツ再生装置 | |
KR20220077132A (ko) | 시청각 콘텐츠용 바이노럴 몰입형 오디오 생성 방법 및 시스템 | |
CN114040255A (zh) | 直播字幕生成方法、系统、设备及存储介质 | |
JP2022019932A (ja) | 情報処理装置および情報処理方法 | |
US11128739B2 (en) | Network-edge-deployed transcoding methods and systems for just-in-time transcoding of media data | |
AU2016274732A1 (en) | Information processing device and information processing method | |
US12133063B2 (en) | Arrangement for distributing head related transfer function filters | |
BR112016030349B1 (pt) | Aparelho e método de processamento de informação |