RU2794483C1 - Сигнализирование передискретизации опорного изображения с индикацией постоянного размера окна в битовом потоке видео - Google Patents
Сигнализирование передискретизации опорного изображения с индикацией постоянного размера окна в битовом потоке видео Download PDFInfo
- Publication number
- RU2794483C1 RU2794483C1 RU2021127639A RU2021127639A RU2794483C1 RU 2794483 C1 RU2794483 C1 RU 2794483C1 RU 2021127639 A RU2021127639 A RU 2021127639A RU 2021127639 A RU2021127639 A RU 2021127639A RU 2794483 C1 RU2794483 C1 RU 2794483C1
- Authority
- RU
- Russia
- Prior art keywords
- signaled
- sps
- flag indicating
- size
- image
- Prior art date
Links
Images
Abstract
Изобретение относится к кодированию и декодированию видео, а более конкретно к сигнализированию размера изображения или частей изображения, которые могут меняться от изображения к изображению. Техническим результатом является повышение эффективности кодирования и декодирования битового потока видео. Предложен способ декодирования кодированного битового потока видео, который включает: получение первого флага, указывающего, используется ли постоянный размер изображения в кодированной видеопоследовательности, включающей текущее изображение; на основании первого флага, указывающего, что используется постоянный размер изображения, декодирование текущего изображения без выполнения передискретизации опорного изображения; на основании первого флага, указывающего, что постоянный размер изображения не используется, получение второго флага, указывающего, сигнализируется ли размер окна соответствия; на основании второго флага, указывающего, что размер окна соответствия сигнализируется, получение размера окна соответствия, определение коэффициента передискретизации между текущим изображением и опорным изображением на основании размера окна соответствия и выполнение передискретизации опорного изображения на текущем изображении с использованием коэффициента передискретизации. 3 н. и 17 з.п. ф-лы, 11 ил., 1 табл.
Description
Статья I. ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННУЮ ЗАЯВКУ
[1] Настоящая заявка испрашивает приоритет предварительной заявки на патент США № 62/903,601, поданной 20 сентября 2019 г., и заявки на патент США № 17/009,979, поданной 2 сентября 2020 г., которые полностью включены в настоящий документ.
Статья II. Область техники, к которой относится изобретение
[2] Раскрытый предмет изобретения относится к кодированию и декодированию видео, а более конкретно, к сигнализированию размера изображения или частей изображения, которые могут меняться от изображения к изображению или от части изображения к части изображения.
Статья III.Уровень техники
[3] Известно кодирование и декодирование видео с использованием межкадрового предсказания с компенсацией движения. Несжатое цифровое видео может состоять из серии изображений, причем каждое изображение имеет пространственный размер, например, 1920 x 1080 отсчетов яркости и связанных отсчетов цветности. Серия изображений может иметь фиксированную или переменную частоту изображений (неофициально также известную как частота кадров), например, 60 изображений в секунду или 60 Гц. Несжатое видео имеет значительные требования к битрейту. Например, для видео 1080p60 4:2:0 с частотой 8 бит на отсчет (разрешение отсчета яркости 1920x1080 при частоте кадров 60 Гц) требуется полоса пропускания, близкая к 1,5 Гбит/с. Час такого видео требует более 600 ГБ дискового пространства.
[4] Одной из целей кодирования и декодирования видео может быть уменьшение избыточности входного видеосигнала посредством сжатия. Сжатие может помочь снизить вышеупомянутые требования к полосе пропускания или пространству для хранения, в некоторых случаях на два порядка или более. Могут использоваться как сжатие без потерь, так и сжатие с потерями, а также их комбинация. Сжатие без потерь относится к методам, при которых из сжатого исходного сигнала может быть восстановлена точная копия исходного сигнала. При использовании сжатия с потерями восстановленный сигнал может не быть идентичным исходному сигналу, но искажение между исходным и восстановленным сигналами достаточно мало, чтобы сделать восстановленный сигнал пригодным для предполагаемого приложения. В случае видео широко применяется сжатие с потерями. Допустимая степень искажения зависит от приложения; например, для пользователей определенных потребительских приложений потоковой передачи допустимы более высокие искажения, чем для пользователей приложений вещательного телевидения. Достижимая степень сжатия может отражать следующее: более высокое разрешаемое/допустимое искажение может привести к более высокой степени сжатия.
[5] Видеокодер и видеодекодер могут использовать методы из нескольких широких категорий, включая, например, компенсацию движения, преобразование, квантование и энтропийное кодирование, некоторые из которых будут представлены ниже.
[6] Исторически видеокодеры и видеодекодеры имели тенденцию работать с заданным размером изображения, который в большинстве случаев был определен и оставался постоянным для кодированной видеопоследовательности (CVS), группы изображений (GOP) или аналогичного временного кадра с несколькими изображениями. Например, в MPEG-2 известно, что конструкция системы изменяет горизонтальное разрешение (и, следовательно, размер изображения) в зависимости от таких факторов, как активность сцены, но только для I-изображений, следовательно, обычно для GOP. Передискретизация опорных изображений для использования различных разрешений в CVS известна, например, из Рекомендаций МСЭ-Т H.263, Приложение P. Однако здесь размер изображения не изменяется, только опорные изображения подвергаются передискретизации, в результате чего потенциально могут использоваться только части холста изображения (в случае понижающей дискретизации) или захватываться только части сцены (в случае повышающей дискретизации). Кроме того, Приложение Q H.263 разрешает передискретизацию отдельного макроблока с коэффициентом два (в каждом измерении), в сторону повшения или понижения. Опять же, размер изображения остается прежним. Размер макроблока фиксирован в H.263, и поэтому его не нужно передавать.
[7] Изменение размера изображения в предсказанных изображениях стало более распространенным явлением в современном кодировании видео. Например, VP9 позволяет выполнять передискретизацию опорного изображения и изменять разрешение для всего изображения. Аналогичным образом, некоторые предложения, сделанные в отношении VVC (включая, например, Hendry, et. al., «On adaptive resolution change (ARC) for VVC», документ JVT JVET-M0135-v1, 9-19 января 2019 г., полностью включенный в настоящий документ) позволяют выполнять передискретизацию целых опорных изображений с другим - более высоким или более низким - разрешением. В этом документе предлагается кодировать различные кандидаты разрешения в наборе параметров последовательности и ссылаться на них с помощью элементов синтаксиса для каждого изображения в наборе параметров изображения.
Статья IV. Раскрытие сущности изобретения
[8] В одном из вариантов осуществления предложен способ декодирования кодированного битового потока видео с использованием по меньшей мере одного процессора, причем способ включает в себя получение первого флага, указывающего, используется ли постоянный размер изображения в кодированной видеопоследовательности, включающей текущее изображение; на основании первого флага, указывающего, что используется постоянный размер изображения, декодирование текущего изображения без выполнения передискретизации опорного изображения; на основании первого флага, указывающего, что постоянный размер изображения не используется, получение второго флага, указывающего, сигнализируется ли размер окна соответствия; на основании второго флага, указывающего, что размер окна соответствия сигнализируется, получение размера окна соответствия, определение коэффициента передискретизации между текущим изображением и опорным изображением на основании размера окна соответствия и выполнение передискретизации опорного изображения на текущем изображении с использованием коэффициента передискретизации.
[9] В одном из вариантов осуществления предложено устройство для декодирования кодированного битового потока видео, при этом устройство включает в себя по меньшей мере один элемент памяти, сконфигурированный для хранения программного кода; и по меньшей мере один процессор, сконфигурированный для считывания программного кода и работы в соответствии с инструкциями программного кода, причем программный код включает в себя: первый код получения, сконфигурированный так, чтобы предписывать по меньшей мере одному процессору получать первый флаг, указывающий, используется ли постоянный размер изображения в кодированной видеопоследовательности, включающей в себя текущее изображение; код декодирования, сконфигурированный так, чтобы предписывать по меньшей мере одному процессора, на основании первого флага, указывающего, что используется постоянный размер изображения, декодировать текущее изображение без выполнения передискретизации опорного изображения; второй код получения, сконфигурированный так, чтобы предписывать по меньшей мере одному процессору, на основании первого флага, указывающего, что постоянный размер изображения не используется, получать второй флаг, указывающий, сигнализируется ли размер окна соответствия; и код выполнения, сконфигурированный так, чтобы предписывать по меньшей мере одному процессору, на основании второго флага, указывающего, что размер окна соответствия сигнализируется, получать размер окна соответствия, определять коэффициент передискретизации между текущим изображением и опорным изображением на основании размера окна соответствия и выполнять передискретизацию опорного изображения на текущем изображении с использованием коэффициента передискретизации.
[10] В одном из вариантов осуществления предложен невременный машиночитаемый носитель, хранящий инструкции, включающие в себя: одну или более инструкций, которые при исполнении одним или более процессорами устройства для декодирования кодированного битового потока видео предписывают одному или более процессорам: получать первый флаг, указывающий, используется ли постоянный размер изображения в кодированной видеопоследовательности, включающей текущее изображение; на основании первого флага, указывающего, что используется постоянный размер изображения, декодировать текущее изображение без выполнения передискретизации опорного изображения; на основании первого флага, указывающего, что постоянный размер изображения не используется, получать второй флаг, указывающий, сигнализируется ли размер окна соответствия; на основании второго флага, указывающего, что размер окна соответствия сигнализируется, получать размер окна соответствия, определять коэффициент передискретизации между текущим изображением и опорным изображением на основании размера окна соответствия и выполнять передискретизацию опорного изображения на текущем изображении с использованием коэффициента передискретизации.
Статья V. Краткое описание чертежей
[11] Дополнительные признаки, сущность и различные преимущества раскрытого объекта изобретения будут более очевидны из следующего подробного описания и прилагаемых чертежей, на которых:
[12] На фиг.1 показана схематическая иллюстрация упрощенной блок-схемы системы связи в соответствии с вариантом осуществления.
[13] На фиг. 2 показана схематическая иллюстрация упрощенной блок-схемы системы связи в соответствии с вариантом осуществления.
[14] На фиг. 3 показана схематическая иллюстрация упрощенной блок-схемы декодера в соответствии с вариантом осуществления.
[15] На фиг. 4 показана схематическая иллюстрация упрощенной блок-схемы кодера в соответствии с вариантом осуществления.
[16] На фиг.5 показана схематическая иллюстрация вариантов сигнализирования параметров ARC / RPR в соответствии с вариантом осуществления.
[17] На фиг. 6A-6B показаны схематические иллюстрации примеров синтаксических таблиц в соответствии с вариантом осуществления.
[18] На фиг.7 показана схематическая иллюстрация передачи размера изображения и окна соответствия в SPS в соответствии с вариантами осуществления.
[19] На фиг.8 показана схематическая иллюстрация передачи размера изображения и окна соответствия в PPS в соответствии с вариантами осуществления.
[20] На фиг. 9 показана блок-схема примерного процесса декодирования кодированного битового потока видео в соответствии с вариантом осуществления.
[21] На фиг.10 показана схематическая иллюстрация компьютерной системы в соответствии с вариантом осуществления.
Статья I. Осуществление изобретения
[22] На фиг.1 проиллюстрирована упрощенная блок-схема системы (100) связи согласно варианту осуществления настоящего раскрытия. Система (100) может включать в себя по меньшей мере два терминала (110 и 120), соединенных между собой через сеть (150). Для однонаправленной передачи данных первый терминал (110) может кодировать видеоданные в локальном местоположении для передачи другому терминалу (120) через сеть (150). Второй терминал (120) может принимать кодированные видеоданные другого терминала из сети (150), декодировать кодированные данные и отображать восстановленные видеоданные. Однонаправленная передача данных может быть обычным явлением в приложениях обслуживания мультимедиа и т. п.
[23] На фиг.1 показана вторая пара терминалов (130, 140), обеспечивающая поддержку двунаправленной передачи кодированного видео, которая может происходить, например, во время видеоконференц-связи. Для двунаправленной передачи данных каждый терминал (130, 140) может кодировать видеоданные, захваченные в локальном местоположении, для передачи другому терминалу через сеть (150). Каждый терминал (130, 140) также может принимать кодированные видеоданные, переданные другим терминалом, может декодировать кодированные данные и может отображать восстановленные видеоданные на локальном устройстве отображения.
[24] На фиг.1 терминалы (110-140) могут быть изображены как серверы, персональные компьютеры и смартфоны, но принципы настоящего раскрытия не могут быть ограничены этим. Варианты осуществления настоящего раскрытия находят применение в портативных компьютерах, планшетных компьютерах, медиаплеерах и/или специализированном оборудовании для видеоконференц-связи. Сеть (150) представляет собой любое количество сетей, которые передают кодированные видеоданные между терминалами (110-140), включая, например, сети проводной и/или беспроводной связи. Сеть (150) связи может обмениваться данными в каналах с коммутацией каналов и/или с коммутацией пакетов. Репрезентативные сети включают в себя телекоммуникационные сети, локальные сети, глобальные сети и/или Интернет. Для целей настоящего обсуждения архитектура и топология сети (150) могут быть несущественными для работы настоящего раскрытия, если это не объясняется в данном документе ниже.
[25] На фиг.2 проиллюстрировано, в качестве примера применения для раскрытого объекта изобретения, размещение видеокодера и видеодекодера в потоковой среде. Раскрытый объект изобретения может быть в равной степени применим к другим приложениям с поддержкой видео, включая, например, видеоконференц-связь, цифровое телевидение, хранение сжатого видео на цифровых носителях, включая CD, DVD, карту памяти и т.п., и так далее.
[26] Система потоковой передачи может включать в себя подсистему (213) захвата, которая может включать в себя источник (201) видео, например цифровую камеру, создающую, например, поток (202) отсчетов несжатого видео. Данный поток (202) отсчетов, изображенный жирной линией, чтобы подчеркнуть большой объем данных по сравнению с кодированными битовыми видеопотоками, может быть обработан кодером (203), подключенным к камере (201). Кодер (203) может включать в себя аппаратное обеспечение, программное обеспечение или их комбинацию для включения или реализации аспектов раскрытого объекта изобретения, как более подробно описано ниже. Кодированный битовый поток (204) видео, изображенный тонкой линией, чтобы подчеркнуть меньший объем данных по сравнению с потоком отсчетов, может храниться на сервере (205) потоковой передачи для будущего использования. Один или более клиентов (206, 208) потоковой передачи могут получить доступ к серверу (205) потоковой передачи для извлечения копий (207, 209) кодированного битового видеопотока (204). Клиент (206) может включать в себя видеодекодер (210), который декодирует входящую копию кодированного битового видеопотока (207) и создает исходящий поток (211) отсчетов видео, который может отображаться на дисплее (212) или другом устройстве визуализации (не изображено). В некоторых системах потоковой передачи битовые видеопотоки (204, 207, 209) могут кодироваться в соответствии с определенными стандартами кодирования/сжатия видео. Примеры этих стандартов включают Рекомендацию МСЭ-Т H.265. В стадии разработки находится стандарт кодирования видео, неофициально известный как универсальное кодирование видео или VVC. Раскрытый объект изобретения может использоваться в контексте VVC.
[27] Фиг.3 может быть функциональной блок-схемой видеодекодера (210) согласно варианту осуществления настоящего раскрытия.
[28] Приемник (310) может принимать одну или более кодированных видеопоследовательностей, которые должны быть декодированы декодером (210); в том же или другом варианте осуществления - по одной кодированной видеопоследовательности за раз, где декодирование каждой кодированной видеопоследовательности не зависит от других кодированных видеопоследовательностей. Кодированная видеопоследовательность может быть принята из канала (312), который может быть аппаратным/программным соединением с устройством хранения, в котором хранятся кодированные видеоданные. Приемник (310) может принимать кодированные видеоданные с другими данными, например, кодированными аудиоданными и/или потоками вспомогательных данных, которые могут быть отправлены их соответствующим использующим объектам (не изображены). Приемник (310) может отделять кодированную видеопоследовательность от других данных. Для борьбы с дрожанием в сети между приемником (310) и энтропийным декодером/парсером (320) (далее «парсер») может быть подключена буферная память (315). Когда приемник (310) принимает данные от устройства хранения/пересылки с достаточной полосой пропускания и управляемостью или из изосинхронной сети, буферная память (315) может не понадобиться или может быть небольшой. Для использования в пакетных сетях наилучшего качества, таких как Интернет, может потребоваться буфер (315), который может быть сравнительно большим и может быть предпочтительно адаптивного размера.
[29] Видеодекодер (210) может включать в себя синтаксический анализатор (320) для восстановления символов (321) из энтропийной кодированной видеопоследовательности. Категории этих символов включают в себя информацию, используемую для управления работой декодера (210), и потенциально информацию для управления устройством визуализации, таким как дисплей (212), который не является неотъемлемой частью декодера, но может быть подключен к нему, как это было показано на фиг.3. Управляющая информация для устройства (устройств) визуализации может быть в форме информации дополнительного улучшения (сообщения SEI) или фрагментов набора параметров информации о пригодности видео (VUI) (не изображены). Парсер (320) может выполнять парсинг/энтропийно декодировать принятую кодированную видеопоследовательность. Кодирование кодированной видеопоследовательности может осуществляться в соответствии с технологией или стандартом кодирования видео и может следовать принципам, хорошо известным специалистам в уровне техники, включая кодирование переменной длины, кодирование Хаффмана, арифметическое кодирование с контекстной чувствительностью или без нее и так далее. Парсер (320) может извлекать из кодированной видеопоследовательности набор параметров подгруппы по меньшей мере для одной из подгрупп пикселей в видеодекодере на основе по меньшей мере одного параметра, соответствующего группе. Субгруппы могут включать в себя группы изображений (GOP), изображения, тайлы, слайсы, кирпичики, макроблоки, единицы дерева кодирования (CTU), единицы кодирования (CU), блоки, единицы преобразования (TU), единицы предсказания (PU) и так далее. Тайл может указывать прямоугольную область CU/CTU в конкретном столбце и ряде тайлов в изображении. Кирпичик может указывать на прямоугольную область рядов CU/CTU в пределах конкретного тайла. Слайс может указывать на один или несколько кирпичиков изображения, которые содержатся в единице NAL. Субизображение может указывать на прямоугольную область одного или нескольких слайсов в изображении. Энтропийный декодер/парсер также может извлекать из кодированной видеопоследовательности информацию, такую как коэффициенты преобразования, значения параметров квантователя, векторы движения и так далее.
[30] Парсер (320) может выполнять операцию энтропийного декодирования/парсинга видеопоследовательности, принятой из буфера (315), чтобы создавать символы (321).
[31] Восстановление символов (321) может включать в себя множество различных модулей в зависимости от типа кодированного видеоизображения или его частей (таких как: внешнее и внутреннее изображение, внешний и внутренний блок) и других факторов. Какие модули задействованы и как, можно контролировать с помощью управляющей информации подгруппы, парсинг которой был выполнен из кодированной видеопоследовательности с помощью парсера (320). Поток такой управляющей информации подгруппы между парсером (320) и множеством модулей ниже не показан для ясности.
[32] Помимо уже упомянутых функциональных блоков, декодер 210 может быть концептуально подразделен на ряд функциональных модулей, как описано ниже. В практическом осуществлении, работающем в условиях коммерческих ограничений, многие из этих модулей тесно взаимодействуют друг с другом и могут быть, по меньшей мере частично, интегрированы друг в друга. Однако для целей описания раскрытого объекта изобретения уместно концептуальное подразделение на функциональные модули, приведенные ниже.
[33] Первым модулем является модуль (351) масштабирования/обратного преобразования. Модуль (351) масштабирования/обратного преобразования принимает квантованный коэффициент преобразования, а также управляющую информацию, включая то, какое преобразование использовать, размер блока, коэффициент квантования, матрицы масштабирования квантования и так далее, в виде символа(ов) (321) от парсера (320). Он может выводить блоки, содержащие значения отсчетов, которые могут быть введены в агрегатор (355).
[34] В некоторых случаях выходные отсчеты модуля (351) масштабирования/обратного преобразования могут относиться к блоку с интракодированием; то есть к блоку, который не использует информацию предсказания из ранее восстановленных изображений, но может использовать информацию предсказания из ранее восстановленных частей текущего изображения. Такая информация предсказания может быть предоставлена модулем (352) внутрикадрового предсказания. В некоторых случаях модуль (352) внутрикадрового предсказания генерирует блок того же размера и формы, что и восстанавливаемый блок, используя окружающую уже восстановленную информацию, извлеченную из текущего (частично восстановленного) изображения (358). Агрегатор (355), в некоторых случаях, добавляет для каждого отсчета информацию предсказания, сгенерированную модулем (352) интрапредсказания, к информации выходных отсчетов, предоставляемой модулем (351) масштабирования/обратного преобразования.
[35] В других случаях выходные отсчеты модуля (351) масштабирования/обратного преобразования могут относиться к блоку с интеркодированием и потенциально с компенсацией движения. В таком случае модуль (353) предсказания с компенсацией движения может обращаться к памяти (357) опорных изображений, чтобы извлекать отсчеты, используемые для предсказания. После компенсации движения выбранных отсчетов в соответствии с символами (321), относящимися к блоку, эти отсчеты могут быть добавлены агрегатором (355) к выходу модуля масштабирования/обратного преобразования (в данном случае называемые остаточными отсчетами или остаточным сигналом), чтобы генерировать информацию о выходных отсчетах. Адреса в памяти опорных изображений, откуда модуль предсказания с компенсацией движения выбирает отсчеты предсказания, могут управляться векторами движения, доступными модулю предсказания с компенсацией движения в форме символов (321), которые могут иметь, например, компоненты X, Y и опорного изображения. Компенсация движения также может включать в себя интерполяцию значений отсчетов, извлеченных из памяти опорных изображений, когда используются точные векторы движения суботсчетов, механизмы предсказания вектора движения и так далее.
[36] Выходные отсчеты агрегатора (355) могут подвергаться различным методам петлевой фильтрации в модуле (356) петлевого фильтра. Технологии сжатия видео могут включать в себя технологии внутрипетлевой фильтрации, которые управляются параметрами, включенными в битовый поток кодированного видео и предоставляются модулю (356) петлевой фильтрации как символы (321) из парсера (320), но также могут реагировать на метаинформацию, полученную во время декодирования предыдущих (в порядке декодирования) частей кодированного изображения или кодированной видеопоследовательности, а также реагировать на ранее восстановленные и отфильтрованные посредством петлевой фильтрации значения отсчетов.
[37] Выходной сигнал модуля (356) петлевого фильтра может быть потоком отсчетов, который может быть выведен на устройство (212) визуализации, а также сохранен в памяти опорных изображений для использования в будущем межкадровом предсказании.
[38] Определенные кодированные изображения после полного восстановления могут использоваться в качестве опорных изображений для будущего предсказания. После того, как кодированное изображение полностью восстановлено и кодированное изображение было идентифицировано как опорное изображение (например, парсером (320)), текущее опорное изображение (358) может стать частью буфера (357) опорных изображений, и свежая память текущих изображений может быть перераспределена перед началом восстановления следующего кодированного изображения.
[39] Видеодекодер 210 может выполнять операции декодирования согласно заранее определенной технологии сжатия видео, которая может быть задокументирована в стандарте, таком как ITU-T Rec. H.265. Кодированная видеопоследовательность может соответствовать синтаксису, заданному используемой технологией или стандартом сжатия видео, в том смысле, что она соответствует синтаксису технологии или стандарта сжатия видео, как указано в документе или стандарте технологии сжатия видео и, в частности, в их документе профилей. Также для соответствия может быть необходимым, чтобы сложность кодированной видеопоследовательности находилась в пределах, определенных уровнем технологии или стандарта сжатия видео. В некоторых случаях уровни ограничивают максимальный размер изображения, максимальную частоту кадров, максимальную частоту дискретизации восстановления (измеряемую, например, в мегаотсчетах в секунду), максимальный размер опорного изображения и так далее. Пределы, установленные уровнями, в некоторых случаях могут быть дополнительно ограничены с помощью спецификаций гипотетического опорного декодера (HRD) и метаданных для управления буфером HRD, передаваемых в кодированной видеопоследовательности.
[40] В варианте осуществления приемник (310) может принимать дополнительные (избыточные) данные с кодированным видео. Дополнительные данные могут быть включены как часть кодированной видеопоследовательности(ей). Дополнительные данные могут использоваться видеодекодером (210) для правильного декодирования данных и/или для более точного восстановления исходных видеоданных. Дополнительные данные могут быть в форме, например, временных, пространственных слоев или слоев улучшения отношения сигнал/шум (SNR), избыточных слайсов, избыточных изображений, кодов прямого исправления ошибок и так далее.
[41] Фиг.4 может быть функциональной блок-схемой видеокодера (203) согласно варианту осуществления настоящего раскрытия.
[42] Кодер (203) может принимать отсчеты видео от источника (201) видео (который не является частью кодера), который может захватывать видеоизображение(я) для кодирования кодером (203).
[43] Источник (201) видео может предоставить исходную видеопоследовательность для кодирования кодером (203) в форме цифрового потока отсчетов видео, который может иметь любую подходящую битовую глубину (например: 8 бит, 10 бит, 12 бит, ...), любое цветовое пространство (например, BT.601 Y CrCB, RGB, …) и любую подходящую структуру отсчетов (например, Y CrCb 4:2:0, Y CrCb 4:4:4). В системе обслуживания мультимедиа источник (201) видео может быть запоминающим устройством, хранящим предварительно подготовленное видео. В системе видеоконференц-связи источник (203) видео может быть камерой, которая захватывает информацию о локальном изображении в виде видеопоследовательности. Видеоданные могут быть предоставлены как множество отдельных изображений, которые при последовательном просмотре передают движение. Сами изображения могут быть организованы как пространственный массив пикселей, в котором каждый пиксель может содержать один или более отсчетов в зависимости от используемой структуры отсчетов, цветового пространства и т. д. Специалист в данной области техники может легко понять взаимосвязь между пикселями и отсчетами. Описание ниже ориентировано на отсчеты.
[44] Согласно варианту осуществления кодер (203) может кодировать и сжимать изображения исходной видеопоследовательности в кодированную видеопоследовательность (443) в реальном времени или с любыми другими временными ограничениями, как того требует приложение. Обеспечение соответствующей скорости кодирования - одна из функций контроллера (450). Контроллер управляет другими функциональными модулями, как описано ниже, и функционально связан с этими модулями. Связь не изображена для ясности. Параметры, устанавливаемые контроллером, могут включать в себя параметры, относящиеся к управлению скоростью (пропуск изображения, квантователь, значение лямбда методов оптимизации скорость-искажение, …), размеру изображения, макету группы изображений (GOP), максимальному диапазону поиска вектора движения и так далее. Специалист в данной области техники может легко определить другие функции контроллера (450), поскольку они могут относиться к видеокодеру (203), оптимизированному для определенной конструкции системы.
[45] Некоторые видеокодеры работают в том, что специалист в данной области легко распознает как «петля кодирования». В качестве упрощенного описания петля кодирования может состоять из кодирующей части кодера (430) (далее «кодер источника») (ответственной за создание символов на основе входного изображения, которое должно быть кодировано, и опорного изображения(й)), и (локального) декодера (433), встроенного в кодер (203), который восстанавливает символы для создания данных отсчетов, которые (удаленный) декодер также может создать (поскольку любое сжатие между символами и кодированным битовым видеопотоком не имеет потерь в технологиях сжатия видео, рассматриваемых в раскрытом объекте). Этот восстановленный поток отсчетов вводится в память (434) опорных изображений. Поскольку декодирование потока символов приводит к результатам с точностью до бита, независимо от местоположения декодера (локально или удаленно), содержимое буфера опорных изображений также является точным до бита между локальным кодером и удаленным кодером. Другими словами, часть предсказания кодера «видит» в качестве отсчетов опорного изображения точно такие же значения отсчетов, которые декодер «видел» бы при использовании предсказания во время декодирования. Этот фундаментальный принцип синхронности опорного изображения (и результирующего дрейфа, если синхронность не может поддерживаться, например, из-за ошибок канала) хорошо известен специалисту в данной области техники.
[46] Работа «локального» декодера (433) может быть такой же, как у «удаленного» декодера (210), который уже был подробно описан выше в описании к фиг. 3. Кратко ссылаясь также на фиг.4, однако, поскольку символы доступны, и кодирование/декодирование символов в кодированную видеопоследовательность энтропийным кодером (445) и парсером (320) может осуществляться без потерь, части энтропийного декодирования декодера (210), включая канал (312), приемник (310), буфер (315) и парсер (320), не могут быть полностью реализованы в локальном декодере (433).
[47] На этом этапе можно сделать наблюдение, что любая технология декодирования, кроме парсинга/энтропийного декодирования, которая присутствует в декодере, также обязательно должна присутствовать в, по существу, идентичной функциональной форме в соответствующем кодере. По этой причине раскрытый объект изобретения фокусируется на работе декодера. Описание технологий кодирования может быть сокращено, поскольку они являются инверсией полностью описанных технологий декодирования. Только в некоторых областях требуется более подробное описание, которое приводится ниже.
[48] В качестве части своей работы кодер (430) источника может выполнять кодирование с предсказанием с компенсацией движения, которое кодирует входной кадр с предсказанием со ссылкой на один или более ранее кодированных кадров из видеопоследовательности, которые были обозначены как «опорные кадры». Таким образом, механизм (432) кодирования кодирует различия между блоками пикселей входного кадра и блоками пикселей опорного кадра(ов), которые могут быть выбраны в качестве эталона(ов) предсказания для входного кадра.
[49] Локальный видеодекодер (433) может декодировать кодированные видеоданные кадров, которые могут быть обозначены как опорные кадры, на основе символов, созданных кодером (430) источника. Операции механизма (432) кодирования могут быть предпочтительно процессами с потерями. Когда кодированные видеоданные могут быть декодированы в видеодекодере (не показан на фиг.4), восстановленная видеопоследовательность обычно может быть копией исходной видеопоследовательности с некоторыми ошибками. Локальный видеодекодер (433) копирует процессы декодирования, которые могут выполняться видеодекодером на опорных кадрах, и может вызывать сохранение восстановленных опорных кадров в кэше (434) опорных изображений. Таким образом, кодер (203) может локально хранить копии восстановленных опорных кадров, которые имеют общий контент, в качестве восстановленных опорных кадров, которые будут получены видеодекодером на дальнем конце (при отсутствии ошибок передачи).
[50] Предиктор (435) может выполнять поиски с предсказанием для механизма (432) кодирования. То есть, для нового изображения, которое должно быть кодировано, предиктор (435) может искать в памяти (434) опорных изображений данные отсчетов (в качестве кандидатов блоков опорных пикселей) или определенные метаданные, такие как векторы движения опорных изображений, формы блоков и так далее, которые могут служить подходящим эталоном предсказания для новых изображений. Предиктор (435) может работать на основе блока отсчетов "блок-за-пикселем", чтобы найти соответствующие эталоны предсказания. В некоторых случаях, как определено результатами поиска, полученными предиктором (435), входное изображение может иметь эталоны предсказания, взятые из множества опорных изображений, сохраненных в памяти (434) опорных изображений.
[51] Контроллер (450) может управлять операциями кодирования видеокодера (430), включая, например, установку параметров и параметров подгруппы, используемых для кодирования видеоданных.
[52] Выходные сигналы всех вышеупомянутых функциональных модулей могут подвергаться энтропийному кодированию в энтропийном кодере (445). Энтропийный кодер переводит символы, сгенерированные различными функциональными модулями, в кодированную видеопоследовательность путем сжатия без потерь символов согласно технологиям, известным специалистам в данной области техники, как, например, кодирование Хаффмана, кодирование переменной длины, арифметическое кодирование и так далее.
[53] Передатчик (440) может буферизовать кодированную видеопоследовательность(и), созданную энтропийным кодером (445), чтобы подготовить ее к передаче через канал (460) связи, который может быть аппаратным/программным соединением с запоминающим устройством, которое будет хранить кодированные видеоданные. Передатчик (440) может обеспечивать слияние кодированных видеоданных из видеокодера (430) с другими данными, подлежащими передаче, например, кодированными аудиоданными и/или потоками вспомогательных данных (источники не показаны).
[54] Контроллер (450) может управлять работой кодера (203). Во время кодирования контроллер (450) может назначить каждому кодированному изображению определенный тип кодированного изображения, что может повлиять на методы кодирования, которые могут быть применены к соответствующему изображению. Например, изображения часто могут быть отнесены к одному из следующих типов кадров:
[55] Внутреннее изображение (I-изображение) может быть таким, которое можно кодировать и декодировать без использования какого-либо другого кадра в последовательности в качестве источника предсказания. Некоторые видеокодеки допускают различные типы внутренних изображений, включая, например, изображения с независимым обновлением декодера. Специалисту в области техники известны эти варианты I-изображений и их соответствующие применения и особенности.
[56] Изображение с предсказанием (P-изображение) может быть таким, которое может быть кодировано и декодировано с использованием интрапредсказания или интерпредсказания с использованием не более одного вектора движения и опорного индекса для предсказания значений отсчетов каждого блока.
[57] Изображение с двунаправленным предсказанием (B-изображение) может быть таким, которое может быть кодировано и декодировано с использованием интрапредсказания или интерпредсказания с использованием не более двух векторов движения и опорных индексов для предсказания значений отсчетов каждого блока. Точно так же изображения с множественным предсказанием могут использовать более двух опорных изображений и связанных метаданных для восстановления одного блока.
[58] Исходные изображения обычно могут быть пространственно разделены на множество блоков отсчетов (например, блоки из 4x4, 8x8, 4x8 или 16x16 отсчетов каждый) и кодированы на поблочной основе. Блоки могут кодироваться с предсказанием со ссылкой на другие (уже кодированные) блоки, как определено назначением кодирования, применяемым к соответствующим изображениям блоков. Например, блоки I-изображений могут кодироваться без предсказания или они могут кодироваться с предсказанием со ссылкой на уже кодированные блоки одного и того же изображения (пространственное предсказание или интрапредсказание). Пиксельные блоки P-изображений могут кодироваться без предсказания, посредством пространственного предсказания или посредством временного предсказания со ссылкой на одно ранее кодированное опорное изображение. Блоки B-изображений могут кодироваться без предсказания, посредством пространственного предсказания или посредством временного предсказания со ссылкой на одно или два ранее кодированных опорных изображения.
[59] Видеокодер (203) может выполнять операции кодирования в соответствии с заранее определенной технологией или стандартом кодирования видео, такой как Рекомендация МСЭ-Т H.265. В своей работе видеокодер (203) может выполнять различные операции сжатия, включая операции кодирования с предсказанием, которые используют временную и пространственную избыточность во входной видеопоследовательности. Кодированные видеоданные, следовательно, могут соответствовать синтаксису, заданному используемой технологией или стандартом кодирования видео.
[60] В варианте осуществления передатчик (440) может передавать дополнительные данные с кодированным видео. Видеокодер (430) может включать в себя такие данные как часть кодированной видеопоследовательности. Дополнительные данные могут содержать временные/пространственные слои/слои улучшения SNR, другие формы избыточных данных, такие как избыточные изображения и слайсы, сообщения информации дополнительного улучшения (SEI), фрагменты набора параметров информации о пригодности видео (VUI) и так далее.
[61] В последнее время некоторое внимание привлекла агрегация сжатой области или извлечение множества семантически независимых частей изображения в одно видеоизображение. В частности, в контексте, например, кодирования 360 или определенных приложений наблюдения, несколько семантически независимых исходных изображений (например, поверхность шести кубов проектируемой кубом сцены 360 или входы отдельных камер в случае многокамерного наблюдения setup) могут потребоваться отдельные настройки адаптивного разрешения, чтобы справиться с различной активностью каждой сцены в данный момент времени. Другими словами, кодеры в данный момент времени могут выбрать использование разных коэффициентов передискретизации для разных семантически независимых изображений, составляющих всю 360-градусную сцену или сцену наблюдения. При объединении в одно изображение, возникает необходимость в выполнении передискредизации опорного изображения и доступности сигнализирования кодирования с адаптивным разрешением для частей кодированного изображения.
[62] Ниже представлены несколько терминов, на которые приводится ссылка в оставшейся части этого описания.
[63] Суб-изображение может относиться к, в некоторых случаях, прямоугольной компоновке отсчетов, блоков, макроблоков, единиц кодирования или подобных объектов, которые семантически сгруппированы и которые могут быть независимо кодированы с измененным разрешением. Одно или несколько субизображений могут образовывать изображение. Одно или более кодированных суб-изображений могут образовывать кодированное изображение. Одно или более суб-изображений могут быть собраны в изображение, и одно или более суб-изображений могут быть извлечены из изображения. В определенных средах одно или более кодированных суб-изображений могут быть собраны в сжатой области без перекодирования до уровня отсчетов в кодированное изображение, и в тех же или других случаях одно или более кодированных суб-изображений могут быть извлечены из кодированного изображения в сжатой области.
[64] В дальнейшем передискретизация опорного изображения (RPR) или адаптивное изменение разрешения (ARC) может относиться к механизмам, которые позволяют изменять разрешение изображения или суб-изображения в кодированной видеопоследовательности, например, посредством передискретизации опорного изображения. В дальнейшем параметры RPR/ARC относятся к управляющей информации, необходимой для выполнения адаптивного изменения разрешения, которая может включать в себя, например, параметры фильтра, коэффициенты масштабирования, разрешения выходных и/или опорных изображений, различные флаги управления и так далее.
[65] В вариантах осуществления кодирование и декодирование могут выполняться для одного семантически независимого кодированного видеоизображения. Перед описанием последствий кодирования/декодирования множества суб-изображений с независимыми параметрами RPR/ARC и их подразумеваемой дополнительной сложности должны быть описаны варианты передачи параметров RPR/ARC.
[66] На фиг. 5 показаны несколько вариантов осуществления сигнализирования параметров RPR/ARC. Как отмечено для каждого из вариантов осуществления, они могут иметь определенные преимущества и определенные недостатки с точки зрения эффективности кодирования, сложности и архитектуры. Стандарт или технология кодирования видео могут выбрать один или более из этих вариантов осуществления или вариантов, известных из уровня техники, для передачи параметров RPR/ARC. Варианты осуществления могут не быть взаимоисключающими и, возможно, могут быть взаимозаменяемыми в зависимости от потребностей приложения, используемых стандартов или выбора кодера.
[67] Классы параметров RPR/ARC могут включать в себя:
[68] коэффициенты повышения/понижения дискретизации, отдельные или объединенные в измерениях X и Y
[69] коэффициенты повышения/понижения дискретизации с добавлением временного измерения, указывающие на увеличение/уменьшение размера с постоянной скоростью для заданного количества изображений
[70] - любой из двух вышеупомянутых вариантов может включать в себя кодирование одного или более предположительно коротких элементов синтаксиса, которые могут указывать на таблицу, содержащую коэффициент(ы).
[71] - разрешение в измерении X или Y в единицах отсчетов, блоках, макроблоках, единицах кодирования (CU) или любой другой подходящей степени детализации входного изображения, выходного изображения, опорного изображения, кодированного изображения, в сочетании или по отдельности. Если существует более одного разрешения (например, одно для входного изображения, одно для опорного изображения), то в некоторых случаях один набор значений может быть выведен из другого набора значений. Это может быть передано, например, путем использования флагов. Более подробный пример см. ниже.
[72] - координаты «деформации», подобные тем, которые используются в Приложении P H.263, опять же с подходящей степенью детализации, как описано выше. Приложение P H.263 определяет один эффективный способ кодирования таких координат деформации, но, возможно, также разрабатываются другие, потенциально более эффективные способы. Например, реверсивное кодирование Хаффмана с переменной длиной координат деформации согласно Приложению P может быть заменено двоичным кодированием подходящей длины, где длина двоичного кодового слова может быть, например, получена из максимального размера изображения, возможно, умноженного на определенный коэффициент и смещенного на определенное значение, чтобы учесть «деформацию» за пределами границ максимального размера изображения.
[73] - Параметры фильтра с повышающей и/или понижающей дискретизацией. В вариантах осуществления может быть только один фильтр для повышающей и / или понижающей дискретизации. Однако в вариантах осуществления может быть желательным обеспечить большую гибкость в конструкции фильтра, и для этого может потребоваться передача параметров фильтра. Такие параметры могут быть выбраны с помощью индекса в списке возможных конструкций фильтров, фильтр может быть полностью определен (например, с помощью списка коэффициентов фильтра с использованием подходящих методов энтропийного кодирования), фильтр может быть неявно выбран с помощью соответствующих соотношений повышающей/понижающей дискретизации, которые, в свою очередь, передаются в соответствии с любым из механизмов, упомянутых выше, и так далее.
[74] Ниже описание предполагает кодирование конечного набора коэффициентов повышающей/понижающей дискретизации (тот же коэффициент, который должен использоваться в измерениях X и Y), указанных с помощью кодового слова. Это кодовое слово может быть закодировано с переменной длиной, например, с использованием экспоненциального кода Голомба, общего для определенных элементов синтаксиса в спецификациях кодирования видео, таких как H.264 и H.265. Одно подходящее сопоставление значений с коэффициентами повышения/понижения дискретизации может, например, соответствовать таблице 1:
ТАБЛИЦА 1
Кодовое слово | Экспоненциальный код Голомба | Исходное/Целевое разрешение |
0 | 1 | 1/1 |
1 | 010 | 1/1,5 (увеличение на 50%) |
2 | 011 | 1,5/1 (уменьшение на 50%) |
3 | 00100 | 1/2 (увеличение на 100%) |
4 | 00101 | 2/1 (уменьшение на 100%) |
[75] Многие аналогичные сопоставления могут быть разработаны в соответствии с потребностями приложения и возможностями механизмов повышения и понижения, доступных в технологии или стандарте сжатия видео. Таблица может быть расширена до большего количества значений. Значения также могут быть представлены механизмами энтропийного кодирования, отличными от Экспоненциальных кодов Голомба, например, с использованием двоичного кодирования. Это может иметь определенные преимущества, когда коэффициенты передискретизации представляли интерес за пределами самих механизмов обработки видео (прежде всего кодера и декодера), например, посредством MANE. Следует отметить, что для ситуаций, когда изменение разрешения не требуется, может быть выбран Экспоненциальный код Голомба, который является коротким; в таблице выше только один бит. Это может иметь преимущество в эффективности кодирования по сравнению с использованием двоичных кодов для наиболее распространенного случая.
[76] Количество записей в таблице, а также их семантика могут быть полностью или частично настраиваемыми. Например, основная структура таблицы может быть передана в «высоком» наборе параметров, таком как последовательность или набор параметров декодера. В вариантах осуществления, одна или более таких таблиц могут быть определены в технологии или стандарте кодирования видео и могут быть выбраны, например, с помощью декодера или набора параметров последовательности.
[77] Ниже приведено описание того, как коэффициент повышающей/понижающей дискретизации (информация ARC), закодированный, как описано выше, может быть включен в технологию кодирования видео или стандартный синтаксис. Подобные соображения могут применяться к одному или нескольким кодовым словам, управляющим фильтрами повышающей/понижающей дискретизации. Смотри ниже обсуждение, когда для фильтра или других структур данных требуются сравнительно большие объемы данных.
[78] Как показано на фиг.5, приложение P H.263 включает информацию (502) ARC в форме четырех координат деформации в заголовок (501) изображения, в частности, в расширение заголовка PLUSPTYPE (503) H.263. Это может быть разумным выбором структуры, когда а) имеется доступный заголовок изображения и б) ожидаются частые изменения информации ARC. Однако служебные данные при использовании передачи в стиле H.263 могут быть довольно высокими, и коэффициенты масштабирования могут не относиться к границам изображения, поскольку заголовок изображения может иметь временный характер.
[79] В том же или другом варианте осуществления передача параметров ARC может соответствовать подробному примеру, как показано на фиг.6А-6В. Фиг. 6A-6B изображают синтаксические диаграммы в типе представления с использованием нотации, которая примерно соответствует программированию в стиле C, например, используемому в стандартах кодирования видео, по меньшей мере, с 1993 года. Строки, выделенные жирным шрифтом, указывают на элементы синтаксиса, присутствующие в битовом потоке, строки без жирного шрифта часто указывают на поток управления или установку переменных.
[80] Как показано на фиг.6А, заголовок группы тайлов (601) в качестве примерной синтаксической структуры заголовка, применимого к (возможно, прямоугольной) части изображения, может условно содержать, кодированный с помощью экспоненциального кода Голомба элемент синтаксиса переменной длины dec_pic_size_idx (602) (выделен жирным шрифтом). Наличие этого элемента синтаксиса в заголовке группы тайлов может быть ограничено использованием адаптивного разрешения (603) - здесь значение флага не выделено жирным шрифтом, что означает, что флаг присутствует в битовом потоке в той точке, где он встречается на синтаксической диаграмме. Тот факт, используется ли адаптивное разрешение для этого изображения или его частей, можно передавать в любой синтаксической структуре высокого уровня внутри или вне битового потока. В показанном примере это передается в наборе параметров последовательности, как показано ниже.
[81] На фиг.6В показана также выборка набора (610) параметров последовательности. Первый показанный элемент синтаксиса - это adaptive_pic_resolution_change_flag (611). При значении истина, этот флаг может указывать на использование адаптивного разрешения, которое, в свою очередь, может требовать определенной управляющей информации. В примере такая управляющая информация присутствует условно на основе значения флага на основе оператора if() в наборе (612) параметров и заголовке (601) группы тайлов.
[82] Когда используется адаптивное разрешение, в этом примере кодировано выходное разрешение в единицах отсчетов (613). Номер позиции 613 относится как к output_pic_width_in_luma_samples, так и к output_pic_height_in_luma_samples, которые вместе могут определять разрешение выходного изображения. В другом месте технологии или стандарта кодирования видео могут быть определены определенные ограничения для любого значения. Например, определение уровня может ограничивать количество общих выходных отсчетов, которые могут быть произведением значений этих двух элементов синтаксиса. Также, определенные технологии или стандарты кодирования видео, или внешние технологии или стандарты, такие как, например, системные стандарты, могут ограничивать диапазон нумерации (например, одно или оба измерения должны делиться на степень 2) или соотношение ширины и высоты (например, ширина и высота должны быть в таком соотношении, как 4:3 или 16:9). Такие ограничения могут быть введены для облегчения аппаратных реализаций или по другим причинам, и они хорошо известны в данной области техники.
[83] В некоторых приложениях может быть целесообразно, чтобы кодер инструктировал декодер использовать определенный размер опорного изображения вместо того, чтобы неявно предполагать, что этот размер является размером выходного изображения. В этом примере элемент синтаксиса reference_pic_size_present_flag (614) передает условное присутствие размеров (615) опорного изображения (опять же, номер позиции относится как к ширине, так и к высоте).
[84] Наконец, показана таблица возможной ширины и высоты изображения декодирования. Такая таблица может быть выражена, например, указанием таблицы (num_dec_pic_size_in_luma_samples_minus1) (616). «Minus1» может относиться к интерпретации значения этого элемента синтаксиса. Например, если кодированное значение равно нулю, присутствует одна запись в таблице. Если значение равно пяти, присутствуют шесть записей таблицы. Затем для каждой «строки» в таблице в синтаксис (617) включаются ширина и высота декодированного изображения.
[85] Представленные записи (617) таблицы могут быть проиндексированы с использованием элемента синтаксиса dec_pic_size_idx (602) в заголовке группы тайлов, тем самым разрешая различные декодированные размеры - в сущности, коэффициенты масштабирования - для каждой группы тайлов.
[86] Некоторые технологии или стандарты кодирования видео, например VP9, поддерживают пространственную масштабируемость путем реализации определенных форм передискретизации опорного изображения (передаваемую совершенно иначе, чем в раскрытом объекте изобретения) в сочетании с временной масштабируемостью, чтобы обеспечить пространственную масштабируемость. В частности, некоторые опорные изображения могут подвергаться повышающей дискретизации с использованием технологий ARC-стиля до более высокого разрешения для формирования базы слоя пространственного улучшения. Эти изображения с повышенной дискретизацией можно улучшить, используя нормальные механизмы предсказания с высоким разрешением, чтобы добавить деталей.
[87] Обсуждаемые здесь варианты осуществления могут использоваться в такой среде. В некоторых случаях, в том же или другом варианте осуществления, значение в заголовке единицы NAL, например поле временного идентификатора, может использоваться для указания не только временного, но и пространственного слоя. Это может иметь определенные преимущества для определенных конфигураций систем; например, существующая архитектура Selected Forwarding Units (SFU), созданная и оптимизированная для выбранных временных слоев, пересылаемых на основе значения временного идентификатора заголовка единицы NAL, может использоваться без модификации для масштабируемых сред. Для того чтобы сделать это возможным, может существовать требование для сопоставления между размером кодированного изображения и временным слоем, указываемым полем временного идентификатора в заголовке единицы NAL.
[88] В последнее время некоторое внимание привлекла агрегация сжатой области или извлечение множества семантически независимых частей изображения в одно видеоизображение. В частности, в контексте, например, кодирования 360 или определенных приложений наблюдения, несколько семантически независимых исходных изображений (например, поверхность шести кубов проектируемой кубом сцены 360 или входы отдельных камер в случае многокамерного наблюдения setup) могут потребоваться отдельные настройки адаптивного разрешения, чтобы справиться с различной активностью каждой сцены в данный момент времени. Другими словами, кодеры в данный момент времени могут выбрать использование разных коэффициентов передискретизации для разных семантически независимых изображений, составляющих всю 360-градусную сцену или сцену наблюдения. При объединении в одно изображение, возникает необходимость в выполнении передискредизации опорного изображения и доступности сигнализирования кодирования с адаптивным разрешением для частей кодированного изображения.
[89] В вариантах осуществления не все отсчеты восстановленного изображения предназначены для вывода. Кодер может указать прямоугольную часть изображения, предназначенную для вывода, с использованием окна соответствия. Окно соответствия может быть описано или обозначено, например, посредством смещения влево и вправо от краев изображения, как определено размером изображения. Определенные варианты использования могут быть идентифицированы, когда окна соответствия могут иметь значение, в том числе растянутая развертка, пространственная сборка видов в системах Multiview или системы 360, где окна соответствия могут указывать на одну из нескольких поверхностей кубической карты для вывода.
[90] Поскольку не все приложения требуют использования окна соответствия и поскольку параметры окна соответствия могут потребовать определенного количества битов в битовом потоке и, следовательно, когда они не используются, это может повредить эффективности кодирования, и наличие таких параметров может быть ограничено флагом.
[91] В вариантах осуществления размер окна соответствия может сигнализироваться в наборе параметров изображения (PPS). Параметры окна соответствия, которые могут указывать размер окна соответствия, могут использоваться для вычисления коэффициента передискретизации, когда размер окна соответствия опорного изображения отличается от размера окна текущего изображения. Декодеру может потребоваться распознать размер окна соответствия каждого изображения, чтобы определить, требуется ли процесс передискретизации. Когда коэффициент передискретизации не равен 1, размер выходного изображения не является постоянным в кодированной видеопоследовательности (CVS), и может использоваться специальная обработка и постобработка выходных изображений, например масштабирование с увеличением/уменьшением для отображения.
[92] В вариантах осуществления, флаг, который указывает, имеет ли декодированное / выводимое изображение тот же самый размер и коэффициент передискретизации равен 1 в кодированной видеопоследовательности (CVS) /битовом потоке, может сигнализироваться в наборе высокоуровневых параметров, таком как набор параметров декодирования (DPS), набор параметров видео (VPS) или набор параметров последовательности (SPS). Флаг может использоваться для согласования сеанса для потоковой передачи видео или конфигурации декодера и настройки отображения.
[93] Ссылаясь на фиг. 7, флаг constant_pic_size_flag (704), равный 1, может указывать, что размеры изображений в CVS одинаковы. При этом constant_pic_size_flag, равный 0, может указывать на то, что размеры изображений для изображений в CVS могут быть или не быть одинаковыми. Если значение constant_pic_size_flag равно 1, флаг sps_conformance_window_flag (705) может быть представлен в SPS (701). При этом sps_conformance_window_flag, равный 1, может указывать, что параметры смещения окна обрезки соответствия следуют в подходящем положении, например, далее, в SPS. При этом sps_conformance_window_flag, равный 0, может указывать на то, что параметры смещения параметры смещения окна обрезки соответствия отсутствуют.
[94] В вариантах осуществления sps_conf_win_left_offset (706), sps_conf_win_right_offset (707), sps_conf_win_top_offset (708) и sps_conf_win_bottom_offset (709) могут указывать на отсчеты изображений в CVS, которые выводятся из процесса декодирования изображения в виде прямоугольной области, указанной в координатах изображения для вывода.
[95] В вариантах осуществления, когда элементы синтаксиса sps_conf_win_left_offset, sps_conf_win_right_offset, sps_conf_win_top_offset и sps_conf_win_bottom_offset отсутствуют, значения sps_conf_win_left_offset, sps_conf_win_right_offset, sps_conf_win_top_offset, и sps_conf_win_bottom_offset могут быть выведены равными 0.
[96] В вариантах осуществления, как показано на фиг. 8, pic_width_in_luma_samples (802) может определять ширину каждого декодированного изображения, опирающегося на PPS (801) в единицах выборок яркости. В вариантах осуществления pic_width_in_luma_samples может быть не равно 0, может быть целым числом, кратным Max( 8, MinCbSizeY), и может быть меньше или равно pic_width_max_in_luma_samples. Если отсутствует, значение pic_width_in_luma_samples может быть выведено как равное pic_width_max_in_luma_samples. При этом pic_height_in_luma_samples (803) может указывать высоту каждого декодированного изображения, опирающегося на PPS в единицах отсчетов яркости. При этом pic_height_in_luma_samples в некоторых случаях может быть не равным 0, а может быть целым числом, кратным Max (8, MinCbSizeY), и может быть меньше или равным pic_height_max_in_luma_samples. Если отсутствует, значение pic_height_in_luma_samples может быть выведено как равное pic_ height_max_in_luma_samples.
[97] В вариантах осуществления, как все еще показано на фиг. 8, conformance_window_flag (804), равный 1, может указывать на то, что параметры смещения окна обрезки соответствия следуют в подходящем месте, например, следующим в PPS (801). При этом conformance_window_flag, равный 0, может указывать на то, что параметры смещения окна обрезки соответствия отсутствуют. При этом conf_win_left_offset (805), conf_win_right_offset (806), conf_win_top_offset (807) и conf_win_bottom_offset (808) могут указывать на отсчеты изображений, опирающиеся на PPS, которые выводятся из процесса декодирования, в виде прямоугольной области, указанной в координатах изображения для вывода.
[98] В том же варианте осуществления, когда элементы синтаксиса conf_win_left_offset, conf_win_right_offset, conf_win_top_offset и conf_win_bottom_offset отсутствуют, значения conf_win_left_offset, conf_win_right_offset, conf_win_top_offset и conf_win_bottom_offset могут быть выведены равными значениям sps_conf_win_left_offset, sps_conf_win_right_offset, sps_conf_win_top_offset и sps_conf_win_bottom_offset соответственно.
[99] В вариантах осуществления, окно обрезки соответствия может содержать отсчеты яркости с горизонтальными координатами изображения от SubWidthC * conf_win_left_offset до pic_width_in_luma_samples - (SubWidthC * conf_win_right_offset + 1) и вертикальными координатами изображения от SubHeightC * conf_win_top_offset до pic_height_in_luma_samples − ( SubHeightC * conf_win_bottom_offset + 1 ), включительно.
[100] Значение SubWidthC * (conf_win_left_offset + conf_win_right_offset) может быть меньше pic_width_in_luma_samples, а значение SubHeightC * (conf_win_top_offset + conf_win_bottom_offset) может быть меньше pic_height_in_luma_samples.
[101] Переменные PicOutputWidthL и PicOutputHeightL могут быть получены, как показано в Уравнении 1 и Уравнении 2 ниже:
PicOutputWidthL = pic_width_in_luma_samples - SubWidthC * (conf_win_right_offset + conf_win_left_offset) (Уравнение 1)
PicOutputHeightL = pic_height_in_luma_samples - SubHeightC * (conf_win_bottom_offset + conf_win_top_offset) (Уравнение 2)
[102] В вариантах осуществления процесс дробной интерполяции с передискретизацией опорного изображения может обрабатываться следующим образом.
[103] Входными данными для этого процесса может быть местоположение яркости (xSb, ySb), указывающее верхний левый отсчет текущего субблока кодирования относительно верхнего левого отсчета яркости текущего изображения, переменная sbWidth, указывающая ширину текущего субблока кодирования, переменная sbHeight, указывающая высоту текущего субблока кодирования, смещение вектора движения mvOffset, уточненный вектор движения refMvLX, выбранный массив отсчетов опорного изображения refPicLX, индекс фильтра интерполяции половинных отсчетов hpelIfIdx, флаг двунаправленного оптического потока bdofFlag и переменная cIdx, указывающая индекс компонента цвета текущего блока.
[104] Выходными данными этого процесса могут быть: массив predSamplesLX (sbWidth + brdExtSize) x (sbHeight + brdExtSize) значений отсчетов предсказания.
[105] Размер расширения границы блока предсказания brdExtSize может быть получен, как показано в Уравнении 3 ниже:
brdExtSize = ( bdofFlag | | ( inter_affine_flag[ xSb ][ ySb ] && sps_affine_prof_enabled_flag ) ) ? 2: 0 (Уравнение 3)
[106] Переменная fRefWidth может быть установлена равной PicOutputWidthL опорного изображения в отсчетах яркости. Переменная fRefHeight может быть установлена равной PicOutputHeightL опорного изображения в отсчетах яркости. Вектор движения mvLX может быть установлен равным (refMvLX - mvOffset).
[107] Если cIdx равно 0, может применяться следующее:
– Коэффициенты масштабирования и их представления с фиксированной точкой могут быть определены согласно Уравнению 4 и Уравнению 5 ниже:
hori_scale_fp = ( ( fRefWidth << 14 ) + ( PicOutputWidthL >> 1 ) ) / PicOutputWidthL (Уравнение 4)
vert_scale_fp = ( ( fRefHeight << 14 ) + ( PicOutputHeightL >> 1 ) ) / PicOutputHeightL (Уравнение 5)
– Пусть ( xIntL, yIntL ) будет местоположением яркости, заданным в единицах целого отсчета, а ( xFracL, yFracL ) может быть смещением, заданным в единицах 1/16 отсчета. Эти переменные могут использоваться в этом пункте для указания местоположений дробных отсчетов внутри массивов refPicLX опорных отсчетов.
– Верхняя левая координата ограничивающего блока для заполнения опорным отсчетом (xSbIntL,ySbIntL ) может быть установлена равной ( xSb + ( mvLX[ 0 ] >> 4 ), ySb + ( mvLX[ 1 ] >> 4 ) ).
– Для каждого местоположения отсчета яркости (xL= 0..sbWidth - 1 + brdExtSize, yL= 0..sbHeight - 1 + brdExtSize) внутри массива предсказанных отсчетов яркости predSamplesLX соответствующее значение предсказанного отсчета яркости predSamplesLX [xL ] [yL ] получают следующим образом:
– Пусть (refxSbL, refySbL) и (refxL,refyL ) будут местоположениями яркости, на которые указывает вектор движения (refMvLX, refMvLX), заданный в единицах 1/16 отсчета. Переменные refxSbL, refxL, refySbL и refyL могут быть получены, как показано в уравнениях 6-9 ниже:
refxSbL = ( ( xSb<< 4 ) + refMvLX[ 0 ] ) * hori_scale_fp (Уравнение 6)
refxL = ( ( Sign( refxSb ) * ( ( Abs( refxSb ) + 128 ) >> 8 )
+ xL * ( ( hori_scale_fp + 8 ) >> 4 ) ) + 32 ) >> 6 (Уравнение 7)
refySbL = ( ( ySb << 4 ) + refMvLX[ 1 ] ) * vert_scale_fp (Уравнение 8)
refyL = ( ( Sign( refySb ) * ( ( Abs( refySb ) + 128 ) >> 8 ) + yL *
( ( vert_scale_fp + 8 ) >> 4 ) ) + 32 ) >> 6 (Уравнение 9)
– Переменные xIntL, yIntL,xFracL и yFracL могут быть получены, как показано в уравнениях 10-13 ниже:
xIntL = refxL >> 4 (Уравнение 10)
yIntL = refyL > > 4 (Уравнение 11)
xFracL = refxL & 15 (Уравнение 12)
yFracL = refyL & 15 (Уравнение 13)
– Если bdofFlag равен TRUE или (sps_affine_prof_enabled_flag равен TRUE и inter_affine_flag [xSb] [ySb] равен TRUE), и одно или несколько из следующих условий истинны, значение предсказанного отсчета яркости predSamplesLX [xL] [yL ] может быть получено посредством обращения к процессу извленчения целочисленного отсчета яркости, как указано в соответствующем пункте спецификации кодирования видео, с (xIntL + ( xFracL >> 3) - 1),yIntL + (yFracL >> 3) - 1) и refPicLX в качестве входных данных.
– xL равно 0.
– xL равно sbWidth + 1.
– yL равно 0.
– yL равен sbHeight + 1.
– В противном случае, значение предсказанного отсчета яркости predSamplesLX [xL] [yL] может быть получено посредством обращения к процессу 8-позиционной интерполяционной фильтрации отсчета яркости, как указано в соответствующем пункте спецификации кодирования видео с (xIntL - (brdExtSize > 0 ? 1 : 0 ), yIntL − ( brdExtSize > 0 ? 1: 0)), (xFracL, yFracL), (xSbIntL, ySbIntL ), refPicLX, hpelIfIdx, sbWidth, sbHeight и (xSb, ySb) в качестве вводных данных.
[108] В противном случае (cIdx не равно 0), может применяться следующее:
1. Пусть (xIntC, yIntC) будет местоположением цветности, заданным в единицах целого отсчета, а (xFracC, yFracC) будет смещением, заданным в единицах 1/32 отсчета. Эти переменные могут использоваться в этом пункте для указания общих местоположений дробных отсчетов внутри массивов refPicLX опорных отсчетов.
2. Верхняя левая координата ограничивающего блока для заполнения опрным отсчетом (xSbIntC, ySbIntC) устанавливается равной ((xSb / SubWidthC) + (mvLX [0] >> 5), (ySb / SubHeightC) + (mvLX [1]) >> 5)).
3. Для каждого местоположения отсчета цветности (xC = 0..sbWidth - 1, yC = 0 .. sbHeight - 1) внутри массивов предсказанных отсчетов цветности predSamplesLX соответствующее значение предсказанного отсчета цветности predSamplesLX [xC] [yC] может быть получено следующим образом :
– Пусть (refxSbC, refySbC) и (refxC,refyC ) будут местоположениями цветности, на которые указывает вектор движения (mvLX [0], mvLX [1]), заданный в единицах 1/32 отсчета. Переменные refxSbC, refySbC, refxC и refyC могут быть получены, как показано в уравнениях 14-17 ниже:
refxSbC =( (xSb / SubWidthC << 5) + mvLX [0]) * hori_scale_fp (Уравнение 14)
refxC = ((Sign (refxSbC)* ((Abs (refxSbC ) + 256) >> 9)
+ xC * ((hori_scale_fp + 8) >> 4)) + 16) >> 5 (Уравнение 15)
refySbC =( (ySb / SubHeightC<< 5) + mvLX [1]) * vert_scale_fp (Уравнение 16)
refyC = ((Sign (refySbC)* ((Abs (refySbC ) + 256) >> 9)
+ yC * ((vert_scale_fp + 8) >> 4)) + 16) >> 5 (Уравнение 17)
– Переменные xIntC, yIntC, xFracC и yFracC могут быть получены, как показано в Уравнениях 18-21 ниже:
xIntC = refxC> > 5 (Уравнение 18)
yIntC = refyC> > 5 (Уравнение 19)
xFracC = refyC & 31 (Уравнение 20)
yFracC = refyC & 31 (Уравнение 21)
[109] Значение предсказанного отсчета predSamplesLX [xC] [yC] может быть получено посредством обращения к вышеуказанному процессу с (xIntC, yIntC), (xFracC, yFracC), (xSbIntC, ySbIntC), sbWidth, sbHeight и refPicLX в качестве входных данных.
[110] На фиг. 9 показана примерная блок-схема процесса 900 декодирования кодированного битового потока видео. В некоторых реализациях один или более блоков процессов с фиг.9 могут выполняться декодером 210. В некоторых реализациях один или более блоков процессов с фиг. 9 могут выполняться другим устройством или группой устройств, отдельной от декодера 210 или включающего в себя его, например кодером 203.
[111] Как показано на фиг. 9, процесс 900 может включать в себя получение первого флага, указывающего, использован ли постоянный размер изображения в кодированной видеопоследовательности, включающей в себя текущее изображение (этап 910).
[112] Как дополнительно показано на фиг. 9, процесс 900 может включать в себя определение по первому флагу, используется ли постоянный размер изображения (этап 920).
[113] Как дополнительно показано на фиг. 9, процесс 900 может включать в себя, на основании первого флага, указывающего, что используется постоянный размер изображения (ДА на этапе 920), декодирование текущего изображения без выполнения передискретизации опорного изображения (этап 930).
[114] Как дополнительно показано на фиг. 9, на основе первого флага, указывающего, что постоянный размер изображения не используется (НЕТ в блоке 920), процесс 900 может перейти к блоку 940, блоку 950, блоку 960 и блоку 970.
[115] Как дополнительно показано на фиг. 9, процесс 900 может включать в себя получение второго флага, указывающего, сигнализируется ли размер окна соответствия (этап 940).
[116] Как дополнительно показано на фиг. 9, процесс 900 может включать в себя, на основании второго флага, указывающего, что размер окна соответствия сигнализируется, получение размера окна соответствия (блок 950), определение коэффициента передискретизации между текущим изображением и опорным изображением на основании размера окна соответствия (блок 960), и выполнение передискретизации опорного изображения для текущего изображения с использованием указанного коэффициента передискретизации (блок 970).
[117] В одном из вариантов осуществления размер окна соответствия может сигнализироваться как по меньшей мере одно расстояние смещения от границы текущего изображения.
[118] В одном из вариантов осуществления первый флаг может сигнализироваться в наборе параметров последовательности (SPS), а второй флаг может сигнализироваться в одном из SPS и набора параметров изображения (PPS).
[119] В одном из вариантов осуществления второй флаг может сигнализироваться в SPS и может указывать, сигнализируются ли в SPS параметры окна соответствия SPS.
[120] В одном из вариантов осуществления, на основании второго флага, указывающего, что параметры окна соответствия SPS сигнализируются в SPS, размер окна соответствия может быть получен на основании параметров окна соответствия SPS.
[121] В одном из вариантов осуществления, на основании первого флага, указывающего, что размер изображения не является постоянным, процесс 900 может включать в себя получение третьего флага, указывающего, сигнализируются ли в PPS параметры окна соответствия PPS.
[122] В одном из вариантов осуществления, на основании второго флага, указывающего, что параметры окна соответствия SPS сигнализируются в SPS, и третьего флага, указывающего, что параметры окна соответствия PPS не сигнализируются в PPS, размер окна соответствия может быть получен на основании параметров окна соответствия SPS.
[123] В одном из вариантов осуществления, на основании второго флага, указывающего, что параметры окна соответствия SPS не сигнализируются в SPS, и третьего флага, указывающего, что параметры окна соответствия PPS сигнализируются в PPS, размер окна соответствия может быть получен на основании параметров окна соответствия PPS.
[124] Хотя на фиг.9 показаны примерные блоки процесса 900, в некоторых реализациях процесс 900 может включать в себя дополнительные блоки, меньшее количество блоков, разные блоки или блоки, расположенные иначе, чем те, которые изображены на фиг.9. Дополнительно или альтернативно, два или более блока процесса 900 могут выполняться параллельно.
[125] Кроме того, предложенные способы могут быть реализованы схемами обработки (например, одним или более процессорами или одной или более интегральными схемами). В одном примере один или более процессоров выполняют программу, которая хранится на невременном машиночитаемом носителе, для осуществления одного или более из предложенных способов.
[126] Методы, описанные выше, могут быть реализованы в виде компьютерного программного обеспечения с использованием машиночитаемых инструкций и физически сохранены на одном или более машиночитаемых носителях. Например, на фиг.10 показана компьютерная система 1000, подходящая для реализации определенных вариантов осуществления раскрытого объекта изобретения.
[127] Компьютерное программное обеспечение может быть кодировано с использованием любого подходящего машинного кода или компьютерного языка, который может быть объектом сборки, компиляции, связывания или подобных механизмов для создания кода, содержащего инструкции, которые могут выполняться напрямую или посредством интерпретации, выполнения микрокода и и т. п., центральными процессорами компьютера (ЦП), графическими процессорами (ГП) и т. п.
[128] Инструкции могут выполняться на компьютерах различных типов или их компонентах, включая, например, персональные компьютеры, планшетные компьютеры, серверы, смартфоны, игровые устройства, устройства Интернета вещей и т. п.
[129] Компоненты, показанные на фиг.10 для компьютерной системы 1000, являются примерными по своей природе и не предназначены для предложения каких-либо ограничений в отношении объема использования или функциональных возможностей компьютерного программного обеспечения, реализующего варианты осуществления настоящего раскрытия. Конфигурация компонентов также не должна интерпретироваться как имеющая какую-либо зависимость или требование, относящееся к любому одному или комбинации компонентов, проиллюстрированных в примерном варианте осуществления компьютерной системы 1000.
[130] Компьютерная система 1000 может включать в себя определенные устройства ввода с человеко-машинным интерфейсом. Такое устройство ввода с человеко-машинным интерфейсом может реагировать на ввод одним или более пользователями-людьми посредством, например, тактильного ввода (например, нажатия клавиш, смахивания, движения управляющей перчатки), звукового ввода (например, голоса, хлопков в ладоши), визуального ввода (например: жестов), обонятельного ввода (не изображен). Устройства с человеко-машинным интерфейсом также могут использоваться для захвата определенных носителей, не обязательно напрямую связанных с сознательным вводом человеком, таких как звук (например, речь, музыка, окружающий звук), изображения (например, сканированные изображения, фотографические изображения, полученные из камеры для неподвижных изображений), видео (например, двухмерное видео, трехмерное видео, включая стереоскопическое видео).
[131] Устройства ввода с человеческим интерфейсом могут включать в себя одно или несколько из (только одно из каждого приведенного): клавиатура 1001, мышь 1002, трекпад 1003, сенсорный экран 1010 и соответствующий графический адаптер 1050, управляющая перчатка, джойстик 1005, микрофон 1006, сканер 1007, камера 1008.
[132] Компьютерная система 1000 также может включать в себя определенные устройства вывода с человеко-машинным интерфейсом. Такие устройства вывода с человеко-машинным интерфейсом могут стимулировать чувства одного или более пользователей-людей посредством, например, тактильного вывода, звука, света и запаха/вкуса. Такие устройства вывода с человеко-машинным интерфейсом могут включать в себя тактильные устройства вывода (например, тактильную обратную связь от сенсорного экрана (1010), управляющей перчатки (1004) или джойстика (1005), но также могут иметься устройства тактильной обратной связи, которые не служат в качестве устройств ввода), устройства вывода звука (например: динамики (1009), наушники (не изображены)), устройства вывода изображения (например, экраны (1010), включая ЭЛТ-экраны, ЖК-экраны, плазменные экраны, OLED-экраны, каждое из которых имеет или не имеет возможности ввода с сенсорного экрана, каждое с возможностью тактильной обратной связи или без нее - некоторые из которых могут быть способны выводить двухмерный визуальный вывод или более, чем трехмерный вывод с помощью таких средств, как стереографический вывод; очки виртуальной реальности (не изображены), голографические дисплеи и дымовые баки (не изображены)) и принтеры (не изображены).
[133] Компьютерная система (1000) также может включать в себя доступные для человека устройства хранения и связанные с ними носители, такие как оптические носители, включая CD/DVD ROM/RW (1020) с CD/DVD или подобными носителями (1021), флэш-накопитель (1022), съемный жесткий диск или твердотельный накопитель (1023), ранее разработанные магнитные носители, такие как лента и дискета (не изображены), специализированные устройства на основе ROM/ASIC/PLD, такие как защитные ключи (не изображены) и т. п.
[134] Специалисты в данной области также должны понимать, что термин «машиночитаемый носитель», используемый в связи с раскрытым в настоящем документе объектом изобретения, не охватывает среды передачи, несущие волны или другие временные сигналы.
[135] Компьютерная система 1000 также может включать в себя интерфейс(ы) к одной или более коммуникационным сетям (1155). Сети могут быть, например, беспроводными, проводными, оптическими. Кроме того, сети могут быть локальными, глобальными, городскими, автомобильными и промышленными, работающими в реальном времени, устойчивыми к задержкам и т. д. Примеры сетей включают в себя локальные сети, такие как Ethernet, беспроводные локальные вычислительные сети (LAN), сотовые сети, включая глобальные системы мобильной связи (GSM), третьего поколения (3G), четвертого поколения (4G), пятого поколения (5G), сети стандарта "Долгосрочное развитие" (LTE) и т.п., проводные телевизионные или беспроводные глобальные цифровые сети, включая кабельное телевидение, спутниковое телевидение и наземное широковещательное телевидение, автомобильные и промышленные, включая CAN-шину, и так далее. Некоторым сетям обычно требуются внешние сетевые интерфейсные адаптеры (1154), которые подключены к определенным портам данных общего назначения или периферийным шинам (1149) (например, к портам универсальной последовательной шины (USB) компьютерной системы 1000); другие обычно интегрированы в ядро компьютерной системы 1000 путем присоединения к системной шине, как описано ниже (например, интерфейс Ethernet в компьютерную систему ПК или интерфейс сотовой сети в компьютерную систему смартфона). Например, сеть 1055 может быть подключена к периферийной шине 1049 с использованием сетевого интерфейса 1054. Используя любую из этих сетей, компьютерная система 1000 может связываться с другими объектами. Такая связь может быть однонаправленной, только для приема (например, широковещательное телевидение), однонаправленной только для отправки (например, CAN-шина на определенные устройства с CAN-шиной) или двунаправленной, например, для других компьютерных систем, использующих локальную или глобальную цифровую сеть. В каждой из этих сетей и сетевых интерфейсов (1154) могут использоваться определенные протоколы и стеки протоколов, как описано выше.
[136] Вышеупомянутые устройства человеко-машинного интерфейса, доступные человеку устройства хранения и сетевые интерфейсы могут быть присоединены к ядру 1040 компьютерной системы 1000.
[137] Ядро (1040) может включать в себя один или более центральных процессоров (ЦП) (1041), графических процессоров (ГП) (1042), специализированных программируемых процессоров в виде программируемых пользователем вентильных матриц (ППВМ) (1043), аппаратных ускорителей (1044) для определенных задач и т. д. Эти устройства, наряду с постоянным запоминающим устройством (ПЗУ) 1045, оперативным запоминающим устройством (RAM) 1046, внутренним ЗУ большой емкости, таким как внутренние жесткие диски, недоступные пользователю, твердотельные накопители (SSD) и т. п. 1047, могут быть подключены через системную шину 1048. В некоторых компьютерных системах системная шина 1048 может быть доступна в виде одного или более физических разъемов для обеспечения возможности расширения за счет дополнительных ЦП, ГП и т. п. Периферийные устройства могут быть подключены либо непосредственно к системной шине 1048 ядра, либо через периферийную шину 1049. Архитектура периферийной шины включает соединение периферийных компонентов (PCI), USB и т.п.
[138] CPU 1041, GPU 1042, FPGA 1043 и ускорители 1044 могут выполнять определенные инструкции, которые в комбинации могут составлять вышеупомянутый компьютерный код. Этот компьютерный код может храниться в ROM 1045 или RAM 1046. Переходные данные также могут храниться в RAM 1046, тогда как постоянные данные могут храниться, например, во внутреннем ЗУ большой емкости 1047. Быстрое хранение и извлечение на любое из запоминающих устройств могут быть доступны посредством использования кэш-памяти, которая может быть тесно связана с одним или более CPU 1041, GPU 1042, ЗУ 1047 большой емкости, ROM 1045, RAM 1046 и т. п.
[139] Машиночитаемый носитель может содержать компьютерный код для выполнения различных операций, реализуемых компьютером. Носители и компьютерный код могут быть специально спроектированными и сконструированными для целей настоящего раскрытия, или они могут быть хорошо известными и доступными для специалистов в области компьютерного программного обеспечения.
[140] В качестве примера, а не ограничения, компьютерная система, имеющая архитектуру 1000 и, в частности, ядро 1040, может обеспечивать функциональность в результате наличия процессора(ов) (включая ЦП, ГП, ППВМ, ускорители и т. п.), выполняющего программное обеспечение, воплощенное на одном или нескольких материальных, машиночитаемых носителях. Такие машиночитаемые носители могут быть носителями, связанными с доступным для пользователя ЗУ большой емкости, как описано выше, а также определенными запоминающими устройствами ядра 1040, которые имеют невременную природу, такими как внутреннее ЗУ 1047 большой емкости или ПЗУ 1045. Программное обеспечение, реализующее различные варианты осуществления настоящего раскрытия, может храниться в таких устройствах и выполняться ядром 1040. Машиночитаемый носитель может включать в себя одно или более запоминающих устройств или микросхем в соответствии с конкретными потребностями. Программное обеспечение может побуждать ядро 1040 и, в частности, процессоры в нем (включая ЦП, ГП, ППВМ и т. п.) выполнять определенные процессы или определенные части конкретных процессов, описанных в данном документе, включая определение структур данных, хранящихся в ОЗУ 1046 и изменение таких структур данных в соответствии с процессами, определенными программным обеспечением. В дополнение или в качестве альтернативы, компьютерная система может обеспечивать функциональность в результате логики, встроенной в аппаратную схему или иным образом воплощенной в схеме (например, ускоритель 1044), которая может работать вместо или вместе с программным обеспечением для выполнения определенных процессов или отдельных частей конкретных процессов, описанных в данном документе. Ссылка на программное обеспечение может включать в себя логику и наоборот, где это применимо. Ссылка на машиночитаемый носитель может включать в себя схему (например, интегральную схему (ИС)), хранящую программное обеспечение для выполнения, схему, воплощающую логику для выполнения, или и то, и другое, где это применимо. Настоящее раскрытие включает в себя любую подходящую комбинацию аппаратного и программного обеспечения.
[141] Хотя это раскрытие описывает несколько примерных вариантов осуществления, существуют изменения, перестановки и различные заменяющие эквиваленты, которые попадают в объем раскрытия. Таким образом, будет принято во внимание, что специалисты в данной области техники смогут разработать многочисленные системы и способы, которые, хотя явно не показаны или не описаны здесь, воплощают принципы раскрытия и, таким образом, находятся в пределах его сущности и объема правовой охраны.
Claims (40)
1. Способ декодирования кодированного битового потока видео с использованием по меньшей мере одного процессора, включающий:
получение первого флага, указывающего, используется ли постоянный размер изображения в кодированной видеопоследовательности, включающей текущее изображение;
на основании первого флага, указывающего, что используется постоянный размер изображения, декодирование текущего изображения без выполнения передискретизации опорного изображения;
на основании первого флага, указывающего, что постоянный размер изображения не используется, получение второго флага, указывающего, сигнализируется ли размер окна соответствия;
на основании второго флага, указывающего, что размер окна соответствия сигнализируется:
получение размера окна соответствия,
определение коэффициента передискретизации между текущим изображением и опорным изображением на основании размера окна соответствия, и
выполнение передискретизации опорного изображения на текущем изображении с использованием коэффициента передискретизации.
2. Способ по п. 1, в котором размер окна соответствия сигнализируется как по меньшей мере одно расстояние смещения от границы текущего изображения.
3. Способ по п. 1, в котором первый флаг сигнализируется в наборе параметров последовательности (SPS), при этом второй флаг сигнализируется в одном из SPS и набора параметров изображения (PPS).
4. Способ по п. 3, в котором второй флаг сигнализируется в SPS и указывает, сигнализируются ли в SPS параметры окна соответствия SPS.
5. Способ по п. 4, в котором на основании второго флага, указывающего, что параметры окна соответствия SPS сигнализируются в SPS, размер окна соответствия получают на основании параметров окна соответствия SPS.
6. Способ по п. 4, дополнительно содержащий, на основании первого флага, указывающего, что размер изображения не является постоянным, получение третьего флага, указывающего, сигнализируются ли в PPS параметры окна соответствия PPS.
7. Способ по п. 6, в котором, на основании второго флага, указывающего, что параметры окна соответствия SPS сигнализируются в SPS, и третьего флага, указывающего, что параметры окна соответствия PPS не сигнализируются в PPS, размер окна соответствия получают на основании параметров окна соответствия SPS.
8. Способ по п. 6, в котором на основании второго флага, указывающего, что параметры окна соответствия SPS не сигнализируются в SPS, и третьего флага, указывающего, что параметры окна соответствия PPS сигнализируются в PPS, размер окна соответствия получают на основании параметров окна соответствия PPS.
9. Устройство для декодирования кодированного битового потока видео, при этом устройство содержит:
по меньшей мере один элемент памяти, сконфигурированный для хранения программного кода; и
по меньшей мере один процессор, сконфигурированный для считывания программного кода и работы в соответствии с инструкциями программного кода, причем программный код включает в себя:
первый код получения, сконфигурированный так, чтобы предписывать по меньшей мере одному процессору получать первый флаг, указывающий, используется ли постоянный размер изображения в кодированной видеопоследовательности, включающей в себя текущее изображение;
код декодирования, сконфигурированный так, чтобы предписывать по меньшей мере одному процессору, на основании первого флага, указывающего, что используется постоянный размер изображения, декодировать текущее изображение без выполнения передискретизации опорного изображения;
второй код получения, сконфигурированный так, чтобы предписывать по меньшей мере одному процессору, на основании первого флага, указывающего, что постоянный размер изображения не используется, получать второй флаг, указывающий, сигнализируется ли размер окна соответствия; и
код выполнения, сконфигурированный так, чтобы предписывать по меньшей мере одному процессору, на основании второго флага, указывающего, что размер окна соответствия сигнализируется, получать размер окна соответствия, определять коэффициент передискретизации между текущим изображением и опорным изображением на основании размера окна соответствия и выполнять передискретизацию опорного изображения на текущем изображении с использованием коэффициента передискретизации.
10. Устройство по п. 9, в котором размер окна соответствия сигнализируется как по меньшей мере одно расстояние смещения от границы текущего изображения.
11. Устройство по п. 9, в котором первый флаг сигнализируется в наборе параметров последовательности (SPS), при этом второй флаг сигнализируется в одном из SPS и набора параметров изображения (PPS).
12. Устройство по п. 11, в котором второй флаг сигнализируется в SPS и указывает, сигнализируются ли в SPS параметры окна соответствия SPS.
13. Устройство по п. 12, в котором на основании второго флага, указывающего, что параметры окна соответствия SPS сигнализируются в SPS, размер окна соответствия получают на основании параметров окна соответствия SPS.
14. Устройство по п. 12, в котором программный код дополнительно включает в себя третий код получения, сконфигурированный так, чтобы предписывать по меньшей мере одному процессору, на основании первого флага, указывающего, что размер изображения не является постоянным, получать третий флаг, указывающий, сигнализируются ли в PPS параметры окна соответствия PPS.
15. Устройство по п. 14, в котором, на основании второго флага, указывающего, что параметры окна соответствия SPS сигнализируются в SPS, и третьего флага, указывающего, что параметры окна соответствия PPS не сигнализируются в PPS, размер окна соответствия получают на основании параметров окна соответствия SPS.
16. Устройство по п. 14, в котором на основании второго флага, указывающего, что параметры окна соответствия SPS не сигнализируются в SPS, и третьего флага, указывающего, что параметры окна соответствия PPS сигнализируются в PPS, размер окна соответствия получают на основании параметров окна соответствия PPS.
17. Невременный машиночитаемый носитель, хранящий инструкции, содержащие: одну или более инструкций, которые при исполнении одним или более процессорами устройства для декодирования кодированного битового потока видео предписывают одному или более процессорам:
получать первый флаг, указывающий, используется ли постоянный размер изображения в кодированной видеопоследовательности, включающей текущее изображение;
на основании первого флага, указывающего, что используется постоянный размер изображения, декодировать текущее изображение без выполнения передискретизации опорного изображения;
на основании первого флага, указывающего, что постоянный размер изображения не используется, получать второй флаг, указывающий, сигнализируется ли размер окна соответствия;
на основании второго флага, указывающего, что размер окна соответствия сигнализируется:
получать размер окна соответствия,
определять коэффициент передискретизации между текущим изображением и опорным изображением на основании размера окна соответствия, и
выполнять передискретизацию опорного изображения на текущем изображении с использованием коэффициента передискретизации.
18. Носитель по п. 17, в котором первый флаг сигнализируется в наборе параметров последовательности (SPS), при этом второй флаг сигнализируется в одном из SPS и набора параметров изображения (PPS).
19. Носитель по п. 18, в котором второй флаг сигнализируется в SPS и указывает, сигнализируются ли в SPS параметры окна соответствия SPS.
20. Носитель по п. 19, в котором одна или более инструкций дополнительно предписывают по меньшей мере одному процессору на основании первого флага, указывающего, что размер изображения не является постоянным, получать третий флаг, указывающий, сигнализируются ли в PPS параметры окна соответствия PPS.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US62/903,601 | 2019-09-20 | ||
US17/009,979 | 2020-09-02 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2023109621A Division RU2815415C2 (ru) | 2019-09-20 | 2020-09-10 | Сигнализирование передискретизации опорного изображения с индикацией постоянного размера окна в битовом потоке видео |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2794483C1 true RU2794483C1 (ru) | 2023-04-19 |
Family
ID=
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2420915C2 (ru) * | 2006-01-06 | 2011-06-10 | Майкрософт Корпорейшн | Операции повторной дискретизации и изменения размера изображения для кодирования и декодирования видео с переменной разрешающей способностью |
RU2595966C1 (ru) * | 2012-09-27 | 2016-08-27 | Долби Лабораторис Лайсэнзин Корпорейшн | Обработка межуровневого эталонного изображения для масштабируемости стандартов кодирования |
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2420915C2 (ru) * | 2006-01-06 | 2011-06-10 | Майкрософт Корпорейшн | Операции повторной дискретизации и изменения размера изображения для кодирования и декодирования видео с переменной разрешающей способностью |
RU2595966C1 (ru) * | 2012-09-27 | 2016-08-27 | Долби Лабораторис Лайсэнзин Корпорейшн | Обработка межуровневого эталонного изображения для масштабируемости стандартов кодирования |
Non-Patent Citations (1)
Title |
---|
J. SAMUELSSON еt al, AHG 8: Adaptive Resolution Change (ARC) High-Level Syntax (HLS), Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11, JVET-O0204, 15th Meeting: Gothenburg, 3-12 July 2019. BENJAMIN BROSS et al, Versatile Video Coding (Draft 5), Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11, JVET-N1001-v8, 14th Meeting: Geneva, 19-27 Mar. 2019. STEPHAN WENGER еt al, AHG8: Signaling and Filtering for Reference Picture Resampling, Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11, JVET-O0332, 15th Meeting: Gothenburg, 3-12 July 2019. JIANLE CHEN еt al, AHG19: Adaptive resolution change (ARC) support in VVC, Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11, JVET-N0118-v1, 14th Meeting: Geneva, 19-27 March 2019. * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2023202122B2 (en) | Signaling of reference picture resampling with constant window size indication in video bitstream | |
AU2023203696B2 (en) | Method for reference picture resampling with offset in video bitstream | |
AU2023201466B2 (en) | Signaling of scalability parameters in video bitstream | |
AU2023203938B2 (en) | Signaling of reference picture resampling with resampling picture size indication in video bitstream | |
WO2021133452A1 (en) | Method for adaptation parameter set reference and constraints in coded video stream | |
RU2794483C1 (ru) | Сигнализирование передискретизации опорного изображения с индикацией постоянного размера окна в битовом потоке видео | |
RU2815415C2 (ru) | Сигнализирование передискретизации опорного изображения с индикацией постоянного размера окна в битовом потоке видео | |
RU2791938C1 (ru) | Передача межслойного предсказания в битовом потоке видео | |
RU2782247C1 (ru) | Сигнализация передискретизации опорного изображения с указанием размера передискретизированного изображения в битовом потоке видео | |
RU2806281C1 (ru) | Способ сигнализирования разделения субизображений в кодированном потоке видео | |
RU2783382C1 (ru) | Сигнализация межуровневого предсказания в битовом потоке видео | |
RU2799572C1 (ru) | Способ сигнализации набора выходных слоев с субизображением |