RU2726160C1 - Повторный синтез изображения, использующий прямое деформирование изображения, дискриминаторы пропусков и основанное на координатах реконструирование - Google Patents
Повторный синтез изображения, использующий прямое деформирование изображения, дискриминаторы пропусков и основанное на координатах реконструирование Download PDFInfo
- Publication number
- RU2726160C1 RU2726160C1 RU2019113117A RU2019113117A RU2726160C1 RU 2726160 C1 RU2726160 C1 RU 2726160C1 RU 2019113117 A RU2019113117 A RU 2019113117A RU 2019113117 A RU2019113117 A RU 2019113117A RU 2726160 C1 RU2726160 C1 RU 2726160C1
- Authority
- RU
- Russia
- Prior art keywords
- image
- texture
- deformation
- module
- pixel
- Prior art date
Links
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 58
- 230000015572 biosynthetic process Effects 0.000 title abstract description 6
- 238000000034 method Methods 0.000 claims description 50
- 238000013507 mapping Methods 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012546 transfer Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 230000007547 defect Effects 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 2
- 230000006872 improvement Effects 0.000 abstract description 2
- 239000000126 substance Substances 0.000 abstract 1
- 238000013459 approach Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 17
- 230000008569 process Effects 0.000 description 14
- 230000002860 competitive effect Effects 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000008921 facial expression Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000001308 synthesis method Methods 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
- H04N19/23—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with coding of regions that are present throughout a whole video segment, e.g. sprites, background or mosaic
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Изобретение относится к обработке изображений. Технический результат заключается в повышении точности повторного синтеза изображения на основании входного изображения. Система содержит модуль ввода исходного изображения, модуль прямого деформирования, выполненный с возможностью предсказания для каждого пиксела исходного изображения соответствующего положения в целевом изображении, причем модуль прямого деформирования выполнен с возможностью предсказания поля прямого деформирования, которое выровнено с исходным изображением, и модуль заполнения пропусков, выполненный с возможностью заполнения пропусков, являющихся результатом применения модуля прямого деформирования. 5 н. и 8 з.п. ф-лы, 7 ил.
Description
Область техники, к которой относится изобретение
Настоящее изобретение относится в общем к обработке изображений и более конкретно к повторному синтезу изображений для синтезирования новых видов (проекций) для человека или объекта на основе входного изображения с использованием методов машинного обучения.
уровень техники
В последнее время имеется растущий интерес к основанному на обучении повторному синтезу изображения. В этом контексте, задачей машинного обучения является обучение синтезу новых проекций, например, для человека или объекта определенного типа на основе одного или более входных изображений человека или объекта. В крайнем случае, доступна только одна входная проекция. В этом смысле, новая проекция соответствует новому положению камеры и/или новой позе тела человека. В повторном синтезе изображения, измеряют качество целевой проекции и не придают значения качеству промежуточного представления, которое часто неявно или явно соответствует модели сцены (например, 3D реконструкции). Оптимизация качества целевой проекции напрямую часто означает, что качество целевой проекции лучше, особенно когда моделирование сцены является сложным.
Различается несколько тенденций. Во-первых, решение сложной проблемы предсказания, которая сопровождает повторный синтез изображения, вызывает необходимость в глубоких сверточных сетях (ConvNets) (см. [15]). Во-вторых, многие решения из уровня техники избегают предсказания пиксельных значений непосредственно из высокоразмерного несверточного представления. Вместо этого, большинство архитектур прибегают к деформации некоторого рода внутри ConvNet (см., например, [5, 30, 20, 3, 23]). Общеизвестно, во многих случаях в уровне техники используется обратная деформация [13], при которой для каждого пиксела в целевом изображении предсказывается местоположение в исходном изображении, из которого пиксел будет скопирован. За процессом деформации часто следует постобработка, такая как коррекция яркости (см. [5]), или сети постобработки.
Ниже будут описаны некоторые подходы к проблемам, связанным с объективной технической задачей, решаемой настоящим изобретением.
Повторный синтез на основе деформирования. Существует заметный интерес к использованию глубоких сверточных сетей для формирования реалистичных изображений (см., например, [6]). Когда новые изображения формируются путем изменения геометрии и представления входных изображений, было показано, что использование модулей деформирования заметно улучшает качество повторно синтезированных изображений (см., например, [5, 30]). В этом случае модули деформирования основаны на дифференцируемом слое (обратного) решетчатого дискретизатора, который был впервые введен как часть сетей пространственного преобразователя (STN) (см., например, [13]).
Конкурентное реконструирование изображения. Также существуют решения из уровня техники, нацеленные на реконструирование изображения на основе глубоких сверточных сетей. Специальные варианты сверточных архитектур, адаптированных к наличию пропусков во входных данных, включают в себя сверточные нейронные сети Шепарда (Shepard) (см., например, [21]), инвариантные к разреженности сверточные сети (см., например, [25]), сети с частичными свертками (см., например, [17]), сети со стробированными свертками (см., например, [28]). Последний вариант также используется в подходе, который предложен в настоящем раскрытии.
Так как задачи реконструирования вызывают необходимость условного синтеза содержимого изображения, подходы из уровня техники к реконструированию основываются в значительной степени на вариантах генеративного конкурентного (состязательного) обучения (см., например, [6]). В частности, уровень техники предлагает использование пар дискриминаторов, которые фокусируются на дискриминации между реальными и поддельными примерами на двух различных шкалах (см., например, [16, 11, 28, 4]), где одна из шкал может соответствовать индивидуальным фрагментам (патчам) (напоминающим идею фрагмента GAN из [12]). Здесь, вводится новый тип дискриминатора, который имеет сходную архитектуру с некоторыми из локальных дискриминаторов и с фрагментом GAN, однако проводит различие между двумя различными классами пикселов (известными пикселами в поддельных изображениях по отношению к неизвестным пикселам, также в поддельных изображениях).
Фронтализация лица. Решения из уровня техники, которые концентрируются на повторном синтезе изображения (таком как формирование новых проекций и/или изменение поз (положений тел) для 3D объектов на основе одного входного фотографического изображения или множестве входных фотографических изображений), используют изображения лиц в качестве первичной области. Фронтализованная проекция лица может быть использована как нормализованное представление, чтобы упростить распознавание лица и повысить его качество. Некоторые решения из уровня техники используют обратный дискретизатор для этой задачи. Например, система HF-PIM, которая может рассматриваться в качестве наиболее типичного примера такого подхода, предсказывает цилиндрическую карту текстуры и поле обратного деформирования, требуемое для преобразования цилиндрической карты текстуры в фронтализованную лицевую проекцию. Результат деформирования затем уточняется другой сетью. Многие другие способы, которые в настоящее время рассматриваются как высокоэффективные, такие как CAPG-GAN (см., например, [9]) LB-GAN (см., например, [2]), CPF (см., например, [26]), FF-GAN (см., например, [27]), основаны на сетях кодера-декодера, непосредственно выполняющих желательное преобразование путем представления изображения в низко-размерном латентном пространстве. Дополнительно, сеть повторного синтеза обычно обучается в GAN, настроенном, чтобы создавать выходное представление лица реалистичным и препятствовать различного рода артефактам. Многие из этих способов используют дополнительную информацию, такую как ориентиры (см., например, [9, 29]), локальные фрагменты (см., например, [10]), 3D трансформируемую модель (3DMM, см., например, [1]), оценку (см., например, [27]). Такая дополнительная информация может затем использоваться, либо чтобы обусловить процесс повторного синтеза, либо чтобы сформулировать дополнительные потери путем измерения, до какой степени синтезированное изображение согласуется с доступной дополнительной информацией.
Основанный на деформировании повторный синтез всего тела. В уровне техники деформирование используется для синтеза новых проекций человека при условии одной входной проекции (см., например, [24, 23, 19]). Этот подход также использует плотную по положениям тела параметризацию (см., например, [8]) в сети для представления целевой позы человека на повторно синтезированном изображении.
Следует отметить, что все вышеупомянутые типы подходов из уровня техники к повторному синтезу изображения имеют определенные недостатки, и настоящее изобретение нацелено на устранение или по меньшей мере снижение по меньшей мере некоторых из недостатков уровня техники. В частности, недостатки доступных решений из уровня техники относятся к использованию обратного деформирования в повторном синтезе изображения, при котором, для каждого пиксела в целевом изображении, предсказывается местоположение в исходном изображении, из которого пиксел будет скопирован.
РАСКРЫТИЕ изобретения
Задача настоящего изобретения состоит в создании нового способа повторного синтеза изображения, который устраняет или по меньшей мере уменьшает все или по меньшей мере некоторые из вышеупомянутых недостатков существующих решений из уровня техники.
Технический результат, достигаемый настоящим изобретением, состоит в повышенной точности повторного синтеза изображения для синтезирования новых проекций человека или объекта на основе по меньшей мере одного входного изображения.
В одном аспекте, этот результат достигается системой повторного синтеза изображения, содержащей: модуль ввода исходного изображения; модуль прямого деформирования, выполненный с возможностью предсказания для каждого пиксела исходного изображения соответствующего положения в целевом изображении, причем модуль прямого деформирования выполнен с возможностью предсказания поля прямого деформирования, которое выровнено с исходным изображением; и модуль заполнения пропусков, выполненный с возможностью заполнения пропусков, являющихся результатом применения модуля прямого деформирования.
В варианте осуществления, модуль заполнения пропусков может дополнительно содержать модуль коррекции ошибок деформирования, выполненный с возможностью коррекции ошибок прямого деформирования в целевом изображении.
Система повторного синтеза изображения может дополнительно содержать архитектуру переноса текстуры, выполненную с возможностью: предсказания полей деформирования для исходного изображения и целевого изображения; отображения исходного изображения в пространство текстуры посредством прямого деформирования, восстановления пространства текстуры в полную текстуру; и отображения полную текстуру обратно в новое положение тела (позу) с использованием обратного деформирования.
Система повторного синтеза изображения может дополнительно содержать модуль извлечения текстуры, выполненный с возможностью извлечения текстуры из исходного изображения. По меньшей мере модуль прямого деформирования и модуль заполнения пропусков могут быть реализованы как глубокие сверточные нейронные сети.
В варианте осуществления, модуль заполнения пропусков может содержать реконструктор пропусков, причем реконструктор пропусков содержит: модуль назначения координат, выполненный с возможностью назначения каждому пикселу p=(x,y) входного изображения пары координат (u,v) текстуры в соответствии с фиксированным заданным отображением текстуры, чтобы обеспечить двухканальную карту значений x и y в системе координат текстуры; модуль завершения карты текстуры, выполненный с возможностью обеспечения завершенной карты текстуры, где для каждого пиксела (u,v) текстуры известен соответствующий пиксел (x[u,v],y[u,v]) изображения; модуль формирования окончательной текстуры, выполненный с возможностью формирования окончательной текстуры путем отображения значений изображения из положений (x[u,v],y[u,v]) на текстуру в положениях (u,v), чтобы обеспечивать завершенную цветную окончательную текстуру; модуль повторного отображения окончательной текстуры, выполненный с возможностью повторного отображения окончательной текстуры в новую проекцию путем обеспечения другого отображения из координат пикселов изображения на координаты текстуры.
По меньшей мере одна из глубоких сверточных сетей может быть обучена с использованием дискриминатора реального/поддельного изображения, выполненного с возможностью различения изображений истинных участков и реконструированных изображений. Система повторного синтеза изображения может дополнительно содержать модуль уточнения изображения, выполненный с возможностью коррекции дефектов выходного изображения.
В другом аспекте обеспечена система для обучения модуля заполнения пропусков, выполненного с возможностью заполнения пропусков как часть повторного синтеза изображения, причем система выполнена с возможностью обучения модуля заполнения пропусков параллельно и совместно с сетью дискриминатора пропусков, при этом сеть дискриминатора пропусков обучается предсказывать двоичную маску пропусков, а модуль заполнения пропусков обучается минимизировать точность сети дискриминатора пропусков.
В еще одном аспекте, изобретение относится к способу повторного синтеза изображения, содержащему этапы: ввода исходного изображения; предсказания, для каждого пиксела исходного изображения, соответствующего положения в целевом изображении, причем предсказывается поле прямого деформирования, которое выровнено с исходным изображением; предсказания двоичной маски пропусков, которые являются результатом прямого деформирования, заполнения пропусков на основе упомянутой двоичной маски пропусков путем формирования изображения текстуры посредством предсказания пары координат в исходном изображении для каждого пиксела в изображении текстуры; и отображения всей текстуры обратно в новое положение тела с использованием обратного деформирования.
В варианте осуществления, этап заполнения пропусков может содержать этапы: назначения каждому пикселу p=(x,y) входного изображения пары координат (u,v) текстуры в соответствии с фиксированным заданным отображением текстуры, чтобы обеспечить двухканальную карту значений x и y в системе координат текстуры; обеспечения карты завершенной текстуры, где для каждого пиксела (u,v) текстуры известен соответствующий пиксел (x[u,v],y[u,v]) изображения; формирования окончательной текстуры путем отображения значений изображения из положений (x[u,v],y[u,v]) на текстуру в положениях (u,v), чтобы обеспечить завершенную цветную окончательную текстуру; повторного отображения окончательной текстуры на новую проекцию путем обеспечения другого отображения из координат пикселов изображения на координаты текстуры.
В еще одном аспекте, изобретение обеспечивает способ обучения модуля заполнения пропусков, выполненного с возможностью заполнения пропусков как часть повторного синтеза изображения, причем способ содержит обучение модуля заполнения пропусков параллельно и совместно с сетью дискриминатора пропусков, при этом сеть дискриминатора пропусков обучается предсказывать двоичную маску пропусков, и модуль заполнения пропусков обучается минимизировать точность сети дискриминатора пропусков.
В еще одном аспекте, обеспечен компьютерный программный продукт, содержащий компьютерный программный код, который, при исполнении одним или более процессорами, побуждает один или более процессоров реализовывать способ второго вышеупомянутого аспекта.
В еще одном аспекте обеспечен постоянный машиночитаемый носитель, имеющий сохраненный на нем компьютерный программный продукт в соответствии с вышеупомянутым аспектом.
На основании изучения и понимания нижеприведённого описания специалистам в данной области техники должно быть понятно, что заявленное изобретение также может принимать другие формы. Различные этапы способа и компоненты системы могут быть реализованы аппаратными средствами, программным обеспечением и встроенным программным обеспечением или любым их подходящим сочетанием.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Вслед за кратким описанием изобретения, представленным выше, ниже приведено подробное описание принципов изобретения в качестве примера и со ссылкой на приложенные чертежи, которые приведены лишь в качестве иллюстрации и не предназначены для ограничения объема заявленного изобретения или определения его существенных признаков. На чертежах:
Фиг. 1 показывает различие между прямым и обратным деформированием, поясняемое с точки зрения задачи фронтализации лица;
Фиг. 2 иллюстрирует процесс машинного обучения для реконструирования с дискриминаторами пропусков в соответствии с вариантом осуществления настоящего изобретение;
Фиг. 3 иллюстрирует процесс фронтализации лица посредством прямого деформирования в соответствии с вариантом осуществления настоящего изобретения;
Фиг. 4 иллюстрирует архитектуру переноса текстуры в соответствии с вариантом осуществления настоящего изобретения;
Фиг. 5 иллюстрирует процесс завершения текстуры для повторного синтеза нового положения тела (позы) в соответствии с вариантом осуществления настоящего изобретения;
Фиг. 6 иллюстрирует процесс повторного синтеза всего тела с использованием основанного на координатах реконструирования текстуры в соответствии с вариантом осуществления настоящего изобретения.
Фиг. 7 показывает блок-схему способа повторного синтеза изображения в соответствии с вариантом осуществления настоящего изобретения.
ОСУЩЕСТВЛЕНИЕ изобретения
Настоящее подробное описание приведено, чтобы способствовать пониманию сущности изобретения. Следует отметить, что описание направлено на примерные варианты осуществления изобретения, и на основании тщательного изучения описания со ссылкой на приложенные чертежи специалистом в данной области техники могут быть выполнены другие модификации, варианты и эквивалентные замены в описанном объекте изобретения. Все такие очевидные модификации, варианты и эквиваленты предполагаются входящими в объем заявленного изобретения. Никакие ссылочные позиции или условные обозначения, указанные в этом подробном описании, а также в приложенной формуле изобретения не предназначены для ограничения или определения объема заявленного изобретения каким-либо образом.
Настоящее изобретение предлагает новый подход для повторного синтеза изображения на основе по меньшей мере одного входного изображения. Способы и системы согласно изобретению основаны на различных нейронных сетях с возможностью обучения на различных наборах данных, таких как глубокие нейронные сети. Специалисту в данной области техники может быть понятно, что реализации настоящего изобретения не ограничены нейронными сетями, конкретно описанными в настоящем документе, но могут быть осуществлены с использованием других типов сетей, которые могут быть пригодными для данной задачи в пределах контекста настоящего изобретения. Нейронные сети, пригодные для реализации настоящих изобретений, могут быть реализованы материальными и техническими средствами, хорошо известными специалистам в данной области техники, например, но без ограничения указанным, одним или более процессорами, универсальными или специализированными компьютерами, графическими процессорами (GPU) и т.д., управляемыми одной или более компьютерными программами, элементами компьютерных программ, программным кодом и т.д., для реализации методологий согласно изобретению, описанных ниже.
Во-первых, заявленное изобретение будет описано с точки зрения одной или более моделей машинного обучения на основе глубоких сверточных нейронных сетей, предварительно обученных или обучаемых для выполнения конкретной обработки, результатом которой является повторный синтез изображения для синтезирования новых проекций человека или объекта на основе на основе по меньшей мере одного входного изображения.
В итоге, предложенный подход основан на двух вкладах по сравнению с уровнем техники. В качестве первого вклада, предлагается архитектура повторного синтеза на основе прямого деформирования. Процесс деформирования, используемый внутри стадий деформирования согласно подходам из уровня техники, описанным выше, переработан, в частности, путем замены обратного деформирования, широко использовавшегося в уровне техники, на прямое деформирование, обеспечиваемое модулем, который предсказывает соответствующее положение в целевом изображении для каждого пиксела исходного изображения. Изобретателями было обнаружено, что предсказание поля прямого деформирования из исходного изображения является более простой задачей, поскольку поле прямого деформирования выровнено с исходным изображением. Это кардинально отличается от поля обратного деформирования, которое пространственно выровнено с целевым изображением и не является пространственно выровненным с исходным изображением. Наличие пространственного выравнивания между исходным изображением и полем прямого деформирования делает отображение предсказания более простым для обучения для сверточной архитектуры.
Однако результаты прямого деформирования содержат пропуски, которые необходимо заполнить. Большинство решений из уровня техники подходят к проблеме реконструирования пропусков с использованием конкурентных (состязательных) архитектур. Таким образом, вторым вкладом предложенного изобретения является новый тип дискриминатора пропусков, который является специфическим для задач реконструирования. Дискриминаторы пропусков обучаются только на «поддельных» (т.е. реконструированных) изображениях и не требуют «реальных» изображений. Для каждого поддельного изображения, дискриминатор пропусков обучается предсказывать двоичную маску пропусков, которые были введены в сеть реконструирования. В результате, обучение по отношению к дискриминатору пропусков побуждает сети реконструирования заполнять пропуски таким способом, который делает пропуски неразличимыми.
Оба предложенных вклада в уровень техники не являются независимыми, а дополняют друг друга, образуя новый подход к повторному синтезу, который оценивался авторами изобретения для различных задач, таких как фронтализация лица и повторный синтез всего тела.
Также предложена новая методология для повторного синтеза всего тела. В этой методологии, координаты текстуры тела оцениваются с использованием так называемого метода DensePose (плотного (по всем пикселам) оценивания позы (положения тела)). Текстура заполняется (завершается) с использованием глубокой сверточной сети. Глубокая сверточная сеть может даже использоваться, чтобы предсказывать цвет неизвестных пикселов. В качестве альтернативы, используется глубокая сеть, которая предсказывает для каждого пиксела в изображении текстуры пару координат в исходном изображении (основанное на координатах реконструирование). Последняя схема (основанное на координатах реконструирование) дает намного более резкую текстуру. Завершенная текстура используется для формирования новой проекции полного тела (позы), заданного координатами поверхности тела для каждого пиксела переднего плана в целевом изображении. Опционально, другая глубокая сеть может использоваться для формирования окончательного целевого изображения, принимая сформированное изображение с наложенной текстурой и некоторые другие изображения в качестве входа.
В соответствии с первым аспектом, настоящее изобретение обеспечивает систему 100 повторного синтеза изображения, содержащую:
модуль 110 ввода исходного изображения;
модуль 120 прямого деформирования;
модуль 130 заполнения пропусков.
Модуль 130 заполнения пропусков дополнительно содержит модуль 131 коррекции ошибок деформирования, выполненный с возможностью коррекции ошибок прямого деформирования в целевом изображении. Модуль 120 прямого деформирования выполнен с возможностью предсказания для каждого пиксела исходного изображения соответствующего положения в целевом изображении, причем модуль прямого деформирования выполнен с возможностью предсказания поля прямого деформирования, которое выровнено с исходным изображением. Модуль 130 заполнения пропусков выполнен с возможностью заполнения пропусков, являющихся результатом применения модуля 120 прямого деформирования.
В варианте осуществления, система 100 повторного синтеза изображения дополнительно содержит архитектуру 150 переноса текстуры, выполненную с возможностью: предсказания полей деформирования для исходного изображения и целевого изображения; отображения исходного изображение в пространство текстуры посредством прямого деформирования, восстановления пространства текстуры в полную текстуру; и отображения полной текстуры обратно на новую позу с использованием обратного деформирования.
В примерном варианте осуществления, система 100 повторного синтеза изображения дополнительно содержит модуль 160 извлечения текстуры, выполненный с возможностью извлечения текстуры из исходного изображения. По меньшей мере модуль 120 прямого деформирования и модуль 130 заполнения пропусков могут быть реализованы как глубокие сверточные сети. По меньшей мере одна из этих глубоких сверточных сетей обучается с использованием дискриминатора реального/поддельного изображения, выполненного с возможностью различения изображений истинных участков и реконструированных изображений.
В варианте осуществления, модуль 130 заполнения пропусков содержит реконструктор 132 пропусков, который, в свою очередь, может содержать по меньшей мере одно из:
модуля 1321 назначения координат, выполненного с возможностью назначения каждому пикселу p=(x,y) входного изображения пары координат (u,v) текстуры в соответствии с фиксированным заданным отображением текстуры, чтобы обеспечить двухканальную карту значений x и y в системе координат текстуры;
модуля 1322 завершения карты текстуры, выполненного с возможностью обеспечения завершенной карты текстуры, где для каждого пиксела (u,v) текстуры известен соответствующий пиксел (x[u,v],y[u,v]) изображения;
модуля 1323 формирования окончательной текстуры, выполненного с возможностью формирования окончательной текстуры путем отображения значений изображения из положений (x[u,v],y[u,v]) на текстуру в положениях (u,v), чтобы обеспечить полную цветную окончательную текстуру;
модуля 1342 повторного отображения окончательной текстуры, выполненного с возможностью повторного отображения окончательной текстуры на новую проекцию путем обеспечения другого отображения из координат пикселов изображения в координаты текстуры.
В варианте осуществления, система 100 повторного синтеза изображения дополнительно содержит модуль 170 уточнения изображения, выполненный с возможностью коррекции дефектов выходного изображения.
В другом аспекте настоящего изобретения, обеспечена система 200 для обучения модуля 130 заполнения пропусков. Система 200 выполнена с возможностью обучения модуля заполнения пропусков параллельно и совместно с сетью 210 дискриминатора пропусков, при этом сеть дискриминатора пропусков 210 обучается предсказывать двоичную маску пропусков, и модуль 130 заполнения пропусков обучается минимизировать точность сети 210 дискриминатора пропусков.
Со ссылкой на фиг. 7, в еще одном аспекте настоящее изобретение относится к способу 300 повторного синтеза изображения, содержащему этапы:
ввода исходного изображения (S310);
предсказания для каждого пиксела исходного изображения соответствующего положения в целевом изображении (S320), причем предсказывается поле прямого деформирования, которое выровнено с исходным изображением;
предсказания двоичной маски пропусков, являющихся результатом прямого деформирования (S330),
заполнения пропусков (S340) на основе упомянутой двоичной маски пропусков путем формирования изображения текстуры посредством предсказания пары координат в исходном изображении для каждого пиксела в изображении текстуры; и
отображения полной текстуры обратно на новую позу с использованием обратного деформирования (S350).
В примерном варианте осуществления, этап заполнения пропусков (340) содержит этапы:
назначения (S341), каждому пикселу p=(x,y) входного изображения, пары координат (u,v) текстуры в соответствии с фиксированным заданным отображением текстуры, чтобы обеспечить двухканальную карту значений x и y в системе координат текстуры;
обеспечения (S342) завершенной карты текстуры, где для каждого пиксела (u,v) текстуры известен соответствующий пиксел (x[u,v],y[u,v]) изображения;
формирования (S343) окончательной текстуры путем отображения значений изображения из положений (x[u,v],y[u,v]) на текстуру в положениях (u,v), чтобы обеспечить завершенную цветную окончательную текстуру;
повторного отображения (S344) окончательной текстуры на новую проекцию путем обеспечения другого отображения из координат пикселов изображения в координаты текстуры.
Также предложен компьютерный программный продукт 400, содержащий компьютерный программный код 410, который, при исполнении одним или более процессорами, побуждает один или более процессоров реализовывать способ в соответствии с предыдущим аспектом. Компьютерный программный продукт 400 может быть сохранен на постоянном машиночитаемом носителе 500.
Со ссылкой далее на фиг. 1, иллюстрируется различие между прямым и обратным деформированием, поясняемое с точки зрения задачи фронтализации лица. В обеих схемах, предсказывается поле деформирования (низ; оттенок=направление, насыщение=величина) из входного изображения (верхнее), и применяется деформирование (справа). В случае прямого деформирования, входное изображение и предсказанное поле выровнены (например, движение кончика носа предсказывается в положении кончика носа). Напротив, в случае обратного деформирования, входное изображение и поле деформирования не выровнены. Методология прямого деформирования в контексте настоящего изобретения будет описана далее более детально.
Специалист в данной области техники может легко понять, что методология, описанная ниже, адаптирована для выполнения глубокими сверточными нейронными сетями, которые могут реализовать элементы системы 100 повторного синтеза изображения согласно изобретению и этапы способа 300 повторного синтеза изображения, как упомянуто выше. Подробное описание методологии, приведённое ниже со ссылкой на математические операции и соотношения между различными элементами данных, может основываться на соответствующих функциях, а не на конкретных элементах системы 100 или способа 300, как описано выше, и в таких случаях специалист в данной области техники может легко получить связи между упомянутыми элементами системы и/или этапами способа, с одной стороны, и соответствующими функциями, упомянутыми ниже, с другой стороны, без необходимости жесткого ограничения объема различных путей реализации упомянутых функций конкретной связью между каждой функцией и соответствующим элементом системы и/или этапом способа. Элементы системы и/или этапы способа, реализуемые глубокими сверточными нейронными сетями, подразумеваются иллюстративными и неограничительными в контексте реализации подхода к повторному синтезу изображения согласно изобретению, как подробно описано ниже.
Повторный синтез путем прямого деформирования
Допустим, что x является исходным изображением и y является целевым изображением, и допустим, что x[p,q] обозначает элемент изображения (выборку) в целочисленном местоположении (p, q) (которое может быть, например, RGB значением). Пусть w[p, q]=(u[p, q], v[p, q]) является полем деформирования. Часто, это поле деформирования будет предсказываться из x посредством сверточной сети , где является вектором некоторых обучаемых параметров, которые обучаются на определенном наборе данных.
Стандартный подход к основанному на деформировании повторному синтезу изображений использует деформирование, чтобы деформировать исходное изображение x в целевое изображение y:
где дискретизация в дробных положениях определена билинейно. Более формально, результат обратного деформирования определен как:
где билинейное ядро K определено следующим образом:
так что для каждого (p, q) суммирование в (2) выполняется по i =
Методология обратного деформирования первоначально была реализована для глубокого распознавания изображения (см., например, [13]) и была позже широко использована для глубокого повторного синтеза изображения (см., например, [5, 30, 20, 3, 23]), став стандартным слоем в пакетах глубокого обучения. Было обнаружено, что, для задач повторного синтеза со значительными геометрическими преобразованиями, использование слоев обратного деформирования обеспечило значительное улучшение в качестве и возможности обобщения по сравнению с архитектурами с повторным синтезом, использующим одни только сверточные слои (см., например, [3]).
Однако обратное деформирование ограничено отсутствием выравнивания между исходным изображением и полем деформирования. Фактически, как можно видеть из выражения (1), представленного выше, вектор , предсказанный сетью для пиксела (p, q), определяет движение для части объекта, которая первоначально проецировалась на пиксел . Например, рассмотрим задачу фронтализации лица, где желательно, чтобы сеть предсказывала поле деформации фронтализации при заданном входном изображении, содержащем нефронтальное изображение лица. Предположим, что положение (p, q) в начальном изображении соответствует кончику носа, в то время как для фронтализованного лица то же самое положение соответствует центру правой щеки. Когда обратное деформирование используется для повторного синтеза, предсказание сети для положения (p, q) должно содержать фронтализующее движение центра правой щеки. В то же время, рецептивное поле выходного блока сети при (p, q) во входном изображении соответствует кончику носа. Таким образом, сеть должна предсказывать движение щеки при наблюдении появления фрагмента, центрированного на носу (см., фиг. 1). Если фронтализующее движение мало, такое рассогласование может быть обработано достаточно глубокой сверточной архитектурой с достаточно большими рецептивными полями. Однако, когда движения становятся большими, такое отображение становится прогрессивно более трудным для обучения для сверточной архитектуры.
Поэтому прямое деформирование, выполняемое модулем прямого деформирования, используется в архитектурах повторного синтеза в соответствии с настоящим изобретением вместо обратного деформирования. Операция прямого деформирования определена так, что следующее равенство выполняется приближенно для выходного изображения yfw:
Таким образом, в случае прямого деформирования, вектор деформации в пикселе [p, q] определяет движение этого пиксела. Чтобы реализовать прямое деформирование, билинейное ядро используется для растеризации исходных пикселов на целевое изображение следующим способом. Во-первых, все вклады от всех пикселов агрегируются с использованием сверточного ядра в карту а агрегатора:
Одновременно, общий вес всех вкладов в каждый пиксел накапливается в отдельном агрегаторе w:
Наконец, значение в пикселе определяется путем нормализации:
где малая константа предотвращает численные нестабильности. Формально, для каждого целевого положения (i, j) суммирование в (5) и (6) пробегает по всем исходным пикселам (p, q). Однако, поскольку для каждого исходного пиксела (p, q) билинейное ядро принимает ненулевые значения только в цетырех положенниях в целевом изображении, вышеуказанное суммирование может быть вычислено эффективным образом с использованием одного прохода по пикселам исходного изображения. Отметим, что подобные методы используются для частичных сверток (см., например, [17]). Так как операции (5)-(7) являются кусочно-дифференцируемыми по отношению к входному изображению x и полю деформирования (u, v), можно обратно распространить градиенты посредством операции прямого деформирования при обучении сверточной сети.
Основное преимущество прямого деформирования над обратным деформированием состоит в том, что входное изображение и предсказанное поле деформирования выравниваются в случае прямого деформирования, так как предсказание сети в пикселе (p, q) теперь соответствует 2D движению части объекта, которая проецируется на (p, q) во входном изображении. В примере фронтализации, показанном выше, сверточная сеть должна предсказывать фронтализирующее движение кончика носа, на основе рецептивного поля, центрированного на кончике носа. Это отображение легче обучить для сверточной сети, чем в случае обратного деформирования, и этот эффект был экспериментально продемонстрирован.
Однако, с другой стороны, в большинстве ситуаций, выход yfw операции прямого деформирования содержит ряд пустых пикселов, на которые не отражались никакие исходные пикселы. Двоичная маска пикселов, которые являются непустыми, обозначается m, i.e. m[i,j]=[w[i,j]>0]. Следующая стадия реконструирования тогда необходима для заполнения таких пропусков.
Фиг. 2 иллюстрирует процесс обучения нейронной сети, чтобы выполнять реконструирование пропусков с использованием дискриминаторов пропусков. Авторы настоящего изобретения обучали сеть реконструирования для заполнения пропусков во входном изображении (где известные пикселы определяются маской) с минимизацией потери реконструкции относительно ʺучастка истинностиʺ (ʺground truthʺ - информация, полученная непосредственным наблюдением, в противоположность выведенной информации). Параллельно, сеть сегментации (также упомянутая здесь как дискриминатор пропусков) обучалась предсказывать маску из результата операции заполнения с минимизацией потери предсказания маски. Сеть реконструирования обучалась на конкурентной основе к сети дискриминатора пропусков путем максимизации потери предсказания маски, что обуславливало то, что заполненные части в реконструированном изображении были неразличимы от исходных частей.
Процесс ʺреконструированияʺ пропусков, вытекающий из предыдущей стадии прямого деформирования, будет описан далее более детально, для иллюстрации, но не ограничения.
Реконструирование с дискриминаторами пропусков
Функция завершения изображения с обучаемыми параметрами отображает изображение yfw и маску m на завершенное (реконструированное) изображение yinp:
Использование глубоких сетей со стробируемыми свертками для обработки задач реконструирования было экспериментально подтверждено как эффективное в обеспечении хороших архитектур для реконструирования пропусков, являющихся результатом деформирования в процессе повторного синтеза изображения. Независимо от архитектуры , выбор функции потерь для ее обучения играет решающую роль. Наиболее часто, обучение выполняется в контролируемой настройке, которая предусматривает обеспечение набора данных завершенных изображений, проектирование случайного процесса, который закрывает части этих изображений, и обучение сети, чтобы реверсировать этот случайный процесс. Минимизация последующих потерь затем выполняется во время обучения:
где i производит итерацию по обучающим примерам, и обозначает завершенные изображения. Норма в выражении (9) может быть выбрана как L1 норма (т.е. сумма абсолютных разностей по каждой координате) или как более сложные перцепционные потери, основанные не на разностях между пикселами, а на разностях между представлениями высокого уровня признаков изображения, извлеченными из предварительно обученной сверточной нейронной сети (см., например, [14]).
Когда пустые пикселы формируют большие непрерывные пропуски, результаты обучения с пиксельными или перцепционными потерями обычно являются субоптимальными и испытывают недостаток в достоверной крупномасштабной структуре вследствие внутренне присущей мульти-модальности задачи. Использование конкурентного обучения (см., например, [6]) дает значительную поддержку в этом случае. Конкурентное обучение обучает отдельную сеть классификации параллельно с сетью . Цель обучения для состоит в дискриминации между реконструированными и исходными (неискаженными) изображениями:
Цель обучения для затем расширяется отдельным условием, которое измеряет вероятность дискриминатора, чтобы классифицировать реконструированное изображение как реальное:
Подходы из уровня техники к конкурентному реконструированию предлагают использование двух дискриминаторов, основанных на том же самом принципе, но сфокусированных на разных частях изображений. Один из них, упоминаемый как глобальный дискриминатор, фокусируется на полном изображении, в то время как другой, локальный дискриминатор, фокусируется на наиболее важной части, например, в непосредственной близости от пропуска или центральной части лица (см., например, [4]).
Настоящее изобретение предлагает использование другого рода дискриминаторов (упоминаемых здесь как дискриминаторы пропусков) для задач реконструирования пропуска. Авторами настоящего изобретения было обнаружено, что люди имеют тенденцию судить об успехе операции реконструирования по их (не)способности идентифицировать области пропуска в реконструированном изображении. Интересно, что люди не нуждаются в том, чтобы знать некоторого рода ʺистинный участокʺ для такого суждения. Чтобы имитировать эту идею, дискриминатор пропуска обучается предсказывать маску m из реконструированного изображения путем минимизации взвешенных потерь кросс-энтропии для двоичной сегментации:
Здесь, (⋅) обозначает поэлементное произведение (суммирование по всем пикселам) и |m| обозначает число ненулевых пикселов в маске m. По мере развития обучения дискриминатора пропусков, сеть реконструирования обучается, чтобы запутывать дискриминатор пропусков путем максимизации тех же самых потерь кросс-энтропии (12) (таким образом, реализуя игру с нулевой суммой). Новые потери могут использоваться параллельно ʺтрадиционнымʺ конкурентным потерям (11), а также любым другим потерям. Предложенные новые потери применимы к любой проблеме реконструирования/завершения, не обязательно в связи с прямым деформированием.
Обучение с незавершенным истинным участком. В некоторых ситуациях, таких как задачи реконструирования текстуры, завершенные изображения истинного участка недоступны. Вместо этого, каждое изображение истинного участка поступает с двоичной маской известных пикселов. Эта маска должна отличаться от входной маски (иначе, процесс обучения может сходиться к тривиальному решению идентичности для сети реконструирования). В таких ситуациях, потери, характеризуемые приведенными выше выражениями (9)-(11), адаптируются так, что и заменяются на и , соответственно. Интересно, что новые конкурентные потери не учитывают завершенные изображения истинных участков. Поэтому, даже когда завершенные изображения истинных участков недоступны, потери, характеризуемые в выражении (12) выше, могут все еще применяться без модификации (как для обучения дискриминатора пропусков, так и для обучения сети реконструирования).
Фиг. 3 показывает пример фронтализации лица посредством прямого деформирования в соответствии с по меньшей мере одним вариантом осуществления настоящего изобретения. В этом примере, алгоритм, обученный на 80% случайных выборок из набора данных Multi-PIE, визуально оценивался на основе двух случайно выбранных объектов из контрольного участка. Каждая входной фотоснимок (1-ый ряд на фиг. 3) независимо проходил через регрессор поля деформации, дающий в результате деформированное изображение (2-ой ряд на фиг. 3), и затем через реконструктор, дающий в результате реконструированное изображение с заполненными пропусками и скорректированными ошибками деформирования (3-ий ряд).
Фиг. 4 иллюстрирует пример архитектуры переноса текстуры в соответствии с по меньшей мере одним вариантом осуществления настоящего изобретения. Архитектура переноса текстуры предсказывает поля деформирования как для исходного, так и для целевого изображений. Затем, после отображения исходного изображение в пространство текстуры через прямое деформирование, оно восстанавливается до полной текстуры и затем отображается обратно на новую позу с использованием обратного деформирования, результат которого затем уточняется. На фиг. 4, 0F и 0в являются прямым и обратным деформированием, соответственно, в то время как WF и WF являются предсказанным и относящимся к истинному участку densepose полями деформирования.
Фиг. 5 иллюстрирует пример завершения текстуры для задачи повторного синтеза новой позы в соответствии с по меньшей мере одним вариантом осуществления настоящего изобретения. Текстура извлекается из входного изображения человека (первый столбец на фиг. 5). Затем она реконструируется с помощью глубокой сверточной сети. Третий столбец на фиг. 5 показывает результат реконструирования с помощью сети, обученной без дискриминатора пропусков. Добавление дискриминатора пропусков (четвертый столбец на фиг. 5) дает более отчетливые и более достоверные результаты в реконструированных областях. Результирующие текстуры затем накладываются на изображение человека, наблюдаемого в новой позе (столбцы пять и шесть на фиг. 5, соответственно). Последний столбец на фиг. 5 показывает изображение истинного участка для человека в новой позе.
Фиг. 6 иллюстрирует пример повторного синтеза всего тела с использованием основанного на координатах реконструирования текстуры. Входное изображение A используется для формирования изображения В текстуры. Применяется основанное на координатах реконструирование, которое предсказывает координаты пикселов в исходном изображении для каждого изображения текстуры. Результат показан в изображении C, где пикселы цвета текстуры дискретизированы из исходного изображения в предписанных координатах. Изображение человека в новой позе (целевое изображение) синтезируется взятием предписанных координат текстуры для пикселов целевого изображения и переноса цветов из текстуры (изображение D). Наконец, отдельная глубокая сеть уточнения трансформирует изображение в новое изображение (изображение E). Изображение F показывает истинное изображение человека в новой позе.
Сквозное обучение
Поскольку сети как прямого деформирования, так и реконструирования являются дифференцируемыми сквозным образом (т.е. частные производные любой функции потерь по отношению к параметрам всех слоев, включая слои перед модулем прямого деформирования и слои с сетью реконструирования, могут быть вычислены с использованием процесса обратного распространения), объединенная система (прямого деформирования и реконструирования) может быть обучена сквозным образом, при применении дискриминатора пропусков, чтобы пытаться предсказывать местоположения пропусков, являющихся результатом процесса прямого деформирования, для объединенной сети.
Основанное на координатах реконструирование
Целью основанного на координатах реконструирования является завершить текстуру, например, человека, представленного на изображении, на основе частей упомянутой текстуры, извлеченных из исходного изображения. Более конкретно, начиная с исходного изображения, выполняются следующие этапы:
1. Запускают предварительно обученную глубокую нейронную сеть, которая назначает, каждому пикселу p=(x,y) входного изображения, пару координат (u,v) текстуры в соответствии с фиксированным заданным отображением текстуры. В результате, поднабору пикселов текстуры назначаются координаты пикселов, результатом чего является двухканальная карта значений x и y в системе координат текстуры с большим числом пикселов текстуры, для которых это отображение неизвестно.
2. В качестве следующего этапа, запускают вторую глубокую сверточную нейронную сеть h с обучаемыми параметрами μ, так что x- и y-карты завершаются, результатом чего является карта завершенной текстуры, где для каждого пиксела (u,v) текстуры известен соответствующий пиксел (x[u,v],y[u,v]) изображения.
3. Окончательную текстуру получают взятием значений изображения (например, в красном, зеленом и синем каналах) в положении (x[u,v],y[u,v]) и помещением их на текстуру в положении (u,v), результатом чего является завершенная цветовая текстура.
4. После того как завершенная текстура получена, она используется для текстурирования новой проекции человека в другой позе, для чего обеспечивается другое отображение из координат пикселов изображения в координаты текстуры.
Параметры μ могут быть дополнительно оптимизированы, так что последовательность этапов 1-4, описанных выше, формирует близкое соответствие с вторым изображением в паре, когда первое изображение пары использовалось для создания текстуры. Любые стандартные потери (например, попиксельные, перцепционные) могут быть использованы, чтобы измерять степень близости. Дискриминатор пропусков может быть добавлен к обучению сети завершения текстуры.
Наконец, отдельная сеть уточнения может быть использована, чтобы трансформировать повторно текстурированное изображение, полученное в последовательности этапов 1-4, чтобы улучшить визуальное качество. Эта сеть уточнения может обучаться отдельно или совместно с сетью завершения текстуры.
Далее представлены некоторые примеры практической реализации подходов согласно изобретению в качестве иллюстрации, но не ограничения. Подход согласно изобретению на основе прямого деформирования с последующей сетью реконструирования, обучаемой с дискриминаторами пропусков, применяется к множеству задач с различными уровнями сложности.
Фронтализация лица
В качестве первой задачи, рассматривается подход фронтализации лица, который предназначается, чтобы деформировать изображение не-фронтально ориентированного лица во фронтализованное, при сохранении идентичности, выражения лица и освещения. Способ обучается и оценивается на наборе данных Multi-PIE, что описано, например, в [7], причем набор данных Multi-PIE представляет собой набор данных более чем 750000 изображений верхней части тела 337 людей, изображения которых были получены для четырех сессий с изменяющимися (и известными) проекциями, условиями освещения и выражениями лиц. Использовалась сформированная как U-Net (см., например, [22]) архитектура (N сверточных слоев, N для прямого деформирования, и архитектура типа песочных часов для сети реконструирования).
Поворот лица и верхней части тела
Для поворота лица методология согласно изобретению обучалась и оценивалась на наборе данных Multi-PIE (см., например, [7]). Для каждого субъекта несколькими камерами было одновременно снято 15 проекций, 13 из которых были размещены вокруг субъекта с регулярными интервалами 15°, в диапазоне от -90° до 90°, в той же самой горизонтальной плоскости, и 2 на поднятом уровне. Каждая коллекция из множества проекций была снята при 19 различных условиях освещения, до 4 сессий и 4 выражений лица. В экспериментах использовалось только 13 камер, размещенных вокруг субъекта в той же самой горизонтальной плоскости. В экспериментах для верхней части туловища, использовались необработанные (исходные) изображения, в то время как в экспериментах для лиц использовался детектор лица MTCNN, чтобы находить граничную рамку лица и кадрировать ее с промежутком 10 пикселов. 128×128 было стандартным разрешением для эксперимента, и все изображения в итоге изменялись по размерам до этого разрешения перед входом в обучающий алгоритм. Фронтализация рассматривается как наиболее важный частный случай задачи поворота в экспериментах.
Предложенный конвейер повторного синтеза изображения состоит из двух больших частей: регрессор поля деформации, реализованный в форме модуля прямого деформирования, и реконструктор, реализованный в форме модуля заполнения пропусков. Регрессор поля деформации является сверточной сетью (ConvNet) с обучаемыми параметрами , которая следует архитектуре U-Net (см., например, [22]). Обеспечено входное изображение (и два дополнительных массива meshgrid (ячеистой решетки), кодирующих строки и столбцы пикселов), и ConvNet формирует поле смещений, закодированное двумя 2D массивами . Это поле затем трансформируется в поле прямой деформации путем простого суммирования и подается на прямой решетчатый дискретизатор. В описываемом случае, кодирует движение пиксела (p,q) на входном изображении. Отметим, однако, что так же самая конструкция могла бы потенциально использоваться для регрессии поля обратной деформации, если дополнительно применяется обратный дискретизатор.
Вторая часть, реконструктор, является сетью с обучаемыми параметрами также на основе архитектуры U-Net (хотя и без связей пропуска) со всеми свертками, замененными на стробированные свертки. Они являются аттентивными слоями, впервые предложенными в [28], чтобы эффективно обрабатывать сложные задачи реконструирования. Используется стробированная свертка, как определено в [28]:
где является входным изображением, являются тензорами весов, и и ELU являются сигмоидальной функцией и функцией экспоненциально-линейной единичной активации, соответственно. Реконструктор получает деформированное изображение с пропусками, маску пропусков и положения кодирования тензора ячеистой решетки пикселов и предсказывает реконструированное изображение.
Модель обучается в структуре генеративной конкурентной сети (GAN) и добавлены две сети дискриминаторов. Первый дискриминатор, дискриминатор реального/поддельного изображения, нацелен на различение выходных изображений истинного участка от реконструированных изображений, формируемых генеративной реконструирующей сетью. Дискриминатор реального/поддельного изображения может быть организован как стек плоской и пошаговой сверток, в основном следуя архитектуре части экстрактора признаков VGG-16, за которым следует усредненный опрос и сигмоидальная функция. Результирующее число указывает предсказанную вероятность того, что изображение является «реальным». Второй дискриминатор является дискриминатором пропусков, который нацелен на восстановление маски пропусков из реконструированного изображения путем решения проблемы сегментации. Генератор GAN, напротив, пытается «ввести в заблуждение» дискриминатор пропусков путем формирования изображений с реконструированными областями, неотличимыми от нереконструированных областей.
Как упомянуто выше, сквозное обучение конвейера является трудной задачей, которое требует тщательного баланса между различными компонентами потерь. Значение потерь Lgenerator для генеративной ConvNet, которая содержит регрессор поля деформации, за которым следует реконструктор, оптимизируется следующим образом:
где штрафует деформированное изображение и поле деформации, а штрафует только реконструированное изображение, и являются штрафами генератора, соответствующими конкурентному обучению с первым дискриминатором, дискриминатором реального/поддельного изображения, и вторым дискриминатором, дискриминатором пропусков, соответственно. Следовательно, эти компоненты разлагаются на следующие базовые функции потерь:
где являются деформированным изображением и маской без пропусков, полученной прямым дискретизатором является полем прямой деформации и xi является i-ой входной выборкой. Здесь и далее, решетчатая сетка в качестве входа в регрессор поля деформации и реконструктор опущена для ясности.
где v является экстрактором признака идентичности. Используется Light-CNN-29, предварительно обученное на наборе данных MS-Celeb-1M в качестве источника инвариантного к идентичности встраивания. Во время обучения, веса v фиксированы.
Вместе с генератором, оба дискриминатора обновляются вышеупомянутыми потерями (10) и (12).
Со ссылкой на фиг. 3, иллюстрируется эффективность алгоритма, обученного на поднаборе Multi-PIE 80% случайных выборок и оцениваемого на остальных 20% данных. Результаты, показанные на фиг. 3, соответствуют случайным выборкам из контрольной части.
Оценка текстуры тела и переноса позы
Методы прямого деформирования и дискриминатора пропусков используются для задачи переноса текстуры. Набор данных DeepFashion (см., например, [18]) был использован для демонстрации эффективности построенной модели, которая восстанавливает полную текстуру человеческого тела, которая может проецироваться на тело любой формы и позу, чтобы сформировать целевое изображение.
Модель выполняет перенос текстуры в четыре этапа:
1. Отображать начальное изображение на пространство текстуры и обнаруживать его пропущенные участки
2. Восстанавливать пропущенные участки, чтобы восстановить полную текстуру
3. Проецировать восстановленную текстуру на новую позу тела
4. Уточнять результирующее изображение, чтобы исключить дефекты, появляющиеся после повторного проецирования текстуры.
Все модули, выполняющие эти этапы, могут обучаться одновременно сквозным образом, хотя отдельные функции потерь применяются к выходам каждого модуля. Схему модели можно видеть на фиг. 5.
24 текстуры различных частей тела, помещенных на одно RGB изображение, используются, чтобы предсказывать координаты изображения текстуры для каждого пиксела на исходном изображении в целях отображения входных изображений в пространство текстуры путем формирования их полей деформирования. Поля деформирования как для исходного, так и целевого изображения формируются той же самой сетью с UNet-подобной архитектурой. Поскольку поля деформирования устанавливают соответствие между координатами начального изображения и пространства текстуры, становится возможным формировать изображения текстуры из фотоснимка с использованием прямого деформирования и реконструировать изображение человека из текстуры с использованием обратного деформирования с тем же самым полем деформирования. Чтобы обучать генератор поля деформирования, используется визуализация истинного участка uv, формируемая моделью densepose (см., например, [8]), и штрафовать результирующие поля деформирования с потерями L1 (суммой абсолютного значения разностей):
где является исходным изображением, WF является полем деформирования истинного участка, и является генератором поля деформирования.
После того как исходное изображение отображено в пространство текстуры, результирующее изображение текстуры имеет много пропущенных частей (пропусков) вследствие взаимного закрытия частей на исходном изображении. Эти пропущенные части затем реконструируются модулем заполнения пропусков, который является второй частью обучаемой модели.
Обучаемая модель использует стробируемую архитектуру типа песочных часов (см., например, [28]) и дискриминатор пропусков, чтобы формировать достоверные текстуры совместно с l1 потерями. Функция потерь для реконструктора выглядит следующим образом:
Здесь tsource and ttarget являются исходной текстурой и целевой структурой, соответственно, является реконструктором, и Lgap вычисляется, как указано в выражении (12), в то время как веса дискриминатора пропусков обновляются по отношению к функции потерь 10.
После того как восстановленная текстура сформирована, она может повторно проецироваться обратно на любое тело, закодированное с его полем деформирования. Имея поле деформирования для целевого изображения, сформированное предсказателем поля деформирования, изображение исходно выбранного человека в целевой позе может быть сформировано путем обратного деформирования текстуры целевым полем деформирования.
Хотя достоверная реконструкция текстуры может быть получена таким способом, результирующее деформированное изображение может иметь много дефектов, вызванных расхождениями, наблюдаемыми, когда различные части текстуры соединяются, а также некоторые малые области, отсутствующие в пространстве текстуры. Эти проблемы трудно решить в пространстве текстуры, однако они могут легко решаться в пространстве первоначального изображения. Для этой цели, может быть использован модуль уточнения изображения, воплощенный как сеть уточнения для исключения этих дефектов. Выход сети уточнения является окончательным результатом модели. Вычисляются VGG потери между ним и реальным целевым изображением вместе с дискриминатором реального/поддельного изображения, который пытается провести различие между изображениями из набора данных и сформированными изображениями:
где является обратным деформированием, VGG является VGG потерями, т.е. l2 расстоянием между признаками, извлеченными VGG-16 сетью, и является дискриминатором реального/поддельного изображения, функции потерь которого выражены следующим образом:
После описания одной или более моделей машинного обучения на основе глубоких нейронных сетей, предварительно обученных или обучаемых для выполнения задачи повторного синтеза изображения, система 100 повторного синтеза изображения согласно изобретению, которая реализует методологию в соответствии с настоящим изобретением, может быть охарактеризована как содержащая, в частности:
модуль 110 ввода исходного изображения; модуль 120 прямого деформирования, выполненный с возможностью предсказания для каждого пиксела исходного изображения соответствующего положения в целевом изображении, причем модуль 120 прямого деформирования выполнен с возможностью предсказания поля прямого деформирования, которое выровнено с исходным изображением; модуль 130 заполнения пропусков, содержащий дискриминатор 210 пропусков, выполненный с возможностью предсказания двоичной маски пропусков, которая является результатом прямого деформирования, и реконструктор 132 пропусков, выполненный с возможностью заполнения пропусков на основании упомянутой двоичной маски пропусков путем формирования изображения текстуры посредством предсказания пары координат в исходном изображении для каждого пиксела в изображении текстуры; и модуль 180 вывода целевого изображения.
Модуль 120 прямого деформирования может дополнительно содержать регрессор 121 поля деформации, дающий в результате изображение, полученное прямым деформированием. Модуль 130 заполнения пропусков, как упомянуто выше, может дополнительно содержать модуль 131 коррекции ошибок деформирования, выполненный с возможностью коррекции ошибок прямого деформирования в целевом изображении.
В соответствии с по меньшей мере одним вариантом осуществления, система согласно изобретению может дополнительно содержать архитектуру 150 переноса текстуры, выполненную с возможностью: предсказания полей деформирования для исходного изображения и целевого изображения; отображения исходного изображения в текстурное пространство посредством прямого деформирования, восстановления текстурного пространства в полную текстуру; и отображения полной текстуры обратно в новое положение с использованием обратного деформирования.
Система может также дополнительно содержать модуль 160 извлечения текстуры, выполненный с возможностью извлечения текстур(ы) из исходного изображения. В соответствии с изобретением, по меньшей мере модуль 120 прямого деформирования и модуль 130 заполнения пропусков могут быть реализованы как глубокие сверточные нейронные сети. По меньшей мере одна из глубоких сверточных сетей может быть обучена с использованием дискриминатора реального/поддельного изображения, выполненного с возможностью различения изображений истинных участков и реконструированных изображений. Дискриминатор 210 пропусков системы согласно изобретению может обучаться в форме отдельной сети классификации, чтобы различать между реконструированным и первоначальным изображениями посредством предсказания маски m из реконструированного изображения путем минимизации взвешенных потерь кросс-энтропии для двоичной сегментации. Реконструктор 132 пропусков системы согласно изобретению может также содержать: модуль 1321 назначения координат, выполненный с возможностью назначения каждому пикселу p=(x,y) входного изображения пары координат (u,v) текстуры в соответствии с фиксированным заданным отображением текстуры, чтобы обеспечивать двухканальную карту значений x и y в системе координат текстуры; модуль 1322 завершения карты текстуры, выполненный с возможностью обеспечения завершенной карты текстуры, где для каждого пиксела (u,v) текстуры известен соответствующий пиксел (x[u,v],y[u,v]) изображения; модуль 1323 формирования окончательной текстуры, выполненный с возможностью формирования окончательной текстуры путем отображения значений изображения из положений (x[u,v],y[u,v]) в текстуру в положениях (u,v), чтобы обеспечить завершенную цветную окончательную текстуру; модуль повторного отображения окончательной текстуры 1324, выполненный с возможностью повторного отображения окончательной текстуры на новую проекцию путем обеспечения другого отображения из координат пикселов изображения в координаты текстуры.
В по меньшей мере одном варианте осуществления, система повторного синтеза изображения может содержать модуль 170 уточнения изображения, выполненный с возможностью коррекции дефектов выходного изображения, вызванных расхождениями, наблюдаемыми там, где соединяются различные части текстуры.
Для специалиста в данной области техники должно быть ясно, что вышеупомянутые модули системы согласно изобретению могут быть реализованы различными средствами программного обеспечения, аппаратными средствами, микропрограммного обеспечения, которые хорошо известны в данной области техники. Например, для выполнения функций и/или обработки, описанных выше, могут предусматриваться различные сочетания аппаратных средств и программного обеспечения, причем эти сочетания будут очевидны для специалиста в данной области техники на основании тщательного изучения вышеприведённого описания. Заявленные изобретения не ограничены какими-либо конкретными формами реализации или сочетаниями, как упомянуто выше, но могут быть реализованы в различных формах в зависимости от конкретной задачи (задач) повторного синтеза изображения, которая должна быть решена.
Представленное выше является детальным описанием конкретных примерных вариантов осуществления изобретения, которые предназначены, чтобы иллюстрировать, но не ограничивать материальные и технические средства, которые реализуют соответствующие компоненты системы и этапы способа обработки изображения, их функциональные свойства и соотношения между ними, а также режим работы системы и способа обработки изображения согласно изобретению. Другие варианты осуществления, которые входят в объем настоящего изобретения, могут стать очевидными для специалиста в данной области техники на основании тщательного изучения описания, приведенного выше, со ссылкой на приложенные чертежи, и все такие очевидные модификации, варианты и/или эквивалентные замены предполагаются входящими в объем настоящего изобретения. Порядок, в котором этапы способа согласно изобретению упомянуты в формуле изобретения, не обязательно определяет фактическую последовательность, в которой подразумевается выполнение этапов способа, и некоторые этапы способа могут выполняться по существу одновременно, один за другим или в любой подходящей последовательности, если только иное конкретно не определено и/или обусловлено контекстом настоящего раскрытия. Некоторые этапы способа могут выполняться однократно или соответствующее количество раз, хотя это и не указано в формуле изобретения или где-либо в материалах заявки.
Следует также отметить, что изобретение может также принимать другие формы по сравнению с тем, что описано выше, и некоторые компоненты, модули, элементы, функции могут быть реализованы как программное обеспечение, аппаратные средства, микропрограммное обеспечение, интегральные схемы, FPGA и т.д., где это применимо. Заявленное изобретение или по меньшей мере его конкретные части, компоненты, модули или этапы могут быть реализованы компьютерной программой, сохраненной на машиночитаемом носителе, причем программа при исполнении на универсальном компьютере, GPU, многофункциональном устройстве или любом подходящем устройстве обработки изображения побуждает упомянутое устройство выполнять некоторые или все этапы заявленного способа и/или управлять по меньшей мере некоторыми из компонентов заявленной системы повторного синтеза изображения таким образом, что они работают вышеописанным способом. Примеры машиночитаемого носителя, пригодного для хранения упомянутой компьютерной программы или ее кода, инструкций или элементов или модулей компьютерной программы, могут включать в себя любой тип постоянного машиночитаемого носителя, который известен специалисту в данной области техники.
Все непатентные документы [1]-[30] из уровня техники, упомянутые и рассмотренные в настоящем документе и перечисленные ниже, настоящим включены в настоящее раскрытие путём ссылки, где это применимо.
Дополнительные аспекты изобретения могут стать очевидными для специалиста в данной области техники на основании изучения приведенного выше описания со ссылками на чертежи. Специалисту в данной области техники должно быть понятно, что возможны другие варианты осуществления изобретения и что детали изобретения могут быть модифицированы в ряде аспектов без отклонения от концепции изобретения. Таким образом, чертежи и описание должны рассматриваться как имеющие иллюстративный, но не ограничительный характер. Объем заявленного изобретения определяется только приложенной формулой изобретения.
Список цитированных источников
[1] V. Blanz and T. Vetter. Face recognition based on fitting a 3d morphable model. T-PAMI, 25(9):1063-1074, 2003. 2
[2] J. Cao, Y. Hu, B. Yu, R. He, and Z. Sun. Load balanced gans for multi-view face image synthesis. arXiv preprint arXiv:1802.07447, 2018. 2
[3] J. Cao, Y. Hu, H. Zhang, R. He, and Z. Sun. Learning a high fidelity pose invariant model for high-resolution face frontalization. arXiv preprint arXiv:1806.08472, 2018. 1, 3
[4] J. Deng, S. Cheng, N. Xue, Y. Zhou, and S. Zafeiriou. Uv- gan: adversarial facial uv map completion for pose-invariant face recognition. In Proc. CVPR, pages 7093-7102, 2018. 1, 2, 4
[5] Y. Ganin, D. Kononenko, D. Sungatullina, and V. Lempitsky. Deepwarp: Photorealistic image resynthesis for gaze manipulation. In European Conference on Computer Vision, pages 311-326. Springer, 2016. 1, 2, 3
[6] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. Generative adversarial nets. In Advances in neural information processing systems, pages 2672-2680, 2014. 2, 4
[7] R. Gross, I. Matthews, J. Cohn, T. Kanade, and S. Baker. Multi-pie. Image and Vision Computing, 28(5):807-813, 2010. 5
[8] R. A. Guler, N. Neverova, and I. Kokkinos. DensePose: Dense human pose estimation in the wild. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 2, 8
[9] Y. Hu, X. Wu, B. Yu, R. He, and Z. Sun. Pose-guided photo-realistic face rotation. In Proc. CVPR, 2018. 2
[10] R. Huang, S. Zhang, T. Li, R. He, et al. Beyond face rotation: Global and local perception gan for photorealistic and identity preserving frontal view synthesis. arXiv preprint arXiv:1704.04086, 2017. 2
[11] S. Iizuka, E. Simo-Serra, and H. Ishikawa. Globally and locally consistent image completion. ACM Transactions on Graphics (TOG), 36(4):107, 2017. 1, 2
[12] P. Isola, J. Zhu, T. Zhou, and A. A. Efros. Image-to-image translation with conditional adversarial networks. In Proc. CVPR, pages 5967-5976, 2017. 2
[13] M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu. Spatial transformer networks. In Proc. NIPS, pages 2017-2025, 2015. 1, 2, 3
[14] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. In Proc. ECCV, pages 694-711, 2016. 4
[15] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural computation, 1(4):541-551, 1989. 1
[16] Y. Li, S. Liu, J. Yang, and M.-H. Yang. Generative face completion. In Proc. CVPR, volume 1, page 3, 2017. 1, 2
[17] G. Liu, F. A. Reda, K. J. Shih, T.-C. Wang, A. Tao, and B. Catanzaro. Image inpainting irregular holes using partial convolutions. arXiv preprint arXiv:1804.07723, 2018. 1, 2, 3
[18] Z. Liu, P. Luo, S. Qiu, X. Wang, and X. Tang. Deepfashion: Powering robust clothes recognition and retrieval with rich annotations. In Proc. CVPR, pages 1096-1104, 2016. 6
[19] N. Neverova, R. A. Guler, and I. Kokkinos. Dense pose transfer. In The European Conference on Computer Vision (ECCV), September 2018. 2
[20] E. Park, J. Yang, E. Yumer, D. Ceylan, and A. C. Berg. Transformation-grounded image generation network for novel 3d view synthesis. In Proc. CVPR, pages 702-711. IEEE, 2017. 1, 3
[21] J. S. Ren, L. Xu, Q. Yan, and W. Sun. Shepard convolutional neural networks. In Proc. NIPS, pages 901-909, 2015. 1, 2
[22] O. Ronneberger, P. Fischer, and T. Brox. U-net: Convolutional networks for biomedical image segmentation. In Proc. MICCAI, pages 234-241. Springer, 2015. 5
[23] A. Siarohin, E. Sangineto, S. Lathuilire, and N. Sebe. De¬formable gans for pose-based human image generation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 1, 2, 3
[24] S. Tulyakov, M.-Y. Liu, X. Yang, and J. Kautz. Moco- gan: Decomposing motion and content for video generation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 2
[25] J. Uhrig, N. Schneider, L. Schneider, U. Franke, T. Brox, and A. Geiger. Sparsity invariant cnns. In International Conference on 3D Vision (3DV), pages 11-20. IEEE, 2017. 1, 2
[26] J. Yim, H. Jung, B. Yoo, C. Choi, D. Park, and J. Kim. Rotating your face using multi-task deep neural network. In Proc. CVPR, pages 676-684, 2015. 2
[27] X. Yin, X. Yu, K. Sohn, X. Liu, and M. Chandraker. Towards large-pose face frontalization in the wild. In Proc. ICCV, pages 1-10, 2017. 2
[28] J. Yu, Z. Lin, J. Yang, X. Shen, X. Lu, and T. S. Huang. Free-form image inpainting with gated convolution. arXiv preprint arXiv:1806.03589, 2018. 1, 2, 5, 6, 8
[29] J. Zhao, L. Xiong, P. K. Jayashree, J. Li, F. Zhao, Z. Wang, P. S. Pranata, P. S. Shen, S. Yan, and J. Feng. Dual-agent gans for photorealistic and identity preserving profile face synthesis. In Proc. NIPS, pages 66-76, 2017. 2
[30] T. Zhou, S. Tulsiani, W. Sun, J. Malik, and A. A. Efros. View synthesis by appearance flow. In Proc. ECCV, pages 286¬301, 2016. 1, 2, 3.
Claims (34)
1. Система повторного синтеза изображения, содержащая:
модуль ввода исходного изображения;
модуль прямого деформирования, выполненный с возможностью предсказания для каждого пиксела исходного изображения соответствующего положения в целевом изображении, причем модуль прямого деформирования выполнен с возможностью предсказания поля прямого деформирования, которое выровнено с исходным изображением; и
модуль заполнения пропусков, выполненный с возможностью заполнения пропусков, являющихся результатом применения прямого деформирования, путем предсказания двоичной маски пропусков, которые являются результатом прямого деформирования, заполнения пропусков на основе упомянутой двоичной маски пропусков путем формирования изображения текстуры посредством предсказания пары координат в исходном изображении для каждого пиксела в изображении текстуры.
2. Система повторного синтеза изображения по п. 1, в которой модуль заполнения пропусков дополнительно содержит модуль коррекции ошибок деформирования, выполненный с возможностью коррекции ошибок прямого деформирования в целевом изображении.
3. Система повторного синтеза изображения по п. 1, дополнительно содержащая архитектуру переноса текстуры, выполненную с возможностью:
предсказания полей деформирования для исходного изображения и целевого изображения;
отображения исходного изображения в пространство текстуры посредством прямого деформирования;
восстановления пространства текстуры в полную текстуру и
отображения полной текстуры обратно в новую позу с использованием обратного деформирования.
4. Система повторного синтеза изображения по п. 1, дополнительно содержащая модуль извлечения текстуры, выполненный с возможностью извлечения текстуры из исходного изображения.
5. Система повторного синтеза изображения по п. 1, в которой по меньшей мере модуль прямого деформирования и модуль заполнения пропусков реализованы как глубокие сверточные нейронные сети.
6. Система повторного синтеза изображения по п. 1, в которой модуль заполнения пропусков содержит реконструктор пропусков, причем реконструктор пропусков содержит:
модуль назначения координат, выполненный с возможностью назначения каждому пикселу p=(x,y) входного изображения пары координат (u,v) текстуры в соответствии с фиксированным заданным отображением текстуры, чтобы обеспечить двухканальную карту значений x и y в системе координат текстуры;
модуль завершения карты текстуры, выполненный с возможностью обеспечения завершенной карты текстуры, где для каждого пиксела (u,v) текстуры известен соответствующий пиксел (x[u,v],y[u,v]) изображения;
модуль формирования окончательной текстуры, выполненный с возможностью формирования окончательной текстуры путем отображения значений изображения из положений (x[u,v],y[u,v]) на текстуру в положениях (u,v), чтобы обеспечить завершенную цветную окончательную текстуру;
модуль повторного отображения окончательной текстуры, выполненный с возможностью повторного отображения окончательной текстуры на новую проекцию путем обеспечения другого отображения из координат пикселов изображения в координаты текстуры.
7. Система повторного синтеза изображения по п. 5, в которой по меньшей мере одна из глубоких сверточных сетей обучается с использованием дискриминатора реального/поддельного изображения, выполненного с возможностью различения изображений истинного участка и реконструированных изображений.
8. Система повторного синтеза изображения по п. 4, дополнительно содержащая модуль уточнения изображения, выполненного с возможностью коррекции дефектов выходного изображения.
9. Система для обучения модуля заполнения пропусков, выполненного с возможностью заполнения пропусков как часть повторного синтеза изображения, причем система выполнена с возможностью обучения модуля заполнения пропусков параллельно и совместно с сетью дискриминатора пропусков, причем сеть дискриминатора пропусков обучается предсказывать двоичную маску пропусков, и модуль заполнения пропусков обучается минимизировать точность сети дискриминатора пропусков.
10. Способ повторного синтеза изображения, содержащий этапы, на которых:
вводят исходное изображение;
предсказывают для каждого пиксела исходного изображения соответствующее положение в целевом изображении, причем предсказывается поле прямого деформирования, которое выровнено с исходным изображением;
предсказывают двоичную маску пропусков, которые являются результатом прямого деформирования,
заполняют пропуски на основании упомянутой двоичной маски пропусков путем формирования изображения текстуры посредством предсказания пары координат в исходном изображении для каждого пиксела в изображении текстуры; и
отображают полную текстуру обратно на новую позу с использованием обратного деформирования.
11. Способ повторного синтеза изображения по п. 10,
в котором заполнение пропусков содержит этапы, на которых:
назначают каждому пикселу p=(x,y) входного изображения пару координат (u,v) текстуры в соответствии с фиксированным заданным отображением текстуры, чтобы обеспечить двухканальную карту значений x и y в системе координат текстуры;
обеспечивают карту завершенной текстуры, где для каждого пиксела (u,v) текстуры известен соответствующий пиксел (x[u,v],y[u,v]) изображения;
формируют окончательную текстуру путем отображения значений изображения из положений (x[u,v],y[u,v]) на текстуру в положениях (u,v), чтобы обеспечить завершенную цветную окончательную текстуру;
повторно отображают окончательную текстуру на новую проекцию путем обеспечения другого отображения из координат пикселов изображения в координаты текстуры.
12. Способ обучения модуля заполнения пропусков, выполненного с возможностью заполнения пропусков как часть повторного синтеза изображения, причем способ содержит этап, на котором обучают модуль заполнения пропусков параллельно и совместно с сетью дискриминатора пропусков, причем сеть дискриминатора пропусков обучается, чтобы предсказывать двоичную маску пропусков, и модуль заполнения пропусков обучается, чтобы минимизировать точность сети дискриминатора пропусков.
13. Постоянный машиночитаемый носитель, на котором сохранён компьютерный программный продукт, содержащий компьютерный программный код, который при исполнении одним или более процессорами побуждает один или более процессоров реализовывать способ по любому одному из пп. 10 или 11.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2019113117A RU2726160C1 (ru) | 2019-04-29 | 2019-04-29 | Повторный синтез изображения, использующий прямое деформирование изображения, дискриминаторы пропусков и основанное на координатах реконструирование |
US17/282,214 US11961205B2 (en) | 2018-11-09 | 2019-11-07 | Image resynthesis using forward warping, gap discriminators, and coordinate-based inpainting |
EP19881010.3A EP3824432A4 (en) | 2018-11-09 | 2019-11-07 | IMAGE RESYNTHESIS USING DIRECT DEFORMATION, SPACE DISCRIMINATORS AND COORDINATE-BASED RETOUCHING |
PCT/KR2019/015051 WO2020096368A1 (en) | 2018-11-09 | 2019-11-07 | Image resynthesis using forward warping, gap discriminators, and coordinate-based inpainting |
CN201980066712.4A CN112823375A (zh) | 2018-11-09 | 2019-11-07 | 使用前向扭曲、间隙鉴别器和基于坐标的修复的图像再合成 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2019113117A RU2726160C1 (ru) | 2019-04-29 | 2019-04-29 | Повторный синтез изображения, использующий прямое деформирование изображения, дискриминаторы пропусков и основанное на координатах реконструирование |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2726160C1 true RU2726160C1 (ru) | 2020-07-09 |
Family
ID=71510552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2019113117A RU2726160C1 (ru) | 2018-11-09 | 2019-04-29 | Повторный синтез изображения, использующий прямое деформирование изображения, дискриминаторы пропусков и основанное на координатах реконструирование |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2726160C1 (ru) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2770132C1 (ru) * | 2021-03-04 | 2022-04-14 | Самсунг Электроникс Ко., Лтд. | Генераторы изображений с условно независимым синтезом пикселей |
CN114359356A (zh) * | 2021-12-28 | 2022-04-15 | 上海联影智能医疗科技有限公司 | 图像配准模型的训练方法、图像配准方法、设备及介质 |
CN115111970A (zh) * | 2022-07-05 | 2022-09-27 | 湖南工商大学 | 一种融合2d与3d视觉感知的烟花成型检测装置及其检测方法 |
RU2787928C1 (ru) * | 2021-07-20 | 2023-01-13 | Самсунг Электроникс Ко., Лтд. | Способ создания многослойного представления сцены и вычислительное устройство для его реализации |
CN115953544A (zh) * | 2023-03-16 | 2023-04-11 | 浪潮电子信息产业股份有限公司 | 一种三维重建方法、装置、电子设备及可读存储介质 |
US11823349B2 (en) | 2020-11-19 | 2023-11-21 | Samsung Electronics Co., Ltd. | Image generators with conditionally-independent pixel synthesis |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6434280B1 (en) * | 1997-11-10 | 2002-08-13 | Gentech Corporation | System and method for generating super-resolution-enhanced mosaic images |
US20060133688A1 (en) * | 2003-04-29 | 2006-06-22 | Microsoft Corporation | System and process for generating high dynamic range video |
US20100157078A1 (en) * | 2008-12-19 | 2010-06-24 | Qualcomm Incorporated | High dynamic range image combining |
US20110157408A1 (en) * | 2004-08-16 | 2011-06-30 | Tessera Technologies Ireland Limited | Foreground/Background Segmentation in Digital Images with Differential Exposure Calculations |
RU2648578C1 (ru) * | 2011-01-12 | 2018-03-26 | Мицубиси Электрик Корпорейшн | Устройство кодирования изображений, устройство декодирования изображений, способ кодирования изображений и способ декодирования изображений |
-
2019
- 2019-04-29 RU RU2019113117A patent/RU2726160C1/ru active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6434280B1 (en) * | 1997-11-10 | 2002-08-13 | Gentech Corporation | System and method for generating super-resolution-enhanced mosaic images |
US20060133688A1 (en) * | 2003-04-29 | 2006-06-22 | Microsoft Corporation | System and process for generating high dynamic range video |
US20110157408A1 (en) * | 2004-08-16 | 2011-06-30 | Tessera Technologies Ireland Limited | Foreground/Background Segmentation in Digital Images with Differential Exposure Calculations |
US20100157078A1 (en) * | 2008-12-19 | 2010-06-24 | Qualcomm Incorporated | High dynamic range image combining |
RU2648578C1 (ru) * | 2011-01-12 | 2018-03-26 | Мицубиси Электрик Корпорейшн | Устройство кодирования изображений, устройство декодирования изображений, способ кодирования изображений и способ декодирования изображений |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11823349B2 (en) | 2020-11-19 | 2023-11-21 | Samsung Electronics Co., Ltd. | Image generators with conditionally-independent pixel synthesis |
RU2770132C1 (ru) * | 2021-03-04 | 2022-04-14 | Самсунг Электроникс Ко., Лтд. | Генераторы изображений с условно независимым синтезом пикселей |
RU2787928C1 (ru) * | 2021-07-20 | 2023-01-13 | Самсунг Электроникс Ко., Лтд. | Способ создания многослойного представления сцены и вычислительное устройство для его реализации |
CN114359356A (zh) * | 2021-12-28 | 2022-04-15 | 上海联影智能医疗科技有限公司 | 图像配准模型的训练方法、图像配准方法、设备及介质 |
CN115111970A (zh) * | 2022-07-05 | 2022-09-27 | 湖南工商大学 | 一种融合2d与3d视觉感知的烟花成型检测装置及其检测方法 |
CN115111970B (zh) * | 2022-07-05 | 2023-11-10 | 湖南工商大学 | 一种融合2d与3d视觉感知的烟花成型检测装置及其检测方法 |
CN115953544A (zh) * | 2023-03-16 | 2023-04-11 | 浪潮电子信息产业股份有限公司 | 一种三维重建方法、装置、电子设备及可读存储介质 |
CN115953544B (zh) * | 2023-03-16 | 2023-05-09 | 浪潮电子信息产业股份有限公司 | 一种三维重建方法、装置、电子设备及可读存储介质 |
RU2823750C1 (ru) * | 2023-06-13 | 2024-07-29 | Самсунг Электроникс Ко., Лтд. | Система и способ для получения обработанного выходного изображения, имеющего выбираемый пользователем показатель качества |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11961205B2 (en) | Image resynthesis using forward warping, gap discriminators, and coordinate-based inpainting | |
RU2726160C1 (ru) | Повторный синтез изображения, использующий прямое деформирование изображения, дискриминаторы пропусков и основанное на координатах реконструирование | |
US10593021B1 (en) | Motion deblurring using neural network architectures | |
Wong et al. | Bilateral cyclic constraint and adaptive regularization for unsupervised monocular depth prediction | |
Li et al. | Deep learning based imaging data completion for improved brain disease diagnosis | |
Kiechle et al. | A joint intensity and depth co-sparse analysis model for depth map super-resolution | |
US11625813B2 (en) | Automatically removing moving objects from video streams | |
KR102311796B1 (ko) | 지역적 신체영역 정보를 이용한 휴먼 모션 디블러링 방법 및 장치 | |
Qu et al. | TransFuse: A unified transformer-based image fusion framework using self-supervised learning | |
Galteri et al. | Deep 3d morphable model refinement via progressive growing of conditional generative adversarial networks | |
Luvizon et al. | Adaptive multiplane image generation from a single internet picture | |
Tan et al. | High dynamic range imaging for dynamic scenes with large-scale motions and severe saturation | |
Tang et al. | Structure-embedded ghosting artifact suppression network for high dynamic range image reconstruction | |
Chen et al. | Learning Physical-Spatio-Temporal Features for Video Shadow Removal | |
Gupta et al. | A robust and efficient image de-fencing approach using conditional generative adversarial networks | |
Shihabudeen et al. | Deep learning L2 norm fusion for infrared & visible images | |
Chiciudean et al. | Data augmentation for environment perception with unmanned aerial vehicles | |
Susan et al. | Deep learning inpainting model on digital and medical images-a review. | |
Chouteau et al. | Joint super-resolution and image restoration for PLÉIADES NEO imagery | |
Han et al. | MPDNet: An underwater image deblurring framework with stepwise feature refinement module | |
Tukra et al. | Randomly connected neural networks for self-supervised monocular depth estimation | |
CN114445676A (zh) | 一种手势图像处理方法、存储介质及设备 | |
BR et al. | Machine Learning Application for Evidence Image Enhancement | |
Vahadane et al. | Learning based super-resolution of histological images | |
Yu et al. | AGD-GAN: Adaptive Gradient-Guided and Depth-supervised generative adversarial networks for ancient mural sketch extraction |