KR102279772B1 - Method and Apparatus for Generating Videos with The Arrow of Time - Google Patents
Method and Apparatus for Generating Videos with The Arrow of Time Download PDFInfo
- Publication number
- KR102279772B1 KR102279772B1 KR1020200010870A KR20200010870A KR102279772B1 KR 102279772 B1 KR102279772 B1 KR 102279772B1 KR 1020200010870 A KR1020200010870 A KR 1020200010870A KR 20200010870 A KR20200010870 A KR 20200010870A KR 102279772 B1 KR102279772 B1 KR 102279772B1
- Authority
- KR
- South Korea
- Prior art keywords
- image data
- image
- virtual image
- real
- reverse
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000013598 vector Substances 0.000 claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 42
- 230000002123 temporal effect Effects 0.000 claims abstract description 32
- 238000006243 chemical reaction Methods 0.000 claims abstract description 14
- 238000009826 distribution Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 claims 2
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 3
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- NVNSXBXKNMWKEJ-UHFFFAOYSA-N 5-[[5-(2-nitrophenyl)furan-2-yl]methylidene]-1,3-diphenyl-2-sulfanylidene-1,3-diazinane-4,6-dione Chemical compound [O-][N+](=O)C1=CC=CC=C1C(O1)=CC=C1C=C1C(=O)N(C=2C=CC=CC=2)C(=S)N(C=2C=CC=CC=2)C1=O NVNSXBXKNMWKEJ-UHFFFAOYSA-N 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 235000009499 Vanilla fragrans Nutrition 0.000 description 1
- 244000263375 Vanilla tahitensis Species 0.000 description 1
- 235000012036 Vanilla tahitensis Nutrition 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
Description
본 발명은 시간의 특성을 고려하여 영상을 생성하기 위한 방법 및 그를 위한 장치에 관한 것이다. The present invention relates to a method for generating an image in consideration of the characteristic of time and an apparatus therefor.
이 부분에 기술된 내용은 단순히 본 발명의 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.The content described in this section merely provides background information on the embodiments of the present invention and does not constitute the prior art.
기계학습(machine learning)은 지도학습(supervised learning), 비지도 학습(unsupervised learning) 및 강화학습(reinforcement learning) 등으로 나누어 진다. 비지도 학습은 지도학습과는 달리 목표값이 주어지지 않는 자료를 학습하여 차원 축소, 군집화, 특징추출 등의 작업을 주로 하는데 오토인코더(autoencoder), GAN(generative adversarial networks), RBM(restricted Boltzmann machine) 등이 있다. Machine learning is divided into supervised learning, unsupervised learning, and reinforcement learning. Unlike supervised learning, unsupervised learning learns data that is not given a target value and mainly performs tasks such as dimensionality reduction, clustering, and feature extraction. Autoencoder, GAN (generative adversarial networks), RBM (restricted Boltzmann machine) ), etc.
딥러닝 분야에서는 지도학습이 많은 부분을 차지했지만, 목표값(target)을 구해야 하는 이유로 활동에 한계가 있었다. 반면, 비지도학습은 Goodfellow(2014)의 GAN을 중심으로 넓은 활용도를 보이며 현재까지 영상(비디오), 이미지와 음성 분야를 비롯한 다양한 분야에서 접목되고 있다. Supervised learning took up a large part in the deep learning field, but there was a limit to its activities due to the need to obtain a target. On the other hand, unsupervised learning has been widely used centered on GAN of Goodfellow (2014), and has been applied in various fields including video (video), image and audio fields until now.
GAN은 생성자(generator)와 감별자(discriminator)를 대립하여 학습하는 신경망이다. 생성자는 실제 자료와 같은 자료를 만들기 위해 노력하고, 감별자는 실제 자료와 생성자료를 구분하기 위해 노력하여 최종적으로 생성자가 실제 자료와 같은 자료를 만드는 것이 GAN의 목표다. 초기 GAN은 학습의 불안정과 모드 붕괴(mode-collapse) 등의 문제점을 수반하였다. 이를 개선하는 많은 파생 GAN 모형들이 개발되었으며, 인셉션 모델(Inception model)을 이용한 인셉션 스코어(IS: Inception score)와 프레쳇 인셉션 거리(FID: Frechet Inception distance) 등이 개발되어 GAN의 성능을 평가할 수 있게 되었다. GAN is a neural network that learns by opposing generator and discriminator. The goal of GAN is that the generator makes an effort to create data like the real data, and the discriminator tries to distinguish the real data from the generated data, and finally, the generator makes the data like the real data. Early GANs were accompanied by problems such as instability of learning and mode-collapse. Many derived GAN models to improve this have been developed, and the Inception score (IS) and Frechet Inception distance (FID) using the Inception model have been developed to improve the performance of the GAN. could be evaluated.
기존의 영상(비디오) 생성에 대한 연구들은 영상의 시간적 특성에 대해 크게 고려하지 않은 채 GAN의 학습 방식만을 토대로 영상 생성 연구를 진행하였다. 영상(비디오)은 시간을 구별하는 차원을 가지고 있기 때문에, 영상에 대한 GAN 학습은 이미지에 대한 GAN 학습보다 정교하다. 시간을 고려한 전용 아키텍처를 설계하는 방법이 연구되고 있으나, 생성된 영상은 여전히 실제 영상과 구별을 할 수 없다. Existing studies on image (video) generation have been conducted based on only the GAN learning method without considering the temporal characteristics of the image. Since an image (video) has a dimension that distinguishes time, GAN learning for images is more sophisticated than GAN learning for images. Although a method of designing a dedicated architecture considering time is being studied, the generated image is still indistinguishable from the actual image.
바닐라 GAN에서 StyleGAN에 이르기까지 이미지 생성에 대한 학습이 엄격하게 연구되었지만, 추가적인 특성(시간적 특성)으로 인해 영상 제작에 어려움이 있다. From vanilla GAN to StyleGAN, learning for image generation has been rigorously studied, but there are difficulties in video production due to additional characteristics (temporal characteristics).
영상 생성을 위해 개발된 VGAN은 다른 차원과 마찬가지로 시간을 고려한 3D 컨볼루션이 있는 생성자와 감별자로 구성된다. 그 후, TGAN과 MoCoGAN은 생성 과정에서 시간적 일관성을 모델링하기 위한 주요 성분으로 일시적 잠재 변수를 도입했다. 그러나, 이러한 GAN 방식에서 생성된 영상은 생성된 이미지에 비해 정교하지 못하다. Developed for image generation, VGAN consists of a generator and a discriminator with time-considered 3D convolution like other dimensions. After that, TGAN and MoCoGAN introduced temporal latent variables as main components for modeling temporal coherence during generation. However, the image generated by such a GAN method is less sophisticated than the generated image.
이에, 시간의 특성(AoT: Arrow of Time)을 고려하여 영상을 생성하는 모델을 통해 정교하게 영상을 생성하기 위한 방법이 필요하다. Accordingly, there is a need for a method for precisely generating an image through a model for generating an image in consideration of the characteristic of time (AoT: Arrow of Time).
본 발명은 실제 영상과 생성된 가상 영상뿐만 아니라, 실제 영상 및 가상 영상의 시간 특성을 반전시켜 역방향으로 변환된 영상을 분류를 처리하는 학습을 통해 시간의 특성을 고려한 영상 생성 방법 및 그를 위한 장치를 제공하는 데 주된 목적이 있다.The present invention provides an image generation method and an apparatus therefor in consideration of temporal characteristics through learning to process classification of reversely converted images by inverting temporal characteristics of real images and virtual images, as well as real images and generated virtual images. Its main purpose is to provide
본 발명의 일 측면에 의하면, 상기 목적을 달성하기 위한 하나 이상의 프로세서 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 컴퓨팅 디바이스에 의해 수행되는 시간 특성을 고려한 영상 생성 학습 방법은, 소정의 입력값 기반의 잠재 벡터를 획득하는 벡터 획득 단계; 상기 잠재 벡터를 입력으로 가상 영상에 대한 가상 영상 데이터를 생성하는 생성 처리 단계; 실제 영상에 대한 실제 영상 데이터를 획득하는 영상 획득 단계; 상기 가상 영상 데이터 및 상기 실제 영상 데이터 각각의 시간 특성을 반전시켜 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터를 생성하는 변환 단계; 및 상기 가상 영상 데이터, 상기 실제 영상 데이터, 상기 역방향 가상 영상 데이터 및 상기 역방향 실제 영상 데이터 중 적어도 두 개의 데이터를 비교하여 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리하여 영상 생성이 수행되도록 하는 감별 처리 단계를 수행할 수 있다. According to an aspect of the present invention, an image generation and learning method in consideration of time characteristics performed by a computing device including one or more processors and a memory for storing one or more programs executed by the processor for achieving the above object, a vector obtaining step of obtaining a latent vector based on a predetermined input value; a generation processing step of generating virtual image data for a virtual image by inputting the latent vector; an image acquisition step of acquiring real image data for the real image; a conversion step of inverting temporal characteristics of the virtual image data and the real image data to generate reverse virtual image data and reverse real image data; and comparing at least two data among the virtual image data, the real image data, the reverse virtual image data, and the reverse real image data to process classification for each of the image authenticity and the moving direction of the image to generate an image. Differential processing steps can be performed to ensure that
또한, 본 발명의 다른 측면에 의하면, 상기 목적을 달성하기 위한 영상 생성 장치는, 시간 특성을 고려하여 영상을 생성하는 장치로서, 하나 이상의 프로세서; 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하며, 상기 프로그램들은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서들에서, 소정의 입력값 기반의 잠재 벡터를 획득하는 벡터 획득 단계; 상기 잠재 벡터를 입력으로 가상 영상에 대한 가상 영상 데이터를 생성하는 생성 처리 단계; 실제 영상에 대한 실제 영상 데이터를 획득하는 영상 획득 단계; 상기 가상 영상 데이터 및 상기 실제 영상 데이터 각각의 시간 특성을 반전시켜 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터를 생성하는 변환 단계; 및 상기 가상 영상 데이터, 상기 실제 영상 데이터, 상기 역방향 가상 영상 데이터 및 상기 역방향 실제 영상 데이터 중 적어도 두 개의 데이터를 비교하여 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리하여 영상 생성이 수행되도록 하는 감별 처리 단계를 포함하는 동작들을 수행할 수 있다. Further, according to another aspect of the present invention, an image generating apparatus for achieving the above object is an apparatus for generating an image in consideration of temporal characteristics, comprising: one or more processors; and a memory storing one or more programs executed by the processor, wherein when the programs are executed by the one or more processors, the one or more processors acquires a latent vector based on a predetermined input value. ; a generation processing step of generating virtual image data for a virtual image by inputting the latent vector; an image acquisition step of acquiring real image data for the real image; a conversion step of inverting temporal characteristics of the virtual image data and the real image data to generate reverse virtual image data and reverse real image data; and comparing at least two data among the virtual image data, the real image data, the reverse virtual image data, and the reverse real image data to process classification for each of the image authenticity and the moving direction of the image to generate an image. It is possible to perform operations including a differential processing step to make it possible.
또한, 본 발명의 다른 측면에 의하면, 상기 목적을 달성하기 위한 하나 이상의 프로세서 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 컴퓨팅 디바이스에 의해 수행되는 영상 생성 방법은, 입력 벡터를 입력 받고, 상기 입력 벡터에 대한 특징값을 추출하며, 가상 영상 데이터 및 실제 영상 데이터의 특징값을 비교하여 가상 영상의 진위 여부를 학습한 제1 학습 결과와 가상 영상 데이터 및 역방향 가상 영상 데이터의 특징값을 비교하여 가상 영상의 진행 방향을 학습한 제2 학습 결과를 적용하여 신규 영상을 생성하고, 생성된 신규 영상을 출력할 수 있다. In addition, according to another aspect of the present invention, an image generating method performed by a computing device including one or more processors for achieving the above object and a memory for storing one or more programs executed by the processor, an input vector A first learning result obtained by receiving an input, extracting a feature value of the input vector, and learning whether a virtual image is authentic or not by comparing feature values of the virtual image data and the real image data, and the features of the virtual image data and the reverse virtual image data A new image may be generated by applying the second learning result obtained by learning the progress direction of the virtual image by comparing the values, and the generated new image may be output.
이상에서 설명한 바와 같이, 본 발명은 시간적 특성을 고려하여 사실적인 영상 생성이 가능한 효과가 있다. As described above, the present invention has the effect of enabling realistic image generation in consideration of temporal characteristics.
또한, 본 발명은 Self-supervision을 활용하여 다양한 데이터 셋을 자동으로 구축할 수 있는 효과가 있다. In addition, the present invention has the effect of automatically constructing various data sets by utilizing self-supervision.
또한, 본 발명은 데이터셋을 직접 수작업으로 수정할 필요 없이 자동으로 정답지가 생성됨에 따라 사람의 노동력(human labor)도 줄이면서 학습에 더 효율적인 성능을 이끌어 낼 수 있는 효과가 있다. In addition, the present invention has an effect that can lead to more efficient performance in learning while reducing human labor as the correct answer sheet is automatically generated without the need to manually modify the dataset.
도 1은 본 발명의 실시예에 따른 영상 생성 장치를 개략적으로 나타낸 블록 구성도이다.
도 2는 본 발명의 실시예에 따른 프로세서의 학습을 위한 동작 구성을 개략적으로 나타낸 블록 구성도이다.
도 3은 본 발명의 실시예에 따른 영상 생성을 위한 학습 방법을 설명하기 위한 순서도이다.
도 4는 본 발명의 실시예에 따른 프로세서의 영상 생성을 위한 동작 구성을 개략적으로 나타낸 블록 구성도이다.
도 5는 본 발명의 실시예에 따른 영상 생성 방법을 설명하기 위한 순서도이다.
도 6은 본 발명의 제1 실시예에 따른 영상 생성 장치의 학습 동작을 설명하기 위한 예시도이다.
도 7은 본 발명의 제2 실시예에 따른 영상 생성 장치의 학습 동작을 설명하기 위한 예시도이다.
도 8a 내지 도 8c는 본 발명의 실시예에 따른 영상 생성 장치의 학습 결과 및 적용 결과를 나타낸 도면이다.1 is a block diagram schematically showing an image generating apparatus according to an embodiment of the present invention.
2 is a block diagram schematically illustrating an operation configuration for learning of a processor according to an embodiment of the present invention.
3 is a flowchart illustrating a learning method for image generation according to an embodiment of the present invention.
4 is a block diagram schematically illustrating an operation configuration for image generation of a processor according to an embodiment of the present invention.
5 is a flowchart illustrating an image generating method according to an embodiment of the present invention.
6 is an exemplary view for explaining a learning operation of the image generating apparatus according to the first embodiment of the present invention.
7 is an exemplary diagram for explaining a learning operation of the image generating apparatus according to the second embodiment of the present invention.
8A to 8C are diagrams illustrating a learning result and an application result of the image generating apparatus according to an embodiment of the present invention.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다. 이하에서는 도면들을 참조하여 본 발명에서 제안하는 시간의 특성을 고려한 영상 생성 방법 및 그를 위한 장치에 대해 자세하게 설명하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In describing the present invention, if it is determined that a detailed description of a related known configuration or function may obscure the gist of the present invention, the detailed description thereof will be omitted. In addition, preferred embodiments of the present invention will be described below, but the technical spirit of the present invention is not limited thereto and may be variously implemented by those skilled in the art without being limited thereto. Hereinafter, an image generating method and apparatus therefor in consideration of the characteristic of time proposed by the present invention will be described in detail with reference to the drawings.
도 1은 본 발명의 실시예에 따른 영상 생성 장치를 개략적으로 나타낸 블록 구성도이다.1 is a block diagram schematically showing an image generating apparatus according to an embodiment of the present invention.
본 실시예에 따른 영상 생성 장치(100)는 입력부(110), 출력부(120), 프로세서(130), 메모리(140) 및 데이터 베이스(150)를 포함한다. 도 1의 영상 생성 장치(100)는 일 실시예에 따른 것으로서, 도 1에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 영상 생성 장치(100)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. 한편, 영상 생성 장치(100)는 컴퓨팅 디바이스로 구현될 수 있고, 영상 생성 장치(100)에 포함된 각 구성요소들은 각각 별도의 소프트웨어 장치로 구현되거나, 소프트웨어가 결합된 별도의 하드웨어 장치로 구현될 수 있다.The
영상 생성 장치(100)는 잠재 벡터를 입력 받고, 잠재 벡터를 입력으로 생성자를 통해 가상 영상에 대한 가상 영상 데이터를 생성하면서 실제 영상에 대한 실제 영상 데이터를 획득하며, 가상 영상 데이터 및 실제 영상 데이터 각각의 시간 특성을 반전시켜 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터를 생성하고, 생성자와 연동하는 감별자를 통해 가상 영상 데이터, 실제 영상 데이터, 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터 중 적어도 두 개의 데이터를 비교하여 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리하여 영상 생성이 수행되도록 하는 동작을 수행한다. The
입력부(110)는 영상 생성 장치(100)에서의 영상 생성 동작을 수행하기 위한 신호 또는 데이터를 입력하거나 획득하는 수단을 의미한다. 입력부(110)는 프로세서(130)와 연동하여 다양한 형태의 신호 또는 데이터를 입력하거나, 외부 장치와의 연동을 통해 신호 또는 데이터를 획득하여 프로세서(130)로 전달할 수도 있다. 여기서, 입력부(110)는 실제 영상, 잠재 벡터, 랜덤 변수, 소정의 입력값 등을 입력하기 위한 모듈로 구현될 수 있으나 반드시 이에 한정되는 것은 아니다. The input unit 110 means a means for inputting or obtaining a signal or data for performing an image generating operation in the
출력부(120)는 프로세서(130)와 연동하여 가상 영상 데이터 기반의 영상의 진위 여부 및 영상의 진행 방향 등의 학습 결과, 영상 생성 결과 등 다양한 정보를 출력할 수 있다. 출력부(120)는 영상 생성 장치(100)에 구비된 디스플레이(미도시)를 통해 다양한 정보를 출력할 수 있으나 반드시 이에 한정되는 것은 아니며, 다양한 형태의 방식으로 출력을 수행할 수 있다. The
프로세서(130)는 메모리(140)에 포함된 적어도 하나의 명령어 또는 프로그램을 실행시키는 기능을 수행한다.The
본 실시예에 따른 프로세서(130)는 입력부(110) 또는 데이터 베이스(150)로부터 획득한 잠재 벡터 또는 실제 영상 데이터를 기반으로 기계학습을 수행하고, 기계학습 결과를 기반으로 기 학습되지 않은 가상 영상을 생성하는 동작을 수행한다. The
프로세서(130)는 획득된 잠재 벡터를 입력으로 가상 영상에 대한 가상 영상 데이터를 생성하고, 실제 영상에 대한 실제 영상 데이터를 획득한다. The
또한, 프로세서(130)는 가상 영상 데이터 및 실제 영상 데이터 각각의 시간 특성을 반전시켜 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터를 생성한다. Also, the
또한, 프로세서(130)는 가상 영상 데이터, 실제 영상 데이터, 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터 중 적어도 두 개의 데이터를 비교하여 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리하여 영상 생성이 수행되도록 한다. 본 실시예에 따른 프로세서(130)의 자세한 동작은 도 2 내지 5에서 설명하도록 한다. In addition, the
메모리(140)는 프로세서(130)에 의해 실행 가능한 적어도 하나의 명령어 또는 프로그램을 포함한다. 메모리(140)는 가상 영상 데이터를 생성하는 동작, 영상 데이터의 진행 방향을 변환하는 동작, 가상 영상에 대한 진위 여부의 분류를 처리하는 동작, 가상 영상에 대한 진행 방향의 분류를 처리하는 동작, 영상 생성을 수행하는 동작 등을 위한 명령어 또는 프로그램을 포함할 수 있다. The
데이터베이스(150)는 데이터베이스 관리 프로그램(DBMS)을 이용하여 컴퓨터 시스템의 저장공간(하드디스크 또는 메모리)에 구현된 일반적인 데이터구조를 의미하는 것으로, 데이터의 검색(추출), 삭제, 편집, 추가 등을 자유롭게 행할 수 있는 데이터 저장형태를 뜻하는 것으로, 오라클(Oracle), 인포믹스(Infomix), 사이베이스(Sybase), DB2와 같은 관계형 데이타베이스 관리 시스템(RDBMS)이나, 겜스톤(Gemston), 오리온(Orion), O2 등과 같은 객체 지향 데이타베이스 관리 시스템(OODBMS) 및 엑셀론(Excelon), 타미노(Tamino), 세카이주(Sekaiju) 등의 XML 전용 데이터베이스(XML Native Database)를 이용하여 본 발명의 일 실시예의 목적에 맞게 구현될 수 있고, 자신의 기능을 달성하기 위하여 적당한 필드(Field) 또는 엘리먼트들을 가지고 있다.The
본 실시예에 따른 데이터베이스(150)는 영상 생성 또는 영상 생성을 위한 학습과 관련된 데이터를 저장하고, 기 저장된 영상 생성 또는 영상 생성을 위한 학습과 관련된 데이터를 제공할 수 있다. The
데이터베이스(150)에 저장된 데이터는 잠재 벡터, 영상 데이터(예: 실제 영상 데이터, 가상 영상 데이터, 역방향 실제 영상 데이터, 역방향 가상 영상 데이터 등), 학습 결과(예: 제1 학습 결과, 제2 학습 결과, 영상 생성 학습 결과 등), 영상 생성 결과 등에 대한 데이터일 수 있다. 데이터베이스(140)는 영상 생성 장치(100) 내에 구현되는 것으로 기재하고 있으나 반드시 이에 한정되는 것은 아니며, 별도의 데이터 저장장치로 구현될 수도 있다.Data stored in the
도 2는 본 발명의 실시예에 따른 프로세서의 학습을 위한 동작 구성을 개략적으로 나타낸 블록 구성도이다.2 is a block diagram schematically illustrating an operation configuration for learning of a processor according to an embodiment of the present invention.
본 실시예에 따른 영상 생성 장치(100)에 포함된 프로세서(130)는 기계 학습을 기반으로 영상을 생성하는 동작을 수행한다. 여기서, 기계 학습은 생성적 적대 신경망(GAN: Generative Adversarial Network)을 이용한 학습인 것이 바람직하나 반드시 이에 한정되는 것은 아니다. The
영상 생성 장치(100)에 포함된 프로세서(130)는 획득된 잠재 벡터를 입력으로 가상 영상에 대한 가상 영상 데이터를 생성하고, 실제 영상에 대한 실제 영상 데이터를 획득하며, 가상 영상 데이터 및 실제 영상 데이터 각각의 시간 특성을 반전시켜 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터를 생성하고, 가상 영상 데이터, 실제 영상 데이터, 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터 중 적어도 두 개의 데이터를 비교하여 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리하여 영상 생성이 수행되도록 하는 동작이 수행되도록 하며, 영상 생성을 수행하는 모든 기기에 탑재되거나, 영상 생성을 수행하는 소프트웨어와 연동할 수 있다. The
본 실시예에 따른 프로세서(130)는 벡터 획득부(210), 생성자(220), 영상 특징값 처리부(230), 영상 변환부(240), 감별자(250)를 포함할 수 있다. 도 2의 프로세서(130)는 일 실시예에 따른 것으로서, 도 2에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 프로세서(130)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. 한편, 프로세서(130)에 포함된 각 구성요소들은 각각 별도의 소프트웨어 장치로 구현되거나, 소프트웨어가 결합된 별도의 하드웨어 장치로 구현될 수 있다.The
벡터 획득부(210)는 소정의 입력값 기반의 잠재 벡터를 획득한다. The
벡터 획득부(210)는 기 설정된 개수의 정규분포 값으로 구성된 잠재 벡터를 획득한다. 여기서, 잠재 벡터는 랜덤으로 선정된 정규분포 값 또는 기 설정된 개수의 영상 프레임 각각에서 산출된 정규분포 값으로 구성될 수 있다. The
생성자(220)는 잠재 벡터를 입력으로 가상 영상에 대한 가상 영상 데이터를 생성하는 동작을 수행한다. The
생성자(220)는 잠재 벡터를 기반으로 생성된 시간이 연속되는 적어도 하나의 세그먼트 블록을 포함하는 가상 영상 데이터를 생성한다. 여기서, 가상 영상 데이터에 포함된 상기 적어도 하나의 세그먼트 블록 각각은 RGB에 대한 특징값을 포함할 수 있다. 여기서, 생성자(220)는 컨볼루션 뉴럴 네트워크(CNN: Convolutional Neural Networks) 학습을 통해 가상 영상 데이터를 생성하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.The
영상 특징값 처리부(230)는 생성자(220)로부터 가상 영상 데이터를 획득하고, 외부 장치로부터 실제 영상에 대한 실제 영상 데이터를 획득한다. The image feature
영상 특징값 처리부(230)는 실제 영상을 기반으로 생성된 시간이 연속되는 적어도 하나의 세그먼트 블록을 포함하는 실제 영상 데이터를 입력 받을 수 있다. 여기서, 실제 영상 데이터에 포함된 상기 세그먼트 블록의 개수는 상기 가상 영상 데이터에 포함된 세크먼트 블록의 개수와 동일한 것이 바람직하다. The image feature
영상 특징값 처리부(230)는 가상 영상과 무관한 실제 영상에 대한 실제 영상 데이터를 획득할 수 있다. 여기서, 실제 영상은 기 저장된 데이터베이스에서 추출되거나 네트워크 상에서 탐색된 영상의 전체 또는 일부에서 수집된 영상일 수 있다. The image feature
영상 특징값 처리부(230)는 획득된 가상 영상 데이터 및 실제 영상 데이터를 감별자(250)로 전달하는 동작을 수행한다. 한편, 생성자(220)에서 가상 영상 데이터 및 실제 영상 데이터를 감별자(250)로 직접 전달하는 경우, 영상 특징값 처리부(230)는 생략되거나, 생성자(220)에 포함된 형태로 구현될 수 있다.The image feature
영상 변환부(240)는 가상 영상 데이터 및 실제 영상 데이터를 입력 받고, 가상 영상 데이터 및 실제 영상 데이터 각각의 시간 특성을 반전시켜 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터를 생성하는 동작을 수행한다. The
본 실시예에 따른 영상 변환부(240)는 제1 영상 특징값 변환부(242) 및 제2 영상 특징값 변환부(244)를 포함한다. The
제1 영상 특징값 변환부(242)는 실제 영상 데이터의 시간 특성을 기반으로 진행 순서를 반전시켜 상기 역방향 실제 영상 데이터를 생성하는 동작을 수행한다. 구체적으로, 제1 영상 특징값 변환부(242)는 실제 영상 데이터에 포함된 적어도 하나의 세그먼트 블록의 순서를 역순으로 변환하여 역방향 실제 영상 데이터를 생성할 수 있다. The first image feature
제2 영상 특징값 변환부(244)는 가상 영상 데이터의 시간 특성을 기반으로 진행 순서를 반전시켜 역방향 가상 영상 데이터를 생성하는 동작을 수행한다. 구체적으로, 제2 영상 특징값 변환부(244)는 가상 영상 데이터에 포함된 적어도 하나의 세그먼트 블록의 순서를 역순으로 변환하여 역방향 가상 영상 데이터를 생성할 수 있다. The second image feature
감별자(250)는 영상 특징값 처리부(230) 및 영상 변환부(240)과 연동하여 영상 생성을 위한 감별 처리를 수행한다. The
감별자(250)는 가상 영상 데이터, 실제 영상 데이터, 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터 중 적어도 두 개의 데이터를 비교하여 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리하여 영상 생성이 수행되도록 한다. The
본 실시예에 따른 감별자(250)는 영상 특징값 추출부(252), 제1 감별자(254) 및 제2 감별자(256)를 포함한다. The
영상 특징값 추출부(252)는 가상 영상 데이터, 실제 영상 데이터, 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터 각각에 대한 특징값을 추출할 수 있다. 영상 특징값 추출부(252)는 제1 감별자(254) 및 제2 감별자(256)와 서로 공유된 적어도 하나의 컨볼루션 레이어로 구성될 수 있다. The image
제1 감별자(254) 및 제2 감별자(256)는 서로 공유된 적어도 하나의 컨볼루션 레이어를 통과한 특징값을 기반으로 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리한다. The
제1 감별자(254)는 가상 영상 데이터 및 실제 영상 데이터에 대한 특징값을 이용하여 상기 가상 영상의 진위 여부에 대한 분류를 처리한다. 제1 감별자(254)는 가상 영상 데이터 및 실제 영상 데이터의 특징값을 비교하여 가상 영상의 진위 여부를 학습하고, 학습한 제1 학습 결과를 출력한다. The
제1 감별자(254)는 제1 학습 결과에 근거하여 생성자(220)로 피드백 정보를 전달하며, 생성자(220)에서 가상 영상이 참 신호로 분류되는 가상 영상이 생성될 때까지 반복하여 가상 영상의 진위 여부를 학습한다. 여기서, 제1 감별자(254)는 생성자(220)와 연동하여 가상 영상 데이터가 참 신호에 해당하도록 분류하기 위하여 생성적 적대 신경망(GAN: Generative Adversarial Network)을 기반으로 학습을 수행하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.The
제2 감별자(256)는 가상 영상 데이터 및 역방향 가상 영상 데이터에 대한 특징값을 이용하여 영상의 진행 방향에 대한 분류를 처리한다. 제2 감별자(256)는 가상 영상 데이터 및 역방향 가상 영상 데이터의 특징값을 비교하여 가상 영상의 진행 방향을 학습하고, 학습한 제2 학습 결과를 출력한다. The
제2 감별자(256)는 제2 학습 결과에 근거하여 생성자(220)로 피드백 정보를 전달하며, 생성자(220)에서 순방향 가상 영상이 참 신호로 분류되는 가상 영상이 생성될 때까지 반복하여 가상 영상의 진위 여부를 학습한다. 여기서, 제2 감별자(256)는 생성자(220)와 연동하여 가상 영상 데이터가 참 신호에 해당하도록 분류하기 위하여 생성적 적대 신경망(GAN: Generative Adversarial Network)을 기반으로 학습을 수행하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.The
감별자(250)는 제1 학습 결과 및 제2 학습 결과를 기반으로 피드백 정보를 산출하고, 피드백 정보를 이용하여 감별자(250)에서 가상 영상 데이터 및 실제 영상 데이터를 비교하여 순방향의 가상 영상이 참 신호로 분류될 때까지 반복하여 가상 영상의 진위 여부를 학습한다.The
도 3은 본 발명의 실시예에 따른 영상 생성을 위한 학습 방법을 설명하기 위한 순서도이다.3 is a flowchart illustrating a learning method for image generation according to an embodiment of the present invention.
영상 생성 장치(100)는 실제 영상 기반의 실제 영상 데이터를 획득한다(S310). 여기서, 실제 영상 데이터는 외부 장치로부터 획득될 수 있으며, 실제 영상을 기반으로 생성된 시간이 연속되는 적어도 하나의 세그먼트 블록을 포함할 수 있다. The
영상 생성 장치(100)는 잠재 벡터를 획득하고(S320), 잠재 벡터를 기반으로 가상 영상을 생성하고, 생성된 가상 영상에 대한 가상 영상 데이터를 생성한다(S330). 영상 생성 장치(100)는 잠재 벡터를 기반으로 생성된 시간이 연속되는 적어도 하나의 세그먼트 블록을 포함하는 가상 영상 데이터를 생성한다. 여기서, 가상 영상 데이터에 포함된 상기 적어도 하나의 세그먼트 블록 각각은 RGB에 대한 특징값을 포함할 수 있다.The
영상 생성 장치(100)는 가상 영상 데이터 및 실제 영상 데이터 각각의 재생 방향을 변환한다(S340). 영상 생성 장치(100)는 가상 영상 데이터 및 실제 영상 데이터 각각의 시간 특성을 반전시켜 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터를 생성한다. The
영상 생성 장치(100)는 제1 감별 처리를 통해 제1 학습결과를 생성한다(S350). 영상 생성 장치(100)는 가상 영상 데이터 및 실제 영상 데이터에 대한 특징값을 이용하여 상기 가상 영상의 진위 여부에 대한 분류를 처리한다. 영상 생성 장치(100)는 가상 영상 데이터 및 실제 영상 데이터의 특징값을 비교하여 가상 영상의 진위 여부를 학습하고, 학습한 제1 학습 결과를 출력한다. The
영상 생성 장치(100)는 제2 감별 처리를 통해 제2 학습결과를 생성한다(S360). 영상 생성 장치(100)는 가상 영상 데이터 및 역방향 가상 영상 데이터에 대한 특징값을 이용하여 영상의 진행 방향에 대한 분류를 처리한다. 영상 생성 장치(100)는 가상 영상 데이터 및 역방향 가상 영상 데이터의 특징값을 비교하여 가상 영상의 진행 방향을 학습하고, 학습한 제2 학습 결과를 출력한다. The
도 3에서는 각 단계를 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 3에 기재된 단계를 변경하여 실행하거나 하나 이상의 단계를 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 3은 시계열적인 순서로 한정되는 것은 아니다.Although it is described that each step is sequentially executed in FIG. 3 , it is not necessarily limited thereto. In other words, since it may be applicable to changing and executing the steps described in FIG. 3 or executing one or more steps in parallel, FIG. 3 is not limited to a time-series order.
도 3에 기재된 본 실시예에 따른 영상 생성 학습 방법은 애플리케이션(또는 프로그램)으로 구현되고 단말장치(또는 컴퓨터)로 읽을 수 있는 기록매체에 기록될 수 있다. 본 실시예에 따른 영상 생성 학습 방법을 구현하기 위한 애플리케이션(또는 프로그램)이 기록되고 단말장치(또는 컴퓨터)가 읽을 수 있는 기록매체는 컴퓨팅 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치 또는 매체를 포함한다.The image generation learning method according to the present embodiment described in FIG. 3 may be implemented as an application (or program) and recorded in a recording medium readable by a terminal device (or computer). The recording medium in which the application (or program) for implementing the image generation learning method according to the present embodiment is recorded and the terminal device (or computer) can read is any type of recording device in which data that can be read by the computing system is stored. or media.
도 4는 본 발명의 실시예에 따른 프로세서의 영상 생성을 위한 동작 구성을 개략적으로 나타낸 블록 구성도이다.4 is a block diagram schematically illustrating an operation configuration for image generation of a processor according to an embodiment of the present invention.
본 실시예에 따른 영상 생성 장치(100)에 포함된 프로세서(130)는 입력 벡터 획득부(410), 신경망 처리부(420), 학습 결과 적용부(430), 영상 생성부(440) 및 결과 출력부(450)를 포함한다. 도 4의 프로세서(130)는 일 실시예에 따른 것으로서, 도 4에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 프로세서(130)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. 한편, 프로세서(130)에 포함된 각 구성요소들은 각각 별도의 소프트웨어 장치로 구현되거나, 소프트웨어가 결합된 별도의 하드웨어 장치로 구현될 수 있다.The
입력 벡터 획득부(410)는 영상 생성을 위한 입력 벡터를 획득한다. 여기서, 입력 벡터는 학습 시 입력되지 않은 영상을 생성하기 위한 입력값을 의미한다. 여기서, 입력 벡터는 랜덤으로 입력된 값 또는 사용자의 조작에 의해 입력된 값을 포함할 수 있다. The input
신경망 처리부(420)는 획득된 입력 벡터에 대한 특징값을 추출하는 동작을 수행한다. 신경망 처리부(420)는 컨볼루션 뉴럴 네트워크(CNN: Convolutional Neural Networks) 학습을 기반으로 특징값을 추출할 수 있다. 여기서, 특징값은 복수의 영상 특징값을 포함할 수 있다.The neural
학습 결과 적용부(430)는 가상 영상 데이터 및 실제 영상 데이터의 특징값을 비교하여 가상 영상의 진위 여부를 학습한 제1 학습 결과와 가상 영상 데이터 및 역방향 가상 영상 데이터의 특징값을 비교하여 가상 영상의 진행 방향을 학습한 제2 학습 결과를 적용하며, 영상 생성부(440)는 적용된 학습 결과를 기반으로 신규 영상을 생성한다. 여기서, 신규 영상은 가상 영상을 의미한다. The learning result application unit 430 compares the first learning result of learning whether the virtual image is authentic or not by comparing the feature values of the virtual image data and the real image data, and compares the feature values of the virtual image data and the reverse virtual image data to obtain a virtual image The second learning result of learning the progress direction is applied, and the
결과 출력부(450)는 생성된 신규 영상을 출력하여 제공한다. 여기서, 신규 영상은 영상 인식, 동작 인식 등의 학습을 위한 데이터 세트로 제공될 수 있다. The result output unit 450 outputs and provides the generated new image. Here, the new image may be provided as a data set for learning such as image recognition and motion recognition.
도 5는 본 발명의 실시예에 따른 영상 생성 방법을 설명하기 위한 순서도이다.5 is a flowchart illustrating an image generating method according to an embodiment of the present invention.
영상 생성 장치(100)는 영상 생성을 위한 입력 벡터를 획득한다(S510). 여기서, 입력 벡터는 학습 시 입력되지 않은 영상을 생성하기 위한 입력값을 의미한다. 여기서, 입력 벡터는 랜덤으로 입력된 값 또는 사용자의 조작에 의해 입력된 값을 포함할 수 있다.The
영상 생성 장치(100)는 획득된 입력 벡터를 신경망 처리하여 특징값을 추출한다(S520). 여기서, 영상 생성 장치(100)는 컨볼루션 뉴럴 네트워크(CNN: Convolutional Neural Networks) 학습을 기반으로 입력 벡터에 대한 특징값을 추출할 수 있다.The
영상 생성 장치(100)는 기 학습된 학습 결과 적용하여(S530), 신규 영상을 생성한다(S540).The
영상 생성 장치(100)는 가상 영상 데이터 및 실제 영상 데이터의 특징값을 비교하여 가상 영상의 진위 여부를 학습한 제1 학습 결과와 가상 영상 데이터 및 역방향 가상 영상 데이터의 특징값을 비교하여 가상 영상의 진행 방향을 학습한 제2 학습 결과를 적용하며, 적용된 학습 결과를 기반으로 신규 영상을 생성한다. 여기서, 신규 영상은 가상 영상을 의미한다. The
영상 생성 장치(100)는 생성된 신규 영상을 출력하여 제공한다. 여기서, 신규 영상은 영상 인식, 동작 인식 등의 학습을 위한 데이터 세트로 제공될 수 있다. The
도 5에서는 각 단계를 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 5에 기재된 단계를 변경하여 실행하거나 하나 이상의 단계를 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 5는 시계열적인 순서로 한정되는 것은 아니다.Although it is described that each step is sequentially executed in FIG. 5 , the present invention is not limited thereto. In other words, since it may be applicable to changing and executing the steps described in FIG. 5 or executing one or more steps in parallel, FIG. 5 is not limited to a chronological order.
도 5에 기재된 본 실시예에 따른 영상 생성 방법은 애플리케이션(또는 프로그램)으로 구현되고 단말장치(또는 컴퓨터)로 읽을 수 있는 기록매체에 기록될 수 있다. 본 실시예에 따른 영상 생성 방법을 구현하기 위한 애플리케이션(또는 프로그램)이 기록되고 단말장치(또는 컴퓨터)가 읽을 수 있는 기록매체는 컴퓨팅 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치 또는 매체를 포함한다.The image generating method according to the present embodiment described in FIG. 5 may be implemented as an application (or program) and recorded in a recording medium readable by a terminal device (or computer). A recording medium in which an application (or program) for implementing the image generating method according to the present embodiment is recorded and a terminal device (or computer) readable recording medium is any type of recording device in which data that can be read by a computing system is stored or includes media.
도 6은 본 발명의 제1 실시예에 따른 영상 생성 장치의 학습 동작을 설명하기 위한 예시도이다.6 is an exemplary view for explaining a learning operation of the image generating apparatus according to the first embodiment of the present invention.
본 발명의 제1 실시예에 따른 영상 생성 장치(100)의 프로세서(130)는 ArrowGAN 기반의 프레임워크를 적용하여 생성자(220)와 감별자(250)에서 인간처럼 영상에 대한 시간의 특성(AoT: Arrow of Time)을 인지하는 능력을 학습시키는 것을 목표로 한다. The
이하, ArrowGAN 프레임워크에서의 감별자(250)에 대해 설명하도록 한다. Hereinafter, the
감별자(250)는 실제 영상과 페이크 영상(가상 영상)을 구별하고, 정방향 영상 및 역방향 영상도 구별한다. The
감별자(250)는 입력 영상 x가 실제 영상일 때의 확률 p(real | x), 입력 영상 x가 순방향일 때의 확률 p(forward | x)를 출력한다. The
감별자(250)는 공유된 컨볼루션 레이어(252)와 두 개의 출력단(254, 256)으로 구성된다. 감별자(250)는 주어진 영상 x에 대해, 자체 감독 이진 교차 엔트로피 손실을 설계하기 위해 수학식 1을 정의하고, 한 쌍의 순방향 영상 xfoward 및 반전을 통한 역방향 영상 xbackward를 생성한다.The
여기서, A는 AoT 세트 {forward, backward}를 의미하고, Pdata는 실제 영상의 분포를 의미하고, p(a | xa)는 영상이 정방향 재생인지 역방향 재생인지에 대한 예측값의 베르누이 분포를 의미한다. 상기 목적을 최소화함으로써, 감별자(250)는 수학식 2를 이용하여 시간의 특성에 대한 감각을 학습한다.Here, A means the AoT set {forward, backward}, P data means the distribution of the actual image, and p(a | x a ) means the Bernoulli distribution of the predicted values for whether the image is forward or backward. do. By minimizing the above objective, the
감별자(250)는 실제 영상일 때의 확률 p(real | x) 학습에 대한 적대적 손실(Ladv)을 유지하고, 실제 영상과 생성된 가상 영상을 구별하여 극대화하려고 한다. 감별자(250)의 완전한 목적함수은 수학식 3과 같이 정의될 수 있다. The discriminator 250 maintains the adversarial loss (L adv ) for learning the probability p(real|x) when it is a real image, and tries to maximize it by distinguishing the real image from the generated virtual image. The complete objective function of the
여기서 α는 두 항 사이의 중요도를 제어하기 위한 하이퍼변수이다.where α is a hypervariable to control the importance between the two terms.
도 6에 도시된 바와 같이, 본 발명은 두 가지 방식으로 감별자(250)를 훈련시킨다. 실제 영상 및 생성된 가상 영상은 공유 컨볼루션 레이어와 LSS D를 생성하는 제1 감별자(254)를 통과한다. As shown in Fig. 6, the present invention trains the
또한, 순방향 영상 및 역방향 영상은 공유 컨볼루션 레이어와 Ladv D를 생성하는 제2 감별자(256)을 통과한다. In addition, the forward image and the backward image pass through the shared convolutional layer and the
이하, ArrowGAN 프레임워크에서의 생성자(220)에 대해 설명하도록 한다. Hereinafter, the
생성자(220)는 제약 조건(inductive bias)을 기반으로 생성된 가상 영상이 시간 내에 순방향으로 진행하는 것을 학습한다. 따라서, 생성자(220)는 생성된 가상 영상 G(z)를 감별자(250)로 입력함으로써, 감별자(250)로부터 손실을 받는다. 여기서, 손실은 수학식 4와 같이 정의될 수 있다. The
여기서 pz는 표준 가우스 분포 N (0, 1)입니다. 위의 목적을 최소화함으로써, 생성자(220)는 순방향 영상을 생성하기 위한 학습을 수행한다. 생성자(220)는 순방향 영상만 제작한다. 하지만, 감별자(250)는 실제 영상과 유사하게 만들기 위해 순방향 영상과 순방향 영상을 반전시킨 역방향 영상을 모두를 입력 받는다. where p z is the standard Gaussian distribution N (0, 1). By minimizing the above object, the
한편, 생성자(220)는 사실적으로 가상 영상을 생성하기 위하여 적대적 손실(Ladv)를 최소화한다. On the other hand, the generator 220 minimizes the hostile loss (L adv ) in order to realistically generate a virtual image.
생성자(220)는 생성자(220)에 대한 전체 목적을 최소화함으로써, 사실적이고 순방향으로 진행되는 영상을 생성하는 학습을 수행한다. 여기서 β는 두 용어 사이의 중요도를 제어하기 위한 하이퍼변수이다. The
본 발명에 따른 ArrowGAN 프레임워크는 일반적으로 사용되고 있는 다양한 GAN 학습 방식에 적용될 수 있다. 예를 들어, 본 발명에 따른 ArrowGAN 프레임워크는 VGAN(video Generative Adversarial Nets), TGAN (Temporal Generative Adversarial Nets), MoCoGAN 등에 적용될 수 있다. The ArrowGAN framework according to the present invention can be applied to various commonly used GAN learning methods. For example, the ArrowGAN framework according to the present invention may be applied to video Generative Adversarial Nets (VGAN), Temporal Generative Adversarial Nets (TGAN), MoCoGAN, and the like.
도 7은 본 발명의 제2 실시예에 따른 영상 생성 장치의 학습 동작을 설명하기 위한 예시도이다.7 is an exemplary diagram for explaining a learning operation of the image generating apparatus according to the second embodiment of the present invention.
본 발명의 제2 실시예에 따른 영상 생성 장치(100)의 프로세서(130)는 범주형으로 ArrowGAN 기반의 프레임워크를 적용하여 영상을 생성하는 것을 목표로 한다. 다시 말해, 제2 실시예에 따른 영상 생성 장치(100)의 프로세서(130)는 이미지 생성에 최신 기술을 사용하여 범주형 MoCoGAN 베이스 라인(baseline)에 비해 성능을 개선하고 범주 영상 생성을 위한 ArrowGAN 프레임 워크를 활용한다. The
베이스 라인은 프레임 단위로 생성되며 두 개의 감별자가 존재한다. 하나는 영상용 감별자이고, 다른 하나는 프레임용 감별자이다. Base lines are created in units of frames and there are two discriminators. One is a discriminator for an image, and the other is a discriminator for a frame.
비디오 생성과 이미지 생성 간의 격차를 줄이기 위해 이미지 생성에서 범주 형 MoCo-GAN에 이르기까지 최근의 효과적인 기술을 사용할 수 있다. To close the gap between video generation and image generation, recent and effective techniques, ranging from image generation to categorical MoCo-GANs, can be used.
먼저, 조건부 배치 정규화 (CBN: Conditional Batch Normalization, 730)을 확장하여 클래스 레이블을 생성자(220)에 전달한다. First, a class label is transmitted to the
조건부 배치 정규화 계층(730)은 클래스 레이블(720)의 출력 이미지를 조정하기 위해 배치 정규화를 위한 매개 변수를 조작하여 생성자의 기능 활성화를 변조한다. 여기서, 영상 생성을 위해 각 프레임 생성자(220)에 조건부 배치 정규화 레이어(730)를 삽입한다.The conditional
또한, 감별자(250)는 프로젝션 감별자로 대체되며, 프로젝션 감별자는 두 번째 특징 벡터와 클래스 점수로 간주되는 클래스 임베딩 사이에서 내부 구성(inner product)을 계산한다. 3D 컨볼루션(740)을 사용하여 영상 도메인을 자연스럽게 일반화하기 위해 프로젝션 감별자를 수학식 6을 기반으로 수정할 수 있다.Also, the
여기서 y는 클래스 레이블을 나타내는 one-hot 벡터이고, V는 클래스 임베딩 행렬이고, Φ는 감별자의 최후 계층에서 특징을 추출하며, ø는 스칼라 값을 생성하는 풀리 커넥티드 레이어를 의미한다. Here, y is a one-hot vector representing a class label, V is a class embedding matrix, Φ is a feature extracted from the last layer of a discriminator, and ø is a fully connected layer that generates a scalar value.
다음으로, 본 발명에서는 안정적인 훈련을 위해 비디오 감별자 및 프레임 감별자 모두에서 스펙트럼 정규화 계층을 활용한다. 이후, 각 영역에서 안정적인 훈련과 다양한 영상을 위해 모드 탐색 손실을 추가한다. 설정에서 주어진 2 개의 잠재 벡터에 대해 생성된 영상 간의 차이를 비디오 간의 차이를 증가시킨다. 마지막으로, 본 발명에서는 잠재 벡터 사이의 거리에 걸쳐 생성된 영상 사이의 거리를 명시적으로 증진함으로써 영상의 다양성을 강화하고 모드 붕괴 문제를 완화시킬 수 있다. 특히, 본 발명에서는 그 역수의 최소화를 수학식 7과 같이 수행할 수 있다. Next, the present invention utilizes a spectral normalization layer in both the video discriminator and the frame discriminator for stable training. After that, mode search loss is added for stable training and various images in each domain. The difference between the images generated for the two latent vectors given in the settings increases the difference between the videos. Finally, in the present invention, by explicitly enhancing the distance between the generated images over the distance between the latent vectors, the diversity of images can be enhanced and the mode collapse problem can be alleviated. In particular, in the present invention, the minimization of the reciprocal can be performed as in Equation 7.
여기서, dz와 dv는 잠재 벡터 사이의 거리와 생성된 영상 사이의 거리를 각각 나타낸다.Here, d z and d v represent the distance between the latent vectors and the distance between the generated images, respectively.
본 발명의 제2 실시예에 따른 영상 생성 장치(100)의 프로세서(130)는 적대적 손실이 힌지 버전(hinge version of the adversarial losses), 자체 감독 손실(self-supervised losses) 및 모드 탐색 정규화기(mode-seeking regularizer) 등의 목적 함수로 범주형 ArrowGAN를 훈련한다. 생성자와 감별자의 훈련은 수학식 8과 같이, 주어진 최대-최소 문제를 해결함으로써 달성된다. The
마지막으로, 생성자와 감별자의 전체 목적은 수학식 9와 같다. Finally, the overall purpose of the generator and the discriminator is shown in Equation (9).
여기서, λ1, λ2, 및 λ3은 1, 0.2 및 0.2 각각으로 가정할 수 있다. 범주형 ArrowGAN에 대한 구조는 도 7과 같다. 범주형 ArrowGAN은 클레스 레이블(720)의 입력을 통해 레이블 정보에 대응하는 가상 영상(제1 내지 제4 가상 영상)을 생성하고, 이를 통해 생성적 적대 학습을 수행할 수 있다. Here, λ1, λ2, and λ3 may be assumed to be 1, 0.2, and 0.2, respectively. The structure of the categorical ArrowGAN is shown in FIG. 7 . The categorical ArrowGAN generates virtual images (first to fourth virtual images) corresponding to the label information through the input of the
도 8a 내지 도 8c는 본 발명의 실시예에 따른 영상 생성 장치의 학습 결과 및 적용 결과를 나타낸 도면이다. 8A to 8C are diagrams illustrating a learning result and an application result of the image generating apparatus according to an embodiment of the present invention.
도 8a는 범주형 ArrowGAN에서 생성된 선별되지 않은 영상 세트를 나타낸다. 도 8a는 Weizmann, UCFsports 및 UCF-101에서 클래스 레이블별로 유효한 비디오를 정 성적으로 얼마나 잘 생성하는지를 보여준다. Fig. 8a shows an unselected image set generated in categorical ArrowGAN Figure 8a shows how well Weizmann, UCFsports and UCF-101 qualitatively generate valid videos by class label.
도 8a의 (a, b)는 서로 다른 8 개의 클래스에 대한 4 개의 연속 프레임을 나타내고, 도 8a의 (c)는 많은 비디오에서 무작위로 샘플링 된 프레임을 나타낸다. Fig. 8a (a, b) shows four consecutive frames for 8 different classes, and Fig. 8a (c) shows randomly sampled frames from many videos.
도 8a의 (a, b)는 클래스 레이블만 있는 잠재 공간에서 생성된 샘플이다. 또한, 범주형 ArrowGAN은 도 8a의 (c)와 같이 단순한 데이터 세트뿐만 아니라 대규모 데이터 세트 UCF-101에서도 영상을 생성할 수 있다.8A (a, b) are samples generated in the latent space with only class labels. In addition, the categorical ArrowGAN can generate images not only in a simple data set as shown in Fig. 8a (c) but also in a large data set UCF-101.
도 8b는 일반적인 GAN 학습의 베이스라인에 ArrowGAN 프레임워크를 적용한 효과를 나타낸다. Figure 8b shows the effect of applying the ArrowGAN framework to the baseline of general GAN learning.
도 8b는 ArrowGAN이 적용될 때 모든 베이스라인과 모든 데이터 세트에 대해 IS의 지속적인 개선을 정량적으로 보여준다. 본 발명에서는 생성자를 수정하지 않고, 감별자에 최소한으로 변경하여 보조 자체 감독 작업을 추가한다. 이는 ArrorGAN 프레임워크가 다른 영상-GAN이에 쉽게 적용할 수 있음을 의미한다. Figure 8b quantitatively shows the continuous improvement of IS for all baselines and all data sets when ArrowGAN is applied. In the present invention, an auxiliary self-supervised operation is added with minimal changes to the discriminator without modifying the constructor. This means that the ArrorGAN framework can be easily applied to other video-GANs.
도 8c는 ArrowGAN의 정성적 결과를 나타낸다. 도 8c의 (a)는 종래의 GAN 학습 결과를 나타내고, 도 8c의 (b)는 ArrorGAN 프레임워크를 적용한 GAN 학습 결과를 나타낸다. 도 8c의 (b)에서는 특히, 사지(four limbs) 또는 사물과 같은 세밀한 부분에서 개선된 것을 관찰할 수 있다. 8c shows the qualitative results of ArrowGAN. Fig. 8c (a) shows the conventional GAN learning result, and Fig. 8c (b) shows the GAN learning result to which the ArrorGAN framework is applied. In (b) of FIG. 8c , it can be observed that, in particular, improvements are made in details such as four limbs or objects.
이상의 설명은 본 발명의 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명의 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명의 실시예들은 본 발명의 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical spirit of the embodiment of the present invention, and those of ordinary skill in the art to which the embodiment of the present invention pertains may modify various modifications and transformation will be possible. Accordingly, the embodiments of the present invention are not intended to limit the technical spirit of the embodiment of the present invention, but to explain, and the scope of the technical spirit of the embodiment of the present invention is not limited by these embodiments. The protection scope of the embodiment of the present invention should be interpreted by the following claims, and all technical ideas within the scope equivalent thereto should be construed as being included in the scope of the present invention.
100: 영상 생성 장치
110: 입력부 120: 출력부
130: 프로세서 140: 메모리
150: 데이터 베이스
210: 벡터 획득부 220: 생성자
230: 영상 특징값 처리부 240: 영상 변환부
250: 감별자100: image generating device
110: input unit 120: output unit
130: processor 140: memory
150: database
210: vector acquisition unit 220: constructor
230: image feature value processing unit 240: image conversion unit
250: discriminant
Claims (17)
소정의 입력값 기반의 잠재 벡터를 획득하는 벡터 획득 단계;
상기 잠재 벡터를 입력으로 가상 영상에 대한 가상 영상 데이터를 생성하는 생성 처리 단계;
실제 영상에 대한 실제 영상 데이터를 획득하는 영상 획득 단계;
상기 가상 영상 데이터 및 상기 실제 영상 데이터 각각의 시간 특성을 반전시켜 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터를 생성하는 변환 단계; 및
상기 가상 영상 데이터, 상기 실제 영상 데이터, 상기 역방향 가상 영상 데이터 및 상기 역방향 실제 영상 데이터 중 적어도 두 개의 데이터를 비교하여 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리하여 영상 생성이 수행되도록 하는 감별 처리 단계를 수행하되,
상기 생성 처리 단계는, 상기 잠재 벡터를 기반으로 생성된 시간이 연속되는 적어도 하나의 세그먼트 블록을 포함하는 상기 가상 영상 데이터를 생성하며, 상기 적어도 하나의 세그먼트 블록 각각은 RGB에 대한 특징값을 포함하는 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.In the image generation learning method performed by a computing device comprising one or more processors and a memory for storing one or more programs executed by the processor, the computing device comprising:
a vector obtaining step of obtaining a latent vector based on a predetermined input value;
a generation processing step of generating virtual image data for a virtual image by inputting the latent vector;
an image acquisition step of acquiring real image data for the real image;
a conversion step of inverting temporal characteristics of the virtual image data and the real image data to generate reverse virtual image data and reverse real image data; and
By comparing at least two data among the virtual image data, the real image data, the reverse virtual image data, and the reverse real image data, the image is generated by processing the classification of whether the image is authentic or not and the moving direction of the image. Perform a differential processing step to
The generating processing step generates the virtual image data including at least one segment block in which time generated based on the latent vector is continuous, and each of the at least one segment block includes a feature value for RGB. An image generation learning method in consideration of time characteristics, characterized in that.
상기 벡터 획득 단계는,
기 설정된 개수의 정규분포 값으로 구성된 상기 잠재 벡터를 획득하고, 상기 잠재 벡터는 랜덤으로 선정된 상기 정규분포 값 또는 기 설정된 개수의 영상 프레임 각각에서 산출된 상기 정규분포 값으로 구성되는 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.According to claim 1,
The vector acquisition step is
Obtaining the latent vector composed of a preset number of normal distribution values, wherein the latent vector is composed of the randomly selected normal distribution value or the normal distribution value calculated from each of the preset number of image frames An image generation learning method considering temporal characteristics.
상기 영상 획득 단계는,
상기 실제 영상을 기반으로 생성된 시간이 연속되는 적어도 하나의 세그먼트 블록을 포함하는 상기 실제 영상 데이터를 입력 받으며, 상기 실제 영상 데이터에 포함된 상기 세그먼트 블록의 개수는 상기 가상 영상 데이터에 포함된 세크먼트 블록의 개수와 동일한 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.According to claim 1,
The image acquisition step is
The real image data including at least one continuous segment block generated based on the real image is received, and the number of the segment blocks included in the real image data is the number of segments included in the virtual image data. An image generation learning method in consideration of time characteristics, characterized in that the number of blocks is the same.
상기 영상 획득 단계는,
상기 가상 영상과 무관한 상기 실제 영상에 대한 상기 실제 영상 데이터를 획득하며, 상기 실제 영상은 기 저장된 데이터베이스에서 추출되거나 네트워크 상에서 탐색된 영상의 전체 또는 일부에서 수집된 영상인 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.5. The method of claim 4,
The image acquisition step is
Acquire the real image data for the real image independent of the virtual image, wherein the real image is an image extracted from a pre-stored database or collected from all or a part of an image searched on a network. Considered image generation learning method.
상기 변환 단계는,
상기 실제 영상 데이터의 시간 특성을 기반으로 진행 순서를 반전시켜 상기 역방향 실제 영상 데이터를 생성하는 제1 변환 단계; 및
상기 가상 영상 데이터의 시간 특성을 기반으로 진행 순서를 반전시켜 상기 역방향 가상 영상 데이터를 생성하는 제2 변환 단계
를 포함하는 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.5. The method of claim 4,
The conversion step is
a first conversion step of generating the reverse real image data by inverting a processing order based on a temporal characteristic of the real image data; and
A second transformation step of generating the reverse virtual image data by inverting a processing order based on the temporal characteristics of the virtual image data
An image generation learning method in consideration of the temporal characteristics, characterized in that it comprises a.
상기 제1 변환 단계는,
상기 실제 영상 데이터에 포함된 상기 적어도 하나의 세그먼트 블록의 순서를 역순으로 변환하여 상기 역방향 실제 영상 데이터를 생성하는 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.7. The method of claim 6,
The first conversion step is
An image generation and learning method in consideration of temporal characteristics, characterized in that the reverse real image data is generated by converting the order of the at least one segment block included in the real image data in a reverse order.
상기 제2 변환 단계는,
상기 가상 영상 데이터에 포함된 상기 적어도 하나의 세그먼트 블록의 순서를 역순으로 변환하여 상기 역방향 가상 영상 데이터를 생성하는 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.7. The method of claim 6,
The second conversion step is
An image generation and learning method in consideration of temporal characteristics, characterized in that the reverse virtual image data is generated by converting the order of the at least one segment block included in the virtual image data in a reverse order.
상기 감별 처리 단계는,
상기 가상 영상 데이터, 상기 실제 영상 데이터, 상기 역방향 가상 영상 데이터 및 상기 역방향 실제 영상 데이터 각각에 대한 특징값을 추출하는 특징값 추출 단계;
상기 가상 영상 데이터 및 상기 실제 영상 데이터에 대한 특징값을 이용하여 상기 가상 영상의 진위 여부에 대한 분류를 처리하는 제1 감별 단계; 및
상기 가상 영상 데이터 및 상기 역방향 가상 영상 데이터에 대한 특징값을 이용하여 영상의 진행 방향에 대한 분류를 처리하는 제2 감별 단계
를 포함하는 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.5. The method of claim 4,
The discrimination processing step is
a feature value extraction step of extracting a feature value for each of the virtual image data, the real image data, the reverse virtual image data, and the reverse real image data;
a first discrimination step of classifying whether the virtual image is authentic or not by using feature values of the virtual image data and the real image data; and
A second discrimination step of processing classification of the moving direction of an image by using the feature values of the virtual image data and the backward virtual image data
An image generation learning method in consideration of the temporal characteristics, characterized in that it comprises a.
상기 제1 감별 단계 및 상기 제2 감별 단계는,
서로 공유된 적어도 하나의 컨볼루션 레이어를 통과한 상기 특징값을 기반으로 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리하는 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.10. The method of claim 9,
The first differentiation step and the second differentiation step include:
An image creation and learning method in consideration of temporal characteristics, characterized in that classification of each of the image's authenticity and the moving direction of the image is processed based on the feature value that has passed through at least one convolutional layer shared with each other.
상기 제1 감별 단계는,
상기 가상 영상 데이터 및 상기 실제 영상 데이터의 특징값을 비교하여 상기 가상 영상의 진위 여부를 학습한 제1 학습 결과를 출력하되,
상기 제1 감별 단계는, 상기 제1 학습 결과에 근거하여 상기 생성 처리 단계로 피드백 정보를 전달하며, 상기 생성 처리 단계에서 상기 가상 영상이 참 신호에 해당하는 가상 영상이 생성될 때까지 반복하여 상기 가상 영상의 진위 여부를 학습하는 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.10. The method of claim 9,
The first discrimination step is
Comparing the feature values of the virtual image data and the real image data, outputting a first learning result obtained by learning whether the virtual image is authentic or not,
In the first discrimination step, feedback information is transmitted to the generation processing step based on the first learning result, and in the generation processing step, the virtual image is repeated until a virtual image corresponding to a true signal is generated. An image creation and learning method in consideration of time characteristics, characterized in that learning whether a virtual image is authentic or not.
상기 제1 감별 단계는,
상기 가상 영상 데이터 및 상기 실제 영상 데이터의 특징값을 비교하여 상기 가상 영상의 진위 여부를 학습한 제1 학습 결과를 출력하고,
상기 제2 감별 단계는, 상기 가상 영상 데이터 및 상기 역방향 가상 영상 데이터의 특징값을 비교하여 상기 가상 영상의 진행 방향을 학습한 제2 학습 결과를 출력하되,
상기 제1 학습 결과 및 상기 제2 학습 결과를 기반으로 피드백 정보를 산출하고, 상기 피드백 정보를 이용하여 상기 감별 처리 단계에서 상기 가상 영상 데이터 및 상기 실제 영상 데이터를 비교하여 상기 가상 영상이 참 신호에 해당할 때까지 반복하여 상기 영상의 진위 여부를 학습하는 것을 특징으로 하는 시간 특성을 고려한 영상 생성 학습 방법.10. The method of claim 9,
The first discrimination step is
outputting a first learning result obtained by learning whether the virtual image is authentic or not by comparing the feature values of the virtual image data and the real image data;
The second discrimination step outputs a second learning result obtained by learning the moving direction of the virtual image by comparing the feature values of the virtual image data and the reverse virtual image data,
Feedback information is calculated based on the first learning result and the second learning result, and the virtual image data and the real image data are compared in the discrimination processing step using the feedback information to determine if the virtual image is a true signal. An image creation and learning method in consideration of a temporal characteristic, characterized in that it learns whether the image is authentic or not by iteratively until it corresponds.
하나 이상의 프로세서; 및
상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하며, 상기 프로그램들은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서들에서,
소정의 입력값 기반의 잠재 벡터를 획득하는 벡터 획득 단계;
상기 잠재 벡터를 입력으로 가상 영상에 대한 가상 영상 데이터를 생성하는 생성 처리 단계;
실제 영상에 대한 실제 영상 데이터를 획득하는 영상 획득 단계;
상기 가상 영상 데이터 및 상기 실제 영상 데이터 각각의 시간 특성을 반전시켜 역방향 가상 영상 데이터 및 역방향 실제 영상 데이터를 생성하는 변환 단계; 및
상기 가상 영상 데이터, 상기 실제 영상 데이터, 상기 역방향 가상 영상 데이터 및 상기 역방향 실제 영상 데이터 중 적어도 두 개의 데이터를 비교하여 영상의 진위 여부 및 영상의 진행 방향 각각에 대한 분류를 처리하여 영상 생성이 수행되도록 하는 감별 처리 단계를 포함하는 동작들을 수행하게 하되,
상기 생성 처리 단계는, 상기 잠재 벡터를 기반으로 생성된 시간이 연속되는 적어도 하나의 세그먼트 블록을 포함하는 상기 가상 영상 데이터를 생성하며, 상기 적어도 하나의 세그먼트 블록 각각은 RGB에 대한 특징값을 포함하는 것을 특징으로 하는 영상 생성 장치.An apparatus for generating an image in consideration of time characteristics, comprising:
one or more processors; and
a memory storing one or more programs executed by the processor, wherein the programs, when executed by the one or more processors, in the one or more processors;
a vector obtaining step of obtaining a latent vector based on a predetermined input value;
a generation processing step of generating virtual image data for a virtual image by inputting the latent vector;
an image acquisition step of acquiring real image data for the real image;
a conversion step of inverting temporal characteristics of the virtual image data and the real image data to generate reverse virtual image data and reverse real image data; and
By comparing at least two data among the virtual image data, the real image data, the reverse virtual image data, and the reverse real image data, the image is generated by processing the classification of whether the image is authentic or not and the direction of the image to perform operations including a differential processing step of
The generating processing step generates the virtual image data including at least one segment block in which time generated based on the latent vector is continuous, and each of the at least one segment block includes a feature value for RGB. An image generating device, characterized in that.
상기 영상 획득 단계는,
상기 실제 영상을 기반으로 생성된 시간이 연속되는 적어도 하나의 세그먼트 블록을 포함하는 상기 실제 영상 데이터를 입력 받으며, 상기 실제 영상 데이터에 포함된 상기 세그먼트 블록의 개수는 상기 가상 영상 데이터에 포함된 세크먼트 블록의 개수와 동일한 것을 특징으로 하는 영상 생성 장치.14. The method of claim 13,
The image acquisition step is
The real image data including at least one continuous segment block generated based on the real image is received, and the number of the segment blocks included in the real image data is the number of segments included in the virtual image data. An image generating apparatus, characterized in that the same as the number of blocks.
상기 변환 단계는,
상기 실제 영상 데이터의 시간 특성을 기반으로 진행 순서를 반전시켜 상기 역방향 실제 영상 데이터를 생성하는 제1 변환 단계; 및
상기 가상 영상 데이터의 시간 특성을 기반으로 진행 순서를 반전시켜 상기 역방향 가상 영상 데이터를 생성하는 제2 변환 단계
를 포함하는 것을 특징으로 하는 영상 생성 장치.16. The method of claim 15,
The conversion step is
a first conversion step of generating the reverse real image data by inverting a processing order based on a temporal characteristic of the real image data; and
A second transformation step of generating the reverse virtual image data by inverting a processing order based on the temporal characteristics of the virtual image data
An image generating apparatus comprising a.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200010870A KR102279772B1 (en) | 2020-01-30 | 2020-01-30 | Method and Apparatus for Generating Videos with The Arrow of Time |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200010870A KR102279772B1 (en) | 2020-01-30 | 2020-01-30 | Method and Apparatus for Generating Videos with The Arrow of Time |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102279772B1 true KR102279772B1 (en) | 2021-07-19 |
Family
ID=77126011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200010870A KR102279772B1 (en) | 2020-01-30 | 2020-01-30 | Method and Apparatus for Generating Videos with The Arrow of Time |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102279772B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023044146A1 (en) * | 2021-09-20 | 2023-03-23 | Schlumberger Technology Corporation | Rapid and realistic three-dimensional stratigraphic model generator conditioned on reference well log data |
US12106330B1 (en) * | 2020-11-11 | 2024-10-01 | Alberto Betella | Adaptive text-to-speech synthesis for dynamic advertising insertion in podcasts and broadcasts |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000341602A (en) * | 1999-05-31 | 2000-12-08 | Matsushita Electric Ind Co Ltd | Video signal processing circuit, device and method for displaying video |
JP2019219914A (en) * | 2018-06-20 | 2019-12-26 | 株式会社 ディー・エヌ・エー | Image generation device, image generator, image discriminator, image generation program, and image generation method |
-
2020
- 2020-01-30 KR KR1020200010870A patent/KR102279772B1/en active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000341602A (en) * | 1999-05-31 | 2000-12-08 | Matsushita Electric Ind Co Ltd | Video signal processing circuit, device and method for displaying video |
JP2019219914A (en) * | 2018-06-20 | 2019-12-26 | 株式会社 ディー・エヌ・エー | Image generation device, image generator, image discriminator, image generation program, and image generation method |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12106330B1 (en) * | 2020-11-11 | 2024-10-01 | Alberto Betella | Adaptive text-to-speech synthesis for dynamic advertising insertion in podcasts and broadcasts |
WO2023044146A1 (en) * | 2021-09-20 | 2023-03-23 | Schlumberger Technology Corporation | Rapid and realistic three-dimensional stratigraphic model generator conditioned on reference well log data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Learning layout and style reconfigurable gans for controllable image synthesis | |
Sun et al. | A visual attention based ROI detection method for facial expression recognition | |
Ferreira et al. | Learning to dance: A graph convolutional adversarial network to generate realistic dance motions from audio | |
Zhu et al. | Continuous gesture segmentation and recognition using 3DCNN and convolutional LSTM | |
Yuan et al. | Temporal action localization with pyramid of score distribution features | |
Kalsum et al. | Emotion recognition from facial expressions using hybrid feature descriptors | |
CN104616316B (en) | Personage's Activity recognition method based on threshold matrix and Fusion Features vision word | |
James et al. | Emotion based music recommendation system | |
Gunawardena et al. | Real-time automated video highlight generation with dual-stream hierarchical growing self-organizing maps | |
Khalid et al. | DFGNN: An interpretable and generalized graph neural network for deepfakes detection | |
Cai et al. | Glitch in the matrix: A large scale benchmark for content driven audio–visual forgery detection and localization | |
Prabhu et al. | Facial Expression Recognition Using Enhanced Convolution Neural Network with Attention Mechanism. | |
KR102279772B1 (en) | Method and Apparatus for Generating Videos with The Arrow of Time | |
Yu et al. | Abnormal event detection using adversarial predictive coding for motion and appearance | |
Zhang et al. | A survey on multimodal-guided visual content synthesis | |
Mohammad et al. | Searching surveillance video contents using convolutional neural network | |
Yao | [Retracted] Application of Higher Education Management in Colleges and Universities by Deep Learning | |
Wang et al. | GAN-STD: small target detection based on generative adversarial network | |
Robert | The Role of Deep Learning in Computer Vision | |
Karavarsamis et al. | Classifying Salsa dance steps from skeletal poses | |
Saleknia et al. | Efficient still image action recognition by the combination of ensemble learning and knowledge distillation | |
Xu et al. | Emotion recognition research based on integration of facial expression and voice | |
Dandekar et al. | Verification of family relation from parents and child facial images | |
Crispim et al. | Verifying kinship from rgb-d face data | |
You et al. | A novel trajectory-vlad based action recognition algorithm for video analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |