Nothing Special   »   [go: up one dir, main page]

WO2021171982A1 - 画像処理装置、3dモデルの生成方法、学習方法およびプログラム - Google Patents

画像処理装置、3dモデルの生成方法、学習方法およびプログラム Download PDF

Info

Publication number
WO2021171982A1
WO2021171982A1 PCT/JP2021/004517 JP2021004517W WO2021171982A1 WO 2021171982 A1 WO2021171982 A1 WO 2021171982A1 JP 2021004517 W JP2021004517 W JP 2021004517W WO 2021171982 A1 WO2021171982 A1 WO 2021171982A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
time
lighting
unit
texture
Prior art date
Application number
PCT/JP2021/004517
Other languages
English (en)
French (fr)
Inventor
真人 島川
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to CN202180015968.XA priority Critical patent/CN115176282A/zh
Priority to JP2022503229A priority patent/JPWO2021171982A1/ja
Priority to US17/796,990 priority patent/US20230056459A1/en
Publication of WO2021171982A1 publication Critical patent/WO2021171982A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/141Control of illumination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/586Depth or shape recovery from multiple images from multiple light sources, e.g. photometric stereo
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/60Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Definitions

  • the present disclosure relates to an image processing device, a 3D model generation method, a learning method, and a program, and in particular, to generate a high-quality 3D model or volumetric image even when the lighting state changes from time to time.
  • the present invention relates to an image processing device capable of generating a 3D model, a learning method, and a program.
  • a 3D object is generated in the viewing space by using information that senses the actual 3D space, for example, a multi-view image obtained by capturing a subject from a different viewpoint, as if the object exists in the viewing space.
  • a method for generating a visible image has been proposed (for example, Patent Document 1).
  • Patent Document 1 the subject is cut out in a stable lighting environment such as a dedicated studio, and the subject is cut out in an environment such as a live venue where the lighting environment changes from moment to moment. Did not mention.
  • the present disclosure proposes an image processing device capable of generating a high-quality 3D model or a volumetric image even when the lighting state changes every time, a method for generating a 3D model, a learning method, and a program. do.
  • the image processing apparatus of one form according to the present disclosure is a first acquisition unit that acquires an image of an object under a situation where the lighting state changes every time.
  • a second acquisition unit that acquires the lighting state at each time, and a cutting unit that cuts out the object from the image based on the lighting state acquired by the second acquisition unit at each time.
  • An image processing device including a model generation unit that generates a 3D model of the object cut out by the cutting unit.
  • the image processing device of one form according to the present disclosure is based on an image of an object under a situation in which the lighting state changes at each time based on the lighting state that changes at each time. It is an image processing apparatus including an acquisition unit that acquires a 3D model generated by cutting out the object, and a rendering unit that renders the 3D model acquired by the acquisition unit.
  • FIG. 1 It is a figure which shows the outline of the flow which a server device generates a 3D model of a subject. It is a figure explaining the content of data necessary for expressing a 3D model.
  • First Embodiment 1-1 Explanation of prerequisites-3D model generation 1-2. Explanation of prerequisites-3D model data structure 1-3.
  • Second Embodiment 2-1 Functional configuration of the video generation display device of the second embodiment 2-2. Foreground cutting process 2-3. Texture correction processing 2-4. Flow of processing performed by the video generation display device of the second embodiment 2-5. Modification example of the second embodiment 2-6. Effect of the second embodiment
  • FIG. 1 is a diagram showing an outline of a flow in which a server device generates a 3D model of a subject.
  • the 3D model 18M of the subject 18 is a process of capturing the subject 18 by a plurality of cameras 14 (14a, 14b, 14c) and generating a 3D model 18M having 3D information of the subject 18 by 3D modeling. And, it is done through.
  • the plurality of cameras 14 are arranged outside the subject 18 so as to surround the subject 18 existing in the real world, facing the direction of the subject 18.
  • FIG. 1 shows an example in which the number of cameras is three, and the cameras 14a, 14b, and 14c are arranged around the subject 18.
  • a person is the subject 18.
  • the number of cameras 14 is not limited to three, and a larger number of cameras may be provided.
  • 3D modeling is performed using a plurality of viewpoint images synchronously and volumetrically captured by the three cameras 14a, 14b, 14c, in units of video frames of the three cameras 14a, 14b, 14c.
  • a 3D model 18M of the subject 18 is generated.
  • the 3D model 18M is a model having 3D information of the subject 18.
  • the 3D model 18M has shape information representing the surface shape of the subject 18 in the form of mesh data called, for example, a polygon mesh, which is expressed by a connection between vertices (Vertex) and vertices. Further, the 3D model 18M has texture information representing the surface state of the subject 18 corresponding to each polygon mesh.
  • the format of the information contained in the 3D model 18M is not limited to these, and may be other formats of information.
  • texture mapping is performed by pasting a texture representing the color, pattern, or texture of the mesh according to the mesh position.
  • VD View Dependent: hereinafter referred to as VD
  • the read content data including the 3D model 18M is transmitted to the mobile terminal 80, which is a playback device, and is played back.
  • the mobile terminal 80 which is a playback device, and is played back.
  • an image having a 3D shape is displayed on the viewing device of the user (viewer).
  • a mobile terminal 80 such as a smartphone or tablet terminal is used as a viewing device. That is, an image including the 3D model 18M is displayed on the display 111 of the mobile terminal 80.
  • FIG. 2 is a diagram for explaining the contents of data necessary for expressing a 3D model.
  • the 3D model 18M of the subject 18 is represented by the mesh information M indicating the shape of the subject 18 and the texture information T indicating the texture (color, pattern, etc.) of the surface of the subject 18.
  • the mesh information M represents the shape of the 3D model 18M by connecting some parts on the surface of the 3D model 18M as vertices (polygon mesh). Further, instead of the mesh information M, depth information Dp (not shown) indicating the distance from the viewpoint position for observing the subject 18 to the surface of the subject 18 may be used. The depth information Dp of the subject 18 is calculated based on, for example, the parallax of the subject 18 with respect to the same region detected from the images captured by the adjacent imaging devices.
  • a sensor having a distance measuring mechanism for example, a TOF (Time Of Flight) camera) or an infrared (IR) camera may be installed instead of the image pickup device to obtain the distance to the subject 18.
  • the texture information Ta is data in which the surface texture of the 3D model 18M is stored in the form of a development view such as the UV texture map shown in FIG. That is, the texture information Ta is data that does not depend on the viewpoint position.
  • a UV texture map including the pattern of the clothes and the skin and hair of the person is prepared as the texture information Ta.
  • the 3D model 18M can be drawn by pasting the texture information Ta corresponding to the mesh information M on the surface of the mesh information M representing the 3D model 18M (VI rendering).
  • the same texture information Ta is pasted on the mesh representing the same region.
  • VI rendering using the texture information Ta is executed by pasting the texture information Ta of the clothes worn by the 3D model 18M on all the meshes representing the parts of the clothes. Therefore, data is generally used.
  • the size is small and the calculation load of the rendering process is light.
  • the pasted texture information Ta is uniform and the texture does not change even if the observation position is changed, the quality of the texture is generally low.
  • the texture information Tb is represented by a set of images obtained by observing the subject 18 from multiple viewpoints. That is, the texture information Ta is data according to the viewpoint position. Specifically, when the subject 18 is observed by N cameras, the texture information Tb is represented by N images simultaneously captured by each camera. Then, when the texture information Tb is rendered on an arbitrary mesh of the 3D model 90M, all the regions corresponding to the corresponding mesh are detected from the N images. Then, the textures reflected in each of the detected plurality of areas are weighted and pasted on the corresponding mesh. As described above, VD rendering using the texture information Tb generally has a large data size and a heavy calculation load in the rendering process. However, since the pasted texture information Tb changes according to the observation position, the quality of the texture is generally high.
  • FIG. 3 is a block diagram showing an example of the device configuration of the video generation display device of the first embodiment.
  • the image generation display device 10a generates a 3D model 18M of the subject 18. Further, the image generation display device 10a reproduces a volumetric image in which the generated 3D model 18M of the subject 18 is viewed from a free viewpoint.
  • the image generation display device 10a includes a server device 20a and a mobile terminal 80.
  • the video generation display device 10a is an example of the image processing device in the present disclosure.
  • the subject 18 is an example of an object in the present disclosure.
  • the server device 20a generates a 3D model 18M of the subject 18.
  • the server device 20a further includes a lighting control module 30 and a volumetric image generation module 40a.
  • the lighting control module 30 sets the lighting control information 17 for each time in the lighting device 11.
  • the lighting control information 17 is information including, for example, the position, direction, color, brightness, and the like of the lighting.
  • a plurality of lighting devices 11 are connected to illuminate the subject 18 from different directions. The detailed functional configuration of the lighting control module 30 will be described later.
  • the volumetric image generation module 40a generates a 3D model 18M of the subject 18 based on the camera images taken by a plurality of cameras 14 installed so as to image the subject 18 from different positions.
  • the detailed functional configuration of the volumetric video generation module 40a will be described later.
  • the mobile terminal 80 receives the 3D model 18M of the subject 18 transmitted from the server device 20a. Then, the mobile terminal 80 reproduces a volumetric image in which the 3D model 18M of the subject 18 is viewed from a free viewpoint.
  • the mobile terminal 80 includes a volumetric video reproduction module 90.
  • the mobile terminal 80 may be of any type as long as it is a device having a video reproduction function such as a smartphone, a TV monitor, or an HMD (Head Mount Display).
  • the volumetric video reproduction module 90 generates a volumetric video by rendering an image for each time when the 3D model 18M of the subject 18 generated by the volumetric video generation module 40a is viewed from a free viewpoint. Then, the volumetric video reproduction module 90 reproduces the generated volumetric video.
  • the detailed functional configuration of the volumetric video reproduction module 90 will be described later.
  • FIG. 4 is a hardware block diagram showing an example of the hardware configuration of the server device of the first embodiment.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • storage unit 53 an input / output controller 54, and a communication controller 55 are used as internal buses. It has a configuration connected by 60.
  • the CPU 50 controls the overall operation of the server device 20a by expanding and executing the control program P1 stored in the storage unit 53 and various data files stored in the ROM 51 on the RAM 52. That is, the server device 20a has a general computer configuration operated by the control program P1.
  • the control program P1 may be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting. Further, the server device 20a may execute a series of processes by hardware.
  • the control program P1 executed by the CPU 50 may be a program in which processing is performed in chronological order in the order described in the present disclosure, or at necessary timings such as in parallel or when calls are made. It may be a program that is processed by.
  • the storage unit 53 is configured by, for example, a flash memory, and stores the control program P1 executed by the CPU 50 and the 3D model 18M of the subject 18. Further, the 3D model 18M may be generated by the server device 20a itself, or may be acquired from another external device.
  • the input / output controller 54 acquires the operation information of the touch panel 61 stacked on the display 62 that displays the information related to the lighting device 11, the camera 14, and the like via the touch panel interface 56. Further, the input / output controller 54 displays image information, information related to the lighting device 11, and the like on the display 62 via the display interface 57.
  • the input / output controller 54 is connected to the camera 14 via the camera interface 58.
  • the input / output controller 54 controls the imaging of the camera 14 so that the subject 18 is simultaneously imaged by the plurality of cameras 14 arranged so as to surround the subject 18. Further, the input / output controller 54 inputs a plurality of captured images to the server device 20a.
  • the input / output controller 54 is connected to the lighting device 11 via the lighting interface 59.
  • the input / output controller 54 outputs the lighting control information 17 (see FIG. 6) for controlling the lighting state to the lighting device 11.
  • the server device 20a communicates with the mobile terminal 80 via the communication controller 55. As a result, the server device 20a transmits the volumetric image of the subject 18 to the mobile terminal 80.
  • FIG. 5 is a hardware block diagram showing an example of the hardware configuration of the mobile terminal of the first embodiment.
  • the mobile terminal 80 has a configuration in which a CPU 100, a ROM 101, a RAM 102, a storage unit 103, an input / output controller 104, and a communication controller 105 are connected by an internal bus 109.
  • the CPU 100 controls the overall operation of the mobile terminal 80 by expanding and executing the control program P2 stored in the storage unit 103 and various data files stored in the ROM 101 on the RAM 102. That is, the mobile terminal 80 has a general computer configuration operated by the control program P2.
  • the control program P2 may be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting. Further, the mobile terminal 80 may execute a series of processes by hardware.
  • the control program P2 executed by the CPU 100 may be a program in which processing is performed in chronological order in the order described in the present disclosure, or at necessary timings such as in parallel or when calls are made. It may be a program that is processed by.
  • the storage unit 103 stores, for example, the control program P2 executed by the CPU 100 and the 3D model 18M acquired from the server device 20a, which is configured by a flash memory.
  • the 3D model 18M is a 3D model of a specific subject 18 instructed by the mobile terminal 80 to the server device 20a, that is, a subject 18 to be drawn.
  • the 3D model 18M includes the mesh information M, the texture information Ta, and the texture information Tb described above.
  • the input / output controller 104 acquires the operation information of the touch panel 110 stacked on the display 111 that displays the information related to the mobile terminal 80 via the touch panel interface 106. Further, the input / output controller 104 displays a volumetric image including the subject 18 on the display 111 via the display interface 107.
  • the mobile terminal 80 communicates with the server device 20a via the communication controller 105. As a result, the mobile terminal 80 acquires information and the like related to the 3D model 18M from the server device 20a.
  • FIG. 6 is a functional block diagram showing an example of the functional configuration of the video generation display device of the first embodiment.
  • the CPU 50 of the server device 20a deploys the control program P1 on the RAM 52 and operates the lighting control UI unit 31, the lighting control information output unit 32, the lighting control information input unit 41, and the lighting shown in FIG.
  • the information processing unit 42, the imaging unit 43, the foreground cutting processing unit 44a, the texture correction processing unit 45a, the modeling processing unit 46, and the texture generation unit 47 are realized as functional units.
  • the lighting control UI unit 31 provides lighting control information 17 such as brightness, color, and lighting direction to the lighting device 11 via the lighting control information output unit 32. Specifically, the lighting control UI unit 31 transmits the lighting control information 17 corresponding to the operation content set by operating the touch panel 61 on the dedicated UI screen to the lighting control information output unit 32. ..
  • the lighting control UI unit 31 may generate and store in advance a lighting scenario 16 indicating how the lighting device 11 is set with time.
  • the lighting control information output unit 32 receives the lighting control information 17 transmitted from the lighting control UI unit 31. Further, the lighting control information output unit 32 transmits the received lighting control information 17 to the lighting device 11, the lighting control information input unit 41, and the lighting simulation control unit 73, which will be described later.
  • the lighting control information input unit 41 receives the lighting control information 17 from the lighting control information output unit 32. Further, the lighting control information input unit 41 transmits the lighting control information 17 to the lighting information processing unit 42.
  • the lighting control information input unit 41 is an example of the second acquisition unit in the present disclosure.
  • the illumination information processing unit 42 uses the illumination control information 17, the background data 12, the illumination device setting information 13, and the camera calibration information 15 to provide an illuminated background image based on the illumination state at that time, that is, An illuminated image is simulated in the absence of the subject 18. Details will be described later (see FIG. 8).
  • the imaging unit 43 acquires an image captured by the camera 14 at each time of the subject 18 (object) under the condition that the lighting state changes at each time.
  • the imaging unit 43 is an example of the first acquisition unit in the present disclosure.
  • the foreground cutting processing unit 44a cuts out the area of the subject 18 (object) from the image captured by the camera 14 based on the state of the lighting device 11 for each time acquired by the lighting control information input unit 41.
  • the foreground cutout processing unit 44a is an example of the cutout unit in the present disclosure. The details of the specific processing performed by the foreground cutting processing unit 44a will be described later.
  • the texture correction processing unit 45a Based on the state of the lighting device 11 for each time acquired by the lighting control information input unit 41, the texture correction processing unit 45a displays the texture of the subject 18 in the image captured by the camera 14 in the state of the lighting device 11 for each time. Correct according to.
  • the texture correction processing unit 45a is an example of the correction unit in the present disclosure. The specific contents of the processing performed by the texture correction processing unit 45a will be described later.
  • the modeling processing unit 46 generates a 3D model of the subject 18 (object) cut out by the foreground cutting processing unit 44a.
  • the modeling processing unit 46 is an example of the model generation unit in the present disclosure.
  • the texture generation unit 47 collects the texture information from each camera 14, performs compression and coding processing, and transmits the texture information to the volumetric video reproduction module 90.
  • the CPU 100 of the mobile terminal 80 realizes the rendering unit 91 and the reproduction unit 92 shown in FIG. 6 as functional units by deploying the control program P2 on the RAM 102 and operating it.
  • the rendering unit 91 draws (renders) the 3D model and texture of the subject 18 (object) acquired from the volumetric video generation module 40a.
  • the rendering unit 91 is an example of the drawing unit in the present disclosure.
  • the reproduction unit 92 reproduces the volumetric image drawn by the rendering unit 91 on the display 111.
  • the volumetric video reproduction module 90 may be configured to acquire model data 48 and texture data 49 from a plurality of volumetric video generation modules 40a located at remote locations. Then, the volumetric video reproduction module 90 may be used for the purpose of synthesizing and reproducing a plurality of objects photographed at a distant place into one volumetric video. At that time, the lighting environment at a distant place is generally different, but the 3D model 18M of the subject 18 generated by the volumetric image generation module 40a is not affected by the lighting at the time of model generation, as will be described later. Therefore, the volumetric video reproduction module 90 can synthesize a plurality of 3D models 18M generated in different lighting environments and reproduce them under an arbitrary lighting environment.
  • FIG. 7 is a diagram showing an example of a data format of input / output data related to the video generation display device of the first embodiment.
  • FIG. 8 is a diagram illustrating a process in which the illumination information processing unit simulates an illuminated background image.
  • the lighting control information 17 is input to the lighting information processing unit 42 from the lighting control information output unit 32. Further, the lighting device setting information 13, the camera calibration information 15, and the background data 12 are input to the lighting information processing unit 42, respectively.
  • the lighting control information 17 describes various parameter values given to the lighting device 11 for each time and each lighting device 11.
  • the lighting device setting information 13 describes various parameter values indicating the initial state of the lighting device 11 for each lighting device 11.
  • the parameters to be described are, for example, the type of the lighting device 11, the installation position, the installation direction, the color setting, the brightness setting, and the like.
  • the camera calibration information 15 describes the internal calibration data and the external calibration data of the camera 14 for each camera 14.
  • the internal calibration data is calibration data relating to internal parameters unique to the camera 14 (parameters for correcting distortion of the image finally obtained by the lens and focus settings).
  • the external calibration data is calibration data relating to the position and orientation of the camera 14.
  • the background data 12 is data that stores a background image captured in advance for each camera 14 in a predetermined lighting state.
  • the foreground cutout processing unit 44a of the volumetric image generation module 40a outputs model data 48 in which the region of the subject 18 is cut out from the image captured by the camera 14 in consideration of the time variation of the lighting device 11. .
  • the texture correction processing unit 45a of the volumetric image generation module 40a outputs the texture data 49 from which the influence of the lighting device 11 is removed.
  • the model data 48 stores the mesh data of the subject 18 in the frame for each frame.
  • the texture data 49 stores the external calibration data and the texture image of each camera 14 for each frame.
  • the external calibration data may be stored only in the first frame.
  • the external calibration data is stored in each frame in which the positional relationship of each camera 14 changes.
  • the lighting information processing unit 42 In order for the foreground cutout processing unit 44a to cut out the subject 18 in consideration of the time variation of the lighting device 11, the lighting information processing unit 42 generates the illuminated background image Ia shown in FIG.
  • the illuminated background image Ia is generated every time and every camera 14.
  • the lighting information processing unit 42 calculates the setting state of the lighting device 11 for each time based on the lighting control information 17 and the lighting device setting information 13 at the same time.
  • the lighting information processing unit 42 corrects the background data 12 captured by each camera 14 by using the camera calibration information 15 of each camera 14. Then, the illumination information processing unit 42 generates an illuminated background image Ia by simulating an illumination pattern based on the setting state of the illumination device 11 for each time with respect to the distortion-corrected background data 12.
  • the illuminated background image Ia thus generated is used as the foreground cutout illumination image Ib and the texture correction illumination image Ic.
  • the foreground cut-out illumination image Ib and the texture-corrected illumination image Ic have substantially the same image information, but are described separately for convenience for the sake of subsequent explanation.
  • the foreground cut-out illumination image Ib and the texture-corrected illumination image Ic are 2D image information indicating the state in which the illumination is observed by each camera 14 at each time.
  • the format of the information is not limited to the image information as long as the information shows the state in which the lighting is observed.
  • the foreground cut-out illumination image Ib is an image representing an illumination state predicted to be captured by the camera 14 corresponding to the corresponding time.
  • the foreground cutout processing unit 44a obtains the foreground, that is, the region of the subject 18 by performing a difference between the foreground and backgrounds by subtracting the foreground cutout illumination image Ib from the image actually captured by the camera 14 at the same time. break the ice.
  • the foreground cutout processing unit 44a may perform chroma key processing.
  • the background color is different for each area due to the influence of lighting. Therefore, the foreground cutout processing unit 44a sets the threshold value of the color to be determined to be the background for each region of the foreground cutout illumination image Ib, instead of the chroma key processing based on the commonly used single background color. Then, the foreground cutting processing unit 44a cuts out the foreground by comparing the brightness of the image actually captured by the camera 14 with the set threshold value to discriminate whether it is the background or not.
  • the foreground cutout processing unit 44a may cut out the region of the subject 18 by using the foreground background difference and the chroma key processing together.
  • FIG. 9 is a diagram illustrating a method of texture correction processing.
  • the texture correction processing unit 45a (see FIG. 6) color-corrects the texture of the subject 18 in the image captured by the camera 14 according to the state of the lighting device 11 for each time.
  • the texture correction processing unit 45a performs the same color correction on the texture correction illumination image Ic described above and the camera image Id actually captured by the camera 14.
  • the texture of the subject 18 is different for each region due to the influence of the illumination. Therefore, as shown in FIG. 9, the texture-corrected illumination image Ic and the camera image Id have the same size. It is divided into a plurality of small areas of, and color correction is executed for each small area. It should be noted that color correction is widely performed in digital image processing, and here as well, it may be performed according to a known method.
  • the texture correction processing unit 45a generates and outputs a texture correction image Ie as a result of performing the texture correction processing. That is, the texture-corrected image Ie is an image showing a texture estimated to be observed under standard illumination.
  • the texture correction process since the texture correction process only needs to be applied to the area of the subject 18, the texture correction process may be performed only on the area of the subject 18 cut out by the foreground cutout process of the camera image Id.
  • the volumetric video reproduction module 90 generates and displays the volumetric video Iv shown in FIG. In the volumetric image Iv, the illumination information at the same time when the camera 14 captures the camera image Id is reproduced, and the 3D model 18M of the subject 18 is drawn.
  • FIG. 11 is a flowchart showing an example of the flow of lighting information processing in the first embodiment.
  • the lighting information processing unit 42 acquires the background data 12 captured in advance by each camera 14 (step S10).
  • the lighting information processing unit 42 uses the camera calibration information 15 (internal calibration data) to correct the distortion of the background data 12 acquired in step S10 (step S11).
  • the lighting information processing unit 42 acquires the lighting control information 17 from the lighting control information output unit 32. Further, the lighting information processing unit 42 acquires the lighting device setting information 13 (step S12).
  • the illumination information processing unit 42 generates an illuminated background image Ia (step S13).
  • the illumination information processing unit 42 uses the camera calibration information 15 (external calibration data) to correct the distortion of the illuminated background image Ia generated in step S13 (step S14).
  • the lighting information processing unit 42 outputs the illuminated background image Ia to the foreground cutting processing unit 44a (step S15).
  • the illumination information processing unit 42 outputs the illuminated background image Ia to the texture correction processing unit 45a (step S16).
  • the lighting information processing unit 42 determines whether it is the final frame (step S17). When it is determined that it is the final frame (step S17: Yes), the video generation display device 10a ends the process of FIG. On the other hand, if it is not determined to be the final frame (step S17: No), the process returns to step S10.
  • FIG. 12 is a flowchart showing an example of the flow of the foreground cutting process in the first embodiment.
  • the imaging unit 43 acquires the camera image Id captured by each camera 14 at each time (step S20).
  • the imaging unit 43 uses the camera calibration information 15 (internal calibration data) to correct the distortion of the camera image Id acquired in step S20 (step S21).
  • the foreground cutout processing unit 44a acquires the illuminated background image Ia from the lighting information processing unit 42 (step S22).
  • the foreground cutout processing unit 44a cuts out the foreground (subject 18) from the camera image Id based on the total view background subtraction at the same time (step S23).
  • the foreground cutout processing unit 44a determines whether it is the final frame (step S24). When it is determined that it is the final frame (step S24: Yes), the video generation display device 10a ends the process of FIG. On the other hand, if it is not determined to be the final frame (step S24: No), the process returns to step S20.
  • FIG. 13 is a flowchart showing an example of the flow of the texture correction process in the first embodiment.
  • the imaging unit 43 acquires the camera image Id captured by each camera 14 at each time (step S30).
  • the imaging unit 43 uses the camera calibration information 15 (internal calibration data) to correct the distortion of the camera image Id acquired in step S30 (step S31).
  • the texture correction processing unit 45a acquires the illuminated background image Ia from the lighting information processing unit 42 (step S32).
  • the texture correction processing unit 45a divides the distortion-corrected camera image Id at the same time and the illuminated background image Ia into small areas of the same size (step S33).
  • the texture correction processing unit 45a corrects the texture for each small area divided in step S33 (step S34).
  • the texture correction processing unit 45a determines whether it is the final frame (step S35). When it is determined that it is the final frame (step S35: Yes), the video generation display device 10a ends the process of FIG. On the other hand, if it is not determined to be the final frame (step S35: No), the process returns to step S30.
  • the imaging unit 43 (first acquisition unit) is under a situation where the state of the lighting device 11 changes every time.
  • the lighting control information input unit 41 (second acquisition unit) acquires an image obtained by capturing an image of the subject 18 (object) in the above at each time, and the lighting control information input unit 41 (second acquisition unit) captures the state of the lighting device 11 at the time when the image pickup unit 43 captures the image. Get every time.
  • the foreground cutting processing unit 44a cuts out the subject 18 from the image captured by the imaging unit 43 based on the state of the lighting device 11 for each time acquired by the lighting control information input unit 41, and performs modeling processing.
  • the unit 46 model generation unit
  • the texture correction processing unit 45a (correction unit) is in the state of the lighting device 11 for each time acquired by the lighting control information input unit 41. Based on this, the texture of the image captured by the imaging unit 43 is corrected according to the state of the lighting device 11 for each time.
  • the texture of the subject 18 observed under normal lighting can be estimated from the texture of the subject 18 appearing in the image captured in a state where the lighting state changes every time.
  • the state of the lighting device 11 includes at least the position, direction, color, and brightness of the lighting device 11.
  • the image captured by the camera 14 is an image of the direction of the subject 18 from the periphery of the subject 18 (object).
  • the modeling processing unit 46 (model generation unit) illuminates each time based on the state of the lighting device 11 that changes every time.
  • a 3D model 18M of the subject 18 is generated by cutting out a region of the subject 18 from an image obtained by capturing the subject 18 (object) under a situation where the state of the device 11 changes at each time.
  • the rendering unit 91 draws the 3D model 18M generated by the modeling processing unit 46.
  • the area of the subject 18 can be cut out from the image captured in the situation where the lighting state changes, and the image viewed from a free viewpoint can be drawn.
  • the texture correction processing unit 45a (correction unit) illuminates each time based on the state of the lighting device 11 that changes every time. From the image of the subject 18 (object) under the situation where the state of the device 11 changes at each time, the texture of the subject 18 is corrected according to the state of the lighting device 11 at each time. Then, the rendering unit 91 (drawing unit) draws the subject 18 using the texture corrected by the texture correction processing unit 45a.
  • the image generation display device 10a (image processing device) of the first embodiment includes an image of a subject 18 (object) under a situation where the lighting state changes every time, and a lighting device 11 The state of the subject 18 is acquired for each time, and the region of the subject 18 is cut out from the image of the subject 18 based on the state of the lighting device 11 acquired for each time, and the model data 48 of the subject 18 is generated.
  • the image generation display device 10a described in the first embodiment acquires the lighting state for each time based on the lighting control information 17, and cuts out the foreground and corrects the texture based on the acquired lighting state for each time. conduct. According to this method, it is possible to cut out an object and correct the texture by a simple calculation process, but it is necessary to improve the versatility so as to stably cope with a more complicated environment.
  • the video generation display device 10b of the second embodiment described below further enhances the versatility of foreground cutting and texture correction by using a learning model created by using deep learning. be.
  • FIG. 14 is a functional block diagram showing an example of the functional configuration of the video generation display device of the second embodiment.
  • the hardware configuration of the video generation display device 10b is the same as the hardware configuration of the video generation display device 10a (see FIGS. 4 and 5).
  • the video generation display device 10b includes a server device 20b and a mobile terminal 80.
  • the server device 20b includes a lighting control module 30, a volumetric image generation module 40b, a lighting simulation module 70, and a learning data generation module 75.
  • the lighting control module 30 is as described in the first embodiment (see FIG. 6).
  • the volumetric video generation module 40b includes a foreground cutout processing unit 44b instead of the foreground cutout processing unit 44a with respect to the volumetric video generation module 40a described in the first embodiment. Further, a texture correction processing unit 45b is provided instead of the texture correction processing unit 45a.
  • the foreground cutout processing unit 44b is included in the image captured by the camera 14 based on the learning data obtained by learning the relationship between the state of the lighting device 11 for each time acquired by the lighting control information input unit 41 and the area of the subject 18. The area of the subject 18 (object) is cut out from.
  • the texture correction processing unit 45b is captured in the image captured by the camera 14 based on the learning data obtained by learning the relationship between the state of the lighting device 11 for each time acquired by the lighting control information input unit 41 and the texture of the subject 18.
  • the texture of the subject 18 is corrected according to the state of the lighting device 11 for each time.
  • the lighting simulation module 70 generates a lighting simulation image that simulates the lighting state that changes with time on the background CG data 19 or the volumetric image based on the lighting control information 17.
  • the lighting simulation module 70 includes a volumetric image generation unit 71, a lighting simulation generation unit 72, and a lighting simulation control unit 73.
  • the volumetric image generation unit 71 generates a volumetric image of the subject 18 based on the model data 48 of the subject 18, the texture data 49, and the virtual viewpoint position.
  • the illumination simulation generation unit 72 simulates observing the subject 18 in an illuminated state based on the given lighting control information 17, the volumetric image generated by the volumetric image generation unit 71, and the virtual viewpoint position. Generate video.
  • the lighting simulation control unit 73 transmits the lighting control information 17 and the virtual viewpoint position to the lighting simulation generation unit 72.
  • the learning data generation module 75 generates a learning model for performing foreground cutting processing and a learning model for performing texture correction processing.
  • the learning data generation module 75 includes a learning data generation control unit 76.
  • the learning data generation control unit 76 generates learning data 77 for foreground cutting and learning data 78 for texture correction based on the lighting simulation image generated by the lighting simulation module 70.
  • the learning data 77 is an example of the first learning data in the present disclosure.
  • the learning data 78 is an example of the second learning data in the present disclosure. A specific method for generating the learning data 77 and the learning data 78 will be described later.
  • FIG. 15 is a diagram illustrating an outline of a foreground cutting process using deep learning.
  • the foreground cutout processing unit 44b uses the learning data 77 to cut out the region of the subject 18 from the camera image Id captured by the camera 14.
  • the foreground cutting process performed at this time is performed based on the learning data 77 (first learning data) generated by the learning data generation control unit 76.
  • the learning data generation control unit 76 deeply learns the relationship between the camera image Id, the background image If stored in the background data 12, the foreground cut-out illumination image Ib, and the region of the subject 18 obtained from the foreground cutout illumination image Ib. It is a kind of classifier created by learning. Then, the learning data 77 outputs the subject image Ig in which the region of the subject 18 is cut out in response to the input of the arbitrary camera image Id, the background image If, and the foreground cutout illumination image Ib at the same time. ..
  • the illumination simulation module 70 simulates a volumetric image in which a 3D model based on the model data 48 is arranged in the illumination environment created by the illumination device 11 with respect to the background CG data 19. ,
  • the training data 77 is generated as comprehensively as possible. The detailed processing flow will be described later (see FIG. 19).
  • FIG. 16 is a diagram illustrating an outline of a texture correction process using deep learning.
  • the texture correction processing unit 45b uses the learning data 78 to correct the texture of the subject 18 in the camera image captured by the camera 14, for example, to the texture in the standard lighting state.
  • the texture processing performed at this time is performed based on the learning data 78 (second learning data) generated by the learning data generation control unit 76.
  • the learning data 78 is a kind of classifier generated by the learning data generation control unit 76 by deep learning the relationship between the camera image Id, the texture-corrected illumination image Ic, and the texture of the subject 18 obtained from the camera image Id. be. Then, the learning data 78 outputs the texture-corrected image Ie in which the region of the subject 18 is texture-corrected in response to the input of the arbitrary camera image Id and the texture-corrected illumination image Ic at the same time.
  • the image generation display device 10b In order to generate highly reliable learning data 78, it is necessary to perform learning with as much data as possible. Therefore, the image generation display device 10b generates the learning data 78 by simulating the volumetric image in which the lighting simulation module 70 arranges the 3D model based on the model data 48 in the lighting environment created by the lighting device 11. , Do as comprehensively as possible. The detailed processing flow will be described later (see FIG. 19).
  • FIG. 17 is a flowchart showing an example of the flow of the foreground cutting process in the second embodiment.
  • FIG. 18 is a flowchart showing an example of the flow of the texture correction process in the second embodiment.
  • FIG. 19 is a flowchart showing an example of a specific procedure for generating learning data.
  • the imaging unit 43 acquires the camera image Id captured by each camera 14 at each time (step S40).
  • the imaging unit 43 uses the camera calibration information 15 (internal calibration data) to correct the distortion of the camera image Id acquired in step S40 (step S41).
  • the foreground cutout processing unit 44b acquires the foreground cutout illumination image Ib from the lighting information processing unit 42. Further, the foreground cutout processing unit 44b acquires the background image If (step S42).
  • the foreground cutout processing unit 44b receives the foreground cutout illumination image Ib, the background image If, and the distortion-corrected camera image Id at the same time as inputs, makes an inference using the learning data 77, and cuts out the foreground from the camera image Id (step). S43).
  • the foreground cutout processing unit 44b determines whether it is the final frame (step S44). When it is determined that it is the final frame (step S44: Yes), the video generation display device 10b ends the process of FIG. On the other hand, if it is not determined to be the final frame (step S44: No), the process returns to step S40.
  • the imaging unit 43 acquires the camera image Id captured by each camera 14 at each time (step S50).
  • the imaging unit 43 uses the camera calibration information 15 (internal calibration data) to correct the distortion of the camera image Id acquired in step S50 (step S51).
  • the texture correction processing unit 45b acquires the texture correction illumination image Ic at the same time as the camera image Id from the illumination information processing unit 42. Further, the foreground cutout processing unit 44b acquires the background image If (step S52).
  • the texture correction processing unit 45b receives the distortion-corrected camera image Id and the texture-corrected illumination image Ic at the same time as inputs, performs inference using the learning data 78, and corrects the texture of the subject 18 captured in the camera image Id. (Step S53).
  • the texture correction processing unit 45b determines whether it is the final frame (step S54). When it is determined that it is the final frame (step S54: Yes), the video generation display device 10b ends the process of FIG. On the other hand, if it is not determined to be the final frame (step S54: No), the process returns to step S50.
  • FIG. 19 is a flowchart showing an example of a learning data generation procedure.
  • the learning data generation control unit 76 selects one from the combination of parameters of each lighting device 11 (step S60).
  • the learning data generation control unit 76 selects one from the volumetric video contents (step S61).
  • the learning data generation control unit 76 selects one of the object placement positions and orientations (step S62).
  • the learning data generation control unit 76 selects one virtual viewpoint position (step S63).
  • the learning data generation control unit 76 gives the selected information to the illumination simulation module 70 to generate a simulation image (volumetric image and illuminated background image Ia (foreground cutout illumination image Ib, texture-corrected illumination image Ic)) ( Step S64).
  • the learning data generation control unit 76 performs object cutting processing and texture correction processing on the simulation image generated in step S64, and accumulates the learning data 77 and the learning data 78 obtained as a result (step S65). ..
  • the learning data generation control unit 76 determines whether or not all the virtual viewpoint position candidates have been selected (step S66). When it is determined that all the virtual viewpoint position candidates have been selected (step S66: Yes), the process proceeds to step S67. On the other hand, if it is not determined that all the virtual viewpoint position candidates have been selected (step S66: No), the process returns to step S63.
  • the learning data generation control unit 76 determines whether all the placement positions and orientations of the objects have been selected (step S67). When it is determined that all the placement positions and orientations of the objects have been selected (step S67: Yes), the process proceeds to step S68. On the other hand, if it is not determined that all the arrangement positions and orientations of the objects have been selected (step S67: No), the process returns to step S62.
  • the learning data generation control unit 76 determines whether all the volumetric video contents have been selected (step S68). When it is determined that all the volumetric video contents have been selected (step S68: Yes), the process proceeds to step S69. On the other hand, if it is not determined that all the volumetric video contents have been selected (step S68: No), the process returns to step S61.
  • the learning data generation control unit 76 determines whether all the parameters of the lighting device 11 have been selected (step S69). When it is determined that all the parameters of the lighting device 11 have been selected (step S69: Yes), the image generation display device 10b ends the process of FIG. On the other hand, if it is not determined that all the parameters of the lighting device 11 have been selected (step S69: No), the process returns to step S60.
  • the lighting control information 17 which is numerical information may be directly input to the learning data generation control unit 76 to perform inference.
  • the external calibration data of the camera 14 data that defines the position and orientation of the camera 14
  • the inference may be performed without inputting the background image If under the standard lighting.
  • the illumination control information 17 which is numerical information may be directly input to the learning data generation control unit 76 to perform inference.
  • the external calibration data of the camera 14 data that defines the position and orientation of the camera 14
  • the learning data generation control unit 76 may be directly input to perform inference. good.
  • the foreground cutout process may be performed by the conventional method using the result of the texture correction process.
  • the training data 78 is required, and it is not necessary to generate the training data 77.
  • the input / output model used by the learning data generation control unit 76 when performing deep learning may be any type of model. Further, the inference result of the previous frame may be fed back when inferring a new frame.
  • the foreground cutout processing unit 44b (cutout unit) has a lighting control information input unit 41 (second acquisition unit).
  • the imaging unit 43 (first acquisition unit) The area of the subject 18 is cut out from the acquired image.
  • the subject 18 (foreground) can be cut out with high accuracy regardless of the usage environment.
  • the texture correction processing unit 45b (correction unit) is used for each time acquired by the lighting control information input unit 41 (second acquisition unit).
  • the texture of is corrected according to the state of the lighting device 11 for each time.
  • the texture of the subject 18 can be stably corrected regardless of the usage environment.
  • the modeling processing unit 46 includes the state of the lighting device 11 for each time and the image captured for each time. 3D model 18M of the subject 18 by cutting out the region of the subject 18 from the image in which the subject 18 is captured based on the learning data 77 (first learning data) that learned the relationship with the region of the subject 18 (object). To generate.
  • the 3D model 18M of the subject 18 can be generated with high accuracy regardless of the usage environment.
  • images of the subject 18 captured from the surroundings at the same time can be inferred at the same time, it is possible to make the results of cutting out regions from each image consistent.
  • the texture correction processing unit 45b (correction unit) includes the state of the lighting device 11 for each time and the texture of the subject 18 (object). Based on the learning data 78 (second learning data) obtained by learning the relationship between the above, the texture of the subject 18 captured at each time is corrected according to the state of the lighting device 11 at each time.
  • the texture of the subject 18 can be stably corrected regardless of the usage environment.
  • the texture correction results for each image can be made consistent.
  • the learning data generation control unit 76 sets the time of the subject 18 (object) under the condition that the state of the lighting device 11 changes every time.
  • the image captured for each time and the state of the lighting device 11 are acquired for each time, and the subject 18 is cut out from the image including the subject 18 based on the acquired state of the lighting device 11 for each time, and for each time.
  • the learning data 77 is generated by learning the relationship between the state of the lighting device 11 and the region of the cut-out subject 18.
  • the learning data 77 for cutting out the subject 18 can be easily generated.
  • the video generation display device 10b that generates a volumetric video it is possible to easily and comprehensively generate a large amount of learning data 77 that freely combines various virtual viewpoints, various lighting conditions, and various subjects. It is possible.
  • the learning data generation control unit 76 sets the time of the subject 18 (object) under the condition that the state of the lighting device 11 changes every time.
  • the image captured for each time and the state of the lighting device 11 are acquired for each time, and the state of the lighting device 11 for each time and the texture of the subject 18 are obtained based on the acquired state of the lighting device 11 for each time.
  • the training data 78 is generated by learning the relationship between the two.
  • the learning data 78 for correcting the texture of the subject 18 can be easily generated.
  • the video generation display device 10b that generates a volumetric video it is possible to easily and comprehensively generate a large amount of learning data 78 that freely combines various virtual viewpoints, various lighting conditions, and various subjects. It is possible.
  • the present disclosure can have the following structure.
  • a first acquisition unit that acquires an image of an object under a situation where the lighting state changes every time, and an image taken at each time.
  • a second acquisition unit that acquires the lighting state at each time, and A cutting unit that cuts out a region of the object from the image based on the lighting state for each time acquired by the second acquisition unit.
  • a model generation unit that generates a 3D model of the object cut out by the cutting unit, and a model generation unit.
  • An image processing device comprising.
  • a correction unit that corrects the texture of the image according to the lighting state at each time based on the lighting state acquired by the second acquisition unit at each time is further provided.
  • the cutout portion is From the image acquired by the first acquisition unit, based on the first learning data in which the relationship between the lighting state for each time acquired by the second acquisition unit and the area of the object is learned. Cut out the area of the object, The image processing apparatus according to (1) or (2) above.
  • the correction unit The texture of the object acquired by the first acquisition unit based on the second learning data in which the relationship between the lighting state for each time acquired by the second acquisition unit and the texture of the object is learned. Is corrected according to the state of the lighting at each time.
  • the image processing apparatus according to any one of (1) to (3).
  • the lighting condition is At a minimum, it includes the location of the illumination, the direction of the illumination, the color of the illumination, and the brightness of the illumination.
  • the image processing apparatus according to any one of (1) to (4). (6)
  • the image is The direction of the object is imaged from the surroundings of the object.
  • the image processing apparatus according to any one of (1) to (5).
  • 3D of the object by cutting out the area of the object from the image of the object under the condition that the lighting state changes at each time based on the lighting state that changes at each time.
  • a model generator that generates a model and A drawing unit that draws the 3D model generated by the model generation unit, and
  • An image processing device comprising.
  • Based on the lighting state that changes at each time the texture of the object is obtained from the image of the object under the condition that the lighting state changes at each time at each time.
  • the drawing unit draws the object using the texture corrected by the correction unit.
  • the image processing apparatus according to (7) above.
  • the model generator To cut out the area of the object from the image based on the first learning data that learned the relationship between the lighting state at each time and the area of the object cut out from the image captured at each time. Generates a 3D model of the object by The image processing apparatus according to (7) or (8) above.
  • the correction unit Based on the second learning data that learned the relationship between the lighting state for each time and the texture of the object, the texture of the object imaged for each time is adjusted according to the lighting state for each time. To correct, The image processing apparatus according to any one of (7) to (9).
  • the state of the lighting is acquired for each time, Based on the acquired state of the lighting for each time, the relationship between the state of the lighting for each time and the texture of the object is learned.
  • (14) Computer A first acquisition unit that acquires an image of an object under a situation where the lighting state changes every time, and an image taken at each time.
  • a second acquisition unit that acquires the lighting state at each time, and
  • a cutting unit that cuts out a region of the object from the image based on the lighting state for each time acquired by the second acquisition unit.
  • a model generation unit that generates a 3D model of the object cut out by the cutting unit, and a model generation unit.
  • Texture correction processing unit (correction unit), 46 ... Modeling processing unit (model generation unit), 47 ... Texture generation unit, 48 ... Model data, 49 ... Texture data, 70 ... Lighting simulation module, 75 ... Learning data Generation module, 77 ... Learning data (first learning data), 78 ... Learning data (second learning data), 80 ... Mobile terminal, 90 ... Volumetric video playback module, 91 ... Rendering unit (drawing unit), 92 ... Playback unit, Ia ... Illuminated background image, Ib ... Foreground cutout illumination image, Ic ... Texture correction illumination image, Id ... Camera image, Ie ... Texture correction image, If ... Background image, Ig ... Subject image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Generation (AREA)
  • Processing Or Creating Images (AREA)

Abstract

映像生成表示装置(10a)(画像処理装置)の撮像部(43)(第1の取得部)は、時刻毎に照明デバイス(11)の状態が変化する状況下にある被写体(18)(オブジェクト)を時刻毎に撮像した画像を取得して、照明制御情報入力部(41)(第2の取得部)は、照明デバイス(11)の状態を、撮像部(43)が画像を撮像する時刻毎に取得する。そして、前景切り出し処理部(44a)(切り出し部)は、照明制御情報入力部(41)が取得した時刻毎の照明デバイス(11)の状態に基づいて、撮像部(43)が撮像した画像から被写体(18)を切り出して、モデリング処理部(46)(モデル生成部)は、前景切り出し処理部(44a)が切り出した被写体(18)の3Dモデル(18M)を生成する。

Description

画像処理装置、3Dモデルの生成方法、学習方法およびプログラム
 本開示は、画像処理装置、3Dモデルの生成方法、学習方法およびプログラムに関し、特に、時刻毎に照明の状態が変化する場合であっても、高品質な3Dモデルやボリュメトリック映像を生成することができる画像処理装置、3Dモデルの生成方法、学習方法およびプログラムに関する。
 従来、現実の3D空間をセンシングした情報、例えば異なる視点から被写体を撮像した多視点映像を用いて、視聴空間内に3Dオブジェクトを生成し、そのオブジェクトが視聴空間内に存在しているかのように見える映像(ボリュメトリック映像)を生成する方法が提案されている(例えば、特許文献1)。
国際公開第2017/082076号
 しかしながら、特許文献1では、専用のスタジオ等の安定した照明環境下で被写体の切り出しを行っており、時々刻々と照明環境が変化するライブ会場のような環境下で、被写体の切り出しを行うことには言及していなかった。
 照明環境が変化すると、モデリングの対象となる領域を切り出す処理(前景切り出し処理)を高精度に行うことが難しい。また、被写体を撮像した画像から生成されるテクスチャには、照明の状態が反映されているため、被写体が本来持つ色とは異なる色で観測される。したがって、照明の影響をキャンセルするのが難しいという問題があった。
 本開示では、時刻毎に照明の状態が変化する場合であっても、高品質な3Dモデルやボリュメトリック映像を生成することができる画像処理装置、3Dモデルの生成方法、学習方法およびプログラムを提案する。
 上記の課題を解決するために、本開示に係る一形態の画像処理装置は、時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得する第1の取得部と、前記照明の状態を前記時刻毎に取得する第2の取得部と、前記第2の取得部が取得した前記時刻毎の前記照明の状態に基づいて、前記画像から前記オブジェクトを切り出す切り出し部と、前記切り出し部が切り出した前記オブジェクトの3Dモデルを生成するモデル生成部と、を備える画像処理装置である。
 また、本開示に係る一形態の画像処理装置は、時刻毎に変化する照明の状態に基づいて、当該時刻毎に照明の状態が変化する状況下にあるオブジェクトを前記時刻毎に撮像した画像から前記オブジェクトを切り出すことによって生成された3Dモデルを取得する取得部と、前記取得部が取得した前記3Dモデルのレンダリングを行うレンダリング部と、を備える画像処理装置である。
サーバ装置が被写体の3Dモデルを生成する流れの概要を示す図である。 3Dモデルを表現するために必要なデータの内容について説明する図である。 第1の実施形態の映像生成表示装置の装置構成の一例を示すブロック図である。 第1の実施形態のサーバ装置のハードウエア構成の一例を示すハードウエアブロック図である。 第1の実施形態の携帯端末のハードウエア構成の一例を示すハードウエアブロック図である。 第1の実施形態の映像生成表示装置の機能構成の一例を示す機能ブロック図である。 第1の実施形態の映像生成表示装置に係る入出力データのデータ形式の一例を示す図である。 照明情報処理部が照明付背景画像をシミュレーションする処理について説明する図である。 テクスチャ補正処理の方法について説明する図である。 第1の実施形態の映像生成表示装置が表示する映像の一例を示す図である。 第1の実施形態における照明情報処理の流れの一例を示すフローチャートである。 第1の実施形態における前景切り出し処理の流れの一例を示すフローチャートである。 第1の実施形態におけるテクスチャ補正処理の流れの一例を示すフローチャートである。 第2の実施形態の映像生成表示装置の機能構成の一例を示す機能ブロック図である。 ディープラーニングを利用した前景切り出し処理の概要を説明する図である。 ディープラーニングを利用したテクスチャ補正処理の概要を説明する図である。 第2の実施形態における前景切り出し処理の流れの一例を示すフローチャートである。 第2の実施形態におけるテクスチャ補正処理の流れの一例を示すフローチャートである。 学習データの生成手順の一例を示すフローチャートである。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 また、以下に示す項目順序に従って本開示を説明する。
  1.第1の実施形態
   1-1.前提事項の説明-3Dモデルの生成
   1-2.前提事項の説明-3Dモデルのデータ構造
   1-3.映像生成表示装置の概略構成
   1-4.サーバ装置のハードウエア構成
   1-5.携帯端末のハードウエア構成
   1-6.映像生成表示装置の機能構成
   1-7.照明付背景画像のシミュレーション方法
   1-8.前景切り出し処理
   1-9.テクスチャ補正処理
   1-10.第1の実施形態の映像生成表示装置が行う照明情報処理の流れ
   1-11.第1の実施形態の映像生成表示装置が行う前景切り出し処理の流れ
   1-12.第1の実施形態の映像生成表示装置が行うテクスチャ補正処理の流れ
   1-13.第1の実施形態の効果
  2.第2の実施形態
   2-1.第2の実施形態の映像生成表示装置の機能構成
   2-2.前景切り出し処理
   2-3.テクスチャ補正処理
   2-4.第2の実施形態の映像生成表示装置が行う処理の流れ
   2-5.第2の実施形態の変形例
   2-6.第2の実施形態の効果
(1.第1の実施形態)
[1-1.前提事項の説明-3Dモデルの生成]
 図1は、サーバ装置が被写体の3Dモデルを生成する流れの概要を示す図である。
 図1に示すように、被写体18の3Dモデル18Mは、複数のカメラ14(14a,14b,14c)による被写体18の撮像と、3Dモデリングにより被写体18の3D情報を有する3Dモデル18Mを生成する処理と、を経て行われる。
 具体的には、複数のカメラ14は、図1に示すように、現実世界に存在する被写体18を取り囲むように、被写体18の外側に、被写体18の方向を向いて配置される。図1は、カメラの台数が3台の例を示しており、カメラ14a,14b,14cが被写体18の周りに配置されている。なお、図1においては、人物が被写体18とされている。また、カメラ14の台数は3台に限定されるものではなく、より多くの台数のカメラを備えてもよい。
 異なる視点から、3台のカメラ14a,14b,14cによって、同期してボリュメトリック撮影された複数の視点画像を用いて3Dモデリングが行われ、3台のカメラ14a,14b,14cの映像フレーム単位で被写体18の3Dモデル18Mが生成される。
 3Dモデル18Mは、被写体18の3D情報を有するモデルである。3Dモデル18Mは、被写体18の表面形状を表す形状情報を、例えば、ポリゴンメッシュと呼ばれる、頂点(Vertex)と頂点との繋がりで表現したメッシュデータの形式で有する。また、3Dモデル18Mは、各ポリゴンメッシュに対応した、被写体18の表面状態を表すテクスチャ情報を有する。なお、3Dモデル18Mが有する情報の形式はこれらに限定されるものではなく、その他の形式の情報であってもよい。
 3Dモデル18Mを再構成する際には、メッシュ位置に応じて、当該メッシュの色や模様や質感を表すテクスチャを貼り付ける、いわゆるテクスチャマッピングを行う。テクスチャマッピングは、3Dモデル18Mのリアリティを向上させるために、視点位置に応じた(View Dependent:以下VDと呼ぶ)テクスチャを貼り付けるのが望ましい。これにより、3Dモデル18Mを任意の仮想視点から撮像した際に、視点位置に応じてテクスチャが変化するため、より高画質の仮想画像が得られる。しかし、計算量が増大するため、3Dモデル18Mには、視線位置に依らない(View Independent:以下VIと呼ぶ)テクスチャを貼り付けてもよい。
 読み出された3Dモデル18Mを含むコンテンツデータは、再生装置である携帯端末80に伝送されて再生される。3Dモデル18Mのレンダリングが行われて、3Dモデル18Mを含むコンテンツデータが再生されることにより、ユーザ(視聴者)の視聴デバイスに3D形状を有する映像が表示される。
 図1の例では、スマートフォンやタブレット端末等の携帯端末80が視聴デバイスとして用いられる。即ち、携帯端末80のディスプレイ111に、3Dモデル18Mを含む画像が表示される。
[1-2.前提事項の説明-3Dモデルのデータ構造]
 次に、図2を用いて、3Dモデル18Mを表現するために必要なデータの内容について説明する。図2は、3Dモデルを表現するために必要なデータの内容について説明する図である。
 被写体18の3Dモデル18Mは、被写体18の形状を示すメッシュ情報Mと、被写体18の表面の質感(色合い、模様等)を示すテクスチャ情報Tとによって表現される。
 メッシュ情報Mは、3Dモデル18Mの表面上のいくつかの部位を頂点として、それらの頂点の繋がりによって3Dモデル18Mの形状を表す(ポリゴンメッシュ)。また、メッシュ情報Mの代わりに、被写体18を観測する視点位置から被写体18の表面までの距離を表すデプス情報Dp(非図示)を用いてもよい。被写体18のデプス情報Dpは、例えば、隣接する撮像装置で撮像された画像から検出した、被写体18の同じ領域に対する視差に基づいて算出する。なお、撮像装置の代わりに測距機構を備えるセンサ(例えばTOF(Time Of Flight)カメラ)や赤外線(IR)カメラを設置して、被写体18までの距離を得てもよい。
 本実施形態では、テクスチャ情報Tとして2通りのデータを使用する。1つは、3Dモデル18Mを観測する視点位置に依らない(VI)テクスチャ情報Taである。テクスチャ情報Taは、3Dモデル18Mの表面のテクスチャを、例えば、図2に示すUVテクスチャマップのような展開図の形式で記憶したデータである。即ち、テクスチャ情報Taは、視点位置に依らないデータである。例えば、3Dモデル18Mが洋服を着た人物である場合に、テクスチャ情報Taとして、洋服の模様と人物の皮膚や毛髪とを含むUVテクスチャマップが用意される。そして、3Dモデル18Mを表すメッシュ情報Mの表面に、当該メッシュ情報Mに対応するテクスチャ情報Taを貼り付ける(VIレンダリング)ことによって、3Dモデル18Mを描画することができる。そして、このとき、3Dモデル18Mの観測位置が変化した場合であっても、同じ領域を表すメッシュには同じテクスチャ情報Taを貼り付ける。このように、テクスチャ情報Taを用いたVIレンダリングは、3Dモデル18Mが着用している洋服のテクスチャ情報Taを、洋服の部位を表す全てのメッシュに貼り付けることによって実行されるため、一般に、データサイズが小さく、レンダリング処理の計算負荷も軽い。但し、貼り付けられたテクスチャ情報Taは一様であって、観測位置を変更してもテクスチャは変化しないため、テクスチャの品質は一般に低い。
 もう1つのテクスチャ情報Tは、3Dモデル18Mを観測する視点位置に依存する(VD)テクスチャ情報Tbである。テクスチャ情報Tbは、被写体18を多視点から観測した画像の集合によって表現される。即ち、テクスチャ情報Taは、視点位置に応じたデータである。具体的には、被写体18をN台のカメラで観測した場合、テクスチャ情報Tbは、各カメラが同時に撮像したN枚の画像で表現される。そして、3Dモデル90Mの任意のメッシュに、テクスチャ情報Tbをレンダリングする場合、N枚の画像の中から、該当するメッシュに対応する領域を全て検出する。そして、検出された複数の領域にそれぞれ写ったテクスチャを重み付けして、該当するメッシュに貼り付ける。このように、テクスチャ情報Tbを用いたVDレンダリングは、一般に、データサイズが大きく、レンダリング処理の計算負荷は重い。しかし、貼り付けられたテクスチャ情報Tbは、観測位置に応じて変化するため、テクスチャの品質は一般に高い。
[1-3.映像生成表示装置の概略構成]
 次に、図3を用いて、第1の実施形態の映像生成表示装置の概略構成を説明する。図3は、第1の実施形態の映像生成表示装置の装置構成の一例を示すブロック図である。
 映像生成表示装置10aは、被写体18の3Dモデル18Mを生成する。また、映像生成表示装置10aは、生成した被写体18の3Dモデル18Mを自由視点から視聴したボリュメトリック映像を再生する。映像生成表示装置10aは、サーバ装置20aと、携帯端末80とを備える。なお、映像生成表示装置10aは、本開示における画像処理装置の一例である。また、被写体18は、本開示におけるオブジェクトの一例である。
 サーバ装置20aは、被写体18の3Dモデル18Mを生成する。サーバ装置20aは、更に、照明制御モジュール30と、ボリュメトリック映像生成モジュール40aとを備える。
 照明制御モジュール30は、照明デバイス11に対して、時刻毎の照明制御情報17を設定する。照明制御情報17は、例えば、照明の位置、向き、色、明るさ等を含む情報である。なお、照明デバイス11は、複数台が接続されて、被写体18を異なる方向から照明する。照明制御モジュール30の詳細な機能構成は後述する。
 ボリュメトリック映像生成モジュール40aは、被写体18を異なる位置から撮像するように設置された複数台のカメラ14が撮総したカメラ画像に基づいて、被写体18の3Dモデル18Mを生成する。ボリュメトリック映像生成モジュール40aの詳細な機能構成は後述する。
 携帯端末80は、サーバ装置20aから送信された被写体18の3Dモデル18Mを受信する。そして、携帯端末80は、被写体18の3Dモデル18Mを自由視点から視聴したボリュメトリック映像を再生する。携帯端末80は、ボリュメトリック映像再生モジュール90を備える。なお、携帯端末80は、具体的には、スマートフォン、テレビモニタ、HMD(Head Mount Display)等の映像再生機能を備える装置であれば、その種類は問わない。
 ボリュメトリック映像再生モジュール90は、ボリュメトリック映像生成モジュール40aが生成した被写体18の3Dモデル18Mを自由視点から視聴した時刻毎の画像をレンダリングすることによってボリュメトリック映像を生成する。そして、ボリュメトリック映像再生モジュール90は、生成したボリュメトリック映像を再生する。ボリュメトリック映像再生モジュール90の詳細な機能構成は後述する。
[1-4.サーバ装置のハードウエア構成]
 次に、図4を用いて、サーバ装置20aのハードウエア構成を説明する。図4は、第1の実施形態のサーバ装置のハードウエア構成の一例を示すハードウエアブロック図である。
 サーバ装置20aは、CPU(Central Processing Unit)50と、ROM(Read Only Memory)51と、RAM(Random Access Memory)52と、記憶部53と、入出力コントローラ54と、通信コントローラ55とが内部バス60で接続された構成を有する。
 CPU50は、記憶部53に格納されている制御プログラムP1と、ROM51に格納されている各種データファイルとをRAM52上に展開して実行することによって、サーバ装置20aの全体の動作を制御する。即ち、サーバ装置20aは、制御プログラムP1によって動作する一般的なコンピュータの構成を有する。なお、制御プログラムP1は、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供されてもよい。また、サーバ装置20aは、一連の処理をハードウエアによって実行してもよい。なお、CPU50が実行する制御プログラムP1は、本開示で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。
 記憶部53は、例えばフラッシュメモリにより構成されて、CPU50が実行する制御プログラムP1と、被写体18の3Dモデル18Mとを記憶する。また、3Dモデル18Mは、サーバ装置20a自身が生成したものであってもよいし、その他の外部機器から取得したものであってもよい。
 入出力コントローラ54は、タッチパネルインタフェース56を介して、照明デバイス11やカメラ14等に係る情報を表示するディスプレイ62に積層されたタッチパネル61の操作情報を取得する。また、入出力コントローラ54は、ディスプレイインタフェース57を介して、ディスプレイ62に画像情報や照明デバイス11に係る情報等を表示する。
 また、入出力コントローラ54は、カメラインタフェース58を介して、カメラ14と接続される。入出力コントローラ54は、カメラ14の撮像制御を行うことによって、被写体18を取り囲むように配置された複数のカメラ14で、被写体18を同時に撮像する。また、入出力コントローラ54は、撮像した複数の画像をサーバ装置20aに入力する。
 また、入出力コントローラ54は、照明インタフェース59を介して、照明デバイス11と接続される。入出力コントローラ54は、照明デバイス11に対して、照明状態を制御する照明制御情報17(図6参照)を出力する。
 さらに、サーバ装置20aは、通信コントローラ55を介して、携帯端末80との間で通信を行う。これによって、サーバ装置20aは、携帯端末80に対して、被写体18のボリュメトリック映像を送信する。
[1-5.携帯端末のハードウエア構成]
 次に、図5を用いて、携帯端末80のハードウエア構成を説明する。図5は、第1の実施形態の携帯端末のハードウエア構成の一例を示すハードウエアブロック図である。
 携帯端末80は、CPU100と、ROM101と、RAM102と、記憶部103と、入出力コントローラ104と、通信コントローラ105とが内部バス109で接続された構成を有する。
 CPU100は、記憶部103に格納されている制御プログラムP2と、ROM101に格納されている各種データファイルとをRAM102上に展開して実行することによって、携帯端末80の全体の動作を制御する。即ち、携帯端末80は、制御プログラムP2によって動作する一般的なコンピュータの構成を有する。なお、制御プログラムP2は、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供されてもよい。また、携帯端末80は、一連の処理をハードウエアによって実行してもよい。なお、CPU100が実行する制御プログラムP2は、本開示で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。
 記憶部103は、例えばフラッシュメモリにより構成されて、CPU100が実行する制御プログラムP2と、サーバ装置20aから取得した3Dモデル18Mとを記憶する。なお、3Dモデル18Mは、携帯端末80がサーバ装置20aに対して指示した特定の被写体18、即ち描画の対象となる被写体18の3Dモデルである。そして、3Dモデル18Mは、前記したメッシュ情報Mとテクスチャ情報Taとテクスチャ情報Tbを含むものである。
 入出力コントローラ104は、タッチパネルインタフェース106を介して、携帯端末80に係る情報を表示するディスプレイ111に積層されたタッチパネル110の操作情報を取得する。また、入出力コントローラ104は、ディスプレイインタフェース107を介して、ディスプレイ111に、被写体18を含むボリュメトリック映像等を表示する。
 また、携帯端末80は、通信コントローラ105を介して、サーバ装置20aとの間で通信を行う。これによって、携帯端末80は、サーバ装置20aから、3Dモデル18Mに係る情報等を取得する。
[1-6.映像生成表示装置の機能構成]
 次に、図6を用いて、第1の実施形態の映像生成表示装置10aの機能構成を説明する。図6は、第1の実施形態の映像生成表示装置の機能構成の一例を示す機能ブロック図である。
 サーバ装置20aのCPU50は、制御プログラムP1をRAM52上に展開して動作させることによって、図6に示す照明制御UI部31と、照明制御情報出力部32と、照明制御情報入力部41と、照明情報処理部42と、撮像部43と、前景切り出し処理部44aと、テクスチャ補正処理部45aと、モデリング処理部46と、テクスチャ生成部47とを機能部として実現する。
 照明制御UI部31は、照明制御情報出力部32を介して、照明デバイス11に対して、明るさ、色、照明方向等の照明制御情報17を与える。具体的には、照明制御UI部31は、操作者が専用のUI画面において、タッチパネル61を操作することによって設定した操作内容に対応する照明制御情報17を、照明制御情報出力部32に送信する。なお、照明制御UI部31において、照明デバイス11を時間とともにどのように設定するかを示す照明シナリオ16を予め生成して記憶しておいてもよい。
 照明制御情報出力部32は、照明制御UI部31から送信された照明制御情報17を受信する。また、照明制御情報出力部32は、受信した照明制御情報17を照明デバイス11と、照明制御情報入力部41と、後述する照明シミュレーション制御部73とに送信する。
 照明制御情報入力部41は、照明制御情報出力部32から照明制御情報17を受信する。また、照明制御情報入力部41は、照明制御情報17を照明情報処理部42に送信する。なお、照明制御情報入力部41は、本開示における第2の取得部の一例である。
 照明情報処理部42は、照明制御情報17と、背景データ12と、照明デバイス設定情報13と、カメラキャリブレーション情報15とを用いて、その時刻における照明の状態に基づく照明付背景画像、即ち、被写体18が存在しない状態で照明が照射された画像をシミュレーションする。詳細は後述する(図8参照)。
 撮像部43は、時刻毎に照明の状態が変化する状況下にある被写体18(オブジェクト)をカメラ14が時刻毎に撮像した画像を取得する。なお、撮像部43は、本開示における第1の取得部の一例である。
 前景切り出し処理部44aは、照明制御情報入力部41が取得した時刻毎の照明デバイス11の状態に基づいて、カメラ14が撮像した画像の中から被写体18(オブジェクト)の領域を切り出す。なお、前景切り出し処理部44aは、本開示における切り出し部の一例である。なお、前景切り出し処理部44aが行う具体的な処理の内容は後述する。
 テクスチャ補正処理部45aは、照明制御情報入力部41が取得した時刻毎の照明デバイス11の状態に基づいて、カメラ14が撮像した画像に写る被写体18のテクスチャを、時刻毎の照明デバイス11の状態に応じて補正する。なお、テクスチャ補正処理部45aは、本開示における補正部の一例である。テクスチャ補正処理部45aが行う具体的な処理の内容は後述する。
 モデリング処理部46は、前景切り出し処理部44aが切り出した被写体18(オブジェクト)の3Dモデルを生成する。なお、モデリング処理部46は、本開示におけるモデル生成部の一例である。
 テクスチャ生成部47は、各カメラ14からのテクスチャ情報を纏めて、圧縮及び符号化処理を行って、ボリュメトリック映像再生モジュール90に送信する。
 また、携帯端末80のCPU100は、制御プログラムP2をRAM102上に展開して動作させることによって、図6に示すレンダリング部91と、再生部92とを機能部として実現する。
 レンダリング部91は、ボリュメトリック映像生成モジュール40aから取得した被写体18(オブジェクト)の3Dモデルおよびテクスチャを描画(レンダリング)する。なお、レンダリング部91は、本開示における描画部の一例である。
 再生部92は、レンダリング部91が描画したボリュメトリック映像を、ディスプレイ111で再生する。
 なお、図6には示さないが、ボリュメトリック映像再生モジュール90は、離れた場所にある複数のボリュメトリック映像生成モジュール40aからのモデルデータ48とテクスチャデータ49とを取得する構成としてもよい。そして、ボリュメトリック映像再生モジュール90を、離れた場所で撮影された複数のオブジェクトをひとつのボリュメトリック映像に合成して再生する用途に使用してもよい。その際、離れた場所における照明環境は一般に異なっているが、ボリュメトリック映像生成モジュール40aが生成した被写体18の3Dモデル18Mは、後述するように、モデル生成時の照明の影響を受けないものとなるため、ボリュメトリック映像再生モジュール90は、異なる照明環境で生成された複数の3Dモデル18Mを合成して、任意の照明環境下で再生することが可能である。
[1-7.照明付背景画像のシミュレーション方法]
 次に、図7,図8を用いて、照明情報処理部が照明付背景画像をシミュレーションする処理の内容を説明する。図7は、第1の実施形態の映像生成表示装置に係る入出力データのデータ形式の一例を示す図である。図8は、照明情報処理部が照明付背景画像をシミュレーションする処理について説明する図である。
 照明情報処理部42には、照明制御情報出力部32から照明制御情報17が入力される。また、照明情報処理部42には、照明デバイス設定情報13と、カメラキャリブレーション情報15と、背景データ12とがそれぞれ入力される。
 これらの入力情報は、図7に示すデータ形式を有する。照明制御情報17は、時刻毎、照明デバイス11毎に、当該照明デバイス11に与えられる各種パラメータ値を記述したものである。
 照明デバイス設定情報13は、照明デバイス11毎に、当該照明デバイス11の初期状態を示す各種パラメータ値を記述したものである。なお、記述されるパラメータは、例えば、照明デバイス11のタイプ、設置位置、設置方向、色設定、明るさ設定等である。
 カメラキャリブレーション情報15は、カメラ14毎に、当該カメラ14の内部キャリブレーションデータと外部キャリブレーションデータとを記述したものである。内部キャリブレーションデータは、カメラ14固有の内部パラメータ(レンズやフォーカス設定によって最終的に得られる画像の歪み補正を行うためのパラメータ)に関するキャリブレーションデータである。外部キャリブレーションデータは、カメラ14の位置や向きに関するキャリブレーションデータである。
 背景データ12は、所定の照明状態において、カメラ14毎に予め撮像された、背景画像を格納したデータである。
 そして、ボリュメトリック映像生成モジュール40aの前景切り出し処理部44aは、照明デバイス11の時間変動を考慮して、カメラ14が撮像した画像の中から被写体18の領域が切り出されたモデルデータ48を出力する。また、ボリュメトリック映像生成モジュール40aのテクスチャ補正処理部45aは、照明デバイス11の影響が除去されたテクスチャデータ49を出力する。
 モデルデータ48は、フレーム毎に、当該フレームにおける被写体18のメッシュデータを格納したものである。
 テクスチャデータ49は、フレーム毎に、各カメラ14の外部キャリブレーションデータとテクスチャ画像とを格納したものである。なお、各カメラ14の位置関係が固定されている場合には、外部キャリブレーションデータは、最初のフレームのみに格納しておけばよい。一方、各カメラ14の位置関係が変化する場合は、外部キャリブレーションデータは、各カメラ14の位置関係が変化した各フレームに格納される。
 前景切り出し処理部44aが、照明デバイス11の時間変動を考慮して、被写体18を切り出すために、照明情報処理部42は、図8に示す照明付背景画像Iaを生成する。照明付背景画像Iaは、時刻毎、カメラ14毎に生成される。
 より詳細には、照明情報処理部42は、同じ時刻の照明制御情報17と照明デバイス設定情報13とに基づいて、時刻毎の照明デバイス11の設定状態を算出する。
 照明情報処理部42は、各カメラ14が撮像した背景データ12に対して、各カメラ14のカメラキャリブレーション情報15を用いて歪み補正を行う。そして、照明情報処理部42は、歪み補正済みの背景データ12に対して、時刻毎の照明デバイス11の設定状態に基づく照明パターンをシミュレーションすることによって、照明付背景画像Iaを生成する。
 こうして生成された照明付背景画像Iaは、前景切り出し照明画像Ibおよびテクスチャ補正照明画像Icとして利用される。前景切り出し照明画像Ibとテクスチャ補正照明画像Icとは実質的には同じ画像情報であるが、以後の説明のために、便宜上分けて記載する。
 前景切り出し照明画像Ibおよびテクスチャ補正照明画像Icは、各カメラ14で、各時刻において、照明がどのような状態で観測されるかを示す2D画像情報である。なお、照明がどのような状態で観測されるかがわかる情報であれば、情報の形式は、画像情報に限定されるものではない。
[1-8.前景切り出し処理]
 前記した前景切り出し照明画像Ibは、該当する時刻に該当するカメラ14で撮像されると予測される照明状態を表す画像である。前景切り出し処理部44a(図6参照)は、同じ時刻にカメラ14で実際に撮像された画像から、前景切り出し照明画像Ibを差し引く前景背景間差分を行うことによって、前景、即ち被写体18の領域を切り出す。
 なお、このとき、前景切り出し処理部44aはクロマキー処理を行ってもよい。但し、本実施形態にあっては、照明の影響によって、背景色が領域毎に異なっている。したがって、前景切り出し処理部44aは、通常用いられる単一背景色に基づくクロマキー処理ではなく、前景切り出し照明画像Ibの領域毎に、背景であると判断する色の閾値を設定する。そして、前景切り出し処理部44aは、カメラ14で実際に撮像された画像の明るさと、設定された閾値とを比較することによって、背景であるかを弁別して前景を切り出す。
 また、前景切り出し処理部44aは、前景背景間差分とクロマキー処理とを併用して、被写体18の領域を切り出してもよい。
[1-9.テクスチャ補正処理]
 次に、図9を用いて、映像生成表示装置10aが行うテクスチャ補正処理を説明する。図9は、テクスチャ補正処理の方法について説明する図である。
 テクスチャ補正処理部45a(図6参照)は、カメラ14が撮像した画像に写る被写体18のテクスチャを、時刻毎の照明デバイス11の状態に応じて色補正する。
 テクスチャ補正処理部45aは、前記したテクスチャ補正照明画像Icと、カメラ14が実際に撮像したカメラ画像Idとに対して、同様な色補正を行う。但し、本実施形態にあっては、照明の影響によって、被写体18のテクスチャは領域毎に異なっているため、図9に示すように、テクスチャ補正照明画像Icとカメラ画像Idとをそれぞれ同じ大きさの複数の小領域に分割して、小領域毎に色補正を実行する。なお、デジタル画像処理において色補正は広く実施されており、ここでも、既知の手法に準じて行えばよい。
 テクスチャ補正処理部45aは、テクスチャ補正処理を行った結果、テクスチャ補正画像Ieを生成して出力する。即ち、テクスチャ補正画像Ieは、標準照明下で観測されると推定されるテクスチャを示す画像である。
 なお、テクスチャ補正処理は、被写体18の領域のみに適用されればよいため、カメラ画像Idのうち、前記した前景切り出し処理によって切り出された被写体18の領域のみに対して行ってもよい。
 前記した前景切り出し処理およびテクスチャ補正処理によって、照明状態に依存しない被写体18の3Dモデル18Mが得られる。そして、ボリュメトリック映像再生モジュール90は、図10に示すボリュメトリック映像Ivを生成して表示する。ボリュメトリック映像Ivには、カメラ14がカメラ画像Idを撮像したのと同じ時刻の照明情報が再現されるとともに、被写体18の3Dモデル18Mが描画される。
 また、異なる照明状態で生成された複数のオブジェクトを、1つのボリュメトリック映像に合成する場合に、撮影時の照明の影響を取り除くことができる。
[1-10.第1の実施形態の映像生成表示装置が行う照明情報処理の流れ]
 次に、図11を用いて、映像生成表示装置10aが行う照明情報処理の流れを説明する。図11は、第1の実施形態における照明情報処理の流れの一例を示すフローチャートである。
 照明情報処理部42は、各カメラ14が予め撮像した背景データ12を取得する(ステップS10)。
 照明情報処理部42は、カメラキャリブレーション情報15(内部キャリブレーションデータ)を用いて、ステップS10で取得した背景データ12の歪み補正を行う(ステップS11)。
 照明情報処理部42は、照明制御情報出力部32から照明制御情報17を取得する。また、照明情報処理部42は、照明デバイス設定情報13を取得する(ステップS12)。
 照明情報処理部42は、照明付背景画像Iaを生成する(ステップS13)。
 照明情報処理部42は、カメラキャリブレーション情報15(外部キャリブレーションデータ)を用いて、ステップS13で生成した照明付背景画像Iaの歪み補正を行う(ステップS14)。
 照明情報処理部42は、照明付背景画像Iaを前景切り出し処理部44aに出力する(ステップS15)。
 照明情報処理部42は、照明付背景画像Iaをテクスチャ補正処理部45aに出力する(ステップS16)。
 照明情報処理部42は、最終フレームかを判定する(ステップS17)。最終フレームであると判定される(ステップS17:Yes)と、映像生成表示装置10aは、図11の処理を終了する。一方、最終フレームであると判定されない(ステップS17:No)と、ステップS10に戻る。
[1-11.第1の実施形態の映像生成表示装置が行う前景切り出し処理の流れ]
 次に、図12を用いて、映像生成表示装置10aが行う前景切り出し処理の流れを説明する。図12は、第1の実施形態における前景切り出し処理の流れの一例を示すフローチャートである。
 撮像部43は、各カメラ14が時刻毎に撮像したカメラ画像Idを取得する(ステップS20)。
 また、撮像部43は、カメラキャリブレーション情報15(内部キャリブレーションデータ)を用いて、ステップS20で取得したカメラ画像Idの歪み補正を行う(ステップS21)。
 前景切り出し処理部44aは、照明情報処理部42から、照明付背景画像Iaを取得する(ステップS22)。
 前景切り出し処理部44aは、同時刻の全景背景差分によって、カメラ画像Idから前景(被写体18)を切り出す(ステップS23)。
 前景切り出し処理部44aは、最終フレームかを判定する(ステップS24)。最終フレームであると判定される(ステップS24:Yes)と、映像生成表示装置10aは、図12の処理を終了する。一方、最終フレームであると判定されない(ステップS24:No)と、ステップS20に戻る。
[1-12.第1の実施形態の映像生成表示装置が行うテクスチャ補正処理の流れ]
 次に、図13を用いて、映像生成表示装置10aが行うテクスチャ補正処理の流れを説明する。図13は、第1の実施形態におけるテクスチャ補正処理の流れの一例を示すフローチャートである。
 撮像部43は、各カメラ14が時刻毎に撮像したカメラ画像Idを取得する(ステップS30)。
 また、撮像部43は、カメラキャリブレーション情報15(内部キャリブレーションデータ)を用いて、ステップS30で取得したカメラ画像Idの歪み補正を行う(ステップS31)。
 テクスチャ補正処理部45aは、照明情報処理部42から、照明付背景画像Iaを取得する(ステップS32)。
 テクスチャ補正処理部45aは、同時刻の歪み補正済のカメラ画像Idと、照明付背景画像Iaとを、同サイズの小領域に分割する(ステップS33)。
 テクスチャ補正処理部45aは、ステップS33で分割した小領域毎にテクスチャ補正を行う(ステップS34)。
 テクスチャ補正処理部45aは、最終フレームかを判定する(ステップS35)。最終フレームであると判定される(ステップS35:Yes)と、映像生成表示装置10aは、図13の処理を終了する。一方、最終フレームであると判定されない(ステップS35:No)と、ステップS30に戻る。
[1-13.第1の実施形態の効果]
 以上説明したように、第1の実施形態の映像生成表示装置10a(画像処理装置)によると、撮像部43(第1の取得部)は、時刻毎に照明デバイス11の状態が変化する状況下にある被写体18(オブジェクト)を時刻毎に撮像した画像を取得して、照明制御情報入力部41(第2の取得部)は、照明デバイス11の状態を、撮像部43が画像を撮像する時刻毎に取得する。そして、前景切り出し処理部44a(切り出し部)は、照明制御情報入力部41が取得した時刻毎の照明デバイス11の状態に基づいて、撮像部43が撮像した画像から被写体18を切り出して、モデリング処理部46(モデル生成部)は、前景切り出し処理部44aが切り出した被写体18の3Dモデルを生成する。
 これにより、例えば音楽ライブ会場のように時刻毎に照明の状態が変化する場合であっても、高精度に被写体の領域を切り出すことができる。したがって、高品質な3Dモデルやボリュメトリック映像を生成することができる。
 また、第1の実施形態の映像生成表示装置10a(画像処理装置)によると、テクスチャ補正処理部45a(補正部)は、照明制御情報入力部41が取得した時刻毎の照明デバイス11の状態に基づいて、撮像部43が撮像した画像のテクスチャを、時刻毎の照明デバイス11の状態に応じて補正する。
 これにより、時刻毎に照明の状態が変化する状態で撮像された画像に写る被写体18のテクスチャから、通常照明下で観測される被写体18のテクスチャを推定することができる。
 また、第1の実施形態の映像生成表示装置10a(画像処理装置)において、照明デバイス11の状態は、少なくとも、照明デバイス11の位置と、方向と、色と、明るさとを含む。
 これにより、時刻毎に変化する照明デバイス11の詳細な状態を、確実に取得することができる。
 また、第1の実施形態の映像生成表示装置10a(画像処理装置)において、カメラ14が撮像する画像は、被写体18(オブジェクト)の周囲から、当該被写体18の方向を撮像したものである。
 これにより、被写体18を様々な自由視点から観測した3Dモデル18Mを生成することができる。
 また、第1の実施形態の映像生成表示装置10a(画像処理装置)において、モデリング処理部46(モデル生成部)は、時刻毎に変化する照明デバイス11の状態に基づいて、当該時刻毎に照明デバイス11の状態が変化する状況下にある被写体18(オブジェクト)を時刻毎に撮像した画像から、被写体18の領域を切り出すことによって、被写体18の3Dモデル18Mを生成する。そして、レンダリング部91(描画部)は、モデリング処理部46が生成した3Dモデル18Mを描画する。
 これにより、照明の状態が変化する状況で撮像された画像の中から被写体18の領域を切り出して、自由視点から見た映像を描画することができる。
 また、第1の実施形態の映像生成表示装置10a(画像処理装置)において、テクスチャ補正処理部45a(補正部)は、時刻毎に変化する照明デバイス11の状態に基づいて、当該時刻毎に照明デバイス11の状態が変化する状況下にある被写体18(オブジェクト)を時刻毎に撮像した画像から、被写体18のテクスチャを、時刻毎の前記照明デバイス11の状態に応じて補正する。そして、レンダリング部91(描画部)は、テクスチャ補正処理部45aが補正したテクスチャを用いて、被写体18を描画する。
 これにより、照明の状態が変化する状況で撮像された画像に写る被写体18のテクスチャを補正して、自由視点から見たボリュメトリック映像を描画することができる。
 また、第1の実施形態の映像生成表示装置10a(画像処理装置)は、時刻毎に照明の状態が変化する状況下にある被写体18(オブジェクト)を時刻毎に撮像した画像と、照明デバイス11の状態とを時刻毎に取得して、時刻毎に取得された照明デバイス11の状態に基づいて、被写体18の画像から被写体18の領域を切り出して、被写体18のモデルデータ48を生成する。
 これにより、時刻毎に照明の状態が変化する場合であっても、高精度に被写体の領域を切り出すことができるため、高品質な3Dモデルを生成することができる。
(2.第2の実施形態)
[2-1.第2の実施形態の映像生成表示装置の機能構成]
 第1の実施形態で説明した映像生成表示装置10aは、照明制御情報17に基づいて時刻毎の照明状態を取得し、取得した時刻毎の照明状態に基づいて、前景の切り出しとテクスチャ補正とを行う。この方法によると、簡便な計算処理によって、オブジェクトの切り出しとテクスチャ補正を行うことが可能であるが、より複雑な環境にも安定して対応させるように、汎用性を向上させる必要ある。以下に説明する第2の実施形態の映像生成表示装置10bは、深層学習(ディープラーニング)を用いて作成した学習モデルを利用することによって、前景の切り出しとテクスチャ補正の汎用性をより高めるものである。
 図14を用いて、第2の実施形態の映像生成表示装置10bの機能構成を説明する。図14は、第2の実施形態の映像生成表示装置の機能構成の一例を示す機能ブロック図である。なお、映像生成表示装置10bのハードウエア構成は、映像生成表示装置10aのハードウエア構成と同じである(図4,図5参照)。
 映像生成表示装置10bは、サーバ装置20bと、携帯端末80とを備える。サーバ装置20bは、照明制御モジュール30と、ボリュメトリック映像生成モジュール40bと、照明シミュレーションモジュール70と、学習データ生成モジュール75とを備える。
 照明制御モジュール30は、第1の実施形態で説明した通りである(図6参照)。
 ボリュメトリック映像生成モジュール40bは、第1の実施形態で説明したボリュメトリック映像生成モジュール40aに対して、前景切り出し処理部44aの代わりに前景切り出し処理部44bを備える。また、テクスチャ補正処理部45aの代わりにテクスチャ補正処理部45bを備える。
 前景切り出し処理部44bは、照明制御情報入力部41が取得した時刻毎の照明デバイス11の状態と、被写体18の領域との関係を学習した学習データに基づいて、カメラ14が撮像した画像の中から被写体18(オブジェクト)の領域を切り出す。
 テクスチャ補正処理部45bは、照明制御情報入力部41が取得した時刻毎の照明デバイス11の状態と、被写体18のテクスチャとの関係を学習した学習データに基づいて、カメラ14が撮像した画像に写る被写体18のテクスチャを、時刻毎の照明デバイス11の状態に応じて補正する。
 照明シミュレーションモジュール70は、照明制御情報17に基づいて、背景CGデータ19上またはボリュメトリック映像上に、時刻毎に変化する照明の状態を模擬した照明シミュレーション映像を生成する。照明シミュレーションモジュール70は、ボリュメトリック映像生成部71と、照明シミュレーション生成部72と、照明シミュレーション制御部73を備える。
 ボリュメトリック映像生成部71は、被写体18のモデルデータ48とテクスチャデータ49と、仮想視点位置とに基づいて、被写体18のボリュメトリック映像を生成する。
 照明シミュレーション生成部72は、与えられた照明制御情報17と、ボリュメトリック映像生成部71が生成したボリュメトリック映像と、仮想視点位置とに基づいて、被写体18が照明された状態で観測されるシミュレーション映像を生成する。
 照明シミュレーション制御部73は、照明制御情報17と仮想視点位置とを照明シミュレーション生成部72に送信する。
 学習データ生成モジュール75は、前景切り出し処理を行うための学習モデルと、テクスチャ補正処理を行うための学習モデルを生成する。学習データ生成モジュール75は、学習データ生成制御部76を備える。
 学習データ生成制御部76は、照明シミュレーションモジュール70が生成した照明シミュレーション映像に基づいて、前景切り出し用の学習データ77と、テクスチャ補正用の学習データ78とを生成する。なお、学習データ77は、本開示における第1の学習データの一例である。また、学習データ78は、本開示における第2の学習データの一例である。なお、学習データ77と学習データ78の具体的な生成方法は後述する。
[2-2.前景切り出し処理]
 次に、図15を用いて、映像生成表示装置10bが行う前景切り出し処理を説明する。図15は、ディープラーニングを利用した前景切り出し処理の概要を説明する図である。
 前景切り出し処理部44bは、学習データ77を用いて、カメラ14が撮像したカメラ画像Idの中から、被写体18の領域を切り出す。このときに行われる前景切り出し処理は、学習データ生成制御部76が生成した学習データ77(第1の学習データ)に基づいて行われる。
 学習データ77は、学習データ生成制御部76が、カメラ画像Idと、背景データ12に格納された背景画像Ifと、前景切り出し照明画像Ibと、そこから得られる被写体18の領域との関係を深層学習させることによって生成した、一種の識別器である。そして、この学習データ77は、ともに同時刻における任意のカメラ画像Idと、背景画像Ifと、前景切り出し照明画像Ibとの入力に対して、被写体18の領域が切り出された被写体画像Igを出力する。
 信頼性の高い学習データ77を生成するためには、なるべく多くのデータによって学習を行う必要がある。そのため、映像生成表示装置10bは、照明シミュレーションモジュール70が、背景CGデータ19に対して照明デバイス11によってなされる照明環境に、モデルデータ48に基づく3Dモデルを配置したボリュメトリック映像を模擬することによって、学習データ77の生成を、できるだけ網羅的に行う。詳細な処理の流れは後述する(図19参照)。
[2-3.テクスチャ補正処理]
 次に、図16を用いて、映像生成表示装置10bが行うテクスチャ補正処理を説明する。図16は、ディープラーニングを利用したテクスチャ補正処理の概要を説明する図である。
 テクスチャ補正処理部45bは、学習データ78を用いて、カメラ14が撮像したカメラ画像の中の被写体18のテクスチャを、例えば標準照明状態におけるテクスチャに補正する。このときに行われるテクスチャ処理は、学習データ生成制御部76が生成した学習データ78(第2の学習データ)に基づいて行われる。
 学習データ78は、学習データ生成制御部76が、カメラ画像Idと、テクスチャ補正照明画像Icと、そこから得られる被写体18のテクスチャとの関係を深層学習させることによって生成した、一種の識別器である。そして、この学習データ78は、ともに同時刻における任意のカメラ画像Idと、テクスチャ補正照明画像Icとの入力に対して、被写体18の領域がテクスチャ補正されたテクスチャ補正画像Ieを出力する。
 信頼性の高い学習データ78を生成するためには、なるべく多くのデータによって学習を行う必要がある。そのため、映像生成表示装置10bは、照明シミュレーションモジュール70が、照明デバイス11によってなされる照明環境に、モデルデータ48に基づく3Dモデルを配置したボリュメトリック映像を模擬することによって、学習データ78の生成を、できるだけ網羅的に行う。詳細な処理の流れは後述する(図19参照)。
[2-4.第2の実施形態の映像生成表示装置が行う処理の流れ]
 次に、図17,図18,図19を用いて、映像生成表示装置1bが行う処理の流れを説明する。図17は、第2の実施形態における前景切り出し処理の流れの一例を示すフローチャートである。図18は、第2の実施形態におけるテクスチャ補正処理の流れの一例を示すフローチャートである。そして、図19は、学習データの具体的な生成手順の一例を示すフローチャートである。
 まず、図17を用いて、第2の実施形態における前景切り出し処理の流れを説明する。撮像部43は、各カメラ14が時刻毎に撮像したカメラ画像Idを取得する(ステップS40)。
 また、撮像部43は、カメラキャリブレーション情報15(内部キャリブレーションデータ)を用いて、ステップS40で取得したカメラ画像Idの歪み補正を行う(ステップS41)。
 前景切り出し処理部44bは、照明情報処理部42から、前景切り出し照明画像Ibを取得する。また、前景切り出し処理部44bは、背景画像Ifを取得する(ステップS42)。
 前景切り出し処理部44bは、同時刻の前景切り出し照明画像Ibと背景画像Ifと歪み補正済のカメラ画像Idを入力として、学習データ77を用いて推論を行い、カメラ画像Idから前景を切り出す(ステップS43)。
 前景切り出し処理部44bは、最終フレームかを判定する(ステップS44)。最終フレームであると判定される(ステップS44:Yes)と、映像生成表示装置10bは、図17の処理を終了する。一方、最終フレームであると判定されない(ステップS44:No)と、ステップS40に戻る。
 次に、図18を用いて、第2の実施形態におけるテクスチャ補正処理の流れを説明する。撮像部43は、各カメラ14が時刻毎に撮像したカメラ画像Idを取得する(ステップS50)。
 また、撮像部43は、カメラキャリブレーション情報15(内部キャリブレーションデータ)を用いて、ステップS50で取得したカメラ画像Idの歪み補正を行う(ステップS51)。
 テクスチャ補正処理部45bは、照明情報処理部42から、カメラ画像Idと同時刻のテクスチャ補正照明画像Icを取得する。また、前景切り出し処理部44bは、背景画像Ifを取得する(ステップS52)。
 テクスチャ補正処理部45bは、同時刻の歪み補正済のカメラ画像Idとテクスチャ補正照明画像Icとを入力として、学習データ78を用いて推論を行い、カメラ画像Idに写った被写体18のテクスチャを補正する(ステップS53)。
 テクスチャ補正処理部45bは、最終フレームかを判定する(ステップS54)。最終フレームであると判定される(ステップS54:Yes)と、映像生成表示装置10bは、図18の処理を終了する。一方、最終フレームであると判定されない(ステップS54:No)と、ステップS50に戻る。
 次に、図19を用いて、学習データ77,78の生成手順を説明する。図19は、学習データの生成手順の一例を示すフローチャートである。
 学習データ生成制御部76は、各照明デバイス11のパラメータの組み合わせから1つを選択する(ステップS60)。
 学習データ生成制御部76は、ボリュメトリック映像コンテンツの中から1つを選択する(ステップS61)。
 学習データ生成制御部76は、オブジェクトの配置位置と向きを1つ選択する(ステップS62)。
 学習データ生成制御部76は、仮想視点位置を1つ選択する(ステップS63)。
 学習データ生成制御部76は、選択した情報を照明シミュレーションモジュール70に与えて、シミュレーション映像(ボリュメトリック映像と照明付背景画像Ia(前景切り出し照明画像Ib,テクスチャ補正照明画像Ic))を生成する(ステップS64)。
 学習データ生成制御部76は、ステップS64で生成されたシミュレーション映像に対して、オブジェクトの切り出し処理とテクスチャ補正処理を行い、その結果得られた学習データ77と学習データ78を蓄積する(ステップS65)。
 学習データ生成制御部76は、仮想視点位置候補を全て選択したかを判定する(ステップS66)。仮想視点位置候補を全て選択したと判定される(ステップS66:Yes)と、ステップS67に進む。一方、仮想視点位置候補を全て選択したと判定されない(ステップS66:No)と、ステップS63に戻る。
 学習データ生成制御部76は、オブジェクトの配置位置と向きを全て選択したかを判定する(ステップS67)。オブジェクトの配置位置と向きを全て選択したと判定される(ステップS67:Yes)と、ステップS68に進む。一方、オブジェクトの配置位置と向きを全て選択したと判定されない(ステップS67:No)と、ステップS62に戻る。
 学習データ生成制御部76は、ボリュメトリック映像コンテンツを全て選択したかを判定する(ステップS68)。ボリュメトリック映像コンテンツを全て選択したと判定される(ステップS68:Yes)と、ステップS69に進む。一方、ボリュメトリック映像コンテンツを全て選択したと判定されない(ステップS68:No)と、ステップS61に戻る。
 学習データ生成制御部76は、照明デバイス11のパラメータを全て選択したかを判定する(ステップS69)。照明デバイス11のパラメータを全て選択したと判定される(ステップS69:Yes)と、映像生成表示装置10bは、図19の処理を終了する。一方、照明デバイス11のパラメータを全て選択したと判定されない(ステップS69:No)と、ステップS60に戻る。
 [2-5.第2の実施形態の変形例]
 以上、第2の実施形態について説明したが、説明した機能の実現方法には、様々な変形が可能である。
 例えば、前景切り出し処理を行う際に、前景切り出し照明画像Ibを用いる代わりに、数値情報である照明制御情報17を、学習データ生成制御部76に直接入力して推論を行うようにしてもよい。また、仮想視点位置を入力する代わりに、カメラ14の外部キャリブレーションデータ(カメラ14の位置と向きを規定するデータ)を、学習データ生成制御部76に直接入力して推論を行うようにしてもよい。更に、標準照明下の背景画像Ifを入力せずに推論を行うようにしてもよい。
 また、テクスチャ補正処理を行う際に、テクスチャ補正照明画像Icを用いる代わりに、数値情報である照明制御情報17を、学習データ生成制御部76に直接入力して推論を行うようにしてもよい。また、仮想視点位置を入力する代わりに、カメラ14の外部キャリブレーションデータ(カメラ14の位置と向きを規定するデータ)を、学習データ生成制御部76に直接入力して推論を行うようにしてもよい。
 また、テクスチャ補正処理の結果を用いて、従来手法によって前景切り出し処理を行ってもよい。この場合、必要なのは学習データ78のみであって、学習データ77を生成する必要はない。
 なお、学習データ生成制御部76が深層学習を行う際に用いる入出力モデルは、どのような形式のモデルを用いてもよい。また、前フレームの推論結果を、新たなフレームの推論を行う際にフィードバックさせてもよい。
[2-6.第2の実施形態の効果]
 以上説明したように、第2の実施形態の映像生成表示装置10b(画像処理装置)によると、前景切り出し処理部44b(切り出し部)は、照明制御情報入力部41(第2の取得部)が取得した時刻毎の照明デバイス11の状態と、被写体18(オブジェクト)の領域との関係を学習した学習データ77(第1の学習データ)に基づいて、撮像部43(第1の取得部)が取得した画像から被写体18の領域を切り出す。
 これにより、使用環境によらずに、被写体18(前景)を高精度に切り出すことができる。
 また、第2の実施形態の映像生成表示装置10b(画像処理装置)によると、テクスチャ補正処理部45b(補正部)は、照明制御情報入力部41(第2の取得部)が取得した時刻毎の照明デバイス11の状態と、被写体18(オブジェクト)のテクスチャとの関係を学習した学習データ78(第2の学習データ)に基づいて、撮像部43(第1の取得部)が取得した被写体18のテクスチャを、時刻毎の照明デバイス11の状態に応じて補正する。
 これにより、使用環境によらずに、被写体18のテクスチャを安定して補正することができる。
 また、第2の実施形態の映像生成表示装置10b(画像処理装置)によると、モデリング処理部46(モデル生成部)は、時刻毎の照明デバイス11の状態と、時刻毎に撮像した画像の中の被写体18(オブジェクト)の領域との関係を学習した学習データ77(第1の学習データ)に基づいて、被写体18が写った画像から被写体18の領域を切り出すことによって、被写体18の3Dモデル18Mを生成する。
 これにより、使用環境によらずに、被写体18の3Dモデル18Mを高精度に生成することができる。特に、被写体18を周囲から同時刻に撮像した画像を同時に推論することができるため、各画像からの領域の切り出し結果に整合性を持たせることができる。
 また、第2の実施形態の映像生成表示装置10b(画像処理装置)によると、テクスチャ補正処理部45b(補正部)は、時刻毎の照明デバイス11の状態と、被写体18(オブジェクト)のテクスチャとの関係を学習した学習データ78(第2の学習データ)に基づいて、時刻毎に撮像した被写体18のテクスチャを、時刻毎の照明デバイス11の状態に応じて補正する。
 これにより、使用環境によらずに、被写体18のテクスチャを安定して補正することができる。特に、被写体18を周囲から同時刻に撮像した画像を同時に推論することができるため、各画像に対するテクスチャ補正結果に整合性を持たせることができる。
 また、第2の実施形態の映像生成表示装置10b(画像処理装置)において、学習データ生成制御部76は、時刻毎に照明デバイス11の状態が変化する状況下にある被写体18(オブジェクト)を時刻毎に撮像した画像と、照明デバイス11の状態とを時刻毎に取得して、取得した時刻毎の照明デバイス11の状態に基づいて、被写体18を含む画像から被写体18を切り出して、時刻毎の照明デバイス11の状態と、切り出された被写体18の領域との関係を学習して学習データ77を生成する。
 これにより、被写体18を切り出すための学習データ77を容易に生成することができる。特に、ボリュメトリック映像の生成を行う映像生成表示装置10bにあっては、各種仮想視点、各種照明条件、各種被写体を自在に組み合わせた学習データ77を容易かつ網羅的に、大量に生成することが可能である。
 また、第2の実施形態の映像生成表示装置10b(画像処理装置)において、学習データ生成制御部76は、時刻毎に照明デバイス11の状態が変化する状況下にある被写体18(オブジェクト)を時刻毎に撮像した画像と、照明デバイス11の状態とを時刻毎に取得して、取得した時刻毎の照明デバイス11の状態に基づいて、時刻毎の照明デバイス11の状態と、被写体18のテクスチャとの関係を学習して学習データ78を生成する。
 これにより、被写体18のテクスチャを補正するための学習データ78を容易に生成することができる。特に、ボリュメトリック映像の生成を行う映像生成表示装置10bにあっては、各種仮想視点、各種照明条件、各種被写体を自在に組み合わせた学習データ78を容易かつ網羅的に、大量に生成することが可能である。
 なお、本明細書に記載された効果は、あくまで例示であって限定されるものではなく、他の効果があってもよい。また、本開示の実施形態は、上述した実施形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本開示は、以下のような構成もとることができる。
 (1)
 時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得する第1の取得部と、
 前記照明の状態を前記時刻毎に取得する第2の取得部と、
 前記第2の取得部が取得した前記時刻毎の前記照明の状態に基づいて、前記画像から前記オブジェクトの領域を切り出す切り出し部と、
 前記切り出し部が切り出した前記オブジェクトの3Dモデルを生成するモデル生成部と、
 を備える画像処理装置。
 (2)
 前記第2の取得部が取得した前記時刻毎の前記照明の状態に基づいて、前記画像のテクスチャを、前記時刻毎の前記照明の状態に応じて補正する補正部を更に備える、
 前記(1)に記載の画像処理装置。
 (3)
 前記切り出し部は、
 前記第2の取得部が取得した時刻毎の前記照明の状態と、前記オブジェクトの領域との関係を学習した第1の学習データに基づいて、前記第1の取得部が取得した前記画像から前記オブジェクトの領域を切り出す、
 前記(1)又は(2)に記載の画像処理装置。
 (4)
 前記補正部は、
 前記第2の取得部が取得した時刻毎の前記照明の状態と、前記オブジェクトのテクスチャとの関係を学習した第2の学習データに基づいて、前記第1の取得部が取得した前記オブジェクトのテクスチャを、前記時刻毎の前記照明の状態に応じて補正する、
 前記(1)乃至(3)のいずれか1つに記載の画像処理装置。
 (5)
 前記照明の状態は、
 少なくとも、照明の位置と、照明の方向と、照明の色と、照明の明るさとを含む、
 前記(1)乃至(4)のいずれか1つに記載の画像処理装置。
 (6)
 前記画像は、
 前記オブジェクトの周囲から、当該オブジェクトの方向を撮像したものである、
 前記(1)乃至(5)のいずれか1つに記載の画像処理装置。
 (7)
 時刻毎に変化する照明の状態に基づいて、当該時刻毎に照明の状態が変化する状況下にあるオブジェクトを前記時刻毎に撮像した画像から、前記オブジェクトの領域を切り出すことによって、前記オブジェクトの3Dモデルを生成するモデル生成部と、
 前記モデル生成部が生成した前記3Dモデルを描画する描画部と、
 を備える画像処理装置。
 (8)
 時刻毎に変化する照明の状態に基づいて、当該時刻毎に照明の状態が変化する状況下にあるオブジェクトを前記時刻毎に撮像した画像から、前記オブジェクトのテクスチャを、前記時刻毎の前記照明の状態に応じて補正する補正部を更に備えて、
 前記描画部は、前記補正部が補正したテクスチャを用いて前記オブジェクトを描画する、
 前記(7)に記載の画像処理装置。
 (9)
 前記モデル生成部は、
 前記時刻毎の前記照明の状態と、前記時刻毎に撮像した画像から切り出された前記オブジェクトの領域との関係を学習した第1の学習データに基づいて、前記画像から前記オブジェクトの領域を切り出すことによって、前記オブジェクトの3Dモデルを生成する、
 前記(7)又は(8)に記載の画像処理装置。
 (10)
 前記補正部は、
 時刻毎の前記照明の状態と、前記オブジェクトのテクスチャとの関係を学習した第2の学習データに基づいて、前記時刻毎に撮像した前記オブジェクトのテクスチャを、前記時刻毎の前記照明の状態に応じて補正する、
 前記(7)乃至(9)のいずれか1つに記載の画像処理装置。
 (11)
 時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得して、
 前記照明の状態を前記時刻毎に取得して、
 前記時刻毎に取得された前記照明の状態に基づいて、前記画像から前記オブジェクトを切り出して、
 切り出された前記オブジェクトの3Dモデルを生成する、
 3Dモデルの生成方法。
 (12)
 時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得して、
 前記照明の状態を前記時刻毎に取得して、
 取得した前記時刻毎の前記照明の状態に基づいて、前記画像から前記オブジェクトを切り出して、
 前記時刻毎の前記照明の状態と、切り出された前記オブジェクトの領域との関係を学習する、
 学習方法。
 (13)
 時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得して、
 前記照明の状態を前記時刻毎に取得して、
 取得した前記時刻毎の前記照明の状態に基づいて、前記時刻毎の前記照明の状態と、前記オブジェクトのテクスチャとの関係を学習する、
 前記(12)に記載の学習方法。
 (14)
 コンピュータを、
 時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得する第1の取得部と、
 前記照明の状態を前記時刻毎に取得する第2の取得部と、
 前記第2の取得部が取得した前記時刻毎の前記照明の状態に基づいて、前記画像から前記オブジェクトの領域を切り出す切り出し部と、
 前記切り出し部が切り出した前記オブジェクトの3Dモデルを生成するモデル生成部と、
 して機能させるプログラム。
 (15)
 コンピュータを、
 時刻毎に変化する照明の状態に基づいて、当該時刻毎に照明の状態が変化する状況下にあるオブジェクトを前記時刻毎に撮像した画像から、前記オブジェクトの領域を切り出すことによって、前記オブジェクトの3Dモデルを生成するモデル生成部と、
 前記取得部が取得した前記3Dモデルを描画する描画部と、
 して機能させるプログラム。
 10a,10b…映像生成表示装置(画像処理装置)、11…照明デバイス、12…背景データ、13…照明デバイス設定情報、14…カメラ、15…カメラキャリブレーション情報、16…照明シナリオ、17…照明制御情報、18…被写体(オブジェクト)、18M…3Dモデル、20a,20b…サーバ装置、30…照明制御モジュール、31…照明制御UI部、32…照明制御情報出力部、40a,40b…ボリュメトリック映像生成モジュール、41…照明制御情報入力部(第2の取得部)、42…照明情報処理部、43…撮像部(第1の取得部)、44a,44b…前景切り出し処理部(切り出し部)、45a,45b…テクスチャ補正処理部(補正部)、46…モデリング処理部(モデル生成部)、47…テクスチャ生成部、48…モデルデータ、49…テクスチャデータ、70…照明シミュレーションモジュール、75…学習データ生成モジュール、77…学習データ(第1の学習データ)、78…学習データ(第2の学習データ)、80…携帯端末、90…ボリュメトリック映像再生モジュール、91…レンダリング部(描画部)、92…再生部、Ia…照明付背景画像、Ib…前景切り出し照明画像、Ic…テクスチャ補正照明画像、Id…カメラ画像、Ie…テクスチャ補正画像、If…背景画像、Ig…被写体画像

Claims (15)

  1.  時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得する第1の取得部と、
     前記照明の状態を前記時刻毎に取得する第2の取得部と、
     前記第2の取得部が取得した前記時刻毎の前記照明の状態に基づいて、前記画像から前記オブジェクトの領域を切り出す切り出し部と、
     前記切り出し部が切り出した前記オブジェクトの3Dモデルを生成するモデル生成部と、
     を備える画像処理装置。
  2.  前記第2の取得部が取得した前記時刻毎の前記照明の状態に基づいて、前記画像のテクスチャを、前記時刻毎の前記照明の状態に応じて補正する補正部を更に備える、
     請求項1に記載の画像処理装置。
  3.  前記切り出し部は、
     前記第2の取得部が取得した時刻毎の前記照明の状態と、前記オブジェクトの領域との関係を学習した第1の学習データに基づいて、前記第1の取得部が取得した前記画像から前記オブジェクトの領域を切り出す、
     請求項1に記載の画像処理装置。
  4.  前記補正部は、
     前記第2の取得部が取得した時刻毎の前記照明の状態と、前記オブジェクトのテクスチャとの関係を学習した第2の学習データに基づいて、前記第1の取得部が取得した前記オブジェクトのテクスチャを、前記時刻毎の前記照明の状態に応じて補正する、
     請求項2に記載の画像処理装置。
  5.  前記照明の状態は、
     少なくとも、照明の位置と、照明の方向と、照明の色と、照明の明るさとを含む、
     請求項1に記載の画像処理装置。
  6.  前記画像は、
     前記オブジェクトの周囲から、当該オブジェクトの方向を撮像したものである、
     請求項1に記載の画像処理装置。
  7.  時刻毎に変化する照明の状態に基づいて、当該時刻毎に照明の状態が変化する状況下にあるオブジェクトを前記時刻毎に撮像した画像から、前記オブジェクトの領域を切り出すことによって、前記オブジェクトの3Dモデルを生成するモデル生成部と、
     前記モデル生成部が生成した前記3Dモデルを描画する描画部と、
     を備える画像処理装置。
  8.  時刻毎に変化する照明の状態に基づいて、当該時刻毎に照明の状態が変化する状況下にあるオブジェクトを前記時刻毎に撮像した画像から、前記オブジェクトのテクスチャを、前記時刻毎の前記照明の状態に応じて補正する補正部を更に備えて、
     前記描画部は、前記補正部が補正したテクスチャを用いて前記オブジェクトを描画する、
     請求項7に記載の画像処理装置。
  9.  前記モデル生成部は、
     前記時刻毎の前記照明の状態と、前記時刻毎に撮像した画像の中の前記オブジェクトの領域との関係を学習した第1の学習データに基づいて、前記画像から前記オブジェクトの領域を切り出すことによって、前記オブジェクトの3Dモデルを生成する、
     請求項7に記載の画像処理装置。
  10.  前記補正部は、
     時刻毎の前記照明の状態と、前記オブジェクトのテクスチャとの関係を学習した第2の学習データに基づいて、前記時刻毎に撮像した前記オブジェクトのテクスチャを、前記時刻毎の前記照明の状態に応じて補正する、
     請求項8に記載の画像処理装置。
  11.  時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得して、
     前記照明の状態を前記時刻毎に取得して、
     前記時刻毎に取得された前記照明の状態に基づいて、前記画像から前記オブジェクトを切り出して、
     切り出された前記オブジェクトの3Dモデルを生成する、
     3Dモデルの生成方法。
  12.  時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得して、
     前記照明の状態を前記時刻毎に取得して、
     取得した前記時刻毎の前記照明の状態に基づいて、前記画像から前記オブジェクトを切り出して、
     前記時刻毎の前記照明の状態と、切り出された前記オブジェクトの領域との関係を学習する、
     学習方法。
  13.  時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得して、
     前記照明の状態を前記時刻毎に取得して、
     取得した前記時刻毎の前記照明の状態に基づいて、前記時刻毎の前記照明の状態と、前記オブジェクトのテクスチャとの関係を学習する、
     請求項12に記載の学習方法。
  14.  コンピュータを、
     時刻毎に照明の状態が変化する状況下にあるオブジェクトを時刻毎に撮像した画像を取得する第1の取得部と、
     前記照明の状態を前記時刻毎に取得する第2の取得部と、
     前記第2の取得部が取得した前記時刻毎の前記照明の状態に基づいて、前記画像から前記オブジェクトの領域を切り出す切り出し部と、
     前記切り出し部が切り出した前記オブジェクトの3Dモデルを生成するモデル生成部と、
     して機能させるプログラム。
  15.  コンピュータを、
     時刻毎に変化する照明の状態に基づいて、当該時刻毎に照明の状態が変化する状況下にあるオブジェクトを前記時刻毎に撮像した画像から、前記オブジェクトの領域を切り出すことによって、前記オブジェクトの3Dモデルを生成するモデル生成部と、
     前記モデル生成部が生成した前記3Dモデルを描画する描画部と、
     して機能させるプログラム。
PCT/JP2021/004517 2020-02-28 2021-02-08 画像処理装置、3dモデルの生成方法、学習方法およびプログラム WO2021171982A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202180015968.XA CN115176282A (zh) 2020-02-28 2021-02-08 图像处理装置、生成3d模型的方法、学习方法以及程序
JP2022503229A JPWO2021171982A1 (ja) 2020-02-28 2021-02-08
US17/796,990 US20230056459A1 (en) 2020-02-28 2021-02-08 Image processing device, method of generating 3d model, learning method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-033432 2020-02-28
JP2020033432 2020-02-28

Publications (1)

Publication Number Publication Date
WO2021171982A1 true WO2021171982A1 (ja) 2021-09-02

Family

ID=77490428

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/004517 WO2021171982A1 (ja) 2020-02-28 2021-02-08 画像処理装置、3dモデルの生成方法、学習方法およびプログラム

Country Status (4)

Country Link
US (1) US20230056459A1 (ja)
JP (1) JPWO2021171982A1 (ja)
CN (1) CN115176282A (ja)
WO (1) WO2021171982A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220335636A1 (en) * 2021-04-15 2022-10-20 Adobe Inc. Scene reconstruction using geometry and reflectance volume representation of scene
CN118011403B (zh) * 2024-01-24 2024-09-10 哈尔滨工程大学 基于动态能量门限和单帧判别的角度信息提取方法及系统
CN118521720B (zh) * 2024-07-23 2024-10-18 浙江核新同花顺网络信息股份有限公司 基于稀疏视角图像的虚拟人三维模型确定方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058873A (ja) * 2001-08-13 2003-02-28 Olympus Optical Co Ltd 形状抽出装置および方法、並びに画像切り出し装置および方法
JP2005078646A (ja) * 2003-08-29 2005-03-24 Samsung Electronics Co Ltd 映像に基づいたフォトリアリスティックな3次元の顔モデリング方法及び装置
JP2006105822A (ja) * 2004-10-06 2006-04-20 Canon Inc 三次元画像処理システム及び三次元データ処理装置
JP2008107877A (ja) * 2006-10-23 2008-05-08 Nippon Hoso Kyokai <Nhk> 3次元形状復元装置
JP2013092878A (ja) * 2011-10-25 2013-05-16 Nippon Telegr & Teleph Corp <Ntt> 3次元形状計測装置
JP2015118023A (ja) * 2013-12-19 2015-06-25 富士通株式会社 法線ベクトル抽出装置、法線ベクトル抽出方法及び法線ベクトル抽出プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7065242B2 (en) * 2000-03-28 2006-06-20 Viewpoint Corporation System and method of three-dimensional image capture and modeling
KR20110053166A (ko) * 2009-11-13 2011-05-19 삼성전자주식회사 3d 오브젝트 렌더딩 방법 및 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058873A (ja) * 2001-08-13 2003-02-28 Olympus Optical Co Ltd 形状抽出装置および方法、並びに画像切り出し装置および方法
JP2005078646A (ja) * 2003-08-29 2005-03-24 Samsung Electronics Co Ltd 映像に基づいたフォトリアリスティックな3次元の顔モデリング方法及び装置
JP2006105822A (ja) * 2004-10-06 2006-04-20 Canon Inc 三次元画像処理システム及び三次元データ処理装置
JP2008107877A (ja) * 2006-10-23 2008-05-08 Nippon Hoso Kyokai <Nhk> 3次元形状復元装置
JP2013092878A (ja) * 2011-10-25 2013-05-16 Nippon Telegr & Teleph Corp <Ntt> 3次元形状計測装置
JP2015118023A (ja) * 2013-12-19 2015-06-25 富士通株式会社 法線ベクトル抽出装置、法線ベクトル抽出方法及び法線ベクトル抽出プログラム

Also Published As

Publication number Publication date
US20230056459A1 (en) 2023-02-23
JPWO2021171982A1 (ja) 2021-09-02
CN115176282A (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
US11076142B2 (en) Real-time aliasing rendering method for 3D VR video and virtual three-dimensional scene
CN102834849B (zh) 进行立体视图像的描绘的图像描绘装置、图像描绘方法、图像描绘程序
JP4847184B2 (ja) 画像処理装置及びその制御方法、プログラム
WO2021171982A1 (ja) 画像処理装置、3dモデルの生成方法、学習方法およびプログラム
JP7007348B2 (ja) 画像処理装置
JP4065488B2 (ja) 3次元画像生成装置、3次元画像生成方法及び記憶媒体
US20100194902A1 (en) Method for high dynamic range imaging
JP2006107213A (ja) 立体画像印刷システム
WO2023207452A1 (zh) 基于虚拟现实的视频生成方法、装置、设备及介质
CN112446939A (zh) 三维模型动态渲染方法、装置、电子设备及存储介质
KR20160003614A (ko) 3차원 리얼타임 가상입체 스튜디오 장치에서의 가상입체 스튜디오 영상 생성 방법
US11941729B2 (en) Image processing apparatus, method for controlling image processing apparatus, and storage medium
WO2024087883A1 (zh) 视频画面渲染方法、装置、设备和介质
JPWO2019186787A1 (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
WO2021149526A1 (ja) 情報処理装置、情報処理方法及びプログラム
CN112291550A (zh) 自由视点图像生成方法、装置、系统及可读存储介质
US20240362845A1 (en) Method and apparatus for rendering interaction picture, device, storage medium, and program product
JP2008287588A (ja) 画像処理装置および方法
US9628672B2 (en) Content processing apparatus, content processing method, and storage medium
WO2021200143A1 (ja) 画像処理装置、画像処理方法、および、3dモデルデータ生成方法
JP4006105B2 (ja) 画像処理装置およびその方法
CN116661143A (zh) 图像处理装置、图像处理方法及存储介质
KR101212223B1 (ko) 촬영장치 및 깊이정보를 포함하는 영상의 생성방법
CN108933939A (zh) 用于确定显示设备的特性的方法和设备
KR101453531B1 (ko) 3차원 리얼타임 가상 스튜디오 장치 및 3차원 리얼타임 가상 스튜디오 장치에서의 가상 스튜디오 영상 생성 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21761257

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022503229

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21761257

Country of ref document: EP

Kind code of ref document: A1