Nothing Special   »   [go: up one dir, main page]

WO2024180688A1 - 位置姿勢推定システム、位置姿勢推定装置、及び、位置姿勢推定方法 - Google Patents

位置姿勢推定システム、位置姿勢推定装置、及び、位置姿勢推定方法 Download PDF

Info

Publication number
WO2024180688A1
WO2024180688A1 PCT/JP2023/007421 JP2023007421W WO2024180688A1 WO 2024180688 A1 WO2024180688 A1 WO 2024180688A1 JP 2023007421 W JP2023007421 W JP 2023007421W WO 2024180688 A1 WO2024180688 A1 WO 2024180688A1
Authority
WO
WIPO (PCT)
Prior art keywords
point cloud
cloud data
orientation
estimation
captured image
Prior art date
Application number
PCT/JP2023/007421
Other languages
English (en)
French (fr)
Inventor
一峰 小倉
翼 中村
侑也 松本
ナグマ サムリーン カーン
次朗 安倍
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2023/007421 priority Critical patent/WO2024180688A1/ja
Publication of WO2024180688A1 publication Critical patent/WO2024180688A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/30Measuring arrangements characterised by the use of optical techniques for measuring roughness or irregularity of surfaces
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C11/00Photogrammetry or videogrammetry, e.g. stereogrammetry; Photographic surveying

Definitions

  • This disclosure relates to a position and orientation estimation system, a position and orientation estimation device, and a position and orientation estimation method.
  • Patent Document 1 discloses a technology for mapping an image obtained by capturing an image of a structure onto the surface of the structure in a virtual space created by the three-dimensional design data of the structure.
  • the inventors of the present application have developed a technology for estimating the position and orientation of an imaging device at the time of capturing an image based on three-dimensional point cloud data and a captured image.
  • the objective of this disclosure is to provide a technology that estimates with high accuracy the position and orientation of an imaging device at the time of capturing an image based on 3D point cloud data and a captured image.
  • a position and orientation estimation system that estimates the position and orientation of an imaging device at the time of imaging based on three-dimensional point cloud data of an environment and an image obtained by imaging an object included in the environment with the imaging device, the position and orientation estimation system including: a storage means that stores a plurality of derived point cloud data generated from the three-dimensional point cloud data and having different static stabilities; an acquisition means that acquires the image; and an estimation means that estimates the position and orientation based on at least one of the derived point cloud data and the image.
  • a position and orientation estimation system that estimates the position and orientation of an imaging device at the time of imaging based on three-dimensional point cloud data of an environment and an image obtained by imaging an object included in the environment with the imaging device
  • the position and orientation estimation device including: a storage means that stores a plurality of derived point cloud data generated from the three-dimensional point cloud data and having different static stabilities; an acquisition means that acquires the image; and an estimation means that estimates the position and orientation based on at least one of the derived point cloud data and the image.
  • a position and orientation estimation method for estimating a position and orientation of an imaging device at the time of imaging based on three-dimensional point cloud data of an environment and an image obtained by imaging an object included in the environment with the imaging device, the position and orientation estimation method including an acquisition step of acquiring the image, and an estimation step of estimating the position and orientation based on at least one of a plurality of derived point cloud data generated from the three-dimensional point cloud data and having different static stabilities, and the image.
  • This disclosure makes it possible to estimate position and orientation with high accuracy.
  • FIG. 1 is a functional block diagram of a position and orientation estimation system. (Summary of the present disclosure)
  • FIG. 1 is a functional block diagram of an information processing device according to a first embodiment.
  • 1 is a diagram showing a data structure of a derived point group DB (first embodiment).
  • FIG. 10 is an explanatory diagram of static stability in each derived point cloud data (first embodiment);
  • FIG. 10 is an explanatory diagram of a method for generating each derived point cloud data (first embodiment).
  • 1 is a control flow of an information processing device (first embodiment).
  • 13 is a control flow of an information processing device (second embodiment).
  • 13 is a control flow of an information processing device (third embodiment).
  • 13 is a control flow of an information processing device (fourth embodiment).
  • 13 is a control flow of an information processing device (fifth embodiment).
  • Fig. 1 shows a functional block diagram of a position and orientation estimation system 100.
  • the position and orientation estimation system 100 estimates the position and orientation of the imaging device at the time of capturing an image based on three-dimensional point cloud data of the environment and an image captured by the imaging device of an object included in the environment.
  • the position and orientation estimation system 100 includes a storage unit 101, an acquisition unit 102, and an estimation unit 103.
  • the storage means 101 stores multiple derived point cloud data generated from three-dimensional point cloud data and having different static stabilities.
  • the acquisition means 102 acquires the captured image.
  • the estimation means 103 estimates the position and orientation based on at least one of the multiple derived point cloud data and the captured image.
  • the position and orientation of the imaging device at the time of imaging can be estimated with high accuracy.
  • FIG. 2 shows a functional block diagram of the information processing device 1.
  • the information processing device 1 is a specific example of a position and orientation system.
  • the information processing device 1 is a specific example of a position and orientation device.
  • the information processing device 1 shown in FIG. 2 is typically used to manage structures such as bridges, dams, tunnels, towers, and houses. That is, structures deteriorate over time, so they must be inspected periodically for abnormalities, and appropriate measures must be taken if abnormalities are found. Defects typically include floating, peeling, and cracks in the concrete that constitutes the structure.
  • the inspector When an inspector finds a defect in a structure, the inspector captures the defect with camera 2 (imaging device) and obtains the captured image. If three-dimensional point cloud data for the structure has been obtained, the captured image can be mapped onto the structure in a virtual space constituted by the three-dimensional point cloud data. If the structure in the virtual space onto which the captured image has been mapped can be displayed on a display, it becomes easy to see on the display where the defect is located in the structure and how large it is. As a result, when an inspector captures an image of the defect with camera 2, the inspector does not need to record the location of the defect in detail or measure the size of the defect on site, so that inspection of the structure can be completed in a short time with a small number of people.
  • the position and orientation of the camera 2 at the time of capturing the image typically means the transformation parameters between the point cloud coordinate system of the three-dimensional point cloud data and the camera coordinate system of the camera 2. That is, by performing coordinate transformation of the three-dimensional point cloud data using the transformation parameters, it becomes possible to express the three-dimensional point cloud data in the camera coordinate system. Conversely, by performing coordinate transformation of the captured image using the transformation parameters, it becomes possible to express the captured image in the point cloud coordinate system.
  • the transformation parameters typically include a rotation matrix and a translation matrix.
  • the unsolved problems are that when measuring the distance to a structure to generate 3D point cloud data, objects other than the structure are also measured at the same time, and when imaging the structure with camera 2, objects other than the structure are also imaged at the same time.
  • the distance to the structure is measured only once to generate the 3D point cloud data, and the inspector then images the structure with camera 2 every six months.
  • the main cause of the above problem is the large difference between the time when the distance to the structure is measured to generate the 3D point cloud data and the time when the inspector images the structure with camera 2.
  • the information processing device 1 shown in FIG. 2 was devised to solve the above technical problems, and the information processing device 1 will be described in detail below.
  • the information processing device 1 includes a CPU 1a (Central Processing Unit), a memory 1b, an LCD 1c (Liquid Crystal Display), a communication interface 1d, and an input means 1e.
  • a CPU 1a Central Processing Unit
  • a memory 1b a memory 1b
  • an LCD 1c Liquid Crystal Display
  • a communication interface 1d a communication interface 1d
  • an input means 1e an input means 1e.
  • Memory 1b consists of RAM (Random Access Memory), ROM (Read Only Memory), HDD (Hard Disc Drive), etc.
  • the control program is stored in memory 1b.
  • the input means 1e is typically a keyboard.
  • the CPU 1a reads and executes the control program stored in the memory 1b.
  • the control program causes hardware such as the CPU 1a to function as the storage unit 3, acquisition unit 4, estimation unit 5, mapping unit 6, and output unit 7.
  • the storage unit 3 is a specific example of a storage means.
  • the storage unit 3 stores multiple derived point cloud data that are generated from three-dimensional point cloud data of the environment and have different static stabilities.
  • the "environment" includes the structure to be inspected and objects that exist around the structure.
  • the storage unit 3 stores a derived point cloud DB8 shown in FIG. 3.
  • the derived point cloud DB8 will be described below with reference to FIG. 3.
  • the derived point cloud DB8 holds, as an example, three derived point cloud data DPC (Derived Point Cloud).
  • the three derived point cloud data DPC are composed of derived point cloud data DPC1, derived point cloud data DPC2, and derived point cloud data DPC3.
  • the number of derived point cloud data DPC held by the derived point cloud DB8 is three, but this is not limited to three, and it may be two, or four or more.
  • Each derived point cloud data DPC is three-dimensional point cloud data generated from three-dimensional point cloud data of the environment.
  • each derived point cloud data DPC is associated with a static stability SS (Static Stability).
  • Static Stability Static Stability
  • the static stability SS of the derived point cloud data DPC1 is "60 years”
  • the static stability SS of the derived point cloud data DPC2 is “3 years”
  • the static stability SS of the derived point cloud data DPC3 is "1 second”.
  • the static stability SS is expressed by the length of the period on the time axis, as an example. It can be said that the longer the period, the higher the static stability SS, and the shorter the period, the lower the static stability SS.
  • the static stability SS of the derived point cloud data DPC1 is higher than the static stability SS of the derived point cloud data DPC2.
  • the static stability SS of the derived point cloud data DPC2 is higher than the static stability SS of the derived point cloud data DPC3. That is, the static stability SS of the derived point cloud data DPC1 can be said to be the highest among the multiple derived point cloud data DPC held by the derived point cloud DB8. And, it can be said that the derived point cloud DB8 holds multiple derived point cloud data DPCs having different static stabilities SS.
  • the static stability SS may be expressed indirectly by a level notation such as level 1, level 2, level 3, etc., instead of being directly expressed by the length of the period on the time axis.
  • the derived point cloud data DPC2 is the derived point cloud data DPC3 with some of the points removed
  • the derived point cloud data DPC1 is the derived point cloud data DPC2 with some of the points removed.
  • the derived point cloud data DPC3 includes a building point cloud PPC1 (Partial Point Cloud) corresponding to buildings, a tree point cloud PPC2 corresponding to trees, a vehicle point cloud PPC3 corresponding to automobiles, and a pedestrian point cloud PPC4 corresponding to pedestrians.
  • PPC1 Partial Point Cloud
  • the derived point cloud data DPC2 includes the building point cloud PPC1 and the tree point cloud PPC2, but does not include the vehicle point cloud PPC3 or the pedestrian point cloud PPC4.
  • the derived point cloud data DPC1 includes the building point cloud PPC1, but does not include the tree point cloud PPC2, the vehicle point cloud PPC3, or the pedestrian point cloud PPC4.
  • FIG. 4 shows the static stability SS of each derived point cloud data DPC.
  • the horizontal axis of FIG. 4 is the time axis.
  • the derived point cloud data DPC1 includes only the building point cloud PPC1. Furthermore, buildings corresponding to the building point cloud PPC1 generally remain stationary on the time axis for approximately 60 years. Therefore, the maintenance period of the building is 60 years. As a result, the static stability SS of the derived point cloud data DPC1 is 60 years, which is the maintenance period of the building.
  • the derived point cloud data DPC2 includes the building point cloud PPC1 and the tree point cloud PPC2.
  • the trees corresponding to the tree point cloud PPC2 generally remain stationary on the time axis for about three years. That is, trees are cut down or replanted after a few years. Therefore, the maintenance period of trees is three years.
  • the static stability SS of the derived point cloud data DPC2 is three years, which is the shortest maintenance period of the building and the tree.
  • the static stability SS of the derived point cloud data DPC2 is the length of the maintenance period of the tree, which is the object that remains stationary on the time axis for the shortest period of time among the building and the tree.
  • the derived point cloud data DPC3 also includes the building point cloud PPC1, the tree point cloud PPC2, the vehicle point cloud PPC3, and the pedestrian point cloud PPC4.
  • the vehicle's maintenance period is nine hours.
  • a pedestrian corresponding to the pedestrian point cloud PPC4 rarely remains stationary on the time axis, and even if he remains stationary, it is for at most one second. Therefore, the pedestrian's maintenance period is one second.
  • the static stability SS of the derived point cloud data DPC3 is one second, which is the shortest maintenance period among the maintenance periods of the building, the tree, the vehicle, and the pedestrian.
  • the static stability SS of the derived point cloud data DPC3 is the length of the maintenance period of the pedestrian, which is the object that remains stationary on the time axis for the shortest period among the building, the tree, the vehicle, and the pedestrian.
  • Step 1 First, three-dimensional point cloud data of the environment is acquired.
  • Methods for acquiring three-dimensional point cloud data of the environment include a method using Lidar (Light Detection And Ranging) and a method using photogrammetry.
  • Lidar is used to measure the environment from various angles, and multiple 3D point cloud data output from the Lidar are synthesized using a registration technique such as ICP (Iterative Closest Point) to generate 3D point cloud data of the environment.
  • ICP Intelligent Closest Point
  • the three-dimensional structure of the environment is reconstructed by solving a geometric inverse problem from multiple images obtained by capturing images of the environment from various angles, thereby generating three-dimensional point cloud data of the environment.
  • a typical method for reconstructing the three-dimensional structure of an environment from multiple captured images is SfM (Structure from Motion).
  • SfM Structure from Motion
  • MVS Multi-View Stereo
  • 3D point cloud data of the environment may be generated using both Lidar and photogrammetry. That is, 3D point cloud data of the environment may be generated by synthesizing 3D point cloud data of the environment generated using Lidar and 3D point cloud data of the environment generated by photogrammetry using the registration technique described above.
  • Step 2 the 3D point cloud data of the environment obtained in step 1 is classified according to the duration of each object contained in the environment. Specifically, a structure point cloud PPC1 corresponding to a structure whose duration is longer than 10 years is classified into layer 1, a tree point cloud PPC2 corresponding to a tree whose duration is 1 year or more but less than 10 years is classified into layer 2, and a vehicle point cloud PPC3 corresponding to automobiles and a pedestrian point cloud PPC4 corresponding to pedestrians are classified into layer 3.
  • known DNNs such as PointNet, PointNet++, and VoteNet can be used. If an image is obtained by capturing an image of the environment at the same time as ranging, known DNNs such as R-CNN (Regions with Convolutional Neural Networks) and YOLO (You Only Look Once) may be used to detect objects contained in the environment. Then, a correspondence between objects and their duration is created in advance in table format, and the 3D point cloud data of the environment obtained in step 1 is classified according to the duration of each object contained in the environment by referring to the table.
  • known DNNs such as PointNet, PointNet++, and VoteNet
  • R-CNN Registered with Convolutional Neural Networks
  • YOLO You Only Look Once
  • the task of classifying the 3D point cloud data of the environment obtained in step 1 according to the duration of each object contained in the environment may be performed manually by an operator.
  • objects classified as layer 1 are not limited to the structures shown in the example. For example, objects such as road surfaces and terrain have a longer duration than the duration of structures. Therefore, these objects are also classified as layer 1.
  • Objects classified as layer 2 are not limited to the trees shown in the example. For example, objects such as chairs, desks, and doors may be classified as layer 2.
  • Objects classified as Layer 3 are not limited to the examples of cars and pedestrians.
  • objects such as animals and drones may be classified as Layer 3.
  • Step 3 layer 1 is stored as derived point cloud data DPC1 in the derived point cloud DB 8. Also, point cloud data obtained by combining layers 1 and 2 is stored as derived point cloud data DPC2 in the derived point cloud DB 8. Also, point cloud data obtained by combining layers 1, 2, and 3 is stored as derived point cloud data DPC3 in the derived point cloud DB 8.
  • each of the derived point cloud data DPCs described above is typically performed on the same day or within a few days of generating the three-dimensional point cloud data of the environment. The generation should be completed at least before capturing images using camera 2. This can shorten the time required from the start of inspection to the completion of mapping. However, each of the derived point cloud data DPCs described above may also be generated after capturing images using camera 2.
  • the acquisition unit 4 is a specific example of an acquisition means.
  • the acquisition unit 4 acquires captured images stored in the memory of the camera 2 via the communication interface 1d.
  • the acquisition unit 4 may acquire captured images by reading them stored in a storage medium.
  • the estimation unit 5 is a specific example of an estimation means.
  • the estimation unit 5 estimates the position and orientation of the camera 2 at the time of capturing images based on at least one of the multiple derived point cloud data DPCs and the captured image acquired by the acquisition unit 4.
  • registration techniques such as DeepI2P (Image-to-Point Cloud Registration via Deep Classification), Direct Regression, Monodepth2+USIP, Monodepth2+GT-ICP, and 2D3D-MatchNet can be used as a method for estimating the position and orientation of the camera 2 at the time of capturing images.
  • Each registration technique outputs the estimated position and orientation together with an estimation accuracy (matching score) as an estimation result of the position and orientation of the camera 2 at the time of capturing images.
  • the estimation unit 5 repeatedly estimates the position and orientation based on the derived point cloud data DPC and the captured image, starting from derived point cloud data DPC with a relatively high static stability SS among the multiple derived point cloud data DPCs, toward derived point cloud data DPC with a relatively low static stability SS. Then, when the estimation accuracy of the position and orientation exceeds a predetermined value, the estimation unit 5 determines the position and orientation at the time of imaging by the camera 2 to be the last estimated position and orientation.
  • the mapping unit 6 projects the captured image onto an environmental model in a virtual space formed by the three-dimensional point cloud data of the environment, based on the position and orientation of the camera 2 at the time of capturing the image estimated by the estimation unit 5.
  • the output unit 7 displays the environmental model in the virtual space on the LCD 1c with the captured image projected onto it.
  • the output unit 7 highlights the abnormality by surrounding it with a square, and also displays the lengths of the long and short sides of the square near the square. This allows the inspector to easily grasp the location of the abnormality in the structure and the size of the abnormality.
  • the acquisition unit 4 acquires a captured image (S100).
  • the estimation unit 5 estimates the position and orientation of the camera 2 at the time of capturing the image based on the derived point cloud data DPC1 and the captured image acquired by the acquisition unit 4 (S110).
  • the estimation unit 5 determines whether the estimation accuracy in step S110 exceeds a predetermined value (S120). If the estimation unit 5 determines that the estimation accuracy in step S110 exceeds the predetermined value, the estimation unit 5 proceeds to step S160. On the other hand, if the estimation unit 5 determines that the estimation accuracy in step S110 does not exceed the predetermined value, the estimation unit 5 proceeds to S130.
  • the estimation unit 5 estimates the position and orientation of the camera 2 at the time of capturing the image based on the derived point cloud data DPC2 and the captured image acquired by the acquisition unit 4 (S130).
  • the estimation unit 5 determines whether the estimation accuracy in step S130 exceeds a predetermined value (S140). If the estimation unit 5 determines that the estimation accuracy in step S130 exceeds the predetermined value, the estimation unit 5 proceeds to step S160. On the other hand, if the estimation unit 5 determines that the estimation accuracy in step S130 does not exceed the predetermined value, the estimation unit 5 proceeds to S150.
  • the estimation unit 5 estimates the position and orientation of the camera 2 at the time of capturing the image based on the derived point cloud data DPC3 and the captured image acquired by the acquisition unit 4 (S150).
  • the mapping unit 6 projects the captured image onto an environmental model in a virtual space constituted by the three-dimensional point cloud data of the environment, based on the position and orientation of the camera 2 at the time of capturing the image last estimated by the estimation unit 5 (S160).
  • the output unit 7 displays the environmental model in the virtual space on the LCD 1c with the captured image projected onto it (S170).
  • the second embodiment has been described above, and has the following features:
  • an information processing device 1 estimates the position and orientation at the time of imaging by a camera 2 (imaging device) based on three-dimensional point cloud data of the environment and an image obtained by imaging a structure (imaging target) included in the environment with a camera 2 (imaging device).
  • the information processing device 1 includes a storage unit 3 (storage means), an acquisition unit 4 (acquisition means), and an estimation unit 5 (estimation means).
  • the storage unit 3 stores multiple derived point cloud data DPCs generated from the three-dimensional point cloud data and having different static stabilities.
  • the acquisition unit 4 acquires the captured image.
  • the estimation unit 5 estimates the position and orientation based on at least one of the multiple derived point cloud data DPCs and the captured image. With the above configuration, the position and orientation can be estimated with high accuracy.
  • the estimation unit 5 repeats estimation of the position and orientation based on the derived point cloud data DPC and the captured image, starting from derived point cloud data DPC1 with a relatively high static stability SS among the multiple derived point cloud data DPC, to derived point cloud data DPC3 with a relatively low static stability SS (S110, S130, S150). Then, when the estimation accuracy of the position and orientation exceeds a predetermined value, the estimation unit 5 determines that the position and orientation at the time of imaging by the camera 2 is the last estimated position and orientation. With the above configuration, the position and orientation can be estimated with high accuracy in a short time.
  • the mechanism by which the estimation accuracy changes for each derived point cloud data DPC as described above will be described below. That is, as shown in FIG. 3, when the derived point cloud data DPC includes an object other than a structure, the object may contribute to the estimation of the position and orientation, or may interfere with it.
  • the tree point cloud PPC2 included in the derived point cloud data DPC2 can be a significant feature point of the derived point cloud data DPC2 when estimating the position and orientation.
  • the automobile point cloud PPC3 and the pedestrian point cloud PPC4 included in the derived point cloud data DPC3 can be significant feature points of the derived point cloud data DPC3 when estimating the position and orientation.
  • the estimation accuracy based on the derived point cloud data DPC2 or the derived point cloud data DPC3 may be higher or lower than the estimation accuracy based on the derived point cloud data DPC1.
  • different estimation accuracies are obtained for each derived point cloud data DPC, so it can be said that the information processing device 1 can estimate the position and orientation with high accuracy by including a storage unit 3 that stores multiple derived point cloud data DPCs having mutually different static stabilities SS.
  • the second embodiment can be modified, for example, as follows:
  • the estimation unit 5 repeats the estimation of the position and orientation based on the derived point cloud data DPC and the captured image, in the order from the derived point cloud data DPC with a relatively high static stability SS among the multiple derived point cloud data DPC to the derived point cloud data DPC with a relatively low static stability SS.
  • the estimation unit 5 may repeat the estimation of the position and orientation based on the derived point cloud data DPC and the captured image, in the order from the derived point cloud data DPC with a relatively low static stability SS among the multiple derived point cloud data DPC to the derived point cloud data DPC with a relatively high static stability SS.
  • the estimation unit 5 may randomly rearrange the multiple derived point cloud data DPC, and repeat the estimation of the position and orientation based on the derived point cloud data DPC and the captured image in the rearranged order.
  • the position and orientation estimation system is realized by an information processing device 1, which is a single device.
  • the position and orientation estimation system may be realized by distributed processing across multiple devices.
  • the position and orientation estimation system may be realized by an external server equipped with a derived point cloud DB 8, and an information processing device 1 that can access the derived point cloud DB 8 of the external server.
  • Fig. 7 shows a process flow of the information processing device 1.
  • the acquisition unit 4 acquires a captured image (S200).
  • the estimation unit 5 estimates multiple positions and orientations based on all derived point cloud data DPC stored in the derived point cloud DB 8 and the captured image (S210).
  • the derived point cloud DB 8 stores three derived point cloud data DPCs as shown in FIG. 3, so the estimation unit 5 estimates three positions and orientations.
  • the estimation unit 5 determines the position and orientation at the time of image capture by the camera 2 to be the one with the highest estimation accuracy among the multiple positions and orientations (S220).
  • the mapping unit 6 projects the captured image onto an environmental model in a virtual space constituted by the three-dimensional point cloud data of the environment, based on the position and orientation of the camera 2 at the time of capturing the image estimated by the estimation unit 5 (S230).
  • the output unit 7 displays the environmental model in the virtual space on the LCD 1c with the captured image projected onto it (S240).
  • the position and orientation of camera 2 at the time of capturing an image can be estimated with the highest accuracy.
  • Fig. 8 shows a processing flow of the information processing device 1.
  • the acquisition unit 4 acquires a captured image (S300).
  • the estimation unit 5 accepts a user input to select one derived point cloud data DPC from among the multiple derived point cloud data DPC held by the derived point cloud DB 8 (S310).
  • the estimation unit 5 estimates the position and orientation based on the derived point cloud data DPC specified by user input and the captured image (S320).
  • the mapping unit 6 projects the captured image onto an environmental model in a virtual space constituted by the three-dimensional point cloud data of the environment, based on the position and orientation of the camera 2 at the time of capturing the image estimated by the estimation unit 5 (S330).
  • the inspector can select derived point cloud data DPC based on the difference between the time when the distance to the structure is measured to generate the 3D point cloud data and the time when the structure is imaged by camera 2. If the difference is relatively small, the inspector can select derived point cloud data DPC2 or derived point cloud data DPC3, and if the difference is relatively large, the inspector can select derived point cloud data DPC1.
  • Fig. 9 shows a process flow of the information processing device 1.
  • the acquisition unit 4 acquires a captured image (S400).
  • the estimation unit 5 estimates the position and orientation based on the preselected derived point cloud data DPC and the captured image (S410).
  • the mapping unit 6 projects the captured image onto an environmental model in a virtual space constituted by the three-dimensional point cloud data of the environment, based on the position and orientation of the camera 2 at the time of capturing the image estimated by the estimation unit 5 (S430).
  • the output unit 7 displays the environmental model in the virtual space on the LCD 1c with the captured image projected onto it (S440).
  • the above configuration makes it possible to reduce the processing time required for the estimation process by the estimation unit 5 compared to the second embodiment.
  • derived point cloud data DPC that consistently produces a high degree of estimation accuracy as a result of repeated mapping using the information processing device 1
  • the derived point cloud data DPC to be used in subsequent estimation processes may be selected and fixed in advance. This makes it possible to obtain a position and orientation with a high degree of estimation accuracy while shortening the processing time of the information processing device 1, and also eliminates the need for user input.
  • Fig. 10 shows a processing flow of the information processing device 1.
  • the acquisition unit 4 acquires a captured image (S500).
  • the estimation unit 5 calculates the difference between the distance measurement time when the structure is measured to generate the 3D point cloud data and the image capture time when the structure is imaged by the camera 2 (S510).
  • the estimation unit 5 selects one derived point cloud data DPC from the multiple derived point cloud data DPC held by the derived point cloud DB8 based on the difference calculated in step S510 (S520). Specifically, if the difference is relatively small, the estimation unit 5 selects derived point cloud data DPC2 or derived point cloud data DPC3, and if the difference is relatively large, the estimation unit 5 selects derived point cloud data DPC1.
  • the estimation unit 5 estimates the position and orientation based on the derived point cloud data DPC selected in step S520 and the captured image (S530).
  • the mapping unit 6 projects the captured image onto an environmental model in a virtual space constituted by the three-dimensional point cloud data of the environment, based on the position and orientation of the camera 2 at the time of capturing the image estimated by the estimation unit 5 (S540).
  • the output unit 7 displays the environmental model in the virtual space on the LCD 1c with the captured image projected onto it (S550).
  • the processing time required for the estimation process by the estimation unit 5 can be shortened compared to the second embodiment described above, and the optimal derived point cloud data DPC from among multiple derived point cloud data DPC is used for the estimation process, so that the position and orientation can be estimated with a high estimation accuracy.
  • Non-transitory computer readable medium includes various types of tangible storage medium.
  • Examples of non-transitory computer readable medium include magnetic recording media (e.g., floppy disks, magnetic tapes, hard disk drives) and magneto-optical recording media (e.g., magneto-optical disks).
  • Further examples of non-transitory computer readable medium include CD-ROM (Read Only Memory), CD-R, CD-R/W, and semiconductor memory (e.g., mask ROM.
  • Further examples of non-transitory computer readable medium include PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, and RAM (random access memory)).
  • the program may also be provided to the computer by various types of transitory computer readable medium.
  • Examples of temporary computer-readable media include electrical signals, optical signals, and electromagnetic waves.
  • the temporary computer-readable medium can provide the program to the computer via a wired communication path, such as an electric wire or optical fiber, or a wireless communication path.
  • a position and orientation estimation system that estimates a position and orientation of an imaging device at the time of capturing an image, based on three-dimensional point cloud data of an environment and a captured image obtained by capturing an image of an imaging target included in the environment with the imaging device, comprising: A storage means for storing a plurality of derived point cloud data generated from the three-dimensional point cloud data and having different static stabilities; An acquisition means for acquiring the captured image; an estimation means for estimating the position and orientation based on at least one of the derived point cloud data and the captured image; Including, Position and pose estimation system.
  • the estimation means includes: repeating the estimation of the position and orientation based on the derived point cloud data and the captured image in order from derived point cloud data having a relatively high static stability to derived point cloud data having a relatively low static stability among the plurality of derived point cloud data; determining, in response to the estimation accuracy of the position and orientation exceeding a predetermined value, the position and orientation of the imaging device at the time of imaging to be the last estimated position and orientation; 2.
  • the position and orientation estimation system according to claim 1.
  • the estimation means includes: Estimating a plurality of positions and orientations based on all of the derived point cloud data stored in the storage means and the captured image; determining a position and orientation of the imaging device at the time of imaging to be the position and orientation with the highest estimation accuracy among the plurality of positions and orientations; 2.
  • the estimation means includes: calculating a difference between an imaging time of the captured image and a ranging time of the three-dimensional point cloud data, selecting one of the plurality of derived point cloud data based on the calculated difference, and estimating the position and orientation based on the selected derived point cloud data and the captured image; 2.
  • the position and orientation estimation system according to claim 1.
  • the estimation means includes: estimating the position and orientation based on derived point cloud data selected in advance from the plurality of derived point cloud data and the captured image; 2. The position and orientation estimation system according to claim 1.
  • the estimation means includes: estimating the position and orientation based on derived point cloud data designated by a user input from among the plurality of derived point cloud data and the captured image; 2. The position and orientation estimation system according to claim 1.
  • the static stability of the derived point cloud data corresponds to the length of a period of time during which an object that maintains a stationary state on a time axis has the shortest period of time among the plurality of objects represented by the derived point cloud data. 7. The position and orientation estimation system according to claim 1 .
  • a position and orientation estimation system that estimates a position and orientation of an imaging device at the time of capturing an image, based on three-dimensional point cloud data of an environment and a captured image obtained by capturing an image of an imaging target included in the environment with the imaging device, comprising: A storage means for storing a plurality of derived point cloud data generated from the three-dimensional point cloud data and having different static stabilities; An acquisition means for acquiring the captured image; an estimation means for estimating the position and orientation based on at least one of the derived point cloud data and the captured image; Including, Position and orientation estimation device.
  • the estimation means includes: repeating the estimation of the position and orientation based on the derived point cloud data and the captured image in order from derived point cloud data having a relatively high static stability to derived point cloud data having a relatively low static stability among the plurality of derived point cloud data; determining, in response to the estimation accuracy of the position and orientation exceeding a predetermined value, the position and orientation of the imaging device at the time of imaging to be the last estimated position and orientation; 9.
  • the position and orientation estimation apparatus according to claim 8.
  • the estimation means includes: Estimating a plurality of positions and orientations based on all of the derived point cloud data stored in the storage means and the captured image; determining a position and orientation of the imaging device at the time of imaging to be the position and orientation with the highest estimation accuracy among the plurality of positions and orientations; 9.
  • the position and orientation estimation apparatus according to claim 8. (Appendix 11)
  • the estimation means includes: calculating a difference between an imaging time of the captured image and a ranging time of the three-dimensional point cloud data, selecting one of the plurality of derived point cloud data based on the calculated difference, and estimating the position and orientation based on the selected derived point cloud data and the captured image; 9.
  • the estimation means includes: estimating the position and orientation based on derived point cloud data selected in advance from the plurality of derived point cloud data and the captured image; 9. The position and orientation estimation apparatus according to claim 8.
  • the estimation means includes: estimating the position and orientation based on derived point cloud data designated by a user input from among the plurality of derived point cloud data and the captured image; 9. The position and orientation estimation apparatus according to claim 8. (Appendix 14) 1.
  • a position and orientation estimation method for estimating a position and orientation of an imaging device at the time of capturing an image, based on three-dimensional point cloud data of an environment and a captured image obtained by capturing an image of an imaging target included in the environment with the imaging device comprising: An acquisition step of acquiring the captured image; an estimation step of estimating the position and orientation based on at least one derived point cloud data among a plurality of derived point cloud data generated from the three-dimensional point cloud data and having different static stabilities from each other, and the captured image; Including, Position and pose estimation method.
  • a position and orientation estimation program for estimating a position and orientation of an imaging device at the time of capturing an image, based on three-dimensional point cloud data of an environment and a captured image obtained by capturing an image of an imaging target included in the environment with the imaging device, the program comprising: On the computer, An acquisition step of acquiring the captured image; an estimation step of estimating the position and orientation based on at least one derived point cloud data among a plurality of derived point cloud data generated from the three-dimensional point cloud data and having different static stabilities from each other, and the captured image; Execute the Position and orientation estimation program.
  • This disclosure can be applied to technology that estimates the position and orientation of an imaging device when capturing an image.

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

情報処理装置(1)は、環境の三次元点群データと、環境に含まれる構造物をカメラ(2)で撮像して得られる撮像画像と、に基づいて、カメラ(2)の撮像時における位置姿勢を推定する。情報処理装置(1)は、記憶部(3)と、取得部(4)、推定部(5)を含む。記憶部(3)は、三次元点群データから生成され、互いに異なる静的安定度を有する複数の派生点群データ(DPC)を記憶する。取得部(4)は、撮像画像を取得する。推定部(5)は、複数の派生点群データ(DPC)のうち少なくとも何れか1つの派生点群データ(DPC)と撮像画像に基づいて位置姿勢を推定する。

Description

位置姿勢推定システム、位置姿勢推定装置、及び、位置姿勢推定方法
本開示は、位置姿勢推定システム、位置姿勢推定装置、及び、位置姿勢推定方法に関する。
特許文献1は、構造物を撮像して得られた画像を、当該構造物の三次元設計データが構成する仮想空間上の構造物の表面にマッピングする技術を開示している。
国際公開第2019/198562号
ところで、本願発明者らは、三次元点群データと撮像画像に基づいて撮像装置の撮像時における位置姿勢を推定する技術を開発している。
本開示の目的は、三次元点群データと撮像画像に基づいて撮像装置の撮像時における位置姿勢を高い確度(accuracy)で推定する技術を提供することにある。
本開示の第1の観点によれば、環境の三次元点群データと、前記環境に含まれる撮像対象を撮像装置で撮像して得られる撮像画像と、に基づいて、前記撮像装置の撮像時における位置姿勢を推定する位置姿勢推定システムであって、前記三次元点群データから生成され、互いに異なる静的安定度を有する複数の派生点群データを記憶する記憶手段と、前記撮像画像を取得する取得手段と、前記複数の派生点群データのうち少なくとも何れか1つの派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する推定手段と、を含む、位置姿勢推定システムが提供される。
本開示の第2の観点によれば、環境の三次元点群データと、前記環境に含まれる撮像対象を撮像装置で撮像して得られる撮像画像と、に基づいて、前記撮像装置の撮像時における位置姿勢を推定する位置姿勢推定システムであって、前記三次元点群データから生成され、互いに異なる静的安定度を有する複数の派生点群データを記憶する記憶手段と、前記撮像画像を取得する取得手段と、前記複数の派生点群データのうち少なくとも何れか1つの派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する推定手段と、を含む、位置姿勢推定装置が提供される。
本開示の第3の観点によれば、環境の三次元点群データと、前記環境に含まれる撮像対象を撮像装置で撮像して得られる撮像画像と、に基づいて、前記撮像装置の撮像時における位置姿勢を推定する位置姿勢推定方法であって、前記撮像画像を取得する取得ステップと、前記三次元点群データから生成され、互いに異なる静的安定度を有する複数の派生点群データのうち少なくとも何れか1つの派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する推定ステップと、を含む、位置姿勢推定方法が提供される。
本開示によれば、位置姿勢を高い確度で推定することができる。
位置姿勢推定システムの機能ブロック図である。(本開示の概要) 情報処理装置の機能ブロック図である。(第1実施形態) 派生点群DBのデータ構造である。(第1実施形態) 各派生点群データにおける静的安定度の説明図である。(第1実施形態) 各派生点群データの生成方法の説明図である。(第1実施形態) 情報処理装置の制御フローである。(第1実施形態) 情報処理装置の制御フローである。(第2実施形態) 情報処理装置の制御フローである。(第3実施形態) 情報処理装置の制御フローである。(第4実施形態) 情報処理装置の制御フローである。(第5実施形態)
(本開示の概要)
まず、図1を参照して、本開示の概要を説明する。図1には、位置姿勢推定システム100の機能ブロック図を示している。
位置姿勢推定システム100は、環境の三次元点群データと、環境に含まれる撮像対象を撮像装置で撮像して得られる撮像画像と、に基づいて、撮像装置の撮像時における位置姿勢を推定する。位置姿勢推定システム100は、記憶手段101、取得手段102、推定手段103を含む。
記憶手段101は、三次元点群データから生成され、互いに異なる静的安定度を有する複数の派生点群データを記憶する。
取得手段102は、撮像画像を取得する。
推定手段103は、複数の派生点群データのうち少なくとも何れか1つの派生点群データと撮像画像に基づいて位置姿勢を推定する。
以上の構成によれば、撮像装置の撮像時における位置姿勢を高い確度で推定することができる。
(第1実施形態)
次に、図2から図6を参照して、第1実施形態を説明する。
図2には、情報処理装置1の機能ブロック図を示している。情報処理装置1は、位置姿勢システムの一具体例である。情報処理装置1は、位置姿勢装置の一具体例である。
図2に示す情報処理装置1は、典型的には、橋梁、ダム、トンネル、タワー、家屋などの構造物を管理するのに供される。即ち、構造物は、時間の経過と共に劣化するため、定期的に変状の有無を点検し、変状を発見した場合は適切な対処が求められる。変状とは、典型的には、構造物を構成するコンクリートの浮き、剥離、ひび割れである。
点検員が構造物の変状を発見した場合、点検員は当該変状をカメラ2(撮像装置)で撮像し、撮像画像を取得する。ここで、構造物の三次元点群データが得られている場合、当該三次元点群データが構成する仮想空間上の構造物に上記の撮像画像をマッピングすることが考えられる。撮像画像をマッピングした仮想空間上の構造物をディスプレイ上に表示できれば、ディスプレイ上で当該変状が構造物のどこに位置し、どのくらいの大きさであるのか容易に把握できるようになる。これにより、点検員が変状をカメラ2で撮像するに際し、点検員は、当該変状の位置を詳細に記録したり、当該変状の大きさを現場で測定したりする必要がなくなるので、構造物の点検を短時間でかつ少人数で行うことができるようになる。
ところで、三次元点群データに撮像画像をマッピングするには、カメラ2の撮像時における位置姿勢が不可欠である。カメラ2の撮像時における位置姿勢とは、典型的には、三次元点群データの点群座標系と、カメラ2のカメラ座標系と、の間の変換パラメータを意味する。即ち、三次元点群データを変換パラメータにより座標変換することで、三次元点群データをカメラ座標系で表現することができるようになる。これとは逆に、撮像画像を変換パラメータにより座標変換することで、撮像画像を点群座標系で表現することができるようになる。変換パラメータは、典型的には、回転行列と並進行列を含んでいる。
ここで、カメラ2の撮像時における位置姿勢を推定する方法として、DeepI2P(Image-to-Point Cloud Registration via Deep Classification)、Direct Regression、Monodepth2+USIP、Monodepth2+GT-ICP、2D3D-MatchNetなどのレジストレーション技術が知られている。何れの方法を使用するにせよ、上記位置姿勢を算出するに際し、推定確度(マッチングスコア)を著しく低下させる以下の未解決の問題が取り残されている。未解決の問題とは、端的に言えば、三次元点群データを生成するために構造物を測距する際に構造物以外の物体も同時に測距してしまうこと、そして、カメラ2で構造物を撮像する際に構造物以外の物体も同時に撮像してしまうこと、である。例えば、三次元点群データを生成するために構造物を測距する際に構造物の近くに自動車が駐車しており、カメラ2で構造物を撮像する際に当該自動車が同じ場所にいないことは十分に想定し得る。この理由としては、実際の運用上、三次元点群データを生成するために構造物を測距するのは一度だけであり、点検員は、その後の半年ごとにカメラ2で構造物を撮像するからである。即ち、三次元点群データを生成するために構造物を測距する測距時刻と、点検員がカメラ2で構造物を撮像する撮像時刻と、の間には大きな差分があることが上記の問題の主たる原因となっている。この場合、三次元点群データ上での特徴点と、撮像画像上での特徴点と、の間の良好な対応関係を構築することができず、結果として変換パラメータの推定確度が頭打ちとなっていた。
図2に示す情報処理装置1は上記の技術的課題を解決すべく考案されたものであって、情報処理装置1を以下、詳細に説明する。
図2に示すように、情報処理装置1は、CPU1a(Central Processing Unit)及びメモリ1b、LCD1c(Liquid Crystal Display)、通信インターフェース1d、入力手段1eを備える。
メモリ1bは、RAM(Random Access Memory)やROM(Read Only Memory)、HDD(Hard Disc Drive)などで構成されている。メモリ1bには、制御プログラムが格納されている。
入力手段1eは、典型的には、キーボードである。
CPU1aは、メモリ1bに記憶されている制御プログラムを読み出して実行する。これにより、制御プログラムは、CPU1aなどのハードウェアを、記憶部3、取得部4、推定部5、マッピング部6、出力部7として機能させる。
記憶部3は、記憶手段の一具体例である。記憶部3は、環境の三次元点群データから生成され、互いに異なる静的安定度を有する複数の派生点群データを記憶する。ここで、「環境」は、点検対象である構造物と、当該構造物の周囲に存在する物体と、を含む。記憶部3には、具体的には、図3に示す派生点群DB8が格納されている。以下、図3を参照して、派生点群DB8を説明する。
図3に示すように、派生点群DB8は、一例として、3つの派生点群データDPC(Derived Point Cloud)を保有する。3つの派生点群データDPCは、派生点群データDPC1、派生点群データDPC2、派生点群データDPC3から構成されている。本実施形態において、派生点群DB8が保有する派生点群データDPCの数は3つとしたが、これに限定されず、2つでもよく、4つ以上であってもよい。
各派生点群データDPCは、何れも、三次元点群データであって、環境の三次元点群データから生成されたものである。
派生点群DB8において、各派生点群データDPCは静的安定度SS(Static Stability)と関連付けられている。図3に示すように、一例として、派生点群データDPC1の静的安定度SSは「60年」であり、派生点群データDPC2の静的安定度SSは「3年」であり、派生点群データDPC3の静的安定度SSは「1秒」である。このように静的安定度SSは、一例として、時間軸上での期間の長短によって表現されている。そして、期間が相対的に長いほど静的安定度SSは相対的に高く、期間が相対的に短いほど静的安定度SSは相対的に低い、と言える。従って、派生点群データDPC1の静的安定度SSは、派生点群データDPC2の静的安定度SSよりも高い。派生点群データDPC2の静的安定度SSは、派生点群データDPC3の静的安定度SSよりも高い。即ち、派生点群データDPC1の静的安定度SSは、派生点群DB8が保有する複数の派生点群データDPCの中で最も高いと言える。そして、派生点群DB8は、互いに異なる静的安定度SSを有する複数の派生点群データDPCを保有すると言える。なお、静的安定度SSは、時間軸上での期間の長短によって直接的に表現されてことに代えて、レベル1、レベル2、レベル3といったようにレベル表記で間接的に表現されてもよい。
ここで、派生点群データDPC1と派生点群データDPC2、派生点群データDPC3の違いについて説明する。端的に言えば、派生点群データDPC2は、派生点群データDPC3の一部の点群を除去したものであり、派生点群データDPC1は、派生点群データDPC2の一部の点群を除去したものである。図3に示すように、派生点群データDPC3は、建造物に対応する建造物点群PPC1(Partial Point Cloud)と、樹木に対応する樹木点群PPC2と、自動車に対応する自動車点群PPC3と、歩行者に対応する歩行者点群PPC4と、を含む。これに対し、派生点群データDPC2は、建造物点群PPC1と樹木点群PPC2を含むものの、自動車点群PPC3と歩行者点群PPC4を含まない。また、派生点群データDPC1は、建造物点群PPC1を含むものの、樹木点群PPC2及び自動車点群PPC3、歩行者点群PPC4を含まない。
次に、図4を参照して、静的安定度SSを詳細に説明する。図4には、各派生点群データDPCの静的安定度SSを示している。図4の横軸は時間軸である。
図4に示すように、派生点群データDPC1は建造物点群PPC1のみを含む。そして、建造物点群PPC1に対応する建造物は一般的に60年程度、時間軸上で静止した状態を維持する。従って、建造物の維持期間は60年となる。これにより、派生点群データDPC1の静的安定度SSは、建造物の維持期間である60年となる。
これに対し、派生点群データDPC2は、建造物点群PPC1及び樹木点群PPC2を含む。そして、樹木点群PPC2に対応する樹木は一般的に3年程度、時間軸上で静止した状態を維持する。即ち、樹木は、数年経過すれば伐採されたり、移植されたりする。従って、樹木の維持期間は3年となる。これにより、派生点群データDPC2の静的安定度SSは、建造物の維持期間と樹木の維持期間のうち最も短い維持期間である3年となる。換言すれば、派生点群データDPC2の静的安定度SSは、建造物及び樹木のうち、時間軸上で静止した状態を維持する維持期間が最も短い物体である樹木の当該維持期間の長さとなる。
また、派生点群データDPC3は、建造物点群PPC1及び樹木点群PPC2、自動車点群PPC3、歩行者点群PPC4を含む。そして、自動車点群PPC3に対応する自動車は駐車している場合、一般的に9時間程度、時間軸上で静止した状態を維持する。従って、自動車の維持期間は9時間となる。また、歩行者点群PPC4に対応する歩行者は時間軸上でほとんど静止せず、静止したとしてもせいぜい1秒である。従って、歩行者の維持期間は1秒である。これにより、派生点群データDPC3の静的安定度SSは、建造物の維持期間、樹木の維持期間、自動車の維持期間、歩行者の維持期間のうち最も短い維持期間である1秒となる。換言すれば、派生点群データDPC3の静的安定度SSは、建造物及び樹木、自動車、歩行者のうち、時間軸上で静止した状態を維持する維持期間が最も短い物体である歩行者の当該維持期間の長さとなる。
次に、図5を参照して、各派生点群データDPCの生成方法を例示する。
(ステップ1)
まず、環境の三次元点群データを取得する。環境の三次元点群データを取得する方法としては、Lidar(Light Detection And Ranging)を用いる方法と、写真測量を用いる方法と、が挙げられる。
Lidarを用いる方法では、Lidarを用いて様々な角度から環境を測距し、Lidarから出力される複数の三次元点群データを例えばICP(Iterative Closest Point)などのレジストレーション技術を用いて合成することで、環境の三次元点群データを生成する。
写真測量を用いる方法では、環境を様々な角度から撮像することで得られた複数の撮像画像から幾何学的な逆問題を解くことによって環境の三次元構造を復元し、これにより、環境の三次元点群データを生成する。複数の撮像画像から環境の三次元構造を復元するための手法は、典型的には、SfM(Structure from Motion)が挙げられる。このとき、MVS(Multi-View Stereo)を併用すると、より精密な環境の三次元点群データを生成することができる。
また、Lidarと写真測量の双方を利用して、環境の三次元点群データを生成してもよい。即ち、Lidarを用いて生成した環境の三次元点群データと、写真測量によって生成した環境の三次元点群データを前述のレジストレーション技術を用いて合成することで、環境の三次元点群データを生成してもよい。
(ステップ2)
次に、ステップ1で得られた環境の三次元点群データを、当該環境に含まれる各物体の維持期間に応じて分類する。具体的には、維持期間が10年よりも長い建造物に対応する建造物点群PPC1はレイヤー1に分類し、維持期間が10年以下1年以上である樹木に対応する樹木点群PPC2はレイヤー2に分類し、自動車に対応する自動車点群PPC3及び歩行者に対応する歩行者点群PPC4はレイヤー3に分類する。
まず、環境の三次元点群データに基づいて環境に含まれる物体を検出する方法としては、PointNet、PointNet++、VoteNetなどの公知のDNN(Deep Neural Network)を利用することができる。測距と同時に環境を撮像することで撮像画像が得られているのであれば、R-CNN(Regions with Convolutional Neural Networks)やYOLO(You Only Look Once)などの公知のDNNを利用して環境に含まれる物体を検出してもよい。そして、物体と維持期間との対応関係をテーブル形式で予め作成しておき、当該テーブルを参照することで、ステップ1で得られた環境の三次元点群データを、当該環境に含まれる各物体の維持期間に応じて分類する。
なお、ステップ1で得られた環境の三次元点群データを当該環境に含まれる各物体の維持期間に応じて分類する作業は、オペレータによる手作業で行ってもよい。
図5において、レイヤー1に分類される物体としては、例示する構造物に限定されない。例えば、路面や地形などの物体は、構造物の維持期間よりも長い維持期間を有する。従って、これらの物体もレイヤー1に分類される。
レイヤー2に分類される物体としては、例示する樹木に限定されない。例えば、椅子や机、扉などの物体はレイヤー2に分類してもよい。
レイヤー3に分類される物体としては、例示する自動車及び歩行者に限定されない。例えば、動物やドローンなどの物体はレイヤー3に分類してもよい。
(ステップ3)
次に、レイヤー1を派生点群データDPC1として派生点群DB8に格納する。また、レイヤー1とレイヤー2を合成した点群データを派生点群データDPC2として派生点群DB8に格納する。また、レイヤー1とレイヤー2、レイヤー3を合成した点群データを派生点群データDPC3として派生点群DB8に格納する。
上述した各派生点群データDPCの生成は、典型的には、環境の三次元点群データを生成した当日に、又は、数日以内に行われる。当該生成は、少なくとも、カメラ2を用いた撮像前に完了しておくとよい。これにより、点検を開始してからマッピングが完了するまでの所要時間を短縮することができる。ただし、カメラ2を用いた撮像後に上記の各派生点群データDPCを生成してもよい。
図2に戻り、取得部4は、取得手段の一具体例である。取得部4は、通信インターフェース1dを介してカメラ2のメモリに保存されている撮像画像を取得する。これに代えて、取得部4は、記憶媒体に保存されている撮像画像を読み込むことで取得してもよい。
推定部5は、推定手段の一具体例である。推定部5は、複数の派生点群データDPCのうち少なくとも何れか1つの派生点群データDPCと取得部4が取得した撮像画像に基づいてカメラ2の撮像時における位置姿勢を推定する。カメラ2の撮像時における位置姿勢を推定する手法としては、前述したように、DeepI2P(Image-to-Point Cloud Registration via Deep Classification)、Direct Regression、Monodepth2+USIP、Monodepth2+GT-ICP、2D3D-MatchNetなどのレジストレーション技術を採用することができる。何れのレジストレーション技術も、カメラ2の撮像時における位置姿勢の推定結果として、推定した位置姿勢を推定確度(マッチングスコア)と共に出力する。
本実施形態において、推定部5は、複数の派生点群データDPCのうち静的安定度SSが相対的に高い派生点群データDPCから静的安定度SSが相対的に低い派生点群データDPCに向かって順に、派生点群データDPCと撮像画像に基づく位置姿勢の推定を繰り返す。そして、推定部5は、位置姿勢の推定確度が所定値を超えたことに応じて、カメラ2の撮像時における位置姿勢を、最後に推定した位置姿勢に決定する。
マッピング部6は、推定部5が推定したカメラ2の撮像時における位置姿勢に基づいて、撮像画像を、環境の三次元点群データが構成する仮想空間上の環境モデルに投影する。
出力部7は、仮想空間上の環境モデルを撮像画像が投影された状態でLCD1cに表示する。LCD1c上に表示された撮像画像に映り込む変状を点検員が入力手段1eで選択することにより、出力部7は、当該変状を四角で囲んで強調表示すると共に、当該四角の近傍に当該四角の長辺と短辺の長さを表示する。これにより、点検員は、構造物における変状の発生箇所と当該変状の大きさを容易に把握することができる。
次に、図6を参照して、情報処理装置1の制御フローを説明する。
まず、取得部4は、撮像画像を取得する(S100)。
次に、推定部5は、派生点群データDPC1と取得部4が取得した撮像画像に基づいてカメラ2の撮像時における位置姿勢を推定する(S110)。
次に、推定部5は、ステップS110における推定確度が所定値を上回ったか判定する(S120)。ステップS110における推定確度が所定値を上回ったと推定部5が判定した場合、推定部5は、処理をステップS160に進める。一方、ステップS110における推定確度が所定値を上回っていないと推定部5が判定した場合、推定部5は、処理をS130に進める。
次に、推定部5は、派生点群データDPC2と取得部4が取得した撮像画像に基づいてカメラ2の撮像時における位置姿勢を推定する(S130)。
次に、推定部5は、ステップS130における推定確度が所定値を上回ったか判定する(S140)。ステップS130における推定確度が所定値を上回ったと推定部5が判定した場合、推定部5は、処理をステップS160に進める。一方、ステップS130における推定確度が所定値を上回っていないと推定部5が判定した場合、推定部5は、処理をS150に進める。
次に、推定部5は、派生点群データDPC3と取得部4が取得した撮像画像に基づいてカメラ2の撮像時における位置姿勢を推定する(S150)。
次に、マッピング部6は、推定部5が最後に推定したカメラ2の撮像時における位置姿勢に基づいて、撮像画像を、環境の三次元点群データが構成する仮想空間上の環境モデルに投影する(S160)。
次に、出力部7は、仮想空間上の環境モデルを撮像画像が投影された状態でLCD1cに表示する(S170)。
以上に、第2実施形態を説明したが、上記第2実施形態は以下の特徴を有する。
例えば、図2及び図6に示すように、情報処理装置1(位置姿勢推定システム、位置姿勢推定装置)は、環境の三次元点群データと、環境に含まれる構造物(撮像対象)をカメラ2(撮像装置)で撮像して得られる撮像画像と、に基づいて、カメラ2の撮像時における位置姿勢を推定する。情報処理装置1は、記憶部3(記憶手段)と、取得部4(取得手段)、推定部5(推定手段)を含む。記憶部3は、三次元点群データから生成され、互いに異なる静的安定度を有する複数の派生点群データDPCを記憶する。取得部4は、撮像画像を取得する。推定部5は、複数の派生点群データDPCのうち少なくとも何れか1つの派生点群データDPCと撮像画像に基づいて位置姿勢を推定する。以上の構成によれば、位置姿勢を高い確度で推定することができる。
また、図6に示すように、推定部5は、複数の派生点群データDPCのうち静的安定度SSが相対的に高い派生点群データDPC1から静的安定度SSが相対的に低い派生点群データDPC3に向かって順に、派生点群データDPCと撮像画像に基づく位置姿勢の推定を繰り返す(S110、S130、S150)。そして、推定部5は、位置姿勢の推定確度が所定値を超えたことに応じて、カメラ2の撮像時における位置姿勢を、最後に推定した位置姿勢に決定する。以上の構成によれば、短時間で、位置姿勢を高い確度で推定することができる。
以下、上記のように派生点群データDPC毎に推定確度が変わるメカニズムを説明する。即ち、図3に示すように、派生点群データDPCが構造物以外の物体を含む場合、当該物体が位置姿勢の推定に寄与する場合もあれば邪魔する場合もあるだろう。例えば、派生点群データDPC2に含まれる樹木点群PPC2は、位置姿勢を推定する際の、派生点群データDPC2の有力な特徴点となり得る。また、派生点群データDPC3に含まれる自動車点群PPC3や歩行者点群PPC4は、位置姿勢を推定する際の、派生点群データDPC3の有力な特徴点となり得る。このように、派生点群データDPCが構造物以外の物体を含んでいても、当該物体が位置姿勢の推定に寄与する場合が往々にしてある。従って、派生点群データDPC1に基づく推定確度よりも、派生点群データDPC2や派生点群データDPC3に基づく推定確度の方が高くなることもあるし、低くなることもある。このように上記のように派生点群データDPC毎に異なる推定確度が得られるので、情報処理装置1は、互いに異なる静的安定度SSを有する複数の派生点群データDPCを記憶する記憶部3を備えることで、位置姿勢を高い確度で推定することができると言える。
上記第2実施形態は、例えば以下のように変更できる。
即ち、上記第2実施形態において、推定部5は、複数の派生点群データDPCのうち静的安定度SSが相対的に高い派生点群データDPCから静的安定度SSが相対的に低い派生点群データDPCに向かって順に、派生点群データDPCと撮像画像に基づく位置姿勢の推定を繰り返すとした。しかし、これに代えて、推定部5は、複数の派生点群データDPCのうち静的安定度SSが相対的に低い派生点群データDPCから静的安定度SSが相対的に高い派生点群データDPCに向かって順に、派生点群データDPCと撮像画像に基づく位置姿勢の推定を繰り返してもよい。また、推定部5は、複数の派生点群データDPCをランダムに並べ替え、並べ替えた順に、派生点群データDPCと撮像画像に基づく位置姿勢の推定を繰り返してもよい。
また、本実施形態において、位置姿勢推定システムは、単一の装置である情報処理装置1により実現されている。しかし、これに代えて、位置姿勢推定システムは、複数の装置に跨る分散処理により実現してもよい。即ち、位置姿勢推定システムは、派生点群DB8を備える外部サーバーと、外部サーバーの派生点群DB8にアクセス可能な情報処理装置1と、により実現してもよい。
(第3実施形態)
以下、図7を参照して、第3実施形態を説明する。以下、本実施形態が上記第2実施形態と相違する点を中心に説明し、重複する説明は省略する。図7は、情報処理装置1の処理フローを示している。
まず、取得部4は、撮像画像を取得する(S200)。
次に、推定部5は、派生点群DB8が保有するすべての派生点群データDPCと撮像画像に基づいて複数の位置姿勢を推定する(S210)。本実施形態において派生点群DB8は、図3に示すように、3つの派生点群データDPCを保有するので、推定部5は、位置姿勢を3通り、推定することになる。
次に、推定部5は、カメラ2の撮像時における位置姿勢を、複数の位置姿勢のうち最も推定確度が高い位置姿勢に決定する(S220)。
次に、マッピング部6は、推定部5が推定したカメラ2の撮像時における位置姿勢に基づいて、撮像画像を、環境の三次元点群データが構成する仮想空間上の環境モデルに投影する(S230)。
そして、出力部7は、仮想空間上の環境モデルを撮像画像が投影された状態でLCD1cに表示する(S240)。
以上の構成によれば、カメラ2の撮像時における位置姿勢を最も高い推定確度で推定できる。
(第4実施形態)
以下、図8を参照して、第4実施形態を説明する。以下、本実施形態が上記第2実施形態と相違する点を中心に説明し、重複する説明は省略する。図8は、情報処理装置1の処理フローを示している。
まず、取得部4は、撮像画像を取得する(S300)。
次に、推定部5は、派生点群DB8が保有する複数の派生点群データDPCの中から1つの派生点群データDPCを選択するユーザー入力を受け付ける(S310)。
次に、推定部5は、ユーザー入力により指定された派生点群データDPCと撮像画像に基づいて位置姿勢を推定する(S320)。
次に、マッピング部6は、推定部5が推定したカメラ2の撮像時における位置姿勢に基づいて、撮像画像を、環境の三次元点群データが構成する仮想空間上の環境モデルに投影する(S330)。
そして、出力部7は、仮想空間上の環境モデルを撮像画像が投影された状態でLCD1cに表示する(S340)。
以上の構成によれば、上記第2実施形態と比較して推定部5の推定処理に要する処理時間を短縮することができる。
例えば、点検員は、三次元点群データを生成するために構造物を測距した時刻と、カメラ2で構造物を撮像する時刻と、の差分に応じて派生点群データDPCを選択することができる。点検員は、当該差分が相対的に小さければ派生点群データDPC2や派生点群データDPC3を選択し、当該差分が相対的に大きければ派生点群データDPC1を選択し得る。
また、点検員は、情報処理装置1を用いてマッピングを繰り返した結果として、推定確度が常に高く出る派生点群データDPCを特定できた場合、以降は、当該派生点群データDPCを選択することができる。これにより、情報処理装置1の処理時間を短縮しつつ、高い推定確度の位置姿勢を得ることができる。
(第5実施形態)
以下、図9を参照して、第5実施形態を説明する。以下、本実施形態が上記第2実施形態と相違する点を中心に説明し、重複する説明は省略する。図9は、情報処理装置1の処理フローを示している。
まず、取得部4は、撮像画像を取得する(S400)。
次に、推定部5は、事前に選択された派生点群データDPCと撮像画像に基づいて位置姿勢を推定する(S410)。
次に、マッピング部6は、推定部5が推定したカメラ2の撮像時における位置姿勢に基づいて、撮像画像を、環境の三次元点群データが構成する仮想空間上の環境モデルに投影する(S430)。
そして、出力部7は、仮想空間上の環境モデルを撮像画像が投影された状態でLCD1cに表示する(S440)。
以上の構成によれば、上記第2実施形態と比較して推定部5の推定処理に要する処理時間を短縮することができる。
例えば、点検員は、情報処理装置1を用いてマッピングを繰り返した結果として、推定確度が常に高く出る派生点群データDPCを特定できた場合、以降は、点検の度に当該派生点群データDPCを選択する必要もなく、以降の推定処理に用いる派生点群データDPCを事前に選択して固定してもよい。これにより、情報処理装置1の処理時間を短縮しつつ、高い推定確度の位置姿勢を得ることができると共に、ユーザー入力の手間を省くことができる。
(第6実施形態)
以下、図10を参照して、第6実施形態を説明する。以下、本実施形態が上記第2実施形態と相違する点を中心に説明し、重複する説明は省略する。図10は、情報処理装置1の処理フローを示している。
まず、取得部4は、撮像画像を取得する(S500)。
次に、推定部5は、三次元点群データを生成するために構造物を測距した測距時刻と、カメラ2で構造物を撮像した撮像時刻と、の差分を算出する(S510)。
次に、推定部5は、ステップS510で算出した差分に基づいて、派生点群DB8が保有する複数の派生点群データDPCの中から1つの派生点群データDPCを選択する(S520)。具体的には、推定部5は、当該差分が相対的に小さければ派生点群データDPC2や派生点群データDPC3を選択し、当該差分が相対的に大きければ派生点群データDPC1を選択する。
次に、推定部5は、ステップS520で選択した派生点群データDPCと撮像画像に基づいて位置姿勢を推定する(S530)。
次に、マッピング部6は、推定部5が推定したカメラ2の撮像時における位置姿勢に基づいて、撮像画像を、環境の三次元点群データが構成する仮想空間上の環境モデルに投影する(S540)。
そして、出力部7は、仮想空間上の環境モデルを撮像画像が投影された状態でLCD1cに表示する(S550)。
以上の構成によれば、上記第2実施形態と比較して推定部5の推定処理に要する処理時間を短縮できると共に、複数の派生点群データDPCの中から最適な派生点群データDPCが推定処理に用いられるので、位置姿勢を高い推定確度で推定することができる。
上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)を含む。非一時的なコンピュータ可読媒体の例は、更に、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROMを含む。非一時的なコンピュータ可読媒体の例は、更に、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
環境の三次元点群データと、前記環境に含まれる撮像対象を撮像装置で撮像して得られる撮像画像と、に基づいて、前記撮像装置の撮像時における位置姿勢を推定する位置姿勢推定システムであって、
前記三次元点群データから生成され、互いに異なる静的安定度を有する複数の派生点群データを記憶する記憶手段と、
前記撮像画像を取得する取得手段と、
前記複数の派生点群データのうち少なくとも何れか1つの派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する推定手段と、
を含む、
位置姿勢推定システム。
(付記2)
前記推定手段は、
前記複数の派生点群データのうち前記静的安定度が相対的に高い派生点群データから前記静的安定度が相対的に低い派生点群データに向かって順に、前記派生点群データと前記撮像画像に基づく前記位置姿勢の推定を繰り返し、
前記位置姿勢の推定確度が所定値を超えたことに応じて、前記撮像装置の撮像時における位置姿勢を、最後に推定した前記位置姿勢に決定する、
付記1に記載の位置姿勢推定システム。
(付記3)
前記推定手段は、
前記記憶手段に記憶されているすべての派生点群データと前記撮像画像に基づいて複数の位置姿勢を推定し、
前記撮像装置の撮像時における位置姿勢を、前記複数の位置姿勢のうち推定確度が最も高い位置姿勢に決定する、
付記1に記載の位置姿勢推定システム。
(付記4)
前記推定手段は、
前記撮像画像の撮像時刻と、前記三次元点群データの測距時刻と、の差分を算出し、算出した差分に基づいて、前記複数の派生点群データの何れか1つを選択し、選択した派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
付記1に記載の位置姿勢推定システム。
(付記5)
前記推定手段は、
前記複数の派生点群データのうち、事前に選択された派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
付記1に記載の位置姿勢推定システム。
(付記6)
前記推定手段は、
前記複数の派生点群データのうち、ユーザー入力により指定された派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
付記1に記載の位置姿勢推定システム。
(付記7)
前記派生点群データの前記静的安定度とは、当該派生点群データが示す複数の物体のうち、時間軸上で静止した状態を維持する維持期間が最も短い物体の当該維持期間の長さに対応する、
付記1から6までの何れか1項に記載の位置姿勢推定システム。
(付記8)
環境の三次元点群データと、前記環境に含まれる撮像対象を撮像装置で撮像して得られる撮像画像と、に基づいて、前記撮像装置の撮像時における位置姿勢を推定する位置姿勢推定システムであって、
前記三次元点群データから生成され、互いに異なる静的安定度を有する複数の派生点群データを記憶する記憶手段と、
前記撮像画像を取得する取得手段と、
前記複数の派生点群データのうち少なくとも何れか1つの派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する推定手段と、
を含む、
位置姿勢推定装置。
(付記9)
前記推定手段は、
前記複数の派生点群データのうち前記静的安定度が相対的に高い派生点群データから前記静的安定度が相対的に低い派生点群データに向かって順に、前記派生点群データと前記撮像画像に基づく前記位置姿勢の推定を繰り返し、
前記位置姿勢の推定確度が所定値を超えたことに応じて、前記撮像装置の撮像時における位置姿勢を、最後に推定した前記位置姿勢に決定する、
付記8に記載の位置姿勢推定装置。
(付記10)
前記推定手段は、
前記記憶手段に記憶されているすべての派生点群データと前記撮像画像に基づいて複数の位置姿勢を推定し、
前記撮像装置の撮像時における位置姿勢を、前記複数の位置姿勢のうち推定確度が最も高い位置姿勢に決定する、
付記8に記載の位置姿勢推定装置。
(付記11)
前記推定手段は、
前記撮像画像の撮像時刻と、前記三次元点群データの測距時刻と、の差分を算出し、算出した差分に基づいて、前記複数の派生点群データの何れか1つを選択し、選択した派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
付記8に記載の位置姿勢推定装置。
(付記12)
前記推定手段は、
前記複数の派生点群データのうち、事前に選択された派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
付記8に記載の位置姿勢推定装置。
(付記13)
前記推定手段は、
前記複数の派生点群データのうち、ユーザー入力により指定された派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
付記8に記載の位置姿勢推定装置。
(付記14)
環境の三次元点群データと、前記環境に含まれる撮像対象を撮像装置で撮像して得られる撮像画像と、に基づいて、前記撮像装置の撮像時における位置姿勢を推定する位置姿勢推定方法であって、
前記撮像画像を取得する取得ステップと、
前記三次元点群データから生成され、互いに異なる静的安定度を有する複数の派生点群データのうち少なくとも何れか1つの派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する推定ステップと、
を含む、
位置姿勢推定方法。
(付記15)
前記推定ステップでは、
前記複数の派生点群データのうち前記静的安定度が相対的に高い派生点群データから前記静的安定度が相対的に低い派生点群データに向かって順に、前記派生点群データと前記撮像画像に基づく前記位置姿勢の推定を繰り返し、
前記位置姿勢の推定確度が所定値を超えたことに応じて、前記撮像装置の撮像時における位置姿勢を、最後に推定した前記位置姿勢に決定する、
付記14に記載の位置姿勢推定方法。
(付記16)
前記推定ステップでは、
前記複数の派生点群データのうちすべての派生点群データと前記撮像画像に基づいて複数の位置姿勢を推定し、
前記撮像装置の撮像時における位置姿勢を、前記複数の位置姿勢のうち推定確度が最も高い位置姿勢に決定する、
付記14に記載の位置姿勢推定方法。
(付記17)
前記推定ステップでは、
前記撮像画像の撮像時刻と、前記三次元点群データの測距時刻と、の差分を算出し、算出した差分に基づいて、前記複数の派生点群データの何れか1つを選択し、選択した派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
付記14に記載の位置姿勢推定方法。
(付記18)
前記推定ステップでは、
前記複数の派生点群データのうち、事前に選択された派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
付記14に記載の位置姿勢推定方法。
(付記19)
前記推定ステップでは、
前記複数の派生点群データのうち、ユーザー入力により指定された派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
付記14に記載の位置姿勢推定方法。
(付記20)
環境の三次元点群データと、前記環境に含まれる撮像対象を撮像装置で撮像して得られる撮像画像と、に基づいて、前記撮像装置の撮像時における位置姿勢を推定するための位置姿勢推定プログラムであって、
コンピュータに、
前記撮像画像を取得する取得ステップと、
前記三次元点群データから生成され、互いに異なる静的安定度を有する複数の派生点群データのうち少なくとも何れか1つの派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する推定ステップと、
を実行させる、
位置姿勢推定プログラム。
(付記21)
前記推定ステップでは、
前記複数の派生点群データのうち前記静的安定度が相対的に高い派生点群データから前記静的安定度が相対的に低い派生点群データに向かって順に、前記派生点群データと前記撮像画像に基づく前記位置姿勢の推定を繰り返し、
前記位置姿勢の推定確度が所定値を超えたことに応じて、前記撮像装置の撮像時における位置姿勢を、最後に推定した前記位置姿勢に決定する、
付記20に記載の位置姿勢推定プログラム。
(付記22)
前記推定ステップでは、
前記複数の派生点群データのうちすべての派生点群データと前記撮像画像に基づいて複数の位置姿勢を推定し、
前記撮像装置の撮像時における位置姿勢を、前記複数の位置姿勢のうち推定確度が最も高い位置姿勢に決定する、
付記20に記載の位置姿勢推定プログラム。
(付記23)
前記推定ステップでは、
前記撮像画像の撮像時刻と、前記三次元点群データの測距時刻と、の差分を算出し、算出した差分に基づいて、前記複数の派生点群データの何れか1つを選択し、選択した派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
付記20に記載の位置姿勢推定プログラム。
(付記24)
前記推定ステップでは、
前記複数の派生点群データのうち、事前に選択された派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
付記20に記載の位置姿勢推定プログラム。
(付記25)
前記推定ステップでは、
前記複数の派生点群データのうち、ユーザー入力により指定された派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
付記20に記載の位置姿勢推定プログラム。
本開示は、撮像装置の撮像時における位置姿勢を推定する技術に適用できる。
1 情報処理装置
1b メモリ
1d 通信インターフェース
1e 入力手段
2 カメラ
3 記憶部
4 取得部
5 推定部
6 マッピング部
7 出力部
8 派生点群DB
DPC 派生点群データ
DPC1 派生点群データ
DPC2 派生点群データ
DPC3 派生点群データ
SS 静的安定度
PPC1 建造物点群
PPC2 樹木点群
PPC3 自動車点群
PPC4 歩行者点群

Claims (19)

  1. 環境の三次元点群データと、前記環境に含まれる撮像対象を撮像装置で撮像して得られる撮像画像と、に基づいて、前記撮像装置の撮像時における位置姿勢を推定する位置姿勢推定システムであって、
    前記三次元点群データから生成され、互いに異なる静的安定度を有する複数の派生点群データを記憶する記憶手段と、
    前記撮像画像を取得する取得手段と、
    前記複数の派生点群データのうち少なくとも何れか1つの派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する推定手段と、
    を含む、
    位置姿勢推定システム。
  2. 前記推定手段は、
    前記複数の派生点群データのうち前記静的安定度が相対的に高い派生点群データから前記静的安定度が相対的に低い派生点群データに向かって順に、前記派生点群データと前記撮像画像に基づく前記位置姿勢の推定を繰り返し、
    前記位置姿勢の推定確度が所定値を超えたことに応じて、前記撮像装置の撮像時における位置姿勢を、最後に推定した前記位置姿勢に決定する、
    請求項1に記載の位置姿勢推定システム。
  3. 前記推定手段は、
    前記記憶手段に記憶されているすべての派生点群データと前記撮像画像に基づいて複数の位置姿勢を推定し、
    前記撮像装置の撮像時における位置姿勢を、前記複数の位置姿勢のうち推定確度が最も高い位置姿勢に決定する、
    請求項1に記載の位置姿勢推定システム。
  4. 前記推定手段は、
    前記撮像画像の撮像時刻と、前記三次元点群データの測距時刻と、の差分を算出し、算出した差分に基づいて、前記複数の派生点群データの何れか1つを選択し、選択した派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
    請求項1に記載の位置姿勢推定システム。
  5. 前記推定手段は、
    前記複数の派生点群データのうち、事前に選択された派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
    請求項1に記載の位置姿勢推定システム。
  6. 前記推定手段は、
    前記複数の派生点群データのうち、ユーザー入力により指定された派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
    請求項1に記載の位置姿勢推定システム。
  7. 前記派生点群データの前記静的安定度とは、当該派生点群データが示す複数の物体のうち、時間軸上で静止した状態を維持する維持期間が最も短い物体の当該維持期間の長さに対応する、
    請求項1から6までの何れか1項に記載の位置姿勢推定システム。
  8. 環境の三次元点群データと、前記環境に含まれる撮像対象を撮像装置で撮像して得られる撮像画像と、に基づいて、前記撮像装置の撮像時における位置姿勢を推定する位置姿勢推定システムであって、
    前記三次元点群データから生成され、互いに異なる静的安定度を有する複数の派生点群データを記憶する記憶手段と、
    前記撮像画像を取得する取得手段と、
    前記複数の派生点群データのうち少なくとも何れか1つの派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する推定手段と、
    を含む、
    位置姿勢推定装置。
  9. 前記推定手段は、
    前記複数の派生点群データのうち前記静的安定度が相対的に高い派生点群データから前記静的安定度が相対的に低い派生点群データに向かって順に、前記派生点群データと前記撮像画像に基づく前記位置姿勢の推定を繰り返し、
    前記位置姿勢の推定確度が所定値を超えたことに応じて、前記撮像装置の撮像時における位置姿勢を、最後に推定した前記位置姿勢に決定する、
    請求項8に記載の位置姿勢推定装置。
  10. 前記推定手段は、
    前記記憶手段に記憶されているすべての派生点群データと前記撮像画像に基づいて複数の位置姿勢を推定し、
    前記撮像装置の撮像時における位置姿勢を、前記複数の位置姿勢のうち推定確度が最も高い位置姿勢に決定する、
    請求項8に記載の位置姿勢推定装置。
  11. 前記推定手段は、
    前記撮像画像の撮像時刻と、前記三次元点群データの測距時刻と、の差分を算出し、算出した差分に基づいて、前記複数の派生点群データの何れか1つを選択し、選択した派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
    請求項8に記載の位置姿勢推定装置。
  12. 前記推定手段は、
    前記複数の派生点群データのうち、事前に選択された派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
    請求項8に記載の位置姿勢推定装置。
  13. 前記推定手段は、
    前記複数の派生点群データのうち、ユーザー入力により指定された派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
    請求項8に記載の位置姿勢推定装置。
  14. 環境の三次元点群データと、前記環境に含まれる撮像対象を撮像装置で撮像して得られる撮像画像と、に基づいて、前記撮像装置の撮像時における位置姿勢を推定する位置姿勢推定方法であって、
    前記撮像画像を取得する取得ステップと、
    前記三次元点群データから生成され、互いに異なる静的安定度を有する複数の派生点群データのうち少なくとも何れか1つの派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する推定ステップと、
    を含む、
    位置姿勢推定方法。
  15. 前記推定ステップでは、
    前記複数の派生点群データのうち前記静的安定度が相対的に高い派生点群データから前記静的安定度が相対的に低い派生点群データに向かって順に、前記派生点群データと前記撮像画像に基づく前記位置姿勢の推定を繰り返し、
    前記位置姿勢の推定確度が所定値を超えたことに応じて、前記撮像装置の撮像時における位置姿勢を、最後に推定した前記位置姿勢に決定する、
    請求項14に記載の位置姿勢推定方法。
  16. 前記推定ステップでは、
    前記複数の派生点群データのうちすべての派生点群データと前記撮像画像に基づいて複数の位置姿勢を推定し、
    前記撮像装置の撮像時における位置姿勢を、前記複数の位置姿勢のうち推定確度が最も高い位置姿勢に決定する、
    請求項14に記載の位置姿勢推定方法。
  17. 前記推定ステップでは、
    前記撮像画像の撮像時刻と、前記三次元点群データの測距時刻と、の差分を算出し、算出した差分に基づいて、前記複数の派生点群データの何れか1つを選択し、選択した派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
    請求項14に記載の位置姿勢推定方法。
  18. 前記推定ステップでは、
    前記複数の派生点群データのうち、事前に選択された派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
    請求項14に記載の位置姿勢推定方法。
  19. 前記推定ステップでは、
    前記複数の派生点群データのうち、ユーザー入力により指定された派生点群データと前記撮像画像に基づいて前記位置姿勢を推定する、
    請求項14に記載の位置姿勢推定方法。
PCT/JP2023/007421 2023-02-28 2023-02-28 位置姿勢推定システム、位置姿勢推定装置、及び、位置姿勢推定方法 WO2024180688A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2023/007421 WO2024180688A1 (ja) 2023-02-28 2023-02-28 位置姿勢推定システム、位置姿勢推定装置、及び、位置姿勢推定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2023/007421 WO2024180688A1 (ja) 2023-02-28 2023-02-28 位置姿勢推定システム、位置姿勢推定装置、及び、位置姿勢推定方法

Publications (1)

Publication Number Publication Date
WO2024180688A1 true WO2024180688A1 (ja) 2024-09-06

Family

ID=92589547

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/007421 WO2024180688A1 (ja) 2023-02-28 2023-02-28 位置姿勢推定システム、位置姿勢推定装置、及び、位置姿勢推定方法

Country Status (1)

Country Link
WO (1) WO2024180688A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008099915A1 (ja) * 2007-02-16 2008-08-21 Mitsubishi Electric Corporation 道路地物計測装置、地物識別装置、道路地物計測方法、道路地物計測プログラム、計測装置、計測方法、計測プログラム、計測位置データ、計測端末装置、計測サーバ装置、作図装置、作図方法、作図プログラムおよび作図データ
WO2019198562A1 (ja) * 2018-04-11 2019-10-17 富士フイルム株式会社 構造物管理装置、構造物管理方法、及び構造物管理プログラム
JP2020042447A (ja) * 2018-09-07 2020-03-19 Kddi株式会社 不動物体情報から端末位置を推定する装置、プログラム及び方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008099915A1 (ja) * 2007-02-16 2008-08-21 Mitsubishi Electric Corporation 道路地物計測装置、地物識別装置、道路地物計測方法、道路地物計測プログラム、計測装置、計測方法、計測プログラム、計測位置データ、計測端末装置、計測サーバ装置、作図装置、作図方法、作図プログラムおよび作図データ
WO2019198562A1 (ja) * 2018-04-11 2019-10-17 富士フイルム株式会社 構造物管理装置、構造物管理方法、及び構造物管理プログラム
JP2020042447A (ja) * 2018-09-07 2020-03-19 Kddi株式会社 不動物体情報から端末位置を推定する装置、プログラム及び方法

Similar Documents

Publication Publication Date Title
Dai et al. Comparison of image-based and time-of-flight-based technologies for three-dimensional reconstruction of infrastructure
JP2016090333A (ja) 画像処理装置、検査装置、画像処理方法及び画像処理プログラム
JP6807459B2 (ja) 損傷図作成方法、損傷図作成装置、損傷図作成システム、及び記録媒体
JP2010510559A (ja) 地上モバイルマッピングデータからオブジェクトを検出する方法及び装置
Marcin et al. Hierarchical, three‐dimensional measurement system for crime scene scanning
JP2010506328A (ja) レーザスキャンサンプル及びビルのファサードのデジタル写真画像を処理するためのシステム及び方法
JP6876445B2 (ja) データ圧縮装置、制御方法、プログラム及び記憶媒体
CN110120091B (zh) 电力巡检图像样本制作方法、装置和计算机设备
CN111882653A (zh) 一种基于多传感器多层次的室内场景数字孪生方法
US11164370B2 (en) Information processing apparatus and accumulated images selecting method
CN113888458A (zh) 用于对象检测的方法和系统
CN109934873B (zh) 标注图像获取方法、装置及设备
CN114140592A (zh) 高精地图生成方法、装置、设备、介质及自动驾驶车辆
Barrile et al. 3D modeling with photogrammetry by UAVs and model quality verification
JP2007271408A (ja) 三次元環境情報取得装置,三次元環境情報取得方法及びその方法を実現したプログラムを格納した記録媒体
WO2024180688A1 (ja) 位置姿勢推定システム、位置姿勢推定装置、及び、位置姿勢推定方法
Ahmad et al. Comparative analysis of various camera input for videogrammetry
CN116363302B (zh) 一种基于多视角几何的管道三维重建和坑洞量化方法
WO2023047859A1 (ja) 情報処理装置、方法及びプログラム、並びに、画像データ構造
KR20160120955A (ko) 수변구조물 피해탐지를 위한 대용량 다차원 영상정보 가시화 모듈 개발
JP6509546B2 (ja) 画像検索システム及び画像検索方法
WO2020189703A1 (ja) 構造物検出装置、構造物検出方法および構造物検出処理プログラム
JP2007170821A (ja) 三次元変位計測方法
CN113593026A (zh) 车道线标注辅助地图生成方法、装置和计算机设备
CN114359891A (zh) 一种三维车辆检测方法、系统、装置及介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23925245

Country of ref document: EP

Kind code of ref document: A1