Nothing Special   »   [go: up one dir, main page]

WO2021095085A1 - 画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラム - Google Patents

画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラム Download PDF

Info

Publication number
WO2021095085A1
WO2021095085A1 PCT/JP2019/044076 JP2019044076W WO2021095085A1 WO 2021095085 A1 WO2021095085 A1 WO 2021095085A1 JP 2019044076 W JP2019044076 W JP 2019044076W WO 2021095085 A1 WO2021095085 A1 WO 2021095085A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature amount
visual
image data
unit
physical
Prior art date
Application number
PCT/JP2019/044076
Other languages
English (en)
French (fr)
Inventor
守屋 芳美
直大 澁谷
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2019/044076 priority Critical patent/WO2021095085A1/ja
Priority to JP2020539113A priority patent/JP6829412B1/ja
Publication of WO2021095085A1 publication Critical patent/WO2021095085A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to an image processing apparatus, an image processing system, an image processing method, and an image processing program.
  • Non-Patent Document 1 describes a technique of extracting features from a person image using a neural network and estimating whether or not a pair of person images is the same person using a feature amount vector generated by the neural network. Are listed.
  • the present invention has been made to solve the above problems, and when determining whether or not the objects shown in a plurality of images are the same, the objects having different actual sizes are the same.
  • the purpose is to reduce the possibility of erroneously determining that the object is an object.
  • the image processing apparatus has a first visual feature amount, which is a visual feature amount of the first object appearing in the first image data, and a visual feature amount of the second object appearing in the second image data.
  • a visual feature acquisition unit that acquires a second visual feature that is a feature, a first physical feature that is a physical feature of the first object, and a physical feature of the second object.
  • the physical feature acquisition unit that acquires the second physical feature, which is a feature, and the trained machine learning model, the first visual feature and the first physical feature
  • a determination unit for determining whether or not the first object and the second object are the same object from the second visual feature amount and the second physical feature amount is provided.
  • the first visual feature amount, the first physical feature amount, the second visual feature amount, and the second visual feature amount are used by using the trained machine learning model. Since it is equipped with a judgment unit that determines whether the first object and the second object are the same object from the physical features of the object, not only the visual features but also the physical features of the object can be determined. By using it, it is possible to reduce the possibility that objects having different actual sizes are erroneously determined to be the same object when determining whether or not the objects appearing in a plurality of image data are the same. it can.
  • FIG. It is a block diagram which shows the structure of the image processing apparatus 100 and the image processing system 1000 in Embodiment 1.
  • FIG. It is explanatory drawing which shows the specific example of the processing of the object detection part 31 in Embodiment 1.
  • FIG. It is explanatory drawing which shows the specific example of the processing of the object detection unit 31 and the processing of the object tracking unit 34 in the first embodiment.
  • It is explanatory drawing which shows the specific example of the process which the visual feature amount extraction unit 32 of Embodiment 1 extracts a visual feature amount.
  • FIG. 1 It is a block diagram which shows the example of the hardware composition of the computer which realizes the image processing apparatus 100 in Embodiment 1.
  • FIG. It is a flowchart which shows the image storage process of the image processing apparatus 100 in Embodiment 1.
  • FIG. It is a flowchart which shows the operation of the image collation processing of the image processing apparatus 100 in Embodiment 1.
  • FIG. 1 is a configuration diagram showing a configuration of an image processing device 100 and an image processing system 1000 according to the first embodiment.
  • the image processing system 1000 is distributed from n network cameras NC1, NC2, ..., NCn and each of these network cameras NC1, NC2, ..., NCn. It is composed of an image processing device 100 that receives a still image data or a moving image stream via a communication network NW.
  • the image processing device 100 performs image analysis on still image data or moving image data (hereinafter, generally referred to as image data) received from network cameras NC1, NC2, ..., NCn.
  • the image processing apparatus 100 stores a spatial, geographical, or temporal descriptor indicating the result of image analysis in association with the image.
  • the spatial descriptor indicates the position, size, etc. of an object in the image
  • the geographical descriptor indicates the position, etc. of the network cameras NC1, NC2, ..., NCn that captured the image.
  • the temporal descriptor indicates the time when the image was captured.
  • Examples of the communication network NW include a wired LAN (Local Area Network), a premises communication network such as a wireless LAN, a dedicated line network connecting bases, and a wide area communication network such as the Internet.
  • a wired LAN Local Area Network
  • a premises communication network such as a wireless LAN
  • a dedicated line network connecting bases such as a Wi-Fi Protected Access (WPA)
  • a wide area communication network such as the Internet.
  • the network cameras NC1, NC2, ..., NCn all have the same configuration.
  • Each network camera NC is composed of an imaging unit (not shown) that images a subject and a transmitting unit (not shown) that transmits the output of the imaging unit to the image processing device 100 on the communication network NW.
  • the image pickup unit compresses and encodes the image pickup optical system that forms the optical image of the subject, the solid-state image sensor that converts the formed optical image into an electric signal, and the converted electric signal as still image data or moving image data. It has an encoder circuit.
  • the solid-state image sensor for example, a CCD (Charge-Coupled Device) or CMOS (Complementary Metal-axis Semiconductor) element may be used.
  • NCn compresses and encodes the output of the solid-state imaging element as moving image data
  • MPEG-2 TS Motion Picture Experts Group 2 Transport Stream
  • RTP / RTSP Real-time Transport Protocol / Real Time Streaming Protocol
  • MMT MPEG Media Transport
  • DASH Dynamic Adaptive Streaming Over HTTP
  • the streaming method used in the first embodiment is not limited to MPEG-2 TS, RTP / RTSP, MMT or DASH.
  • the identifier information that can uniquely separate the moving image data included in the moving image stream by the image processing device 100 is multiplexed in the moving image stream.
  • the network camera NC1 images the first object and outputs the first image data in which the first object appears. Further, the network camera NC2 captures the second object and outputs the second image data in which the second object appears.
  • the network camera NC1 is the first network camera
  • the network camera NC2 is the second network camera.
  • the first object and the second object include both the case where they are the same object and the case where they are different objects.
  • the image processing device 100 includes a receiving unit 1, a decoding unit 2, an image recognition unit 3, a descriptor generation unit 4, a data recording control unit 5, a storage unit 6, an interface unit 7, and an image collation unit 8.
  • the receiving unit 1 receives the distribution data from the network cameras NC1, NC2, ..., NCn, and separates the image data from the received distribution data.
  • the distribution data includes audio data, metadata, and the like in addition to image data, and the image data includes still image data or moving image stream.
  • the receiving unit 1 outputs the separated image data to the decoding unit 2.
  • the decoding unit 2 decodes the compressed and encoded image data input from the receiving unit 1 according to the compression coding method used by the network cameras NC1, NC2, ..., NCn.
  • the decoding unit 2 outputs the decoded image data to the image recognition unit 3. Further, when the input image data is not compressed and encoded, the decoding unit 2 can be omitted.
  • the image recognition unit 3 performs image recognition processing on the image data input from the decoding unit 2.
  • the image recognition unit 3 includes an object detection unit 31, a visual feature amount extraction unit 32, a physical feature amount estimation unit 33, and an object tracking unit 34.
  • the object detection unit 31 analyzes the image data input from the decoding unit 2 and detects an object appearing in the image data. For the detection of objects, for example, a linear classifier or R-CNN (regions with CNN features) can be used. Further, the object detection unit 31 outputs data indicating an area in which the object is detected in the image indicated by the image data as detection area data.
  • the area for detecting the object is set to a predetermined size so as to surround the object in a part of the image as shown in FIG.
  • FIG. 2 is an explanatory diagram showing a specific example of the processing of the object detection unit 31. Further, the detection area data is a part of the original image data and is a kind of image data.
  • the object detection unit 31 detects the first object from the first image data in which the first object appears, and detects the first object in the image indicated by the first image data. Is output as the first detection area data, the second object is detected from the second image data in which the second object appears, and the second object is detected in the image indicated by the second image data. Is output as the second detection area data.
  • the object detection unit 31 may first perform either the processing on the first image data or the processing on the second image data, or may perform the processing on the second image data at the same time.
  • the object detection unit 31 acquires the number of detected objects, the position information of each object, the type of each object, the imaging time of each object, and the like as the object detection result.
  • the object detection unit 31 detects an object in a rectangular area as shown in FIG. That is, the area for detecting the above object is set as a rectangle in the first embodiment.
  • the object detection unit 31 detects the object P1 and the object P2 in the rectangular region RP1 and the rectangular region RP2, respectively, in the image G1 indicated by the image data.
  • FIG. 3 is an explanatory diagram showing a specific example of the processing of the object detection unit 31 and the processing of the object tracking unit 34 in the first embodiment.
  • FIG. 3 shows a case where the image processing device 100 receives distribution data from two network cameras NC1 and NC2 that image the area X1 and the area X2, respectively. Further, FIG. 3 shows the results of tracking the movements of the person indicated by the object A, the person indicated by the object B, and the person indicated by the object C between the distribution data by the object tracking unit 34, which will be described later. ing.
  • the object detection unit 31 detects the object Aa from the image data of the decoded network camera NC1.
  • the object A at the time a is referred to as the object Aa.
  • the object detection unit 31 detects the object Ab from the next image data of the network camera NC1. Subsequently, the object detection unit 31 detects the object Ac from the next image data of the network camera NC1. The object detection unit 31 continuously performs the above-mentioned detection process to detect the object Ae from the object Aa. Similarly, the object detection unit 31 detects the object Be from the object Ba and the object Ce from the object Ca from each image data of the decoded network camera NC2. The object detection unit 31 acquires the position information, imaging time, and the like of all the detected objects (Aa to Ae, Ba to Be, Ca to Ce).
  • the visual feature amount extraction unit 32 extracts the visual feature amount of the object from the image data.
  • the visual feature amount of an object is a feature amount extracted from the pixel values of an image such as an object color, an object texture, and an object shape, that is, a feature that can be visually recognized by a person. It is a feature quantity.
  • the physical feature amount indicates the physical feature amount of the object, and is a feature amount that cannot be extracted only by visually recognizing the object on the image.
  • the physical feature amount estimation unit 33 described later performs the physical feature amount needs to be estimated by using information such as a position on an image.
  • a trained machine learning model such as CNN (Convolutional Neural Network) can be used.
  • the visual feature amount extraction unit 32 extracts the visual feature amount of the object in the rectangular area where the object detection unit 31 has detected the object.
  • the visual feature amount extraction unit 32 extracts the first visual feature amount, which is the visual feature amount of the first object, from the first image data, and the first visual feature amount is extracted from the second image data. Extract the second visual feature, which is the visual feature of the second object. More specifically, when the first detection area data is input, the visual feature amount extraction unit 32 resizes the first detection area data and generates the first resizing data. Then, by inputting the first resizing data into the CNN, the visual features of the first object are extracted.
  • the visual feature amount extraction unit 32 resizes the second detection area data and generates the second resizing data. Then, by inputting the second resizing data into the CNN, the visual features of the second object are extracted.
  • the visual feature amount extraction unit 32 may perform either the extraction of the first visual feature amount or the extraction of the second visual feature amount first, or may be performed at the same time.
  • FIG. 4 is an explanatory diagram showing a specific example of the process in which the visual feature amount extraction unit 32 in the first embodiment extracts the visual feature amount of the object.
  • the visual feature amount extraction unit 32 inputs the resized data RRP3 obtained by resizing the rectangular area RP3 to a predetermined size into the CNN, and resizes the rectangular area RP4 to the same predetermined size as the resized data RRP3 and inputs the resized data RRP4 to the CNN. Enter in.
  • the visual feature amount extraction unit 32 has a visual feature amount VP3 which is a visual feature amount in the rectangular area RP3 of the object P3 and a visual feature amount VP4 which is a visual feature amount in the rectangular area RP4 of the object P4.
  • a visual feature amount VP3 which is a visual feature amount in the rectangular area RP3 of the object P3
  • a visual feature amount VP4 which is a visual feature amount in the rectangular area RP4 of the object P4.
  • resizing of the image data is necessary to make the number of dimensions of each visual feature amount extracted from the plurality of image data uniform. Further, the predetermined size of the above-mentioned resizing data is determined by the CNN designer at the CNN design stage.
  • the determination unit 84 included in the image processing apparatus 100 according to the first embodiment considers not only the visual feature amount but also the physical feature amount, as will be described later. It is trying to judge whether two objects are the same.
  • the physical feature amount estimation unit 33 estimates the physical feature amount of the object from the image data.
  • the physical feature amount estimation unit 33 estimates the physical feature amount of the object based on the position in the image where the object detection unit 31 has detected the object and the size of the rectangular area.
  • the physical feature amount is a feature amount indicating the physical feature of the object, for example, the height, width, thickness, and the like of the object.
  • the physical feature quantity includes not only the above-mentioned one-dimensional quantity, that is, the physical dimension, but also a higher-dimensional quantity such as area and volume.
  • a specific example of a method in which the physical feature amount estimation unit 33 estimates the physical feature amount of an object is shown below.
  • Objects vary in size in the image depending on the distance from the network camera NC to the object. Therefore, after installing the network camera NC, images are collected for a certain period of time, and the size in the image (the size of the rectangular area) and the position in the image are determined for each type of object detected by the object detection unit. It is collected as data and stored in the storage unit 6. Then, the type of the object, the size in the image, and the physical feature amount of the object with respect to the position in the image are set by the external device 200 or the like, and the type of the object, the size in the image, and the size in the image are set. Correspondence information indicating the correspondence relationship between the position of the object and the physical feature amount of the object is generated in advance. If data for a sufficient period can be collected and correspondence information can be generated, the physical features of the object can be estimated using this correspondence information.
  • the physical features of the object may be classified and estimated in multiple stages. For example, in the case of classifying into three stages, the maximum value, average value, and minimum value of the physical feature amount are set for each object type, and the first threshold value and the second threshold value are set for the size of the rectangular area.
  • the physical feature of the object is estimated to be the maximum value, and if the size of the rectangular area is greater than or equal to the second threshold value and less than the first threshold value, it is estimated.
  • the physical feature amount of the object may be estimated to be an average value, and when the size of the rectangular area is less than the second threshold value, the physical feature amount of the object may be estimated to be the minimum value.
  • the first detection area data is input from the object detection unit 31, and the first detection area data is the first physical feature amount of the first object.
  • the second detection area data is input from the object detection unit 31 together with estimating the physical feature amount of the second detection area, and the second physical feature amount which is the physical feature amount of the second object from the second detection area data.
  • the physical feature amount estimation unit 33 may perform either the estimation of the first physical feature amount or the estimation of the second physical feature amount first, or may perform the estimation at the same time.
  • the object tracking unit 34 tracks the object detected by the object detecting unit 31 in the time direction.
  • the object tracking unit 34 tracks the first object and the second object.
  • the object tracking unit 34 compares the detection result of the object detected by the object detection unit 31 within one image data and among a plurality of image data that are continuous in time. And track. For example, when the object to be tracked is a person, the same person photographed by one network camera NC is tracked. In the comparison within the above image data and between the image data, for example, the physical feature amount estimated by the physical feature amount estimation unit 33 and the visual feature amount extracted by the visual feature amount extraction unit 32 are used. Can be tracked.
  • the object tracking unit 34 outputs the motion information (optical flow) of the object, which is the tracking result of the object, to the descriptor generation unit 35.
  • FIG. 3 shows a specific example when the object to be tracked is a person.
  • the object tracking unit 34 tracks objects A (Aa to Ae) having the same characteristics in a plurality of image data obtained by the network camera NC1 that images the region X1. Similarly, the object tracking unit 34 captures objects B (Ba to Be) and objects C (Ca to Ce) having the same characteristics in a plurality of image data obtained by the network camera NC2 that images the area X2. Chase.
  • the object tracking unit 34 uses the motion information of the objects A, B, and C as, for example, the time during which the object A appears in the image data in which the area X1 is captured, and the time in which the objects B and C are captured in the image data in the region X2. Information indicating the time of appearance and the movement locus of objects A, B, and C is output to the descriptor generation unit 35.
  • the descriptor generation unit 4 generates a feature descriptor showing the features of the object related to the image data according to a predetermined format.
  • the descriptor generation unit 4 includes the object detection result acquired by the object detection unit 31, the physical feature amount of the object estimated by the physical feature amount estimation unit 33, and the visual feature amount extraction unit 32.
  • a feature descriptor including the visual feature amount of the extracted object and the motion information of the object output by the object tracking unit 34 is generated.
  • the feature descriptor also includes an identifier (ID) indicating that they are the same object tracked in the time direction.
  • ID an identifier
  • the descriptor generation unit 4 includes a first feature descriptor which is a feature descriptor indicating a feature in the first image data of the first object and a second image data of the second object.
  • a second feature descriptor which is a feature descriptor showing the features in the above, is generated.
  • the data recording control unit 5 constructs a database by storing the decoded image data input from the decoding unit 2 and the feature descriptor input from the descriptor generation unit 4 in the storage unit 6 in association with each other. To do.
  • a feature descriptor may be generated for each object, and a plurality of feature descriptors may be associated with one image data, or a plurality of objects.
  • the feature descriptors of the above may be combined into one feature descriptor, and one feature descriptor may be associated with one image data.
  • the image data input from the decoding unit 2 is stored in association with the feature descriptor, but the detection area data of the object generated by the object detection unit 31 is used as the feature descriptor. It may be associated and stored.
  • the data recording control unit 5 stores the first image data and the first feature descriptor in the storage unit 6 in association with each other, and stores the second image data and the second feature descriptor in the storage unit 6. Is stored in the storage unit 6 in association with.
  • the data recording control unit 5 may store the first image data and the first feature descriptor and the second image data and the second feature descriptor first, or at the same time. You may.
  • the data recording control unit 5 stores the image data and the feature descriptor in the storage unit 6 in a format that allows high-speed access in both directions. Further, the data recording control unit 5 may create an index table showing the correspondence between the image data and the feature descriptor to construct a database. For example, when the data position of a specific image frame constituting the image data is given, the data recording control unit 5 can quickly specify the storage position on the storage unit 6 of the feature descriptor corresponding to the data position. As such, index information is added. Further, the data recording control unit 5 may add index information so that the data position corresponding to the storage position on the storage unit 6 can be specified at high speed.
  • the storage unit 6 stores various types of information, and is configured by a storage device 10001 such as a hard disk as described later.
  • the storage unit 6 stores the image data and the feature descriptor in association with each other.
  • the storage unit 6 stores the learned machine learning model used by the determination unit 84, which will be described later.
  • the storage unit 6 stores the first image data and the first feature descriptor in association with each other, and stores the second image data and the second feature descriptor in association with each other. ..
  • This first feature descriptor is a first visual feature, which is a visual feature in the first image data of the first object, and a first physics, which is a physical feature of the first object.
  • the second feature descriptor includes the second visual feature, which is the visual feature in the second image data of the second object, and the physical feature of the second object. Includes a second physical feature that is. That is, the storage unit 6 in the first embodiment has a first feature descriptor including a first visual feature amount and a first physical feature amount, and a second visual feature amount and a second physical feature amount. A second feature descriptor including a feature quantity is stored. Further, in the first embodiment, the storage unit 6 has shown a configuration for storing the image data and the feature descriptor, but the present invention is not limited to the configuration.
  • one or more network storage devices (not shown) arranged on the communication network NW store image data and feature descriptors, and the data recording control unit 5 accesses the network storage device. It may be configured to do so.
  • the data recording control unit 5 can store the image data and the feature descriptor in the external network storage device, and build a database outside the image processing device 100.
  • the trained machine learning model used by the determination unit 84 may also be stored in an external network storage device instead of the storage unit 6.
  • the interface unit 7 connects the external device 200 and each part of the image processing device to enable communication and various controls by the external device 200.
  • the external device 200 accesses the database and the image acquisition unit 81 in the storage unit 6 via the interface unit 7.
  • the user of the image processing device 100 can use the external device 200 to set search conditions for the image acquisition unit 81, which will be described later, to search for an image, or to add image data or the like to the storage unit 6.
  • the image collation unit 8 collates objects appearing in a plurality of image data, and in the first embodiment, the image collation unit 8 collates the first object appearing in the first image data and the second image. It is checked and determined whether or not the second object appearing in the data is the same object. Further, in the first embodiment, the image collation unit 8 includes an image acquisition unit 81, a visual feature amount acquisition unit 82, a physical feature amount acquisition unit 83, and a determination unit 84.
  • the image collation unit 8 starts processing when a search condition is set from the external device 200 via the interface unit 7.
  • the search conditions are area information to be searched, time information to be searched, types and features of objects to be searched, and the like.
  • the search condition for example, a condition instructing to search for an object whose time tracked as the same object in a certain network camera NC exceeds a certain period of time, or a preset area in the network camera NC ( For example, there is a condition for instructing to detect an object having the position information corresponding to the entry prohibited area).
  • the image collation unit 8 may input image data as a search condition and search for an object having the same features as the object appearing in the image data, such as a visual feature amount.
  • the image acquisition unit 81 acquires a plurality of image data to be collated and a feature descriptor associated with the image data.
  • the image acquisition unit 81 has the first image data in which the first object appears, the second image data in which the second object appears, and the first feature associated with the first image data.
  • the descriptor and the second feature descriptor associated with the second image data are acquired.
  • the image acquisition unit 81 searches the storage unit 6 for an object that matches the search condition set by the external device 200, and acquires image data in which the object appears.
  • the image acquisition unit 81 acquires the image data by searching the storage unit 6, the image acquisition unit 81 may narrow down the search target based on the position information or the shooting time information included in the image data or the feature descriptor. For example, in FIG.
  • the time when the network camera NC1 images the object A (Aa to Ae) and the time when the network camera NC2 images the object B (Ba to Be) are If the time is the same, it can be determined that the object A and the object B are not the same, so that the object A and the object B can be excluded from the search target.
  • the object C is imaged by the network camera NC2 shortly after the time when the network camera NC1 images the objects A (Aa to Ae)
  • the object C is an object that has walked from the area X1 to the area X2. Since there is a possibility that it is A, that is, object A and object C may be the same object, they are not excluded from the search target. By performing the above processing, the search amount can be reduced.
  • the visual feature amount acquisition unit 82 acquires the visual feature amount of the object appearing in the input image data.
  • the visual feature amount acquisition unit 82 has a first visual feature amount which is a visual feature amount of the first object in the first image data and a second visual feature amount in the second image data. Get a second visual feature, which is the visual feature of the object.
  • the visual feature amount acquisition unit 82 acquires the visual feature amount from the feature descriptor associated with the image data. That is, the first visual feature amount included in the first feature descriptor associated with the first image data is acquired and included in the second feature descriptor associated with the second image data. Obtain the second visual feature quantity.
  • the visual feature amount included in the feature descriptor is the visual feature amount extracted by the visual feature amount extraction unit 32, so that the visual feature amount acquisition unit 82 in the first embodiment ,
  • the visual feature amount extraction unit 32 acquires the first visual feature amount extracted from the first detection area data, and the visual feature amount extraction unit 32 acquires the second visual feature amount extracted from the second detection area data. It also acquires the target feature amount.
  • the visual feature amount acquisition unit 82 acquires the visual feature amount from the feature descriptor, but the configuration is not limited to this as long as the visual feature amount of the object appearing in the image data can be acquired.
  • the visual feature amount acquisition unit 82 acquires the visual feature amount of the object by inputting the image data into the image recognition unit 3 and performing the processing of the object detection unit 31 and the visual feature amount extraction unit 32. You may do so.
  • the processing of the object detection unit 31 may be omitted and only the processing of the visual feature amount extraction unit 32 may be performed.
  • the feature descriptor stored by the storage unit 6 in association with the image data includes the visual feature amount, but the feature is characterized by reducing the amount of data stored in the storage unit 6. If the descriptor does not include the visual feature amount, or if image data to which the feature descriptor is not associated is input from the external device 200 as a search condition, the object can be obtained by using the above method. The visual feature amount can be acquired.
  • the physical feature amount acquisition unit 83 acquires the physical feature amount of the object appearing in the input image data.
  • the physical feature acquisition unit 83 includes a first physical feature that is the physical feature of the first object and a second physics that is the physical feature of the second object. Get the feature quantity.
  • the physical feature amount acquisition unit 83 acquires the physical feature amount from the feature descriptor associated with the image data, that is, the first image data associated with the first image data. The first physical feature amount included in the feature descriptor of is acquired, and the second physical feature amount included in the second feature descriptor associated with the second image data is acquired.
  • the physical feature amount included in the feature descriptor is the physical feature amount estimated by the physical feature amount estimation unit 33, so that the physical feature amount acquisition unit 83 in the first embodiment ,
  • the physical feature amount estimation unit 33 acquires the first physical feature amount estimated from the first detection area data, and the physical feature amount estimation unit 33 acquires the second physical feature amount estimated from the second detection area data. It also acquires the amount of physical features.
  • the physical feature amount acquisition unit 83 acquires the physical feature amount from the feature descriptor, but similarly to the visual feature amount acquisition unit 82, the physical feature amount of the object appearing in the image data is acquired. If it can be obtained, it is not limited to this configuration.
  • the physical feature amount acquisition unit 83 acquires the physical feature amount of the object by inputting the image data into the image recognition unit 3 and performing the processing of the object detection unit 31 and the physical feature amount estimation unit 33. You may do so. Further, when the information of the rectangular area in which the object is detected is included in the feature descriptor, the processing of the object detection unit 31 may be omitted and only the processing of the physical feature amount estimation unit 33 may be performed.
  • the feature descriptor stored by the storage unit 6 in association with the image data includes the physical feature amount, but the feature is characterized by reducing the amount of data stored in the storage unit 6.
  • the object can be obtained by using the above method. Physical features can be obtained. Further, when image data is input as a search condition and the physical feature amount of the object reflected in the image data is known, the user of the image processing device 100 can obtain the physical feature amount from the external device 200. You may get it directly by inputting it.
  • the determination unit 84 determines whether or not the objects appearing in the plurality of input image data are the same by using the trained machine learning model.
  • the trained machine learning model used by the determination unit 84 is different from the trained machine learning model used by the visual feature extraction unit 32.
  • the determination unit 84 uses the trained machine learning model to obtain the first visual feature amount, the first physical feature amount, the second visual feature amount, and the second visual feature amount. From the physical features of the above, it is determined whether or not the first object appearing in the first image data and the second object appearing in the second image data are the same object.
  • the determination unit 84 uses the first visual feature amount and the first physical feature amount as inputs for the first object, and the second visual feature amount and the second physical feature amount. Is the input for the second object.
  • the determination unit 84 includes a feature amount vector acquisition unit 841, a similarity calculation unit 842, and a similarity determination unit 843.
  • the feature vector acquisition unit 841 inputs the visual features of the object and the physical features of the object as inputs of the trained machine learning model, and outputs the features of the object as the output of the trained machine learning model.
  • the feature quantity vector is acquired.
  • the feature amount vector is a vector indicating the features of the object.
  • the feature quantity vector acquisition unit 841 inputs the first visual feature quantity and the first physical feature quantity as the input of the trained machine learning model, and the trained machine learning model.
  • the first feature vector which is the feature vector of the first object
  • the second visual feature and the second physical feature are obtained.
  • the quantity and the quantity are input, and the second feature quantity vector, which is the feature quantity vector of the second object, is acquired as the output of the trained machine learning model.
  • the feature amount vector acquisition unit 841 determines the visual feature amount of the object included in the feature descriptor, that is, the visual feature amount obtained by CNN from the image data and the object included in the feature descriptor.
  • the physical feature amount that is, the physical feature amount estimated from the rectangular area where the object is detected is used as an input.
  • the trained machine learning model is a fully connected neural network and is trained by distance learning.
  • the distance learning defines a distance for two output vectors, and learns so that if the distance between the two vectors is short, the object is the same, and if the distance is far, the object is different.
  • a similarity that does not satisfy the axiom of distance for example, a cosine similarity
  • a similarity that does not satisfy the axiom of distance for example, a cosine similarity
  • the measure of proximity of two vectors will be collectively referred to as the degree of similarity with other measures such as distance and cosine similarity.
  • the Euclidean distance is used as the similarity.
  • the first object and the second object are likely to be the same, and if the Euclidean distance is large, it can be determined that the first object and the second object are likely to be different.
  • the teacher data at the time of learning it is sufficient to prepare image data in which an object with a known physical feature amount appears. Further, as a matter of course, with respect to the teacher data at the time of learning, it is also known whether or not the object appearing in one image data is the same as the object appearing in another image data.
  • the visual feature amount is extracted from the image data using the visual feature amount extraction unit 32, and the extracted visual feature amount and the known physical feature amount are input to the machine learning model to be trained, and the same object is used. Train the vectors of to be closer and the vectors of different objects to be farther away.
  • Siamese Net, Triplet Loss, or the like may be used.
  • image data was prepared as teacher data, but since what is required for learning is visual features and physical features, if visual features and physical features for a certain object can be prepared. , The image data itself does not have to be present.
  • the trained machine learning model learns the weight parameter so that the similarity of the feature vector between the same objects becomes small, and the features between different objects.
  • the weight parameters are learned so that the similarity of the quantity vector becomes large. That is, the feature vector acquired by the feature vector acquisition unit 841 has a small similarity between the feature vectors acquired from the same object even if they are different images, and the feature vector acquired from different objects. Between each other, it is a vector in which the features of the objects are expressed so that the degree of similarity increases.
  • the target of the distance learning is the fully connected neural network, but the distance learning may be performed by combining the fully connected neural network and the CNN for extracting the visual features.
  • the trained machine learning model used by the determination unit 84 is a fully connected neural network, which is learned by distance learning, but has a configuration capable of determining whether or not the objects are the same. If there is, the configuration is not limited to this, and a configuration using logistic regression or the like may be used.
  • FIG. 5 is an explanatory diagram showing a specific example of the process in which the feature amount vector acquisition unit 841 acquires the feature amount vector.
  • the feature quantity vector acquisition unit 841 inputs the visual feature quantity I1 and the physical feature quantity I2 into the trained machine learning model M1, and the trained machine learning model M1 outputs the feature quantity vector V1.
  • FIG. 5 also shows a process in which the visual feature amount extraction unit 32 extracts the visual feature amount I1 by CNN from the rectangular region RR in which the object detection unit 31 detects the object.
  • the similarity calculation unit 842 calculates the similarity between the first feature vector and the second feature vector. As described above, in the first embodiment, the Euclidean distance is used as the similarity.
  • the similarity determination unit 843 determines whether or not the first object and the second object are the same based on the similarity calculated by the similarity calculation unit 842.
  • the similarity determination unit 843 uses the similarity calculated by the similarity calculation unit 842.
  • the degree is equal to or less than a predetermined threshold value, it is determined that the first object and the second object are the same.
  • the similarity determination unit 843 uses the similarity calculation unit 842.
  • the threshold value may be set from the external device 200, or the threshold value may be included in the learning by machine learning.
  • FIG. 6 is a configuration diagram showing an example of a hardware configuration of a computer that realizes the image processing device 100.
  • the hardware shown in FIG. 6 includes a processing device 10000 such as a CPU (Central Processing Unit) and a storage device 10001 such as a ROM (Read Only Memory) and a hard disk.
  • a processing device 10000 such as a CPU (Central Processing Unit)
  • a storage device 10001 such as a ROM (Read Only Memory) and a hard disk.
  • the receiving unit 1 the decoding unit 2, the image recognition unit 3, the descriptor generation unit 4, the data recording control unit 5, the interface unit 7, and the image collation unit 8 shown in FIG. 1, the programs stored in the storage device 10001 are stored in the storage device 10001.
  • the storage unit 6 is realized by the storage device 10001.
  • the method of realizing each function of the image processing device 100 is not limited to the combination of the hardware and the program described above, and is realized by the hardware alone such as an LSI (Large Scale Integrated Circuit) in which the program is implemented in the processing device.
  • some functions may be realized by dedicated hardware, and some may be realized by a combination of a processing device and a program.
  • the image processing device 100 and the image processing system 1000 according to the first embodiment are configured as described above. Next, the operations of the image processing device 100 and the image processing system 1000 will be described separately for the image storage process and the image collation process.
  • the operation of the image processing device 100 is an image processing method
  • a program that causes a computer to execute the image processing method is an image processing program.
  • FIG. 7 is a flowchart showing the image storage process of the image processing device 100 according to the first embodiment.
  • step S1 the receiving unit 1 receives the distribution data from the network cameras NC1, NC2, ..., NCn, separates the image data, and outputs the image data to the decoding unit 2.
  • step S2 the decoding unit 2 decodes the image data separated in step S1 and outputs it to the image recognition unit 3.
  • step S3 the object detection unit 31 included in the image recognition unit 3 attempts to detect an object appearing in the decoded image data.
  • the object to be detected is a moving object to be tracked, such as a car, a bicycle, and a pedestrian.
  • step S4 the object detection unit 31 determines whether or not the object has been detected. If the object is not detected (step S4; NO), the flowchart returns to the process of step S1, while if the object is detected (step S4; YES), the flowchart proceeds to the process of step S5.
  • step S3 and step S4 are collectively referred to as an object detection step.
  • the visual feature amount extraction unit 32 extracts the visual feature amount of the object by inputting the image data of the rectangular region in which the object detection unit 31 has detected the object.
  • CNN can be used to extract the visual features.
  • the visual feature amount extraction unit 32 outputs the visual feature amount of the extracted object to the object tracking unit 34.
  • step S6 the physical feature amount estimation unit 33 estimates the physical feature amount of the object based on the rectangular area in which the object detection unit 31 detects the object, and the estimation result is tracked by the object. Output to unit 34.
  • the operations of step S5 and step S6 may be performed at the same time, or either operation may be performed first.
  • step S7 the object tracking unit 34 refers to the image data of the object and assigns a different ID to each object detected in one image frame. Further, in step S8, the object tracking unit 34 extracts motion information for each of the detected objects.
  • step S9 the object tracking unit 34 refers to the visual feature amount of the object acquired in step S5, the physical feature amount of the object acquired in step S6, and the motion information of the object extracted in step S8, and detects the object. It is determined whether or not the object detected by the unit 31 and the object detected from the past image frames that are continuous with the object in time are the same. If it is determined that the objects are not the same (step S9; NO), the process proceeds to step S11. On the other hand, if it is determined that the objects are the same (step S9; YES), the process proceeds to step S10, and the object tracking unit 34 assigns the ID given in step S7 to the same past object. Rewrite with.
  • step S11 the object tracking unit 34 determines whether or not all the objects input from the object detecting unit 31 have been processed. If no processing has been performed on all the objects (step S11; NO), the flowchart returns to the processing in step S8. On the other hand, when processing is performed on all the objects (step S11; YES), the object tracking unit 34 outputs the object ID and the object movement information to the descriptor generation unit 4.
  • step S12 the descriptor generation unit 4 is based on the input visual feature amount of the object, the physical feature amount of the object, the position information and the imaging time of the network camera NC, the ID of the object, and the motion information of the object. Generate a feature descriptor.
  • the descriptor generation unit 4 outputs the generated feature descriptor to the data recording control unit 5.
  • step S13 the data recording control unit 5 controls the feature descriptor generated in step S12 and the image data decoded in step S2 to be stored in the storage unit 6, and the storage unit 6 is input. The image data and the feature descriptor are stored. With the above, the image processing apparatus 100 ends the image storage process.
  • FIG. 8 is a flowchart showing the operation of the image matching process of the image processing device 100 according to the first embodiment.
  • step S21 the search condition is set by the user of the image processing device 100 via the external device 200.
  • the image acquisition unit 81 decides to perform the search under the search condition.
  • step S22 the image acquisition unit 81 searches the storage unit 6 based on the search conditions set from the external device 200 via the interface unit 7. That is, the image acquisition unit 81 searches for an object that matches the set search condition based on the feature descriptor or the like of the object, and narrows down the objects.
  • step S23 the image acquisition unit 81 determines whether or not one or more pairs of objects appearing in different image data have been found. If the pair of objects cannot be found (step S23; NO), the image processing apparatus 100 ends the process. On the other hand, when one or more pairs of objects are found (step ST23; YES), the process proceeds to step S24.
  • step S24 the image acquisition unit 81 reads and acquires the image data and the feature descriptor associated with each of the pair of one or more objects searched from the storage unit 6.
  • the image acquisition unit 81 outputs the read image data and the feature descriptor to the visual feature amount acquisition unit 82 and the physical feature amount acquisition unit 83.
  • the image acquisition unit 81 acquires the first image data and the first feature descriptor and the second image data and the second feature descriptor that match the search conditions, and visually displays them. It is output to the target feature amount acquisition unit 82 and the physical feature amount acquisition unit 83.
  • the steps from step S21 to step S24 are collectively referred to as an image acquisition step.
  • the visual feature amount acquisition unit 82 acquires the visual feature amount of the object in the acquired image data from the feature descriptor.
  • the visual feature amount acquisition unit 82 has a first visual feature amount which is a visual feature amount of the first object in the first image data and a second visual feature amount in the second image data. Get a second visual feature, which is the visual feature of the object.
  • Step S26 the physical feature acquisition unit 83 acquires the physical feature of the object from the feature descriptor.
  • the physical feature acquisition unit 83 includes a first physical feature that is the physical feature of the first object and a second physics that is the physical feature of the second object. Get the feature quantity.
  • the operations of step S25 and step S26 may be performed at the same time, or either operation may be performed first.
  • the feature amount vector acquisition unit 841 inputs the visual feature amount and the physical feature amount of the object acquired in steps S25 and S26 into the trained machine learning model, and the learning The feature vector is acquired by outputting the feature vector of the object to the completed machine learning model.
  • the feature quantity vector acquisition unit 841 inputs the first visual feature quantity and the first physical feature quantity as the input of the trained machine learning model, and the trained machine learning model. As the output of, the first feature vector, which is the feature vector of the first object, is acquired, and as the input of the trained machine learning model, the second visual feature and the second physical feature are obtained.
  • the quantity and the quantity are input, and the second feature quantity vector, which is the feature quantity vector of the second object, is acquired as the output of the trained machine learning model.
  • the first feature quantity vector and the second feature quantity vector may be acquired first, or they may be acquired at the same time.
  • the similarity calculation unit 842 calculates the similarity between the feature amount vectors extracted in step S25. Specifically, the similarity calculation unit 842 calculates the similarity between the first feature amount vector and the second feature amount vector. In the first embodiment, the similarity calculation unit 842 calculates the Euclidean distance as the similarity.
  • the similarity determination unit 843 determines whether or not the pair of objects is the same based on the similarity calculated in the similarity calculation step. Specifically, the similarity determination unit 843 appears in the first object appearing in the first image data and in the second image data when the similarity calculated by the similarity calculation unit is equal to or less than a predetermined threshold value. It is determined that the second object is the same object.
  • step S30 the similarity determination unit 843 stores the determination result of step S27 in a buffer or the like, outputs it to the external device 200 via the interface unit 7, and the image processing apparatus ends the process.
  • the display device may display the determination result.
  • step S30 when the two objects are the same, a process of unifying the IDs of the two objects and storing the feature descriptor after the unification of the IDs in the storage unit 6 may be added.
  • the image processing apparatus 100 resizes the image data in order to match the number of dimensions of the visual feature amount, and then extracts the visual feature amount.
  • the visual feature amount is extracted after resizing the image data, but more generally, not only the visual feature amount but also the physical feature amount is extracted even when the image data is not resized.
  • the image processing device 100 inputs the first visual feature amount and the first physical feature amount as the input of the trained machine learning model, and the trained machine learning model
  • the first feature vector which is the feature vector of the first object
  • the second visual feature and the second physical feature are input.
  • the feature quantity vector acquisition unit 841 for acquiring the second feature quantity vector which is the feature quantity vector of the second object. It is possible to obtain a feature vector that considers the quantity and the physical feature of the object in a complex manner.
  • the feature amount vector acquisition unit 841 acquires the feature amount vector by using the trained machine learning model, the vector having each of the visual feature amount and the physical feature amount as components, that is, When the visual features are n-dimensional and the physical features are m-dimensional, rather than simply using a (n + m) -dimensional vector that combines them for object comparison, the designer of the image processing device 100 Objects can be collated with high accuracy while reducing the burden. For example, if a visual feature and a physical feature are simply combined to generate a vector having them as components, the visual feature and the physical feature are quantities having different dimensions. It is unclear how to measure the distance between the two vectors after the combination so that the objects can be compared properly.
  • the designer of the image processing apparatus 100 or the like must set a rule that allows the distance to be measured appropriately by repeating experiments and the like. If the feature amount vector is calculated using the trained machine learning model, the vector is converted according to the definition of the distance set by the designer and the feature amount vector is output. Therefore, the image processing device The work load of 100 designers can be reduced.
  • the image processing apparatus 100 detects the image acquisition unit 81 that acquires the first image data and the second image data, and the first object from the first image data, and first.
  • the object detection unit 31 that outputs the area in the image indicated by the first image data that detected the object as the first detection area data, and the first detection area data are input from the object detection unit 31, and the first detection area data is input. Since the visual feature amount extraction unit 32 that extracts the first visual feature amount from the detection area data is further provided, even if the first visual feature amount is not explicitly included in the first image data, it is visually displayed.
  • the feature amount extraction unit 32 can collate the objects by extracting the visual feature amount from the first image data.
  • the first detection area data is input from the object detection unit 31, and the first physical feature amount is estimated from the first detection area data. Since the unit 33 is further provided, the physical feature amount estimation unit 33 estimates the physical feature amount from the first image data even if the first image data does not explicitly include the first physical feature amount. By doing so, the objects can be collated.
  • the image processing apparatus 100 is a feature descriptor indicating features in the first image data and the first image data of the first object, and includes a first visual feature amount.
  • a storage unit 6 that stores one feature descriptor in association with each other is further provided, and the visual feature amount acquisition unit 82 is a first visual feature included in the first feature descriptor stored in the storage unit 6. Since the amount is acquired, it is not necessary to perform the process of extracting the first visual feature amount from the first image data in the image collation process, and the calculation amount can be reduced.
  • the storage unit 6 included in the image processing apparatus 100 stores a first feature descriptor including the first visual feature amount and the first physical feature amount, and stores the first physical feature amount. Since the acquisition unit 83 acquires the first physical feature amount included in the first feature descriptor stored in the storage unit 6, in the image matching process, the first image data is used as the first physical feature amount. It is not necessary to perform the process of estimating the physical features, and the amount of calculation can be reduced.
  • first image data and the second image data are captured by different network cameras (network camera NC1 and network camera NC2)
  • first image data and the second image data have been described.
  • the image matching process may be performed on the comparison of frames that are continuous in time as in the tracking process, or the image matching process may be performed on the frames that are separated in time.
  • the image acquisition unit 81 searches for the pair of objects from the storage unit 6, but the image data is input from the external device 200 as a search condition, and the same object as the object appearing in the image data is input. If you want to search, include the objects that appear in the image data entered as one of the object pairs. Further, when the image data is input as the search condition, the image data captured in real time by the network camera NC may be directly input from the decoding unit 2 instead of being input from the external device 200. Further, when it is simply desired to determine whether or not the objects appearing in the two image data are the same, or when a plurality of image data are collected in advance, the storage unit 6 is not searched and the object is input from the external device 200. You may try to collate the objects appearing in the image data.
  • the image acquisition unit 81 does not have to acquire the first image data and the second image data by the same method.
  • the first image data may be acquired from the external device 200, and the second image data may be acquired from the storage unit 6. Further, as with the acquisition of image data, regarding the acquisition of the visual feature amount and the physical feature amount, the first visual feature amount, the second visual feature amount, and the first physical feature amount are also obtained.
  • the quantity and the second physical feature need not be obtained in the same way.
  • the first visual feature amount may be acquired from the visual feature amount extraction unit 32, and the second visual feature amount may be acquired from the storage unit 6.
  • the first physical feature amount may be acquired from the physical feature amount estimation unit 33, and the second physical feature amount may be acquired from the storage unit 6.
  • the image processing device is suitable for use in, for example, a surveillance system or an image search system.
  • 100 image processing device 1000 image processing system, 1 receiver, 2 decoding, 3 image recognition, 31 object detection, 32 visual feature extraction, 33 physical feature estimation, 34 object tracking, 4 Descriptor generation unit, 5 data recording control unit, 6 storage unit, 7 interface unit, 8 image collation unit, 81 image acquisition unit, 82 visual feature amount acquisition unit, 83 physical feature amount acquisition unit, 84 judgment unit, 841 Feature vector acquisition unit, 842 similarity calculation unit, 843 similarity determination unit, 200 external device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

複数の画像データに現れるオブジェクトが同一であるか否かを判定する際に、実際の大きさが異なるオブジェクトを同一のオブジェクトであると誤判定してしまう可能性を低減する画像処理装置を得る。 画像処理装置において、第一の画像データに現れる第一のオブジェクトの視覚的特徴量である第一の視覚的特徴量と、第二の画像データに現れる第二のオブジェクトの視覚的特徴量である第二の視覚的特徴量とを取得する視覚的特徴量取得部と、第一のオブジェクトの物理的特徴量である第一の物理的特徴量と、第二のオブジェクトの物理的特徴量である第二の物理的特徴量とを取得する物理的特徴量取得部と、学習済みの機械学習モデルを用いて、第一の視覚的特徴量と、第一の物理的特徴量と、第二の視覚的特徴量と、第二の物理的特徴量とから、第一のオブジェクトと第二のオブジェクトが同一のオブジェクトであるか否かを判定する判定部と、を備えた。

Description

画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラム
 本発明は、画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラムに関する。
 複数のカメラにまたがって撮影されたオブジェクトが、同一のオブジェクトであるか否かを推定する技術が提案されつつある。
 例えば、非特許文献1では、人物画像からニューラルネットワークを用いて特徴抽出を行い、ニューラルネットワークが生成した特徴量ベクトルを使って、人物画像のペアが同一人物であるか否かを推定する技術について記載されている。
E. Ahmed, M. Jones, T.K. Marks, "An improved deep learning architecture for person re-identification," In Computer Vision and Pattern Recognition (CVPR), 2015.
 従来の技術では、画像からオブジェクトの視覚的な特徴を抽出し、オブジェクトの大きさは考慮していない特徴量ベクトルが、オブジェクトの比較に使われていた。そのため、大きさが異なる人物でも、服の色などが同じで見かけが似ている場合には同一人物と判定されてしまう可能性があるという問題があった。
 本発明は、上記のような課題を解決するためになされたものであり、複数の画像に写ったオブジェクトが同一であるか否かを判定する際に、実際の大きさが異なるオブジェクトを同一のオブジェクトであると誤判定してしまう可能性を低減することを目的とする。
 本発明に係る画像処理装置は、第一の画像データに現れる第一のオブジェクトの視覚的特徴量である第一の視覚的特徴量と、第二の画像データに現れる第二のオブジェクトの視覚的特徴量である第二の視覚的特徴量とを取得する視覚的特徴量取得部と、第一のオブジェクトの物理的特徴量である第一の物理的特徴量と、第二のオブジェクトの物理的特徴量である第二の物理的特徴量とを取得する物理的特徴量取得部と、学習済みの機械学習モデルを用いて、第一の視覚的特徴量と、第一の物理的特徴量と、第二の視覚的特徴量と、第二の物理的特徴量とから、第一のオブジェクトと第二のオブジェクトが同一のオブジェクトであるか否かを判定する判定部と、を備えた。
 本発明に係る画像処理装置によれば、学習済みの機械学習モデルを用いて、第一の視覚的特徴量と、第一の物理的特徴量と、第二の視覚的特徴量と、第二の物理的特徴量から、第一のオブジェクトと第二のオブジェクトが同一のオブジェクトであるか否かを判定する判定部を備えたので、視覚的特徴量だけでなく、オブジェクトの物理的特徴量を用いることにより、複数の画像データに現れるオブジェクトが同一であるか否かを判定する際に、実際の大きさが異なるオブジェクトを同一のオブジェクトであると誤判定してしまう可能性を低減することができる。
実施の形態1における画像処理装置100、及び画像処理システム1000の構成を示す構成図である。 実施の形態1におけるオブジェクト検出部31の処理の具体例を示す説明図である。 実施の形態1におけるオブジェクト検出部31の処理、及びオブジェクト追跡部34の処理の具体例を示す説明図である。 実施の形態1における視覚的特徴量抽出部32が視覚的特徴量を抽出する処理の具体例を示す説明図である。 実施の形態1における特徴量ベクトル取得部841が特徴量ベクトルを取得する処理の具体例を示す説明図である。 実施の形態1における画像処理装置100を実現するコンピュータのハードウェア構成の例を示す構成図である。 実施の形態1における画像処理装置100の画像記憶処理を示すフローチャートである。 実施の形態1における画像処理装置100の画像照合処理の動作を示すフローチャートである。
 実施の形態1.
 図1は、実施の形態1における画像処理装置100、及び画像処理システム1000の構成を示す構成図である。
 図1に示すように、画像処理システム1000は、n台(nは1以上の整数)のネットワークカメラNC1,NC2,…,NCnと、これらネットワークカメラNC1,NC2,…,NCnの各々から配信された静止画像データまたは動画像ストリームを、通信ネットワークNWを介して受信する画像処理装置100とで構成される。画像処理装置100は、ネットワークカメラNC1,NC2,…,NCnから受信した静止画像データまたは動画像データ(以下、総じて画像データと記載する)に対して画像解析を行う。画像処理装置100は、画像解析の結果を示す空間的、地理的または時間的記述子を、画像と関連付けて蓄積する。
 ここで、空間的記述子とは画像内のオブジェクトの位置やサイズ等を示すものであり、地理的記述子とは画像を撮像したネットワークカメラNC1,NC2,…,NCnの位置等を示すものであり、時間的記述子とは画像の撮像時刻等を示すものである。
 通信ネットワークNWとしては、例えば、有線LAN(Local Area Network)、無線LANなどの構内通信網、拠点間を結ぶ専用回線網、またはインターネットなどの広域通信網が挙げられる。
 ネットワークカメラNC1,NC2,…,NCnは全て同一の構成を有している。各ネットワークカメラNCは、被写体を撮像する撮像部(図示せず)と、撮像部の出力を通信ネットワークNW上の画像処理装置100に向けて送信する送信部(図示せず)とで構成される。撮像部は、被写体の光学像を形成する撮像光学系と、形成された光学像を電気信号に変換する固体撮像素子と、変換された電気信号を静止画像データまたは動画像データとして圧縮符号化するエンコーダ回路とを有している。固体撮像素子としては、例えば、CCD(Charge-Coupled Device)またはCMOS(Complementary Metal-oxide Semiconductor)素子を使用すればよい。
 ネットワークカメラNC1,NC2,…,NCnの各々は、固体撮像素子の出力を動画像データとして圧縮符号化する場合には、例えば、MPEG-2 TS(Moving PictureExperts Group 2 Transport Stream)、RTP/RTSP(Real-time Transport Protocol/Real Time Streaming Protocol)、MMT(MPEG Media Transport)またはDASH(Dynamic Adaptive Streaming over HTTP)のストリーミング方式に従い、圧縮符号化された動画像ストリームを生成する。なお、実施の形態1で使用されるストリーミング方式は、MPEG-2 TS、RTP/RTSP、MMTまたはDASHに限定されるものではない。ただし、いずれのストリーミング方式でも、動画像ストリームに含まれる動画像データを画像処理装置100で一意に分離できる識別子情報が、当該動画像ストリーム内
に多重化されているものとする。
 実施の形態1において、ネットワークカメラNC1は第一のオブジェクトを撮像し、第一のオブジェクトが現れる第一の画像データを出力する。また、ネットワークカメラNC2は第二のオブジェクトを撮像し、第二のオブジェクトが現れる第二の画像データを出力する。ここで、ネットワークカメラNC1が第一のネットワークカメラであり、ネットワークカメラNC2が第二のネットワークカメラである。また、第一のオブジェクトと第二のオブジェクトは、同一のオブジェクトである場合と、異なるオブジェクトである場合の両方を含む。
 画像処理装置100は、受信部1、復号部2、画像認識部3、記述子生成部4、データ記録制御部5、記憶部6、インターフェース部7、及び画像照合部8を備える。
 受信部1は、ネットワークカメラNC1,NC2,…,NCnから配信データを受信し、受信した配信データから画像データを分離するものである。ここで、配信データには、画像データの他、音声データやメタデータ等が含まれ、画像データには、静止画像データまたは動画像ストリームが含まれる。受信部1は、分離した画像データを復号部2に出力する。
 復号部2は、受信部1から入力された、圧縮符号化された画像データを、ネットワークカメラNC1,NC2,…,NCnで使用された圧縮符号化方式に従って復号するものである。復号部2は、復号した画像データを画像認識部3に出力する。また、入力された画像データが圧縮符号化されていない場合には、復号部2は省略可能である。
 画像認識部3は、復号部2から入力された画像データに対して画像認識処理を行う。画像認識部3は、オブジェクト検出部31、視覚的特徴量抽出部32、物理的特徴量推定部33、及びオブジェクト追跡部34を備える。
 オブジェクト検出部31は、復号部2から入力された画像データを解析して、当該画像データに現れるオブジェクトを検出するものである。オブジェクトの検出には、例えば、線形分類器やR-CNN(regions with CNN features)を用いることができる。また、オブジェクト検出部31は、画像データが示す画像内においてオブジェクトを検出した領域を示すデータを検出領域データとして出力する。ここで、オブジェクトを検出する領域は、図2で示されるように、画像の一部においてオブジェクトを囲むように所定のサイズで設定される。図2は、オブジェクト検出部31の処理の具体例を示す説明図である。また、検出領域データは、元の画像データの一部であって、画像データの一種とする。
 実施の形態1において、オブジェクト検出部31は、第一のオブジェクトが現れる第一の画像データから第一のオブジェクトを検出し、第一の画像データが示す画像内において第一のオブジェクトを検出した領域を第一の検出領域データとして出力するとともに、第二のオブジェクトが現れる第二の画像データから第二のオブジェクトを検出し、第二の画像データが示す画像内において第二のオブジェクトを検出した領域を第二の検出領域データとして出力する。オブジェクト検出部31は、第一の画像データに対する処理と、第二の画像データに対する処理のどちらを先に行っても良いし、あるいは同時に行っても良い。
 オブジェクト検出部31は、検出されたオブジェクトの数、各オブジェクトの位置情報、各オブジェクトの種別、および各オブジェクトの撮像時刻等をオブジェクトの検出結果として取得する。
 実施の形態1において、オブジェクト検出部31は、図2で示されるように、オブジェクトを矩形領域で検出する。すなわち、上記のオブジェクトを検出する領域は実施の形態1において、矩形で設定される。図2において、オブジェクト検出部31は、画像データが示す画像G1において、オブジェクトP1とオブジェクトP2をそれぞれ、矩形領域RP1と矩形領域RP2で検出する。
 図3は、実施の形態1におけるオブジェクト検出部31の処理、及びオブジェクト追跡部34の処理の具体例を示す説明図である。図3では、画像処理装置100が、領域X1および領域X2をそれぞれ撮像する2つのネットワークカメラNC1,NC2から配信データを受信した場合について示している。また、図3は、配信データ間で、オブジェクトAで示された人物、オブジェクトBで示された人物、およびオブジェクトCで示された人物の動きを後述するオブジェクト追跡部34が追跡した結果を示している。オブジェクト検出部31は、復号されたネットワークカメラNC1の画像データから、オブジェクトAaを検出する。ここで、時刻aにおけるオブジェクトAをオブジェクトAaと示す。オブジェクトAb~Ae、またオブジェクトBおよびオブジェクトCについても同様である。 オブジェクト検出部31はネットワークカメラNC1の次の画像データからオブジェクトAbを検出する。続けて、オブジェクト検出部31はネットワークカメラNC1の次の画像データからオブジェクトAcを検出する。オブジェクト検出部31は、上述した検出処理を連続して行い、オブジェクトAaからオブジェクトAeを検出する。同様に、オブジェクト検出部31は、復号されたネットワークカメラNC2の各画像データから、オブジェクトBaからオブジェクトBeおよびオブジェクトCaからオブジェクトCeを検出する。オブジェクト検出部31は、検出した全てのオブジェクト(Aa~Ae,Ba~Be,Ca~Ce)の位置情報および撮像時刻等を取得する。
 視覚的特徴量抽出部32は、画像データからオブジェクトの視覚的特徴量を抽出するものである。ここで、オブジェクトの視覚的特徴量とは、オブジェクトの色、オブジェクトのテクスチャ、オブジェクトの形状等の画像の画素値から抽出される特徴量であり、すなわち、人が視覚的に認識できる特徴を示す特徴量である。これに対して、物理的特徴量は、オブジェクトの物理的な特徴を示すものであり、画像上でそのオブジェクトのみを視認するだけでは抽出できない特徴量である。例えば、後述する物理的特徴量推定部33が行うように、物理的特徴量は、画像上の位置等の情報を用いて推定する必要がある。視覚的特徴量の抽出には、例えば、CNN(Convolutional Neural Network)等の学習済みの機械学習モデルを用いることができる。実施の形態1において、視覚的特徴量抽出部32は、オブジェクト検出部31がオブジェクトを検出した矩形領域におけるオブジェクトの視覚的特徴量を抽出する。
 実施の形態1において、視覚的特徴量抽出部32は、第一の画像データから第一のオブジェクトの視覚的特徴量である第一の視覚的特徴量を抽出し、第二の画像データから第二のオブジェクトの視覚的特徴量である第二の視覚的特徴量を抽出する。より具体的には、視覚的特徴量抽出部32は、第一の検出領域データが入力されると、第一の検出領域データをリサイズし、第一のリサイズデータを生成する。そして、第一のリサイズデータをCNNに入力することにより、第一のオブジェクトの視覚的特徴量を抽出する。同様に、視覚的特徴量抽出部32は、第二の検出領域データが入力されると、第二の検出領域データをリサイズし、第二のリサイズデータを生成する。そして、第二のリサイズデータをCNNに入力することにより、第二のオブジェクトの視覚的特徴量を抽出する。ここで、視覚的特徴量抽出部32は、第一の視覚的特徴量の抽出と、第二の視覚的特徴量の抽出のどちらを先に行っても良いし、あるいは同時に行っても良い。
 視覚的特徴量抽出部32の処理の具体例について、図4を参照しながら説明する。図4は、実施の形態1における視覚的特徴量抽出部32がオブジェクトの視覚的特徴量を抽出する処理の具体例を示す説明図である。
 視覚的特徴量抽出部32は、矩形領域RP3を所定のサイズにリサイズしたリサイズデータRRP3をCNNに入力し、かつ、矩形領域RP4をリサイズデータRRP3と同じ所定のサイズにリサイズしたリサイズデータRRP4をCNNに入力する。その結果、視覚的特徴量抽出部32は、オブジェクトP3の矩形領域RP3における視覚的特徴量である視覚的特徴量VP3と、オブジェクトP4の矩形領域RP4における視覚的特徴量である視覚的特徴量VP4を抽出することができる。ここで、画像データのリサイズは、複数の画像データから抽出されるそれぞれの視覚的特徴量の次元数を揃えるために必要となる。また、上記したリサイズデータの所定のサイズは、CNNの設計段階において、CNNの設計者により決定される。
 しかしながら、画像データのリサイズを行ったために、視覚的特徴量VP3及び視覚的特徴量VP4は、オブジェクトの視覚的特徴量を示してはいるものの、オブジェクトの大きさや矩形領域の大きさに関する情報は失われている。そのため、視覚的特徴量VP3と視覚的特徴量VP4を比較するだけだと、身長等の物理的特徴量が異なっていても、オブジェクトP2とオブジェクトP4が同一のオブジェクトとして判定される可能性がある。このような可能性を低減するために、実施の形態1における画像処理装置100が備える判定部84は、後述するように、視覚的特徴量だけでなく、物理的特徴量も考慮して、二つのオブジェクトが同一か否かを判定するようにしている。
 物理的特徴量推定部33は、画像データからオブジェクトの物理的特徴量を推定するものである。実施の形態1において、物理的特徴量推定部33は、オブジェクト検出部31がオブジェクトを検出した画像内の位置と矩形領域の大きさとに基づいて、オブジェクトの物理的特徴量を推定する。物理的特徴量とは、オブジェクトの物理的な特徴を示す特徴量であり、例えば、オブジェクトの高さ、幅、厚み等である。また、物理的特徴量としては、上記の一次元量、すなわち物理寸法だけでなく、面積や体積等のより高次元な量も含む。
 以下で物理的特徴量推定部33がオブジェクトの物理的特徴量を推定する方法の具体例を示す。
 オブジェクトは、ネットワークカメラNCからオブジェクトまでの距離に応じて、画像内でのサイズが異なる。そこで、ネットワークカメラNCを設置後、一定期間の画像を収集し、オブジェクト検出部で検出されたオブジェクトの種別ごとに、画像内での大きさ(矩形領域の大きさ)と画像内での位置をデータとして収集し、記憶部6に記憶させる。そして、オブジェクトの種別、画像内での大きさ、及び画像内での位置に対するオブジェクトの物理的特徴量を外部機器200等により設定し、オブジェクトの種別、画像内での大きさ、及び画像内での位置と、オブジェクトの物理的特徴量との対応関係を示す対応情報を予め生成しておく。十分な期間のデータを収集し、対応情報を生成することができれば、この対応情報を用いてオブジェクトの物理的特徴量を推定することができる。
 また、対応情報を作る段階において、オブジェクトの物理的特徴量があまり正確に分からない場合や、オブジェクトの検出精度が低く矩形領域の大きさにばらつきがある場合には、矩形領域の大きさとオブジェクトの物理的特徴量を一対一に対応付けるのではなく、オブジェクトの物理的特徴量を多段階分類し、推定するようにしてもよい。例えば、三段階に分類する場合では、オブジェクトの種別ごとに物理的特徴量の最大値、平均値、最小値を設定するとともに、矩形領域の大きさに対して第一閾値と第二閾値を設定し、矩形領域の大きさが第一閾値以上の場合は、オブジェクトの物理的特徴量は最大値であると推定し、矩形領域の大きさが第二閾値以上第一閾値未満の場合には、オブジェクトの物理的特徴量は平均値であると推定し、矩形領域の大きさが第二閾値未満の場合には、オブジェクトの物理的特徴量は最小値であると推定するようにすればよい。
 実施の形態1において、物理的特徴量推定部33は、オブジェクト検出部31から第一の検出領域データが入力され、第一の検出領域データから第一のオブジェクトの物理的特徴量である第一の物理的特徴量を推定するとともに、オブジェクト検出部31から第二の検出領域データが入力され、第二の検出領域データから第二のオブジェクトの物理的特徴量である第二の物理的特徴量を推定する。ここで、物理的特徴量推定部33は、第一の物理的特徴量の推定と、第二の物理的特徴量の推定のどちらを先に行っても良いし、あるいは同時に行っても良い。
 オブジェクト追跡部34は、オブジェクト検出部31で検出されたオブジェクトを時間方向に追跡するものである。実施の形態1において、オブジェクト追跡部34は、第一のオブジェクトと第二のオブジェクトの追跡を行う。オブジェクト追跡部34は、オブジェクトの時間方向への追跡を行う際、オブジェクト検出部31で検出されたオブジェクトの検出結果を、1つの画像データ内、および時間的に連続する複数の画像データ間で比較して追跡を行う。例えば、追跡対象のオブジェクトが人物の場合、一台のネットワークカメラNCで撮影された同一人物を追跡する。上記の画像データ内及び画像データ間での比較において、例えば、物理的特徴量推定部33で推定された物理的特徴量や視覚的特徴量抽出部32で抽出された視覚的特徴量を用いて追跡することができる。あるいは、後述する画像照合部8の処理を行うことにより、前フレームと現フレームのオブジェクトが同一か判定し、追跡するようにしてもよい。また、オブジェクト追跡部34は、オブジェクトの追跡結果であるオブジェクトの動き情報(オプティカルフロー)を記述子生成部35に出力する。
 図3に追跡対象のオブジェクトが人物の場合の具体例を示す。
 オブジェクト追跡部34は、領域X1を撮像したネットワークカメラNC1により得られた複数の画像データにおいて、同一の特徴を有するオブジェクトA(Aa~Ae)を追跡する。同様に、オブジェクト追跡部34は、領域X2を撮像したネットワークカメラNC2により得られた複数の画像データにおいて、それぞれ同一の特徴を有するオブジェクトB(Ba~Be)、及びオブジェクトC(Ca~Ce)を追跡する。オブジェクト追跡部34は、オブジェクトA,B,Cの動き情報として、例えばオブジェクトAが領域X1を撮像した画像データ内に出現していた時間、オブジェクトB,Cが領域X2を撮像した画像データ内に出現していた時間、オブジェクトA,B,Cの移動軌跡を示す情報を記述子生成部35に出力する。
 記述子生成部4は、所定のフォーマットに従い、画像データに関連したオブジェクトの特徴を示す特徴記述子を生成する。実施の形態1において、記述子生成部4は、オブジェクト検出部31が取得したオブジェクトの検出結果、物理的特徴量推定部33が推定したオブジェクトの物理的特徴量、視覚的特徴量抽出部32が抽出したオブジェクトの視覚的特徴量、及びオブジェクト追跡部34が出力したオブジェクトの動き情報を含む特徴記述子を生成する。また、特徴記述子には、時間方向に追跡された同一のオブジェクトであることを示す識別子(ID)が含まれる。
 実施の形態1において、記述子生成部4は、第一のオブジェクトの第一の画像データにおける特徴を示す特徴記述子である第一の特徴記述子と、第二のオブジェクトの第二の画像データにおける特徴を示す特徴記述子である第二の特徴記述子とを生成する。
 データ記録制御部5は、復号部2から入力された復号された画像データと、記述子生成部4から入力された特徴記述子とを対応付けて記憶部6に格納することにより、データベースを構築する。ここで、一つの画像データに複数のオブジェクトが現れる場合には、特徴記述子は、オブジェクト毎に生成し、一つの画像データに複数の特徴記述子を対応付けるようにしてもよいし、複数のオブジェクトの特徴記述子を一つの特徴記述子としてまとめて、一つの画像データに一つの特徴記述子を対応付けるようにしてもよい。また、実施の形態1においては、復号部2から入力された画像データを特徴記述子と対応付けて記憶するようにしたが、オブジェクト検出部31が生成したオブジェクトの検出領域データを特徴記述子と対応付けて記憶するようにしてもよい。
 実施の形態1において、データ記録制御部5は、第一の画像データと第一の特徴記述子とを対応付けて記憶部6に格納するとともに、第二の画像データと第二の特徴記述子とを対応付けて記憶部6に格納する。データ記録制御部5は、第一の画像データ及び第一の特徴記述子の格納と、第二の画像データ及び第二の特徴記述子の格納はどちらを先に行っても良いし、同時に行っても良い。
 データ記録制御部5は、画像データと、特徴記述子とを、双方向に高速にアクセスすることができる形式で、記憶部6に格納するのが望ましい。また、データ記録制御部5は、画像データと特徴記述子との対応関係を示すインデックステーブルを作成してデータベースを構築してもよい。例えば、データ記録制御部5は、画像データを構成する特定の画像フレームのデータ位置が与えられた場合、当該データ位置に対応する特徴記述子の記憶部6上の格納位置を高速に特定可能なように、インデックス情報を付加する。また、データ記録制御部5は、記憶部6上の格納位置に対応するデータ位置を高速に特定可能なようにインデックス情報を付加してもよい。
 記憶部6は、各種情報を記憶するものであり、後述するようにハードディスク等の記憶装置10001により構成される。実施の形態1において、記憶部6は、画像データと特徴記述子とを対応付けて記憶する。また、実施の形態1において、記憶部6は、後述する判定部84が用いる学習済みの機械学習モデルを記憶する。
 実施の形態1において、記憶部6は、第一の画像データと第一の特徴記述子とを対応付けて記憶し、第二の画像データと第二の特徴記述子とを対応付けて記憶する。この第一の特徴記述子は、第一のオブジェクトの第一の画像データにおける視覚的特徴量である第一の視覚的特徴量と、第一のオブジェクトの物理的特徴量である第一の物理的特徴量とを含み、第二の特徴記述子は、第二のオブジェクトの第二の画像データにおける視覚的特徴量である第二の視覚的特徴量と、第二のオブジェクトの物理的特徴量である第二の物理的特徴量とを含む。すなわち、実施の形態1における記憶部6は、第一の視覚的特徴量と第一の物理的特徴量とを含む第一の特徴記述子と、第二の視覚的特徴量と第二の物理的特徴量とを含む第二の特徴記述子とを記憶する。
 また、実施の形態1においては、記憶部6が画像データ及び特徴記述子を記憶する構成を示したが、当該構成に限定されるものではない。記憶部6に替えて、通信ネットワークNW上に配置された単数または複数のネットワークストレージ装置(図示せず)が画像データ及び特徴記述子を記憶し、当該ネットワークストレージ装置にデータ記録制御部5がアクセスするように構成してもよい。これにより、データ記録制御部5が画像データと特徴記述子とを、外部のネットワークストレージ装置に蓄積し、画像処理装置100の外部にデータベースを構築することができる。また、判定部84が用いる学習済みの機械学習モデルも記憶部6ではなく、外部のネットワークストレージ装置に記憶するようにしてもよい。
 インターフェース部7は、外部機器200と画像処理装置の各部を接続して、交信や外部機器200による各種制御を可能にするものである。
 外部機器200は、インターフェース部7を介して、記憶部6内のデータベースや画像取得部81にアクセスするものである。画像処理装置100のユーザーは、外部機器200を用いて、後述する画像取得部81が画像を検索する検索条件を設定したり、記憶部6に画像データ等を追加したりすることができる。
 画像照合部8は、複数の画像データに現れるオブジェクトの照合を行うものであり、実施の形態1において、画像照合部8は、第一の画像データに現れる第一のオブジェクトと、第二の画像データに現れる第二のオブジェクトが同一のオブジェクトであるか否かを照合し判定する。また、実施の形態1において、画像照合部8は、画像取得部81、視覚的特徴量取得部82、物理的特徴量取得部83、及び判定部84を備える。
 画像照合部8は、インターフェース部7を介して、外部機器200から検索条件が設定されると、処理を開始する。ここで、検索条件とは、検索対象とするエリア情報、検索対象とする時刻情報、検索対象とするオブジェクトの種類や特徴等である。検索条件の具体例として、例えば、あるネットワークカメラNC内で同一のオブジェクトとして追跡された時間が一定時間超えたオブジェクトを検索することを指示する条件、またはネットワークカメラNC内で予め設定されたエリア(例えば、進入禁止エリア)に該当する位置情報を有するオブジェクトを検出することを指示する条件が挙げられる。また、画像照合部8は、検索条件として画像データを入力し、当該画像データに現れるオブジェクトと同じ特徴、例えば視覚的特徴量等、を有するオブジェクトを検索するようにしてもよい。
 画像取得部81は、照合する複数の画像データと当該画像データに対応付けられた特徴記述子を取得するものである。実施の形態1において、画像取得部81は、第一のオブジェクトが現れる第一の画像データ、第二のオブジェクトが現れる第二の画像データ、第一の画像データに対応付けられた第一の特徴記述子、及び第二の画像データに対応付けられた第二の特徴記述子を取得する。
 実施の形態1において、画像取得部81は、外部機器200により設定された検索条件に合致するオブジェクトを記憶部6から検索し、当該オブジェクトが現れる画像データを取得する。
 画像取得部81は、記憶部6を検索することにより画像データを取得する場合、画像データあるいは特徴記述子に含まれる位置情報や撮影時刻情報に基づいて、検索対象を絞るようにしてもよい。例えば、図3において、オブジェクトAと同一のオブジェクトを検索したい場合、ネットワークカメラNC1がオブジェクトA(Aa~Ae)を撮像した時刻と、ネットワークカメラNC2がオブジェクトB(Ba~Be)を撮像した時刻が同時刻であるならば、オブジェクトAとオブジェクトBは同一でないと判断できるので、検索対象から除外することができる。これに対して、ネットワークカメラNC1がオブジェクトA(Aa~Ae)を撮像した時刻の少し後に、オブジェクトCがネットワークカメラNC2で撮像されている場合、オブジェクトCは領域X1から領域X2に歩いてきたオブジェクトAである可能性がある、すなわち、オブジェクトAとオブジェクトCとは同一のオブジェクトである可能性があるので、検索対象から除外しない。上記の処理を行うことにより、検索量を減らすことができる。
 視覚的特徴量取得部82は、入力された画像データに現れるオブジェクトの視覚的特徴量を取得するものである。実施の形態1において、視覚的特徴量取得部82は、第一の画像データにおける第一のオブジェクトの視覚的特徴量である第一の視覚的特徴量と、第二の画像データにおける第二のオブジェクトの視覚的特徴量である第二の視覚的特徴量とを取得する。
 また、実施の形態1において、視覚的特徴量取得部82は、画像データに対応付けられた特徴記述子から視覚的特徴量を取得する。すなわち、第一の画像データに対応付けられた第一の特徴記述子に含まれる第一の視覚的特徴量を取得し、第二の画像データに対応付けられた第二の特徴記述子に含まれる第二の視覚的特徴量を取得する。また、実施の形態1において、特徴記述子が含む視覚的特徴量は、視覚的特徴量抽出部32が抽出した視覚的特徴量であるため、実施の形態1における視覚的特徴量取得部82は、視覚的特徴量抽出部32が第一の検出領域データから抽出した第一の視覚的特徴量を取得し、視覚的特徴量抽出部32が第二の検出領域データから抽出した第二の視覚的特徴量を取得するものでもある。
 上記において、視覚的特徴量取得部82は、特徴記述子から視覚的特徴量を取得するものとしたが、画像データに現れるオブジェクトの視覚的特徴量を取得できれば、この構成に限らない。例えば、視覚的特徴量取得部82は、画像データを画像認識部3に入力し、オブジェクト検出部31及び視覚的特徴量抽出部32の処理を行うことにより、オブジェクトの視覚的特徴量を取得するようにしてもよい。また、オブジェクトを検出した矩形領域の情報が特徴記述子に含まれる場合には、オブジェクト検出部31の処理は省略し、視覚的特徴量抽出部32の処理のみ行えばよい。実施の形態1においては、記憶部6が画像データと対応付けて記憶する特徴記述子は、視覚的特徴量を含むようにしたが、記憶部6に記憶するデータ量削減等の理由により、特徴記述子に視覚的特徴量が含まれない場合や、検索条件として外部機器200から特徴記述子が対応付けられていない画像データが入力された場合には、上記の方法を用いることにより、オブジェクトの視覚的特徴量を取得することができる。
 物理的特徴量取得部83は、入力された画像データに現れるオブジェクトの物理的特徴量を取得するものである。実施の形態1において、物理的特徴量取得部83は、第一のオブジェクトの物理的特徴量である第一の物理的特徴量と、第二のオブジェクトの物理的特徴量である第二の物理的特徴量とを取得する。
 また、実施の形態1において、物理的特徴量取得部83は、画像データに対応付けられた特徴記述子から物理的特徴量を取得する、すなわち、第一の画像データに対応付けられた第一の特徴記述子に含まれる第一の物理的特徴量を取得し、第二の画像データに対応付けられた第二の特徴記述子に含まれる第二の物理的特徴量を取得する。また、実施の形態1において、特徴記述子が含む物理的特徴量は、物理的特徴量推定部33が推定した物理的特徴量であるため、実施の形態1における物理的特徴量取得部83は、物理的特徴量推定部33が第一の検出領域データから推定した第一の物理的特徴量を取得し、物理的特徴量推定部33が第二の検出領域データから推定した第二の物理的特徴量を取得するものでもある。
 上記において、物理的特徴量取得部83は、特徴記述子から物理的特徴量を取得するものとしたが、視覚的特徴量取得部82と同様に、画像データに現れるオブジェクトの物理的特徴量を取得できれば、この構成に限らない。例えば、物理的特徴量取得部83は、画像データを画像認識部3に入力し、オブジェクト検出部31及び物理的特徴量推定部33の処理を行うことにより、オブジェクトの物理的特徴量を取得するようにしてもよい。また、オブジェクトを検出した矩形領域の情報が特徴記述子に含まれる場合には、オブジェクト検出部31の処理は省略し、物理的特徴量推定部33の処理のみ行えばよい。実施の形態1においては、記憶部6が画像データと対応付けて記憶する特徴記述子は、物理的特徴量を含むようにしたが、記憶部6に記憶するデータ量削減等の理由により、特徴記述子に物理的特徴量が含まれない場合や、検索条件として外部機器200から特徴記述子が対応付けられていない画像データが入力された場合には、上記の方法を用いることにより、オブジェクトの物理的特徴量を取得することができる。また、検索条件として画像データが入力された場合において、当該画像データに写ったオブジェクトの物理的特徴量が既知の場合には、当該物理的特徴量を画像処理装置100のユーザーが外部機器200から入力することにより直接取得するようにしてもよい。
 判定部84は、入力された複数の画像データに現れるオブジェクトが同一か否かを、学習済みの機械学習モデルを用いて、判定するものである。ここで、判定部84が用いる学習済みの機械学習モデルは、視覚的特徴量抽出部32が用いる学習済みの機械学習モデルとは別のものである。実施の形態1において、判定部84は、学習済みの機械学習モデルを用いて、第一の視覚的特徴量と、第一の物理的特徴量と、第二の視覚的特徴量と、第二の物理的特徴量から、第一の画像データに現れる第一のオブジェクトと、第二の画像データに現れる第二のオブジェクトが同一のオブジェクトであるか否かを判定するものである。ここで、判定部84は、第一の視覚的特徴量と第一の物理的特徴量とを第一のオブジェクトに関する入力としており、第二の視覚的特徴量と第二の物理的特徴量とを第二のオブジェクトに関する入力としている。
 実施の形態1において、判定部84は、特徴量ベクトル取得部841、類似度算出部842、及び類似度判定部843を備える。
 特徴量ベクトル取得部841は、学習済みの機械学習モデルの入力として、オブジェクトの視覚的特徴量と、オブジェクトの物理的特徴量とを入力し、学習済みの機械学習モデルの出力として、オブジェクトの特徴量ベクトルを出力させることにより、当該特徴量ベクトルを取得するものである。ここで、特徴量ベクトルとはオブジェクトの特徴を示すベクトルである。実施の形態1において、特徴量ベクトル取得部841は、学習済みの機械学習モデルの入力として、第一の視覚的特徴量と第一の物理的特徴量とを入力し、学習済みの機械学習モデルの出力として、第一のオブジェクトの特徴量ベクトルである第一の特徴量ベクトルを取得し、かつ、学習済みの機械学習モデルの入力として、第二の視覚的特徴量と第二の物理的特徴量とを入力し、学習済みの機械学習モデルの出力として、第二のオブジェクトの特徴量ベクトルである第二の特徴量ベクトルを取得する。
 実施の形態1において、特徴量ベクトル取得部841は、特徴記述子に含まれるオブジェクトの視覚的特徴量、すなわち画像データからCNNにより得られた視覚的特徴量と、特徴記述子に含まれるオブジェクトの物理的特徴量、すなわちオブジェクトが検出された矩形領域から推定された物理的特徴量とを入力として用いる。また、実施の形態1において、学習済みの機械学習モデルは、全結合型のニューラルネットであって、距離学習により学習したものとする。ここで、距離学習とは、出力される2つのベクトルに対して距離を定義し、2つのベクトル間の距離が近ければ同一のオブジェクト、遠ければ異なるオブジェクトとなるように学習するものである。上記において、距離を定義すると述べたが、距離の公理を満たさない類似度、例えば、コサイン類似度等を2つのベクトルの近さの尺度として用いるようにしてもよい。以下では、2つのベクトルの近さの尺度を、距離もコサイン類似度等の他の尺度も、まとめて類似度と呼ぶこととする。また、実施の形態1においては、類似度として、ユークリッド距離を用いる。すなわち、第一のオブジェクトの特徴を表す第一の特徴量ベクトルと第二のオブジェクトの特徴を表す第二の特徴量ベクトルのユークリッド距離が小さい場合には、第一のオブジェクトと第二のオブジェクトとは同一の可能性が高く、ユークリッド距離が大きい場合には、第一のオブジェクトと第二のオブジェクトとは異なる可能性が高いと判断できる。
 学習時の教師データについては、物理的特徴量が既知のオブジェクトが現れる画像データを用意すればよい。また、当然ながら、学習時の教師データについては、ある画像データに現れるオブジェクトが別の画像データに現れるオブジェクトと同一であるか否かも既知なものとする。画像データから視覚的特徴量抽出部32を用いて視覚的特徴量の抽出を行い、抽出された視覚的特徴量と既知の物理的特徴量を学習させたい機械学習モデルに入力し、同一のオブジェクトのベクトルは近くに位置するように、異なるオブジェクトのベクトルは遠くに位置するように学習させる。学習方法としては、Siamese NetやTriplet Loss等を用いればよい。また、上記においては、教師データとして画像データを用意したが、学習に必要なものは視覚的特徴量と物理的特徴量であるため、あるオブジェクトに関する視覚的特徴量と物理的特徴量を用意できれば、画像データそのものはなくてもよい。
 実施の形態1において、類似度としてユークリッド距離を採用したので、学習済みの機械学習モデルは、同一オブジェクト間の特徴量ベクトルの類似度は小さくなるように重みパラメータを学習し、異なるオブジェクト間の特徴量ベクトルの類似度は大きくなるように重みパラメータが学習されている。すなわち、特徴量ベクトル取得部841が取得する特徴量ベクトルは、異なる画像であっても同一のオブジェクトから取得された特徴量ベクトル同士では、類似度が小さくなり、異なるオブジェクトから取得された特徴量ベクトル同士では、類似度が大きくなるようにオブジェクトの特徴が表現されたベクトルである。上記において、距離学習の対象は全結合ニューラルネットとしたが、全結合ニューラルネットと視覚的特徴量を抽出するCNNとをまとめて距離学習を行うようにしてもよい。
 また、判定部84が用いる学習済みの機械学習モデルは、全結合型のニューラルネットであって、距離学習により学習したものとしたが、オブジェクトが同一か否かの判定を行うことができる構成であればこれに限らず、ロジスティック回帰等を用いる構成であってもよい。
 図5は、特徴量ベクトル取得部841が特徴量ベクトルを取得する処理の具体例を示す説明図である。特徴量ベクトル取得部841は、視覚的特徴量I1と物理的特徴量I2を学習済みの機械学習モデルM1に入力し、学習済みの機械学習モデルM1は特徴量ベクトルV1を出力する。また、図5は、視覚的特徴量抽出部32が、オブジェクト検出部31がオブジェクトを検出した矩形領域RRから、CNNにより視覚的特徴量I1を抽出する処理についても示している。
 類似度算出部842は、第一の特徴量ベクトルと第二の特徴量ベクトルとの類似度を算出するものである。上述したように、実施の形態1においては、類似度としてユークリッド距離を用いる。
 類似度判定部843は、類似度算出部842が算出した類似度に基づいて、第一のオブジェクトと第二のオブジェクトが同一か否かを判定するものである。第一のオブジェクトと第二のオブジェクトが同一であるとき小さくなるような類似度、例えば、ユークリッド距離を類似度として用いる場合には、類似度判定部843は、類似度算出部842が算出した類似度が所定の閾値以下の場合に、第一のオブジェクトと第二のオブジェクトが同一であると判定する。逆に、第一のオブジェクトと第二のオブジェクトが同一であるとき大きくなるような類似度、例えば、コサイン類似度を類似度として用いる場合には、類似度判定部843は、類似度算出部842が算出した類似度が所定の閾値以上の場合に、第一のオブジェクトと第二のオブジェクトが同一であると判定する。また、閾値は外部機器200から設定するようにしてもよいし、閾値含めて機械学習で学習するようにしてもよい。
 次に、実施の形態1における画像処理装置100のハードウェア構成について説明する。画像処理装置100の各機能は、コンピュータにより実現される。図6は、画像処理装置100を実現するコンピュータのハードウェア構成の例を示す構成図である。
 図6に示したハードウェアには、CPU(Central Processing Unit)等の処理装置10000と、ROM(Read Only Memory)やハードディスク等の記憶装置10001が備えられる。
 図1に示す、受信部1、復号部2、画像認識部3、記述子生成部4、データ記録制御部5、インターフェース部7、及び画像照合部8は、記憶装置10001に記憶されたプログラムが処理装置10000で実行されることにより実現され、記憶部6は記憶装置10001により実現される。
 また、画像処理装置100の各機能を実現する方法は、上記したハードウェアとプログラムの組み合わせに限らず、処理装置にプログラムをインプリメントしたLSI(Large Scale Integrated Circuit)のような、ハードウェア単体で実現するようにしてもよいし、一部の機能を専用のハードウェアで実現し、一部を処理装置とプログラムの組み合わせで実現するようにしてもよい。
 実施の形態1における画像処理装置100、及び画像処理システム1000は、上記のように構成される。
 次に、画像処理装置100及び画像処理システム1000の動作について、画像記憶処理と画像照合処理に分けて説明する。ここで、画像処理装置100の動作が画像処理方法であり、当該画像処理方法をコンピュータに実行させるプログラムが画像処理プログラムである。
 まず、画像記憶処理について、図7を参照しながら説明する。
 図7は、実施の形態1における画像処理装置100の画像記憶処理を示すフローチャートである。
 まず、ステップS1において、受信部1は、ネットワークカメラNC1,NC2,…,NCnから配信データを受信して画像データを分離し、画像データを復号部2に出力する。
 ステップS2で、復号部2は、ステップS1で分離した画像データを復号し、画像認識部3に出力する。
 ステップS3で、画像認識部3が有するオブジェクト検出部31は、復号された画像データに現れるオブジェクトの検出を試みる。ここで、検出対象となるオブジェクトは、自動車、自転車および歩行者など、追跡対象の動くオブジェクトとする。
 ステップS4で、オブジェクト検出部31は、オブジェクトを検出したか否か判定を行う。オブジェクトを検出しなかった場合(ステップS4;NO)、フローチャートはステップS1の処理に戻り、一方、オブジェクトを検出した場合(ステップS4;YES)、フローチャートはステップS5の処理に進む。ここで、ステップS3とステップS4をまとめてオブジェクト検出工程とする。
 ステップS5の視覚的特徴量抽出工程で、視覚的特徴量抽出部32は、オブジェクト検出部31がオブジェクトを検出した矩形領域の画像データを入力として、オブジェクトの視覚的特徴量を抽出する。視覚的特徴量の抽出にはCNNを用いることができる。視覚的特徴量抽出部32は、抽出したオブジェクトの視覚的特徴量をオブジェクト追跡部34に出力する。
 ステップS6の物理的特徴量推定工程で、物理的特徴量推定部33は、オブジェクト検出部31がオブジェクトを検出した矩形領域に基づいて、オブジェクトの物理的特徴量を推定し、推定結果をオブジェクト追跡部34に出力する。
 ここで、ステップS5とステップS6の動作は同時に行うようにしてもよいし、どちらかの動作を先に行うようにしても良い。
 ステップS7で、オブジェクト追跡部34は、オブジェクトの画像データを参照し、1つの画像フレーム内で検出された各オブジェクトに対してそれぞれ異なるIDを付与する。また、ステップS8で、オブジェクト追跡部34は、検出された各オブジェクトについて、動き情報を抽出する。
 ステップS9で、オブジェクト追跡部34は、ステップS5で取得したオブジェクトの視覚的特徴量、ステップS6で取得したオブジェクトの物理的特徴量、及びステップS8で抽出したオブジェクトの動き情報を参照し、オブジェクト検出部31で検出したオブジェクトと、当該オブジェクトと時間的に連続した過去の画像フレームから検出されたオブジェクトとが、同一であるか否か判定を行う。オブジェクトが同一でないと判定した場合(ステップS9;NO)、ステップS11の処理に進む。一方、オブジェクトが同一であると判定した場合(ステップS9;YES)、ステップS10の処理に進み、オブジェクト追跡部34は、ステップS7で付与したIDを、同一である過去のオブジェクトに付与されたIDで書き換える。
 ステップS11で、オブジェクト追跡部34は、オブジェクト検出部31から入力された全てのオブジェクトに対して処理を行ったか否か判定を行う。全てのオブジェクトに対して処理を行っていない場合(ステップS11;NO)、フローチャートはステップS8の処理に戻る。一方、全てのオブジェクトに対して処理を行った場合(ステップS11;YES)、オブジェクト追跡部34はオブジェクトのIDおよびオブジェクトの動き情報を記述子生成部4に出力する。
 ステップS12で、記述子生成部4は、入力されたオブジェクトの視覚的特徴量、オブジェクトの物理的特徴量、ネットワークカメラNCの位置情報および撮像時刻、オブジェクトのIDおよびオブジェクトの動き情報に基づいて、特徴記述子を生成する。記述子生成部4は、生成した特徴記述子をデータ記録制御部5に出力する。
 ステップS13で、データ記録制御部5は、ステップS12で生成された特徴記述子と、ステップS2で復号された画像データとを関連付けて記憶部6に格納する制御を行い、記憶部6は入力された画像データと特徴記述子とを記憶する。以上で、画像処理装置100は画像記憶処理を終了する。
 次に、画像処理装置100の画像照合処理について、図8を参照しながら説明する。
 図8は、実施の形態1における画像処理装置100の画像照合処理の動作を示すフローチャートである。
 まず、ステップS21で、画像処理装置100のユーザーにより外部機器200を介して検索条件が設定される。画像取得部81は、検索条件が設定されると、当該検索条件で検索を行うことを決定する。
 ステップS22で、画像取得部81は、インターフェース部7を介して外部機器200から設定された検索条件に基づいて、記憶部6内の検索を行う。すなわち、画像取得部81は、オブジェクトの特徴記述子等に基づき、設定された検索条件と一致するオブジェクトを検索し、オブジェクトの絞り込みを行う。
 ステップS23で、画像取得部81は、それぞれ異なる画像データに現れるオブジェクトのペアを1組以上見つけたか判定を行う。オブジェクトのペアを見つけられなかった場合(ステップS23;NO)、画像処理装置100は処理を終了する。一方、オブジェクトのペアを1組以上見つけた場合(ステップST23;YES)、処理はステップS24に進む。
 ステップS24で、画像取得部81は、記憶部6から検索した1組以上のオブジェクトのペアのそれぞれに対応付けられた画像データと特徴記述子を読み出し、取得する。ここでは、1組のオブジェクトのペアに関する画像データと特徴記述子とを取得した場合について説明するが、2組以上取得した場合においても、以下の処理は同様である。画像取得部81は、読み出した画像データおよび特徴記述子を視覚的特徴量取得部82及び物理的特徴量取得部83に出力する。実施の形態1において、画像取得部81は、検索条件に合致した第一の画像データ及び第一の特徴記述子と、第二の画像データ及び第二の特徴記述子を取得し、それらを視覚的特徴量取得部82及び物理的特徴量取得部83に出力する。ここで、ステップS21からステップS24までのステップをまとめて画像取得工程とする。
 ステップS25の視覚的特徴量取得工程で、視覚的特徴量取得部82は、特徴記述子から、取得した画像データにおけるオブジェクトの視覚的特徴量を取得する。
 実施の形態1において、視覚的特徴量取得部82は、第一の画像データにおける第一のオブジェクトの視覚的特徴量である第一の視覚的特徴量と、第二の画像データにおける第二のオブジェクトの視覚的特徴量である第二の視覚的特徴量とを取得する。
 ステップS26物理的特徴量取得工程で、物理的特徴量取得部83は、特徴記述子からオブジェクトの物理的特徴量を取得する。
 実施の形態1において、物理的特徴量取得部83は、第一のオブジェクトの物理的特徴量である第一の物理的特徴量と、第二のオブジェクトの物理的特徴量である第二の物理的特徴量とを取得する。
 ステップS25とステップS26の動作は、同時に行うようにしてもよいし、どちらかの動作を先に行うようにしてもよい。
 ステップS27の特徴量ベクトル取得工程で、特徴量ベクトル取得部841は、ステップS25及びステップS26で取得したオブジェクトの視覚的特徴量と物理的特徴量を学習済みの機械学習モデルに入力し、当該学習済みの機械学習モデルにオブジェクトの特徴量ベクトルを出力させることにより、特徴量ベクトルを取得する。
 実施の形態1において、特徴量ベクトル取得部841は、学習済みの機械学習モデルの入力として、第一の視覚的特徴量と第一の物理的特徴量とを入力し、学習済みの機械学習モデルの出力として、第一のオブジェクトの特徴量ベクトルである第一の特徴量ベクトルを取得し、かつ、学習済みの機械学習モデルの入力として、第二の視覚的特徴量と第二の物理的特徴量とを入力し、学習済みの機械学習モデルの出力として、第二のオブジェクトの特徴量ベクトルである第二の特徴量ベクトルを取得する。ここで、第一の特徴量ベクトルと第二の特徴量ベクトルの取得はどちらを先に行ってもよく、あるいは、同時に行ってもよい。
 ステップS28の類似度算出工程で、類似度算出部842は、ステップS25で抽出された特徴量ベクトル間の類似度を算出する。具体的には、類似度算出部842は、第一の特徴量ベクトルと第二の特徴量ベクトルとの類似度を算出する。実施の形態1では、類似度算出部842は、類似度としてユークリッド距離を算出する。
 ステップS29の類似度判定工程で、類似度判定部843は、類似度算出工程で算出された類似度に基づいて、オブジェクトのペアが同一であるか否か判定を行う。具体的には、類似度判定部843は、類似度算出部が算出した類似度が所定の閾値以下の場合に、第一の画像データに現れる第一のオブジェクトと、第二の画像データに現れる第二のオブジェクトが同一のオブジェクトであると判定する。
 ステップS30で、類似度判定部843は、ステップS27の判定結果を、バッファ等に格納し、インターフェース部7を介して外部機器200に出力し、画像処理装置は処理を終了する。外部機器200が表示機器を備える場合には、表示機器が判定結果を表示するようにしてもよい。また、ステップS30において、二つのオブジェクトが同一であった場合、二つのオブジェクトのIDを統一し、ID統一後の特徴記述子を記憶部6に記憶させる処理を加えてもよい。
 以上のような動作により、実施の形態1に係る画像処理装置100は、視覚的特徴量の次元数を合わせるために画像データをリサイズしてから視覚的特徴量を抽出するようにしているが、複数の画像データに現れるオブジェクトが同一であるか否かを判定する際に、上記視覚的特徴量だけでなく、オブジェクトの物理的特徴量も用いることにより、実際の大きさが異なるオブジェクトを同一のオブジェクトであると誤判定してしまう可能性を低減することができる。
 また、実施の形態1においては、画像データをリサイズしてから視覚的特徴量を抽出するようにしたが、リサイズをしない場合においても、より一般に、視覚的特徴量だけでなく、物理的特徴量も用いることにより、実際の大きさが異なるオブジェクトを同一のオブジェクトであると誤判定してしまう可能性を低減する、すなわち、より適切に複数の画像データに現れるオブジェクトが同一か判定することができる。
 また、実施の形態1における画像処理装置100は、学習済みの機械学習モデルの入力として、第一の視覚的特徴量と第一の物理的特徴量とを入力し、学習済みの機械学習モデルの出力として、第一のオブジェクトの特徴量ベクトルである第一の特徴量ベクトルを取得し、かつ、学習済みの機械学習モデルの入力として、第二の視覚的特徴量と第二の物理的特徴量とを入力し、学習済みの機械学習モデルの出力として、第二のオブジェクトの特徴量ベクトルである第二の特徴量ベクトルを取得する特徴量ベクトル取得部841を備えたので、オブジェクトの視覚的特徴量とオブジェクトの物理的特徴量とを複合的に考慮した特徴量ベクトルを得ることができる。
 また、特徴量ベクトル取得部841は、学習済みの機械学習モデルを用いて、特徴量ベクトルを取得するようにしたので、単に視覚的特徴量と物理的特徴量のそれぞれを成分に持つベクトル、すなわち視覚的特徴量がn次元であり、物理的特徴量がm次元だった場合に、それらを単に結合した(n+m)次元のベクトルをオブジェクトの比較に用いるよりも、画像処理装置100の設計者の負担を軽減しつつ、精度よくオブジェクトの照合を行うことができる。例えば、単に視覚的特徴量と物理的特徴量とを結合し、それらを成分にもつベクトルを生成した場合には、視覚的特徴量と物理的特徴量は別の次元を持つ量であるので、結合後の二つのベクトル間の距離をどのように測れば、適切にオブジェクトの比較を行うことができるか定かではない。すなわち、単に視覚的特徴量と物理的特徴量を単に結合するだけだと、実験等を重ねて距離を適切に測ることができるルールを画像処理装置100の設計者等が設定しなければならないが、学習済みの機械学習モデルを用いて特徴量ベクトルを算出するようにすれば、設計者が設定した距離の定義に合わせてベクトルを変換し、特徴量ベクトルを出力してくれるので、画像処理装置100の設計者の作業負担を軽減することができる。
 また、実施の形態1における画像処理装置100は、第一の画像データと第二の画像データとを取得する画像取得部81と、第一の画像データから第一のオブジェクトを検出し、第一のオブジェクトを検出した第一の画像データが示す画像内の領域を第一の検出領域データとして出力するオブジェクト検出部31と、オブジェクト検出部31から第一の検出領域データが入力され、第一の検出領域データから第一の視覚的特徴量を抽出する視覚的特徴量抽出部32をさらに備えたので、第一の画像データに第一視覚的特徴量があらわに含まれない場合でも、視覚的特徴量抽出部32が第一の画像データから視覚的特徴量を抽出することにより、オブジェクトの照合を行うことができる。
 また、実施の形態1における画像処理装置100は、オブジェクト検出部31から第一の検出領域データが入力され、第一の検出領域データから第一の物理的特徴量を推定する物理的特徴量推定部33をさらに備えたので、第一の画像データに第一の物理的特徴量があらわに含まれない場合でも、物理的特徴量推定部33が第一の画像データから物理的特徴量を推定することにより、オブジェクトの照合を行うことができる。
 また、実施の形態1における画像処理装置100は、第一の画像データと、第一のオブジェクトの第一の画像データにおける特徴を示す特徴記述子であり、第一の視覚的特徴量を含む第一の特徴記述子とを対応付けて記憶する記憶部6をさらに備え、視覚的特徴量取得部82は、記憶部6に記憶された第一の特徴記述子に含まれる第一の視覚的特徴量を取得するようにしたので、画像照合処理において、第一の画像データから第一の視覚的特徴量を抽出する処理を行わなくても良く、計算量を減らすことができる。
 また、実施の形態1における画像処理装置100が備える記憶部6は、第一の視覚的特徴量と第一の物理的特徴量とを含む第一の特徴記述子を記憶し、物理的特徴量取得部83は、記憶部6に記憶された第一の特徴記述子に含まれる第一の物理的特徴量を取得するようにしたので、画像照合処理において、第一の画像データから第一の物理的特徴量を推定する処理を行わなくても良く、計算量を減らすことができる。
 以下で、実施の形態1における画像処理装置100の変形例について説明する。
 上記において、第一の画像データと第二の画像データがそれぞれ異なるネットワークカメラ(ネットワークカメラNC1とネットワークカメラNC2)で撮像された場合について、説明したが、第一の画像データと第二の画像データは同じネットワークカメラNCで撮像された画像データであってもよい。例えば、追跡処理のように時間的に連続したフレームに対する比較に対して画像照合処理を行っても良いし、時間的に離れたフレームに対して画像照合処理を行っても良い。
 画像照合処理において、画像取得部81は、オブジェクトのペアを記憶部6から検索するようにしたが、検索条件として画像データを外部機器200から入力し、当該画像データに現れるオブジェクトと同一のオブジェクトを検索したい場合には、オブジェクトのペアの片方として入力した画像データに現れるオブジェクトを含めるものとする。また、検索条件として画像データを入力する場合、外部機器200から入力するのではなく、ネットワークカメラNCによりリアルタイムで撮像された画像データを復号部2から直接入力するようにしてもよい。
 また、単に2つの画像データに現れるオブジェクトが同一か否かを判定したい場合や、事前に複数の画像データを収集している場合は、記憶部6の検索は行わず、外部機器200から入力した画像データに現れるオブジェクト同士の照合を行うようにしてもよい。
 上記したように、画像取得部81は、第一の画像データと第二の画像データを同じ方法で取得しなくてもよい。例えば、第一の画像データは外部機器200から取得し、第二の画像データは記憶部6から取得するようにしてもよい。また、画像データの取得と同様に、視覚的特徴量の取得及び物理的特徴量の取得についても、第一の視覚的特徴量と第二の視覚的特徴量、また、第一の物理的特徴量と第二の物理的特徴量は、それぞれ同じ方法で取得する必要はない。例えば、第一の視覚的特徴量は視覚的特徴量抽出部32から取得し、第二の視覚的特徴量は記憶部6から取得するようにしてもよい。同様に、第一の物理的特徴量は物理的特徴量推定部33から取得し、第二の物理的特徴量は記憶部6から取得するようにしてもよい。
 本発明に係る画像処理装置は、例えば、監視システムや画像検索システムに用いられるのに適している。
 100 画像処理装置、1000 画像処理システム、1 受信部、2 復号部、3 画像認識部、31 オブジェクト検出部、32 視覚的特徴量抽出部、33 物理的特徴量推定部、34 オブジェクト追跡部、4 記述子生成部、5 データ記録制御部、6 記憶部、7 インターフェース部、8 画像照合部、81 画像取得部、82 視覚的特徴量取得部、83 物理的特徴量取得部、84 判定部、841 特徴量ベクトル取得部、842 類似度算出部、843 類似度判定部、200 外部機器。

Claims (9)

  1.  第一の画像データに現れる第一のオブジェクトの視覚的特徴量である第一の視覚的特徴量と、第二の画像データに現れる第二のオブジェクトの視覚的特徴量である第二の視覚的特徴量とを取得する視覚的特徴量取得部と、
     前記第一のオブジェクトの物理的特徴量である第一の物理的特徴量と、前記第二のオブジェクトの物理的特徴量である第二の物理的特徴量とを取得する物理的特徴量取得部と、
     学習済みの機械学習モデルを用いて、前記第一の視覚的特徴量と、前記第一の物理的特徴量と、前記第二の視覚的特徴量と、前記第二の物理的特徴量とから、前記第一のオブジェクトと前記第二のオブジェクトが同一のオブジェクトであるか否かを判定する判定部と、
     を備えた画像処理装置。
  2.  前記判定部は、
     前記学習済みの機械学習モデルの入力として、前記第一の視覚的特徴量と前記第一の物理的特徴量とを入力し、前記学習済みの機械学習モデルの出力として、前記第一のオブジェクトの特徴量ベクトルである第一の特徴量ベクトルを取得し、かつ、前記学習済みの機械学習モデルの入力として、前記第二の視覚的特徴量と前記第二の物理的特徴量とを入力し、前記学習済みの機械学習モデルの出力として、前記第二のオブジェクトの特徴量ベクトルである第二の特徴量ベクトルを取得する特徴量ベクトル取得部と、
     前記第一の特徴量ベクトルと前記第二の特徴量ベクトルとの類似度を算出する類似度算出部と、
     前記類似度算出部が算出した前記類似度に基づいて、前記第一の画像データに現れる前記第一のオブジェクトと、前記第二の画像データに現れる第二のオブジェクトが同一のオブジェクトであるか否かを判定する類似度判定部と、
     を備えることを特徴とする請求項1に記載の画像処理装置。
  3.  前記第一の画像データを取得する画像取得部と、
     前記第一の画像データから前記第一のオブジェクトを検出し、前記第一の画像データが示す画像内において前記第一のオブジェクトを検出した領域を第一の検出領域データとして出力するオブジェクト検出部と、
     前記オブジェクト検出部から前記第一の検出領域データが入力され、前記第一の検出領域データから前記第一の視覚的特徴量を抽出する視覚的特徴量抽出部をさらに備え、
     前記視覚的特徴量取得部は、前記視覚的特徴量抽出部が前記第一の検出領域データから抽出した前記第一の視覚的特徴量を取得する
     ことを特徴とする請求項1または2に記載の画像処理装置。
  4.  前記オブジェクト検出部から前記第一の検出領域データが入力され、前記第一の検出領域データから前記第一の物理的特徴量を推定する物理的特徴量推定部と、をさらに備え、
     前記物理的特徴量取得部は、前記物理的特徴量推定部が前記第一の検出領域データから推定した前記第一の物理的特徴量を取得する
     ことを特徴とする請求項3に記載の画像処理装置。
  5.  前記第一の画像データと、前記第一のオブジェクトの前記第一の画像データにおける特徴を示す特徴記述子であり、前記第一の視覚的特徴量を含む第一の特徴記述子とを対応付けて記憶する記憶部をさらに備え、
     前記視覚的特徴量取得部は、前記記憶部に記憶された前記第一の特徴記述子に含まれる前記第一の視覚的特徴量を取得する
     ことを特徴とする請求項1から4のいずれか一項に記載の画像処理装置。
  6.  前記記憶部は、前記第一の視覚的特徴量と前記第一の物理的特徴量とを含む前記第一の特徴記述子を記憶し、
     前記物理的特徴量取得部は、前記記憶部に記憶された前記第一の特徴記述子に含まれる前記第一の物理的特徴量を取得する
     ことを特徴とする請求項5に記載の画像処理装置。
  7.  第一のオブジェクトを撮像し、前記第一のオブジェクトが現れる第一の画像データを出力する第一のネットワークカメラと、
     第二のオブジェクトを撮像し、前記第二のオブジェクトが現れる第二の画像データを出力する第二のネットワークカメラと、
     前記第一の画像データと前記第二の画像データとを取得する画像取得部と、
     前記第一の画像データにおける前記第一のオブジェクトの視覚的特徴量である第一の視覚的特徴量と、前記第二の画像データにおける前記第二のオブジェクトの視覚的特徴量である第二の視覚的特徴量とを取得する視覚的特徴量取得部と、
     前記第一のオブジェクトの物理的特徴量である第一の物理的特徴量と、前記第二のオブジェクトの物理的特徴量である第二の物理的特徴量とを取得する物理的特徴量取得部と、
     学習済みの機械学習モデルを用いて、前記第一の視覚的特徴量と、前記第一の物理的特徴量と、前記第二の視覚的特徴量と、前記第二の物理的特徴量とから、前記第一のオブジェクトと、前記第二のオブジェクトが同一か否かを判定する判定部と、
     を備えた画像処理システム。
  8.  第一の画像データに現れる第一のオブジェクトの視覚的特徴量である第一の視覚的特徴量と、第二の画像データに現れる第二のオブジェクトの視覚的特徴量である第二の視覚的特徴量とを取得する視覚的特徴量取得工程と、
     前記第一のオブジェクトの物理的特徴量である第一の物理的特徴量と、前記第二のオブジェクトの物理的特徴量である第二の物理的特徴量とを取得する物理的特徴量取得工程と、
     学習済みの機械学習モデルを用いて、前記第一の視覚的特徴量と、前記第一の物理的特徴量と、前記第二の視覚的特徴量と、前記第二の物理的特徴量とから、前記第一のオブジェクトと前記第二のオブジェクトが同一か否かを判定する判定工程と、
     を含む画像処理方法。
  9.  第一の画像データに現れる第一のオブジェクトの視覚的特徴量である第一の視覚的特徴量と、第二の画像データに現れる第二のオブジェクトの視覚的特徴量である第二の視覚的特徴量とを取得する視覚的特徴量取得工程と、
     前記第一のオブジェクトの物理的特徴量である第一の物理的特徴量と、前記第二のオブジェクトの物理的特徴量である第二の物理的特徴量とを取得する物理的特徴量取得工程と、
     学習済みの機械学習モデルを用いて、前記第一の視覚的特徴量と、前記第一の物理的特徴量と、前記第二の視覚的特徴量と、前記第二の物理的特徴量とから、前記第一のオブジェクトと前記第二のオブジェクトが同一か否かを判定する判定工程と、
     をコンピュータに実行させる画像処理プログラム。
PCT/JP2019/044076 2019-11-11 2019-11-11 画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラム WO2021095085A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2019/044076 WO2021095085A1 (ja) 2019-11-11 2019-11-11 画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラム
JP2020539113A JP6829412B1 (ja) 2019-11-11 2019-11-11 画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/044076 WO2021095085A1 (ja) 2019-11-11 2019-11-11 画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラム

Publications (1)

Publication Number Publication Date
WO2021095085A1 true WO2021095085A1 (ja) 2021-05-20

Family

ID=74529678

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/044076 WO2021095085A1 (ja) 2019-11-11 2019-11-11 画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラム

Country Status (2)

Country Link
JP (1) JP6829412B1 (ja)
WO (1) WO2021095085A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220215570A1 (en) * 2021-01-04 2022-07-07 Kabushiki Kaisha Toshiba Progress determination system, progress determination method, and storage medium
WO2023181271A1 (ja) * 2022-03-24 2023-09-28 楽天グループ株式会社 学習システム、学習方法、及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023090747A1 (ko) * 2021-11-17 2023-05-25 삼성전자 주식회사 사용자가 의도한 순간의 이미지를 획득하는 전자 장치 및 이의 제어 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08241480A (ja) * 1995-03-07 1996-09-17 Matsushita Electric Ind Co Ltd 分散型監視装置
JP2015133085A (ja) * 2014-01-15 2015-07-23 キヤノン株式会社 情報処理装置およびその方法
JP2016530641A (ja) * 2013-09-04 2016-09-29 シャズラ, インク.Shazura, Inc. コンテンツベースの画像検索

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5940862B2 (ja) * 2012-03-30 2016-06-29 セコム株式会社 画像処理装置
JP6973175B2 (ja) * 2018-02-27 2021-11-24 富士通株式会社 画像選択プログラム、情報処理装置、システム、および画像選択方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08241480A (ja) * 1995-03-07 1996-09-17 Matsushita Electric Ind Co Ltd 分散型監視装置
JP2016530641A (ja) * 2013-09-04 2016-09-29 シャズラ, インク.Shazura, Inc. コンテンツベースの画像検索
JP2015133085A (ja) * 2014-01-15 2015-07-23 キヤノン株式会社 情報処理装置およびその方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220215570A1 (en) * 2021-01-04 2022-07-07 Kabushiki Kaisha Toshiba Progress determination system, progress determination method, and storage medium
WO2023181271A1 (ja) * 2022-03-24 2023-09-28 楽天グループ株式会社 学習システム、学習方法、及びプログラム

Also Published As

Publication number Publication date
JPWO2021095085A1 (ja) 2021-11-25
JP6829412B1 (ja) 2021-02-10

Similar Documents

Publication Publication Date Title
JP7317919B2 (ja) 外観検索のシステムおよび方法
JP6829412B1 (ja) 画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラム
KR102150847B1 (ko) 화상 처리 장치 및 화상 처리 방법
JP4973188B2 (ja) 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム
US20110135153A1 (en) Image processing device, image processing method and program
JP6362085B2 (ja) 画像認識システム、画像認識方法およびプログラム
JP7525990B2 (ja) 主被写体判定装置、撮像装置、主被写体判定方法、及びプログラム
TWI521473B (zh) 影像分析裝置、方法及電腦可讀取媒體
TW201328359A (zh) 基於壓縮域的移動物件偵測方法及裝置
JP7211373B2 (ja) 動画像解析装置、動画像解析システム、動画像解析方法、及びプログラム
JP7253967B2 (ja) 物体対応付け装置、物体対応付けシステム、物体対応付け方法及びコンピュータプログラム
US20200252637A1 (en) Moving image processor, moving image processing system, and moving image processing method
JP2019103029A (ja) 情報処理装置、色補正方法、及びコンピュータプログラム
US20160172004A1 (en) Video capturing apparatus

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2020539113

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19952169

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19952169

Country of ref document: EP

Kind code of ref document: A1