Nothing Special   »   [go: up one dir, main page]

WO2011099299A1 - 映像抽出装置、撮影装置、プログラム及び記録媒体 - Google Patents

映像抽出装置、撮影装置、プログラム及び記録媒体 Download PDF

Info

Publication number
WO2011099299A1
WO2011099299A1 PCT/JP2011/000771 JP2011000771W WO2011099299A1 WO 2011099299 A1 WO2011099299 A1 WO 2011099299A1 JP 2011000771 W JP2011000771 W JP 2011000771W WO 2011099299 A1 WO2011099299 A1 WO 2011099299A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
attribute information
unit
evaluation
user
Prior art date
Application number
PCT/JP2011/000771
Other languages
English (en)
French (fr)
Inventor
森岡芳宏
吉田勝彦
竹林広二
山内栄二
安藤慶子
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to JP2011537781A priority Critical patent/JPWO2011099299A1/ja
Priority to US13/578,441 priority patent/US8964065B2/en
Publication of WO2011099299A1 publication Critical patent/WO2011099299A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • H04N5/772Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk
    • H04N21/4325Content retrieval operation from a local storage medium, e.g. hard-disk by playing back content from the storage medium
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/782Television signal recording using magnetic recording on tape
    • H04N5/783Adaptations for reproducing at a rate different from the recording rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal

Definitions

  • the technology disclosed herein is a video extraction device that extracts a portion to be reproduced from a shadow image, a photographing device including the same, a program that extracts a portion to be reproduced from a shadow image, and a program for recording the program
  • the present invention relates to a recording medium.
  • the photographing apparatus evaluates a scene based on video metadata and reproduces a digest that narrows down the number of video scenes and clips based on the evaluation result. .
  • the content of the preferred digest varies greatly depending on the taste of the viewer.
  • the metadata and the evaluation based on the metadata according to Patent Document 1 are unique and do not correspond to user preferences.
  • the video extraction device disclosed herein stores a storage unit that stores attribute information about a video to be extracted from the video, and the attribute stored in the storage unit in order to extract a portion to be digest reproduced from the video.
  • a control unit that extracts information from the video, and at least a part of the attribute information stored in the storage unit is configured to be input by a user.
  • another video extraction device extracts a portion to be digest-reproduced from a storage unit that stores attribute data about the video to be extracted from the video and data corresponding to the evaluation with respect to the attribute information.
  • a control unit that extracts the attribute information stored in the storage unit from the video and evaluates a portion having the attribute information based on the correspondence data, and the attribute information stored in the storage unit and It is assumed that at least a part of the evaluation is configured to be input by the user.
  • another video extraction device includes a storage unit that stores attribute information about the video to be extracted from the video, an input unit that inputs the attribute information to the storage unit according to a user input operation, And a control unit that extracts a portion for digest reproduction from the inside based on the attribute information stored in the storage unit.
  • another video extraction device includes a storage unit that stores attribute data about video to be extracted from the video and data corresponding to the evaluation with respect to the attribute information, and the attribute information and evaluation according to a user input operation.
  • An input unit that inputs at least one of the above to the storage unit, and a control unit that extracts a portion for digest playback from the video based on the attribute information and evaluation stored in the storage unit .
  • the imaging device disclosed herein includes an imaging system that acquires a video and the video extraction device.
  • the program disclosed herein accepts input from at least one user of the attribute information and the evaluation with respect to the attribute information about the video to be extracted from the video and the corresponding data with the evaluation of the attribute information; Extracting the attribute information included in the correspondence data from the video, and extracting a portion for digest playback from the video based on the correspondence data and the extracted attribute information. This is a program to be executed.
  • the recording medium disclosed herein is a computer-readable recording medium that records the program.
  • the video extraction device since the user can arbitrarily input the attribute information, the attribute information reflecting the user's preference can be extracted. By referring to this attribute information, digest playback corresponding to the user's preference can be realized.
  • the user can arbitrarily input at least one of the attribute information and the evaluation, it is possible to evaluate the video reflecting the user's preference. By referring to this evaluation, digest reproduction corresponding to the user's preference can be realized.
  • the photographing apparatus it is possible to realize digest reproduction corresponding to the user's preference.
  • the recording medium it is possible to realize digest reproduction corresponding to the user's preference.
  • FIG. 1 is a perspective view of the video camera according to the present embodiment.
  • FIG. 2 is a block diagram showing a schematic configuration of the video camera.
  • FIG. 3 is a diagram illustrating a configuration of an image captured by the video camera.
  • FIG. 4 is an image diagram showing an example in which a clip is divided into a plurality of scenes.
  • FIG. 5 is a diagram showing a table of correspondence data between various attribute information and evaluation for each attribute information.
  • FIG. 6 is a diagram showing a result of extracting attribute information from a certain video and assigning an evaluation value.
  • FIG. 1 is a perspective view of the video camera according to the present embodiment.
  • FIG. 2 is a block diagram showing a schematic configuration of the video camera.
  • FIG. 3 is a diagram illustrating a configuration of an image captured by the video camera.
  • FIG. 4 is an image diagram showing an example in which a clip is divided into a plurality of scenes.
  • FIG. 5 is a diagram showing a table of correspondence data between various attribute
  • FIG. 7 is a diagram illustrating an example of an image in which a person's face is photographed, where (A) is an image in which the face of the person A is photographed, (B) is an image in which the face of the person B is photographed, (C) shows an image in which the face of the person A and the face of the person B are photographed, and (D) shows an image in which the face of the person A is photographed with many people.
  • FIG. 8 is a diagram showing reproduction information.
  • FIG. 9 is a flowchart showing a flow of processing from shooting, scene evaluation, generation of reproduction information, and recording.
  • FIG. 10 is a flowchart showing the flow of processing during digest playback.
  • FIG. 11 is a table of correspondence data between various types of attribute information and evaluations for each attribute information, showing a relationship between attribute information and evaluation values.
  • FIG. 12 is a diagram showing a result of the scene evaluation unit extracting attribute information from a certain video based on the table of FIG. 11 and assigning an evaluation value.
  • FIG. 13 shows reproduction information.
  • FIG. 14 is a diagram illustrating an example of a selection screen that allows the user to select a mode corresponding to various tables.
  • FIG. 15 is a block diagram illustrating a schematic configuration of the video camera according to the second embodiment.
  • FIG. 16 is a flowchart showing the flow of processing from shooting to attribute information extraction to recording.
  • FIG. 17 is a flowchart showing the flow of processing during digest playback.
  • FIG. 18 is a block diagram showing a schematic configuration of a video camera according to another embodiment.
  • FIG. 1 is a perspective view of a video camera 100A as an example of a photographing apparatus
  • FIG. 2 is a block diagram showing a schematic configuration of the video camera 100A.
  • the video camera 100A captures a video, records it, and plays it back. Further, the video camera 100A extracts a portion for digest reproduction from the video, and further performs digest reproduction.
  • the video camera 100A includes a lens group 200, an image sensor 201, a video AD converter (Analog-to-Digital Converter) 202, a signal processor 203, a video signal compressor 204, a lens control module 205, an attitude detector 206, and an external input.
  • This video camera 100A constitutes a video extraction device and a photographing device.
  • the lens group 200 is composed of a plurality of lenses and forms an image of incident light from the subject on the image sensor 201.
  • the lens group 200 is configured to be able to adjust the distance between a plurality of lenses, and changes the focal length and zoom magnification (image magnification) by changing the distance between the lenses.
  • the adjustment of the focal length and the zoom magnification may be performed manually by the user or automatically performed by the control unit 300 or the like which will be described later.
  • the image sensor 201 converts incident light into an electrical signal.
  • the image sensor 201 is composed of a CCD or a CMOS.
  • the image sensor 201 outputs an electric signal in an arbitrary range on the imaging surface.
  • the image sensor 201 also includes chromaticity space information of the three primary color points, white coordinates, and gain information of at least two of the three primary colors, color temperature information, ⁇ uv (delta uv), and 3 Information such as gamma information of primary colors or luminance signals can also be output. Therefore, the output from the image sensor 201 is input not only to the video AD conversion unit 202 but also to an attribute information extraction unit 305 described later of the control unit 300.
  • the video AD converter 202 converts an analog electric signal output from the image sensor 201 into a digital signal.
  • the signal processor 203 converts the digital signal output from the video AD converter 202 into a predetermined video signal format such as NTSC (National Television System Committee) or PAL (Phase Alternate Line).
  • NTSC National Television System Committee
  • PAL Phase Alternate Line
  • the signal processing unit 203 converts the digital signal from the video AD conversion unit 202 into a digital video signal (video data) that conforms to the number of horizontal lines, the number of scanning lines, and the frame rate specified by NTSC.
  • An output from the signal processing unit 203 is input to the control unit 300.
  • the signal processing unit 203 is configured by, for example, an IC for video signal conversion.
  • the video signal format includes a so-called full high-definition method in which the number of effective pixels in one video frame is 1920 in the horizontal direction and 1080 in the vertical direction, and the number of effective pixels in one video frame is 1280 in the horizontal direction. There is a method that is 720.
  • the video signal compression unit 204 performs predetermined coding conversion on the digital video signal output from the signal processing unit 203 to compress the data amount.
  • Specific examples of encoding conversion include encoding schemes such as MPEG (Moving Picture Experts Group) 2, MPEG4, and H264.
  • An output from the video signal compression unit 204 is input to the control unit 300.
  • the video signal compression unit 204 is composed of, for example, an IC for signal compression / decompression.
  • the lens control module 205 detects the state of the lens group 200 and operates the lens group 200.
  • the lens control module 205 has a lens control motor and a lens position sensor.
  • the lens position sensor detects distances or positional relationships between a plurality of lenses constituting the lens group 200.
  • the lens position sensor outputs the detection signal to the control unit 300.
  • the lens control module 205 has two types of lens control motors. One lens control motor moves the lens group 200 in the optical axis direction based on a control signal from the control unit 300. Thereby, the distance between the plurality of lenses of the lens group 200 is changed, and the focal length and zoom magnification of the lens group 200 are adjusted.
  • the other lens control motor moves at least one lens (lens for image blur correction) in the lens group 200 within a plane orthogonal to the optical axis based on a control signal from the control unit 300. Thereby, image blur is corrected.
  • the posture detection unit 206 detects the posture of the video camera 100A main body.
  • the posture detection unit 206 includes an acceleration sensor, an angular velocity sensor, and an elevation angle / decline angle sensor. With these sensors, it is possible to recognize the posture of the video camera 100A during shooting. Note that it is preferable that the acceleration sensor and the angular velocity sensor can detect the postures in three orthogonal directions (vertical direction, front-rear direction, and left-right direction) of the video camera 100A in order to detect the posture of the video camera 100A in detail.
  • a signal from the posture detection unit 206 is input to the control unit 300.
  • the posture detection unit 206 is not limited to the above-described configuration, and may include only one of the above-described sensors, or may include a sensor other than the above-described sensor.
  • the external input unit 207 is a means for inputting information from the outside to the video camera 100A.
  • a signal from the external input unit 207 is input to the control unit 300.
  • the signal from the external input unit 207 is input only to the attribute information extraction unit 305 of the control unit 300, but is also input to the part corresponding to the input operation of the lens control unit 310 and the like.
  • various information from the outside is input to the video camera 100A via the external input unit 207.
  • the external input unit 207 is an input button that is one of input interfaces for receiving input of information from the user, a reception unit that receives shooting index information input from the outside via communication, and the video camera 100A.
  • the tripod sensor includes a tripod sensor that detects whether or not it is installed on a tripod. For example, when a user operates an input button, various requests from the user are recorded such as start and end of shooting, insertion of markings into the video being shot, and input and setting of attribute information and its evaluation described later. This can be transmitted to the camera 100A. That is, the external input unit 207 constitutes an input unit that inputs at least one of attribute information and evaluation described later to the storage unit 330 in accordance with a user input operation.
  • the shooting index information is, for example, an identification number used for identifying each shooting such as a number for identifying a shooting scene at the time of shooting a movie or a number indicating the number of shootings.
  • the tripod sensor is composed of a switch provided at a portion where the tripod of the video camera 100A is fixed. With a tripod sensor, it can be determined whether or not shooting is performed using a tripod.
  • the microphone 208 converts sound around the video camera 100A into an electric signal and outputs it as an audio signal.
  • the audio AD conversion unit 209 converts an analog audio signal output from the microphone 208 into a digital audio signal (audio data).
  • the audio signal compression unit 210 converts the digital audio signal output from the audio AD conversion unit 209 using a predetermined encoding algorithm. For encoding, there are methods such as MP3 (MPEG Audio Layer-3) and AAC (Advanced Audio Coding).
  • the audio signal compression unit 210 is constituted by a compression IC, for example.
  • the video signal decompression unit 211 combines the video signal output from the control unit 300.
  • the output from the video signal expansion unit 211 is input to the video display unit 212.
  • the video signal expansion unit 211 is constituted by, for example, an IC for video signal expansion.
  • the video display unit 212 displays video recorded in the video camera 100A and video captured in real time by the video camera 100A.
  • the video camera 100A displays various types of information such as information relating to shooting and device information.
  • the video display unit 212 is configured by, for example, a touch panel type liquid crystal display. As described above, the touch panel video display unit 212 also functions as the external input unit 207.
  • the audio signal expansion unit 213 combines the audio signal output from the control unit 300.
  • the output from the audio signal expansion unit 213 is input to the audio output unit 214.
  • the audio signal expansion unit 213 is configured by an audio signal expansion IC, for example.
  • the audio output unit 214 outputs audio accompanying the video. In addition, the audio output unit 214 outputs a warning sound to notify the user from the video camera 100A.
  • the audio output unit 214 is constituted by a speaker, for example.
  • the output I / F 215 is an interface for outputting a video signal from the video camera 100A to the outside.
  • the output I / F 215 is a cable interface when the video camera 100A is connected to an external device with a cable, a memory card interface when a video signal is recorded on a memory card, or the like.
  • the control unit 300 controls the entire video camera 100A.
  • the control unit 300 includes an image sensor 201, a signal processing unit 203, a video signal compression unit 204, a lens control module 205, an attitude detection unit 206, an external input unit 207, an audio AD conversion unit 209, an audio signal compression unit 210, and a video signal decompression.
  • the unit 211, the audio signal expansion unit 213, the output I / F 215, the storage unit 330, and the like are configured to be able to exchange signals.
  • the control unit 300 is composed of a CPU.
  • the control unit 300 executes various controls of the video camera 100A by reading and executing a program stored in the storage unit 330.
  • control executed by the control unit 300 include, for example, control of the focal length and zoom of the lens group 200, processing of input signals from the posture detection unit 206 and the external input unit 207, signal processing unit 203, and video signal.
  • This is operation control of ICs such as the compression unit 204, the audio signal compression unit 210, the video signal expansion unit 211, and the audio signal expansion unit 213.
  • the signal is appropriately AD-converted or DA-converted between the control unit 300 and the lens control module 205 or the like.
  • the control unit 300 can also be configured by an integrated circuit such as an IC.
  • the clock 320 outputs a clock signal serving as a reference for processing operation to the control unit 300 or the like operating in the video camera 100A.
  • the clock 320 may be a single clock or a plurality of clocks depending on the integrated circuit to be used and data to be handled. Further, an arbitrary multiple of the clock signal of one oscillator may be used.
  • the storage unit 330 includes a ROM (Read Only Memory), a RAM (Random Access Memory), and an HDD (Hard Disk Drive).
  • the ROM stores a program processed by the control unit 300 and various data for operating the program.
  • the RAM is used as a memory area used when executing a program processed by the control unit 300.
  • the RAM can also be used as a memory area of the IC.
  • the HDD stores various data such as video data and still image data encoded and converted by the video signal compression unit 204. Further, the HDD stores a program executed by the control unit 300. Note that this program is not limited to the HDD, and may be stored in a semiconductor memory, or may be stored in a portable recording medium such as a CD-ROM or DVD.
  • control unit 300 will be described in detail. Here, a configuration necessary for performing digest reproduction in the control unit 300 will be described. However, the control unit 300 also has a configuration for exhibiting the same function as that of a general video camera, for example, a configuration for recording or playing back a captured video.
  • the control unit 300 includes a lens control unit 301 that controls the lens control module 205, an imaging control unit 302 that controls the imaging element 201, a video analysis unit 303 that analyzes the output from the signal processing unit 203, and an audio AD conversion unit.
  • An audio analysis unit 304 that analyzes the output from 209, an attribute information extraction unit 305 that extracts attribute information in the video, a scene evaluation unit 306 that evaluates a scene, and playback information that generates playback information for digest playback It has a generation unit 307, a multiplexing unit 308 that multiplexes video data and audio data, and a digest reproduction unit 309 that performs digest reproduction.
  • the control unit 300 implements various processes to be described later by reading and executing a program stored in the storage unit 330.
  • the lens control unit 301 receives the detection signal of the lens position sensor of the lens control module 205 and the detection signal of various sensors of the posture detection unit 206.
  • the lens control unit 301 outputs a control signal for properly arranging the lens group 200 to the lens control motor based on these detection signals and information from other components such as the image sensor 201.
  • the lens control unit 301 performs zoom control, focus control, image blur correction control, and the like.
  • the lens control unit 301 outputs a control signal for the lens group 200 to the attribute information extraction unit 305. Note that detection signals from various sensors of the posture detection unit 206 are also output to the attribute information extraction unit 305.
  • the imaging control unit 302 controls the operation of the imaging element 201. For the image sensor 201, the amount of exposure at the time of shooting, the shooting speed, sensitivity, and the like are controlled.
  • the control signal output from the imaging control unit 302 is output not only to the image sensor 201 but also to the attribute information extraction unit 305.
  • the video analysis unit 303 extracts video features based on the video data from the signal processing unit 203.
  • the video analysis unit 303 detects video color information (for example, detection of a color distribution included in the video) and white balance information.
  • the color distribution can be detected by confirming color information included in the data forming the digital video signal.
  • the video analysis unit 303 detects a face from the video when the video includes a human face. Face detection can be realized by using pattern matching or the like.
  • the voice analysis unit 304 analyzes the voice data from the voice AD conversion unit 209 and extracts characteristic sounds.
  • the characteristic sounds here include, for example, a photographer's voice, pronunciation of a specific word, cheers, gunshots, and the like. These sounds can be extracted by a method of registering in advance a unique frequency of these sounds (speech) and discriminating them by comparison with them. In addition to this, for example, it may be determined that the sound is characteristic when the sound input level is equal to or higher than a predetermined level.
  • the attribute information extraction unit 305 extracts attribute information about the video.
  • the attribute information is information representing video attributes, and is information relating to shooting (hereinafter also referred to as “shooting information”), external input information, and other information.
  • the attribute information extraction unit 305 is input with output signals from the image sensor 201, posture detection unit 206, external input unit 207, lens control unit 301, imaging control unit 302, video analysis unit 303, and audio analysis unit 304. .
  • the attribute information extraction unit 305 extracts attribute information based on these output signals.
  • the attribute information relating to the video includes attribute information relating to the state of the imaging device at the time of shooting the video and shooting such as camera work, attribute information relating to the video when the video is generated by CG, and attribute information relating to the subject and background included in the video itself. , Attribute information related to audio attached to the video, and attribute information related to video editing contents when editing video by an editing machine or the like.
  • examples of attribute information related to the photographing apparatus at the time of photographing include focal length, zoom magnification, exposure, photographing speed, sensitivity, color space information of three primary colors, white balance, gain information of at least two of the three primary colors, color Temperature information, ⁇ uv (delta uv), gamma information of three primary colors or luminance signals, color distribution, face recognition information, camera posture (acceleration, angular velocity, elevation angle, depression angle, etc.), shooting time (shooting start time, end time), shooting Examples include index information, user input, frame rate, sampling frequency, and the like.
  • the attribute information extraction unit 305 extracts a focal length and a zoom magnification as attribute information based on a control signal from the lens control unit 301.
  • the attribute information extraction unit 305 detects a camera posture (acceleration, angular velocity, elevation angle, depression angle, etc.) based on the detection signal of the posture detection unit 206, and a video camera at the time of shooting pan, tilt, etc. from the camera posture 100A camera work is extracted as attribute information. Furthermore, based on these camera works, a fixed shooting part after camera work (a part shot with the video camera 100 stationary) can be extracted as attribute information. As described above, the attribute information extraction unit 305 may extract the attribute information from the input signal itself, or may extract the attribute information by combining or analyzing the input signal.
  • the scene evaluation unit 306 evaluates the portion of the video including the attribute information and assigns the evaluation (value) to the portion. Details of this evaluation will be described later.
  • the reproduction information generation unit 307 selects a part (scene) to be reproduced and specifies information (hereinafter referred to as “reproduction information”) for specifying a part to be digest reproduced. Generate. Details of the reproduction information will be described later.
  • the multiplexing unit 308 multiplexes and outputs the encoded video data from the video signal compression unit 204, the encoded audio data from the audio signal compression unit 210, and the reproduction information from the reproduction information generation unit 307.
  • the data multiplexed by the multiplexing unit 308 is stored in the storage unit 330.
  • a multiplexing method for example, there is a technique such as MPEG TS (Transport Stream). However, it is not limited to this. In this embodiment, the case of multiplexing is shown as an example, but it is not always necessary to multiplex.
  • the processing of the attribute information extraction unit 305, the scene evaluation unit 306, the reproduction information generation unit 307, and the multiplexing unit 308 is sequentially performed during shooting, specifically during shooting or immediately after shooting.
  • the digest playback unit 309 performs digest playback based on user input after the end of shooting. Specifically, the digest reproduction unit 309 reads the multiplexed data stored in the storage unit 330, and in accordance with the reproduction information, the video signal decompression unit 211 respectively encodes the encoded video data and the encoded audio data to be digest-reproduced. And output to the audio signal expansion unit 213. The output encoded video data and encoded audio data are decoded by the video signal expansion unit 211 and the audio signal expansion unit 213, respectively, and output from the video display unit 212 and the audio output unit 214. In this way, digest reproduction in which only a specific part is extracted from the video is executed.
  • the digest video may be stored in the storage unit 330.
  • FIG. 3 is a diagram showing a configuration of an image captured by the video camera 100A
  • FIG. 4 shows an example in which a clip is divided into a plurality of scenes.
  • each scene is specified by “start time” and “end time”, but each scene may be specified by a frame number (start frame number and end frame number of a scene) or the like.
  • the unit of video shot until the user instructs to start shooting and ends shooting or pauses shooting is “clip”. That is, when the user repeats the start of shooting, the end of shooting, or the pause many times, a plurality of clips are generated.
  • One clip is composed of one or more “scenes”.
  • a “scene” is a series of logically connected images, and is composed of one or more “frames”.
  • a “frame” is an individual image that is a minimum unit constituting a video.
  • one “clip” can be regarded as one “scene”.
  • a “scene” may be set on the boundary that the screen changes greatly. For example, when the video analysis unit 303 calculates a motion vector between frames and the magnitude of motion (that is, change in motion vector) is larger than a predetermined value, the boundary of the “scene” may be used. That is, the video between the two boundaries set in this way becomes one “scene”.
  • the “scene” may be divided based on other shooting information or the like.
  • the “scene” may be divided by a button input from the photographer. In this case, the “scene” in the “clip” is configured with the clear intention of the photographer.
  • the “clip” includes a continuous “scene” as shown in FIG.
  • only a specific part in the “clip” can be regarded as a “scene”.
  • an important part of the video can be regarded as a “scene”.
  • a part including specific attribute information may be regarded as one “scene”.
  • a video having a predetermined time width including attribute information assumed to be important is defined as a “scene”.
  • only important parts are extracted as “scenes”.
  • the “clip” includes discrete “scenes”.
  • the “scene” can be set arbitrarily.
  • an important part of the video is regarded as a “scene”.
  • FIG. 5 is a table of correspondence data of various attribute information and evaluation for each attribute information used when evaluating a video. This table is stored in the storage unit 330. The scene evaluation unit 306 evaluates the video using this table.
  • an evaluation value is set for each attribute information.
  • the higher the evaluation value the higher (preferred) the evaluation.
  • clip-in (shooting start part) and clip-out (immediately before shooting end part) are introductory and important parts of the video, and it is estimated that the logical meaning of the video is high.
  • the evaluation value “100” is set for in (A), and the evaluation value “90” is set for clip-out (F). Since zoom-up (D) and zoom-down (G) as camera work at the time of shooting increase the degree of attention to a specific subject, an evaluation value “30” is set.
  • the fact that a face has been detected is often set to an evaluation value “50” because photographing is often performed on a person. Further, among the face detections, the fact that the face of the specific person A is detected (X) is set with an evaluation value of “100”, and the face of the specific person B is detected (Y) The value “80” is set.
  • the user's face and the evaluation value for the face can be appropriately set by the user, as will be described in detail later. That is, it is not only that a person is photographed, but a high evaluation value can be assigned to a video image of a specific person with the intention of the user.
  • the evaluation may include not only positive evaluation, that is, favorable evaluation, but also negative evaluation, that is, unfavorable evaluation. For example, since the image blur may be a video that is difficult for the viewer to see, a negative evaluation value is assigned to a scene having such attribute information.
  • evaluation is digitized, it is not restricted to this.
  • codes such as A, B, C,... May be used for evaluation. Superiority or inferiority is determined in advance for the codes used for evaluation (for example, A has the highest evaluation).
  • evaluation of codes such as A, B, and C can be freely set by the user's intention.
  • the scene evaluation unit 306 assigns an evaluation value corresponding to the attribute information to the part of the video from which the attribute information is extracted by the attribute information extraction unit 305 based on the table.
  • the scene evaluation unit 306 extracts a predetermined number of scenes based on the evaluation value.
  • the scene evaluation unit 306 extracts in advance a characteristic video portion that can be used for digest playback as a scene more than the number of scenes to be digest played back.
  • the scene evaluation unit 306 extracts a video having a predetermined time width including a portion having attribute information with a high evaluation value as one scene.
  • the scene evaluation unit 306 extracts a predetermined number of scenes in descending order of evaluation values.
  • the predetermined number may be arbitrarily set by the user, or may be set in advance as a fixed value.
  • the scene extraction method described above is an example, and the scene may be extracted by a different method.
  • a part having attribute information with a high evaluation value may not be extracted as a scene when a part including the same attribute information in a previous video is extracted as a scene. By doing so, it is possible to prevent only scenes having the same attribute information from being extracted.
  • a part having specific attribute information for example, face detection of the person A, face detection of the person B, etc. may be preferentially extracted as a scene.
  • the scene evaluation unit 306 extracts a scene to be digest-reproduced from the extracted scenes based on a predetermined extraction condition. For example, if the extraction condition is three in descending order of evaluation value, the scene evaluation unit 306 extracts the three scenes with the highest evaluation value. This number can be arbitrarily set by the user. Also, if the extraction condition is such that the evaluation time is extracted in descending order of the evaluation value and the total time becomes the predetermined time, the scene evaluation unit 306 determines that the evaluation value is higher in order so that the total time becomes the predetermined time. Extract sequentially from the scene.
  • the predetermined time may be set to a predetermined value in advance, or may be arbitrarily set by the user.
  • the scene evaluation unit 306 extracts scenes whose evaluation value is equal to or greater than the predetermined value regardless of the number and the total time.
  • the predetermined value can be arbitrarily set by the user.
  • the scene evaluation unit 306 can extract a scene from various viewpoints based on the assigned evaluation value.
  • the extraction condition may be set by the user as appropriate, or may be set in advance.
  • an evaluation value assigned to the content of each attribute information may be added to obtain an evaluation value of the scene.
  • the highest evaluation value among a plurality of attribute information may be used as the evaluation value of the scene.
  • the table of attribute information and evaluation values is not limited to the one that the video camera 100A has only one. That is, the video camera 100A may have a plurality of tables of attribute information and evaluation values, and appropriately select a table used for scene evaluation. For example, the video camera 100A selects an optimal table from a plurality of tables of attribute information and evaluation values according to the shooting mode (for example, landscape shooting, person (portrait) shooting, sports shooting, still life shooting, etc.). You may comprise so that it may select. In addition, as a configuration for appropriately setting an appropriate table according to the shooting situation in this way, a one-to-one table is not prepared in advance for each shooting situation, but rather than the type of shooting situation.
  • the shooting mode for example, landscape shooting, person (portrait) shooting, sports shooting, still life shooting, etc.
  • a plurality of tables may be combined (e.g., each evaluation value is added at a constant ratio) according to the shooting situation.
  • the table corresponding to the shooting situation may be set by changing the weight of each table at the time of synthesis (for example, the ratio at the time of addition).
  • FIG. 6 is a diagram showing a result of the scene evaluation unit 306 extracting attribute information from a certain video and assigning an evaluation value.
  • the horizontal axis in FIG. 6 represents time (scene), and the vertical axis represents the evaluation value.
  • the portion near time 0 has “clip-in” attribute information A meaning that it is immediately after the start of shooting, and an evaluation value “100” is given.
  • the part having attribute information B is a part from which a specific voice is extracted.
  • the extraction of the specific voice is performed by the voice analysis unit 304.
  • An evaluation value “50” is assigned to the portion having the attribute information B.
  • the portion having the attribute information C is a portion where the user is shooting still after panning or tilting the video camera 100A. Since it can be determined that the portion after camera work such as pan and tilt has high value as a video, such still shooting after camera work is set as attribute information. An evaluation value “40” is assigned to the portion having the attribute information C.
  • the part having the attribute information D is a part that is photographed by zooming up or down.
  • the zoom-up or zoom-down reflects the user's intention regarding shooting and can be determined to be important, so it is set as attribute information.
  • An evaluation value “30” is assigned to the portion having the attribute information D.
  • the evaluation value may be changed between zoom-up and zoom-down. For example, the evaluation value may be set higher because it is determined that zooming up has a greater intention to gaze at a subject to be photographed than zooming down.
  • the part having the attribute information E is a part where the video camera 100A was shot while panning, tilting, or the like. Camera work such as panning and tilting is set as attribute information because it can be determined that the shooting intention of the user who wants to follow the shooting target is reflected. An evaluation value “25” is assigned to the portion having the attribute information E.
  • the part having the attribute information I is a part where the image is accompanied by image blurring. In this case, since the video is shaking, the video tends to be difficult for viewers to see. Therefore, a negative evaluation value is given. Specifically, the evaluation value “ ⁇ 20” is assigned to the portion having the attribute information I.
  • the part having the attribute information J is a part where the ground is photographed. This is a phenomenon that is likely to occur when the user is walking with the video camera 100A in his / her hand while continuing to shoot without pressing the shooting stop button. In this case, since it can be determined that the user's special intention is not reflected in the video, a negative evaluation value is assigned. Specifically, the evaluation value “ ⁇ 10” is assigned to the portion having the attribute information J.
  • the part having the attribute information X is a part in which the face of the person A is reflected.
  • the video analysis unit 303 recognizes that the subject in the captured video is a person's face, and the recognized face matches the face of a specific person stored in the storage unit 330 or the like in advance. It is determined whether or not. Based on this result, the scene evaluation unit 306 can extract a part in which the face of a specific person is captured from the video. An evaluation value “100” is assigned to the portion having the attribute information X.
  • the part having the attribute information Y is a part in which the face of the person B is reflected. Like the face of the person A, the face of the person B is stored in advance in the storage unit 330 or the like. An evaluation value “80” is set in the portion having the attribute information Y.
  • the portion having the attribute information Z is a portion in which a person's face is reflected, but the face does not match any face of any person registered in advance.
  • An evaluation value “50” is set in the portion having the attribute information Z.
  • FIGS. 7A to 7D there are cases as shown in FIGS. 7A to 7D as examples of images in which a person's face is photographed.
  • the scene evaluation unit 306 has an evaluation value set in advance in the table (FIG. 5). In the example, “100” is assigned to the face of the person A, and “80” is assigned to the face of the person B).
  • the scene evaluation unit 306 uses the evaluation value with the higher evaluation value of the faces of the persons A and B. It is good also as an evaluation value.
  • “100” that is the evaluation value of the face of the person A is the evaluation value. 6 is a portion where the faces of both the person A and the person B are shown.
  • an average of both evaluation values may be used as the evaluation value. In the example of FIG. 5, the evaluation value is “90” from (100 + 80) / 2.
  • a distribution ratio may be set for each evaluation value and summed up.
  • the distribution ratio may be set for each evaluation value such that the larger the face size on the video is, the higher the distribution ratio is.
  • the evaluation value is “92” from (100 ⁇ 5 + 80 ⁇ 3) / 8. .5 ".
  • the size of the face on the image reflects the distance from the camera to the subject. According to this method, a large distribution ratio can be set for nearby subjects to increase the degree of influence. it can.
  • the distribution ratio may be set for each evaluation value according to the center position of the faces of the persons A and B and the distance from the center of the screen or the salient area (Saliant area) on the screen. Specifically, the distribution ratio may be higher as the distance is shorter.
  • region is an area
  • FIG. 7D when a large number of persons (more than a predetermined number) are photographed as subjects, the face of the person A is photographed, but the size on the screen is small. Because it is taken together with many other people, it may be difficult to differentiate from the faces of other people. In such a case, a distribution ratio may be set and added to the evaluation value of the face of the person A and the evaluation value of the face of another person according to the number of people who are photographed. In the example of FIG. 7D, since there are 10 persons other than the person A who cannot be identified, the evaluation value “54.5” is given from (100 ⁇ 1 + 50 ⁇ 10) / 11.
  • For face detection evaluate the position on the screen, face size, face orientation, smile level, eye opening / closing information, face emotion level information, and increase or decrease the evaluation value accordingly. You may let them.
  • the scene evaluation unit 306 extracts six scenes in descending order of evaluation value.
  • six scenes are labeled # 1 to # 6 in order of time.
  • the scene evaluation unit 306 extracts # 1, # 2, and # 5 scenes with the highest evaluation values as scenes to be digest-reproduced based on the extraction condition of three in descending order of evaluation values.
  • the reproduction information generation unit 307 generates reproduction information that is information for specifying a scene to be digest reproduced according to the scene extracted by the scene evaluation unit 306.
  • the reproduction information may be indicated by the start time and end time of the scene to be reproduced as shown in FIG.
  • storing a representative frame in each scene is effective for searching the reference screen.
  • the reproduction information is not limited to the above contents, and for example, a scene to be reproduced may be specified by a frame number.
  • the position (location) of the corresponding scene in the multiplexed data generated by the multiplexing unit 308 described later may be used as the scene specification.
  • reproduction information may be generated using time information such as PTS and DTS.
  • time information such as PTS and DTS.
  • AVCHD Advanced Video Codec High Definition
  • FIG. 9 is a flowchart showing the flow of processing from shooting, scene evaluation, generation of reproduction information, and recording.
  • the control unit 300 of the video camera 100A starts shooting in step S101.
  • Shooting is started based on an input from the external input unit 207 such as an input button.
  • the attribute information extraction unit 305 determines the video attribute based on the detection result of the posture detection unit 206, the control information of the lens control unit 301, the analysis results of the video analysis unit 303 and the audio analysis unit 304, and the like. Extract information.
  • step S103 the scene evaluation unit 306 assigns an evaluation value to each part of the video based on the attribute information extracted by the attribute information extraction unit 305. Thereafter, the scene evaluation unit 306 extracts some characteristic scenes, and further extracts a scene to be digest reproduced from them.
  • step S104 the reproduction information generation unit 307 generates reproduction information based on the scene to be digest reproduced extracted by the scene evaluation unit 306. Then, the multiplexing unit 314 multiplexes the generated reproduction information together with the encoded video data and the encoded audio data.
  • the control unit 300 stores the multiplexed data in the storage unit 330 in step S105.
  • step S106 the control unit 300 determines whether or not there is an end of photographing from the external input unit 207. If there is no input for the end of shooting, the process returns to step S102 to continue shooting. On the other hand, if there is an input for the end of shooting, shooting is ended.
  • the digest playback unit 309 reads the playback information stored in the storage unit 330, and performs digest playback based on the read information. Specifically, the digest playback unit 309 corresponds to the video and audio information stored in the storage unit 330 based on information such as the start time and end time of each scene to be digest played as shown in FIG. Extract partial scenes.
  • FIG. 10 is a flowchart showing the flow of processing during digest playback.
  • the digest reproduction unit 309 reads the multiplexed data stored in the storage unit 330 in step S201.
  • step S202 the digest reproduction unit 309 decomposes the read multiplexed data and extracts reproduction information.
  • step S203 the digest reproduction unit 309 outputs the encoded video data and the encoded audio data to be reproduced to the video signal decompression unit 211 and the audio signal decompression unit 213 based on the extracted reproduction information. Video and audio are reproduced via the display unit 212 and the audio output unit 214.
  • digest playback is performed by extracting only a specific scene from the video.
  • the face detection of the person A and the face detection of the person B in the above description are additionally set by the user. That is, the user registers the face detection of the person A as new attribute information in the table previously provided in the video camera 100A, registers the evaluation value, and further detects the face detection of another person B with the new attribute. It is registered as information and its evaluation value is also registered. As a result, it is possible not only to detect a person's face but also to detect a face of a specific person in more detail.
  • the face recognition table is stored in the storage unit 330 in advance.
  • the face recognition table is configured such that ID, face image, person name, and evaluation value are set as one set, and only a plurality of sets (for example, 6 sets) can be registered.
  • the ID and the evaluation value are set in advance, and the user registers the face and name of a specific person as appropriate.
  • the control unit 300 prompts the user to photograph the face of the person to be registered for a predetermined time (for example, 3 seconds) or more.
  • the message is displayed on the video display unit 212.
  • the control unit 300 causes the video display unit 212 to display a message asking which ID in the face recognition table the face of the person is to correspond to. An evaluation value has already been set for each ID.
  • the evaluation value of ID1 is the highest at “100”, and the evaluation value is set to be smaller as the ID number is larger. Has been. That is, associating a person's face to be registered with an ID is equivalent to setting the evaluation value of the person's face.
  • the control unit 300 next causes the video display unit 212 to display a message that prompts the user to input the name of the person.
  • the ID, the face image of a specific person, the name, and the evaluation value are set in the face recognition table.
  • the evaluation value is set in advance, but the evaluation value may be arbitrarily input by the user. In that case, a message prompting the user to input an evaluation value may be displayed on the video display unit 212 so that the user can input the evaluation value.
  • Attribute information and evaluation correspondence data set in this way are used in various ways based on user selection. For example, in the above example, it is set as attribute information that the face of the person A, the face of the person B, and the face of the other person are detected, but the person who is the detected face is identified. Instead, the fact that a person's face has been detected can be extracted as attribute information. That is, the video camera 100A does not specify a person, and simply extracts as a piece of attribute information that a face has been detected, and a specific mode extracts as a piece of attribute information that a face of a specific person has been detected. Have In the specific mode, it is also possible to select a face to be extracted as attribute information from registered human faces.
  • control unit 300 causes the video display unit 212 to display a registered person's face image, name, or ID.
  • the user operates the video display unit 212 to select a human face to be extracted as attribute information.
  • the control unit 300 extracts the face of the selected person as attribute information.
  • the conditions for extracting face detection as attribute information may be changed between the normal mode and the specific mode. That is, in the normal mode, it is extracted as attribute information when a face of an unspecified person is captured in the video for a predetermined first time or more.
  • the specific mode the face of a specific person (for example, the person A) is captured for a second time or shorter than the first time (for example, is captured only for one frame) during shooting. It is extracted as attribute information. That is, in the normal mode, detection of a face is set as attribute information from the idea that a person is generally more important as a shooting target than a landscape or the like.
  • the specific mode is clear and strong for the user who wants to extract a video showing a specific person's face rather than whether the specific person's face is more important than other shooting targets such as landscapes. This mode reflects the intention. Therefore, the importance of face detection in the specific mode is higher than that in the normal mode. Therefore, in the specific face detection mode, the condition for certifying that a face has been detected is relaxed compared to the usual face detection mode.
  • the importance of the face of a specific person may be increased by making the evaluation value of the face of a specific person higher than the evaluation value of an unspecified face without changing the face detection conditions.
  • FIG. 11 is a table of correspondence data of various attribute information and evaluation for each attribute information used when evaluating a video.
  • FIG. 12 shows a scene evaluation unit 306 based on the table of FIG. It is the figure which showed the result of having extracted the attribute information from the image
  • the horizontal axis represents time (scene), and the vertical axis represents the evaluation value of each scene.
  • FIG. 13 shows reproduction information generated from the evaluation based on the table of FIG.
  • the evaluation value of the attribute information for the face detection of the person A is “60”, whereas the evaluation value of the attribute information for the face detection of the person B is “90”.
  • the result shown in FIG. 12 is obtained. Specifically, compared with the evaluation using the table of FIG. 5, the evaluation of the scene # 2 is lowered and the evaluation of the scene # 4 is increased.
  • scene # 4 is added to the digest instead of scene # 2 in FIG. 8, as shown in FIG.
  • the change of the evaluation value as described above may be performed by the user rewriting the evaluation value of the table, or tables having different evaluation values (the table in FIG. 5 and the table in FIG. 11) are prepared in advance and switched. It may be.
  • a selection screen for allowing the user to select a mode corresponding to various tables is displayed on the video display unit 212, and the user can select the external input unit 207.
  • the mode may be selected via the button.
  • various tables may be displayed on the video display unit 212 so that the user can select a table.
  • the table prepared in advance may be created in advance by direct input of attribute information or evaluation values by the user.
  • digest reproduction reflecting user preference can be performed by allowing the user to arbitrarily input at least one of attribute information and evaluation.
  • the user since the user can additionally set attribute information, it is possible to reproduce a video that better matches the user's preference as a digest.
  • the video camera 100 includes an external input unit 207 that inputs attribute information about a video, and extracts the attribute information from the video in order to extract a portion to be digest-reproduced. And a control unit 300 that extracts from the control unit 300.
  • the user can appropriately input the attribute information used for extracting the portion to be digest-reproduced from the video.
  • a video that matches the user's preference can be reproduced as a digest.
  • the video camera 100 also includes an external input unit 207 that inputs at least one of the attribute information and the evaluation according to a user input operation with respect to the attribute information about the video and the data corresponding to the evaluation with respect to the attribute information.
  • the control unit 300 extracts the attribute information from the video and evaluates the portion having the attribute information based on the corresponding data. Thereby, the user can appropriately input the attribute information and / or the evaluation value used for extracting the portion to be digest reproduced from the video. As a result, a video that matches the user's preference can be reproduced as a digest.
  • attribute information of a lower concept called face detection of a specific person with respect to attribute information called face detection (face detection without specifying a person) in advance, the user's deeper preference can be set.
  • face detection face detection without specifying a person
  • attribute information such as clip-in, clip-out, zoom-up, and the like
  • fixed attribute information and user's preference are likely to appear, such as detection of a specific person's face.
  • attribute information variable attribute information the processing can be simplified. In other words, if all the attribute information is variable, control contents (input of attribute information, extraction of attribute information, etc.) and memory capacity corresponding to various attribute information must be prepared, and the processing becomes complicated. End up. On the other hand, by narrowing down variable attribute information to some extent, it is possible to reduce control contents and memory capacity prepared in advance, and the process is simplified.
  • attribute information such as the attitude of the video camera 100A is difficult to determine from the video afterwards, or is possible but troublesome, and can be easily detected by a detection signal of a sensor at the time of shooting. . That is, some attribute information is easier to detect at the time of shooting. Therefore, such attribute information can be easily extracted by extracting the attribute information at the time of shooting.
  • the video recorded on the imaging device such as the video camera 100A is a video just taken without being edited. Therefore, there are many videos with low importance, and the digest playback as described above is very effective.
  • FIG. 15 is a block diagram showing a schematic configuration of the video camera 100B.
  • the video camera 100B is different from the video camera 100A of the first embodiment in that a scene to be reproduced is selected when performing digest reproduction.
  • the basic configuration of the video camera 100B is substantially the same as that of the video camera 100A, and the data flow, that is, the processing order is different from that of the video camera 100A. Therefore, the same configurations as those of the first embodiment are denoted by the same reference numerals, description thereof is omitted, and different portions are mainly described.
  • the processing until the attribute information extraction unit 305 extracts the attribute information is the same as that of the first embodiment.
  • the attribute information extracted by the attribute information extraction unit 305 is input to the multiplexing unit 308.
  • the multiplexing unit 308 multiplexes the encoded video data from the video signal compression unit 204, the encoded audio data from the audio signal compression unit 210, and the attribute information from the attribute information extraction unit 305, and outputs the multiplexed data.
  • the multiplexed data is stored in the storage unit 330.
  • the scene evaluation unit 306 reads the multiplexed data from the storage unit 330, assigns an evaluation to each part of the video based on the attribute information, and a characteristic scene from the video And a scene to be digest-reproduced is further extracted therefrom.
  • the playback information generation unit 307 generates playback information based on the scene extracted by the scene evaluation unit 306 and outputs the playback information to the digest playback unit 309.
  • the digest reproduction unit 309 reads out corresponding data from the storage unit 330 based on the reproduction information generated by the reproduction information generation unit 307, and outputs the data to the video signal expansion unit 211 and the audio signal expansion unit 213. Then, the digest video is reproduced by the video display unit 212 and the audio output unit 214.
  • FIG. 16 is a flowchart showing the flow of processing from shooting to attribute information extraction to recording.
  • FIG. 17 is a flowchart showing the flow of processing during digest playback.
  • step S301 the control unit 300 of the video camera 100A starts shooting. Shooting is started based on an input from the external input unit 207 such as an input button.
  • the attribute information extraction unit 305 determines the video attribute based on the detection result of the posture detection unit 206, the control information of the lens control unit 301, the analysis results of the video analysis unit 303 and the audio analysis unit 304, and the like. Extract information.
  • the multiplexing unit 314 multiplexes the attribute information together with the encoded video data and the encoded audio data.
  • the control unit 300 stores these multiplexed data in the storage unit 330.
  • step S106 the control unit 300 determines whether or not there is an end of photographing from the external input unit 207. If there is no input for the end of shooting, the process returns to step S302 to continue shooting. On the other hand, if there is an input for the end of shooting, shooting is ended.
  • the scene evaluation unit 306 reads the multiplexed data stored in the storage unit 330 in step S401.
  • step S402 the scene evaluation unit 306 decomposes the read multiplexed data and reads the attribute information. Subsequently, in step S403, the scene evaluation unit 306 assigns an evaluation value to each part of the video based on the attribute information. In step S404, the scene evaluation unit 306 determines whether evaluation of all parts of the video has been completed. If not completed, the scene evaluation unit 306 returns to step S401 and continues to evaluate the video. On the other hand, if the evaluation has been completed, the scene evaluation unit 306 proceeds to step S405.
  • step S405 the scene evaluation unit 306 extracts some characteristic scenes from the video based on the evaluation value, and further extracts a scene to be digest-reproduced from the scenes. Then, the reproduction information generation unit 307 generates reproduction information based on the scene to be digest reproduced extracted by the scene evaluation unit 306.
  • step S406 the digest reproduction unit 309 reads out the encoded video data and encoded audio data to be reproduced from the storage unit 330 based on the reproduction information, and sends them to the video signal expansion unit 211 and the audio signal expansion unit 213.
  • the video and audio are reproduced via the video display unit 212 and the audio output unit 214.
  • the evaluation value for the attribute information can be changed when digest playback is executed after shooting.
  • the configuration of the video camera is not limited to the above embodiment.
  • the video camera 100 ⁇ / b> C may execute the process up to extracting attribute information from the captured video. Then, the video playback device 500 may execute scene evaluation and digest playback based on the video data to which the attribute information is added. Further, the video camera may execute up to the scene evaluation. Then, the video reproduction device may perform digest reproduction based on the evaluation value.
  • the present embodiment is not limited to a photographing apparatus such as a video camera, but can also be applied to a video editing apparatus such as a PC or a video recording / reproducing apparatus such as an HDD recorder.
  • the video editing device or the video recording / playback device may extract attribute information from the video, evaluate each part of the video based on the attribute information, and perform digest playback based on the evaluation.
  • the attribute information is first extracted from the video, each part is evaluated, the scene is extracted based on the attribute information, and then the digest video is generated based on the scene.
  • the video may be divided into a plurality of scenes, attribute information of each scene may be extracted, each scene may be evaluated based on the attribute information, and a digest video may be generated based on the evaluation.
  • the scene division may be performed based on a motion vector between frames, may be performed based on an input from the user, or the scene may be included in various attribute information. It may be executed based on the presence / absence of attribute information that influences the division of the image (thing that becomes a segment of the scene such as camera work or shooting of the ground).
  • the configuration of the video camera 100A is not limited to the above embodiment.
  • all or some of the video AD conversion unit 202, the signal processing unit 203, the video signal compression unit 204, the audio AD conversion unit 209, the audio signal compression unit 210, the video signal decompression unit 211, and the audio image signal decompression unit 213 are simply used. It can also be realized as a single integrated circuit. Also, a part of the processing executed by the control unit 300 can be separately realized as hardware using an FPGA (Field Programmable Gate Gate Array).
  • FPGA Field Programmable Gate Gate Array
  • the face detection of a person is set as upper attribute information and fixed attribute information
  • the face detection of a specific person is set as lower attribute information and variable attribute information.
  • the present invention is not limited to this.
  • the detection of the face of an animal such as a dog may be set as upper attribute information and fixed attribute information
  • the face detection of a specific dog may be input by the user as lower attribute information and variable attribute information.
  • detection of transportation means such as trains, cars or airplanes can be input as higher attribute information and fixed attribute information
  • detection of a specific train, car or airplane can be input as lower attribute information and variable attribute information. Also good.
  • detection of a person's voice may be input as higher-level attribute information and fixed attribute information, and detection of a specific person's voice may be input by the user as lower-level attribute information and variable attribute information.
  • a voice of a specific person can be input to the video camera via the microphone 208.
  • the evaluation value of the table may be individually input (changed) by the user.
  • the evaluation value related to camera work can be increased or decreased.
  • the technique disclosed herein is useful for a video extraction apparatus that extracts a portion to be digest-reproduced from an image and a photographing apparatus equipped with the same.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Abstract

 様々な嗜好に対応したダイジェスト再生を実現する。 ビデオカメラ(100)は、映像の中からダイジェスト再生するための部分を抽出する。ビデオカメラ(100)は、映像に関する属性情報を映像の中から抽出する制御部(300)を備えている。属性情報の内容は、ユーザが入力可能に構成されている。

Description

映像抽出装置、撮影装置、プログラム及び記録媒体
 ここに開示された技術は、影像の中からダイジェスト再生する部分を抽出する映像抽出装置及びそれを備えた撮影装置、さらには、影像の中からダイジェスト再生する部分を抽出するプログラム及びそれを記録する記録媒体に関する。
 従来より、映像の中からその一部を抜き出してダイジェスト(要約)映像を再生する技術が知られている。映像は、その全内容を再生するためには少なからず時間を要する。そのため、映像の内容を短時間で把握したいというニーズがある。また、映像の中から重要な部分だけを抽出して視聴したいというニーズもある。特に、プロではない一般のユーザがビデオカメラやデジタルスチルカメラ等の撮影装置を用いて撮影した映像は、シナリオ等を有さず、発生したイベントが単純に時系列で並んでいるだけである。そのため、このような映像の場合には特に、上記のニーズが強い。
 このニーズに応えるべく、特許文献1に係る撮影装置は、映像のメタデータに基づいてシーンを評価し、その評価結果に基づいて、映像のシーンやクリップの数を絞り込んだダイジェストを再生している。
特開2008-227860号公報
 ところで、視聴する人の嗜好によって、好ましいダイジェストの内容は大きく変わる。しかしながら、特許文献1に係るメタデータ及びそれに基づく評価は一意的であり、ユーザの嗜好に対応していない。
 ここに開示された技術は、かかる点に鑑みてなされたものであり、その目的とするところは、様々な嗜好に対応したダイジェスト再生を実現することにある。
 ここに開示された映像抽出装置は、映像から抽出すべき、映像に関する属性情報を記憶する記憶部と、映像の中からダイジェスト再生する部分を抽出するために、前記記憶部に記憶された前記属性情報を映像の中から抽出する制御部とを備え、前記記憶部に記憶された前記属性情報の少なくとも一部は、ユーザが入力可能に構成されているものとする。
 また、別の映像抽出装置は、映像から抽出すべき、映像に関する属性情報及び該属性情報に対する評価との対応データを記憶する記憶部と、映像の中からダイジェスト再生する部分を抽出するために、前記記憶部に記憶された前記属性情報を映像の中から抽出し、前記対応データに基づいて該属性情報を有する部分を評価する制御部とを備え、前記記憶部に記憶された前記属性情報及び評価の少なくとも一部は、ユーザが入力可能に構成されているものとする。
 さらに、別の映像抽出装置は、映像から抽出すべき、映像に関する属性情報を記憶する記憶部と、ユーザの入力操作に応じて、前記属性情報を前記記憶部に入力する入力部と、映像の中からダイジェスト再生するための部分を前記記憶部に記憶された前記属性情報に基づいて抽出する制御部とを備えるものとする。
 さらにまた、別の映像抽出装置は、映像から抽出すべき、映像に関する属性情報及び該属性情報に対する評価との対応データを記憶する記憶部と、ユーザの入力操作に応じて、前記属性情報及び評価の少なくとも一方を前記記憶部に入力する入力部と、映像の中からダイジェスト再生するための部分を前記記憶部に記憶された前記属性情報及び評価に基づいて抽出する制御部とを備えるものとする。
 また、ここに開示された撮影装置は、映像を取得する撮像系と、前記映像抽出装置とを備えるものとする。
 さらに、ここに開示されたプログラムは、映像から抽出すべき、映像に関する属性情報及び該属性情報に対する評価との対応データについて、該属性情報及び評価の少なくとも一方のユーザからの入力を受け付けることと、前記対応データに含まれる前記属性情報を映像の中から抽出することと、前記対応データと抽出された前記属性情報とに基づいて、映像の中からダイジェスト再生する部分を抽出することとをコンピュータに実行させるためのプログラムである。
 また、ここに開示された記録媒体は、前記プログラムを記録したコンピュータ読み取り可能な記録媒体である。
 前記映像抽出装置によれば、前記属性情報をユーザが任意に入力できるため、ユーザの嗜好が反映された属性情報を抽出することができる。この属性情報を参照することによって、ユーザの嗜好に対応したダイジェスト再生を実現することができる。
 また、別の映像抽出装置によれば、前記属性情報及び評価の少なくとも一方をユーザが任意に入力できるため、ユーザの嗜好が反映された、映像の評価を行うことができる。この評価を参照することによって、ユーザの嗜好に対応したダイジェスト再生を実現することができる。
 また、前記撮影装置によれば、ユーザの嗜好に対応したダイジェスト再生を実現することができる。
 さらに、前記プログラムによれば、ユーザの嗜好に対応したダイジェスト再生を実現することができる。
 さらにまた、前記記録媒体によれば、ユーザの嗜好に対応したダイジェスト再生を実現することができる。
図1は、本実施形態に係るビデオカメラの斜視図である。 図2は、ビデオカメラの概略構成を示すブロック図である。 図3は、ビデオカメラが撮影した映像の構成を示す図である。 図4は、クリップ内を複数のシーンに分割した場合の例を示すイメージ図である。 図5は、各種の属性情報と各属性情報に対する評価との対応データのテーブルを示す図である。 図6は、シーン評価部或る映像から属性情報を抽出して評価値を付与した結果を示した図である。 図7は、人物の顔が撮影される映像の例を示す図であり、(A)は人物Aの顔が撮影された映像を、(B)は人物Bの顔が撮影された映像を、(C)は人物Aの顔と人物Bの顔が撮影された映像を、(D)は大勢の人と共に人物Aの顔が撮影された映像を示す。 図8は、再生情報を示す図である。 図9は、撮影、シーン評価、再生情報の生成、記録までの処理の流れを示すフローチャートである。 図10は、ダイジェスト再生時の処理の流れを示したフローチャートである。 図11は、属性情報と評価値との関係を示したテーブル各種の属性情報と各属性情報に対する評価との対応データのテーブルである。 図12は、シーン評価部が図11のテーブルに基づいて或る映像から属性情報を抽出して評価値を付与した結果を示した図である。 図13は、再生情報を示す図である。 図14は、各種のテーブルに対応するモードをユーザに選択させる選択画面の例を示す図である。 図15は、実施形態2に係るビデオカメラの概略構成を示すブロック図である。 図16は、撮影、属性情報の抽出、記録までの処理の流れを示すフローチャートである。 図17は、ダイジェスト再生時の処理の流れを示したフローチャートである。 図18は、その他の実施形態に係るビデオカメラの概略構成を示すブロック図である。
 以下、例示的な実施形態を図面に基づいて詳細に説明する。
 《実施形態1》
 <1.ビデオカメラの構成>
 図1は、撮影装置の一例としてのビデオカメラ100Aの斜視図であり、図2は、ビデオカメラ100Aの概略構成を示すブロック図である。
 ビデオカメラ100Aは、映像を撮影し、それを記録し、再生するものである。また、ビデオカメラ100Aは、映像の中からダイジェスト再生するための部分を抽出し、さらには、ダイジェスト再生を行う。ビデオカメラ100Aは、レンズ群200、撮像素子201、映像AD変換部(Analog-to-Digital Converter)202、信号処理部203、映像信号圧縮部204、レンズ制御モジュール205、姿勢検出部206、外部入力部207、マイクロフォン208、音声ADC(Analog-to-Digital Converter)209、音声信号圧縮部210、映像信号伸張部211、映像表示部212、音声信号伸張部213、音声出力部214、出力I/F(Interface)215、制御部300、クロック320、記憶部330とを備えている。このビデオカメラ100Aが、映像抽出装置及び撮影装置を構成する。
 レンズ群200は、複数のレンズで構成されており、被写体からの入射光を撮像素子201上に結像させるものである。また、レンズ群200は、複数のレンズ間の距離を調整可能に構成されており、レンズ間の距離を変えることによって焦点距離やズーム倍率(映像の拡大倍率)を変化させる。焦点距離やズーム倍率の調整は、ユーザが手動で行うものであっても、後述する制御部300等が自動的に行うものであってもよい。
 撮像素子201は、入射する光を電気信号に変換するものである。撮像素子201は、CCD又はCMOSで構成されている。撮像素子201は、撮像面上の任意の範囲の電気信号を出力する。また、撮像素子201は、画像に関する情報以外にも、3原色点の色度空間情報、白色の座標、及び3原色のうち少なくとも2つのゲイン情報、色温度情報、Δuv(デルタuv)、及び3原色または輝度信号のガンマ情報等の情報も出力することが可能である。そのため、撮像素子201からの出力は、映像AD変換部202だけでなく、制御部300の後述する属性情報抽出部305にも入力される。
 映像AD変換部202は、撮像素子201が出力するアナログの電気信号をデジタル信号へ変換するものである。
 信号処理部203は、映像AD変換部202が出力したデジタル信号をNTSC(National Television System Committee)やPAL(Phase Alternating Line)等の所定の映像信号フォーマットに変換するものである。例えば、信号処理部203は、映像AD変換部202からのデジタル信号をNTSCで規定された水平線の数、走査線の数、フレームレートに準拠したデジタル映像信号(映像データ)に変換する。信号処理部203からの出力は、制御部300へ入力される。信号処理部203は、例えば、映像信号変換用のICで構成されている。尚、映像信号フォーマットとしては、1映像フレームの有効画素数が水平方向に1920、垂直方向に1080である、所謂、フルハイビジョン方式や、1映像フレームの有効画素数が水平方向に1280、垂直方向に720である方式がある。
 映像信号圧縮部204は、信号処理部203から出力されるデジタル映像信号に所定の符号化変換を施し、データ量を圧縮する。符号化変換の具体例としては、MPEG(Moving Picture Experts Group)2、MPEG4、H264等の符号化方式がある。映像信号圧縮部204からの出力は、制御部300へ入力される。映像信号圧縮部204は、例えば、信号圧縮伸張用のICで構成されている。
 レンズ制御モジュール205は、レンズ群200の状態を検出したり、レンズ群200を動作させたりするものである。レンズ制御モジュール205は、レンズ制御モータとレンズ位置センサとを有している。レンズ位置センサは、レンズ群200を構成する複数のレンズ間の距離又は位置関係等を検出するものである。レンズ位置センサは、その検出信号を制御部300に出力する。レンズ制御モジュール205は、2種類のレンズ制御モータを有している。1つのレンズ制御モータは、制御部300から制御信号に基づいて、レンズ群200を光軸方向に移動させる。これにより、レンズ群200の複数のレンズ間の距離が変更され、レンズ群200の焦点距離及びズーム倍率が調整される。もう1つのレンズ制御モータは、制御部300から制御信号に基づいて、レンズ群200のうちの少なくとも1つのレンズ(像ぶれ補正用のレンズ)を光軸に直交する面内で移動させる。これにより、像ぶれを補正する。
 姿勢検出部206は、ビデオカメラ100A本体の姿勢を検出するものである。姿勢検出部206は、加速度センサ、角速度センサ、及び仰角・俯角センサを有する。これらのセンサにより、撮影時にビデオカメラ100Aがどのような姿勢となっているかを認識することができる。尚、加速度センサ及び角速度センサは、ビデオカメラ100Aの姿勢を詳細に検出するために、直交3軸方向(ビデオカメラ100Aの上下方向、前後方向、左右方向)の姿勢をそれぞれ検出できることが好ましい。姿勢検出部206からの信号は、制御部300へ入力される。尚、姿勢検出部206は、上記の構成に限らず、上記センサの何れかだけで構成されていてもよいし、上記センサ以外のセンサを有していてもよい。
 外部入力部207は、ビデオカメラ100Aに外部からの情報を入力する手段である。外部入力部207からの信号は、制御部300へ入力される。尚、図2では、外部入力部207からの信号は、制御部300の属性情報抽出部305だけに入力されているが、レンズ制御部310等の入力操作に対応する部分にも入力される。撮影時には、この外部入力部207を介してビデオカメラ100Aに外部からの各種情報が入力される。例えば、外部入力部207は、ユーザからの情報の入力を受け付ける入力インタフェースの1つである入力ボタンや、外部から通信経由で入力される撮影インデックス情報等を受信する受信部や、ビデオカメラ100Aが三脚に設置されているか否かを検出する三脚センサを含む。例えば、ユーザが入力ボタンを操作することによって、撮影の開始、終了、撮影中の映像にマーキングを挿入する、及び後述する属性情報及びその評価を入力、設定する等、ユーザからの各種要求をビデオカメラ100Aに伝えることが可能となる。すなわち、外部入力部207は、ユーザの入力操作に応じて、後述する属性情報及び評価の少なくとも一方を記憶部330に入力する入力部を構成する。撮影インデックス情報とは、例えば、映画撮影時における撮影場面を識別する番号や、撮影回数を示す番号等のそれぞれの撮影を識別するために用いられる識別番号などである。三脚センサは、ビデオカメラ100Aの三脚が固定される部分に設けられたスイッチで構成されている。三脚センサにより、三脚を使用した撮影か否かを判定できる。
 マイクロフォン208は、ビデオカメラ100Aの周囲の音を電気信号に変換して、音声信号として出力するものである。
 音声AD変換部209は、マイクロフォン208が出力するアナログの音声信号をデジタル音声信号(音声データ)へ変換するものである。
 音声信号圧縮部210は、音声AD変換部209が出力したデジタル音声信号を所定の符号化アルゴリズムで変換するものである。符号化にはMP3(MPEG Audio Layer-3)やAAC(Advanced Audio Coding)等の方式がある。音声信号圧縮部210は、例えば、圧縮用のICで構成されている。
 映像信号伸張部211は、制御部300から出力される映像信号を複合するものである。映像信号伸張部211からの出力は、映像表示部212に入力される。映像信号伸張部211は、例えば、映像信号伸張用のICで構成されている。
 映像表示部212は、ビデオカメラ100Aに記録した映像や、ビデオカメラ100Aでリアルタイムに撮影している映像を表示する。それ以外にも、ビデオカメラ100Aは、撮影に関する情報や機器情報等の各種情報を表示する。映像表示部212は、例えば、タッチパネル式の液晶ディスプレイで構成されている。このようにタッチパネル式の映像表示部212は、外部入力部207としても機能する。
 音声信号伸張部213は、制御部300から出力される音声信号を複合するものである。音声信号伸張部213からの出力は、音声出力部214に入力される。音声信号伸張部213は、例えば、音声信号伸張用のICで構成されている。
 音声出力部214は、映像に付随する音声を出力する。それ以外にも、音声出力部214は、ビデオカメラ100Aからユーザへ報知する警告音を出力する。音声出力部214は、例えば、スピーカで構成されている。
 出力I/F215は、映像信号をビデオカメラ100Aから外部へ出力するためのインタフェースである。具体的には、出力I/F215は、ビデオカメラ100Aと外部機器とをケーブルで接続する場合のケーブルインタフェースや、映像信号をメモリカードに記録する場合のメモリカードインタフェース等である。
 制御部300は、ビデオカメラ100Aの全体を制御するものである。制御部300は、撮像素子201、信号処理部203、映像信号圧縮部204、レンズ制御モジュール205、姿勢検出部206、外部入力部207、音声AD変換部209、音声信号圧縮部210、映像信号伸張部211、音声信号伸張部213、出力I/F215及び記憶部330等との間で信号の授受が可能に構成されている。本実施形態では、制御部300は、CPUで構成されている。制御部300は、記憶部330に格納されたプログラムを読み込んで実行することによってビデオカメラ100Aの各種制御を実行する。制御部300が実行する制御の例としては、例えば、レンズ群200の焦点距離やズームの制御や、姿勢検出部206や外部入力部207からの入力信号の処理や、信号処理部203、映像信号圧縮部204、音声信号圧縮部210、映像信号伸張部211及び音声信号伸張部213等のICの動作制御等である。また、図示は省略するが、制御部300とレンズ制御モジュール205等との間では、適宜、信号がAD変換又はDA変換される。尚、制御部300は、IC等の集積回路で構成することもできる。
 クロック320は、ビデオカメラ100A内で動作する制御部300等に処理動作の基準となるクロック信号を出力するものである。尚、クロック320は、利用する集積回路や扱うデータによって、単一または複数のクロックを用いることも可能である。また、ひとつの発振子のクロック信号を任意の倍数に乗じて使用してもよい。
 記憶部330は、ROM(Read Only Memory)、RAM(Random Access Memory)及びHDD(Hard Disk Drive)を含んでいる。ROMは、制御部300が処理するプログラムやプログラムを動作させるための各種データを記憶しておくものである。RAMは、制御部300が処理するプログラム実行時に使用するメモリ領域等として使用される。また、RAMは、ICのメモリ領域としても使用され得る。HDDは、映像信号圧縮部204により符号化変換された映像データや静止画データ等の各種データを保存する。また、HDDは、制御部300で実行するプログラムを記憶している。尚、このプログラムは、HDDに限られず、半導体メモリに記憶されていてもよいし、CD-ROMやDVD等の可搬型記録媒体に格納されていてもよい。
 以下、制御部300について詳細に説明する。ここでは、制御部300のうち、ダイジェスト再生を行うのに必要な構成について説明する。ただし、制御部300は、一般的なビデオカメラと同様の機能を発揮させるための構成、例えば、撮影した映像を記録したり、再生したりする構成も有する。
 制御部300は、レンズ制御モジュール205を制御するレンズ制御部301と、撮像素子201を制御する撮像制御部302と、信号処理部203からの出力を解析する映像解析部303と、音声AD変換部209からの出力を解析する音声解析部304と、映像中の属性情報を抽出する属性情報抽出部305と、シーンを評価するシーン評価部306と、ダイジェスト再生のための再生情報を生成する再生情報生成部307と、映像データと音声データとを多重化する多重化部308と、ダイジェスト再生を行うダイジェスト再生部309とを有している。制御部300は、記憶部330に記憶されたプログラムを読み込んで実行することによって、後述する各種の処理を実現する。
 レンズ制御部301は、レンズ制御モジュール205のレンズ位置センサの検出信号及び姿勢検出部206の各種センサの検出信号が入力されている。レンズ制御部301は、これらの検出信号及び撮像素子201等の他の構成要素からの情報に基づいて、レンズ群200を適正に配置させるための制御信号をレンズ制御モータに出力する。こうして、レンズ制御部301は、ズーム制御、フォーカス制御、像ぶれ補正制御等を行う。また、レンズ制御部301は、レンズ群200の制御信号を属性情報抽出部305へ出力する。尚、姿勢検出部206の各種センサの検出信号は、属性情報抽出部305へも出力されている。
 撮像制御部302は、撮像素子201の動作を制御するものである。撮像素子201に対して、撮影時の露出量、撮影速度、及び感度等を制御するものである。撮像制御部302から出力される制御信号は、撮像素子201だけでなく、属性情報抽出部305へも出力される。
 映像解析部303は、信号処理部203からの映像データに基づいて映像の特徴を抽出するものである。映像解析部303は、映像の色情報(例えば、映像に含まれる色の分布を検出する)や、ホワイトバランス情報を検出する。尚、色分布の検出は、デジタル映像信号を形成するデータに含まれる色情報を確認することで実現可能である。また、映像解析部303は、映像に人物の顔が含まれている場合には、映像の中から顔検出を行う。顔検出については、パターンマッチング等を用いることにより実現可能である。
 音声解析部304は、音声AD変換部209からの音声データを解析して、特徴のある音を抽出するものである。ここで特徴のある音とは、例えば、撮影者の声、特定の単語の発音、歓声、及び銃声等がある。これらの音は、これらの音(音声)が持つ特有の周波数を予め登録しておき、それとの比較により判別するなどの方法等によって抽出可能である。また、これ以外にも、例えば、音の入力レベルが所定レベル以上のときに特徴のある音であると判定するようにしてもよい。
 属性情報抽出部305は、映像に関する属性情報を抽出する。属性情報は、映像の属性を表す情報であって、撮影に関する情報(以下、「撮影情報」ともいう)、外部入力情報及びその他の情報である。属性情報抽出部305には、撮像素子201、姿勢検出部206、外部入力部207、レンズ制御部301、撮像制御部302、映像解析部303及び音声解析部304からの出力信号が入力されている。属性情報抽出部305は、これらの出力信号に基づいて属性情報を抽出する。
 この映像に関する属性情報には、映像の撮影時の撮影装置の状態やカメラワークなどの撮影に関する属性情報、CGなどによる映像の生成時の映像に関する属性情報、映像そのものが含む被写体や背景に関する属性情報、映像に付帯する音声に関する属性情報、及び編集機などによる映像の編集時の映像編集内容に関する属性情報が含まれる。
 例えば、撮影時の撮影装置に関する属性情報の例としては、焦点距離、ズーム倍率、露出、撮影速度、感度、3原色点の色空間情報、ホワイトバランス、3原色のうち少なくとも2つのゲイン情報、色温度情報、Δuv(デルタuv)、3原色または輝度信号のガンマ情報、色分布、顔認識情報、カメラ姿勢(加速度、角速度、仰角・俯角等)、撮影時刻(撮影開始時刻、終了時刻)、撮影インデックス情報、ユーザ入力、フレームレート、サンプリング周波数等が挙げられる。例えば、属性情報抽出部305は、レンズ制御部301の制御信号に基づいて、焦点距離やズーム倍率を属性情報として抽出する。また、属性情報抽出部305は、姿勢検出部206の検出信号に基づいて、カメラ姿勢(加速度、角速度、仰角・俯角等)を検出し、そのカメラ姿勢からパン、ティルト等の撮影時のビデオカメラ100Aのカメラワークを属性情報として抽出する。さらには、これらのカメラワークに基づいて、カメラワーク後のフィックス撮影部分(ビデオカメラ100を静止させて撮影した部分)を属性情報として抽出することができる。このように、属性情報抽出部305は、入力された信号そのものから属性情報を抽出する場合もあれば、入力された信号と組み合わせたり、分析したりすることによって属性情報を抽出する場合もある。
 シーン評価部306は、属性情報抽出部305が抽出した属性情報に基づいて、それぞれの属性情報を含む部分の映像を評価して、その評価(値)を該部分に付与する。この評価の詳細については後述する。
 再生情報生成部307は、シーン評価部306によって付与された評価に基づいて、再生すべき部分(シーン)を選択し、ダイジェスト再生すべき部分を特定する情報(以下、「再生情報」という)を生成する。尚、再生情報の詳細については後述する。
 多重化部308は、映像信号圧縮部204からの符号化映像データ、音声信号圧縮部210からの符号化音声データ、及び再生情報生成部307からの再生情報を多重化して出力する。多重化部308により多重化されたデータは、記憶部330に格納される。多重化の方式としては、例えば、MPEGのTS(Transport Stream)等の技術がある。ただし、これに限定されるものではない。尚、本実施形態では、多重化する場合を例として示しているが、必ずしも多重化しなくてもよい。
 これら属性情報抽出部305、シーン評価部306、再生情報生成部307及び多重化部308の処理は、撮影時、詳しくは、撮影中又は撮影直後に逐次、実行される。
 ダイジェスト再生部309は、撮影の終了後に、ユーザの入力に基づいてダイジェスト再生を実行する。詳しくは、ダイジェスト再生部309は、記憶部330に記憶された多重化されたデータを読み出し、再生情報に従って、ダイジェスト再生させるべき部分の符号化映像データ及び符号化音声データをそれぞれ映像信号伸張部211及び音声信号伸張部213に出力する。出力された符号化映像データ及び符号化音声データはそれぞれ、映像信号伸張部211及び音声信号伸張部213で復号され、映像表示部212及び音声出力部214から出力される。こうして、映像の中から特定の部分だけ抽出したダイジェスト再生が実行される。尚、このダイジェスト映像は、記憶部330に記憶するようにしてもよい。
 <2.シーン評価及び再生情報の生成>
 図3は、ビデオカメラ100Aが撮影した映像の構成を示す図であり、図4は、クリップ内を複数のシーンに分割した場合の例を示すものである。図4では、各シーンを「開始時間」と「終了時間」で特定しているが、フレーム番号(シーンの開始フレーム番号及び終了フレーム番号)等で各シーンを特定してもよい。
 ユーザが撮影開始を指示し、撮影の終了又は撮影の一時停止を指示するまでに撮影された映像の単位を「クリップ」とする。すなわち、ユーザが撮影の開始、撮影の終了又は一時停止を何度も繰り返すと、クリップが複数生成される。1つのクリップは、1又は複数の「シーン」で構成されている。「シーン」は、論理的につながりのある一続きの映像であって、1又は複数の「フレーム」で構成されている。「フレーム」とは、映像を構成する最小単位となる個々の画像である。
 例えば、1つの「クリップ」を1つの「シーン」とみなすこともできる。また、画面が大きく変わることを境として「シーン」を設定してもよい。例えば、映像解析部303がフレーム間の動きベクトルを算出し、動きの大きさ(即ち、動きベクトルの変化)が所定の値より大きいときを、「シーン」の境界としてもよい。つまり、そのようにして設定された2つの境界の間の映像が1つの「シーン」となる。その他の撮影情報等に基づいて「シーン」を区切ってもよい。例えば、撮影者からのボタン入力により「シーン」を区切ってもよい。この場合に、撮影者の明確な意図で「クリップ」内の「シーン」が構成される。以上の方法で「シーン」を抽出した場合には、図4に示すように、「クリップ」には、連続的な「シーン」が含まれることになる。一方、「クリップ」内の特定の部分だけを「シーン」とみなすこともできる。例えば、映像の中から映像として重要な部分を「シーン」とみなすこともできる。具体的には、特定の属性情報を含む部分を1つの「シーン」とみなしてもよい。例えば、重要と想定される属性情報を含む、所定の時間幅の映像を「シーン」とする。これにより、重要な部分のみが「シーン」として抽出される。その結果、「クリップ」内には、離散的に「シーン」が含まれることになる。このように、「シーン」は、任意に設定することが可能である。本実施形態では、映像のうちの重要な部分を「シーン」としてみなしている。
 続いて、シーン評価部306のシーン評価について詳しく説明する。図5は、映像を評価する際に用いる、各種の属性情報と各属性情報に対する評価との対応データのテーブルである。このテーブルは、記憶部330に記憶されている。シーン評価部306は、このテーブルを用いて、映像を評価する。
 図5に示すように、属性情報には、それぞれ評価値が設定されている。図5の例では、評価値が高いほど評価が高い(好ましい)ものとしている。例えば、クリップイン(撮影の開始部分)やクリップアウト(撮影の終了直前部分)については、映像の導入部分や重要部分であって、映像が持つ論理的な意味が高いと推定されるので、クリップイン(A)は、評価値「100」が、クリップアウト(F)は、評価値「90」が設定されている。撮影時のカメラワークとしてズームアップ(D)やズームダウン(G)は、特定の被写体への注目度を高めるものであるため、評価値「30」が設定されている。また、顔が検出されたこと(Z)は、人物を対象に撮影が行われることが多いことから、評価値「50」が設定されている。また、顔検出の中でも、特定の人物Aの顔が検出されたこと(X)は、「100」の評価値が設定され、特定の人物Bの顔が検出されたこと(Y)は、評価値「80」が設定されている。
 この特定の人物の顔及びそれに対する評価値は、詳しくは後述するが、ユーザが適宜設定することができる。つまり、単に人物を撮影しているというだけでなく、特定の人物を撮影している映像にはユーザの意思で高い評価値を付与することができる。尚、評価は、プラスの評価、即ち、好ましい評価だけでなく、マイナスの評価、即ち、好ましくない評価もあり得る。例えば、像ぶれは視聴者に見づらい映像となる可能性があるので、このような属性情報を有するシーンには、負の評価値が付与される。
 尚、図5の例では、評価が数値化されているが、これに限られるものではない。例えば、評価としてA,B,C,…のような符号を用いてもよい。評価として用いられる符号には、予め優劣が定められている(例えば、Aが最も評価が高い等)。また、A,B,Cなどの符号の評価は、ユーザの意思で自由に設定することもできる。
 シーン評価部306は、属性情報抽出部305によって属性情報が抽出された映像の部分に、前記テーブルに基づいて、該属性情報に対応する評価値を付与する。
 そして、評価値を付与した後、シーン評価部306は、該評価値に基づいて、所定の個数のシーンを抽出する。こうして、シーン評価部306は、ダイジェスト再生に用いられ得る特徴的な映像の部分をシーンとして、ダイジェスト再生されるシーンの個数よりも多めに予め抽出しておく。例えば、シーン評価部306は、評価値が高い属性情報を有する部分を含む所定時間幅の映像を1つのシーンとして抽出する。そして、シーン評価部306は、評価値が高い順に、所定の個数のシーンを抽出する。この所定の個数は、ユーザが任意に設定可能としてもよいし、固定値として予め設定しておいてもよい。前述のシーンの抽出方法は、一例であって、異なる方法でシーンを抽出してもよい。例えば、評価値が高い属性情報を有する部分であっても、それよりも前の映像に同じ属性情報が含まれる部分をシーンとして抽出している場合には、シーンとして抽出しなくてもよい。こうすることで、同じ属性情報を有するシーンばかりが抽出されることを防止することができる。あるいは、特定の属性情報(例えば、人物Aの顔検出や人物Bの顔検出等)を有する部分を優先的にシーンとして抽出してもよい。
 次に、シーン評価部306は、抽出したシーンの中から、所定の抽出条件に基づいて、ダイジェスト再生すべきシーンを抽出する。例えば、抽出条件が、評価値が高い順に3個というものであれば、シーン評価部306は、評価値が上位3つのシーンを抽出する。この個数は、ユーザが任意に設定できる。また、抽出条件が、評価値の高い順に抽出して、合計時間が所定時間になるというものであれば、シーン評価部306は、合計時間が所定の時間となるように、評価値が上位のシーンから順に抽出する。この所定の時間は、予め所定の値に設定しておいてもよいし、ユーザが任意に設定できるようにしてもよい。また、評価値が所定の値以上であることが抽出条件であれば、シーン評価部306は、評価値が所定の値以上のシーンを、個数及び合計時間にかかわらず、抽出する。この所定の値は、ユーザが任意に設定することができる。このように、シーン評価部306は、付与した評価値に基づいて、様々な観点でシーンを抽出することが可能である。尚、抽出条件は、ユーザが適宜設定できるようにしてもよいし、予め設定されていてもよい。
 尚、1つのシーンが複数の属性情報を有する場合には、それぞれの属性情報の内容に割り当てられている評価値を加算して、そのシーンの評価値としてもよい。あるいは、複数の属性情報の中から最も高い評価値をそのシーンの評価値としてもよい。あるいは、複数の属性情報の評価値の平均値をそのシーンの評価値としてもよい。
 また、属性情報と評価値とのテーブルは、ビデオカメラ100Aが1つだけ有するものに限られない。すなわち、ビデオカメラ100Aが、属性情報と評価値とのテーブルを複数有し、シーン評価に用いるテーブルを適宜選択するものであってもよい。例えば、ビデオカメラ100Aが、属性情報と評価値との複数のテーブルの中から撮影モード(例えば、風景の撮影、人物(ポートレート)撮影、スポーツ撮影、静物撮影等)に応じて最適なテーブルを選択するように構成してもよい。また、このように撮影の状況に応じて適切なテーブルを適宜設定する構成としては、撮影の各状況に対して1対1のテーブルを予め用意しておくのではなく、撮影状況の種類よりも少ない数のテーブルが用意されている場合は、撮影状況に応じて、複数のテーブルを合成(各評価値を一定の比率で加算等)してもよい。この場合には、合成時の各テーブルの重み付け(例えば、加算時の比率)を変更することによって、撮影状況に応じたテーブルを設定するようにしてもよい。
 以下に、シーン評価部306が行う処理を具体例を挙げて説明する。図6は、シーン評価部306が、或る映像から属性情報を抽出して評価値を付与した結果を示した図である。図6の横軸は時間(シーン)を、縦軸に評価値を示す。
 図6において、時間0付近の部分は、撮影を開始した直後であることを意味する「クリップイン」の属性情報Aを有し、評価値「100」が付与されている。
 属性情報Bを有する部分は、特定音声が抽出された部分である。特定音声の抽出は、前記音声解析部304により行われる。属性情報Bを有する部分には、評価値「50」が付与されている。
 属性情報Cを有する部分は、ユーザがビデオカメラ100Aをパン、ティルト等させた後に静止して撮影している部分である。パン、ティルト等のカメラワーク後の部分は映像としての価値が高いと判断できることから、このようなカメラワーク後の静止撮影を属性情報として設定している。属性情報Cを有する部分には、評価値「40」が付与されている。
 属性情報Dを有する部分は、ズームアップ又はズームダウン等して撮影している部分である。ズームアップ又はズームダウンは、ユーザの撮影に関する何らかの意図が反映されており、重要と判断できることから、属性情報として設定している。属性情報Dを有する部分には、評価値「30」が付与されている。ただし、ズームアップとズームダウンとで評価値を変えてもよい。例えば、ズームアップの方が、ズームダウンよりも、撮影対象を注視する意図が大きいと判断されるため、評価値を高く設定してもよい。
 属性情報Eを有する部分は、属性情報Cと異なり、ビデオカメラ100Aをパン、ティルト等させながら撮影を行った部分である。パン、ティルト等のカメラワークは、撮影対象に追随しようとするユーザの撮影意図が反映されていると判断できるため、属性情報として設定している。属性情報Eを有する部分には、評価値「25」が付与されている。
 属性情報Iを有する部分は、映像が像ぶれを伴っている部分である。この場合は、映像が揺れているため、視聴者には見づらい映像となる傾向にある。そのため、負の評価値を付与している。具体的には、属性情報Iを有する部分には、評価値「-20」が付与されている。
 属性情報Jを有する部分は、地面等を撮影している部分である。これは、ユーザが撮影停止ボタンを押さずに撮影を続けたまま、ビデオカメラ100Aを手に持って歩いている場合等に生じやすい現象である。この場合には、映像にユーザの特段の意図が反映されていないと判断できるため、負の評価値を付与している。具体的には、属性情報Jを有する部分には、評価値「-10」が付与されている。
 属性情報Xを有する部分は、人物Aの顔が映っている部分である。映像解析部303は、撮影された映像に写っている被写体が人物の顔であることを認識し、さらに認識された顔が予め記憶部330等に記憶されている特定の人物の顔と一致するか否かの判定を行う。シーン評価部306は、この結果に基づき、特定の人物の顔が写っている部分を映像の中から抽出することができる。属性情報Xを有する部分には、評価値「100」が付与されている。
 属性情報Yを有する部分は、人物Bの顔が映っている部分である。人物Aの顔と同様に、人物Bの顔が予め記憶部330等に記憶されている。属性情報Yを有する部分には、評価値「80」が設定されている。
 属性情報Zを有する部分は、人物の顔が写っているものの、その顔が予め登録された何れの人物の顔とも一致しない部分である。属性情報Zを有する部分には、評価値「50」が設定されている。
 尚、人物の顔が撮影される映像の例として、図7(A)~(D)に示すような場合がある。図7(A)や(B)のように、それぞれの部分に予め登録されている人物の顔が撮影されている場合は、シーン評価部306は、テーブルに予め設定された評価値(図5の例では、人物Aの顔については「100」、人物Bの顔については「80」)が付与される。
 図7(C)のように、人物Aと人物Bの両者の顔が写っている場合には、シーン評価部306は、人物A、Bの顔のうち、評価値が高い方の評価値をもって、評価値としてもよい。図5のテーブルを用いた場合には、人物Aの顔の方が人物Bの顔よりも評価値が高いため、人物Aの顔の評価値である「100」が評価値となる。尚、図6のX+Yの符号が付されている部分は、人物Aと人物Bの両者の顔が写っている部分である。また、別の方法としては、両方の評価値を平均化したものを評価値としてもよい。図5の例では、(100+80)/2から、評価値は「90」となる。さらに別の方法として、それぞれの評価値に配分比率を設定して合算するものであってもよい。例えば、映像上の顔の大きさが大きいほど、配分比率が高くなるように、それぞれの評価値に配分比率を設定してもよい。図7(C)の例では、人物Aの顔の大きさと人物Bの顔の大きさの比率が5:3であるとすると、(100×5+80×3)/8から、評価値は「92.5」となる。映像上の顔の大きさはカメラから被写体までの距離を反映していると可能性が高く、この方法によれば、近くの被写体に大きな配分比率を設定して、影響度を大きくすることができる。また、人物A、Bの顔の中心位置と、画面中央又は画面上の顕著領域(Salientな領域)からの距離に応じて、それぞれの評価値に配分比率を設定してもよい。具体的には、当該距離が近いほど、配分比率が高くなるようにしてもよい。顕著領域とは、例えば、画像中の記念像、ペット、カンバンなどの注目される領域である。
 図7(D)のように、大勢の(所定の人数以上の)人物が被写体として撮影されている場合は、人物Aの顔が撮影されているものの、画面上での大きさは小さく、他の多くの人物と一緒に撮影されているため、他の人物の顔との差別化が難しい場合がある。このような場合には、撮影されている人数に応じて、人物Aの顔の評価値と、他の人物の顔の評価値とに配分比率を設定して合算するものであってもよい。図7(D)の例では、人物A以外の、識別できない人物が10人いるので、(100×1+50×10)/11から、評価値「54.5」が付与される。
 また、顔の検出については、画面における位置、顔の大きさ、顔の向き、笑顔レベル、目の開閉情報、顔の喜怒哀楽レベルの情報を評価して、これらに応じて評価値を増減させてもよい。
 こうして、映像中で属性情報が抽出された部分に評価値を付与した後、シーン評価部306は、評価値が高い順に6個のシーンを抽出する。図6では、6個のシーンに、時間が早い順に#1~#6のラベルが付されている。続いて、シーン評価部306は、評価値が高い順に3個という抽出条件に基づいて、評価値が上位3つの#1、#2、#5のシーンをダイジェスト再生すべきシーンとして抽出する。
 次に、再生情報生成部307による再生情報の生成について詳細に説明する。再生情報生成部307は、シーン評価部306が抽出したシーンに従って、ダイジェスト再生すべきシーンを特定する情報である再生情報を生成する。例えば、再生情報は、図8に示すように、再生対象となるシーンの開始時刻と終了時刻で示されるものであってもよい。この場合、各シーンの中における代表的なフレーム(シーン中における最も評価の高いフレーム等)を別途記憶しておくと、参照用画面の検索に有効である。尚、再生情報は、上記の内容に限られず、例えば、再生対象となるシーンをフレーム番号で特定してもよい。それ以外にも、後述する多重化部308で生成する多重化データ中における該当シーンの位置(場所)をシーンの特定として用いてもよい。多重化にTS等の技術を用いる場合は、PTSやDTS等の時刻情報等を用いて再生情報を生成してもよい。一部のビデオカメラのデータ記録方式として用いられているAVCHD(Advanced Video Codec High Definition)等の規格を用いて映像データを記録する場合には、PlayListファイル等に再生情報を記録する方法を用いてもよい。
 図9は、撮影、シーン評価、再生情報の生成、記録までの処理の流れを示すフローチャートである。
 まず、ビデオカメラ100Aの制御部300は、ステップS101において、撮影を開始する。入力ボタン等の外部入力部207からの入力に基づいて、撮影が開始される。
 次に、ステップS102において、属性情報抽出部305は、姿勢検出部206の検出結果、レンズ制御部301の制御情報、並びに映像解析部303及び音声解析部304の解析結果等に基づいて映像の属性情報を抽出する。
 シーン評価部306は、ステップS103において、属性情報抽出部305が抽出した属性情報に基づいて映像の各部分に評価値を付与する。その後、シーン評価部306は、いくつかの特徴的なシーンを抽出し、さらに、その中からダイジェスト再生すべきシーンを抽出する。
 続いて、ステップS104において、再生情報生成部307は、シーン評価部306により抽出されたダイジェスト再生すべきシーンに基づいて再生情報を生成する。そして、多重化部314は、生成された再生情報を、符号化映像データ、符号化音声データと共に多重化する。
 制御部300は、ステップS105において、多重化データを記憶部330に記憶する。
 制御部300は、ステップS106において、外部入力部207から、撮影終了の入力があるか否かを判定する。撮影終了の入力がない場合は、ステップS102へ戻って、撮影を継続する。一方、撮影終了の入力がある場合には、撮影を終了する。
 <3.再生情報に基づいたダイジェスト再生>
 ダイジェスト再生部309は、記憶部330に記憶された再生情報を読み出し、それに基づいてダイジェスト再生を行う。具体的には、ダイジェスト再生部309は、図8に示されるダイジェスト再生すべき個々のシーンの開始時刻、終了時刻等の情報に基づいて記憶部330に記憶されている映像、音声情報から該当する部分のシーンを抽出する。
 図10は、ダイジェスト再生時の処理の流れを示したフローチャートである。
 まず、ダイジェスト再生部309は、ステップS201において、記憶部330に記憶された多重化データを読み出す。
 次に、ダイジェスト再生部309は、ステップS202において、読み出した多重化データを分解し、再生情報を抽出する。
 そして、ステップS203において、ダイジェスト再生部309は、抽出した再生情報に基づいて、再生すべき符号化映像データ及び符号化音声データを、映像信号伸張部211及び音声信号伸張部213に出力し、映像表示部212及び音声出力部214を介して映像及び音声を再生する。
 こうして、映像の中から特定のシーンだけ抽出したダイジェスト再生が実行される。
 <4.属性情報及び評価値の入力>
 続いて、属性情報及び評価値の、ユーザによる入力について説明する。本実施形態に係るビデオカメラ100Aでは、テーブルの属性情報及び評価をユーザが1つ1つ具体的に入力することができる。
 例えば、前述の説明における人物Aの顔検出及び人物Bの顔検出は、ユーザが追加で設定したものである。すなわち、ユーザが、ビデオカメラ100Aが予め備えていたテーブルに、人物Aの顔検出を新たな属性情報として登録し、その評価値も登録し、さらに、別の人物Bの顔検出を新たな属性情報として登録し、その評価値も登録している。これにより、単に人物の顔検出というだけでなく、さらに詳細に特定の人物の顔検出を行うことができるようになる。
 ここで、記憶部330には、顔認識テーブルが予め記憶されている。顔認識テーブルは、IDと顔画像と人物の名前と評価値とを1セットとして、これを複数セット(例えば、6セット)だけ登録できるように構成されている。そして、IDと評価値は予め設定されており、特定の人物の顔及び名前をユーザが適宜登録していく。
 詳しくは、外部入力部207の操作によりビデオカメラ100Aが登録モードに設定されると、制御部300は、登録すべき人物の顔を所定時間(例えば、3秒)以上撮影することをユーザに促すメッセージを映像表示部212に表示させる。それに応えて、ユーザがビデオカメラ100Aで特定の人物の顔を所定時間以上撮影すると、該人物の顔を登録すべき新たな属性情報として認識し、記憶部330に一時的に保存する。その後、制御部300は、該人物の顔を顔認識テーブルのどのIDに対応させるかを尋ねるメッセージを映像表示部212に表示させる。尚、IDごとに評価値が既に設定されており、例えば、ID1~ID6のうちでは、ID1の評価値が「100」で最も高く、IDの番号が大きくなるほど、評価値は小さくなるように設定されている。つまり、登録すべき人物の顔とIDとを対応させることは、該人物の顔の評価値を設定することに等しい。ユーザが対応するIDを選択すると、次に、制御部300は、該人物の名前の入力を促すメッセージを映像表示部212に表示させる。こうして、顔認識テーブルに、IDと特定の人物の顔画像と名前と評価値が設定される。尚、この例では、評価値が予め設定されているが、評価値もユーザが任意に入力できるように構成してもよい。その場合には、評価値の入力をユーザに促すメッセージを映像表示部212に表示させて、評価値をユーザに入力させるようにすればよい。
 こうして、属性情報及び評価の1つ1つの内容をユーザが任意に設定することができる。
 そして、このように設定された属性情報及び評価の対応データは、ユーザの選択に基づいて、様々な使われ方をする。例えば、上記の例では、人物Aの顔、人物Bの顔、それ以外の人物の顔がそれぞれ検出されたことを属性情報として設定しているが、検出された顔が誰の顔かを識別せずに、単に人物の顔が検出されたことを属性情報として抽出することもできる。すなわち、ビデオカメラ100Aは、人物を特定せずに、単に顔が検出されたことを属性情報として抽出する通常モードと、特定の人物の顔が検出されたことを属性情報として抽出する特定モードとを有する。特定モードでは、登録された人物の顔のうち、属性情報として抽出する顔を選択することもできる。具体的には、制御部300は、登録されている人物の顔画像、名前又はIDを映像表示部212に表示させる。それに対して、ユーザが映像表示部212を操作して属性情報として抽出する人物の顔を選択する。制御部300は、選択された人物の顔を属性情報として抽出する。
 さらに、通常モードと特定モードとでは、顔検出を属性情報として抽出する際の条件を変更してもよい。すなわち、通常モードでは、映像中に不特定の或る人物の顔が所定の第1時間以上撮影されていることをもって属性情報として抽出する。それに対して、特定モードでは、撮影中に特定の人物(例えば、人物A)の顔が該第1時間よりも短い第2時間以上撮影されている(例えば、1フレームだけに撮影されている)ことをもって属性情報として抽出する。つまり、通常モードでは、風景等に比べて人物の方が一般的に撮影対象としての重要度が高いという考えから、顔が検出されることを属性情報として設定している。そのため、人物の顔が一瞬だけ撮影されたというのではなく、撮影対象として人物の顔が撮影されたと判定できる程度の時間だけ、人物の顔が撮影されることを必要条件としている。それに対して、特定モードは、風景等の他の撮影対象と特定の人物の顔を比べて重要かどうかというよりも、特定の人物の顔が写っている映像を抽出したいというユーザの明確で強い意図が反映されたモードである。そのため、特定モードにおける顔検出の重要度は、通常モードに比べて高い。そこで、特定顔検出モードでは、通所の顔検出モードよりも、顔が検出されたと認定する条件を緩くしている。
 尚、顔検出の条件を変えずに、特定の人物の顔の評価値を、不特定の顔の評価値よりも高くすることによって、特定の人物の顔の重要度を高くしてもよい。
 続いて、人物Aの顔検出よりも人物Bの顔検出の評価値を高く設定した場合について説明する。図11は、映像を評価する際に用いる、各種の属性情報と各属性情報に対する評価との対応データのテーブルであり、図12は、図11のテーブルに基づいて、シーン評価部306が、或る映像から属性情報を抽出して評価値を付与した結果を示した図である。図12の横軸は時間(シーン)を、縦軸に各シーンの評価値を示す。図13は、図11のテーブルに基づく評価から生成された再生情報を示す。
 図11に示すように、人物Aの顔検出の属性情報の評価値が「60」であるのに対し、人物Bの顔検出の属性情報の評価値が「90」となっている。そして、このテーブルを用いて映像を評価すると、図12に示す結果となる。具体的には、図5のテーブルを用いた評価と比べ、シーン#2の評価が下がり、シーン#4の評価が上がっている。この評価値に基づいて再生情報を生成すると、図13に示すように、図8におけるシーン#2に代わって、シーン#4がダイジェストに追加されている。
 前述のような評価値の変更は、テーブルの評価値をユーザが書き換えてもよいし、評価値が異なるテーブル(図5のテーブルと図11のテーブル)を予め用意しておき、それを切り替えるようにしてもよい。例えば、予め用意しておいたテーブルを切り替える方法としては、各種のテーブルに対応するモードをユーザに選択させる選択画面(図14参照)を映像表示部212に表示させ、ユーザに外部入力部207を介してモードを選択させるようにしてもよい。あるいは、各種のテーブルを映像表示部212に表示させて、ユーザにテーブルを選択させるようにしてもよい。尚、予め用意しておくテーブルは、属性情報又は評価値をユーザが直接入力することによって予め作成されたものであってもよい。
 このように、属性情報の評価をユーザの嗜好に応じて変更することによって、そのユーザの嗜好に応じたダイジェストを生成することができる。
 <5.まとめ>
 したがって、本実施形態によれば、属性情報及び評価の少なくとも一方をユーザが任意に入力可能とすることによって、ユーザの嗜好を反映したダイジェスト再生を行うことができる。
 特に、本実施形態では、属性情報をユーザが追加で設定できるため、よりユーザの嗜好に合った映像をダイジェストとして再生することができる。
 詳しくは、ビデオカメラ100は、ユーザの入力操作に応じて、映像に関する属性情報を入力する外部入力部207と、映像の中からダイジェスト再生する部分を抽出するために、前記属性情報を映像の中から抽出する制御部300とを備えている。これにより、映像の中からダイジェスト再生する部分を抽出するために用いられる属性情報をユーザが適宜入力できる。その結果、ユーザの嗜好に合った映像をダイジェストとして再生することができる。
 また、ビデオカメラ100は、映像に関する属性情報及び該属性情報に対する評価との対応データについて、該属性情報及び評価の少なくとも一方をユーザの入力操作に応じて入力する外部入力部207と、映像の中からダイジェスト再生をする部分を抽出するために、前記属性情報を映像の中から抽出し、前記対応データに基づいて該属性情報を有する部分を評価する制御部300とを備えている。これにより、映像の中からダイジェスト再生する部分を抽出するために用いられる属性情報及び/又はその評価値をユーザが適宜入力できる。その結果、ユーザの嗜好に合った映像をダイジェストとして再生することができる。
 また、予め設定された顔検出(人物を特定しない顔検出)という属性情報に対して、特定の人物の顔検出という、下位概念の属性情報を設定可能とすることによって、ユーザのより深い嗜好を反映したダイジェスト再生を行うことができる。
 さらに、属性情報には、クリップイン、クリップアウト及びズームアップ等のようなユーザの嗜好が現れ難い属性情報については固定の属性情報と、特定の人物の顔検出のようにユーザの嗜好が現れ易い属性情報については可変の属性情報とすることによって、処理を簡潔にすることができる。つまり、全ての属性情報を可変とすると、様々な属性情報に対応した制御内容(属性情報の入力や属性情報の抽出等)やメモリ容量を準備しておかなければならず、処理が煩雑となってしまう。それに対して、可変となる属性情報を或る程度絞っておくことによって、予め準備しておく制御内容やメモリ容量を少なくすることができ、処理が簡潔になる。また、自身の嗜好を強く反映させたいユーザと、自身の嗜好をあまり反映させたくないユーザ(そのような操作を煩わしいと感じるユーザ)とが存在する。そこで、全ての属性情報を可変とするのではなく、いくつかの属性情報は固定として、固定の属性情報だけに基づくダイジェスト再生を選択可能とすることによって、後者のユーザに対しては、操作の煩わしさを解消し、使いやすいビデオカメラを提供することができる。一方、前者のユーザにとっては、属性情報の一部を嗜好に応じて入力(追加、変更)することができるため、嗜好を反映させたダイジェスト再生を可能とすることができる。つまり、様々なユーザに対して、使い勝手がよく且つ嗜好を反映させたダイジェスト再生が可能なビデオカメラを提供することができる。
 また、前記ビデオカメラ100Aでは、撮影時に属性情報の抽出、シーン評価、再生情報の生成を行うため、ダイジェスト再生時の処理を低減して、ダイジェスト再生を簡潔且つ迅速に実行することができる。また、ビデオカメラ100Aの姿勢等のような属性情報は、映像から事後的に判断することが難しく、又は、可能であるが煩わしく、撮影時のセンサの検出信号等により容易に検出することができる。つまり、属性情報の中には、撮影時の方が検出しやすいものがある。そのため、撮影時に属性情報の抽出を行うことによって、このような属性情報を容易に抽出することができる。
 さらに、ビデオカメラ100Aのような撮影装置に記録された映像は、編集等がなされていない、単に撮影しただけの映像である。そのため、重要度の低い映像も多く、前述のようなダイジェスト再生が非常に有効なものになる。
 《実施形態2》
 続いて、実施形態2に係るビデオカメラ100Bについて図15を参照しながら説明する。図15は、ビデオカメラ100Bの概略構成を示すブロック図である。ビデオカメラ100Bは、ダイジェスト再生を行うときに再生すべきシーンを選択する点で実施形態1のビデオカメラ100Aと異なる。具体的には、ビデオカメラ100Bの基本的な構成は、ビデオカメラ100Aと略同様であり、データの流れ、即ち、処理の順序がビデオカメラ100Aと異なる。そこで、実施形態1と同様の構成については、同様の符号を付して説明を省略し、異なる部分を中心に説明する。
 属性情報抽出部305が属性情報を抽出するまでの処理は、実施形態1と同様のである。そして、属性情報抽出部305が抽出した属性情報は、多重化部308に入力される。多重化部308は、映像信号圧縮部204からの符号化映像データ、音声信号圧縮部210からの符号化音声データ、及び属性情報抽出部305からの属性情報を多重化して出力する。この多重化されたデータは、記憶部330に記憶される。
 シーン評価部306は、ダイジェスト再生が行われるときに、記憶部330から多重化されたデータを読み出し、属性情報に基づいて、映像の各部分に評価を付与し、映像の中から特徴的なシーンを抽出し、その中から、ダイジェスト再生すべきシーンをさらに抽出する。
 その後、再生情報生成部307は、シーン評価部306が抽出したシーンに基づいて、再生情報を生成して、ダイジェスト再生部309へ出力する。
 ダイジェスト再生部309は、再生情報生成部307が生成した再生情報に基づいて該当するデータを記憶部330から読み出し、映像信号伸張部211及び音声信号伸張部213へ出力する。そして、ダイジェスト映像が、映像表示部212及び音声出力部214によって再生される。
 図16は、撮影、属性情報の抽出、記録までの処理の流れを示すフローチャートである。図17は、ダイジェスト再生時の処理の流れを示したフローチャートである。
 まず、ビデオカメラ100Aの制御部300は、ステップS301において、撮影を開始する。入力ボタン等の外部入力部207からの入力に基づいて、撮影が開始される。
 次に、ステップS302において、属性情報抽出部305は、姿勢検出部206の検出結果、レンズ制御部301の制御情報、並びに映像解析部303及び音声解析部304の解析結果等に基づいて映像の属性情報を抽出する。そして、ステップS303において、多重化部314は、属性情報を、符号化映像データ、符号化音声データと共に多重化する。ステップS304において、制御部300は、これらの多重化データを記憶部330に記憶する。
 その後、制御部300は、ステップS106において、外部入力部207から、撮影終了の入力があるか否かを判定する。撮影終了の入力がない場合は、ステップS302へ戻って、撮影を継続する。一方、撮影終了の入力がある場合には、撮影を終了する。
 こうして撮影が終了した後、ダイジェスト再生を実行する際に、ダイジェスト再生すべきシーンの抽出や再生信号の生成が行われる。
 詳しくは、外部入力部207を介したユーザからのダイジェスト再生の入力があると、シーン評価部306は、ステップS401において、記憶部330に記憶された多重化データを読み出す。
 次に、シーン評価部306は、ステップS402において、読み出した多重化データを分解し、属性情報を読み出す。続いて、シーン評価部306は、ステップS403において、属性情報に基づいて映像の各部分に評価値を付与する。そして、シーン評価部306は、ステップS404において、映像の全部分の評価が終了したか否かを判定する。終了していなければ、シーン評価部306は、ステップS401に戻り、映像の評価を継続する。一方、評価が終了していれば、シーン評価部306は、ステップS405へ進む。
 ステップS405では、シーン評価部306は、評価値に基づいて映像の中からいくつかの特徴的なシーンを抽出し、さらに、その中からダイジェスト再生すべきシーンを抽出する。そして、再生情報生成部307は、シーン評価部306により抽出されたダイジェスト再生すべきシーンに基づいて再生情報を生成する。
 続いて、ダイジェスト再生部309は、ステップS406において、再生情報に基づいて、再生すべき符号化映像データ及び符号化音声データを記憶部330から読み出して映像信号伸張部211及び音声信号伸張部213に出力し、映像表示部212及び音声出力部214を介して映像及び音声を再生する。
 以上により、撮影した映像、音声を記憶部330に一度記憶した後に、ダイジェスト再生に必要な再生情報を生成し、ダイジェスト再生を行うことが可能となる。本実施形態によれば、撮影後、ダイジェスト再生を実行する際に、属性情報に対する評価値を変更することができる。
 《その他の実施形態》
 前記実施形態について、以下のような構成としてもよい。
 例えば、ビデオカメラの構成は前記実施形態に限られるものではない。図18に示すようにビデオカメラ100Cは、撮影した映像から、属性情報を抽出するところまでを実行するようにしてもよい。そして、映像再生装置500が、属性情報が付与された映像データに基づいて、シーン評価及びダイジェスト再生を実行するようにしてもよい。さらには、ビデオカメラが、シーン評価を行うところまでを実行するようにしてもよい。そして、映像再生装置が、評価値に基づいてダイジェスト再生を実行するようにしてもよい。
 さらに、本実施形態は、ビデオカメラのような撮影装置に限られず、PC等の映像編集装置や、HDDレコーダのような映像記録再生装置に適用することもできる。映像編集装置や映像記録再生装置が、映像の中から属性情報を抽出し、属性情報に基づいて映像の各部分を評価し、その評価に基づいてダイジェスト再生を行うようにしてもよい。
 また、前記実施形態では、映像の中から、まず属性情報を抽出して各部分を評価し、次に属性情報に基づいてシーンを抽出し、その次にシーンに基づいてダイジェスト映像を生成しているが、これに限られるものではない。例えば、映像を複数のシーンに分割して、各シーンの属性情報を抽出して、属性情報に基づいて各シーンを評価し、その評価に基づいてダイジェスト映像を生成してもよい。この場合、シーンの分割は、前述のように、フレーム間の動きベクトルに基づいて実行してもよいし、ユーザからの入力に基づいて実行してもよいし、様々な属性情報の中でシーンの分割に影響を与える属性情報(カメラワークや地面の撮影等のシーンの区切りとなるもの)の有無に基づいて実行してもよい。
 また、ビデオカメラ100Aの構成は、前記実施形態に限定されるものではない。例えば、映像AD変換部202、信号処理部203、映像信号圧縮部204、音声AD変換部209、音声信号圧縮部210、映像信号伸張部211及び音声像信号伸張部213の全部又はいくつかを単一の集積回路として実現することも可能である。また、制御部300が実行する処理の一部を別途、FPGA(Field Programmable Gate Array)を用いてハードウェアとして実現することも可能である。
 また、上記の内容を実現する方法やソフトウェアプログラムとしても実現できることは言うまでもない。
 また、前記実施形態では、人物の顔検出を上位の属性情報及び固定の属性情報とし、特定の人物の顔検出を下位の属性情報及び可変の属性情報としているが、これに限られるものではない。例えば、犬などの動物の顔検出を上位の属性情報及び固定の属性情報とし、特定の犬の顔検出を下位の属性情報及び可変の属性情報としてユーザが入力可能としてもよい。または、電車、車又は飛行機などの交通手段の検出を上位の属性情報及び固定の属性情報とし、特定の電車、車又は飛行機の検出を下位の属性情報及び可変の属性情報としてユーザが入力可能としてもよい。または、人物の声の検出を上位の属性情報及び固定の属性情報とし、特定の人物の声の検出を下位の属性情報及び可変の属性情報としてユーザが入力可能としてもよい。この場合、特定の人物の声をマイクロフォン208を介してビデオカメラに入力することができる。
 さらに、前記テーブルの評価値の値をユーザが個別に入力(変更)可能としてもよい。例えば、カメラワークに関する評価値を増加させたり、減少させたりすることができる。
 尚、以上の実施形態は、本質的に好ましい例示であって、本発明、その適用物、あるいはその用途の範囲を制限することを意図するものではない。
 ここに開示された技術は、影像の中からダイジェスト再生する部分を抽出する映像抽出装置及びそれを備えた撮影装置に有用である。
 100A,100B,100C ビデオカメラ(映像抽出装置、撮影装置)
 300    制御部
 305    属性情報抽出部
 306    シーン評価部
 307    再生情報生成部
 309    ダイジェスト再生部

Claims (12)

  1.  映像から抽出すべき、映像に関する属性情報を記憶する記憶部と、
     映像の中からダイジェスト再生する部分を抽出するために、前記記憶部に記憶された前記属性情報を映像の中から抽出する制御部とを備え、
     前記記憶部に記憶された前記属性情報の少なくとも一部は、ユーザが入力可能に構成されている映像抽出装置。
  2.  映像から抽出すべき、映像に関する属性情報及び該属性情報に対する評価との対応データを記憶する記憶部と、
     映像の中からダイジェスト再生する部分を抽出するために、前記記憶部に記憶された前記属性情報を映像の中から抽出し、前記対応データに基づいて該属性情報を有する部分を評価する制御部とを備え、
     前記記憶部に記憶された前記属性情報及び評価の少なくとも一部は、ユーザが入力可能に構成されている映像抽出装置。
  3.  映像から抽出すべき、映像に関する属性情報を記憶する記憶部と、
     ユーザの入力操作に応じて、前記属性情報を前記記憶部に入力する入力部と、
     映像の中からダイジェスト再生するための部分を前記記憶部に記憶された前記属性情報に基づいて抽出する制御部とを備える映像抽出装置。
  4.  映像から抽出すべき、映像に関する属性情報及び該属性情報に対する評価との対応データを記憶する記憶部と、
     ユーザの入力操作に応じて、前記属性情報及び評価の少なくとも一方を前記記憶部に入力する入力部と、
     映像の中からダイジェスト再生するための部分を前記記憶部に記憶された前記属性情報及び評価に基づいて抽出する制御部とを備える映像抽出装置。
  5.  請求項1乃至4の何れか1つに記載の映像抽出装置において、
     前記記憶部には、複数の特定の人物の顔が記憶されており、
     前記記憶部に記憶された人物の顔が検出されたことを、ユーザからの入力によって属性情報として設定可能である映像抽出装置。
  6.  請求項1乃至5の何れか1つに記載の映像抽出装置において、
     前記属性情報は、上位の属性情報と、該上位の属性情報よりも詳細な属性を示す下位の属性情報とを含んでいる映像抽出装置。
  7.  請求項6に記載の映像抽出装置において、
     前記下位の属性情報は、ユーザが入力可能である映像抽出装置。
  8.  請求項6又は7に記載の映像抽出装置において、
     前記上位の属性情報は、人物の顔が検出されたことであり、
     前記下位の属性情報は、特定の人物の顔が検出されたことである映像抽出装置。
  9.  請求項1乃至8の何れか1つに記載の映像抽出装置において、
     前記属性情報は、ユーザが入力できない固定の属性情報をと、ユーザが入力可能な可変の属性情報とを含んでいる映像抽出装置。
  10.  映像を取得する撮像系と、
     請求項1乃至9の何れか1つに記載の映像抽出装置とを備えた撮影装置。
  11.  映像から抽出すべき、映像に関する属性情報及び該属性情報に対する評価との対応データについて、該属性情報及び評価の少なくとも一方のユーザからの入力を受け付けることと、
     前記対応データに含まれる前記属性情報を映像の中から抽出することと、
     前記対応データと抽出された前記属性情報とに基づいて、映像の中からダイジェスト再生する部分を抽出することとをコンピュータに実行させるためのプログラム。
  12.  映像から抽出すべき、映像に関する属性情報及び該属性情報に対する評価との対応データについて、該属性情報及び評価の少なくとも一方のユーザからの入力を受け付けることと、
     前記対応データに含まれる前記属性情報を映像の中から抽出することと、
     前記対応データと抽出された前記属性情報に基づいて、映像の中からダイジェスト再生する部分を抽出することとをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2011/000771 2010-02-10 2011-02-10 映像抽出装置、撮影装置、プログラム及び記録媒体 WO2011099299A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011537781A JPWO2011099299A1 (ja) 2010-02-10 2011-02-10 映像抽出装置、撮影装置、プログラム及び記録媒体
US13/578,441 US8964065B2 (en) 2010-02-10 2011-02-10 Video picture extracting apparatus, imaging apparatus and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010027228 2010-02-10
JP2010-027228 2012-02-10

Publications (1)

Publication Number Publication Date
WO2011099299A1 true WO2011099299A1 (ja) 2011-08-18

Family

ID=44367585

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/000771 WO2011099299A1 (ja) 2010-02-10 2011-02-10 映像抽出装置、撮影装置、プログラム及び記録媒体

Country Status (3)

Country Link
US (1) US8964065B2 (ja)
JP (2) JPWO2011099299A1 (ja)
WO (1) WO2011099299A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015104780A1 (ja) * 2014-01-07 2015-07-16 パナソニックIpマネジメント株式会社 映像撮像装置
WO2017197817A1 (zh) * 2016-05-20 2017-11-23 乐视控股(北京)有限公司 一种数据处理方法、装置、电子设备及服务器
JP2018007134A (ja) * 2016-07-06 2018-01-11 日本放送協会 シーン抽出装置およびそのプログラム
JP2019216364A (ja) * 2018-06-13 2019-12-19 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10296874B1 (en) 2007-12-17 2019-05-21 American Express Travel Related Services Company, Inc. System and method for preventing unauthorized access to financial accounts
US8172135B1 (en) 2011-06-24 2012-05-08 American Express Travel Related Services Company, Inc. Systems and methods for gesture-based interaction with computer systems
US8714439B2 (en) 2011-08-22 2014-05-06 American Express Travel Related Services Company, Inc. Methods and systems for contactless payments at a merchant
US10482753B2 (en) * 2013-01-04 2019-11-19 Minnesota Imaging And Engineering Llc Infection control monitoring system
KR102217186B1 (ko) * 2014-04-11 2021-02-19 삼성전자주식회사 요약 컨텐츠 서비스를 위한 방송 수신 장치 및 방법
CN104284240B (zh) * 2014-09-17 2018-02-02 小米科技有限责任公司 视频浏览方法及装置
US9799376B2 (en) 2014-09-17 2017-10-24 Xiaomi Inc. Method and device for video browsing based on keyframe
US20170112381A1 (en) * 2015-10-23 2017-04-27 Xerox Corporation Heart rate sensing using camera-based handheld device
JP6379307B2 (ja) * 2015-12-22 2018-08-22 富士フイルム株式会社 撮像装置、合焦制御方法、及び合焦制御プログラム
JP6878718B2 (ja) * 2016-07-19 2021-06-02 Seven Dew株式会社 ダイジェスト映像取得装置、ダイジェスト映像取得方法、およびプログラム
US10365383B2 (en) 2016-09-09 2019-07-30 Minnesota Imaging And Engineering Llc Structured detectors and detector systems for radiation imaging
CN108012081B (zh) * 2017-12-08 2020-02-04 北京百度网讯科技有限公司 智能美颜方法、装置、终端和计算机可读存储介质
US10701365B2 (en) * 2017-12-11 2020-06-30 Disney Enterprises, Inc. Systems and methods for scene categorization

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007060060A (ja) * 2005-08-23 2007-03-08 Sony Corp 再生システム、再生装置、再生方法、情報処理装置、情報処理方法、およびプログラム
JP2008278467A (ja) * 2007-03-30 2008-11-13 Sanyo Electric Co Ltd 画像処理装置および画像処理方法
JP2009077026A (ja) * 2007-09-19 2009-04-09 Fujifilm Corp 撮影装置および方法並びにプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4230870B2 (ja) 2003-09-25 2009-02-25 富士フイルム株式会社 動画記録装置、動画記録方法、及びプログラム
JP2007072520A (ja) 2005-09-02 2007-03-22 Sony Corp 映像処理装置
US7889244B2 (en) * 2005-12-27 2011-02-15 Panasonic Corporation Image processing apparatus
JP2008103802A (ja) 2006-10-17 2008-05-01 Sharp Corp 映像合成装置
JP4960121B2 (ja) 2007-03-12 2012-06-27 パナソニック株式会社 コンテンツ撮影装置
WO2008111308A1 (ja) 2007-03-12 2008-09-18 Panasonic Corporation コンテンツ撮影装置
US20080240503A1 (en) 2007-03-30 2008-10-02 Sanyo Electric Co., Ltd. Image Processing Apparatus And Image Pickup Apparatus Mounting The Same, And Image Processing Method
JP4360425B2 (ja) 2007-06-15 2009-11-11 ソニー株式会社 画像処理装置、その処理方法およびプログラム
CN101588450B (zh) 2008-05-19 2013-08-14 株式会社日立制作所 记录再现装置及方法
JP2010272109A (ja) * 2009-04-20 2010-12-02 Fujifilm Corp 画像処理装置、画像処理方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007060060A (ja) * 2005-08-23 2007-03-08 Sony Corp 再生システム、再生装置、再生方法、情報処理装置、情報処理方法、およびプログラム
JP2008278467A (ja) * 2007-03-30 2008-11-13 Sanyo Electric Co Ltd 画像処理装置および画像処理方法
JP2009077026A (ja) * 2007-09-19 2009-04-09 Fujifilm Corp 撮影装置および方法並びにプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015104780A1 (ja) * 2014-01-07 2015-07-16 パナソニックIpマネジメント株式会社 映像撮像装置
WO2017197817A1 (zh) * 2016-05-20 2017-11-23 乐视控股(北京)有限公司 一种数据处理方法、装置、电子设备及服务器
JP2018007134A (ja) * 2016-07-06 2018-01-11 日本放送協会 シーン抽出装置およびそのプログラム
JP2019216364A (ja) * 2018-06-13 2019-12-19 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP7166796B2 (ja) 2018-06-13 2022-11-08 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
JP2014030260A (ja) 2014-02-13
JP5685732B2 (ja) 2015-03-18
US8964065B2 (en) 2015-02-24
JPWO2011099299A1 (ja) 2013-06-13
US20120307109A1 (en) 2012-12-06

Similar Documents

Publication Publication Date Title
JP5685732B2 (ja) 映像抽出装置、プログラム及び記録媒体
US8000558B2 (en) Thumbnail generating apparatus and image shooting apparatus
JP6267961B2 (ja) 映像提供方法および送信装置
JP5456023B2 (ja) 画像撮影装置、画像撮影方法、プログラム、及び集積回路
KR100734705B1 (ko) 동화 기록 장치 및 동화 재생 장치
JP2009156888A (ja) 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
WO2015098110A1 (ja) 撮像装置、撮像システムおよび撮像方法
JP4992639B2 (ja) コンテンツ撮影装置
JP4960121B2 (ja) コンテンツ撮影装置
JP2007266659A (ja) 撮像再生装置
JP2010245856A (ja) 映像編集装置
JP5600405B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2011119936A (ja) 撮影装置及び再生方法
JP6295442B2 (ja) 画像生成装置、撮影装置、画像生成方法及びプログラム
JP2011119934A (ja) 画像撮影装置及び画像撮影方法
JP6314321B2 (ja) 画像生成装置、撮影装置、画像生成方法及びプログラム
JP6295443B2 (ja) 画像生成装置、撮影装置、画像生成方法及びプログラム
WO2015104780A1 (ja) 映像撮像装置
JP2010263611A (ja) 映像撮影装置
JP4667411B2 (ja) コンテンツ撮影装置
JP5836091B2 (ja) 再生装置及びプログラム
JP6332963B2 (ja) 画像処理装置及び画像処理装置の制御方法
WO2013186962A1 (ja) 映像処理装置、撮影装置、およびプログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2011537781

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11742048

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13578441

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 11742048

Country of ref document: EP

Kind code of ref document: A1