JP2004086124A - Device and method for creating metadata - Google Patents
Device and method for creating metadata Download PDFInfo
- Publication number
- JP2004086124A JP2004086124A JP2002334831A JP2002334831A JP2004086124A JP 2004086124 A JP2004086124 A JP 2004086124A JP 2002334831 A JP2002334831 A JP 2002334831A JP 2002334831 A JP2002334831 A JP 2002334831A JP 2004086124 A JP2004086124 A JP 2004086124A
- Authority
- JP
- Japan
- Prior art keywords
- metadata
- content
- input
- voice
- producing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、コンテンツ制作におけるメタデータ制作システム及び方法に関するものである。
【0002】
【従来技術】
近年、映像・音声コンテンツの制作において、これらコンテンツに関連したメタデータの付与することがおこなわれている。
【0003】
しかしながら、上記メタデータの付与は、制作された映像・音声コンテンツのシナリオあるいはナレーション原稿をもとに、制作された映像・音声コンテンツを再生しながらメタデータとすべき情報を確認し、手作業でコンピュータ入力することにより制作する方法が一般的であり、相当な労力の必要な方法であった。
【0004】
【特許文献1】
特開平09−130736号公報
【0005】
【発明が解決しようとする課題】
本願発明は、上記従来の問題点に係る課題を解決することを目的とするものであって、制作された映像・音声コンテンツを再生することによりメタデータとすべき情報を確認し、音声入力でコンピュータに入力することにより制作するシステム及び方法を提供することを目的とする。
【0006】
【課題を解決するための手段】
上記課題を解決するために本願発明は、制作されたコンテンツの再生手段、上記再生手段で再生された映像信号を表示する映像モニタ手段、上記再生手段で再生された音声信号をモニタする音声モニタ手段、上記映像モニタ手段および上記音声モニタ手段でオペレータが確認した制作すべきメタデータ内容をオペレータの発声によりマイクで収録する音声入力手段、上記音声入力手段により入力された音声信号を認識する音声認識手段、音声認識手段で認識された音声情報をメタデータに変換することによりメタデータを生成するメタデータ生成手段、および上記コンテンツと上記メタデータとを関連づけるため、上記コンテンツに付与されているタイムコード情報と上記メタデータとを入力しタイムコード付メタデータとするタイムコード付与手段とを備えたものである。
【0007】
これにより、従来キーボードで入力し、制作していたメタデータを、音声認識を用いて音声入力し、自動的にタイムコード付きのメタデータを制作することが可能となる。
【0008】
【発明の実施の形態】
本発明の請求項1に係る発明は、コンテンツに関連するメタデータの制作装置であって、音声入力手段と、音声認識手段と、メタデータ制作手段とを具備し、上記コンテンツに関連した情報を上記音声入力手段により入力し、上記入力された音声信号を上記音声認識手段にて認識し、認識したデータを上記メタデータ制作手段によりメタデータに変換することを特徴とするメタデータ制作装置である。
【0009】
本発明の請求項2に係る発明は、コンテンツに関連するメタデータの制作装置であって、音声入力手段と音声認識手段とメタデータ制作手段と上記コンテンツに関連した辞書とを具備し、上記コンテンツに関連した情報を上記音声入力手段により入力し、上記入力された音声信号を上記音声認識手段にて上記コンテンツに関連した辞書に関連付けて認識し、認識したデータを上記メタデータ制作手段によりメタデータに変換することを特徴とするメタデータ制作装置である。
【0010】
本発明の請求項3に係る発明は、上記請求項1ないし上記請求項2に係る発明のメタデータ制作装置であって、上記コンテンツに付与されているタイムコード情報と上記メタデータとを入力し、タイムコード付メタデータを生成するタイムコード付与手段を備え、上記コンテンツと生成された上記メタデータとを関連付けることを特徴とする請求項1または2のいずれかに記載のメタデータ制作装置である。
【0011】
以下、本発明の実施の形態について図面を用いて説明する。
【0012】
(実施の形態1)
図1は、本発明の実施の形態1によるメタデータ制作装置の構成を示すブロック図である。図1において、1はコンテンツ再生手段、2は映像モニタ手段、3は音声モニタ手段、4はマイク、5は音声認識手段、6はメタデータ生成手段、7はタイムコード付与手段、8は辞書である。
コンテンツ再生手段1は、たとえばVTR(あるいはハードディスクで構成された映像・音声信号再生装置、あるいは半導体メモリなどのメモリ手段を記録媒体とする映像・音声信号再生装置、あるいは光学記録式または磁気記録式などの回転型ディスクで構成された映像・音声信号再生装置、さらには伝送されてきたあるいは放送されてきた映像・音声信号を再生する映像・音声再生装置などのコンテンツ再生手段)である。上記コンテンツ再生手段1は、映像信号出力端子101、音声信号出力端子102およびタイムコード出力端子103を具備し、再生された映像信号は端子101および201を介して、映像モニタ手段2に供給され、再生された音声信号は端子102および302を介して、音声モニタ3に供給され、再生されたタイムコードは端子103および703を介してタイムコード付与手段7に供給される。メタデータを制作する制作者(図示せず)は、映像モニタ手段2と音声モニタ手段3のいずれかあるいは両方を確認しながら、場合によればシナリオまたはナレーション原稿なども参照しながら、入力すべきメタデータを発声する。マイク4は、上記制作者の発声を受付、音声信号に変換して、音声認識手段5に供給する。また、必要に応じて、音声認識用の辞書8も、音声認識手段5に供給される。音声認識手段5で認識された、音声データはメタデータ生成手段6に供給され、メタデータあるいはタグに変換される。此のようにして、生成されたメタデータあるいはタグは、コンテンツ自身の内容と時間関係あるいはシーンとの関係を略略一致させるため、タイムコード付与手段7にて、コンテンツ再生手段1から供給されたタイムコード情報が付与される。
【0013】
より具体的に説明するため料理説明をする場面を一例として想定する。この場合オペレータが、映像モニタ手段2の表示画面を確認しながらマイク4を通じて”塩 1さじ”と発生すると、音声認識手段5にて、辞書8を参照しながら、 ”塩”、”1さじ”と認識されメタデータ生成手段6にて各々”塩”、”1さじ”というタグに変換される。なお、音声認識としては、上記音声認識手段5に限定されず、一般的に用いられている種々の手段を用いて音声認識し”しお”、”ひとさじ”とのデータを認識してもよい。
なお、一般には、メタデータとは、このようなタグの集合体を意味するものである。タイムコード付与手段703では、コンテンツ再生手段103からの信号をもとに、タイムコードが付与されたタイムコード付与メタデータが生成される。具体的には、図2に示すようなパケットデータが生成される。生成されたメタデータは、そのまま出力されても良く、またハードディスク等の記録媒体に蓄積しても良い。また、上記の実施例においては、パケット形式のメタデータを生成するとして説明したが、特に限定されるものではない。
【0014】
さらに上述した実施例では、コンテンツとしてタイムコードの付与されている動画コンテンツの場合について説明したが、静止画コンテンツあるいは、デジタルデータコンテンツなどの場合には、上記静止画コンテンツあるいはデジタルデータコンテンツを識別するために、動画の場合のタイムコードに相当するコンテンツの番地あるいは番号を用いて上記コンテンツと生成された上記メタデータを関連づけてもよい。
【0015】
なお、一般的には、音声認識には何らかの誤認識が生じる可能性がある。誤認識が生じた場合、制作されたメタデータ、タグをコンピュータ手段などの情報処理手段を用いて修正することは可能である。
【0016】
【発明の効果】
以上説明したように発明は、コンテンツに関連したメタデータの作成あるいはタグ付けを行うに当たり、音声入力による音声認識を用い、且つ、上記メタデータあるいはタグとコンテンツとの時間あるいはシーンとの関連付けを行うため、従来のようなキーボード入力より、効率的に、メタデータの作成やタグ付けを実施することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1に係るメタデータ制作装置の構成を示すブロック図
【図2】本発明の実施形態1に係るタイムコード付きメタデータの一例を示す図
【符号の説明】
1 コンテンツ再生手段
2 映像モニタ手段
3 音声モニタ手段
4 マイク
5 音声認識手段
6 メタデータ生成手段
7 タイムコード付与手段
8 辞書
101 映像出力端子
102 音声出力端子
103 タイムコード出力端子
201 映像入力端子
302 音声入力端子
703 タイムコード入力端子[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a metadata production system and method in content production.
[0002]
[Prior art]
2. Description of the Related Art In recent years, in the production of video / audio contents, metadata related to these contents has been added.
[0003]
However, the provision of the above metadata is based on the scenario of the produced video / audio content or the narration manuscript, and while reproducing the produced video / audio content, confirming the information to be metadata, and manually The method of producing by computer input was common and required a considerable amount of labor.
[0004]
[Patent Document 1]
JP-A-09-130736
[Problems to be solved by the invention]
An object of the present invention is to solve the problems related to the conventional problems described above, and confirms information to be metadata by reproducing produced video and audio contents, and performs audio input. It is an object of the present invention to provide a system and a method for producing by inputting to a computer.
[0006]
[Means for Solving the Problems]
In order to solve the above-described problems, the present invention provides a reproducing unit for produced content, a video monitoring unit for displaying a video signal reproduced by the reproducing unit, and an audio monitoring unit for monitoring an audio signal reproduced by the reproducing unit. Voice input means for recording the contents of metadata to be produced, confirmed by the operator with the video monitor means and the voice monitor means, with a microphone by an operator's voice, and voice recognition means for recognizing a voice signal input by the voice input means Metadata generating means for generating metadata by converting voice information recognized by voice recognizing means into metadata, and time code information given to the content in order to associate the content with the metadata And time code as above and input as metadata with time code It is obtained by a given unit.
[0007]
As a result, it is possible to automatically input metadata produced by the keyboard using the speech recognition and produce metadata with a time code.
[0008]
BEST MODE FOR CARRYING OUT THE INVENTION
An invention according to claim 1 of the present invention is an apparatus for producing metadata related to content, comprising: a voice input unit, a voice recognition unit, and a metadata production unit, and transmits information related to the content. A metadata producing apparatus characterized in that the inputted speech signal is inputted by the speech input means, the inputted speech signal is recognized by the speech recognition means, and the recognized data is converted into metadata by the metadata producing means. .
[0009]
According to a second aspect of the present invention, there is provided an apparatus for producing metadata related to a content, comprising: a voice input unit, a voice recognition unit, a metadata production unit, and a dictionary relating to the content. Is input by the voice input means, the input voice signal is recognized by the voice recognition means in association with a dictionary related to the content, and the recognized data is converted into metadata by the metadata production means. The metadata production device is characterized in that the metadata production device converts the metadata into a metadata.
[0010]
According to a third aspect of the present invention, there is provided the metadata producing apparatus according to the first or second aspect of the present invention, wherein the time code information given to the content and the metadata are inputted. 3. The metadata producing apparatus according to claim 1, further comprising a time code adding unit for generating metadata with a time code, wherein the content is associated with the generated metadata. .
[0011]
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0012]
(Embodiment 1)
FIG. 1 is a block diagram showing a configuration of a metadata production device according to Embodiment 1 of the present invention. In FIG. 1, 1 is a content reproducing means, 2 is a video monitoring means, 3 is an audio monitoring means, 4 is a microphone, 5 is an audio recognition means, 6 is metadata generating means, 7 is a time code adding means, and 8 is a dictionary. is there.
The content reproducing means 1 is, for example, a video / audio signal reproducing apparatus constituted by a VTR (or a hard disk), a video / audio signal reproducing apparatus using a memory means such as a semiconductor memory as a recording medium, or an optical recording type or a magnetic recording type And a video / audio signal reproducing device constituted by a rotating disk, and a content reproducing means such as a video / audio reproducing device for reproducing transmitted / broadcast video / audio signals. The content reproducing means 1 includes a video
[0013]
For a more specific explanation, a scene in which cooking is explained is assumed as an example. In this case, when the operator confirms the display screen of the video monitor means 2 and outputs “salt 1 spoon” through the
In general, metadata means a collection of such tags. The time
[0014]
Further, in the above-described embodiment, the case of the moving image content to which the time code is added as the content has been described. However, in the case of the still image content or the digital data content, the still image content or the digital data content is identified. For this purpose, the content and the generated metadata may be associated using the address or number of the content corresponding to the time code in the case of a moving image.
[0015]
In general, some erroneous recognition may occur in voice recognition. If misrecognition occurs, it is possible to correct the produced metadata and tags using information processing means such as computer means.
[0016]
【The invention's effect】
As described above, in the invention, when creating or tagging metadata related to content, voice recognition by voice input is used, and the time or scene between the metadata or tag and the content is associated. Therefore, metadata can be created and tagged more efficiently than a conventional keyboard input.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration of a metadata production device according to a first embodiment of the present invention. FIG. 2 is a diagram illustrating an example of metadata with a time code according to the first embodiment of the present invention.
DESCRIPTION OF SYMBOLS 1 Content reproduction means 2 Video monitoring means 3 Audio monitoring means 4
Claims (12)
音声入力手段と、音声認識手段と、メタデータ制作手段とを具備し、
上記コンテンツに関連した情報を上記音声入力手段により入力し、上記入力された音声信号を上記音声認識手段にて認識し、認識したデータを上記メタデータ制作手段によりメタデータに変換することを特徴とするメタデータ制作装置。An apparatus for producing metadata related to content,
A voice input unit, a voice recognition unit, and a metadata production unit;
The information related to the content is input by the voice input unit, the input voice signal is recognized by the voice recognition unit, and the recognized data is converted into metadata by the metadata production unit. Metadata production equipment.
音声入力手段と、音声認識手段と、キーボードを含むコンピュータ手段と、メタデータ制作手段とを具備し、上記コンテンツに関連した情報を上記音声入力手段により入力し、上記入力された音声信号を上記音声認識手段にて認識し、認識したデータを上記メタデータ制作手段によりメタデータに変換するとともに、上記認識されたデータが誤認識と判断された場合には、上記キーボードを含むコンピュータ手段により修正されることを特徴とするメタデータ制作装置。An apparatus for producing metadata related to content,
A voice input means, a voice recognition means, a computer means including a keyboard, and a metadata producing means, wherein information related to the content is input by the voice input means, and the input voice signal is transmitted to the voice Recognized by the recognition means, the recognized data is converted to metadata by the metadata production means, and if the recognized data is determined to be erroneous recognition, the data is corrected by the computer means including the keyboard. A metadata production device, characterized in that:
音声入力手段と音声認識手段とメタデータ制作手段と上記コンテンツに関連した辞書とを具備し、上記コンテンツに関連した情報を上記音声入力手段により入力し、上記入力された音声信号を上記音声認識手段にて上記コンテンツに関連した辞書に関連付けて認識し、認識したデータを上記メタデータ制作手段によりメタデータに変換することを特徴とするメタデータ制作装置。An apparatus for producing metadata related to content,
A speech inputting means, a speech recognizing means, a metadata producing means and a dictionary relating to the content, wherein information relating to the content is inputted by the speech inputting means, and the inputted speech signal is inputted to the speech recognizing means. A metadata producing apparatus for recognizing the metadata in association with a dictionary relating to the content, and converting the recognized data into metadata by the metadata producing means.
音声入力手段と音声認識手段とメタデータ制作手段と上記コンテンツに関連した辞書とを具備し、上記コンテンツに関連した情報を上記音声入力手段により入力し、上記入力された音声信号を上記音声認識手段にて上記コンテンツに関連した辞書に関連付けて単語単位で認識し、認識したデータを上記メタデータ制作手段によりメタデータに変換することを特徴とするメタデータ制作装置。An apparatus for producing metadata related to content,
A speech inputting means, a speech recognizing means, a metadata producing means and a dictionary relating to the content, wherein information relating to the content is inputted by the speech inputting means, and the inputted speech signal is inputted to the speech recognizing means. A metadata producing apparatus for recognizing each word in association with a dictionary relating to the content and converting the recognized data into metadata by the metadata producing means.
音声入力手段と音声認識手段とキーボードを含むコンピュータ手段とメタデータ制作手段と上記コンテンツに関連した辞書とを具備し、上記コンテンツに関連した情報を上記音声入力手段により入力し、上記入力された音声信号を上記音声認識手段にて上記コンテンツに関連した辞書に関連付けて単語単位で認識し、認識したデータを上記メタデータ制作手段によりメタデータに変換するとともに、上記認識されたデータが誤認識と判断された場合には、上記キーボードを含むコンピュータ手段により修正されることを特徴とするメタデータ制作装置。An apparatus for producing metadata related to content,
Computer means including voice input means, voice recognition means, a keyboard, metadata producing means, and a dictionary relating to the content, wherein information relating to the content is input by the voice input means, and the input voice The signal is recognized by the voice recognition means in association with the dictionary relating to the content in word units, the recognized data is converted into metadata by the metadata production means, and the recognized data is determined to be erroneously recognized. A metadata production device, wherein the metadata is modified by computer means including the keyboard when the metadata is created.
音声入力手段と、音声認識手段と、メタデータ制作手段とを用いて、上記コンテンツに関連した情報を上記音声入力手段により入力し、上記入力された音声信号を上記音声認識手段にて認識し、上記メタデータ制作手段によりメタデータに変換することを特徴とするメタデータ制作方法。A method of creating metadata related to content,
Using voice input means, voice recognition means, and metadata production means, information related to the content is input by the voice input means, and the input voice signal is recognized by the voice recognition means, A metadata production method, wherein the metadata is converted into metadata by the metadata production means.
音声入力手段と音声認識手段とメタデータ制作手段と上記コンテンツに関連した辞書とを用いて、上記コンテンツに関連した情報を上記音声入力手段により入力し、上記入力された音声信号を上記音声認識手段にて上記コンテンツに関連した辞書に関連付けて認識し、上記メタデータ制作手段によりメタデータに変換することを特徴とするメタデータ制作方法。A method of creating metadata related to content,
Using a voice input unit, a voice recognition unit, a metadata production unit, and a dictionary related to the content, information related to the content is input by the voice input unit, and the input voice signal is input to the voice recognition unit. And recognizing the metadata in association with a dictionary relating to the content, and converting the content into metadata by the metadata generating means.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002334831A JP2004086124A (en) | 2002-06-24 | 2002-11-19 | Device and method for creating metadata |
US10/519,089 US20050228665A1 (en) | 2002-06-24 | 2003-06-23 | Metadata preparing device, preparing method therefor and retrieving device |
CN038149028A CN1663249A (en) | 2002-06-24 | 2003-06-23 | Metadata preparing device, preparing method therefor and retrieving device |
EP03733537A EP1536638A4 (en) | 2002-06-24 | 2003-06-23 | Metadata preparing device, preparing method therefor and retrieving device |
PCT/JP2003/007908 WO2004002144A1 (en) | 2002-06-24 | 2003-06-23 | Metadata preparing device, preparing method therefor and retrieving device |
MXPA04012865A MXPA04012865A (en) | 2002-06-24 | 2003-06-23 | Metadata preparing device, preparing method therefor and retrieving device. |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002182506 | 2002-06-24 | ||
JP2002334831A JP2004086124A (en) | 2002-06-24 | 2002-11-19 | Device and method for creating metadata |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004086124A true JP2004086124A (en) | 2004-03-18 |
Family
ID=32071536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002334831A Pending JP2004086124A (en) | 2002-06-24 | 2002-11-19 | Device and method for creating metadata |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004086124A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006134883A1 (en) | 2005-06-13 | 2006-12-21 | Matsushita Electric Industrial Co., Ltd. | Content tag attachment support device and content tag attachment support method |
JP2020509504A (en) * | 2017-03-20 | 2020-03-26 | 深▲せん▼前海達闥雲端智能科技有限公司Cloudminds (Shenzhen) Robotics Systems Co., Ltd. | Image tagging method, apparatus, and electronic device |
-
2002
- 2002-11-19 JP JP2002334831A patent/JP2004086124A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006134883A1 (en) | 2005-06-13 | 2006-12-21 | Matsushita Electric Industrial Co., Ltd. | Content tag attachment support device and content tag attachment support method |
US20090103901A1 (en) * | 2005-06-13 | 2009-04-23 | Matsushita Electric Industrial Co., Ltd. | Content tag attachment support device and content tag attachment support method |
JP2020509504A (en) * | 2017-03-20 | 2020-03-26 | 深▲せん▼前海達闥雲端智能科技有限公司Cloudminds (Shenzhen) Robotics Systems Co., Ltd. | Image tagging method, apparatus, and electronic device |
US11321583B2 (en) | 2017-03-20 | 2022-05-03 | Cloudminds Robotics Co., Ltd. | Image annotating method and electronic device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8538753B2 (en) | Generating representations of group interactions | |
WO2004002144A1 (en) | Metadata preparing device, preparing method therefor and retrieving device | |
US20080262841A1 (en) | Apparatus and method for rendering contents, containing sound data, moving image data and static image data, harmless | |
US6349303B1 (en) | Information processing apparatus and method | |
JP2020140326A (en) | Content generation system and content generation method | |
JP3781715B2 (en) | Metadata production device and search device | |
JP2021090172A (en) | Caption data generation device, content distribution system, video reproduction device, program, and caption data generation method | |
JP4418189B2 (en) | Information processing apparatus, information processing system, information processing method, program thereof, recording medium recording the program, and playback apparatus | |
KR100798556B1 (en) | Digital apparatus comprising active display linking function | |
JP2004086124A (en) | Device and method for creating metadata | |
MY123764A (en) | Information recording medium, motion-picture voice recording/reproducing apparatus, and motion-picture voice recording/reproducing method | |
CN112151048B (en) | Method for generating and processing audio-visual data | |
JP3688214B2 (en) | Viewer video recording and playback device | |
JP2002084505A (en) | Apparatus and method for shortening video reading time | |
JP2013201505A (en) | Video conference system and multipoint connection device and computer program | |
JP2005057751A (en) | Multimedia data reproducing method, and multimedia data reproducing apparatus | |
JP2003319423A (en) | Broadcasting material monitoring device | |
JP2004336606A (en) | Caption production system | |
JP2004153765A (en) | Meta-data production apparatus and production method | |
JP2007256502A (en) | Performance data remote communication system, and program for implementing control method thereof | |
JP2007140199A (en) | Metadata generating apparatus | |
JPH09146977A (en) | Data retrieval device | |
KR20040079690A (en) | Self-manageable subtitle reproducing apparatus, and method therefor | |
JP2010199711A (en) | Apparatus and method for processing content | |
JPS58158736A (en) | Voice inputting method of photocomposition by means of electronic computer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050202 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080916 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090203 |