JP2019213160A - 動画編集装置、動画編集方法、及び動画編集プログラム - Google Patents
動画編集装置、動画編集方法、及び動画編集プログラム Download PDFInfo
- Publication number
- JP2019213160A JP2019213160A JP2018110423A JP2018110423A JP2019213160A JP 2019213160 A JP2019213160 A JP 2019213160A JP 2018110423 A JP2018110423 A JP 2018110423A JP 2018110423 A JP2018110423 A JP 2018110423A JP 2019213160 A JP2019213160 A JP 2019213160A
- Authority
- JP
- Japan
- Prior art keywords
- moving image
- recognition result
- editing
- time interval
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
Description
といった自動編集を可能とする。
また、動画作成者は特定の編集内容と結びつけられた複合的な事象を利用して、動画の撮影中に任意の動画再生時刻に対して意図した編集内容を指定することができ、これにより、動画作成者の意図を反映した編集を可能としながら動画編集にかかる負担を軽減することができる。
本発明の実施形態に係る動画編集装置1について図1を用いて説明する。
動画編集装置1は、撮影した動画データを編集するための装置である。動画編集装置1は、外部の動画撮影装置と通信する通信部11と、撮影した動画データ、編集した動画データ、および編集情報を記憶する記憶部12と、撮影した動画データを編集する制御部13と、を備えている。
通信部11は、外部の動画撮影装置2と有線または無線の通信回線を通じて通信する部分である。
記憶部12は、撮影した動画データ、編集した動画データ、および編集情報を記憶する部分であり、例えば、RAMやROMなどで構成されている。
制御部13は、撮影した動画データを編集する部分であり、例えば演算装置等で構成されている。
また、制御部13は、動画データを入力する動画入力部21と、動画データに含まれる動画像データから算出される時刻区間付動画像認識結果を格納する動画像認識結果格納部としての動画像認識部22と、動画データに含まれる音声データから算出される時刻区間付音声認識結果を格納する音声認識結果格納部としての音声認識部23と、時刻区間付動画像認識結果および時刻区間付音声認識結果を各再生時刻において結合した複合認識結果を算出する認識結果結合部24と、複合認識結果に基づき適用する時刻区間付編集情報を決定する編集情報割当部25と、を備える。動画入力部21、動画像認識部22、音声認識部23、認識結果結合部24、編集情報割当部25は、例えば一般的なWebブラウザソフトウェアをインストールした一般的な情報処理装置によって実現されるものである。
オブジェクト認識は、フレーム画像データを入力情報とし、あらかじめ登録されたオブジェクトが現れた領域およびオブジェクトの種類を少なくとも出力情報に含む認識手法である。オブジェクトが現れた領域は、複数あってもよい。また、出力情報には、認識の信頼度が含まれていてもよい。
動画編集装置1で利用することが可能な動画像認識方法においては、例えば、特定の人物の顔を用いる場合、動画作成者は、予め人物の顔を認識する学習済みモデルを動画像認識部から利用可能であるように登録しておき、当該学習済みモデルは、動画像認識部で任意の要素を認識するために使用される。
また、動画編集装置1で利用することが可能な音声認識方法においては、例えば、特定のキーワードを用いる場合、動画作成者は、予め前記キーワードを音声認識部から利用可能であるように登録しておき、当該キーワードは、音声認識部で任意の要素を認識するために使用される。
認識結果結合部24は、組み合わせパターンの入力部35を備える。入力部35は、動画作成者が、組み合わせパターンを指定するための入力手段であり、動画作成者は入力部35から組み合わせパターンを指定可能である。
編集情報割当部25は、編集方法組み合わせパターンの入力部36を備える。入力部36は、動画作成者が、編集方法組み合わせパターンを指定するための入力手段であり、動画作成者は入力部36から編集方法組み合わせパターンを指定可能である。
カット編集情報が含まれていた場合には、カット区間算出部27が、時刻区間付編集情報からカット区間を算出する。
まず、動画編集方法のうち、認識結果を取得する方法について図2を用いて説明する。
認識結果結合部24を用いて、再生時刻を含む時刻区間が付与された時刻区間付動画像認識結果と、時刻区間付音声認識結果と、から複合認識結果を算出する(ステップS110)。
編集情報割当部25を用いて、複合認識結果から時刻区間付編集情報を取得する(ステップS120)。複合認識結果と編集情報の関係は記憶部12に表1に示すテーブルとして記録されており、複合認識結果を入力すると、編集情報割当部25によって、テーブルに基づいて時刻区間付編集情報が生成される。
動画自動編集は、動画像データの編集と、音声データの編集と、が並行して行われる。
動画像データの編集においては、再生時刻変換部33を用いて、時刻区間付編集情報に付与された再生時刻および秒間フレーム数からフレームインデクスを取得し、フレームインデクスが付与されたインデクス付フレーム画像を選択する。(ステップS150)
次に、テロップ付加編集部52を用いて、時刻区間付編集情報および再生時刻に基づいて文字または記号からなるテロップ画像を生成し、インデクス付フレーム画像に付加する(ステップS170)。
次に、動画像コンテンツ付加編集部53を用いて、時刻区間付編集情報および再生時刻に基づいて動画像コンテンツを決定し、インデクス付フレーム画像に付加する(ステップS180)。
次に、音声コンテンツ付加編集部55を用いて、時刻区間付編集情報から音声コンテンツを決定し、音声データに付加する(ステップS230)。
まず、時刻区間付編集情報にカット編集情報が含まれるか否かについて判断する(ステップS250)。時刻区間付編集情報にカット編集情報が含まれない場合はカット編集を行う必要が無いため、カット編集を終了する。
ステップS250において、カット編集情報が含まれると判断された場合は、カット区間算出部を用いて時刻区間付編集情報からカット区間を算出する(ステップS260)。
第一の工程において、動画データに含まれる動画像データから算出された時刻区間付動画像認識結果の具体例として、オブジェクト認識で認識する特定のジェスチャ(ハンドサイン)が含まれる。特定のジェスチャを認識する学習済みモデルは予め登録しておく。動画データから抽出したフレーム画像データを入力情報として、オブジェクト認識を実行し、ジェスチャが現れたフレーム画像データにおける領域を検出し、認識結果とする。これらの認識結果は時刻区間と紐付けられている。
また、第二の工程において、動画データに含まれる音声データから算出された時刻区間付音声認識結果の具体例として、動画出演者の発話内容に基づくテキストの情報、特定キーワードが発話されたか否かの情報、無音声区間に関する情報が含まれる。発話音声認識で出力される発話内容文に含まれるキーワードは予め登録しておく。動画データから抽出した音声データを入力情報として、音声認識を実行し、たとえば特定キーワードが発話されたこと検出し、認識結果とする。これらの認識結果は時刻区間と紐付けられている。
動画作成者は、オブジェクト認識で認識する出演者ごとの顔に対し、これらを認識する学習済みモデルを予め登録する。オブジェクト認識で認識する顔の構成要素に対し、これらを認識する学習済みモデルを予め登録する。顔の構成要素は、例えば、口である。
動画作成者は、オブジェクト認識で認識する出演者の顔に対し、これらを認識する学習済みモデルを予め登録する。
このように構成することにより、動画編集において、動画データから認識が可能である複合的な事象と特定の編集内容とを紐付けることができる。例えば、音声認識により動画出演者の発話内容から生成されたテロップを動画像認識により認識された動画出演者のジェスチャに応じた位置に付加することができる。また、音声認識により認識されたキーワードに応じた動画像コンテンツを動画像認識により検出された動画出演者の顔の位置の周辺に付加することができる。
また、動画像認識により認識された動画出演者のジェスチャに応じた音声コンテンツを音声認識により検出された発話区間と重ならないタイミングで付加することができる。また、音声認識により検出された無音声区間のうち、動画像認識により認識された特定のオブジェクトが動き始める時刻より前だけをカットすることができる。
2 動画撮影装置
11 通信部
12 記憶部
13 制御部
21 動画入力部
22 動画像認識部
23 音声認識部
24 認識結果結合部
25 編集情報割当部
26 動画自動編集部
27 カット区間算出部
31 フレーム画像抽出部
32 秒間フレーム数抽出部
33 再生時刻変換部
Claims (12)
- 動画データに含まれる動画像データから算出される時刻区間付動画像認識結果を格納する動画像認識結果格納部と、
前記動画データに含まれる音声データから算出される時刻区間付音声認識結果を格納する音声認識結果格納部と、
前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果を各再生時刻において結合した複合認識結果を算出する認識結果結合部と、
前記複合認識結果に基づき適用する時刻区間付編集情報を決定する編集情報割当部と、
を備えることを特徴とする
動画編集装置。 - 前記認識結果結合部において、前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果は所定の組み合わせパターンと照合することにより結合され、前記所定の組み合わせパターンは登録可能とすることを特徴とする
請求項1に記載の動画編集装置。 - 前記編集情報割当部において、前記適用する時刻区間付編集情報は前記複合認識結果と、複合認識結果と時刻区間付編集情報との所定の組み合わせパターンと、を照合することにより決定され、前記所定の組み合わせパターンは登録可能とすることを特徴とする
請求項1または2に記載の動画編集装置。 - 前記編集情報割当部において決定された時刻区間付編集情報は、編集可能なデータ群として出力されることを特徴とする
請求項1から3のいずれか一項に記載の動画編集装置。 - 動画データに含まれる動画像データから算出される時刻区間付動画像認識結果を格納する第一の工程と、
前記動画データに含まれる音声データから算出される時刻区間付音声認識結果を格納する第二の工程と、
前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果を各再生時刻において結合した複合認識結果を算出する第三の工程と、
前記複合認識結果に基づき適用する時刻区間付編集情報を決定する第四の工程と
を備えることを特徴とする
動画編集方法。 - 前記第二の工程において、前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果は所定の組み合わせパターンと照合することにより結合し、前記所定の組み合わせパターンは登録可能とすることを特徴とする
請求項5に記載の動画編集方法。 - 前記第三の工程において、前記適用する時刻区間付編集情報は前記複合認識結果と、複合認識結果と時刻区間付編集情報との所定の組み合わせパターンと、を照合することにより決定し、前記所定の組み合わせパターンは登録可能とすることを特徴とする
請求項5または6に記載の動画編集方法。 - 前記編集情報割当部において決定された時刻区間付編集情報は、編集可能なデータ群として出力することを特徴とする
請求項5から7のいずれか一項に記載の動画編集方法。 - 動画編集装置として情報処理装置を機能させる動画編集プログラムにおいて、
動画データに含まれる動画像データから算出される時刻区間付動画像認識結果を格納する動画像認識ステップと、
前記動画データに含まれる音声データから算出される時刻区間付音声認識結果を格納する音声認識ステップと、
前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果を各再生時刻において結合した複合認識結果を算出する認識結果結合ステップと、
前記複合認識結果に基づき適用する時刻区間付編集情報を決定する編集情報割当ステップと、を前記情報処理装置に実行させることを特徴とする
動画編集プログラム。 - 前記認識結果結合ステップにおいて、前記時刻区間付動画像認識結果および前記時刻区間付音声認識結果は所定の組み合わせパターンと照合することにより結合され、前記所定の組み合わせパターンは登録可能とすることを特徴とする
請求項9に記載の動画編集プログラム。 - 前記編集情報割当ステップにおいて、前記適用する時刻区間付編集情報は前記複合認識結果と、複合認識結果と時刻区間付編集情報との所定の組み合わせパターンと、を照合することにより決定され、前記所定の組み合わせパターンは登録可能とすることを特徴とする
請求項9または10に記載の動画編集プログラム。 - 前記編集情報割当ステップにおいて決定された時刻区間付編集情報は、編集可能なデータ群として出力されることを特徴とする
請求項9から11のいずれか一項に記載の動画編集プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018110423A JP7133367B2 (ja) | 2018-06-08 | 2018-06-08 | 動画編集装置、動画編集方法、及び動画編集プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018110423A JP7133367B2 (ja) | 2018-06-08 | 2018-06-08 | 動画編集装置、動画編集方法、及び動画編集プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019213160A true JP2019213160A (ja) | 2019-12-12 |
JP7133367B2 JP7133367B2 (ja) | 2022-09-08 |
Family
ID=68847093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018110423A Active JP7133367B2 (ja) | 2018-06-08 | 2018-06-08 | 動画編集装置、動画編集方法、及び動画編集プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7133367B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230085311A (ko) * | 2021-12-07 | 2023-06-14 | 한국전자기술연구원 | 컴퓨터와 사람의 협업을 통한 동영상 반자동 편집을 위한 인공지능 기반 동영상 편집 추천 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001143445A (ja) * | 1999-09-08 | 2001-05-25 | Sony United Kingdom Ltd | 編集装置及び方法 |
JP2002142188A (ja) * | 2000-11-02 | 2002-05-17 | Canon Inc | 動画像編集方法及び装置 |
JP2013182570A (ja) * | 2012-03-05 | 2013-09-12 | Canon Inc | 映像生成装置及びその制御方法 |
-
2018
- 2018-06-08 JP JP2018110423A patent/JP7133367B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001143445A (ja) * | 1999-09-08 | 2001-05-25 | Sony United Kingdom Ltd | 編集装置及び方法 |
JP2002142188A (ja) * | 2000-11-02 | 2002-05-17 | Canon Inc | 動画像編集方法及び装置 |
JP2013182570A (ja) * | 2012-03-05 | 2013-09-12 | Canon Inc | 映像生成装置及びその制御方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230085311A (ko) * | 2021-12-07 | 2023-06-14 | 한국전자기술연구원 | 컴퓨터와 사람의 협업을 통한 동영상 반자동 편집을 위한 인공지능 기반 동영상 편집 추천 방법 |
WO2023106554A1 (ko) * | 2021-12-07 | 2023-06-15 | 한국전자기술연구원 | 컴퓨터와 사람의 협업을 통한 동영상 반자동 편집을 위한 인공지능 기반 동영상 편집 추천 방법 |
KR102553519B1 (ko) * | 2021-12-07 | 2023-07-10 | 한국전자기술연구원 | 컴퓨터와 사람의 협업을 통한 동영상 반자동 편집을 위한 인공지능 기반 동영상 편집 추천 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP7133367B2 (ja) | 2022-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12069345B2 (en) | Characterizing content for audio-video dubbing and other transformations | |
JP4600828B2 (ja) | 文書対応付け装置、および文書対応付け方法 | |
US20150261419A1 (en) | Web-Based Video Navigation, Editing and Augmenting Apparatus, System and Method | |
WO2023197979A1 (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
KR101492816B1 (ko) | 애니메이션 립싱크 자동화 장치 및 방법 | |
KR20070118038A (ko) | 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램 | |
CN108242238B (zh) | 一种音频文件生成方法及装置、终端设备 | |
JP6280312B2 (ja) | 議事録記録装置、議事録記録方法及びプログラム | |
JP2010011409A (ja) | 映像ダイジェスト装置及び映像編集プログラム | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
JP2004056286A (ja) | 画像表示方法 | |
JP6641045B1 (ja) | コンテンツ生成システム、及びコンテンツ生成方法 | |
US9666211B2 (en) | Information processing apparatus, information processing method, display control apparatus, and display control method | |
CN109376145B (zh) | 影视对白数据库的建立方法、建立装置及存储介质 | |
JP2008217447A (ja) | コンテンツ生成装置及びコンテンツ生成プログラム | |
JP2007101945A (ja) | 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム | |
JP7133367B2 (ja) | 動画編集装置、動画編集方法、及び動画編集プログラム | |
US12125501B2 (en) | Face-aware speaker diarization for transcripts and text-based video editing | |
US12119028B2 (en) | Video segment selection and editing using transcript interactions | |
US20240134597A1 (en) | Transcript question search for text-based video editing | |
US20240127858A1 (en) | Annotated transcript text and transcript thumbnail bars for text-based video editing | |
US20240134909A1 (en) | Visual and text search interface for text-based video editing | |
US20240126994A1 (en) | Transcript paragraph segmentation and visualization of transcript paragraphs | |
US20240127820A1 (en) | Music-aware speaker diarization for transcripts and text-based video editing | |
US20240127855A1 (en) | Speaker thumbnail selection and speaker visualization in diarized transcripts for text-based video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20180621 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210520 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220411 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220426 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220517 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220823 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220829 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7133367 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |