JP2022550372A - オーディオビジュアルコンテンツについてバイノーラルイマーシブオーディオを作成するための方法及びシステム - Google Patents
オーディオビジュアルコンテンツについてバイノーラルイマーシブオーディオを作成するための方法及びシステム Download PDFInfo
- Publication number
- JP2022550372A JP2022550372A JP2022519462A JP2022519462A JP2022550372A JP 2022550372 A JP2022550372 A JP 2022550372A JP 2022519462 A JP2022519462 A JP 2022519462A JP 2022519462 A JP2022519462 A JP 2022519462A JP 2022550372 A JP2022550372 A JP 2022550372A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- video
- frame
- audiovisual content
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000013527 convolutional neural network Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 16
- 238000010801 machine learning Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 description 23
- 238000009826 distribution Methods 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000012805 post-processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 241000124008 Mammalia Species 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 2
- 239000012467 final product Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000000704 physical effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000036461 convulsion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003707 image sharpening Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/687—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4341—Demultiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44004—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving video buffer management, e.g. video decoder buffer or video display buffer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Stereophonic System (AREA)
Abstract
オーディオビジュアルコンテンツ(300)についてバイノーラルイマーシブオーディオを作成するための方法及びシステム(100)。本方法は、映像(301)及び音声(302)を受信するステップと、前記映像の少なくとも1つのフレームを選択するステップと、前記映像の前記選択されたフレームを分析して、前記フレーム内の音声寄与オブジェクトを識別するステップと、前記音声の少なくとも1つの部分を分析するステップと、前記分析された音声を、前記フレーム内の対応する前記識別された音声寄与オブジェクトと対応付けるステップと、前記対応付けを使用して、前記オーディオビジュアルコンテンツについて前記バイノーラル音声を生成するステップとを含む。【選択図】図2a
Description
本開示は、概して音声及び映像処理の分野に関し、より具体的には、映像コンテンツの分析に基づいてオーディオビジュアルコンテンツの音声トラックを処理する分野に関する。
マイクロフォンを1つだけ有するオーディオビジュアル記録デバイス(例えば、スマートフォン、タブレット、スマートウォッチ、ラップトップ、スマートTV、スマートカメラ、携帯型/装着型コンピューティングデバイス)を用いて記録されるオーディオビジュアルコンテンツ(A/V)(すなわち、映像又は画像と音声とを含む、あらゆる種類のデジタルオーディオビジュアル及び仮想コンテンツ)での音声は、ユーザに空間情報を提供しない。ユーザ(例えば、オーディオビジュアルコンテンツ受信及び表示デバイス、例えばスマートフォン、タブレット、スマートウォッチ、ラップトップ、スマートTV、スマートカメラ、携帯型/装着型コンピューティングデバイスを有するリスナー、視聴者、顧客)は、記録された3D空間内の音源の場所を(それらが視覚的に表示されていない場合、又はその映像コンテンツが全く提示されていないか、もしくはそれが実際の視点で見えていない場合)識別することができない。結局、ユーザは、音体験を十分に楽しむことができず、これにより、没入感(すなわち、現実と仮想/オーディオビジュアル体験との類似率)が損なわれる。
映像共有プラットフォームを介してインターネットを通じて映像を観ることが人気を集めており、Netflix、HBO、YLE、及びTwitchのような配信及びストリーミングサービスを介してTVシリーズ及び映画を視聴することは非常に一般的である。毎日100億本を超える映像が観られており、毎時数百時間分の新しい映像素材がインターネットにアップロードされている。それらの映像の消費者及び作成者は、よりイマーシブでリアルな音声体験を受け、提供することを望んでいる。イマーシブオーディオ(すなわち、3D音声)は、この変化に重要な要素である。
制作者又は配信サービスプロバイダ、すなわちソリューションの潜在的な購入者又はライセンサは、余分なコスト又は計算時間をかけることなく、よりリアルでイマーシブな体験を提供する新しい方法を必要としている。
YouTube(登録商標)、Facebook(登録商標)、WhatsApp(登録商標)、Netflix(登録商標)、Vimeo(登録商標)、Amazon(登録商標)、Microsoft(登録商標)のような企業、及び記録されたオーディオビジュアルコンテンツを制作し共有する人、又は素材を受信して観るユーザにとって、現在のソリューションは、あまりにも遅く高価なものである。コンテンツプロバイダ及びユーザの両者は、典型的な機器、例えば携帯電話又はラップトップを介して毎日大量に表示される配信オーディオビジュアル素材に、よりイマーシブな体験を要求している。
一般に、映画館用の最も重要な3D音声レンダリングプラットフォームは、ヘッドフォンの代わりにマルチスピーカーシステムで聴き取るシステムに集中していることが知られている。一例として、Dolby(登録商標)製品、ならびに音声及び映像の処理及び再生のための他のソリューションは、特にプロレベルで高価格であるため、新しく手頃なソリューションがあれば、世界中の映画製作者及び映画館に届くチャンスがある。
既知の音声及び映像処理ツールは、共通の欠点を有する。体験の真実性に関する品質は、十分な主観的聴き取り方法で科学的に検証されていない。
技術の世界的な広がりの障害となる既存のソリューションの第2の問題は、典型的に、仕様が明確に記載されていない設定及びパラメータを多数含むことである。ユーザ又は製作者は実際、それらが最終製品にどのような影響を与えるのかも、それらの重み及び重要性が何であるかも知らない。前述のように、実際に規格及び作業プロトコルは利用可能ではない。複雑なアーキテクチャ、重大なセットアップコスト、ならびに標準的な配信フォーマット及び再生構成の欠如が、既知のソリューションの最大の問題である。
最終ユーザに3D音声を提供する処理では、システムが、ユーザに空間情報を提供しない1つのマイクロフォンシステムよりも高度な記録を行うか、又は何らかの手作業の後処理作業が、何らかの編集ソフトウェアでプロの編集者によって後で行われることが必要である。現時点では、その処理の自動化を可能にする既知のソリューションはない。
従来技術から、いくつかのシステム及び方法が知られている。既知のシステムでは、映像シーンを記録するための複数のカメラ、マイクロフォン、及び音源がイマーシブな効果を生むことが必要である。既知のシステムは、映像からのオブジェクト認識を適用していない。既知のソリューションを使用して、ユーザは、音源の場所を識別することができず、音の場所と対応する音を生む視覚的オブジェクトの場所とを一致させることができない。
現在のソリューションは、あまりにも遅く低品質で高価であり、イマーシブでリアルかつ高品質な体験をユーザに提供しない。既知のソリューションは、複雑なアーキテクチャ、多数の設定及びパラメータを有し、仕様が明確に記載されていない。したがって、製作者は、これらの設定が最終製品にどのような影響を与えるかを知らない。
したがって、従来技術から既知の問題を考慮すると、オーディオビジュアルコンテンツについてイマーシブオーディオを作成する前述の欠点を克服し、ユーザがイマーシブでリアルな体験を楽しむことができるように、費用効果が高く、高品質で、仕様が明確に記載されたソリューションを提供する必要がある。
本開示の目的は、高品質で安価なポストレコーディング又はポストプロダクションの方法及びシステムを提供して、音の場所と映像で対応する音を生むオブジェクトの場所とを自動的に一致させることである。
本開示の目的は、映像及び音声を備える少なくとも1つのオーディオビジュアルコンテンツについてバイノーラルイマーシブオーディオを作成するためのデータ処理システムを動作させる方法、ならびに前記方法を実行するように構成されたデータ処理システムによって達成される。前記方法は、
・ 前記映像及び前記音声を受信するステップと、
・ 前記映像の少なくとも1つのフレームを選択するステップと、
・ 前記映像の前記少なくとも1つの選択されたフレームを分析して、前記少なくとも1つのフレーム内の少なくとも1つの音声寄与オブジェクトを識別するステップと、
・ 前記音声の少なくとも1つの部分を選択するステップと、
・ 前記音声の前記選択された少なくとも1つの部分を分析して、前記音声の前記選択された少なくとも1つの部分の少なくとも1つの音声パターンを抽出するステップと、
・ 前記少なくとも1つの抽出された音声パターンを、前記少なくとも1つの選択されたフレーム内の前記識別された少なくとも1つの音声寄与オブジェクトと対応付けるステップと、
・ 前記対応付けを使用して、前記映像の前記少なくとも1つのフレームについて前記バイノーラル音声を生成するステップと、を含む。
・ 前記映像及び前記音声を受信するステップと、
・ 前記映像の少なくとも1つのフレームを選択するステップと、
・ 前記映像の前記少なくとも1つの選択されたフレームを分析して、前記少なくとも1つのフレーム内の少なくとも1つの音声寄与オブジェクトを識別するステップと、
・ 前記音声の少なくとも1つの部分を選択するステップと、
・ 前記音声の前記選択された少なくとも1つの部分を分析して、前記音声の前記選択された少なくとも1つの部分の少なくとも1つの音声パターンを抽出するステップと、
・ 前記少なくとも1つの抽出された音声パターンを、前記少なくとも1つの選択されたフレーム内の前記識別された少なくとも1つの音声寄与オブジェクトと対応付けるステップと、
・ 前記対応付けを使用して、前記映像の前記少なくとも1つのフレームについて前記バイノーラル音声を生成するステップと、を含む。
本開示の利点は、人による編集又は他の後処理動作を回避することによって費用効果が高い方法で数十億時間のオーディオビジュアル素材に適用され得る記録されたオーディオビジュアルコンテンツを制作し、共有し、消費する人に、手頃で自動化されたソリューションを提供することである。本開示は、ユーザが、オーディオビジュアルコンテンツの音源の場所を識別することを可能にし、それによって、よりリアルでイマーシブな音声体験をユーザに提供する。
本開示によれば、オーディオビジュアルコンテンツの音声トラックを処理することは、映像コンテンツの分析に基づく。本開示は、1つのマイクロフォンシステムで記録される記録オーディオビジュアルコンテンツでの音源の場所を計算し、そのモノラル又は1チャネルの音声ファイルをリアルタイムでバイノーラル(すなわち、現実の世界で感覚的に聞こえる/聴こえる)3Dフォーマットに修正することを可能にする。本開示の利点として、これは、付加価値を保証し、従来技術のソリューションよりもイマーシブな体験をユーザに提供する。
本開示の更なる利点は、映像の品質が自動的に改善され、そのコンテンツの製作者、編集者、又は最終ユーザからの入力動作を必要としないことである。
本開示は、オーディオビジュアルコンテンツが記録され、後処理され、共有され、配信され、ストリーミングされ、最終的に任意の物理ハードウェアデバイスによって表示される使用事例を対象とする。
ここで、本開示の実施形態は、以下の図を参照して、例示としてのみ説明される。
本開示の一実施形態に係るシステムの概略図である。
ユーザが、携帯デバイス、例えばスマートフォン、TV、ラップトップ、タブレットで、インターネットによって配信されたデジタルオーディオビジュアルコンテンツを観ている、本開示の一実施形態に係る実際の状況を示す。
本開示の一実施形態に係る抽出された音声パターンの例を示す。
本開示の一実施形態に係る方法の映像分析のステップを示す、本方法のブロック図である。
本開示の一実施形態に係る方法の音声分析のステップを示す、本方法のブロック図である。
本開示の一実施形態に係る方法の映像及び音声分析の結果の対応付けのステップを示す、本方法のブロック図である。
本開示の一実施形態に係るシステムの画像パターンデータベースの例示的な構造を示す。
本開示の一実施形態に係るシステムの音声パターンデータベースの例示的な構造を示す。
以下の詳細説明は、本開示の実施形態及び実施形態が実装され得る方法を示す。既知のソリューションにより、映像のオブジェクト及び非オブジェクト要素を識別し、モノラル又は1チャネルの音声を有する事前記録されたオーディオビジュアルコンテンツを処理することが可能になる。当該オーディオビジュアルコンテンツは、1つのマイクロフォンを有するデバイスで記録され、ユーザのデバイスにオンラインでストリーミングされるか又は配信されて、イマーシブでリアルな体験をユーザに提供する。
一実施形態によれば、本開示は、映像及び音声を備える少なくとも1つのオーディオビジュアルコンテンツについてバイノーラルイマーシブオーディオを作成するための方法を提供する。オーディオビジュアルコンテンツは、消費のためにユーザに提供され得る、映像及び音声を備える任意のコンテンツであり得る。映像及び音声は典型的には、互いに時間的に同期している。バイノーラルイマーシブオーディオは、音声が3Dの空間的な性質を有しているとユーザが感じる、すなわち、特定の方向から来る映像の音が上記方向から来るようにユーザによって知覚される音声体験である。
映像コンテンツは、いくつかの連続するフレームを備える。一例として、毎秒24フレームの映像が存在し得る。フレームレートは、オーディオビジュアルコンテンツによって異なる。本方法によれば、映像内のフレームのうちの少なくとも1つが選択される。選択されたフレームは、映像コンテンツの任意のポイントからであり得る。映像の少なくとも1つの選択されたフレームが分析されて、少なくとも1つのフレーム内の少なくとも1つの音声寄与オブジェクトを識別する。音声寄与オブジェクトは、音声と対応付けられ得るオブジェクトである。当該オブジェクトの一例は、例えば、車、人間、動物、滝、機械など、すなわち、音を生成し得る任意のオブジェクトであり得る。
更に、音声の少なくとも1つの部分が選択される。音声の少なくとも1つの部分は、選択された少なくとも1つのフレームがオーディオビジュアルコンテンツの消費中に再生されると同時に再生されるであろう少なくとも何らかの音声を備えるように選択される。音声サンプル速度は、例えば44kHzであり得るため、(毎秒24フレームの場合)単一の映像フレームについての選択された音声部分は、約42ms(ミリ秒)の期間を有する。音声の選択された少なくとも1つの部分が分析されて、音声の選択された少なくとも1つの部分の音声パターンの少なくとも1つを抽出する。音声パターンは、例えば、人間の話し声、機械などから生じる音声を指す。抽出は、分離される音声ファイル又はライブラリとして、音声の少なくとも1つの部分から音声パターンを分離することを指す。
更に、少なくとも1つの抽出された音声パターンは、少なくとも1つの選択されたフレーム内の識別された少なくとも1つの音声寄与オブジェクトと対応付けられる。対応付けられた音声パターン及び音声寄与オブジェクトを使用することによって、映像の少なくとも1つのフレームについてのバイノーラルイマーシブオーディオが生成される。
本開示の追加の実施形態によれば、前記映像の少なくとも1つの選択されたフレームを分析することは、
・ コンピュータビジョン(400)を使用することによって、前記映像の前記少なくとも1つの選択されたフレームについて映像認識処理を実行するステップと、
・ 音声寄与オブジェクトの空間場所座標を計算するステップと、
・ 少なくとも1つの畳み込みニューラルネットワークを使用することによって、音声寄与オブジェクト及び前記空間場所座標を分類するステップと、を含む。
・ コンピュータビジョン(400)を使用することによって、前記映像の前記少なくとも1つの選択されたフレームについて映像認識処理を実行するステップと、
・ 音声寄与オブジェクトの空間場所座標を計算するステップと、
・ 少なくとも1つの畳み込みニューラルネットワークを使用することによって、音声寄与オブジェクト及び前記空間場所座標を分類するステップと、を含む。
映像認識処理により、自動的に音声寄与オブジェクトを見つけることが可能になる。空間場所座標は、音声が来ているように思われる単一のフレームのx、y座標を指す。
更に、映像及び音声(例えば、1チャネル音声又はマルチチャネル音声)を備える少なくとも1つのオーディオビジュアルコンテンツについてバイノーラルイマーシブオーディオを作成するためのデータ処理システムを動作させる方法、ならびに本方法を実行するように構成されたデータ処理システムが提供される。
オーディオビジュアルコンテンツについてバイノーラルイマーシブオーディオを作成するための方法及びシステムは、オーディオビジュアルコンテンツのフレームでの音源の場所を計算し、オーディオビジュアルファイルの音声をバイノーラル3Dフォーマットに修正する。
一実施形態では、システムは、少なくとも1つのオーディオビジュアルコンテンツプロバイダ(例えば、配信もしくはストリーミングサービスプロバイダ又はオーディオビジュアル記録デバイスを有するユーザ)に接続可能な少なくとも1つのサーバを備える。サーバは、オーディオビジュアルコンテンツプロバイダから2D音声を有するオーディオビジュアルコンテンツを受信するように構成されている。
サーバは、受信されたオーディオビジュアルコンテンツを音声部分及びフレームに分割することによって、映像に対してバイノーラルイマーシブオーディオを作成し、分割された音声及びフレームを処理し、処理された音声及び処理されたフレームを対応付け、バイノーラルイマーシブオーディオを有する単一のオーディオビジュアルコンテンツとして、対応付けられた音声及びフレームをオーディオビジュアルコンテンツ受信機(例えば、配信もしくはストリーミングサービスプロバイダ又はユーザのデバイス)に送信するように構成されている。
サーバは典型的には、少なくとも1つのデータベースと、受信されたオーディオビジュアルコンテンツの映像認識処理を実行するように構成された映像分析モジュールと、受信されたオーディオビジュアルコンテンツの音声認識処理を実行するように構成された音声分析モジュールと、オーディオビジュアルコンテンツの認識された映像及び認識された音声の対応付けを実行するように構成された対応付けモジュールと、ポストプロダクション段階で映像及び非映像音声寄与オブジェクトの場所を一致させるように音声チャンクを空間化するように構成された音声処理モジュールと、少なくとも2つのニューラルネットワーク(例えば、畳み込みニューラルネットワーク)と、を備える。
オーディオビジュアルコンテンツ(例えば、映画)が、例えば携帯電話ですでに作成されていると、ポストプロダクション段階で、音声寄与オブジェクトの場所と一致させるように音声チャンクを空間化することが実施される。その結果、音声及び音声寄与オブジェクトの場所が一致するため、音声コンテンツが明確に改善される。ユーザは、各々の可聴で識別可能な音が正確な場所又はオブジェクトから来ていると感じる。
ニューラルネットワークは、音声パターンデータベースを処理し、映像認識処理と音声認識処理との間の処理を調整し、ニューラルネットワークを通じてオーディオビジュアルコンテンツの映像のフレームを送信することによってコンピュータビジョンシステムを実装するように構成されている。
コンピュータビジョンモジュールは、受信されたオーディオビジュアルコンテンツの映像オブジェクト認識処理を実行するように構成されたコンピュータビジョンシステムと、映像オブジェクト認識の結果を記憶するように構成された画像パターンデータベースと、を備える。
コンピュータリスニングモジュールは、認識されたオーディオビジュアルコンテンツの完全な音声サンプルを個々の音声チャンクに分解して各々の音声サンプルでの音を識別するように構成されたコンピュータリスニングシステムと、識別された音パターンの音パターンライブラリを備える少なくとも1つの音声パターンデータベースと、を備える。
一実施形態に係る方法は、可視コンテンツ及び可聴コンテンツの両方の部分が互いに一致するように、音声情報のフォーマットを設定する。
本開示の代替又は追加の実施形態では、前記映像の前記少なくとも1つの選択されたフレームを分析することは、
・ 歪み除去のために前記少なくとも1つのフレームをシャープにするステップと、
・ 空間領域座標を使用して前記少なくとも1つの音声寄与オブジェクトについて領域提案を行うステップと、
・ 前記少なくとも1つの音声寄与オブジェクトの相対3D位置を決定するステップと、
・ 少なくとも1つの畳み込みニューラルネットワークを使用して、前記領域提案を行い、前記相対3D位置を決定するステップと、を更に含む。
・ 歪み除去のために前記少なくとも1つのフレームをシャープにするステップと、
・ 空間領域座標を使用して前記少なくとも1つの音声寄与オブジェクトについて領域提案を行うステップと、
・ 前記少なくとも1つの音声寄与オブジェクトの相対3D位置を決定するステップと、
・ 少なくとも1つの畳み込みニューラルネットワークを使用して、前記領域提案を行い、前記相対3D位置を決定するステップと、を更に含む。
1つ以上の実施形態では、前記音声の前記選択された少なくとも1つの部分を分析して、音声パターンを抽出することは、
・ コンピュータリスニングによって、前記音声の前記選択された少なくとも1つの部分の音声認識処理を実行して、音声パターンを識別するステップと、
・ コンピュータリスニングによって、前記識別された音声パターンを少なくとも1つの個々の音声チャンクに分解して、前記少なくとも1つの音声パターンでの音を識別するステップと、
・ 少なくとも1つの畳み込みニューラルネットワークを使用することによって、前記少なくとも1つの音声チャンクの前記識別された音を分類するステップと、
・ 少なくとも1つの分類された音声チャンクの音パターンライブラリを作成し、前記音パターンライブラリを音声パターンデータベースに記憶するステップと、
・ 抽出される音声パターンとして前記作成された音パターンライブラリを使用するステップと、を含む。
・ コンピュータリスニングによって、前記音声の前記選択された少なくとも1つの部分の音声認識処理を実行して、音声パターンを識別するステップと、
・ コンピュータリスニングによって、前記識別された音声パターンを少なくとも1つの個々の音声チャンクに分解して、前記少なくとも1つの音声パターンでの音を識別するステップと、
・ 少なくとも1つの畳み込みニューラルネットワークを使用することによって、前記少なくとも1つの音声チャンクの前記識別された音を分類するステップと、
・ 少なくとも1つの分類された音声チャンクの音パターンライブラリを作成し、前記音パターンライブラリを音声パターンデータベースに記憶するステップと、
・ 抽出される音声パターンとして前記作成された音パターンライブラリを使用するステップと、を含む。
一実施形態では、前記少なくとも1つの抽出された音声パターンを、前記少なくとも1つの音声寄与オブジェクトと対応付けることは、
・ 畳み込みニューラルネットワーク又は機械学習方法の少なくとも一方を適用することによって、前記少なくとも1つの音声パターンの情報及び前記少なくとも1つのフレームの相関を検索して、音パターンライブラリ内のどの音声チャンクが、前記識別された音声寄与オブジェクトと一致するかを識別するステップと、
・ 前記対応付けとして前記相関を使用するステップと、を含む。
・ 畳み込みニューラルネットワーク又は機械学習方法の少なくとも一方を適用することによって、前記少なくとも1つの音声パターンの情報及び前記少なくとも1つのフレームの相関を検索して、音パターンライブラリ内のどの音声チャンクが、前記識別された音声寄与オブジェクトと一致するかを識別するステップと、
・ 前記対応付けとして前記相関を使用するステップと、を含む。
1つ以上の実施形態では、前記畳み込みニューラルネットワークは、領域畳み込みニューラルネットワーク、マップ畳み込みニューラルネットワーク、又は深層畳み込みニューラルネットワークのうちの1つである。
追加又は代替の実施形態では、前記オーディオビジュアルコンテンツは、(コンテンツプロバイダのサーバシステムなどの)少なくとも1つのオーディオビジュアルコンテンツプロバイダ又は少なくとも1つのオーディオビジュアル記録デバイス(例えば、スマートフォン、タブレット、スマートウォッチ、ラップトップ、スマートTV、スマートカメラ、携帯型/装着型コンピューティングデバイス)から受信される。オーディオビジュアルコンテンツは、作成されるときにリアルタイム又はリアルタイムに近い状態で受信され得るか、又はコンテンツストレージから受信され得る。オーディオビジュアルコンテンツプロバイダは、例えば、配信又はストリーミングサービスプロバイダであり得る。
代替の実施形態によれば、前記オーディオビジュアルコンテンツの前記音声は、1チャネル音声又はマルチチャネル音声のうちの一方である。実際、本方法は、イマーシブな体験を生むことによって、1チャネルの品質を改善させることができる。更に、元の音声がマルチチャネルである場合、各々の可聴成分は、別々の音声チャネルを有し、各々のチャネルは、1つの映像成分を識別する。
本開示の一実施形態に係る映像分析の段階で、受信されたオーディオビジュアルコンテンツのフレームでの画像パターンのライブラリが作成される。映像分析中に、各々の認識された画像パターンが識別され分類され、カテゴリの情報、フレームの番号、及びxy座標での場所を含む対応する画像パターンデータベースに記憶される。
本開示の例示的な実施形態では、画像パターンデータベースは、フレームで認識され、識別され、分類された各々の画像のID、対応する音声パターンデータベースでの音声オブジェクトのID(ここで、音声IDは、画像及び音声が同じオブジェクトに属すると識別されるときに更新される)、各フレームでの認識されたオブジェクトのカテゴリ(例えば、人間、自然、機械)及び各々のオブジェクトのタイプ(例えば、男性/女性、木/鳥/哺乳類、小さい/大きい車両など)、フレーム番号、ならびに各フレームでの各々の音声寄与オブジェクトの場所座標のうちの少なくとも1つを備える。
更に、画像パターンデータベースに記憶される各々の画像パターンは、対応する音声パターンデータベースでの音パターンに対する参照も含み得る。音パターンに対する参照は、映像分析及び音声分析の結果の対応付けを実行する段階で評価される。
オーディオビジュアルコンテンツの映像のフレームは、2つの畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)を通じて画像パターンデータベースから対応付けモジュールに送信され得る。第1のニューラルネットワークは、例えば、フレームでの音声寄与オブジェクトの画像を見つけラベル付けし、領域提案を行い、検索されたオブジェクトについて対応付ける領域を決定するように構成された領域畳み込みニューラルネットワーク(領域CNN)である。
第2のニューラルネットワークは、例えば、その相対3D位置、例えば視点からの距離を決定するように構成された深度マップ畳み込みニューラルネットワーク(深度マップCNN)である。
本開示の一実施形態では、映像分析は、歪み除去のために画像をシャープにすることと、領域提案のための領域CNNと、シーン理解のための深度マップCNNと、を含む。
フレームでの音声寄与オブジェクトは、領域CNNによって分析され、その音声寄与オブジェクトの形状に応じて、例えば、車、人、建物、鳥などのクラスによって分離され得る。深度マップCNNは、各々のオブジェクト、例えば、ユーザに対する場所、動きベクトル、及び距離をパラメータ表記する。音自体を生成しない建物及びオブジェクトも、それらの音の反射特性により分析される。
本開示の一実施形態に係る音声分析の段階で、受信されたオーディオビジュアルコンテンツの音声チャンクの音声パターンのライブラリが作成される。
音声分析中に、各々の認識された音声チャンクが識別され分類され、ID、音のカテゴリ及びタイプの情報、開始フレームの番号、ならびに終了フレームの番号を含む対応する音声パターンデータベースに記憶される。各々の音声チャンクは、音声寄与オブジェクト要素(例えば、音声のオブジェクト要素の例は、モーターが動いている車である)及び非オブジェクト要素(例えば、非オブジェクト音声要素の例は、(目に見えない)唸る風である)の音カテゴリ及び音タイプを表し、例えば、カテゴリNの音は、自然の特徴(例えば、鳥、動物、風などのタイプ)を有し、カテゴリSは、男性及び女性の声(例えば、話し声などのタイプ)によって作られる音を有し、カテゴリMは、機械(例えば、車両などのタイプ)、又は人間の活動(例えば、足音)によって生成される他のタイプの音についてである。音パターンライブラリは、リアルタイムに更新され得る。
本開示の一実施形態に係る音分析の段階で、システムは、受信されたオーディオビジュアルコンテンツから音声の音サンプルを読み込み、映像の各フレームの音のカテゴリ及びタイプを識別する。識別された音に基づいて、システムは、音パターンライブラリを作成する。各々の音パターンライブラリは、ID、タイプ識別子、開始及び終了フレームを有する音声パターンデータベースに記憶される。
本開示の一実施形態では、音声分析は、コンピュータリスニングによる自動音源識別によって実施される。音声分析中に、音声デジタルファイルに存在する音が識別され、元のオーディオビジュアルコンテンツファイルから抽出され、時間的な異なる音声フォーマットで個々のチャネルに分離される。この処理は、分解と呼ばれる。分解では、短時間フーリエ変換(Short Time Fourier Transform:STFT)が、大きい音声ファイルをより小さい音声チャンクに分解するために使用される。次いで、音声チャンクは、ニューラルネットワークが理解できるフォーマットにSTFTをデコードするように構成された畳み込みニューラルネットワークを通じて送信される。畳み込みニューラルネットワークは、元の音声波ファイルと同じエンコードシステムを、各々の識別された個々の音に対応する各々の新しい一連の波のエンコードに適用する。
本発明は、異なる音は異なる物理特性を有すること、例えば、女性及び男性の話し声は異なるスペクトル特性を有すること、加えて、例えば、車、オートバイ、トラック、ヘリコプターの音の間に、すべてが機械的なエンジンによって生成されていたとしても、いくつかの違いがあることに基づく。元の音声ファイルの特性が分析され、音が、スペクトル成分及び音声パラメータの分解及び識別に基づくクラスで分離される。映画又はゲーム内の音の量は、数千のオーダーであり得るが、本発明は、常に少数の音だけが同時に再生され、映像及び可聴の両方の情報の組が一致することを考慮する。
再帰的な反復処理及び機械学習は、特定のフレームで得られる情報を次のフレームに適用するのに有用である。言い換えると、複数の音が同時に存在し得るが、例えば、2人が存在するが1人しか話していないような競合がある場合、本開示は、2人のうちどちらが話しているかを決定するために、前のデータ及び将来のデータを利用する。
本開示の一実施形態では、1チャネル音声ファイルは、いくつかの音を含み、例えば、それは乱雑な音声ファイルである。乱雑な音声ファイルは、各々の音声ファイルが1つの音源を含むマルチチャネル音声ファイルに分解される。ここでの方策は、深層畳み込みニューラルネットワーク及び機械学習によって、乱雑な音声ファイルを分析することである。これにより、音源識別処理の効率が改善される。言い換えると、本システムは、異なる声を識別する回数が多いほど、同時に話している多数の人を識別する必要がある場合に、より良好に機能する。
一実施形態によれば、音声分析は、以下のステップを含む。音声ファイルを分析し、パターン及び物理特性を見出すために、メトリクスが開発される。分析する物理特性は、周波数コンテンツタイプ、ならびに振幅変調、調性、粗さ、及び鋭さのような単一の数の量である。音声寄与オブジェクトの分離は、深層畳み込みニューラルネットワークを使用することによって実装される。更に、機械学習処理が実施され、それによって、より多くのデータが分析されるほど、本開示は、より効果的で正確になる。
一実施形態では、画像パターンデータベースは、音声寄与オブジェクトとフレームとのリンクを検索する前に完全に構築される。これにより、最大限の情報を使用して、フレームと音声パターンとの最善の一致を見出すことが可能になる。更に、ドップラー、口の動き、周波数減衰のような他のメカニズムを使用して、特定の画像パターンと音声パターンとのリンクを識別する。
既存のデジタルオーディオビジュアルコンテンツへのイマーシブオーディオの実装は、オーディオビジュアルコンテンツの映像及び音声を分析し、両方のコンテンツが互いに一致するように処理を実行することによって、自律的に自動的に実施される。対応付けは、機械学習分析で決定される。最終のコンテンツは、最終ユーザにとって、元々ストリーミングもしくは配信されたオーディオビジュアルコンテンツ又は元々記録された映像を処理する前よりもリアルでイマーシブであると感じられる。
追加の実施形態によれば、オーディオビジュアルコンテンツについてバイノーラルイマーシブオーディオを作成するためのデータ処理システムが提供される。データ処理システムは、本開示で論じられる方法のいずれかを実行するように構成されている。
オーディオビジュアルコンテンツが事前処理される本開示の追加の実施形態によれば、ユーザは、オーディオビジュアル記録デバイスを使用することによってオーディオビジュアルコンテンツを作成し、配信又はストリーミングサービスプロバイダのサーバに、記録されたオーディオビジュアルコンテンツを、ネットワークを介してアップロードする。本開示のサーバは、記録されたオーディオビジュアルコンテンツの2D音声を処理し、そのオーディオビジュアルコンテンツについてバイノーラルイマーシブオーディオを作成する。当該オーディオビジュアルコンテンツは更に、配信又はストリーミングサービスプロバイダのサーバにアップロードされ記憶される。処理されたオーディオビジュアルコンテンツは、配信又はストリーミングサービスプロバイダ(例えば、YouTube(登録商標)、Facebook(登録商標)、Vimeo(登録商標))のサーバに記憶されるため、更なる後処理は必要ない。
オーディオビジュアルコンテンツが後処理される本開示の別の実施形態によれば、ユーザは、オーディオビジュアル記録デバイス(例えば、スマートフォン、タブレット、スマートウォッチ、ラップトップ、スマートTV、スマートカメラ、携帯型/装着型コンピューティングデバイス)を使用することによってオーディオビジュアルコンテンツを作成し、配信又はストリーミングサービスプロバイダ(例えば、YouTube(登録商標)、Facebook(登録商標)、Vimeo(登録商標))のサーバに、記録されたオーディオビジュアルコンテンツを直接アップロードしている。本開示のサーバは、記録されたオーディオビジュアルコンテンツの2D音声を後処理し、そのオーディオビジュアルコンテンツについてバイノーラルイマーシブオーディオを作成する。後処理されたオーディオビジュアルコンテンツは、インターネットを介してユーザのデバイスに転送され、ユーザのデバイスのディスプレイに表示される。後処理は、オーディオビジュアルコンテンツが、配信又はストリーミングサービスプロバイダのサーバから要求されるときに連続的に実施される。
本開示の別の実施形態では、後処理されたオーディオビジュアルコンテンツは、配信又はストリーミングサービスプロバイダのサーバに記憶される。同じオーディオビジュアルコンテンツが再び要求されるとき、更なる後処理は不要である。
図面の詳細説明
図面の詳細説明
図1は、本開示に係るシステム100の例示的な実施形態の概略図である。システム100は、通信ネットワーク120を介してオーディオビジュアルコンテンツプロバイダ112に接続されたサーバ110を備える。サーバ110はまた、通信ネットワークを介してオーディオビジュアル記録デバイス114に接続され得る。サーバ110はまた、通信ネットワークを介してユーザデバイス214に接続され得る。オーディオビジュアル記録デバイス114は、通信ネットワーク120を介してオーディオビジュアルコンテンツプロバイダに、記録されたオーディオビジュアルコンテンツを提供し得る。
サーバ110は、オーディオビジュアル記録デバイス114から、及び/又はオーディオビジュアルコンテンツプロバイダ112からオーディオビジュアルコンテンツ300を受信するように構成されている。オーディオビジュアルコンテンツ300は、映像フレーム301と、音声302と、を備える。サーバ110は、オーディオビジュアルコンテンツ300の映像301に対して、バイノーラルイマーシブオーディオを作成するように構成されている。サーバ110は更に、受信されたオーディオビジュアルコンテンツを音声302及びフレーム301に分割し、音声302から音声部分303を選択し、分割された音声302の音声部分303及びフレーム301を処理し、処理された音声を処理されたフレームと対応付け、バイノーラルイマーシブオーディオを有する単一のオーディオビジュアルコンテンツとして、対応付けられた音声及びフレームをオーディオビジュアルコンテンツ受信機(例えば、配信もしくはストリーミングサービスプロバイダ112又はユーザのデバイス114、214)に送信するように構成されている。
サーバ110は、受信されたオーディオビジュアルコンテンツの映像認識処理を実行するように構成されたコンピュータビジョンモジュール400と、受信されたオーディオビジュアルコンテンツの音声認識処理を実行するように構成されたコンピュータリスニングモジュール500と、オーディオビジュアルコンテンツ300の認識された映像及び認識された音声の対応付けを実行するように構成された対応付けモジュール600と、音声寄与オブジェクトの場所座標を一致させるように音声チャンクを空間化するように構成された音声処理モジュール700と、少なくとも2つのニューラルネットワーク800(例えば、畳み込みニューラルネットワーク)と、を備える。
コンピュータビジョンモジュール400は、図3で詳細に説明される。コンピュータリスニングモジュール500は、図4で詳細に説明される。対応付けモジュール600は、図5で詳細に説明される。
図2aは、バイノーラルイマーシブオーディオが生成されるオーディオビジュアルコンテンツの消費のために構成されたユーザデバイス214の図である。バイノーラルイマーシブオーディオは、人間の耳で完全にリアルに感じられるデジタル形式の音と定義される。バイノーラルイマーシブオーディオの目的は、表示されたオーディオビジュアルコンテンツをよりリアルな体験に変換することである。ユーザデバイス214は、オーディオビジュアルコンテンツの映像をレンダリングするためのディスプレイ220を備える。ユーザは、デバイス214のディスプレイ220で、インターネットによって配信される処理されたデジタルオーディオビジュアルコンテンツを観る。図2aでは、レンダリングされた音声生成オブジェクト241、261、及び251が示されている。一組のヘッドフォン230又はスピーカー231が、ユーザデバイス214に接続されている。ヘッドフォン230は、レンダリングされた映像のバイノーラルイマーシブオーディオをユーザに提供する。所望のイマーシブで楽しむことができる体験が提示され、ここで、音及び画像の両方が完全に一致している。
図2bは、スクリーン220上のレンダリングされた映像に関する、抽出された音声パターン252、242、262の概略図である。音声パターン252は、人間であるオブジェクト251に対応付けられ、したがって、すなわち音声パターン252は、ディスプレイの上記エリア(又は場所座標)から空間的に生じているように見える。音声パターン242は、動物であるオブジェクト241に対応付けられ、したがって、すなわち音声パターン242は、ディスプレイの上記エリア(又は場所座標)から空間的に生じているように見える。音声パターン262は、機械であるオブジェクト261に対応付けられ、したがって、すなわち音声パターン262は、ディスプレイの上記エリア(又は場所座標)から空間的に生じているように見える。
図3は、本開示の一実施形態に係る方法の映像分析のステップを示す、本方法のブロック図である。映像フレーム301は、サーバ110のコンピュータビジョンモジュール400によって受信される。フレームnが、受信された映像フレームからフレーム選択モジュール401で選択される。選択されたフレームnは、ニューラルネットワーク及び機械学習ベースのパターン認識、オブジェクト認識モジュール406、407それぞれを使用して分析される。音声寄与オブジェクトが検出されない場合、次のフレームが処理される(408)(n++)。音声寄与オブジェクトが識別されると(409)、音声寄与オブジェクトは、カテゴリ410及びタイプ411によって分類され、画像パターンデータベース402に記憶される。識別は、カテゴリ410(例えば、人間、自然、機械)によって音声寄与オブジェクトを識別し(410)、次いで、各カテゴリのタイプ411(例えば、女性、男性、鳥、哺乳類、小さい、大きいなど)によってより詳細なレベルで識別するための2つのステップを有する。音声寄与オブジェクトの識別されたパターンは、画像パターンデータベース402に記憶される。フレームインデックスnは、ステップ412で更新される(n++)。ステップ405において分析されるフレームが更にある場合、処理は、モジュール401に移行し、映像のすべてのフレームが処理されるまで繰り返される。すべてのフレームが処理された場合、サーバ110で実行されている音声分析モジュール500が使用される。
図4は、本開示の一実施形態に係る方法の音声分析のステップを示す、本方法のブロック図である。オーディオビジュアルコンテンツ300の音声302の音声部分303は、サーバ110のコンピュータリスニングモジュール500によって受信される。フレームnからサンプル長までの音サンプルが、受信された音声部分から音サンプル選択モジュール501で選択される。次のステップでは、分析する音声部分が更にあるかどうかが確認される(502)。対応するフレーム内の音声部分が存在しない場合、受信されたオーディオビジュアルコンテンツの音声分析は、ステップ503でサーバ110によって終了される。フレームnからサンプル長までの選択された音サンプルは、ニューラルネットワーク及び機械学習ベースの音声認識モジュール506及び音声パターン認識モジュール507を使用して分析される。対応するフレームでの音声パターンが検出されない場合、次のフレームが処理される(508)(n++)。ステップ507において音声パターンが認識されると、音声パターンは、カテゴリ510(例えば、人間、自然、機械)及びタイプ511(例えば、女性、男性、鳥、哺乳類、小さい、大きいなど)によって分類され(509)、音声パターンデータベース505に記憶される。次いで、ID=1+nを有する音声パターン601が、音声パターンデータベース505から対応付けモジュール600に送信される。
図5は、本開示の一実施形態に係る方法の映像及び音声分析の結果の対応付けのステップを示す、本方法のブロック図である。
ID=1+nを有する分析された音声パターン601が、サーバ110の対応付けモジュール600で音声パターンデータベース505から受信される。ここで、nは、音声パターン用のカウンタであり、各々の音声パターンは、開始フレームから終了フレームまでの期間を有する。音声パターンが残っているかが確認される(602)。対応するフレームでの音声パターンが検出されない場合、次のフレームが処理される(603)(n++)。音声パターンが検出されると、場所=開始フレーム+fから、画像パターンデータベースからの同じタイプの音声寄与オブジェクトの検索が実行される(604)(すなわち、音声パターンタイプが「車」である場合、画像パターンタイプ「車」もあるかを検索する。1巡目ではf=0であるため、ターゲットフレームは、音サンプルの初め(開始フレーム)と同じである)。フレームが残っているかが確認される(605)。フレームが残っていない場合、映像全体が処理される。フレームが残っている場合、例えば、ドップラー効果、口の動き、周波数減衰識別方法を使用することによって、音声と画像とのリンクを識別するための追加の情報に対して追加の識別が実行される(606)。音声パターンタイプ及び画像パターンタイプが一致するかどうかが確認される(607)。一致がない場合、音声パターンデータベース505からのID=1+nを有する次の音声パターンが受信される(601)。一致が検出される場合、同じタイプの画像パターンが複数あるかどうかが確認される(608)。同じタイプの画像パターンが複数ない場合、次のフレームを処理するためにフレームカウンタfが増分される(f++)(611)、続いてf<f_requiredであるか又はフレームが残っていないかが検討される(612)(すなわち、f_requiredは、画像音声パターン対応付けを認識するために処理する必要がある最小のフレーム量についての変数である)。画像パターンがフレーム間で徐々に変化する場合、そのオブジェクトは、同じオブジェクトとして識別され、画像パターンデータベースから次が読み込まれる(613)。すなわち、フレーム=開始フレーム+f。画像パターンが前のフレームと同じであるかどうかが確認される(614)。同じでない場合、特定の画像パターンがこのフレームから消えたかどうかの確認が増分され(615)、次いで、同じタイプの画像パターンが複数あるかどうかが確認される(608)。画像パターンが前のフレームと同じであることが検出される場合、同じタイプの画像パターンが複数あるかどうかが確認される(608)。同じタイプの画像パターンが複数あることが検出される場合、すべての画像パターンが音IDを有するか、又はそのフレームでのすべての画像パターンが処理された(k=>j)かどうかが確認される(620)(同じタイプの画像パターンが複数ある場合、画像パターンデータベースから以前に集められたデータも検索する必要がある。すなわち、例えば、同じシーンに更に多くの人が来て、一部の人/音パターンが以前のフレームですでに識別されている)。そうである場合、画像と音パターンとの一致が見出され、画像パターンデータベースが更新される(609)。
更に、ステップ612で、識別処理が、高い信頼性で実行されることを保証するために、識別の失敗がなく生じ得るフレーム数の限界の値が確認され、この値が、616で設定される限界に対応しない場合、音声パターンデータベース505からのID=1+nを有する次の音声パターンが受信される(601)。この値が、設定された限界に対応する場合(617)(すなわち、f_required=0、最大誤差=0)、画像と音パターンとの一致が見出され、画像パターンデータベースが更新される(609)。
ステップ620で、すべての画像パターンが音IDを有していないか、又はそのフレームでのすべての画像パターンが処理されていないことが検出される場合、音声パターンID値を有しない(すなわち、音声パターンとまだリンクされていない)画像パターンが選択され(621)、これらの画像パターンが処理されて、その場所から画像パターンデータベースからの同じタイプの音声寄与オブジェクトの検索によって音声パターンの可能性のある源が認識され(622)、パターン1+kを受信する(623)。
図6は、本開示の一実施形態に係るシステムの画像パターンデータベース402の例示的な構造を示す。この画像パターンデータベースは、オーディオビジュアルコンテンツのID、対応する音声寄与オブジェクトのカテゴリ及びタイプによって分類される各フレームでの検出された音声寄与オブジェクトの情報、対応するフレームでの音声寄与オブジェクトの場所座標、ならびに対応する音声寄与オブジェクトが現れるフレーム番号を有するフレームを備える。
図7は、本開示の一実施形態に係るシステムの音声パターンデータベース505の例示的な構造を示す。この音声パターンデータベースは、オーディオビジュアルコンテンツのID、各々の音声パターンの開始フレーム及び終了フレームの番号、ならびに各々の音声パターンのカテゴリ及びタイプの情報を有する認識された音声パターンを備える。
Claims (10)
- 映像(301)及び音声(302)を備える少なくとも1つのオーディオビジュアルコンテンツ(300)についてバイノーラルイマーシブオーディオを作成するための方法であって、
・ 前記映像(301)及び前記音声(302)を受信することと;
・ 前記映像の少なくとも1つのフレームを選択することと;
・ 前記映像の前記少なくとも1つの選択されたフレームを分析して、前記少なくとも1つのフレーム内の少なくとも1つの音声寄与オブジェクトを識別することと;
・ 前記音声の少なくとも1つの部分(303)を選択することと;
・ 前記音声の前記選択された少なくとも1つの部分を分析して、前記音声の前記選択された少なくとも1つの部分の音声パターン(252、242、262)のうちの少なくとも1つを抽出することと;
・ 前記少なくとも1つの抽出された音声パターンを、前記少なくとも1つの選択されたフレーム内の前記識別された少なくとも1つの音声寄与オブジェクトと対応付けることと;
・ 前記対応付けを使用して、前記映像の前記少なくとも1つのフレームについて前記バイノーラル音声を生成することと;
を含む方法。 - 前記映像(301)の前記少なくとも1つの選択されたフレームを分析することは、
・ コンピュータビジョン(400)を使用することによって、前記映像の前記少なくとも1つの選択されたフレームについて映像認識処理を実行するステップと;
・ 音声寄与オブジェクトの空間場所座標を計算するステップと;
・ 少なくとも1つの畳み込みニューラルネットワーク(800)を使用することによって、音声寄与オブジェクト及び前記空間場所座標を分類するステップと、
を含む、請求項1に記載の方法。 - 前記映像(301)の前記少なくとも1つの選択されたフレームを分析することは、
・ 歪み除去のために前記少なくとも1つのフレームをシャープにするステップと;
・ 空間領域座標を使用して前記少なくとも1つの音声寄与オブジェクトについて領域提案を行うステップと;
・ 前記少なくとも1つの音声寄与オブジェクトの相対3D位置を決定するステップと;
・ 少なくとも1つの畳み込みニューラルネットワーク(800)を使用して、前記領域提案を行い、前記相対3D位置を決定するステップと、
を更に含む、請求項1又は2に記載の方法。 - 前記音声の前記選択された少なくとも1つの部分(303)を分析して、音声パターンを抽出することは、
・ コンピュータリスニングによって、前記音声の前記選択された少なくとも1つの部分(303)の音声認識処理を実行して、音声パターン(252、242、262)を識別するステップと;
・ コンピュータリスニングによって、前記識別された音声パターンを少なくとも1つの個々の音声チャンクに分解して、前記少なくとも1つの音声パターンでの音を識別するステップと;
・ 少なくとも1つの畳み込みニューラルネットワーク(800)を使用することによって、前記少なくとも1つの音声チャンクの前記識別された音を分類するステップと;
・ 少なくとも1つの分類された音声チャンクの音パターンライブラリを作成し、前記音パターンライブラリを音声パターンデータベース(505)に記憶するステップと;
・ 抽出される音声パターンとして前記作成された音パターンライブラリを使用するステップと、
を含む、請求項1から3のいずれかに記載の方法。 - 前記少なくとも1つの抽出された音声パターン(252、242、262)を、前記少なくとも1つの音声寄与オブジェクトと対応付けることは、
・ 畳み込みニューラルネットワーク(800)又は機械学習方法の少なくとも一方を適用することによって、前記少なくとも1つの音声パターンの情報及び前記少なくとも1つのフレームの相関を検索して、音声パターンライブラリ内のどの音声チャンクが、前記識別された音声寄与オブジェクトと一致するかを識別するステップと;
・ 前記対応付けとして前記相関を使用するステップと、
を含む、請求項1から4のいずれかに記載の方法。 - 前記畳み込みニューラルネットワーク(800)は、領域畳み込みニューラルネットワーク又はマップ畳み込みニューラルネットワークのうちの一方である、請求項2から5のいずれかに記載の方法。
- 前記オーディオビジュアルコンテンツ(300)は、少なくとも1つのオーディオビジュアルコンテンツプロバイダ(112)又はオーディオビジュアル記録デバイス(114)から受信される、請求項1から6のいずれかに記載の方法。
- 前記オーディオビジュアルコンテンツ(300)の前記音声は、1チャネル音声である、請求項1から7のいずれかに記載の方法。
- 前記オーディオビジュアルコンテンツ(300)の前記音声は、マルチチャネル音声である、請求項1から7のいずれかに記載の方法。
- 請求項1から9のいずれかに記載の方法を実行するように構成された、オーディオビジュアルコンテンツ(300)についてバイノーラル及び3D音声を作成するためのデータ処理システム(100)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/590,627 | 2019-10-02 | ||
US16/590,627 US10820131B1 (en) | 2019-10-02 | 2019-10-02 | Method and system for creating binaural immersive audio for an audiovisual content |
PCT/EP2020/070252 WO2021063557A1 (en) | 2019-10-02 | 2020-07-17 | Method and system for creating binaural immersive audio for an audiovisual content using audio and video channels |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022550372A true JP2022550372A (ja) | 2022-12-01 |
Family
ID=71670260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022519462A Pending JP2022550372A (ja) | 2019-10-02 | 2020-07-17 | オーディオビジュアルコンテンツについてバイノーラルイマーシブオーディオを作成するための方法及びシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US10820131B1 (ja) |
JP (1) | JP2022550372A (ja) |
KR (1) | KR20220077132A (ja) |
WO (1) | WO2021063557A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018176017A1 (en) * | 2017-03-24 | 2018-09-27 | Revealit Corporation | Method, system, and apparatus for identifying and revealing selected objects from video |
US11580869B2 (en) * | 2019-09-23 | 2023-02-14 | Revealit Corporation | Computer-implemented interfaces for identifying and revealing selected objects from video |
US10998006B1 (en) * | 2020-12-08 | 2021-05-04 | Turku University of Applied Sciences Ltd | Method and system for producing binaural immersive audio for audio-visual content |
CN113099374B (zh) * | 2021-03-30 | 2022-08-05 | 四川省人工智能研究院(宜宾) | 一种基于多重注意力视听融合的音频立体化方法 |
CN117441146A (zh) * | 2021-04-23 | 2024-01-23 | 共鸣与逻辑公司 | 用于沉浸式音频体验的系统和方法 |
CN113393833B (zh) * | 2021-06-16 | 2024-04-02 | 中国科学技术大学 | 音视频唤醒方法、系统、设备及存储介质 |
CN113316078B (zh) * | 2021-07-30 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
WO2023096309A1 (ko) * | 2021-11-23 | 2023-06-01 | 삼성전자 주식회사 | 유해 언어를 필터링하기 위한 전자 장치 및 방법 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6184937B1 (en) | 1996-04-29 | 2001-02-06 | Princeton Video Image, Inc. | Audio enhanced electronic insertion of indicia into video |
US6829018B2 (en) * | 2001-09-17 | 2004-12-07 | Koninklijke Philips Electronics N.V. | Three-dimensional sound creation assisted by visual information |
GB2414369B (en) | 2004-05-21 | 2007-08-01 | Hewlett Packard Development Co | Processing audio data |
US20090237492A1 (en) | 2008-03-18 | 2009-09-24 | Invism, Inc. | Enhanced stereoscopic immersive video recording and viewing |
US20100328419A1 (en) | 2009-06-30 | 2010-12-30 | Walter Etter | Method and apparatus for improved matching of auditory space to visual space in video viewing applications |
JP5597956B2 (ja) | 2009-09-04 | 2014-10-01 | 株式会社ニコン | 音声データ合成装置 |
JP5893129B2 (ja) | 2011-04-18 | 2016-03-23 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オーディオをアップミックスして3dオーディオを生成する方法とシステム |
US10231056B2 (en) | 2014-12-27 | 2019-03-12 | Intel Corporation | Binaural recording for processing audio signals to enable alerts |
WO2017139927A1 (en) * | 2016-02-17 | 2017-08-24 | Intel Corporation | Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model |
EP3607547B1 (en) | 2017-11-22 | 2021-06-16 | Google LLC | Audio-visual speech separation |
US10701303B2 (en) * | 2018-03-27 | 2020-06-30 | Adobe Inc. | Generating spatial audio using a predictive model |
-
2019
- 2019-10-02 US US16/590,627 patent/US10820131B1/en active Active
-
2020
- 2020-07-17 WO PCT/EP2020/070252 patent/WO2021063557A1/en active Application Filing
- 2020-07-17 JP JP2022519462A patent/JP2022550372A/ja active Pending
- 2020-07-17 KR KR1020227012721A patent/KR20220077132A/ko unknown
Also Published As
Publication number | Publication date |
---|---|
WO2021063557A1 (en) | 2021-04-08 |
KR20220077132A (ko) | 2022-06-08 |
US10820131B1 (en) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10820131B1 (en) | Method and system for creating binaural immersive audio for an audiovisual content | |
US10699482B2 (en) | Real-time immersive mediated reality experiences | |
CN108200446B (zh) | 虚拟形象的线上多媒体互动系统及方法 | |
US9653119B2 (en) | Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues | |
US6829018B2 (en) | Three-dimensional sound creation assisted by visual information | |
RU2702233C2 (ru) | Устройство обработки информации и способ обработки информации | |
CN108476367B (zh) | 用于沉浸式音频回放的信号的合成 | |
CN116564318A (zh) | 用于虚拟现实、增强现实及混合现实的音频位差 | |
CN106303663B (zh) | 直播处理方法和装置、直播服务器 | |
WO2020231883A1 (en) | Separating and rendering voice and ambience signals | |
CN114040255A (zh) | 直播字幕生成方法、系统、设备及存储介质 | |
WO2019197709A1 (en) | An apparatus, a method and a computer program for reproducing spatial audio | |
KR101915792B1 (ko) | 얼굴인식을 이용한 광고 삽입 시스템 및 방법 | |
CN114822568A (zh) | 音频播放方法、装置、设备及计算机可读存储介质 | |
Oldfield et al. | An object-based audio system for interactive broadcasting | |
CN112995530A (zh) | 视频的生成方法、装置及设备 | |
US10998006B1 (en) | Method and system for producing binaural immersive audio for audio-visual content | |
EP2719196B1 (en) | Method and apparatus for generating 3d audio positioning using dynamically optimized audio 3d space perception cues | |
CN113632496A (zh) | 相关联的空间音频回放 | |
Oldfield et al. | Cloud-based AI for automatic audio production for personalized immersive XR experiences | |
Lv et al. | A TCN-based primary ambient extraction in generating ambisonics audio from Panorama Video | |
Luo et al. | Multi-Modality Speech Recognition Driven by Background Visual Scenes | |
US20230308823A1 (en) | Systems and Methods for Upmixing Audiovisual Data | |
WO2023150486A1 (en) | Gesture controlled audio and/or visual rendering | |
KR20220116502A (ko) | 비디오-정보 기반 공간 오디오 확장 |