KR20220077132A - 시청각 콘텐츠용 바이노럴 몰입형 오디오 생성 방법 및 시스템 - Google Patents
시청각 콘텐츠용 바이노럴 몰입형 오디오 생성 방법 및 시스템 Download PDFInfo
- Publication number
- KR20220077132A KR20220077132A KR1020227012721A KR20227012721A KR20220077132A KR 20220077132 A KR20220077132 A KR 20220077132A KR 1020227012721 A KR1020227012721 A KR 1020227012721A KR 20227012721 A KR20227012721 A KR 20227012721A KR 20220077132 A KR20220077132 A KR 20220077132A
- Authority
- KR
- South Korea
- Prior art keywords
- audio
- video
- frame
- audiovisual content
- pattern
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000013527 convolutional neural network Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 17
- 238000010801 machine learning Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 description 24
- 230000000007 visual effect Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000012805 post-processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 241000124008 Mammalia Species 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000000704 physical effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241000272496 Galliformes Species 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000036461 convulsion Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003707 image sharpening Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/687—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4341—Demultiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44004—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving video buffer management, e.g. video decoder buffer or video display buffer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Stereophonic System (AREA)
Abstract
시청각 콘텐츠(300)용 바이노럴 몰입형 오디오를 생성하기 위한 방법 및 시스템(100)이 제공된다. 상기 방법은 비디오(301) 및 오디오(302)를 수신하는 단계; 상기 비디오의 적어도 하나의 프레임을 선택하는 단계; 상기 프레임 내의 오디오 제공 객체를 식별하기 위해 상기 비디오의 선택된 프레임을 분석하는 단계; 상기 오디오의 적어도 일부를 분석하는 단계; 상기 분석된 오디오를 상기 프레임 내의 대응하는 식별된 오디오 제공 객체와 연관시키는 단계; 상기 연관을 사용하여 시청각 콘텐츠용 바이노럴 오디오를 생성하는 단계를 포함한다.
Description
본 개시는 일반적으로 오디오 및 비디오 처리 분야에 관한 것으로, 보다 구체적으로 비디오 콘텐츠의 분석에 기초하여 시청각 콘텐츠의 오디오 트랙을 처리하는 분야에 관한 것이다.
단 하나의 마이크를 가진 오디오-비디오 레코딩 디바이스 (예: 스마트폰, 태블릿, 스마트워치, 랩톱, 스마트TV, 스마트 카메라, 핸드헬드/웨어러블 컴퓨팅 디바이스)로 기록된 시청각 콘텐츠(audiovisual content, A/V) (즉, 비디오/사진 및 오디오를 포함한 모든 종류의 디지털 시청각 및 가상 콘텐츠) 내 오디오는 사용자에게 공간 정보를 제공하지 않는다. 사용자(예: 시청각 콘텐츠 수신 및 표시 디바이스, 예를 들면 스마트폰, 태블릿, 스마트워치, 랩탑, 스마트TV, 스마트 카메라, 휴대용/웨어러블 컴퓨팅 디바이스를 가진 청취자, 뷰어, 고객)는, 레코딩된 3D 공간 내 음원들이 시각적으로 표시되지 않거나 해당 시각적 콘텐츠가 전혀 표시되지 않거나 실제 시각적 관점에서 볼 수 없는 경우, 그 음원들의 위치를 식별할 수 없다. 결국 사용자는 사운드 경험을 완전히 즐길 수 없으며, 이는 몰입감(즉, 실제와 가상/시청각 경험 간의 유사도의 레이트) 느낌을 깨뜨린다.
비디오 공유 플랫폼을 경유하여 인터넷을 통해 비디오를 보는 것이 매우 대중화되고 있으며, 넷플릭스, HBO, YLE 및 Twitch와 같은 방송 및 스트리밍 서비스를 통해 TV 시리즈 및 영화를 보는 것이 매우 일반적이다. 매일 100억 개 이상의 비디오가 시청되고 매시간 수백 시간 분량의 새로운 비디오 자료가 인터넷에 업로드된다. 이러한 비디오의 소비자와 제작자는 보다 몰입적이고 실감나는 오디오 경험을 받고 제공하기를 원한다. 몰입형 오디오(즉, 3D 오디오)는 이러한 변화의 핵심 요소이다.
제작자 또는 방송 서비스 제공자, 즉 솔루션의 잠재적 구매자 또는 라이선스 제공자는 추가 비용이나 계산 시간을 추가하지 않으면서 보다 현실적이고 몰입감 있는 경험을 제공할 수 있는 새로운 방법을 필요로 한다.
현재 솔루션은 YouTube®, Facebook®, WhatsApp®, Netflix®, Vimeo®, Amazon®, Microsoft®와 같은 회사들 및 녹음된 시청각 콘텐츠를 제작 및 공유하는 모든 사람 또는 그 재료를 수신 및 시청하는 사용자에게 너무 느리고 비용이 많이 든다. 콘텐츠 제공자와 사용자 모두는 일반적인 장비, 예를 들면, 모바일 폰이나 랩톱을 통해 매일 대량으로 표시되는 방송된 시청각 자료에서 보다 몰입도 높은 경험을 요구한다.
영화관에서 가장 중요한 3D 오디오 렌더링 플랫폼은 헤드폰 대신 다중 스피커 시스템으로 청취하는 시스템에 집중하는 것으로 일반적으로 알려져 있다. 예로서, Dolby® 제품과 오디오 및 비디오 처리 및 재생을 위한 기타 솔루션은 특히 전문가 수준에서 가격이 매우 높으며, 그래서 새롭고 저렴한 솔루션이 전 세계의 영화 제작자와 영화관에 도달할 수 있는 기회가 있다.
알려진 오디오 및 비디오 처리 도구들은 공통적인 단점을 가진다. 경험의 진실성과 관련된 품질은 적절한 주관적 청취 방법으로 과학적으로 검증되지 않았다.
기술의 세계적인 확산을 저해하는 기존 솔루션의 두 번째 문제는 일반적으로 문서화되지 않은 설정과 매개변수가 많이 포함되어 있다는 것이다. 사용자나 생산자는 그 문제들이 최종 제품에 어떤 영향을 미치는지, 그것들의 무게감과 중요성이 무엇인지 실제로 알지 못한다. 앞서 언급했듯이, 표준 및 작업 프로토콜은 실제로 사용할 수 없다. 복잡한 아키텍처, 상당한 설치 비용, 표준 배포 형식 및 재생 구성의 부재는 알려진 솔루션들의 가장 큰 문제이다.
최종 사용자에게 3D 오디오를 제공하는 프로세스는, 시스템이 사용자에게 공간 정보를 제공하지 않는 단일 마이크 시스템보다 녹음을 더 정교하게 만들거나, 또는 몇몇 편집 소프트웨어를 이용한 전문 편집자가 나중에 손으로 하는 일부 후-처리 작업을 수행해야 한다는 것을 요구한다. 아직까지는, 어떤 알려진 솔루션도 상기 프로세스를 자동화할 수 없을 것이다.
여러 시스템 및 방법이 선행 기술로부터 알려져 있다. 알려진 시스템은 몰입 효과를 만들기 위해 비디오 씬 (scene)을 녹화하기 위해 여러 대의 카메라, 마이크 및 사운드 리소스들을 필요로 한다. 알려진 시스템은 비디오로부터의 객체 인식을 적용하지 않는다. 알려진 솔루션을 사용하여, 사용자는 음원의 위치를 식별할 수 없으며 그리고 사운드의 위치 및 대응하는 사운드를 생성하는 시각적 객체의 위치를 일치시킬 수 없다.
현재 솔루션은 너무 느리고 품질이 낮고 비싸며 사용자에게 몰입감 있고 현실적이며 고품질의 경험을 제공하지 않는다. 상기 알려진 솔루션들은 복잡한 아키텍처, 많은 설정 및 매개변수를 갖고 있으며 문서화가 제대로 되어 있지 않는다. 그러므로, 생산자는 이러한 설정이 최종 제품에 어떤 영향을 미치는지 모른다.
그러므로, 선행 기술로부터 알려진 문제를 고려하여, 시청각 콘텐츠에 대한 몰입형 오디오를 생성하는 전술한 단점을 극복하며 그리고 비용 효율적이고, 고품질이며 잘 문서화된 솔루션을 제공하여, 사용자가 몰입적이며 현실적인 경험을 즐길 수 있도록 하는 필요성이 존재한다.
본 발명의 목적은 비디오에서 사운드의 위치와 대응 사운드를 생성하는 객체의 위치를 자동으로 일치시키는 고품질의 저렴한 후-레코딩 (post-recording) 또는 후번-제작(post-production) 방법 및 시스템을 제공하는 것이다.
본 개시의 목적은 비디오 및 오디오를 포함하는 적어도 하나의 시청각 콘텐츠에 대한 바이노럴 몰입형 오디오를 생성하기 위한 데이터 처리 시스템을 작동시키는 방법에 의해 그리고 이 방법을 수행하도록 구성된 데이터 처리 시스템에 의해 달성된다. 상기 방법은,
- 비디오 및 오디오를 수신하는 단계;
- 상기 비디오의 적어도 하나의 프레임을 선택하는 단계;
- 상기 적어도 하나의 프레임 내에서 적어도 하나의 오디오 제공 객체를 식별하기 위해 상기 비디오의 적어도 하나의 선택된 프레임을 분석하는 단계;
- 상기 오디오의 적어도 하나의 부분을 선택하는 단계;
- 상기 오디오의 선택된 적어도 하나의 부분의 적어도 하나의 오디오 패턴을 추출하기 위해 상기 오디오의 선택된 적어도 하나의 부분을 분석하는 단계;
- 상기 적어도 하나의 추출된 오디오 패턴을 상기 적어도 하나의 선택된 프레임 내에서 상기 식별된 적어도 하나의 오디오 제공 객체와 연관시키는 단계;
- 상기 연관을 사용하여, 상기 비디오의 적어도 하나의 프레임에 대한 바이노럴 오디오를 생성하는 단계를 포함한다.
본 발명의 장점은 녹화된 시청각 콘텐츠를 생산, 공유 및 소비하는 누구에게나 경제적으로 자동화 솔루션을 제공하는 것이며, 이는 인간의 편집 또는 기타 후-처리 행위를 피함으로써 비용 효율적인 방식으로 수십억 시간의 시청각 자료에 적용될 수 있다. 본 개시는 사용자가 시청각 컨텐츠의 음원 위치를 식별하는 것을 가능하게 하며, 그럼으로써 사용자에게 보다 실감나는 몰입형 오디오 경험을 제공한다.
본 개시에 따르면, 시청각 콘텐츠의 오디오 트랙을 처리하는 것은 비디오 콘텐츠를 분석한 것에 기반한다. 본 개시는 하나의 마이크로폰 시스템으로 레코딩된 시청각 콘텐츠에서 음원들의 위치를 계산하고, 그 모노 또는 1-채널 오디오 파일을 실시간으로 바이노럴(즉, 그것이 현실 세계에서 감각적으로 들리고/청취됨) 3D 포맷으로 수정하는 것을 가능하게 한다. 본 개시의 이점으로서, 본 개시는 종래 기술의 솔루션보다 더 몰입감 있는 경험을, 보장된 부가 가치와 함께 사용자에게 제공한다.
본 개시의 또 다른 이점은, 비디오의 품질이 자동적으로 향상되고 해당 콘텐츠의 제작자, 편집자 또는 최종 사용자의 입력 행동을 필요로 하지 않는다는 것이다.
본 개시는, 시청각 콘텐츠가 레코딩되고, 후-처리되고, 공유되고, 방송되고, 스트리밍되고, 최종적으로 임의의물리적 하드웨어 디바이스에 의해 표시되는 사용 사례가 관심 대상이다.
본 개시의 실시예들은 이제 단지 예로서 다음의 도면들을 참조하여 설명될 것이다.
도 1은 본 개시내용의 실시예에 따른 시스템의 개략도이다.
도 2a는 사용자가 모바일 디바이스, 예를 들어, 스마트폰, TV, 랩탑, 태블릿에서 인터넷에 의해 방송되는 디지털 시청각 콘텐츠를 시청하는 본 발명의 일 실시예에 따른 실제 상황을 도시한다.
도 2b는 본 개시의 실시예에 따라 추출된 오디오 패턴들의 예들을 도시한다.
도 3은 본 개시의 실시예에 따른 방법의 블록 구성도이며, 상기 방법의 비디오 분석의 단계들을 도시한다.
도 4는 본 개시의 실시예에 따른 방법의 블록 구성도이며, 상기 방법의 오디오 분석의 단계들을 도시한다.
도 5는 본 개시의 실시예에 따른 방법의 블록 구성도이며, 본 발명의 비디오 및 오디오 분석의 결과들을 연관시키는 단계들을 도시한다.
도 6은 본 개시의 실시예에 따른 시스템의 이미지 패턴 데이터베이스의 예시적인 구조를 도시하여, 상기 방법의 오디오 및 비디오 분석 결과들을 연관시키는 단계들을 도시한다.
도 7은 본 개시의 실시예에 따른 시스템의 오디오 패턴 데이터베이스의 예시적인 구조를 도시한다.
도 1은 본 개시내용의 실시예에 따른 시스템의 개략도이다.
도 2a는 사용자가 모바일 디바이스, 예를 들어, 스마트폰, TV, 랩탑, 태블릿에서 인터넷에 의해 방송되는 디지털 시청각 콘텐츠를 시청하는 본 발명의 일 실시예에 따른 실제 상황을 도시한다.
도 2b는 본 개시의 실시예에 따라 추출된 오디오 패턴들의 예들을 도시한다.
도 3은 본 개시의 실시예에 따른 방법의 블록 구성도이며, 상기 방법의 비디오 분석의 단계들을 도시한다.
도 4는 본 개시의 실시예에 따른 방법의 블록 구성도이며, 상기 방법의 오디오 분석의 단계들을 도시한다.
도 5는 본 개시의 실시예에 따른 방법의 블록 구성도이며, 본 발명의 비디오 및 오디오 분석의 결과들을 연관시키는 단계들을 도시한다.
도 6은 본 개시의 실시예에 따른 시스템의 이미지 패턴 데이터베이스의 예시적인 구조를 도시하여, 상기 방법의 오디오 및 비디오 분석 결과들을 연관시키는 단계들을 도시한다.
도 7은 본 개시의 실시예에 따른 시스템의 오디오 패턴 데이터베이스의 예시적인 구조를 도시한다.
다음의 상세한 설명은 본 개시의 실시예들 및 그 실시예들이 구현될 수 있는 방식들을 예시한다. 알려진 솔루션들은, 비디오의 객체 및 비객체 요소들을 식별하며 그리고 단일 마이크를 구비한 디바이스로 기록되고 사용자의 디바이스에게로 온라인 스트리밍 또는 방송되는 모노 또는 1-채널 오디오를 가진 미리 녹음된 시청각 콘텐츠를 처리하는 것을 가능하게 하여, 사용자에게 몰입감 있고 사실적인 경험을 제공한다.
일 실시예에 따르면, 본 개시는 비디오 및 오디오를 포함하는 적어도 하나의 시청각 콘텐츠를 위한 바이노럴(binaural) 몰입형 오디오를 생성하기 위한 방법을 제공한다. 시청각 콘텐츠는 소비를 위해 사용자에게 제공될 수 있는 비디오 및 오디오를 포함하는 임의이 콘텐츠일 수 있다. 상기 비디오와 오디오는 일반적으로 서로 시간 동기화된다. 바이노럴 몰입형 오디오는, 사용자가 오디오가 3D 공간적 특성을 갖고 있다고 느끼는, 즉, 비디오의 특정 방향들로부터 오는 사운드가 해당 방향으로부터 오는 것으로 사용자에 의해 인식되는 오디오 경험이다.
비디오 콘텐츠는 여러 연속적인 프레임들을 포함한다. 예를 들어, 비디오의 초당 프레임 수는 24개이다. 프레임 속도는 시청각 콘텐츠에 따라 변한다. 상기 방법에 따르면, 비디오 내의 프레임들 중 적어도 하나가 선택된다. 그 선택된 프레임은 비디오 콘텐츠의 임의 지점으로부터 올 수 있다. 상기 비디오의 적어도 하나의 선택된 프레임이. 상기 적어도 하나의 프레임 내에서 적어도 하나의 오디오 제공 객체를 식별하기 위해 분석된다. 오디오 제공 객체는 오디오와 연관될 수 있는 객체이다. 그러한 객체의 한 예는 예를 들어 자동차, 사람, 동물, 폭포, 기계 등, 즉 사운드를 생성할 수 있는 임의의 객체일 수 있다.
또한 오디오의 적어도 한 부분이 선택된다. 상기 오디오의 적어도 하나의 부분은, 선택된 적어도 하나의 프레임이 시청각 콘텐츠의 소비 동안 재생되는 것과 동시에 재생될 수 있을 적어도 일부 오디오를 포함하도도록 선택된다. 오디오 샘플 속도가 예를 들어 44kHz일 수 있으므로, (초당 24프레임의 경우) 단일 비디오 프레임에 대해 상기 선택된 오디오 부분은 약 42ms(밀리초)의 지속 시간을 가진다. 상기 오디오의 선택된 적어도 하나의 부분은 분석되어, 상기 오디오의 상기 선택된 적어도 하나의 부분의 오디오 패턴 중 적어도 하나를 추출한다. 오디오 패턴은 예를 들어 사람의 말, 기계 등에서 비롯된 오디오를 언급하는 것이다. 추출은 상기 오디오의 적어도 한 부분으로부터의 오디오 패턴들을, 분리된 오디오 파일들이나 라이브러리들로서 분리하는 것을 말한다.
또한, 적어도 하나의 추출된 오디오 패턴은 적어도 하나의 선택된 프레임 내에서 상기 식별된 적어도 하나의 오디오 제공 객체와 연관된다. 상기 연관된 오디오 패턴 및 오디오 제공 객체를 사용하여, 상기 비디오의 적어도 하나의 프레임에 대한 바이노럴 몰입형 오디오가 생성된다.
본 개시의 추가적인 실시예에 따르면, 상기 비디오의 적어도 하나의 선택된 프레임을 분석하는 단계는:
- 컴퓨터 비전(400)을 이용하여 상기 비디오의 선택된 적어도 하나의 프레임에 대해 비디오 인식 프로세스를 수행하는 단계;
- 오디오 제공 객체의 공간적 위치 좌표들을 계산하는 단계; 그리고
- 적어도 하나의 컨볼루션 신경망을 사용하여 오디오 제공 객체 및 상기 공간적 위치 좌표들을 분류하는 단계를 포함한다.
비디오 인식 프로세스를 통해 상기 오디오 제공 객체를 자동으로 찾을 수 있다. 공간 위치 좌표들은 오디오가 나오는 것처럼 보이는 단일 프레임의 x,y 좌표를 나타낸다.
추가로, 비디오 및 오디오(예를 들어, 1-채널 오디오 또는 다중 채널 오디오)를 포함하는 적어도 하나의 시청각 콘텐츠에 대한 바이노럴 몰입형 오디오를 생성하기 위한 데이터 처리 시스템을 작동시키는 방법으로 상기 방법을 수행하도록 구성된 데이터 처리 시스템에 의한 방법이 제공된다.
시청각 콘텐츠를 위한 바이노럴 몰입형 오디오를 생성하는 방법 및 시스템은 시청각 콘텐츠의 프레임에서 음원의 위치를 계산하고 그 시청각 파일의 오디오를 바이노럴 및 3D 형식으로 수정한다.
일 실시예에서, 상기 시스템은 적어도 하나의 시청각 콘텐츠 제공자(예를 들어, 방송 또는 스트리밍 서비스 제공자 또는 오디오-비디오 레코딩 디바이스를 갖는 사용자)에 연결가능한 적어도 하나의 서버를 포함한다. 상기 서버는 시청각 콘텐츠 제공자로부터 2D 오디오를 갖는 시청각 콘텐츠를 수신하도록 구성된다.
상기 서버는 수신된 시청각 콘텐츠를 오디오 부분 및 프레임으로 분할하여 비디오에 바이노럴 몰입형 오디오를 생성하고, 그 분할된 오디오 및 프레임을 처리하고, 상기 처리된 오디오 및 처리된 프레임을 연관시키며, 그리고 그 연관된 오디오 및 프레임을 시청각 콘텐츠 수신기(예: 방송 또는 스트리밍 서비스 제공자 또는 사용자 디바이스)에게로 바이노럴 몰입형 오디오를 구비한 단일 시청각 콘텐츠로서 송신하도록 구성된다.
상기 서버는 보통은 적어도 하나의 데이터베이스; 상기 수신된 시청각 컨텐츠의 영상 인식 처리를 수행하는 비디오 분석 모듈; 상기 수신된 시청각 콘텐츠의 음성 인식 처리를 수행하는 오디오 분석 모듈; 상기 시청각 컨텐트의 인식된 비디오와 인식된 오디오의 연관을 수행하도록 구성된 연관 모듈; 후반 제작 단계에서 시각적 및 비시각적 오디오 제공 객체들의 위치들과 일치하도록 상기 오디오 청크들을 공간화하도록 구성된 오디오 처리 모듈; 그리고 적어도 2개의 신경망(예를 들어, 컨볼루션 신경망)을 포함한다.
상기 후반 제작 단계에서 오디오 제공 객체들의 위치들과 일치하도록 오디오 청크들을 공간화하는 작업이 수행되는데, 예를 들어, 모바일 전화기로 시청각 콘텐츠(예: 영화)가 이미 생성되었으면 그런 작업이 수행된다. 그 결과 오디오 콘텐츠가 명확하게 개선되며, 이는 오디오 및 오디오 제공 객체의 위치가 일치하기 때문이다. 사용자는 각 가청 및 식별 가능한 사운드가 정확한 위치 또는 객체로부터 온다고 느낀다.
상기 신경망은 오디오 패턴 데이터베이스를 처리하고 비디오 인식 프로세스와 오디오 인식 프로세스 간의 프로세스를 조정하고 그리고 시청각 콘텐츠의 비디오 프레임을 신경망을 통해 송신하여 컴퓨터 비전 시스템을 구현하도록 구성된다.
상기 컴퓨터 비전 모듈은 수신된 시청각 콘텐츠의 시각적 객체 인식 프로세스를 수행하도록 구성된 컴퓨터 비전 시스템 및 그 시각적 객체 인식의 결과를 저장하도록 구성된 이미지 패턴 데이터베이스를 포함한다.
상기 컴퓨터 청취 모듈은 인식된 시청각 콘텐츠의 완전한 오디오 샘플을 개별 오디오 청크로 분해하여 각 오디오 샘플 내 사운드를 식별하도록 구성된 컴퓨터 청취 시스템 및 식별된 사운드 패턴의 사운드 패턴 라이브러리를 포함하는 적어도 하나의 오디오 패턴 데이터베이스를 포함한다.
일 실시예에 따른 방법은 오디오 정보의 형식을, 시각적 콘텐츠 및 청각적 콘텐츠의 두 부분이 서로 일치하도록 설정한다.
본 개시물의 대안적 또는 추가적 실시예에서, 비디오의 적어도 하나의 선택된 프레임을 분석하는 단계는 다음의 단계들을 더 포함한다:
- 왜곡 제거를 위해 상기 적어도 하나의 프레임을 선명하게 하는 단계;
- 상기 공간 영역 좌표들을 사용하여 상기 적어도 하나의 오디오 제공 객체에 대한 영역 제안을 하는 단계;
- 상기 적어도 하나의 오디오 제공 객체의 상대적인 3D 위치를 판별하는 단계; 그리고
- 적어도 하나의 컨볼루션 신경망을 사용하여, 상기 영역 제안을 만들고 상기 상대적인 3D 위치를 판별하는 단계.
하나 이상의 실시예에서, 오디오 패턴을 추출하기 위해 오디오의 선택된 적어도 하나의 부분을 분석하는 단계는 다음의 단계을 포함한다:
- 오디오 패턴들을 식별하기 위해 컴퓨터 청취에 의해 오디오의 선택된 적어도 하나의 부분에 대한 오디오 인식 프로세스를 수행하는 단계;
- 상기 식별된 오디오 패턴을, 적어도 하나의 오디오 패턴에서 사운드들을 식별하기 위해 컴퓨터 청취에 의해 적어도 하나의 개별 오디오 청크로 분해하는 단계;
- 적어도 하나의 컨볼루션 신경망을 사용하여 상기 적어도 하나의 오디오 청크의 식별된 사운드를 분류하는 단계;
- 상기 적어도 하나의 분류된 오디오 청크의 사운드 패턴 라이브러리를 생성하여 오디오 패턴 데이터베이스에 저장하는 단계;
- 상기 생성된 사운드 패턴 라이브러리를 추출된 오디오 패턴들로서 사용하는 단계.
일 실시예에서, 적어도 하나의 추출된 오디오 패턴을 적어도 하나의 오디오 제공 객체와 연관시키는 단계는 다음의 단계들을 포함한다:
- 오디오 패턴 라이브러리 내의 어떤 오디오 청크가 상기 식별된 오디오 제공 객체와 일치하는지를 식별하기 위해 컨볼루션 신경망 또는 머신 러닝 방법 중 적어도 하나를 적용하여 상기 적어도 하나의 프레임과 상기 적어도 하나의 사운드 패턴의 정보 간의 연관을 검색하는 단계;
- 상기 상관 관계를 상기 연관으로서 사용하는 단계.
하나 이상의 실시예에서, 상기 컨볼루션 신경망은 영역 컨볼루션 신경망 (region convolutional neural network), 지도 컨볼루션 신경망 (map convolutional neural network) 또는 깊이 컨볼루션 신경망 (deep convolutional neural network) 중 하나이다.
추가적인 또는 대안적인 실시예에서, 상기 시청각 콘텐츠는 (콘텐츠 제공자의 서버 시스템과 같은) 적어도 하나의 시청각 콘텐츠 제공자 또는 적어도 하나의 시청각 레코딩 디바이스 (예를 들어, 스마트폰, 태블릿, 스마트워치, 랩탑, 스마트 TV, 스마트 카메라, 핸드헬드/웨어러블 컴퓨팅 디바이스)로부터 수신된다. 시청각 콘텐츠는 생성 시 실시간으로 수신되거나 실시간에 가깝게 수신되거나 콘텐츠 저장소로부터 수신될 수 있다. 제공되는 시청각 콘텐츠는 예를 들어 브로드캐스팅 또는 스트리밍 서비스 제공자일 수 있다.
대안적인 실시예에 따르면, 시청각 콘텐츠의 오디오는 1-채널 오디오 또는 다채널 오디오 중 하나이다. 실제로 이 방법은 몰입형 경험을 만들어 품질을 향상시킬 수 있다. 또한, 원본 오디오가 다중 채널인 경우 각 가청 컴포넌트는 별도의 오디오 채널을 가지며 각 채널은 하나의 시각적 컴포넌트로 식별된다.
본 개시의 일 실시예에 따른 비디오 분석의 단계에서, 수신된 시청각 콘텐츠의 프레임에 대한 이미지 패턴의 라이브러리가 생성된다. 비디오 분석 동안, 인식된 각 이미지 패턴은 식별되고 분류되어 카테고리, 프레임 수 및 xy 좌표 상의 위치 정보를 포함하는 대응 이미지 패턴 데이터베이스에 저장된다.
본 개시의 예시적인 실시예에서, 이미지 패턴 데이터베이스는, 프레임 상에서 인식, 식별, 분류된 각각의 이미지의 ID; 대응하는 오디오 패턴 데이터베이스 상의 오디오 객체의 ID로서, 상기 오디오 ID는 이미지와 오디오가 동일한 객체에 속하는 것으로 식별될 때 업데이트됨; 각 프레임에서 인식된 객체의 카테고리들(예: 인간, 자연, 기계) 및 각 객체의 유형(예: 남성/여성, 나무/새/포유동물, 소형/대형 차량 등); 프레임 번호; 및 각 프레임 상의 각 오디오 제공 객체의 위치 좌표들, 중 적어도 하나를 포함한다.
추가적으로, 이미지 패턴 데이터베이스에 저장된 각 이미지 패턴은 대응하는 오디오 패턴 데이터베이스 내 사운드 패턴에 대한 참조를 또한 포함할 수 있다. 영상 분석 결과와 음성분석 결과를 연관시키는 것을 수행하는 단계에서 사운드 패턴에 대한 상기 참조가 평가된다.
시청각 콘텐츠의 비디오 프레임은 두 개의 컨볼루션 신경망 (Convolutional Neural Network (CNN))을 통해 이미지 패턴 데이터베이스로부터 연관 모듈로 송신될 수 있다. 제1 신경망은, 예를 들어 프레임에서 오디오 제공 객체의 이미지를 찾고 라벨을 지정하며, 영역 제안을 만들며, 그리고 검색된 객체을 위해 연관하기 위한 영역을 결정하도록 구성된 영역 컨볼루션 신경망(영역-CNN)이다.
제2 신경망은 예를 들어 자신의 상대적인 3D 위치, 예를 들어 시점으로부터의 거리를 판별하도록 구성된 깊이 지도 컨볼루션 신경망(깊이 지도-CNN)이다.
본 개시내용의 실시예에서, 상기 비디오 분석은 왜곡 제거를 위한 이미지의 선명화, 영역 제안을 위한 영역-CNN, 및 씬 (scene) 이해를 위한 깊이 지도-CNN을 포함한다.
프레임 상의 오디오 제공 객체는 영역-CNN에 의해 분석될 수 있으며, 예를 들면, 프레임 상의 오디오 제공 객체의 형태에 따라 자동차, 사람, 건물, 새 등의 클래스에 따라 분리될 수 있다. 깊이 지도-CNN은 각 객체를, 예를 들면, 위치, 이동 벡터 및 사용자에 대한 거리를 매개변수화한다. 사운드를 내지 않는 건물이나 객체도 그것들의 사운드의 반사 특성 때문에 또한 분석된다.
본 발명의 일 실시예에 따른 오디오 분석 단계에서, 수신된 시청각 콘텐츠의 오디오 청크의 오디오 패턴 라이브러리가 생성된다.
오디오 분석 동안, 각 인식된 오디오 청크는 식별되고, 분류되며 그리고 ID, 사운드의 카테고리 및 유형의 정보, 시작 프레임 수 및 종료 프레임 수를 포함하는 대응 오디오 패턴 데이터베이스에 저장된다. 각 오디오 청크는 오디오 제공 객체 요소(예: 오디오의 객체 요소의 예는 작동하는 모터를 구비한 자동차임) 및 비 객체 요소(예: 비 객체 오디오 요소의 예는 (보이지 않는) 울부짖는 바람)의 사운드 카테고리 및 사운드 유형을 나타내며, 예를 들어 자연 특성이 있는 카테고리 N 사운드(예: 새, 동물, 바람 유형), 남성 및 여성 목소리로 만들어진 사운드를 가진 카테고리 S (예: 음성 유형) 및 기계 (예: 차량 유형)에 대한 카테고리 M 또는 인간 활동에 의해 생성되는 기타 유형의 사운드(예: 발소리)를 나타낸다. 사운드 패턴 라이브러리는 실시간으로 업데이트될 수 있다.
본 발명의 일 실시예에 따른 사운드 분석 단계에서, 상기 시스템은 수신된 시청각 콘텐츠로부터 오디오의 사운드 샘플을 판독하고 비디오의 각 프레임의 사운드의 카테고리 및 유형을 식별한다. 식별된 사운드를 기반으로 상기 시스템은 사운드 패턴 라이브러리를 생성한다. 각 사운드 패턴 라이브러리는 ID, 유형 식별자, 시작 및 종료 프레임과 함께 오디오 패턴 데이터베이스에 저장된다.
본 발명의 일 실시예에서, 오디오 분석은 컴퓨터 청취에 의한 자동 음원 식별에 의해 수행된다. 오디오 분석 중에 오디오 디지털 파일에 있는 사운드가 식별되고, 원본 시청각 콘텐츠 파일에서 추출되며, 시간적인 그리고 상이한 오디오 형식의 개별 채널로 분리된다. 이 과정을 분해(decomposition)라고 한다. 분해에서 단시간 푸리에 변환 (Short Time Fourier Transform, STFT)은 큰 오디오 파일을 더 작은 오디오 청크로 나누는 데 사용된다. 그런 다음 오디오 청크는 STFT를 신경망이 이해할 수 있는 형식으로 디코딩하도록 구성된 컨볼루션 신경망을 통해 송신된다. 컨볼루션 신경망은 원본 오디오 웨이브 파일의 동일한 인코딩 시스템을, 식별된 각 개별 사운드에 대응하는 각각의 새로운 웨이브 시리즈의 인코딩에 적용한다.
본 발명은 상이한 사운드가 상이한 물리적 특성을 갖는다는 점, 예를 들어 여성 및 남성의 음성이 상이한 스펙트럼 특성을 가질 뿐만 아니라 예를 들어 심지어 모두 기계 엔진에 의해 생산되지만 자동차, 오토바이, 트럭, 헬리콥터의 사운드들 사이에 여러 차이점들이 존재한다는 것을 기반으로 한다. 원본 오디오 파일의 속성들이 분석되고 사운드들은 스펙트럼 성분 및 음향 파라미터들의 분해 및 식별을 기반으로 클래스들에서 분리된다. 영화 또는 게임 내의 사운드의 양은 약 수천 개 정도일 수 있지만, 본 발명은 항상 소수의 사운드만이 동시에 재생되고 시각 및 청각 정보의 두 세트가 일치할 것이라고 고려한다.
재귀적 반복 프로세스와 머신 러닝은 특정 프레임에서 얻은 정보를 다음 프레임들에 적용하는 데 도움이 된다. 다시 말해, 여러 사운드가 동시에 존재할 수 있지만, 충돌이 있는 경우, 예를 들어 두 사람이 있지만 한 사람만 말하는 경우, 본 개시는 이전 및 미래 데이터를 사용하여 두 사람 중 어느 하나가 말하고 있는지 판별한다.
본 발명의 일 실시예에서, 1-채널 오디오 파일은 여러 사운드를 포함하며, 예를 들어, 그것은 엉망인 오디오 파일이다. 엉망인 오디오 파일은 각 오디오 파일에 하나의 음원이 포함된 다중 채널 오디오 파일로 나누어진다. 여기에서 전략은 심층 컨볼루션 신경망 (deep convolutional neural network)과 머신 러닝으로 엉망인 오디오 파일을 분석하는 것이다. 이를 통해 음원 식별 프로세스에 관한 효율성이 향상될 것이다. 즉, 현재 시스템이 서로 다른 음성들을 식별하는 횟수가 많을수록 동시에 말하는 많은 사람을 식별해야 할 때 더 잘 작동할 것이다.
일 실시예에 따르면, 상기 오디오 분석은 다음 단계들을 포함한다. 오디오 파일을 분석하고 패턴 및 물리적 특성을 찾기 위해, 메트릭이 개발된다. 분석할 물리적 특성은 주파수 콘텐츠 유형 그리고 진폭 변조, 색조, 거칠기 및 선명도와 같은 단일 숫자 수량들이다. 그런 다음 심층 컨볼루션 신경망을 사용하여 오디오 제공 객체를 분리하는 것이 구현된다. 그런 다음 머신 러닝 프로세스가 수행되며, 그에 의해 더 많은 데이터가 분석될수록 본 본 개시는 더 효과적이고 정확해진다.
일 실시예에서, 이미지 패턴 데이터베이스는 오디오 제공 객체와 프레임 사이의 링크를 검색하기 전에 완전히 구축된다. 이것은 최대 정보를 사용하여 프레임과 오디오 패턴 간의 최상의 일치를 찾는 것을 가능하게 한다. 추가로, 도플러, 입 움직임, 주파수 감쇠와 같은 다른 메커니즘을 사용하여 특정 이미지 패턴과 오디오 패턴 간의 링크를 식별한다.
이 존재하는 디지털 시청각 콘텐츠에 몰입형 오디오를 구현하는 것은, 그 시청각 콘텐츠의 비디오와 오디오를 분석하고 두 콘텐츠가 서로 일치하도록 프로세스를 수행하여 자율적이고 자동으로 수행된다. 상기 연관은 머신 러딩 분석으로 결정된다. 최종 사용자는 원래 스트리밍 또는 방송된 시청각 콘텐츠 또는 원래 녹화된 비디오를 처리하기 전보다 최종 콘텐츠가 더 현실적이고 몰입감 있게 느껴진다.
추가적인 실시예에 따라 시청각 콘텐츠를 위한 바이노럴 몰입형 오디오를 생성하기 위한 데이터 처리 시스템이 제공된다. 상기 데이터 처리 시스템은 본 개시에서 논의된 임의의 방법을 실행하도록 구성된다.
본 발명의 다른 실시예에 따르면, 상기 시청각 콘텐츠는 전-처리되며, 사용자는 오디오-비디오 레코딩 디바이스를 사용하여 시청각 콘텐츠를 생성하고, 레코딩된 시청각 콘텐츠를 네트워크를 통해 방송 또는 스트리밍 서비스 제공자의 서버에 업로드한다. 본 개시의 서버는 녹음된 시청각 콘텐츠의 2D 오디오를 처리하고 해당 시청각 콘텐츠에 대한 바이노럴 몰입형 오디오를 생성하며, 이는 방송 또는 스트리밍 서비스 제공자의 서버에 추가로 업로드되어 저장된다. 상기 처리된 시청각 콘텐츠가 방송 또는 스트리밍 서비스 제공자(예: YouTube®, Facebook®, Vimeo®)의 서버에 저장되기 때문에, 어떤 추가의 후-처리도 필요하지 않다.
본 개시의 다른 실시예에 따르면, 시청각 콘텐츠는 후-처리되며, 사용자는 시청각 콘텐츠를 오디오-비디오 레코딩 디바이스(예를 들어, 스마트폰, 태블릿, 스마트워치, 노트북, 스마트 TV, 스마트 카메라, 핸드헬드/웨어러블 컴퓨팅 디바이스)를 사용하여 생성하였으며 그리고 녹화된 시청각 콘텐츠를 방송 또는 스트리밍 서비스 제공자(예: YouTube®, Facebook®, Vimeo®)의 서버에 직접 업로드했다. 본 개시의 서버는 녹화된 시청각 콘텐츠의 2D 오디오를 후-처리하고 그 시청각 콘텐츠에 대한 바이노럴 몰입형 오디오를 생성한다. 상기 후-처리된 시청각 콘텐츠는 인터넷을 통해 사용자의 디바이스로 전송되어 그 사용자 디바이스의 디스플레이에 표시된다. 방송 또는 스트리밍 서비스 제공자의 서버에서 시청각 콘텐츠를 요청할 때에 후-처리는 연속해서 수행된다.
본 발명의 다른 실시예에서, 후-처리된 시청각 콘텐츠는 방송 또는 스트리밍 서비스 제공자의 서버에 저장된다. 동일한 시청각 콘텐츠가 다시 요청될 때에, 더 이상의 후-처리는 필요하지 않다.
도면의 상세한 설명
도 1은 본 개시에 따른 시스템(100)의 예시적인 실시예의 개략도이다. 상기 시스템(100)은 통신 네트워크(120)를 통해 시청각 콘텐츠 제공자(112)에 연결된 서버(110)를 포함한다. 상기 서버(110)는 상기 통신 네트워크를 통해 오디오-비디오 레코딩 디바이스(114)에 또한 연결될 수 있다. 상기 서버(110)는 상기 통신 네트워크를 통해 사용자 디바이스(214)에 또한 연결될 수 있다. 상기 오디오-비디오 레코딩 디바이스(114)는 기록된 시청각 콘텐츠를 통신 네트워크(120)를 통해 시청각 콘텐츠 제공자에게 제공할 수 있다.
상기 서버(110)는 오디오-비디오 레코딩 디바이스(114)로부터 그리고/또는 시청각 콘텐츠 제공자(112)로부터 시청각 콘텐츠(300)를 수신하도록 구성된다. 상기 시청각 콘텐츠(300)는 비디오 프레임들(301) 및 오디오(302)를 포함한다. 상기 서버(110)는 시청각 콘텐츠(300)의 비디오(302)에 바이노럴 몰입형 오디오를 생성하도록 구성된다. 상기 서버(110)는, 상기 수신된 시청각 콘텐츠를 오디오(302) 및 프레임(301)으로 분할하고, 오디오(302)로부터 오디오 부분(303)을 선택하고, 분할된 오디오(302) 및 프레임(301)의 오디오 부분(303)을 처리하고, 그 처리된 오디오를 처리된 프레임와 연관시키며 그리고 그 연관된 오디오 및 프레임을 바이노럴 몰입형 오디오를 갖는 단일 시청각 콘텐츠로서 시청각 콘텐츠 수신기(예를 들어, 방송 또는 스트리밍 서비스 제공자(112) 또는 사용자의 디바이스(114, 214))에 송신하도록 구성된다.
상기 서버(110)는 상기 수신된 시청각 콘텐츠의 비디오 인식 프로세스를 수행하도록 구성된 컴퓨터 비전 모듈(400); 상기 수신된 시청각 콘텐츠의 오디오 인식 프로세스를 수행하도록 구성된 컴퓨터 청취 모듈(500); 시청각 컨텐트(300)의 인식된 비디오와 인식된 오디오의 연관을 수행하도록 구성된 연관 모듈(600); 오디오 제공 객체의 위치 좌표와 일치하도록 상기 오디오 청크들을 공간화하도록 구성된 오디오 처리 모듈(700); 적어도 2개의 신경망(800) (예를 들어, 컨볼루션 신경망)을 포함한다.
상기 컴퓨터 비전 모듈(400)은 도 3에 상세히 설명되어 있다. 상기 컴퓨터 청취 모듈(500)은 도 4에 상세히 설명되어 있다. 상기 연관 모듈(600)은 도 5에서 상세히 설명된다.
도 2a는 바이노럴 몰입 오디오가 생성되는 시청각 콘텐츠의 소비를 위해 구성된 사용자 디바이스(214)의 예시이다. 바이노럴 몰입형 오디오는 인간의 귀에 완전히 사실적으로 느껴지는 디지털 형식의 사운드로 정의된다. 바이노럴 몰입형 오디오의 목적은 디스플레이된 시청각 콘텐츠를 보다 사실적인 경험으로 변환하는 것이다. 사용자 디바이스(214)는 시청각 콘텐츠의 비디오를 렌더링하기 위한 디스플레이(220)를 포함한다. 사용자는 디바이스(214)의 디스플레이(220)상에서, 인터넷에 의해 방송되는 처리된 디지털 시청각 콘텐츠를 시청한다. 도 2a에는 렌더링된 오디오 생성 객체들(241, 261, 251)이 도시되어 있다. 헤드폰(230) 또는 스피커(231)의 세트가 사용자 디바이스(214)에 연결된다. 상기 헤드폰(230)은 렌더링된 비디오의 바이노럴 몰입형 오디오를 사용자에게 제공한다. 사운드와 이미지가 완벽하게 일치하는 원하는 몰입감 있으며 즐거운 경험이 제공된다.
도 2b는 스크린(220) 상의 렌더링된 비디오와 관련된 추출된 오디오 패턴들(252, 242, 262)의 개략도이다. 상기 오디오 패턴(252)은 인간 객체(251)와 연관되며, 즉 오디오 패턴(252)은 디스플레이의 상기 영역 (또는 위치 좌표)으로부터 공간적으로 발생하는 것으로 보인다. 상기 오디오 패턴(242)은 동물 객체(241)와 연관되며, 즉 상기 오디오 패턴(242)은 디스플레이의 상기 영역 (또는 위치 좌표)으로부터 공간적으로 발생하는 것으로 보인다. 상기 오디오 패턴(262)은 기계 객체(261)와 연관되며, 즉 상기 오디오 패턴(262)은 디스플레이의 상기 영역 (또는 위치 좌표)으로부터 공간적으로 발생하는 것으로 보인다.
도 3은 본 개시의 실시예에 따른 방법의 블록 구성도이며, 상기 방법의 비디오 분석의 단계들을 도시한다. 비디오 프레임(301)은 서버(110)의 컴퓨터 비전 모듈(400)에 의해 수신된다. 프레임 n은 프레임 선택 모듈(401)을 사용하여 수신된 비디오 프레임들로부터 선택된다. 상기 선택된 프레임 n은 신경망 및 머신 러닝 기반 패턴 인식 객체 인식 모듈(406, 407)을 각각 사용하여 분석된다. 어떤 오디오 제공 객체도 검출되지 않으면 다음 프레임이 처리된다 (408(n++)). 오디오 제공 객체가 식별되면(409), 그 오디오 제공 객체는 카테고리(410) 및 유형(411)에 의해 분류되고 이미지 패턴 데이터베이스(402)에 저장된다. 식별은 오디오 제공 객체를 카테고리(410)(예를 들어, 인간, 자연, 기계)별로 식별하고 그 다음 각 카테고리의 유형(411)(예: 여성, 남성; 새, 포유류; 소형, 대형 등)에 따라 더 상세한 레벨로 식별하는 2개의 단계(410)를 갖는다. 오디오 제공 객체의 식별된 패턴은 이미지 패턴 데이터베이스(402)에 저장된다. 프레임 인덱스 n은 단계 412(n++)에서 업데이트된다. 분석될 프레임이 더 있으면(405), 프로세스가 모듈(401)을 취하며 비디오의 모든 프레임이 처리될 때까지 반복된다. 모든 프레임이 처리되면, 서버(110)에서 실행되는 오디오 분석 모듈(500)이 사용된다.
도 4는 본 개시의 실시예에 따른 방법의 블록 구성도이며, 상기 방법의 오디오 분석의 단계들을 도시한다. 시청각 콘텐츠(300)의 오디오(302)의 오디오 부분(303)은 서버(110)의 컴퓨터 청취 모듈(500)에 의해 수신된다. 프레임 n에서 샘플 길이까지의 사운드 샘플은 사운드 샘플 선택 모듈(501)을 사용하여 수신된 오디오 부분으로부터 선택된다. 다음 단계에서, 분석할 오디오 부분이 더 있는지(502)가 검사된다. 대응 프레임에 오디오 부분이 존재하지 않는 경우, 상기 수신된 시청각 콘텐츠의 오디오 분석은 서버(110)에 의해 단계 503에서 종료된다. 프레임 n으로부터 샘플 길이까지 선택된 사운드 샘플은 신경망 및 머신 러닝 기반 오디오 인식(506) 및 오디오 패턴 인식(507) 모듈을 사용하여 분석된다. 대응 프레임에서 오디오 패턴이 검출되지 않으면, 다음 프레임이 처리된다(508(n++)). 오디오 패턴이 인식되면(507), 상기 오디오 패턴은 카테고리 (510)(예: 인간, 자연, 기계)별로 그리고 유형(511)(예: 여성, 남성; 새, 포유류; 소형, 대형 등)별로 분류되고(509) 오디오 패턴 데이터베이스(505)에 저장된다. id=1+n (601)을 갖는 오디오 패턴은 그러면 오디오 패턴 데이터베이스(505)로부터 연관 모듈(600)로 송신된다.
도 5는 본 개시의 실시예에 따른 방법의 블록 구성도이며, 본 발명의 비디오 및 오디오 분석의 결과들을 연관시키는 단계들을 도시한다.
Id=1+n (601)인 분석된 오디오 패턴은 서버(110)의 연관 모듈(600)에서 오디오 패턴 데이터베이스(505)로부터 수신되며, 여기서 n은 오디오 패턴에 대한 카운터이고 각 오디오 패턴은 시작 프레임에서 끝 프레임까지의 지속 시간을 갖는다. 남아 있는 오디오 패턴이 있는지가 체크된다(602). 대응 프레임에서 오디오 패턴이 검출되지 않으면 다음 프레임이 처리된다 (603(n++)). 오디오 패턴이 검출되면, 위치= start_frame + f 로부터의 이미지 패턴 데이터베이스로부터의 동일한 유형의 오디오 제공 객체에 대한 검색이 수행된다 (604) (즉, 오디오 패턴 유형이 "자동차"인 경우, 검색은 이미지 패턴 유형 "자동차"가 또한 존재한다는 것이다. 제1 라운드에서는 f=0이며, 그래서 타겟 프레임은 사운드 샘플(시작 프레임)의 시작과 동일하다). 남아있는 프레임이 있는지가 체크된다 (605). 남은 프레임이 없으면 전체 비디오가 처리된다. 더 많은 프레임이 남아 있는 경우, 예를 들어 도플러 효과, 입 움직임, 주파수 감쇠 식별 방법을 사용하여, 오디오와 이미지 간의 링크를 식별하기 위한 추가 정보에 대해 추가적인 식별이 수행된다(606). 상기오디오 패턴 유형과 상기 이미지 패턴 유형의 일치 여부가 확인된다(607). 일치가 없으면 오디오 패턴 데이터베이스(505)로부터 id=1+n을 갖는 다음 오디오 패턴이 수신된다(601). 일치가 검출되면, 동일한 유형의 이미지 패턴이 여러 개 있는지가 확인된다(608). 동일한 유형의 이미지 패턴이 여러 개 없으면, f <f_required OR 남은 프레임 없음을 고려하여 (612) 다음 프레임을 처리하기 위해 프레임 카운터 f는 증가한다 (611(f++)) (즉, f_required: 이미지-오디오 패턴 연관을 인식하기 위해 처리할 필요가 있는 프레임들의 최소 양을 위한 변수). 이미지 패턴이 프레임들 간에 점진적으로 변하면, 객체가 동일한 객체로 식별되고 다음 객체가 판독되며, 즉,, 이미지 패턴 데이터베이스(613)로부터 프레임 = 시작 프레임 + f이다 (613). 상기 이미지 패턴이 이전 프레임과 동일한지가 체크된다(614). 아니오(no)인 경우, 이 프레임에서 특정 이미지 패턴이 사라졌는지의 확인이 증가하며(615) 그리고 동일한 유형의 이미지 패턴이 여러 개 있는지가가 확인된다 (608). 이미지 패턴이 이전 프레임에서와 동일한 것으로 검출되면, 동일한 유형의 이미지 패턴들이 여러 개 있는지가 확인된다(608). 동일한 유형의 이미지 패턴들이 여러 개 있는 것으로 검출되면, 모든 이미지 패턴들이 사운드 ID를 구비하는지 또는 (OR) 해당 프레임 상의 모든 이미지 패턴들이 처리되었는지가 (k=>j) 확인된다 (620) (동일한 유형의 이미지 패턴들이 여러 개 있는 경우, 이미지 패턴 데이터베이스로부터 이전에 모은 데이터도 검색할 필요가 있으며, 즉, 예를 들어 더 많은 사람들이 동일한 씬에 오고 있으며 일부 사람/사운드 패턴들은 이전 프레임들에서 이미 식별되었다). 예 (yes)라면, 이미지와 사운드 패턴 간의 일치가 발견되었으며 이미지 패턴 데이터베이스가 업데이트된다(609).
추가로, 단계 612에서, 식별 프로세스가 신뢰할 수 있게 수행되었는지 확인하기 위해, 실패한 식별 없이 발생할 수 있는 프레임들 수 제한 값이 확인되며, 그 값이 설정된 제한에 대응하지 않으면 (616), 오디오 패턴 데이터베이스(505)로부터의 id=1+n인 다음 오디오 패턴이 수신된다(601). 상기 값이 설정된 계한에 대응하면 (617) (즉, f_required = 0; max_error = 0), 이미지와 사운드 패턴 간의 일치가 발견되고 이미지 패턴 데이터베이스가 업데이트된다(609).
단계 620에서 모든 이미지 패턴이 사운드 ID를 가지지 않으며 또는 (OR) 해당 프레임상의 모든 이미지 패턴들이 처리되지 않은 것으로 검출되면, 오디오 패턴 ID 값이 없는 (즉, 아직 오디오 패턴들과 링크되지 않은) 이미지 패턴들이 선택되며(621) 그리고 이러한 이미지 패턴들은, 상기 위치로부터의 이미지 패턴 데이터베이스로부터 동일한 유형의 오디오 제공 객체들을 검색하고 패턴 1+k를 수신함으로써 오디오 패턴(622)의 가능한 소스를 인식하도록 처리된다 (623).
도 6은 본 개시의 실시예에 따른 시스템의 이미지 패턴 데이터베이스(402)의 예시적인 구조를 도시하며, 여기에서 상기 이미지 패턴 데이터베이스는 상기 시청각 콘텐츠의 ID를 구비한 프레임들, 대응하는 오디오 제공 객체들의 유형 및 카테고리들에 의해 분류된 각 프레임 상의검출된 오디오 제공 객체들의 정보, 대응 프레임들 상의 오디오 제공 객체들의 위치 좌표들 및 프레임 번호를 포함하며, 여기에서 상기 대응 오디오 제공 객체들이 나타난다.
도 7은 본 개시의 실시예에 따른 시스템의 오디오 패턴 데이터베이스(505)의 예시적인 구조를 도시하며, 여기에서 상기 오디오 패턴 데이터베이스는 시청각 콘텐츠의 ID를 구비한 인식된 오디오 패턴들, 각 오디오 패턴의 시작 프레임 및 끝 프레임의 수 및 각 오디오 패턴의 카테고리 및 유형의 정보를 포함한다.
Claims (10)
- 비디오(301) 및 오디오(302)를 포함하는 적어도 하나의 시청각 콘텐츠(300)에 대한 바이노럴 (binaural) 몰입형 오디오를 생성하기 위한 방법으로서, 상기 방법은:
- 비디오(301) 및 오디오(302)를 수신하는 단계;
- 상기 비디오의 적어도 하나의 프레임을 선택하는 단계;
- 상기 적어도 하나의 프레임 내에서 적어도 하나의 오디오 제공 객체를 식별하기 위해 상기 비디오의 적어도 하나의 선택된 프레임을 분석하는 단계;
- 상기 오디오(303)의 적어도 하나의 부분을 선택하는 단계;
- 상기 오디오의 선택된 적어도 하나의 부분의 오디오 패턴(252, 242, 262) 중 적어도 하나를 추출하기 위해 상기 오디오의 선택된 적어도 하나의 부분을 분석하는 단계;
- 상기 적어도 하나의 추출된 오디오 패턴을 상기 적어도 하나의 선택된 프레임 내에서 상기 식별된 적어도 하나의 오디오 제공 객체와 연관시키는 단계;
- 상기 연관을 사용하여, 상기 비디오의 적어도 하나의 프레임에 대한 바이노럴 오디오를 생성하는 단계를 포함하는, 방법. - 제1항에 있어서,
상기 비디오(301)의 적어도 하나의 선택된 프레임을 분석하는 단계는:
- 컴퓨터 비전(400)을 이용하여 상기 비디오의 선택된 적어도 하나의 프레임에 대해 비디오 인식 프로세스를 수행하는 단계;
- 오디오 제공 객체의 공간적 위치 좌표들을 계산하는 단계; 그리고
- 적어도 하나의 컨볼루션 신경망(800)을 사용하여 오디오 제공 객체 및 상기 공간적 위치 좌표들을 분류하는 단계를 포함하는, 방법. - 제1항 또는 제2항에 있어서,
상기 비디오(301)의 적어도 하나의 선택된 프레임을 분석하는 단계는:
- 왜곡 제거를 위해 상기 적어도 하나의 프레임을 선명하게 하는 단계;
- 상기 공간 영역 좌표들을 사용하여 상기 적어도 하나의 오디오 제공 객체에 대한 영역 제안을 하는 단계;
- 상기 적어도 하나의 오디오 제공 객체의 상대적인 3D 위치를 판별하는 단계;
- 적어도 하나의 컨볼루션 신경망(800)을 사용하여, 상기 영역 제안을 하고 상기 상대적인 3D 위치를 판별하는 단계를 더 포함하는, 방법. - 제1항 내지 제3항 중 어느 한 항에 있어서,
오디오 패턴을 추출하기 위해 오디오(303)의 선택된 적어도 하나의 부분을 분석하는 단계는:
- 오디오 패턴들(252, 242, 262)을 식별하기 위해 컴퓨터 청취에 의해 오디오(303)의 선택된 적어도 하나의 부분에 대한 오디오 인식 프로세스를 수행하는 단계;
- 상기 식별된 오디오 패턴을, 적어도 하나의 오디오 패턴에서 사운드들을 식별하기 위해 컴퓨터 청취에 의해 적어도 하나의 개별 오디오 청크로 분해하는 단계;
- 적어도 하나의 컨볼루션 신경망(800)을 사용하여 상기 적어도 하나의 오디오 청크의 식별된 사운드들을 분류하는 단계;
- 상기 적어도 하나의 분류된 오디오 청크의 사운드 패턴 라이브러리를 생성하여 오디오 패턴 데이터베이스(505)에 저장하는 단계;
- 상기 생성된 사운드 패턴 라이브러리를 추출된 오디오 패턴들로서 사용하는 단계를 포함하는, 방법. - 제1항 내지 제4항 중 어느 한 항에 있어서,
상기 적어도 하나의 추출된 오디오 패턴(252, 242, 262)을 상기 적어도 하나의 오디오 제공 객체와 연관시키는 단계는:
- 오디오 패턴 라이브러리 내의 어떤 오디오 청크가 상기 식별된 오디오 제공 객체와 일치하는지를 식별하기 위해 컨볼루션 신경망(800) 또는 머신 러닝 방법 중 적어도 하나를 적용하여 상기 적어도 하나의 프레임과 상기 적어도 하나의 오디오 패턴의 정보 간의 상관 관계를 검색하는 단계;
- 상기 상관 관계를 상기 연관으로서 사용하는 단계를 포함하는, 방법. - 제2항 내지 제5항 중 어느 한 항에 있어서,
상기 컨볼루션 신경망(800)은 영역 컨볼루션 신경망 또는 지도 컨볼루션 신경망 중 하나인, 방법. - 제1항 내지 제6항 중 어느 한 항에 있어서,
상기 시청각 콘텐츠(300)는 적어도 하나의 시청각 콘텐츠 제공자(112) 또는 시청각 레코딩 디바이스(114)로부터 수신되는, 방법. - 제1항 내지 제7항 중 어느 한 항에 있어서,
상기 시청각 콘텐츠(300)의 오디오는 1-채널 오디오인, 방법. - 제1항 내지 제7항 중 어느 한 항에 있어서,
상기 시청각 콘텐츠(300)의 오디오는 다채널 오디오인, 방법. - 제1항 내지 제9항 중 어느 한 항의 방법을 수행하도록 구성된 시청각 콘텐츠(300)용 바이노럴 및 3D 오디오를 생성하기 위한 데이터 처리 시스템(100)
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/590,627 US10820131B1 (en) | 2019-10-02 | 2019-10-02 | Method and system for creating binaural immersive audio for an audiovisual content |
US16/590,627 | 2019-10-02 | ||
PCT/EP2020/070252 WO2021063557A1 (en) | 2019-10-02 | 2020-07-17 | Method and system for creating binaural immersive audio for an audiovisual content using audio and video channels |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220077132A true KR20220077132A (ko) | 2022-06-08 |
Family
ID=71670260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020227012721A KR20220077132A (ko) | 2019-10-02 | 2020-07-17 | 시청각 콘텐츠용 바이노럴 몰입형 오디오 생성 방법 및 시스템 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10820131B1 (ko) |
JP (1) | JP2022550372A (ko) |
KR (1) | KR20220077132A (ko) |
WO (1) | WO2021063557A1 (ko) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018176017A1 (en) * | 2017-03-24 | 2018-09-27 | Revealit Corporation | Method, system, and apparatus for identifying and revealing selected objects from video |
US11580869B2 (en) * | 2019-09-23 | 2023-02-14 | Revealit Corporation | Computer-implemented interfaces for identifying and revealing selected objects from video |
US10998006B1 (en) * | 2020-12-08 | 2021-05-04 | Turku University of Applied Sciences Ltd | Method and system for producing binaural immersive audio for audio-visual content |
CN113099374B (zh) * | 2021-03-30 | 2022-08-05 | 四川省人工智能研究院(宜宾) | 一种基于多重注意力视听融合的音频立体化方法 |
KR20240038649A (ko) * | 2021-04-23 | 2024-03-25 | 바이브즈 & 로직, 인크. | 몰입형 오디오 경험을 위한 시스템 및 방법 |
CN113393833B (zh) * | 2021-06-16 | 2024-04-02 | 中国科学技术大学 | 音视频唤醒方法、系统、设备及存储介质 |
CN113316078B (zh) * | 2021-07-30 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
WO2023096309A1 (ko) * | 2021-11-23 | 2023-06-01 | 삼성전자 주식회사 | 유해 언어를 필터링하기 위한 전자 장치 및 방법 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR9709751A (pt) | 1996-04-29 | 1999-08-10 | Princeton Video Image Inc | Inserção eletrônica intensificada de áudio de sinais em víde |
US6829018B2 (en) * | 2001-09-17 | 2004-12-07 | Koninklijke Philips Electronics N.V. | Three-dimensional sound creation assisted by visual information |
GB2414369B (en) | 2004-05-21 | 2007-08-01 | Hewlett Packard Development Co | Processing audio data |
US20090237564A1 (en) | 2008-03-18 | 2009-09-24 | Invism, Inc. | Interactive immersive virtual reality and simulation |
US20100328419A1 (en) | 2009-06-30 | 2010-12-30 | Walter Etter | Method and apparatus for improved matching of auditory space to visual space in video viewing applications |
JP5597956B2 (ja) | 2009-09-04 | 2014-10-01 | 株式会社ニコン | 音声データ合成装置 |
US9094771B2 (en) | 2011-04-18 | 2015-07-28 | Dolby Laboratories Licensing Corporation | Method and system for upmixing audio to generate 3D audio |
US10231056B2 (en) | 2014-12-27 | 2019-03-12 | Intel Corporation | Binaural recording for processing audio signals to enable alerts |
WO2017139927A1 (en) * | 2016-02-17 | 2017-08-24 | Intel Corporation | Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model |
US11456005B2 (en) | 2017-11-22 | 2022-09-27 | Google Llc | Audio-visual speech separation |
US10701303B2 (en) * | 2018-03-27 | 2020-06-30 | Adobe Inc. | Generating spatial audio using a predictive model |
-
2019
- 2019-10-02 US US16/590,627 patent/US10820131B1/en active Active
-
2020
- 2020-07-17 WO PCT/EP2020/070252 patent/WO2021063557A1/en active Application Filing
- 2020-07-17 JP JP2022519462A patent/JP2022550372A/ja active Pending
- 2020-07-17 KR KR1020227012721A patent/KR20220077132A/ko unknown
Also Published As
Publication number | Publication date |
---|---|
WO2021063557A1 (en) | 2021-04-08 |
US10820131B1 (en) | 2020-10-27 |
JP2022550372A (ja) | 2022-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10820131B1 (en) | Method and system for creating binaural immersive audio for an audiovisual content | |
CN108200446B (zh) | 虚拟形象的线上多媒体互动系统及方法 | |
Coleman et al. | An audio-visual system for object-based audio: from recording to listening | |
RU2702233C2 (ru) | Устройство обработки информации и способ обработки информации | |
US6829018B2 (en) | Three-dimensional sound creation assisted by visual information | |
TW201830380A (zh) | 用於虛擬實境,增強實境及混合實境之音頻位差 | |
CN106303663B (zh) | 直播处理方法和装置、直播服务器 | |
JP2019533404A (ja) | バイノーラルオーディオ信号処理方法及び装置 | |
US11303689B2 (en) | Method and apparatus for updating streamed content | |
US11570569B2 (en) | Associated spatial audio playback | |
WO2020231883A1 (en) | Separating and rendering voice and ambience signals | |
KR101915786B1 (ko) | 아바타를 이용한 인터넷 방송 참여 서비스 시스템 및 방법 | |
CN114040255A (zh) | 直播字幕生成方法、系统、设备及存储介质 | |
US10656900B2 (en) | Information processing device, information processing method, and program | |
KR101915792B1 (ko) | 얼굴인식을 이용한 광고 삽입 시스템 및 방법 | |
CN114822568A (zh) | 音频播放方法、装置、设备及计算机可读存储介质 | |
Oldfield et al. | An object-based audio system for interactive broadcasting | |
Schweiger et al. | Tools for 6-Dof immersive audio-visual content capture and production | |
CN112995530A (zh) | 视频的生成方法、装置及设备 | |
US10998006B1 (en) | Method and system for producing binaural immersive audio for audio-visual content | |
US20200177993A1 (en) | Recording and Rendering Sound Spaces | |
Oldfield et al. | Cloud-based AI for automatic audio production for personalized immersive XR experiences | |
CN113632496A (zh) | 相关联的空间音频回放 | |
US20240244386A1 (en) | Video-derived audio processing | |
US20220303636A1 (en) | Providing dynamic media captioning and augmented/virtual reality feedback in home network environments |