KR20240038649A

KR20240038649A - 몰입형 오디오 경험을 위한 시스템 및 방법

Info

Publication number: KR20240038649A
Application number: KR1020237040471A
Authority: KR
Inventors: 이반 토도로브; 맷 자이거; 그랜트 스키너
Original assignee: 바이브즈 & 로직, 인크.
Priority date: 2021-04-23
Filing date: 2022-04-25
Publication date: 2024-03-25
Also published as: US12046246B2; WO2022226409A1; CA3215843A1; CN117441146A; AU2022262435A1; JP2024522251A; EP4327189A1; US20220343923A1

Abstract

몰입형 오디오 경험을 생성하기 위한 컴퓨터 구현 방법. 본 방법은 사용자 인터페이스를 통해 오디오 트랙의 사용자 선택을 수신하는 단계, 및 오디오 트랙에 대한 오디오 트랙 메타데이터를 수신하는 단계를 포함한다. 본 방법은 트랙 메타데이터에 기초하여 오디오 데이터베이스에 질의하는 단계, 및 오디오 트랙에 대한 오디오 데이터가 오디오 데이터베이스에 저장되어 있지 않다고 결정하는 단계를 포함한다. 본 방법은 오디오 트랙을 분석하여 하나 이상의 오디오 트랙 특성을 결정하는 단계를 포함한다. 본 방법은 하나 이상의 오디오 트랙 특성에 기초하여, 바이브 데이터를 생성하는 단계를 포함하며, 바이브 데이터는 시간 코딩된 메타데이터를 포함하는 것이다. 바이브 데이터에 기초하여, 사용자 컴퓨팅 디바이스와 통신하는 하나 이상의 A/V 디바이스에 대한 시각화 지시를 생성하고, 생성된 시각화 지시 및 오디오 트랙을 사용자 컴퓨팅 디바이스에 송신한다.

Description

몰입형 오디오 경험을 위한 시스템 및 방법

관련 출원 상호 참조

본 출원은 2021년 4월 23일에 출원된 미국 가 출원 제63/178,983호의 우선권을 주장하며, 이의 전문이 본 명세서에 참조로 통합된다.

본 명세서에서 제공되는 배경 설명은 본 개시의 맥락을 일반적으로 제시하는 목적을 위한 것이다. 현재 지명된 발명자들의 작업은, 이 배경 섹션에서 그 작업이 설명되는 범위뿐만 아니라 출원 시 종래 기술로서 달리 자격을 갖춘 것이 아닐 수 있는 설명의 양태들에서, 본 개시에 대한 종래 기술로서 명시적으로든 암시적으로든 인정되지 않는다.

전통적으로, 가정에서 음악 및 오디오를 듣는 경험은 직접, 라이브 음악 또는 다른 오디오 경험에 훨씬 못 미칠 수 있다. 라이브 음악 경험은 가정에서 전통적으로 이용할 수 없는, 적어도 장비에 대한 막대한 투자와 사용자를 대신하는 많은 작업량 없이는 그렇지 않은 많은 감각적인 입력을 포함할 수 있다. 예를 들어, 콘서트 또는 다른 라이브 음악 경험은 가정 환경에 전통적으로 존재하지 않을 수 있거나, 존재하더라도, 몰입형 음악 및 오디오 경험을 제공하도록 쉽게 구성가능하지 않을 수 있는 청각적, 시각적, 및 다른 감각적인 입력을 포함할 수 있다.

다음은 본 개시의 일부 양태에 대한 기본적인 이해를 제공하기 위하여 본 개시의 간략한 요약을 제시한다. 이러한 요약은 본 개시의 광범위한 개요가 아니다. 본 개시의 핵심적 또는 중요한 요소를 식별하거나 본 개시의 범위를 기술하고자 하는 것은 아니다. 다음의 개요는 단지 아래에서 제공되는 보다 상세한 설명에 대한 서문으로서 간략화된 형태로 본 개시의 일부 개념을 제시한다.

일 실시예에서, 본 개시는 사용자의 가정, 차량, 또는 다른 장소에서 몰입형 음악 및 오디오 경험을 생성하기 위한 시스템을 설명한다. 경험은 사용자가 음악, 팟캐스트, 운동, 명상, 종교 행사 등을 포함한 오디오 컨텐츠를 사용자가 음악이나 기타 오디오를 상이한 방식으로 경험할 수 있게 하는 감각적인 몰입형 방식으로 경험하는 환경을 조성할 수 있다. 이는 라이브 음악 이벤트를 복제, 증폭 또는 시뮬레이션하는 것을 포함할 수 있거나, 라이브 이벤트와는 상이할 수도 있지만 표준 오디오 경험보다 몰입감이 더 큰 인공 지능을 통해 비(non) 라이브 이벤트 아티스트 모션 그래픽 또는 피처가 아키텍처화되는 것을 포함할 수 있다. 일부 실시예에서, 본 시스템 및 방법은 온스크린 시각화, 조명 색상, 모션 패턴 및 스텐실과 같은 그 음악에 대한 시각적 지침서를 포괄할 수 있는 아티스트 또는 다른 컨텐츠 제작자 "체험 팩"을 포함할 수 있다. 시스템은 사용자의 가정에 설치가능한 각종 하드웨어 구성요소(예를 들어, L.E.D. 조명, 스트로브 조명, 스폿 조명, 레이저, 스피커, 프로젝터 등)와 클라우드 네트워크에 연결가능한 사용자의 컴퓨팅 디바이스(예를 들어, 데스크탑/랩탑, 휴대폰, VR 헤드셋, 태블릿 등)에서 실행되는 소프트웨어를 포함할 수 있다. 일부 실시예에서, 결과는 몰입형 음악 또는 사운드, 조명, 레이저, 3D 프로젝션, VR/AR 경험, 콘서트에 참석하는 다른 시각적 또는 감각적 요소, 다른 라이브 음악 이벤트, 또는 전체적으로 AI 생성된 경험을 포함할 수 있는 다른 오디오 경험일 수 있다.

일부 실시예에서, 시스템 및 방법은 오디오 스트림으로부터의 하모닉 정보를 고급 기술 및 스마트 디바이스를 사용하여 뛰어난 시각적 경험으로 변환할 수 있다. 그 과정은 머신 러닝 기법을 사용하여 궁극적인 경험을 예측하고 설계하는데 사용되는 시간 코딩된 메타데이터를 추출하거나 청각 컨텐츠를 동반하고 준수하기 위한 "바이브(vibe)"를 추출할 수 있다.

일부 실시예들에서, 본 개시는 몰입형 오디오 경험을 생성하기 위한 컴퓨터 구현 방법을 설명한다. 본 방법은 사용자 컴퓨팅 디바이스로부터, 사용자 인터페이스를 통해 오디오 트랙의 사용자 선택을 수신하는 단계, 및 오디오 소스로부터, 오디오 트랙에 대한 오디오 트랙 메타데이터를 수신하는 단계를 포함한다. 본 방법은 트랙 메타데이터에 기초하여 오디오 데이터베이스에 질의하는 단계를 포함할 수 있다. 질의에 기초하여, 본 방법은 오디오 트랙에 대한 오디오 데이터가 오디오 데이터베이스에 저장되어 있지 않다고 결정하는 단계를 포함할 수 있다. 오디오 트랙에 대한 오디오 데이터가 오디오 데이터베이스에 저장되어 있지 않다고 결정하는 것에 기초하여, 본 방법은 오디오 트랙을 분석하여 하나 이상의 오디오 트랙 특성을 결정하는 단계, 및 하나 이상의 오디오 트랙 특성에 기초하여 바이브 데이터를 생성하는 단계를 포함할 수 있다. 바이브 데이터는 시간 코딩된 메타데이터를 포함할 수 있다. 바이브 데이터에 기초하여, 사용자 컴퓨팅 디바이스와 통신하는 하나 이상의 시청각(audio/visual, A/V) 디바이스에 대한 시각화 지시를 생성한다. 본 방법은 생성된 시각화 지시 및 오디오 트랙을 사용자 컴퓨팅 디바이스에 송신하는 단계를 포함할 수 있다.

다른 실시예에서, 본 개시는 몰입형 오디오 경험을 생성하기 위한 시스템을 설명한다. 본 시스템은 A/V 효과를 제공하도록 구성된 복수의 시청각(A/V) 디바이스들을 포함할 수 있다. 본 시스템은 복수의 A/V 디바이스들과 무선으로 통신하도록 구성된 사용자 컴퓨팅 디바이스를 포함할 수 있다. 사용자 컴퓨팅 디바이스는 오디오 트랙의 사용자 선택을 수신하기 위한 그래픽 사용자 인터페이스를 제공하기 위한 프로세서 실행가능 지시를 포함하는 메모리와 통신하는 하나 이상의 프로세서를 포함할 수 있다. 본 시스템은 사용자 컴퓨팅 디바이스와 전자 통신하는 하나 이상의 원격 컴퓨터 서버를 포함할 수 있다. 하나 이상 원격 컴퓨터 서버는 오디오 소스로부터 오디오 트랙에 대한 오디오 트랙 메타데이터를 수신하고, 오디오 트랙 메타데이터를 분석하여 오디오 트랙과 연관된 하나 이상의 오디오 트랙 특성을 결정하기 위한 프로세서 실행가능 지시를 포함하는 메모리와 통신하는 하나 이상의 프로세서를 포함할 수 있다. 메모리는 또한, 하나 이상의 오디오 트랙 특성에 기초하여 바이브 데이터를 생성하기 위한 지시를 포함할 수 있으며, 여기서 바이브 데이터는 시간 코딩된 메타데이터를 포함할 수 있다. 메모리는 또한, 바이브 데이터에 기초하여, 복수의 시청각(A/V) 디바이스들 중 적어도 하나에 대한 시각화 지시를 생성하고, 생성된 시각화 지시 및 오디오 트랙을 사용자 컴퓨팅 디바이스에 송신하기 위한 지시를 포함할 수 있다. 사용자 컴퓨팅 디바이스의 메모리는 생성된 시각화 지시를 복수의 시청각(A/V) 디바이스들 중 적어도 하나에 송신하기 위한 프로세서 실행가능 지시를 더 포함할 수 있다.

다른 실시예에서, 본 개시는 몰입형 오디오 경험을 생성하기 위한 컴퓨터 구현 방법을 설명한다. 본 방법은 사용자 컴퓨팅 디바이스로부터, 사용자 인터페이스를 통해 오디오 트랙의 사용자 선택을 수신하는 단계, 및 오디오 트랙을 분석하여 하나 이상의 오디오 트랙 특성을 결정하는 단계를 포함할 수 있다. 본 방법은 하나 이상의 오디오 트랙 특성에 기초하여, 바이브 데이터를 생성하는 단계를 포함할 수 있으며, 여기서 바이브 데이터는 시간 코딩된 메타데이터를 포함할 수 있다. 본 방법은 또한, 사용자 컴퓨팅 디바이스로부터, 바이브 데이터를 편집하여 사용자 바이브 데이터를 생성하기 위한 하나 이상의 사용자 지시를 수신하는 단계를 포함할 수 있다. 본 방법은 사용자 바이브 데이터에 기초하여 시각화 지시를 생성하는 단계, 및 생성된 시각화 지시 및 오디오 트랙을 사용자 컴퓨팅 디바이스에 송신하는 단계를 포함할 수 있다.

본 발명은 첨부된 도면과 관련하여 고려될 때 상세한 설명을 참조함으로써 더 잘 이해될 수 있다. 도면들에서의 구성요소들은 반드시 일정한 축적으로 그려지는 것이 아니라, 본 발명의 원리들을 도시하는 것에 중점을 둔다. 도면들에서, 같은 참조 부호들은 상이한 도면들에 걸쳐 대응하는 부분들을 가리킨다.
도 1은 본 개시에 따른 몰입형 오디오 경험을 위한 시스템 및 방법에 따라 구성된 시청각 환경의 일 실시예의 도면이다.
도 2a는 본 개시에 따른 몰입형 오디오 시스템을 통해 데이터가 흐를 수 있는 방법의 일 실시예의 데이터 흐름도의 첫 번째 부분이다.
도 2b는 도 2a의 데이터 흐름도의 두 번째 부분이다.
도 3은 본 개시에 따른 몰입형 오디오 시스템을 구현하는 방법의 일 실시예의 흐름도이다.
도 4는 예시적인 컴퓨팅 디바이스의 일 실시예의 구성요소의 개략적인 예시이다.
도 5는 서버형 컴퓨팅 디바이스의 일 실시예의 구성요소의 개략적인 예시이다.
도 6은 본 개시에 따른 몰입형 오디오 시스템의 다른 실시예의 데이터 흐름도이다.
도 7은 도 6의 몰입형 오디오 시스템에서 구현되는 인공 지능(AI) 엔진의 일 실시예의 데이터 흐름도이다.
도 8은 도 6의 몰입형 오디오 시스템에서 구현되는 바이브 스트리밍 프로토콜의 데이터 흐름도이다.
도 9는 본 개시에 따른 조명 픽스처의 일 실시예이다.
도 10a는 4개의 전구를 포함하는 도 9의 조명 픽스처의 다른 실시예이다.
도 10b는 8개의 전구를 포함하는 도 9의 조명 픽스처의 다른 실시예이다.
도 10c는 16개의 전구를 포함하는 도 9의 조명 픽스처의 다른 실시예이다.
당업자는 도면의 구성요소가 간략화 및 명확화를 위해 도시되어 있으므로, 모든 연결 및 옵션이 본 발명의 양태를 모호하게 하는 것을 피하기 위해 도시되어 있지 않음을 이해할 것이다. 예를 들어, 본 개시의 이러한 다양한 실시예의 덜 방해된 관점을 용이하게 하기 위해 상업적으로 실행가능한 실시예에서 유용하거나 필요한 공통이지만 잘 이해된 구성요소는 자주 도시되지 않는다. 또한, 특정 동작 및/또는 단계는 특정한 순서로 설명되거나 도시될 수 있음을 이해할 것이며, 당업자는 순서에 관한 이러한 특수성이 실제로 요구되지 않음을 이해할 것이다. 또한, 본 명세서에서 사용되는 용어 및 표현은 특정한 의미가 본 명세서에서 달리 언급되지 않는 한 해당 문의 각 영역에 대해 정의될 것임을 이해할 것이다.

이하, 본 발명의 일부를 이루는 첨부된 도면을 참조하여 본 발명이 더욱 상세히 설명될 것이며, 이는 예시로서 본 발명이 실시될 수 있는 구체적인 예시적인 실시예를 보여준다. 이러한 예시 및 예시적인 실시예는 본 개시가 하나 이상의 발명의 원리를 예시하는 것이며, 본 발명의 어느 하나를 예시된 실시예에 한정하려는 것이 아님을 이해할 것이다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 본 명세서에서 기재된 실시예에 한정되는 것으로 해석되어서는 안 되며, 오히려 이러한 실시예는 본 개시가 철저하고 완전하도록 제공되며, 본 발명의 범위를 당업자에게 충분히 전달할 것이다. 특히, 본 발명은 방법 또는 디바이스로서 구현될 수 있다. 이에 따라, 본 발명은 전적으로 하드웨어 실시예, 전적으로 소프트웨어 실시예 또는 소프트웨어와 하드웨어 양태를 조합한 실시예의 형태를 취할 수 있다. 그러므로, 아래의 상세한 설명은 제한적인 의미로 받아들여서는 안 된다.

일부 실시예에서, 본 개시는 음악, 팟캐스트, 운동, 명상, 종교 행사 등의 오디오를 포함하는 오디오를 경험하는 몰입형 방식을 사용자에게 제공할 수 있는 시스템 및 방법을 설명한다. 본 시스템은 음악 및 기타 데이터 입력을 하나 이상의 소스로부터 수신하고, 사용자의 가정 또는 차량, 사무실, 체육관, 식당 등의 다른 적절한 장소의 하나 이상의 시청각 구성요소에 지시를 출력할 수 있는 사용자 컴퓨팅 디바이스에서 동작가능한 애플리케이션 또는 기타 소프트웨어일 수 있는 몰입형 경험 소프트웨어를 제공하는 것을 포함할 수 있다. 일부 실시예에서, 경험은 라이브 음악 이벤트에 참여하는 것을 시뮬레이션할 수 있거나, 가정에서 전통적으로 달성할 수 있는 것보다 더 감각적인 몰입형 경험을 제공하는 오디오에 근간이 되는 감각적인 입력을 제공할 수 있다. 일부 실시예에서, 시스템은 고유한 몰입형 청취 경험을 제공할 수 있는 커스텀 조명 및 미디어 설계를 아티스트 및 다른 사용자가 더 쉽게 생성할 수 있는 대화형 기회를 포함할 수 있다.

가정에서 라이브 음악 경험을 시뮬레이션하거나 음악과 관련된 다른 감각적인 경험을 제공하고자 하는 전통적인 시스템은 센서/마이크로폰을 통해 수신되는 음악의 비트에 기초하여 반응하는 하드웨어 디바이스를 사용할 수 있다. 그러나 이러한 시스템은 노래의 템포/BPM, 무드, 키, 에너지, 비트, 마디, 악구, 호응 구조, 악기, 보컬 등에 대한 이해가 거의 없거나 전혀 없으므로, 동기화된 및/또는 커스터마이징된 조명 설계를 포함할 수 있는 전문가, 커스텀 설계 음악 이벤트와 같은 것을 정확하게 에뮬레이트하지 못한다.

이를 개선하기 위해, 일부 실시예에서, 본 시스템은 예를 들어, 음악 스트리밍 서비스 또는 디지털 서비스 제공자(DSP)(예를 들어, Amazon Music, Apple Music, Spotify, YouTube 등) 또는 기타 오디오 소스로부터 오디오 스트림을 수신하고, 특정 노래의 특성에 기초하여 시각적 효과 및 기타 효과를 제공할 수 있는 디지털 데이터 스트림을 오버레이하며, 결과 데이터를 스마트 L.E.D. 조명, 스피커, 레이저, 프로젝터 등과 같은 적절한 하드웨어 디바이스로 발송할 수 있는 소프트웨어 애플리케이션을 포함할 수 있다. 일부 실시예에서, 데이터 스트림은 스트림 유형(예를 들어, 노래, 팟캐스트, 운동 등), BPM(beats per minute), 음악 키, 장르, 아티스트, 앨범, 에너지 등을 포함할 수 있다. 스트림은 제1 비트, 마디, 악구, 씬, 및 음악 요소를 포함할 수 있는 스트림 시간 코드를 가질 수 있다. 씬은 인트로, 벌스, 코러스, 빌드업, 드롭, 브릿지, 아웃트로 등을 포함할 수 있다. 음악 요소는 예를 들어, 드럼, 악기, 보컬, 가사, 멜로디 등을 포함할 수 있다. 일부 실시예에서, 시스템은 사용자의 일부에 필요한 추가 입력이나 음악 기술이 거의 없거나 전혀 없이 동작할 수 있어 실감나는 경험이 가상으로 누구나 달성될 수 있다. 일부 실시예에서, 개시된 시스템은 인공 지능(AI), 머신 러닝, 및/또는 기타 디지털 처리 기술을 사용하여 디지털 데이터 스트림을 생성하여 음악 또는 기타 미디어에 접근하기 위한 개선된 A/V 환경을 생성할 수 있는 하드웨어 및/또는 소프트웨어 자원을 포함할 수 있다.

소프트웨어 애플리케이션은 여러 가지 데이터 유형과 그들의 상호 작용을 사용하여 본 명세서에서 설명하는 실감 효과를 생성할 수 있다. 일부 실시예에서, 주요 데이터 유형은 음악 분석, 바이브, 픽스처일 수 있다. 음악 분석 데이터 유형은 시간 영역 및 주파수 영역 특성, 스펙트럼 분석, 크로마 특성, 하모닉 비, 멜-주파수 캡스트럼 계수를 포함하나 이에 한정되지 않는 표현 애그노스틱 방식으로 음악 트랙의 중요한 특징을 포함할 수 있다. 일부 제시 인접 정보는 우선순위를 부여하고 픽스처에 배정할 수 있는 방법을 안내하기 위해 트랙 내의 가장 중요한 스템(예를 들어, 보컬 스템)을 설명하는 등으로 포함될 수 있다. 픽스처 데이터 유형은 출력 집합 및 그 어드레서블 프로퍼티 또는 능력을 설명할 수 있다. 이들은 거의 무엇이든 가능할 수 있지만, 일부 카테고리는 조명(예를 들어, Hue, Nanoleaf, LiFX 등), (예를 들어, 두피 마사지기, 매직 완드, 제스처 글로브 등), 시각화기(예를 들어, TV 스크린, VR 헤드셋, 소프트웨어 시각화기에 의해 노출되는 프로퍼티 등)를 포함한다. 일부 실시예에서, 물리적 조명들 및/또는 디바이스들은 그룹으로 편성되어 미디어 환경 또는 공간 내의 구역들에 배정될 수 있다. “바이브” 데이터 유형은 하드웨어 구성 프로퍼티, 시간 코딩된 지시/이벤트, 및 기타 메타데이터를 포괄할 수 있다. 바이브는 바이브 생성자(인간 또는 AI)의 제작 출력을 캡슐화할 수 있고, 음악 분석 데이터를 시각적 애니메이션 및 표현(예를 들어, 시간에 따른 색상 전환, 픽스처 회전, 밝기)과 함께, 픽스처 및 프로퍼티의 세트에 바인딩하는 역할을 할 수 있다. 일부 실시예에서, 바이브는 음악 트랙(커스텀 바이브 제외)과, 임의의 주어진 사용자나 환경이 이용가능한 특정 A/V 픽스처 둘 모두에 완전히 애그노스틱일 수 있다. 일부 실시예에서, 바이브는 유니버설 또는 커스텀일 수 있다. 유니버설 바이브는 가상으로 임의의 음악 트랙에 적용되도록 설계될 수 있는 한편, 커스텀 바이브는 단일 트랙에 특정될 수 있다. 일부 실시예에서, 커스텀 트랙은 시간 기반 트리거, 애니메이션, 또는 기타 설정을 포함할 수 있다. 웹 애플리케이션, 모바일 애플리케이션 등일 수 있는 소프트웨어 애플리케이션(즉, "클라이언트")은 분석 데이터에 기초하여 바이브 바인딩을 해석할 수 있고, 사용자 선호도 및/또는 재정의(예를 들어, 상이한 색상 스킴)를 조정할 수 있고, 결과를 실질적으로 실시간으로 픽스처에 맵핑할 수 있다. 소프트웨어 애플리케이션의 사용자는 또한, 색상 범위(예를 들어, 색상환을 이용), 강도(예를 들어, 펄스(로 콘트라스트) 대신 플래시(하이 콘트라스트)를 더 많이 사용하는 등의 경험의 "콘트라스트", 및/또는 밝기(예를 들어, 전체 경험의 밝기)를 조정함) 등의 커스텀 조정을 할 수도 있다.

일부 실시예에서, 이러한 시스템을 사용하는 방법은 오디오 스트림에서 드럼, 베이스, 리드, 보컬, 멜로디, 악기 등을 별도의 채널로 분리하는 것과 각 채널을 고유한 하드웨어 디바이스에(예를 들어, 드럼을 레이저 및 스트로브 조명에, 보컬을 LED 조명에 등) 배정하는 것을 포함할 수 있다. 일부 실시예에서, A/V 하드웨어를 제어할 수 있는 디지털 데이터 스트림(예를 들어, 실제 또는 가상 중 어느 하나의 스마트 조명 및/또는 경험 디바이스)은 음악 또는 다른 오디오를 작사/작곡/공연한 실제 아티스트에 의해 제공될 수 있거나, 아티스트와 함께 작업하는 사운드/조명 설계자로부터 올 수 있다. 예를 들어, 음악 아티스트는 과거에 라이브 콘서트에 조명 및 기타 시각적 효과의 특정 세트를 사용했을 수 있고, 그 공연에 대한 데이터가 유사한 방식으로 시스템의 하드웨어를 제어하기 위해 데이터 스트림으로 변환될 수 있다. 대안적으로(또는 추가적으로), 본 방법은 머신 러닝 또는 다른 인공 지능 기술을 사용하여 개발된 데이터 스트림을 생성하여 사용하는 단계를 포함할 수 있다. 예를 들어, 머신 러닝은 이력적으로 대응되는 시각화 데이터와 함께 노래 데이터를 분석하여 하드웨어를 제어하기 위한 시각화 데이터를 온라인으로 개발하거나 각 노래 또는 녹화된 성능에 대해 저장 및 분류할 수 있는 알고리즘을 개발하는데 적용될 수 있는 알고리즘을 개발하는데 사용될 수 있다.

일부 실시예에서, 본 시스템은 사용자에게 그 장비를 제어하는 소프트웨어와 함께 사용될 다양한 레벨의 A/V 하드웨어(실제 또는 가상 중 어느 하나)와 함께 키트로서 제공될 수 있거나, 존재할 수 있거나 이용가능해질 수 있는 상이한 유형의 하드웨어 디바이스와 호환가능할 수 있는 순수 소프트웨어로서 제공될 수 있다. 일부 실시예에서, 사용자는 하나 또는 두 개의 스피커 또는 조명에서, 보다 복합적인 조명, 사운드, 햅틱, 및 기타 감각적인 입력 장비까지, 더 견고하거나 덜 견고한 A/V 장비 또는 픽스처를 사용하여 개시된 시스템 및 방법을 구현할 수 있다. 개시된 시스템은 사용자의 특정 A/V 셋업에 기초하여 출력을 스케일링할 수 있도록 유연할 수 있으며, 추가 장비가 제공될 수 있는 경우/때로 A/V 셋업을 스케일링할 수 있도록 할 수 있다.

시청각 환경

도 1은 사용자(52)를 대신하여 본 명세서에서 개시된 시스템 및 방법을 구현할 수 있는 A/V 환경(50)의 일 실시예를 도시한다. A/V 환경(50)은 스트로브 조명(60), 스피커(73), TV 모니터나 기타 스크린(62), 주변 조명(65), L.E.D. 조명(70), 레이저(72), 3D 및 비디오 프로젝터(75), 가상 현실 고글(80), 헤드 마사지기(83), 스폿 및 헤드 가동 조명(85) 등 다양한 A/V 장비나 픽스처(54)를 포함할 수 있다. 당업자라면 본 발명의 범위 내에서 추가적인 A/V 장비를 추가적으로 사용할 수 있으며, 보다 단순하고 복잡한 조명 및 사운드 시스템이 사용될 수 있음을 인식할 것이다. 추가적으로, A/V 환경은 실질적으로 현실 세계 하드웨어로 구성될 수 있지만, 일부 실시예에서, A/V 환경은 3D 시뮬레이션된 가상 환경에 존재할 수 있는 것과 같이 가상 A/V 장비를 전부 또는 실질적으로 전부 포함할 수 있다. A/V 환경(50)은 사용자 컴퓨팅 디바이스(55)를 포함할 수도 있으며, 스마트폰, 태블릿, 랩탑, 데스크탑, 몰입형 경험 소프트웨어를 실행할 수 있는 기타 적절한 컴퓨팅 디바이스일 수 있다. 일부 실시예에서, 컴퓨팅 디바이스(55) 및/또는 A/V 장비(54)는 하나 이상의 원격 클라우드 서버(100)와 직접 또는 홈 허브(90)와 같은 홈 허브를 통해 통신할 수 있다. 일부 실시예에서, 홈 허브(90)는 A/V 장비(54), 컴퓨팅 디바이스(55), 원격 클라우드 서버(100)와 통신하도록 특별히 구성된 컴퓨팅 디바이스일 수 있다. 일부 실시예에서, 홈 허브(90)는 컴퓨팅 디바이스(55)를 대신하여 A/V 장비 및/또는 원격 서버(100)와의 통신을 핸들링하거나, 컴퓨팅 디바이스가 A/V 장비 및/또는 원격 서버(100)와 직접 통신할 수 있다. 클라우드 서버(100)는 예를 들어, 분석, 머신 러닝, 또는 기타 인공 지능 기술로부터 이전에 제작된 특정 노래, 공연, 오디오 이벤트 등에 대응할 수 있는 A/V 데이터의 데이터베이스를 저장 및 업데이트할 수 있다. 예를 들어, 원격 클라우드 서버(100)는 과거 콘서트 공연에 관한 조명 및 사운드 설계 데이터와 요청에 따라 컴퓨팅 디바이스(55)로 스트리밍 또는 다운로드될 수 있는 파일의 데이터베이스를 포함할 수 있다. 일부 실시예에서, 클라우드 서버는 A/V 장비에 대한 실시간 분석 및 온더플라이(on-the-fly) 생성 시각 데이터를 제공할 수 있다.

일부 실시예에서, A/V 장비(54)는 무선 연결을 통해 컴퓨팅 디바이스(55)와 개별적으로 통신할 수 있다. 일부 실시예에서, A/V 장비(54)는 통상의 와이파이 네트워크 또는 다른 무선 연결(예를 들어, 블루투스, NFC(near field communication), RF(radio frequency), 4G/5G, 802.11a/b/g 등)과 같은 근거리 통신망(LAN)을 통해 컴퓨팅 디바이스(55) 및/또는 홈 허브(90)와 통신할 수 있다. 일부 실시예에서, A/V 장비(54)의 일부 또는 전부는 A/V 수신기(95)에 대한 무선 또는 유선 연결을 포함할 수 있으며, 이는 몰입형 경험 애플리케이션으로부터의 지시에 기초하여 송신된 오디오, 비디오 및 데이터 파일을 수신하기 위해 컴퓨팅 디바이스(55)와 통신할 수 있다. 일부 실시예에서, 사용자 컴퓨팅 디바이스(55)는 A/V 장비(54)를 통해 제공되는 사운드, 비디오, 오디오, 조명을 제어할 수 있다. 일부 실시예에서, A/V 환경(50)은 A/V 장비(54)를 통해 제공되는 사운드, 비디오, 오디오, 조명 등을 제어할 수 있는 물리적 제스처를 만들기 위해 사용될 수 있는 보조 입출력 디바이스(90)를 포함할 수 있다. 일부 실시예에서, 보조 입출력 디바이스(90)는 블루투스 또는 다른 무선 연결을 통해 컴퓨팅 디바이스와 통신할 수 있거나, 컴퓨팅 디바이스 자체가 보조 입출력 디바이스로서 작용할 수 있다. 일부 실시예에서, 사용자는 A/V 장비(54)에 의해 생성된 오디오 및 시각적 출력의 강도 및 유형을 제어하기 위해 컨덕터의 완드와 같은 보조 입출력 디바이스(90)를 사용할 수 있다. 일부 실시예에서, 보조 입출력 디바이스(90)는 3축 자이로스코프와 적외선 신호를 갖는 블루투스 완드일 수 있다. 디바이스(90)는 예를 들어, 음악이나 다른 오디오의 다른 특정 부분, 이를테면 가수의 음성, 기타 솔로 등 포커싱하기 위해 보컬, 드럼, 또는 악기 레이어를 증폭하거나 음소거하는 데 사용될 수 있다. 일부 실시예에서, 사용자의 신체 움직임, 댄스 및/또는 손 제스처는 A/V 장비(54)를 통해 제공되는 사운드, 비디오, 오디오, 조명을 제어하기 위해 자신의 장비(55) 또는 다른 하드웨어 디바이스 상의 카메라에 의해 촬영될 수 있다.

데이터 흐름 및 처리

본 개시로부터 명백한 바와 같이, 본 명세서에서 설명된 몰입형 음악 시스템은 상당히 최소의 사운드 및 시각 시스템에서 복잡한 조명 및 다른 특수 효과로, 가상으로 임의의 A/V 환경, 또는 VR/AR 하드웨어, 또는 다른 컴퓨팅 하드웨어를 통해 접근되는 3D 가상 환경에서 제시되는 임의의 가상화된 환경에서 사용될 수 있다. 이러한 환경에서는 최종 경험이 다를 수 있지만, 데이터 흐름을 핸들링하고 이러한 경험을 생성하는 시스템 및 방법은 많은 양태에서 실질적으로 유사하거나 사실상 동일할 수 있다.

도 2a 및 도 2b는 본 명세서에서 개시된 몰입형 오디오 시스템(200)에서 다양한 구성요소를 통해 데이터가 어떻게 흐를 수 있는지에 대한 실시예를 나타내는 데이터 흐름도이다. 일부 실시예에서, 다이어그램에 표현된 데이터는 인터넷, 셀룰러 네트워크, 로컬 네트워크 등과 같은 임의의 적절한 네트워크를 통해 송신될 수 있다. 또한, 데이터 흐름은 하나 이상의 네트워크를 통해 연결될 수 있는 컴퓨팅 디바이스(55) 또는 클라우드 서버(100)와 같은 하나 이상의 컴퓨팅 디바이스 내에서 발생할 수 있다. 일부 실시예에서, 몰입형 오디오 시스템에 의해 사용되는 컴퓨팅 환경을 구성하는 특정 컴퓨터 또는 서버는 몰입형 오디오 시스템 또는 그의 구성요소를 실행하도록 특별히 설계될 수 있다.

본 명세서에서 개시된 몰입형 오디오 시스템(200)에서 참조되고 사용되는 바이브는 하드웨어/픽스처 구성 프로퍼티, 시간 코딩된 지시/이벤트, 및 몰입형 오디오 에코시스템에 사용되는 기타 메타데이터를 포함하는 경험 데이터 컨테이너를 포함하나 이에 한정되지 않는 시스템에 의해 기능하는 다수의 데이터 유형들 및 데이터 세트들을 포함할 수 있다. 도 2a를 참조하면, 일부 실시예에서, 시스템에 의해 사용되는 메타데이터 및 기타 데이터, 특히 메타데이터 추출기/임포터(206)는 아티스트 업로드 음악(201), 스트리밍 서비스 또는 DSP(202), DJ 소프트웨어 애플리케이션(203), 라이브 이벤트 스트림(204), 또는 아티스트 또는 사용자 생성 바이브 데이터(205)와 같은 다양한 데이터 소스 중 하나로부터 데이터를 검색하여 생성할 수 있다. 물론, 다른 시청각/미디어 데이터 소스도 본 개시와 일치하여 사용될 수 있음을 당업자는 인식할 것이다. 이러한 소스 각각으로부터의 데이터는 처리될 메타데이터 추출기/임포터(206)로 흘러갈 수 있다.

아티스트 업로드 음악(201)은 몰입형 오디오 시스템(200) 에코시스템에 호스팅되는 오디오 라이브러리 데이터스토어(219)에 저장될 수 있다. 일부 실시예에서, 몰입형 오디오 시스템(200) 또는 몰입형 오디오 애플리케이션은 아티스트가 자신의 음악 또는 기타 미디어를 오디오 라이브러리 데이터스토어(219)에 업로드하여 몰입형 오디오 시스템이 자신의 음악에 기초하여 바이브 데이터를 생성할 수 있도록 할 수 있다. 일부 실시예에서, 몰입형 오디오 시스템은 아티스트가 음악 또는 기타 미디어를 몰입형 오디오 시스템(200)에 의해 사용될 수 있도록 제공하는 API(Application Programming Interface)를 포함할 수 있다. 가상의 임의의 오디오 스트리밍 소스 또는 서비스(202), 라이브러리 또는 컨텐츠 전달 시스템(CDN)으로부터의 음악 및 오디오도 분석하여 바이브 데이터를 생성할 수 있다. 일부 실시예에서, 오디오는 사용자가 오디오 선택을 할 수 있는 하나 이상의 온라인 스트리밍 서비스, 음악 데이터베이스, 팟캐스트, 기타 오디오 애플리케이션 등으로부터 분석될 수 있다. 일부 실시예에서, 이는 Spotify, Amazon Music, Apple Music 등과 같은 스트리밍 서비스(202)일 수 있거나, 사용자 자신이 저장한 오디오 라이브러리일 수 있다. 일부 실시예에서, 오디오 스트림 데이터는 인증될 수 있고, 스트리밍 서비스 또는 기타 오디오 소스로부터 추출된 아티스트, 오디오 유형, 노래, 장르, 가사, 앨범, API 등과 같은 메타데이터일 수 있다. 일부 실시예에서, 데이터는 Pioneer Rekordbox와 같은 DJ 소프트웨어 애플리케이션 플랫폼(203)으로부터 수신될 수 있다. 일부 실시예에서, 임의의 소스(201-205)로부터 접근된 데이터는 시퀀싱된 조명 설계 데이터, 디지털 멀티플렉스(DMX) 데이터, 또는 기타 적절한 형태의 데이터일 수 있다. 라이브 이벤트 스트림(204)으로부터의 데이터는 음악 콘서트, 스포츠 또는 e스포츠, 운동, 시어터, 종교 의식 등과 같은 오디오를 포함하는 다양한 라이브 이벤트 유형 중 어느 하나에 대한 것일 수 있다. 일부 실시예에서, 라이브 이벤트 데이터는 조명, 레이저, 포그 머신, 파이로테크닉스, 비디오 스크린 등을 혼합함으로써 조성되는 원하는 무드 및 느낌과 같은 이벤트의 조명 및 사운드 설계의 양상을 반영할 수 있다.

오디오 라이브러리 데이터스토어(219) 또는 스트리밍 서비스(202)로부터의 오디오는 몰입형 오디오 시스템에 의해 소화될 수 있는 형태로 제공될 수 있고, 바이브 및 로직(V+L) 알고리즘과 같은 알고리즘을 사용하여 처리될 수 있다. 일부 실시예에서, V+L 알고리즘을 사용하여 실질적으로 임의의 개수의 노래 및 오디오 소스/스트림에 대한 오디오를 분석하여 시간 코딩된 데이터를 추출할 수 있다. 일부 실시예에서, 보컬, 악기, 및 드럼 채널들 등 다양한 채널들을 분리하고 개별적으로 또는 집합적으로 분석할 수 있다. 추출된 데이터는 바이브 데이터베이스(209), 오디오 라이브러리 데이터스토어 또는 임의의 적절한 저장 매체에 저장될 수 있다. 예를 들어, V+L 알고리즘은 트랙 키, BPM(beats per minute), 장르, 비트 그리드, 노래 악구 및 구조(인트로, 벌스, 빌드업, 드롭, 코러스, 브릿지, 아웃트로) 주파수 그리드, 강도, 에너지 레벨 등의 음악 및 하모닉 데이터를 추출할 수 있다. V+L 알고리즘은 하나 이상의 머신 러닝 또는 인공 지능 엔진을 연동시키는 것을 포함할 수 있다. 일부 실시예에서, 보다 상세히 설명되는 바와 같이, V+L 알고리즘의 출력은 바이브 데이터일 수 있는 데이터 컨테이너일 수 있다.

일부 실시예에서, DJ 애플리케이션 플랫폼(203)으로부터의 스트림 및 조명 데이터는 전환, 변환, 클리닝, 정규화 등을 할 수 있다. 라이브 이벤트 조명 설계 데이터(204)는 V+L 알고리즘과 같은 알고리즘에 의해 분석되어 메타데이터 추출기/임포터(206)에 의해 처리될 수 있는 일관된 포맷으로 데이터를 수용, 클리닝, 정규화 및 변환할 수 있다. 일부 실시예에서, 특정 색상, 스트로브 패턴, 레이저, 스폿 조명 등의 혼합과 같은 키 시퀀스 또는 루프는 이벤트 동안의 리콜을 위한 "씬"으로서 저장될 수 있지만, V+L 알고리즘에 의해서도 추출될 수 있다. 일부 실시예에서, 디지털 멀티플렉스(DMX) 프로토콜을 사용하여 조명, 레이저, 포그 머신 등의 A/V 디바이스를 제어할 수 있다. 일부 실시예에서, 다른 프로토콜을 사용하여 A/V 디바이스를 제어할 수 있다. 일부 실시예에서, V+L 알고리즘을 사용하여 DMX 또는 다른 데이터를 분석하여 일관되고 사용가능한 형태로 변환할 수 있다. 일부 실시예에서, V+L 알고리즘에 의해 분석된 라이브 이벤트 데이터(204)는 V+L 알고리즘에 의해 분석된 노래에 대응되는 라이브 이벤트를 위한 것일 수 있으며, 이에 따라 적절한 노래 데이터에 대응될 수 있다.

사용자 또는 아티스트에 의해 생성된 바이브 시퀀스 데이터(205)는 바이브 및 로직 경험 빌더 애플리케이션에 의해 제공될 수 있다. 일부 실시예에서, 특정 아티스트, 노래, 장르, 공연, 또는 다른 오디오 이벤트를 위한 바이브 시퀀스가 아티스트, 팬 또는 다른 당사자에 의해 생성될 수 있다. 일부 실시예에서, 바이브 시퀀스가 오디오 이벤트에 관여하는 아티스트 또는 다른 공연자가 공연하게 제공될 수 있다. 일부 실시예에서, 경험 빌더 애플리케이션을 사용하여 바이브 시퀀스를 오디오 이벤트를 생성, 저장 및/또는 업로드할 수 있다. 일부 실시예에서, 각 바이브 시퀀스는 특정 오디오 이벤트와 관련되거나 아티스트, 장르, 또는 다른 오디오 퍼포먼스 카테고리와 관련된 조명 또는 다른 감각적인 경험의 자신의 스타일을 제공할 수 있다.

오디오 메타데이터 추출기/임포터(206)는 오디오 라이브러리 데이터스토어(219), 스트리밍 서비스(202), DJ 소프트웨어 또는 DMX 데이터(203), 라이브 이벤트 DMX 스트리밍 데이터(204)로부터 데이터를 수신할 수 있다. 일부 실시예에서, 오디오 메타데이터 추출기/임포터는 특히, 비트 그리드, 테이텀, 단락, 마디, 비트, BPM, 음악 키, 악기, 보컬, 가사, 편곡 멜로디, 드럼, 에너지, 노래 인트로, 빌드업, 코러스, 드롭 등을 포함할 수 있는 시간 코딩된 메타데이터를 추출할 수 있다. 일부 실시예에서, 오디오 메타데이터 추출기/임포터는 오디오 이벤트로부터 보컬, 악기, 드럼 채널을 실시간으로 분리할 수 있다. 일부 실시예에서, 메타데이터 추출기/임포터(206)는 하나 이상의 인공 지능 또는 머신 러닝 엔진을 포함할 수 있으며, 본 명세서의 도 7과 관련하여 보다 상세히 설명한 바와 같이 데이터를 처리 및 추출할 수 있다.

일부 실시예에서, 메타데이터 추출기/임포터(206)가 수행한 노래 분석으로부터의 시간 코딩된 데이터와 임의의 정규화된 라이브 이벤트 설계 데이터는 머신 러닝 또는 다른 인공 지능 훈련 및 경험 설계에 사용하기 위한 노래 분석 오디오 데이터로서 원시 및 라벨링된 데이터스토어(207)에 저장될 수 있다. 이 데이터는 대안적으로, 또는 추가적으로, 원격 클라우드 서버(100)와 같은 하나 이상의 서버 상의 바이브 데이터베이스(209)에 저장되거나, 다른 적합한 위치에 저장될 수 있다. 일부 실시예에서, 노래 분석된 오디오 데이터는 바이브 큐레이터 AI 시스템(208)에 의해 큐레이팅될 수 있다. 일부 실시예에서, 바이브 큐레이터 AI 시스템(208)은 특정 유형의 음악 또는 오디오 무드, 음악, 장르, 빌드업 등에 적합할 수 있는 시각적 패턴, 색상 테마, 모션 및 리듬 패턴, 텍스트, 이모지 등을 결정하기 위해 머신 러닝 기법을 채용할 수 있다. 바이브 큐레이터 AI 시스템(208)은 또한, 노래 ID, 능동 디바이스, 메타데이터, 및 가사 데이터를 그 분석에 통합할 수 있다. 일부 실시예에서, 바이브 큐레이터 AI 시스템(208)의 한 가지 목표는 DJ, 사운드 설계자, 조명 설계자 등에 의한 이력적 라이브 이벤트 및 공연으로부터 어떻게 특정 유형의 조명 및 다른 효과가 음악적 또는 다른 오디오 경험을 향상시키기 위해 적용될 수 있는지 학습하는 것일 수 있다. 그러면 바이브 큐레이터 AI 시스템(208)은 노래나 다른 오디오를 분석하고 적절한 효과를 적용함으로써 그러한 기술을 사실상 어떤 노래에도 적용할 수 있다. 일부 실시예에서, 바이브 큐레이터 AI 시스템(208)은 오디오 스트림 컨텐츠와 사용자가 이용가능한 A/V 장비 또는 픽스처를 기반으로 실제이든 가상적이든 감각적인 몰입형 경험을 예측하고 설계할 수 있다. 일부 실시예에서, 바이브 큐레이터 AI 시스템(208)은 패턴, 색상, 테마, 모션, 리듬, 텍스트, 이모지 등으로 구성될 수 있는 "씬" 및 루프를 생성할 수 있다. 바이브 큐레이터 AI 시스템(208)은 그 다음에 특정 오디오 이벤트에 기초하여 적절하다고 결정된 바와 같이 하나 이상의 A/V 장비를 통해 특정 씬 또는 루프를 개시할 수 있다. 일부 실시예에서, 씬 또는 루프는 비디오 파일 형식을 통해 하드웨어 구성요소 사이에 저장되어 송신될 수 있다. 일부 실시예에서, 메타데이터 추출기(206), 원시 및 라벨링된 데이터스토어(207), 바이브 큐레이터 AI 시스템(208)은 A/V 장비 구성요소 자체를 포함하는 클라우드 서버(100)와 같은 다수의 하드웨어 구성요소들 및/또는 서버 구성요소들에 걸쳐 존재할 수 있다.

일부 실시예에서, 바이브 데이터베이스(209)는 바이브 + 로직 경험 빌더 애플리케이션을 통해 아티스트 또는 사용자에 의해 생성된 바이브 시퀀스 데이터(205)로부터 그리고/또는 바이브 큐레이터 AI 시스템(208)으로부터 출력을 수신할 수 있다. 일부 실시예에서, "바이브"는 픽스처 맵핑 특성, 시간 코딩된 지시/이벤트, 및 몰입형 오디오 경험을 제공하기 위해 시스템에 의해 사용될 수 있는 다른 메타데이터를 포함할 수 있는 경험 데이터 컨테이너일 수 있다. 일부 실시예에서, 바이브 데이터베이스(209)는 바이브를 저장할 수 있고, 예를 들어, 도 1에 도시된 원격 클라우드 서버(100)와 같은 원격 클라우드 서버에 저장될 수 있다. 일부 실시예에서, 바이브 데이터베이스(209)는 오디오 이벤트, 오디오 녹음/스트림 또는 오디오 이벤트 또는 스트림의 일부가 바이브로서 하나 이상의 옵션을 가질 수 있도록 스트림 식별자(ID)당 다수의 "바이브"를 저장할 수 있다. 일부 실시예에서, 바이브, 유니버설 바이브, 바이브 믹스, 및 몰입형 오디오 경험을 제공하기 위해 사용되는 다른 데이터는 스트림에 걸쳐 용도 변경될 수 있다.

일부 실시예에서, 몰입형 오디오 시스템(200)은 바이브가 구매, 판매, 교환, 샘플링 등이 될 수 있는 바이브 마켓플레이스(221)를 포함하거나 호스팅할 수 있다. 일부 실시예에서, 바이브를 생성하는 사용자 또는 아티스트는 이를 배포, 판매 또는 다른 방식으로 타인에게 이용가능하게 하기를 원할 수 있다. 일부 실시예에서, 바이브 생성자는 바이브 소지자에게 혜택을 제공할 수 있는 대체 불가능 토큰(NFT)(223)으로서 바이브를 민팅(minting)하기로 결정할 수 있다. 바이브 마켓플레이스(221)는 실제 또는 가상 세계 중 어느 하나에서 소지자에게 특권을 부여할 수 있는 바이브 NFT의 판매를 통해 아티스트가 팬에게 혜택을 제공할 수 있는 거래소를 제공할 수 있다. 당업자는 바이브 NFT(223) 또는 바이브 마켓플레이스(221)의 다른 용도가 본 개시의 범위에 부합하는 것으로 고려될 수 있음을 이해할 것이다.

일부 실시예에서, 바이브 데이터베이스(209)는 바이브 매니저(210)와 인터페이싱할 수 있다. 일부 실시예에서, 바이브 매니저(210)는 원격 클라우드 서버(100) 또는 다른 서버 위치와 같은 원격 서버에 호스팅될 수 있다. 일부 실시예에서, 바이브 매니저(210)는 바이브 데이터베이스(209) 또는 다른 시스템 피처에 접근하는 사용자를 위해 바이브 + 로직 플레이어 애플리케이션을 통해 인증 서비스를 제공할 수 있다. 바이브 매니저(210)는 디바이스 구성, ID 매칭, 디바이스 관리, 씬, 스토리, 비디오, 오디오 유형 등에 대한 접근을 제공할 수 있다. 바이브 매니저(210)는 또한 바이브 데이터베이스(209)를 통해 제공되는 다운로드가능한 컨텐츠(DLC)의 구매 및/또는 구독을 관리할 수 있다. 일부 실시예에서, 사용자가 바이브 데이터베이스(209) 상의 컨텐츠에 대한 접근을 요청할 때, 바이브 매니저(210)는 허가, 결제, 인증을 관리하기 위한 게이트키퍼로서 동작할 수 있다.

일부 실시예에서, 스트림 매니저(211)는 사용자의 컴퓨팅 디바이스에서 실행될 수 있는 바이브와 로직 플레이어 애플리케이션, 및 사용자가 오디오, 비디오 또는 게임 선택을 할 수 있는 하나 이상의 온라인 스트리밍 서비스, 음악 데이터베이스, 팟캐스트, 기타 시청각 애플리케이션 등 간의 접근을 관리할 수 있다. 일부 실시예에서, 이는 Spotify, Amazon Music, Apple Music 등과 같은 스트리밍 서비스(202)일 수 있다. 일부 실시예에서, 스트림 매니저(211)는 오디오 스트림 데이터를 인증할 수 있고, 스트리밍 서비스 또는 기타 오디오 소스로부터 아티스트, 오디오 유형, 노래, 장르, 가사, 앨범, API 등과 같은 메타데이터를 추출할 수 있다. 일부 실시예에서, 스트림 매니저(211)는 스트리밍 서비스(202)에 대한 접근을 위한 인증 서비스 및 ID 매칭을 제공할 수 있다. 또한, 스트림 매니저(211)는 바이브 데이터베이스(209) 내의 어느 바이브가 선택된 오디오 스트림에 대한 감각적인 몰입형 경험을 가장 잘 제공할 수 있는 지를 조정하기 위해 데이터를 바이브 매니저(210)와 공유할 수 있다. 일부 실시예에서, 바이브 및 로직 API 게이트웨이(212)는 바이브를 실행하는 사용자 컴퓨팅 디바이스와 애플리케이션 로직 및/또는 홈 허브 간의 데이터 통신을 핸들링할 수 있다.

이제 도 2b를 참조하면, 바이브 매니저(210) 및 스트림 매니저(211)로부터의 데이터가 바이브를 실행하는 사용자 컴퓨팅 디바이스(예를 들어, 컴퓨팅 디바이스(55))와 로직 플레이어 애플리케이션(213) 간에 교환될 수 있다. 일부 실시예에서, 플레이어 애플리케이션(213)은 수신된 데이터를 해석하거나 적용할 수 있고, 음성, 악기 또는 드럼 채널을 A/V 장비(54)와 같은 고유 디바이스들에 동적으로 배정할 수 있다. 일부 실시예에서, 플레이어 애플리케이션(213)은 바이브 데이터베이스(209)로부터 수신되거나 기타 저장된 데이터를 고려하여 이들 채널을 분석할 수 있도록 보컬, 악기 및 드럼 채널들을 실시간으로 분리할 수 있다. 일부 실시예에서, 이 채널 분리는 바이브 매니저(210)에 의해 수행될 수 있고, 바이브 큐레이터 AI(208) 또는 메타데이터 추출기(206)에 의해 수행될 수 있고, 플레이어 애플리케이션(213) 대신 수행될 수 있다고 생각된다. 이러한 채널 배정은 A/V 장비(54)의 고유한 디바이스에 각 채널을 동적으로 배정할 수 있는데, 예를 들어, 드럼은 스트로브 조명과 레이저에 배정될 수 있고, 보컬은 LED 조명에 배정될 수 있으며, 악기는 레이저에 배정될 수 있다. 물론, 동적 배정은 특정 오디오 이벤트에 대해 선택된 바이브에 의해 지시될 수 있는 장르, 무드 등과 같은 오디오 데이터에 기초하여 달라질 수 있다. 이에 따라, 애플리케이션은 LED 조명, 스트로브 조명, 스폿 조명, 레이저, 2D 또는 3D 프로젝터, 증강 현실(AR) 또는 가상 현실(VR) 디바이스, 스마트 모니터 또는 디스플레이 등과 같은 A/V 장비(54)에 걸친 채널, 색상, 패턴 및 움직임을 동기화할 수 있다. 이렇게 함에 있어서, 플레이어 애플리케이션은 현실 세계 또는 가상 환경에서 가상의 노래를 사용자에게 실감 음악 또는 기타 오디오 경험을 사용자에게 제공할 수 있다. 일부 실시예에서, 플레이어 애플리케이션의 인터페이스는 적절한 하드웨어를 사용하여 가상 또는 증강 현실을 통해 관리되거나, 사용자와 플레이어 애플리케이션(213) 플랫폼 간의 인터페이스를 제공하는 임의의 다른 적합한 미디어 디바이스를 통해 관리될 수 있다.

일부 실시예에서, 시스템(200)은 스트림 매니저(211)와 바이브 매니저(210)와 데이터를 교환할 수 있는 바이브 및 로직 "컨덕터" 허브(214)를 포함할 수 있으며, A/V 장비(54)에 지시를 제공할 수 있다. 일부 실시예에서, 시스템은 사용자 컴퓨팅 디바이스에서 플레이어 애플리케이션(213)과 독립적으로 동작할 수 있는 컨덕터 허브(예를 들어, 도 1의 홈 허브(90))를 포함할 수 있고, 일부 실시예는 컨덕터 허브를 전혀 포함하지 않고 대신 A/V 장비와 바이브 매니저(210) 간의 모든 데이터를 플레이어 애플리케이션을 통해 통신할 수 있다. 일부 실시예에서, 사용자는 플레이어 애플리케이션(213)을 통해 오디오 이벤트, 바이브, 프리뷰 바이브, 구매 DLC 등을 선택하는 인터페이스에 접속할 수 있으나, 오디오 이벤트가 선택되면 컨덕터 허브(214)는 스트림 매니저(211)와 바이브 매니저(210)가 교환하는 데이터를 기반으로 A/V 장비(54)에게 지시하는 것을 능동적으로 관리할 수 있다. 당업자라면 본 개시의 범위 내에서도 플레이어 애플리케이션(213)과 컨덕터 허브(214) 간에 다른 작업 분리가 발생할 수 있음을 인식할 수 있다.

일부 실시예에서, 바이브 매니저(210)는 스트림 매니저(211)를 통해 제공되는 오디오 이벤트를 바이브 데이터베이스(209)에 저장된 기 분석된 오디오 데이터를 갖는 이벤트로 인식할 수 있다. 이러한 실시예에서, 바이브 매니저(210)는 A/V 장비(54)를 제어하기 위해 그 오디오 선택에 대한 정규화된 오디오 이벤트 데이터를 적용할 수 있다. 일부 실시예에서, 바이브 매니저(210)가 선택된 오디오 이벤트를 저장된 오디오 데이터로서 인식할 수 없다면, 바이브 매니저(210)는 바이브 큐레이터 AI 시스템(208)에 의해 사용된 머신 러닝 과정으로부터 학습된 시각적 패턴, 색상 테마, 모션 및 리듬 패턴, 씬 등을 적용할 수 있다. 일부 실시예에서, 바이브 매니저(210)는 스트림 매니저(211)로부터 오디오 선택을 위한 메타데이터를 수신하고, 이를 사용하여 어떤 효과, 테마 및/또는 바이브가 개시될지 결정하고, 이에 따라 플레이어 애플리케이션(213) 및/또는 컨덕터 허브(214)에 지시를 송신할 수 있다. 이러한 실시예에서, 바이브 매니저(210), 플레이어 애플리케이션(213) 등은 이전에 분석되지 않았거나 오디오 이벤트 데이터가 존재하지 않거나 바이브 데이터베이스(209)에 저장되지 않은 오디오 이벤트에 대해서도 실질적으로 실시간으로 몰입형 오디오 경험을 제공할 수 있다.

도 3은 본 명세서에서 개시된 몰입형 오디오 시스템을 사용하는 방법(300)의 일 실시예의 흐름도이다. 302에서, 이 방법은 사용자의 시스템에서 플레이어 애플리케이션(213), 컨덕터 허브(214) 또는 바이브 매니저(210)에 의해 하나 이상의 A/V 장비(54)를 초기화하는 단계를 포함할 수 있다. 초기화 과정은 조명, 디스플레이, 레이저, 스피커 등 각 A/V 디바이스(54)와의 연결을 수립하는 단계를 포함할 수 있다. 일부 실시예에서, 플레이어 애플리케이션(213)은 애플리케이션 및/또는 컨덕터 허브(214)와의 연결로부터 A/V 디바이스(54)를 검출, 추가 또는 제거하는 과정을 포함할 수 있다. 초기화는 각 A/V 디바이스(54)가 어떤 유형의 장비일 수 있는지, 그 능력이 무엇인지, 공간에서 어디에 위치되어 있는지, 그리고 어떻게 각도/회전이 어떤지를 결정하는 것을 포함할 수 있다. 일부 실시예에서, 애플리케이션(213)은 그래픽 사용자 인터페이스(GUI)를 통해 및/또는 증강 현실(AR)을 통해 사용자의 미디어 시청 공간의 가상 지도를 포함할 수 있으며, 몰입형 오디오 시스템이 위치할 수 있고 사용자는 공간 내 각 디바이스의 위치를 나타낼 수 있다. 304에서, 방법은 오디오 소스로부터 또는 바이브 데이터베이스(209)를 통해 바이브 매니저(210)로부터 오디오 이벤트 메타데이터를 수신하는 단계를 포함할 수 있다. 일부 실시예에서, 오디오 이벤트는 사용자에 의해 선택되었거나 재생목록 또는 임의의 다른 적절한 오디오 선택 방법으로부터 선택되었을 수 있다. 일부 실시예에서, 애플리케이션(213)은 사용자가 노래를 선택할 수 있는 그래픽 사용자 인터페이스(GUI)를 포함할 수 있다. 일부 실시예에서, 오디오 이벤트 선택을 위한 인터페이스는 VR, AR, 음성 지시, 제스처 등의 대안적인 수단을 통해 제공될 수 있다. 일부 실시예에서, 오디오 이벤트 선택은 스트리밍 서비스, 음악 재생기, 팟캐스트 플레이어 등의 다른 애플리케이션을 통해 이루어질 수 있다. 일부 실시예에서, 오디오 이벤트 메타데이터는 스트리밍 서비스(예를 들어, 스포티파이, 아마존 음악 등)와 같은 제3자 시스템으로부터 수신될 수 있다. 일부 실시예에서, 스트림 매니저(211)와 같은 시스템은 플레이어 애플리케이션(213), 바이브 매니저(210), 및 제3자 스트리밍 서비스 애플리케이션(202) 간의 통신을 제공할 수 있는 하나 이상의 API를 포함할 수 있다. 일부 실시예에서, 플레이어 애플리케이션 및/또는 바이브 매니저는 오디오 스트림에 A/V 디바이스에 지시할 수 있는 시청각 및/또는 시간 코딩된 경험 메타데이터를 추가할 수 있다.

306에서, 일부 실시예에서, 방법은 바이브 데이터가 선택된 오디오 스트림에 대응하는 바이브 데이터베이스(209)에 저장될 수 있는지 여부를 결정하는 단계를 포함할 수 있다. 예를 들어, 일부 실시예에서, 바이브 데이터는 도 2a를 참조하여 상술한 바와 같이 미리 추출되어 생성되었을 수 있다. 이러한 실시예에서, 데이터는 바이브 데이터베이스(209)에 저장될 수 있고, 요청 시 바이브 매니저(210)에 의해 검색될 수 있다. 308에서, 바이브 매니저(210) 또는 플레이어 애플리케이션(213)이 오디오 선택을 위해 바이브 데이터가 저장될 수 있다고 결정한다면, 플레이어 애플리케이션(213) 및/또는 바이브 매니저(210)는 310에서, 이를테면 컴퓨팅 디바이스(55) 상에 직접 저장된 또는 바이브 데이터베이스(209)로부터의 오디오 컨텐츠 또는 단락에 대응하는 바이브 데이터를 검색할 수 있다.

308에서, 애플리케이션(213) 또는 바이브 매니저(210)가 선택된 오디오 또는 비디오 컨텐츠에 대한 바이브 데이터가 저장되어 있지 않다고 결정한다면, 애플리케이션 또는 스트림 매니저(211)는 312에서, 오디오 컨텐츠 메타데이터를 분석하여 예를 들어, 아티스트, 장르, 템포/BPM, 가사, 무드, 키, 에너지, 비트, 비트 그리드, 마디, 악구, 구간, 단락, 테이텀, 호응 구조, 악기, 및 보컬, 및 노래 구간 이를테면 인트로, 빌드, 드롭, 코러스, 아웃트로 등, 주파수, 스펙트럼 분석, 크로마 피처, 하모닉 비, 및 멜 주파수 캡스트럼 계수, 리듬, 강도, 및 기타 곡 특성 등을 결정할 수 있다. 일부 실시예에서, 이 분석은 바이브 매니저(210) 및/또는 스트림 매니저(211)와 통신하는 메타데이터 추출기/임포터(206)에 의해 수행될 수 있다. 314에서, 본 방법은 노래 메타데이터에 기초하여 선택된 오디오 이벤트 오디오 스트림을 보컬, 리드, 드럼, 악기, 베이스(전체 또는 개별) 등을 위한 별도의 채널(스템)로 분리하는 단계를 포함할 수 있다. 316에서, 본 시스템은 바이브 데이터베이스에 저장될 수 있는 머신 러닝 데이터를 사용하여 오디오 이벤트 메타데이터로부터 바이브 데이터를 생성할 수 있다. 예를 들어, 도 2a를 참조하여 상술한 바와 같이, 바이브 큐레이터 AI 시스템(208)은 시각적 패턴, 색상 테마, 모션 및 리듬 패턴 등의 최적의 용도를 결정하기 위해 이력적 라이브 이벤트에 기초하여 데이터를 컴파일할 수 있다. 바이브 큐레이터 AI 시스템(208)은 이 학습된 정보를 선택된 노래에 대한 오디오 이벤트 메타데이터에 적용하여 선택된 오디오 이벤트에 대한 시각적 또는 감각적인 경험 데이터를 생성할 수 있다. 일부 실시예에서, 본 방법은 저장된 오디오 이벤트 데이터를 참조하는 대신 모든 오디오 선택에 AI 시스템 데이터를 적용하는 것을 포함할 수 있다고 생각된다.

318에서, 방법은 분리된 오디오 채널을 개별적인 조각 또는 A/V 장비의 그룹(54)에 배정하는 단계를 포함할 수 있으며, 이는 316으로부터 생성된 바이브 데이터 및 310으로부터 정규화된 바이브 데이터를 사용하는 단계를 포함할 수 있다. 일부 실시예에서, 각 개별 채널에 대한 특성 및 메타데이터의 분석은 그 특정 채널의 행동에 기초하여 적용될 수 있는 시각적 또는 감각적인 경험 데이터를 생성한다. 예를 들어, LED 조명은 보컬 데이터에 기초하여 동작하도록 배정될 수 있고, 레이저는 악기 데이터에 기초하여 동작하도록 배정될 수 있으며, 스폿 조명은 드럼 데이터에 기초하여 동작하도록 배정될 수 있다. 당업자는 다른 배정의 조합도 본 개시의 범위 내에서 생성될 수 있음을 이해할 것이다. 일부 실시예에서, A/V 장비의 각 유형에 배정할 채널의 결정은 정적 알고리즘에 기초할 수 있고, 이력적 오디오 이벤트에 기초한 머신 러닝 중 바이브 큐레이터 AI 시스템(208)에서 학습한 정보에 기초할 수 있다. 320에서, 팟캐스트, 스포츠 및 e스포츠, 게임, 영화 등과 같은 선택된 노래 또는 오디오 스트림의 재생 전반에 걸쳐 이동, 변경, 반응하는 몰입형 오디오 및 시각적 환경을 생성하기 위해 시각적 또는 감각적인 경험 데이터에 기초하여 A/V 장비(54)에 지시를 송신하는 단계를 포함할 수 있다.

도 4는 컴퓨팅 디바이스(55)와 같은 컴퓨팅 디바이스의 실시예를 구성할 수 있는 일부 물리적 요소의 간략도이고, 도 5는 원격 클라우드 서버(100)에 사용될 수 있는 서버형 컴퓨팅 디바이스의 실시예를 구성하는 물리적 요소의 간략도이다. 도 4를 참조하면, 몰입형 오디오 경험을 위한 시스템 및 방법의 일부가 되도록 물리적으로 구성된 샘플 컴퓨팅 디바이스가 도시되어 있다. 컴퓨팅 디바이스(55)는 컴퓨터 실행가능 지시에 따라 물리적으로 구성된 프로세서(1451)를 가질 수 있다. 일부 실시예에서, 본 명세서에서 기재된 시스템과 관련된 서버 간의 통신을 최적화하도록 특별히 설계되거나 구성될 수 있다. 컴퓨팅 디바이스(55)는 충전이 가능한 배터리 등의 휴대용 전원 공급 장치(1455)를 가질 수 있다. 이는 또한 비디오 및 사운드를 디스플레이하는 것을 돕는 사운드 및 비디오 모듈(1461)을 가질 수 있고, 전력 및 배터리 수명을 보존하기 위해 사용되지 않을 때 턴 오프될 수 있다. 컴퓨팅 디바이스(55)는 휘발성 메모리(1465) 및 비휘발성 메모리(1471)를 가질 수 있다. 컴퓨팅 디바이스(55)는 별도의 회로일 수 있거나 프로세서(1451)의 일부일 수 있는 GPS 능력을 가질 수 있다. 또한, 마이크, 카메라, 디스플레이, 또는 기타 입출력 디바이스 등의 다양한 사용자 입출력 디바이스로 그리고 이로부터 데이터를 셔틀하는 입출력 버스(1475)가 있을 수 있다. 컴퓨팅 디바이스(55)는 무선 또는 유선 중 어느 하나의 디바이스를 통해 네트워크와의 통신을 제어할 수 있다. 물론, 이는 컴퓨팅 디바이스(55)의 일 실시예일 뿐이며, 컴퓨팅 디바이스(55)의 개수 및 종류는 상상력에 의해서만 제한된다.

서버, 원격 클라우드 서버(100)의 실시예를 구성하는 물리적 요소는 도 5에 더 도시되어 있다. 일부 실시예에서, 서버는 본 명세서에서 개시된 몰입형 오디오 경험을 위한 시스템 및 방법을 실행하도록 특별히 구성될 수 있다. 서버는 상위 레벨에서 자기 디스크, 광 디스크, 플래시 메모리, 비휘발성 메모리 등의 디지털 스토리지를 포함할 수 있다. 디지털 스토리지에는 구조화된 데이터가 데이터베이스에 저장될 수 있다. 보다 구체적으로, 서버(100)는 컴퓨터 실행가능 지시에 따라 물리적으로 구성된 프로세서(1500)를 가질 수 있다. 일부 실시예에서, 프로세서(1500)는 본 명세서에서 기재된 컴퓨팅 디바이스(55)와 A/V 장비 또는 원격 클라우드 서버(100) 간의 통신을 최적화하도록 특별히 설계되거나 구성될 수 있다. 또한, 서버는 비디오 및 사운드를 표시하는 것을 돕는 사운드 및 비디오 모듈(1505)을 가질 수 있으며, 전원 및 배터리 수명을 절약하기 위해 사용하지 않을 때 꺼질 수 있다. 서버(100)는 또한 휘발성 메모리(1510) 및 비휘발성 메모리(1515)를 가질 수 있다.

구조화된 데이터를 디지털로 저장하기 위한 데이터베이스(1525)는 메모리(1510, 1515) 내에 저장될 수 있고 별도의 메모리일 수 있다. 데이터베이스(1525)는 서버의 클라우드의 일부일 수도 있으며, 복수의 서버들에 걸쳐 분산된 방식으로 저장될 수 있다. 또한, 마이크, 카메라, 디스플레이 모니터, 스크린 등과 같은 다양한 사용자 입력 디바이스로 그리고 이로부터 데이터를 셔틀하는 입출력 버스(1520)가 있을 수 있다. 입출력 버스(1520)는 무선 또는 유선 기기를 통해 네트워크와의 통신을 제어할 수 있다. 일부 실시예에서, 몰입형 경험 API를 실행하기 위한 몰입형 경험 제어기는 컴퓨팅 디바이스(55) 상에 위치할 수 있다. 그러나 다른 실시예에서는 몰입형 경험 제어기가 서버(100)에 위치하거나 컴퓨팅 디바이스(55)와 서버(100) 모두에 위치할 수 있다. 물론 이는 서버(100)의 일 실시예일 뿐이며, 여기서는 추가적인 유형의 서버를 고려한다.

바이브 생성 시스템

도 6은 몰입형 오디오 시스템(600)의 또 다른 실시예의 도면이다. 시스템(600)은 오디오 또는 다른 미디어 데이터를 처리하여 다양한 시청각 및/또는 미디어 환경에서 구현될 수 있는 데이터 포맷으로 바이브 데이터를 제공하여 몰입형 멀티미디어 경험을 제공할 수 있다. 시스템(600)은 음악 컨텐츠 전달 네트워크(CDN), 바이브 + 로직 마스터 볼트(Vibes + Logic masters vault)(604), 음악 및/또는 팟캐스트 NFT(606), 및 음악 스트리밍 DSP(608)를 포함할 수 있는 하나 이상의 음원(601)으로부터 음악 또는 기타 미디어를 검색할 수 있다. 음악 CDN(602)은 자신의 음악이나 다른 미디어를 업로드할 수 있는 무기명의 무표지 아티스트에 의한 음악을 포함할 수 있다. 마스터 볼트(604)는 몰입형 오디오 시스템(600)을 통해 생성된 시각화를 사용하는 것과 같이 시각화 목적을 위해 특별히 생성된 트랙 리믹스를 포함할 수 있다. 음악 및/또는 팟캐스트 NFT는 음악 트랙 또는 아티스트 또는 다른 엔티티에 의해 NFT로서 민팅되었을 수 있는 다른 미디어일 수 있다. 음악 스트리밍 DSP(608)는 Amazon Music, Apple Music, Spotify, YouTube, SoundCloud, Tidal 등과 같은 다양한 음악 스트리밍 DSP 중 어느 하나일 수 있다.

일부 실시예에서, 하나 이상의 음원(601)로부터의 음악 트랙은 예컨대 데스크톱 컴퓨터, 모바일 디바이스, 태블릿 등과 같은 사용자 컴퓨팅 디바이스에서 실행되는 클라이언트 소프트웨어 애플리케이션에 접근하는 사용자에 의해 바이브 데이터를 처리하고 생성하도록 선택될 수 있다. 일부 실시예에서, 클라이언트 소프트웨어 애플리케이션은 VR 고글과 같은 가상 현실(VR) 또는 증강 현실(AR)(VR/AR) 디바이스를 통해 실행될 수 있다. 선택된 트랙은 AI 분석(610)에 의해 처리될 수 있는데, 이는 상당히 평이한 음악 트랙을 취할 수 있고, 분석을 통해, 트랙과 관련된 다양한 유형의 데이터를 추출할 수 있다. 예를 들어, AI 분석(610)은 BPM(beats per minute), 트랙의 다양한 부분에서의 주파수, 트랙의 상이한 구간의 위치 및/또는 타이밍(예를 들어, 코러스, 벌스, 빌드, 드롭 등), 키 전환 순간, 스템 등과 같은 트랙과 관련된 정보를 결정할 수 있다. 일부 실시예에서, 이 정보 중 일부(예를 들어, 스템)는 아티스트에 의해, 이를테면 마스터 볼트(604)로 업로딩함으로써 제공될 수 있다. 이 정보를 결정하는 것은 시스템이 노래의 성분을 더 잘 이해하고 상이한 시각화로부터 이익을 얻을 수 있는 상이한 노래 부분에 걸친 전환에 관한 더 나은 예측을 할 수 있게 한다.

일부 실시예에서, 시스템(600)은 AI 분석(610)에서 추출한 노래 정보를 기반으로 음악 트랙에 시각적 반주를 생성할 수 있다. 시각적 반주는 AI 바이브 설계자(612), 유니버설 바이브 믹스 엔진(614), 바이브 생성자(616) 또는 이들의 조합을 사용하여 생성될 수 있다. 일부 실시예에서, AI 바이브 설계자(612)는 AI 분석(610)에 의해 생성된 데이터를 해석하여 노래에 대한 트랙별 시각적 반주를 결정할 수 있다. 시각적 반주는 노래 데이터를 바탕으로 노래의 다른 부분에 대한 A/V 장비에 대한 적절한 지시/애니메이션을 결정하는 것을 포함할 수 있다. 예를 들어, 머신 러닝 및 이력 데이터에 기초하여, AI 바이브 설계자(612)는 노래의 특정 음악적 측면이 드럼 비트에 대한 특정한 조명 색상, 보컬에 대한 스트로브 조명과 같은 특정 시각화와 짝을 이룰 수 있다고 결정할 수 있다. 당업자는 이들은 가능한 시각화 맵핑의 예일 뿐이며, 이러한 맵핑 과정의 가능적인 다양한 출력은 사실상 무제한적일 수 있음을 인식할 것이다. 그 결과는 AI 바이브 설계자(612)가 생성적인 시각적 반주를 초래할 수 있는 노래에 특정한 시각적 맵핑을 생성할 수 있다. AI 분석(610)과 AI 바이브 설계자(612)가 데이터 추출 및 시각적 반주 생성에 수행할 수 있는 과정의 일 실시예를 도 7과 관련하여 보다 상세히 설명한다.

비트랙 특정 시각적 반주는 또한 또는 대안적으로 유니버설 바이브 믹스(614)를 통해 제공될 수 있다. 일부 실시예에서, 유니버설 바이브 믹스(614)는 AI 분석(610)으로부터의 트랙 데이터를 사용하여 특정 노래에 관계없이 각 노래의 특정 구간에 조명 지시, 애니메이션 및 기타 시각적 효과를 예측하고 배정할 수 있다. 일부 실시예에서, 배정된 조명 및 다른 시각적 효과는 사용자 또는 하나 이상의 AI 엔진에 의해 미리 생성된 바와 같이 미리 존재할 수 있다. 예를 들어, 음악 트랙은 각각 유사한 구간, 이를테면 인트로, 벌스, 프리코러스, 코러스, 브릿지, 브레이크, 빌드, 드롭 등을 포함할 수 있다. 일부 실시예에서, 유니버설 바이브 믹스(614)는 어떤 노래가 선택되는지, 또는 각 빌드, 각 빌드, 드롭 등에 관계없이 동일한 기존의 조명 지시, 애니메이션, 또는 다른 시각적 설계 반주를 각 노래의 코러스에 배정할 수 있다. 이에 따라, 유니버설 바이브 믹스(614)로, 음악 트랙은 몰입적인 시각화와 노래의 상이한 구간에 맵핑된 바이브 데이터를 수반할 수 있지만, 사용되는 특정 시각화는 그 노래에 고유하지 않을 수 있다. 이에 따라, 유니버설 바이브 믹스(614)는 특정 노래에 대해 완전히 스며들지 않을 수 있지만, 시각화 정보는 몰입형 사용자 경험을 위한 동기화된 시각적 반주를 제공할 수 있도록 AI 분석(610)에서 결정된 노래의 피처에 여전히 맵핑될 수 있다. 일부 실시예에서, 유니버설 바이브 믹스(612)는 사용자나 AI가 아직 비스포크 바이브 믹스를 생성하지 않았던 신곡 구간에 대한 첫 번째 바이브 편집기로서 사용될 수 있다. 일부 실시예에서, 사용자는 유니버설 바이브 믹스를 생성하여 NFT로 구매, 공유 또는 다른 사용자에게 보다 널리 배포하는 데 이용가능해지도록 할 수 있다.

일부 실시예에서, 시스템(600)은 클라이언트 소프트웨어 애플리케이션을 통해 접근가능한 바이브 생성자(616)를 포함할 수 있다. 바이브 생성자(616)는 AI 분석(610), 바이브 설계자(612) 및/또는 유니버설 바이브 믹스(614)에 의해 추출 및/또는 생성된 트랙 데이터를 수신할 수 있다. 사용자(예를 들어, 아티스트, 팬 등)는 바이브 생성자(616)에 접속하여 사용자 바이브 믹스(618)를 생성할 수 있다. 일부 실시예에서, 바이브 생성자(616)는 하드웨어 픽스처 맵핑뿐만 아니라 오디오 구간의 상이한 시간 코딩된 구간(예를 들어, 코러스) 또는 오디오 구간의 레이블에 조명 지시, 애니메이션, 기타 시각적 반주를 배정하고 맞추는 사용자 인터페이스를 가질 것이다. 일부 실시예에서, 사용자 바이브 믹스(618)는 AI 바이브 설계자(612)로부터 AI 생성 바이브 믹스를 더 커스터마이징하는 사용자로부터 발생할 수 있고, 사용자는 AI 분석(610)으로부터 데이터를 포함하거나 포함하지 않고 완전 커스터마이징된 사용자 바이브 믹스를 생성할 수 있다. 일부 실시예에서, 바이브 생성자(616)는 사용자가 유니버설 바이브 믹스(사용자 생성 또는 AI 생성 중 어느 하나)를 편집하거나, 또한 특정 트랙에 커스터마이징하거나, 다양한 트랙에 적용가능한 추가 유니버설 바이브 믹스를 생성할 수 있도록 하는 정보를 유니버설 바이브 믹스 엔진(614)으로부터 수신한다. 이러한 실시예에서, 사용자는 스크래치를 통해 작업하거나 AI 생성 바이브 믹스에 추가하여 고유 몰입형 오디오 경험을 반영할 수 있는 특정 트랙에 대한 고유 바이브 믹스를 생성할 수 있다. 일부 실시예에서, AI 바이브 설계자(612)는 바이브 생성자(616)와 생성된 사용자 바이브 믹스를 분석하여 AI 기능을 더욱 향상시킬 수 있다. 즉, 특정 트랙에 대한 커스텀 바이브 믹스를 생성하는 사용자는 AI 바이브 설계자(612)가 AI 분석(610)을 기반으로 트랙별 바이브 믹스를 생성한 후, 사용자 생성 바이브 믹스(618)를 기반으로 한 바이브 믹스를 하나 또는 다수의 사용자들로 업데이트 및 정제할 수 있는 반복적인 머신 러닝 과정의 일부일 수 있다. 이와 같이, AI 바이브 설계자(612)는 AI 생성 바이브 믹스를 향상시킬 수 있다.

일부 실시예에서, 시스템(600)은 하나 이상의 블록체인에서 사용자 바이브 믹스(618)를 민팅할 수 있는 민팅 엔진(620)을 포함할 수 있다. 민팅된 바이브 믹스는 사용자 바이브 믹스 NFT 또는 사용자가 소유할 수 있는 기타 디지털 자산일 수 있다. 민팅된 바이스 믹스는 소유권 공유, 로얄티, 이익 공유, 재판매, 기초 지적 재산권(IP) 등과 관련된 특정 처리를 제공하는 디지털 계약을 통합할 수 있다. 일부 실시예에서, 시스템(600)은 바이브 마켓플레이스(622)를 포함할 수 있으며, 사용자는 바이브 믹스(618) 및/또는 바이브 믹스 NFT를 판매, 교환 또는 배포할 수 있다. 바이브 마켓플레이스(622)는 예를 들어, 클라이언트 소프트웨어 애플리케이션을 통해, 웹 브라우저를 통해, 다른 제3자 소프트웨어 애플리케이션 등을 통해 접근될 수 있다. 일부 실시예에서, 바이브 마켓플레이스(622)는 잠재적인 구매자가 구매 전에 바이브 믹스(618)를 "시도"하기 위한 샘플을 제공할 수 있다. 일부 실시예에서, 바이브 마켓플레이스(622)는 인터넷, 메타버스, VR/AR 애플리케이션 또는 클라이언트 소프트웨어 애플리케이션을 통해 가상 상점 또는 숍으로서 접근가능할 수 있다. 이러한 실시예에서, 사용자는 가상으로 바이브 마켓플레이스(622)에 "입장"하고, 특정 트랙, 특정 아티스트, 장르, 무드 등에 의해 만들어질 수 있는 바이브 믹스를 위한 가상 마켓플레이스일 수 있다. 그러면 이러한 바이브 믹스는 현실 세계 A/V 픽스처 또는 가상 3D 환경 등의 가상 A/V 픽스처를 통해 사용자가 재생하거나 경험할 수 있다.

일부 실시예에서, 시스템(600)은 계정 게이트웨이(624)를 더 포함할 수 있다. 계정 게이트웨이(624)는 몰입형 오디오 시스템(600)을 통해 바이브 믹스 또는 다른 정보를 생성, 요청, 접근 또는 구매하는 사용자가 특정 사용자 계정 등의 제공된 특정 사용자 정보와 함께 그렇게 하도록 인가되었음을 확인할 수 있다. 일부 실시예에서, 사용자는 검증가능한 사용자 크리덴셜(예를 들어, 로그인, 패스워드, 2인자 인증 등)을 사용하여 특정 사용자 계정에 로그인할 수 있다. 각 사용자 계정은 이전에 생성 또는 구매한 바이브 믹스, 바이브 생성 프로젝트 등의 상이한 자원에 접근할 수 있다. 계정 게이트웨이(624)는 이러한 인가 정보를 확인하고 시스템(600)에서 특정 자원에 대한 접근을 올바른 사용자에게 제공하는 게이트키퍼일 수 있다. 계정 게이트웨이(624)는 시스템(600)을 통해 제공되는 서비스에 대한 월간 및/또는 연간 구독, 또는 시스템을 통한 바이브 믹스에 대한 접근 등의 구독 정보를 핸들링할 수 있다. 계정 게이트웨이(624)는 시스템(600)을 통해 처리된 구매 또는 구독료에 대한 지불 정보를 처리할 수 있다.

일부 실시예에서, 시스템(600)은 바이브 스트리밍 프로토콜(626)을 사용하여 바이브 믹스의 내용을 전달할 수 있으며, 그 일 실시예는 도 8에서 더 자세히 설명한다. 바이브 스트리밍 프로토콜(626)은 단일 스트림으로 바운딩된 오디오와 시각 데이터를 모두 포함할 수 있으며, 오디오에 시각적 반주를 포함하는 스트리밍 프로토콜을 제공할 수 있다. 이렇게 하여, 바이브 믹스를 통해 시스템(600)에 의해 개발된 비트 기반의 시각적 정보는 함께 조합되어 적용가능한 하드웨어 또는 A/V 장비에 전달될 수 있다. 일부 실시예에서, 바이브 스트리밍 프로토콜(626)은 웹 브라우저를 통해 스마트 홈 조명 픽스처, VR/AR 애플리케이션 등을 통해 접근될 수 있다. 바이브 스트리밍 프로토콜(626)의 일 실시예는 데이터 포맷에 대해 이하에서 더 자세히 설명한다.

바이브 스트리밍 프로토콜(626)은 인터넷 또는 다른 네트워크를 통해 VR/AR/XR 고글(628), 시각화 또는 다른 비디오 모니터(630)(예를 들어, TV 및 모니터), 스마트 픽스처(632)(예를 들어, 스마트 조명, 사물 인터넷(IoT))와 같은 다양한 사용자 A/V 장비 중 임의의 것으로 스트리밍될 수 있다. 일부 실시예에서, 바이브 스트리밍 프로토콜(626)은 실생활 하드웨어 구성요소(예를 들어, IoT 조명, AR/VR/XR 디바이스, 모니터 등)를 통해 또는 가상 공간의 가상 픽스처(예를 들어, 메타버스)에 의해 접근되고 사용될 수 있다. 예를 들어, 일부 실시예에서, 사용자는 가상 사운드 시스템 또는 실생활 아날로그를 가질 수 있거나 가질 수 없는 시각화 피처와 같은 특정 가상 미디어 셋업을 갖는 메타버스 내의 공간에 접근할 수 있다. 대안적으로, 아티스트는 AR/VR/XR 디바이스 또는 다른 능력을 통해 접근가능한 가상 시각화를 포함할 수 있는 가상 3D 시어터에서 콘서트 또는 쇼를 호스팅할 수 있다. 가상 또는 실생활 하드웨어에 대해, 바이브 스트리밍 프로토콜(626)은 사용자 및 다른 인간들에게 몰입형 오디오 경험을 제공하기 위해, 어느 하나 또는 조합하여 접근가능하도록 설계될 수 있다.

데이터 포맷

일부 실시예에서, 시스템(600)은 분석 데이터, 픽스처 데이터, 씬 데이터, 바이브 데이터를 포함하는 여러 유형의 데이터를 포함할 수 있다. 일부 실시예에서, 분석 데이터는 AI 분석(610)에 의해 생성된 트랙 데이터일 수 있고, 제시 애그노스틱 방식으로 음악 트랙의 중요한 피처를 설명할 수 있다. 일부 제시 인접 정보는 픽스처에 배정될 있는 방법을 안내하기 위해 트랙 내의 가장 중요한 스템을 설명하는 등으로 포함될 수 있다. 일부 실시예에서, 포맷은 모듈식이고 분해가능할 수 있는데, 이는 전체 트랙이 단일 파일로서 송신될 수 있거나, 개별 객체(예를 들어, '바아')가 음악과 함께 스트리밍될 수 있음을 의미한다. 일부 실시예에서, 포맷은 결정적일 수도 있는데, 이는 트랙 내의 임의의 지점에 대한 정확한 데이터를 요청하거나 위치를 찾는 것이 상대적으로 용이할 수 있다는 것을 의미한다(예를 들어, 사용자가 랜덤 시간 코드를 찾는 경우).

일부 실시예에서, 분석 데이터는 세트 객체, 트랙 객체, 메타데이터 객체, 피처 객체, 구간 객체, 스템 객체를 포함할 수 있다. 객체 세트는 단일 오디오 파일/소스가 다수의 트랙들을 노출시킬 수 있게 한다. 트랙 객체는 구간을 위한 컨테이너일 수 있다. 메타데이터 객체는 AI 분석(610)의 일부로서 생성되지 않았을 수 있는 세트 또는 트랙 데이터를 보유할 수 있다. 피처 객체는 특정 음악 선택을 설명할 수 있는 피처 집합을 포함할 수 있다. 이는 전체 트랙, 구간, 개별 마디 등일 수 있다. 구간 객체는 트랙 내의 시간을 나타낼 수 있다. 구간 객체는 스템에 대한 상당한 변화에 기초하여 단락될 수 있지만, 예를 들어, 스트리밍 이벤트와 함께 더 작은 "청크"에 대한 정보를 전달하는 데에도 사용될 수 있다. 일부 실시예에서, 구간 객체는 분석 데이터의 주요 송신일 수 있다. 각 구간 객체는 트랙의 그 부분의 무드와 에너지에 대한 중요한 정보를 전달할 수 있으며, 구간을 구성 오디오 '레이어'로 쪼개는 스템의 집합과 스템을 A/V 픽스처로 맵핑하는 제안을 포함할 수 있다. 일부 실시예에서, 클라이언트 소프트웨어 애플리케이션은 이 데이터를 바이브 및 사용자 설정의 정보와 조합하여 프로퍼티 및 스템을 픽스처 및 픽스처 파라미터로 맵핑하는 방법을 결정할 수 있다. 스템 객체는 음악에서 개별 악기 또는 음성을 나타낼 수 있다.

픽스처 데이터는 실제 또는 가상 A/V 장비와 그 어드레서블 프로퍼티 또는 능력의 출력 집합을 설명할 수 있다. 출력은 거의 무엇이든 가능할 수 있지만, 일부 카테고리는 조명(예를 들어, LED 스트립, Hue, Nanoleaf, LiFX 등), 디바이스(예를 들어, 두피 마사지기, 매직 완드, 제스처 글로브 등), 스크린(프로젝터, TV, 태블릿, (VR/AR/메타버스에서의) 가상 벽, 스마트폰), 및 시각화기(예를 들어, 소프트웨어 시각화에 의해 노출되는 프로퍼티)일 수 있다. 물리 또는 가상 조명 및 디바이스는 사용자에 의해 그룹으로 편성될 수 있으며, 다수의 특정 스마트 전구들을 함께 그룹화하고 "무드"에 배정하는 등 구역에 배정될 수 있다. 픽스처 데이터 포맷은 (1) 각 피처, 그 능력, 해당 능력을 수정할 수 있는 임의의 사용자 설정을 정의하고, (2) 바이브를 통해 분석 데이터에 논리적으로 바운딩될 수 있는 알려진 채널에 피처를 배정하는 두 가지 주요 목표를 달성할 수 있다.

씬 데이터는 스테이지 객체, 픽스처 객체, 및 채널 객체를 포함할 수 있고, 픽스처 제어기를 포함할 수 있다. 스테이지 객체는 특정 사용자의 전체 A/V 픽스처 셋업과 관련된 모든 데이터를 캡슐화할 수 있으며, 주로 '픽스처' 객체를 위한 컨테이너일 수 있다. 픽스처 객체는 단일 픽스처에 대한 유형, 능력, 설정을 정의할 수 있다. 각 픽스처는 예상되는 구성 프로퍼티의 정의된 세트를 갖는 알려진 유형을 가질 수 있다. 일부 실시예에서, '복합' 유형의 픽스처는 다수의 픽스처들이 단일의 디바이스에 의해 노출될 수 있게 할 수 있다. 예를 들어, 소프트웨어 시각화기는 다수의 조명 픽스처들과 다른 것들을 가질 수 있다. 채널 객체는 픽스처들을 사용자 배정에 기초하여 연관시킬 수 있으며, 이에 따라 바이브에 정의된 특정 거동을 갖는 그룹으로서 제어될 수 있다.

바이브 데이터는 AI 바이브 설계자(612), 유니버설 바이브 믹스(614), 또는 바이브 생성자(616)의 출력, 또는 "바이브 믹스" 또는 "바이브"일 수 있다. 바이브 데이터는 바이브 생성자(인간 사용자 또는 AI)의 제작 출력을 캡슐화할 수 있고, (AI 분석(610)에 의해 추출된) 음악 분석 데이터를 임의의 주어진 A/V 셋업에서 발생할 수 있는 픽스처와 프로퍼티의 세트에 바인딩하는 글루 역할을 할 수 있다. 특히 유니버설 바이브 믹스로부터, 바이브는 트랙과, 임의의 특정 사용자가 이용가능할 수 있는 특정 A/V 픽스처 또는 장비 둘 모두에 완전히 애그노스틱일 수 있다. 각 바이브는 특정 사용자의 A/V 셋업 및 구역 배정에 따라 추후 구현될 수 있는 구역 맵핑을 포함할 수 있지만, 바이브 자체는 1-8 구역과 같이 미리 결정된 수의 구역에 대한 정보를 포함할 수 있다. 바이브 데이터는 바인딩 객체, 및 음악 분석 데이터와 픽스처 또는 유사한 객체 간의 관계를 함께 정의하는 기타 객체를 포함할 수 있다. 일부 실시예에서, 이는 바이브 객체, 규칙 객체, 시간 오프셋 객체, 및 바인딩 객체로 구성될 수 있다. 당업자는 이들은 단지 가능한 바인딩, 맵핑, 및 오디오와 시각 맵핑 간의 관계의 예일 뿐이며, 이러한 맵핑 과정의 가능적인 다양한 객체는 사실상 무제한일 수 있음을 인식할 것이다.

일부 실시예에서, 그 핵심에서, 바이브 객체는 스템 피처와 A/V 픽스처 능력 간의 "바인딩"을 정의할 수 있는 "규칙" 객체의 집합을 위한 컨테이너일 수 있고, 그러한 바인딩이 적용될 수 있는 때에 대한 지시가 적용될 수 있다. 또한, 규칙 객체는 하나 이상의 출력 바인딩을 하나 이상의 시간 오프셋과 연관시킬 수 있다. 즉, 규칙 객체는 "어떤 것"을 "언제"와 연결할 수 있다. 예를 들어, 규칙 객체는 EDM(electronic dance music) 노래에 대한 인트로에 흐릿한 펄스 조명을 사용하는 것과 같이, 특정 유형의 트랙의 특정 구간에 특정 바인딩(예를 들어, 조명 동작, 시각화 설계 등)을 적용하기 위한 지시를 포함할 수 있다. 규칙 객체는 또한 트랙 특정 필터를 특정할 수 있다. 트랙은 시간이 지남에 따라 업데이트되거나 발전될 수 있는 임의의 다양한 노래 구간을 포함할 수 있다. 예를 들어, 일부 트랙 구간은 인트로, 벌스, 프리코러스, 코러스, 브릿지, 아웃트로, 브레이크, 빌드, 드롭 등을 포함할 수 있다. 어떤 구간은 다른 장르에 특정될 수 있는 반면, 다른 구간은 사실상 어떤 장르에도 사용될 수 있다. 다른 규칙 객체는 주파수의 현저성 또는 커버리지의 특정 변화, 키 변환, 보컬의 현저성, 또는 AI 분석(610)에 의해 식별된 임의의 수의 시간 코딩된 이벤트에 대한 바인딩(예를 들어, 조명 동작, 시각화 설계 등)을 포함할 수 있다. 당업자는 이들은 가능한 규칙 객체의 예일 뿐이며, 이러한 과정을 중심으로 한 가능적인 규칙의 다양성은 사실상 무한할 수 있다는 것을 인식할 것이다.

시간 오프셋 객체는 구간에 대한 기준이 될 수 있다. 이는 시간(예를 들어, 밀리초), 마디, 또는 비트로 특정될 수 있다. 시간 오프셋 객체는 '시작', '종료', 및 '길이'의 임의의 조합을 포함할 수 있다. 일부 실시예에서, 시작과 종료는 구간의 시작과 종료에 대한 타이밍 범위를 "피닝(pinning)"할 수 있다. 길이는 시작으로부터 앞으로 또는 종료로부터 뒤로 연장되는 고정된 시간을 특정할 수 있다. 일부 실시예에서, 시작과 종료에 대한 음의 값은 선택된 구간 밖의 범위를 확장하기 위해 가능적으로 사용될 수 있다. 바인딩 객체는 스템의 단일 피처(또는 스마트 스템, 스템의 동적 배정, 예를 들어, "프론트"는 어느 스템이 인간의 귀의 지각에 가장 두드러지거나 지배적인지를 나타내는 스마트 스템일 수 있음)를 픽스처 구역의 하나 이상의 능력에 연결할 수 있다. 일부 실시예에서, 각 능력 유형은 상이한 파라미터 세트를 가질 수 있다.

바이브 스트리밍 프로토콜

일부 실시예에서, 바이브 스트리밍 프로토콜(626)은 단일 스트림에 함께 바운딩된 오디오 및 시각 데이터를 모두 포함하여, 오디오에 시각적 반주를 포함하는 스트리밍 프로토콜을 제공할 수 있다. 이렇게 하여, 바이브 믹스를 통해 시스템(600)에 의해 개발된 비트 기반의 시각적 정보는 실생활이든 가상이든, 함께 조합되어 적용가능한 하드웨어 또는 A/V 픽스처에 전달될 수 있다. 일부 실시예에서, 바이브 스트리밍 프로토콜(626)은 오디오 스트림에 직접 인코딩된 바이브 데이터를 포함할 수 있으며, 이는 고유 파일 포맷일 수 있다. 스트림에 포함되는 바이브 데이터는 "데이터 포맷"을 참조하여 상술한 동일 혹은 유사한 데이터일 수 있으며, 특정 구간 혹은 노래의 순간을 위한 시각화 데이터는 오디오와 함께 데이터 스트림에 직접 포함될 수 있다. 바이브 스트리밍 프로토콜(626)은 스트리밍 디바이스가 오디오 스트림의 각 단락과 동기하여 동반되는 시각 데이터에 접근할 수 있도록 한다. 일부 실시예에서, 고유 파일 포맷은 바이브 JSON Grid, 혹은 VJG, 혹은 "Grid"일 수 있다.

도 8은 바이브 스트리밍 프로토콜과 함께 HTTP 라이브 스트리밍(HTTP live streaming, HLS)을 사용하는 실시예의 도면(800)이다. 도면은 입력(802), 서버(804), 배포(806), 클라이언트(808)를 포함한다. 입력은 도 6을 참조하여 보다 상세히 설명한 음원(810)일 수 있다. 서버(804)는 몰입형 오디오 시스템(600)과 같은 몰입형 오디오 시스템을 운영하는 하나 이상의 컴퓨터 서버 혹은 클라우드 서버일 수 있고, 및/또는 HLS 서버일 수 있다. 일부 실시예에서, 서버(804)는 바이브 믹스의 시각화 및 오디오 부분을 인코딩할 수 있는 미디어 인코더(812)를 포함할 수 있다. 일부 실시예에서, 이는 AI 분석(610) 및 AI 바이브 생성자(612)에서 수행되는 것과 동일 혹은 유사할 수 있다. 결과적인 미디어 파일은 상술한 바이브 믹스에서 생성된 바와 같이 포함된 오디오 데이터 및 시각화 데이터를 모두 포함할 수 있다. 일부 실시예에서, 이러한 파일들은 VJG 파일 유형일 수 있고, 오디오 데이터를 포함하는 MP3 파일과 결합될 수 있다. 스트림 단락기(614)는 VJG 및 MP3 파일을 FVJG 및 FMP3 파일로, 스트리밍될 수 있는 단락으로 쪼갤 수 있다. 일부 실시예에서, 오리진 웹 서버(816)는 네트워크(822)를 통해 사용하여 파일을 배포할 수 있다. 인덱스 파일(818)은 각 단락이 노래의 해당 부분에 대한 적절한 시각화 및 오디오 데이터를 포함하는 스트림의 상이한 단락들을 참조할 수 있다. 특정 단락은 네트워크(822)를 통해 클라이언트(824)에 단락으로 전달될 수 있는 f 파일(820)일 수 있다. 클라이언트(824)는 사용자의 A/V 픽스처에 시각화 큐를 해석하고 배정할 수 있는 본 명세서에서 설명된 바와 같은 클라이언트 소프트웨어 애플리케이션을 실행할 수 있는 컴퓨팅 디바이스일 수 있다. 이에 따라, 바이브 스트리밍 프로토콜은 스트림의 특정 단락에 대해 시각적으로 무엇이 발생할 수 있는지에 대한 지시를 포함할 수 있으며, 이에 따라 시각적 반주를 오디오와 함께 배포할 수 있다.

일부 실시예에서, 사용자가 특정 미디어 환경에서 셋업할 수 있는 구역이 얼마나 많은지에 관계없이, 사용자의 능력을 초과하는 구역에 대한 구역 정보를 포함할 수 있는 동일한 바이브 스트리밍 프로토콜이 사용될 수 있다. 예를 들어, 각 바이브 스트리밍 프로토콜 파일은 최대 8개의 구역에서 사용가능한 정보를 포함할 수 있지만, 다른 최대 개수의 구역이 사용될 수 있다. 클라이언트 소프트웨어 애플리케이션이 바이브 스트리밍 프로토콜을 사용하여 바이브를 요청할 때에는 사용자의 장비가 수용할 수 있는 구역의 수에 대한 정보만을 요청할 수 있었다. 바이브 믹스 내의 시각적 정보는 구역별로 맵핑될 수 있고 클라이언트 소프트웨어 애플리케이션은 A/V 픽스처를 구역으로 분리하기 때문에, 사용자의 특정 미디어 환경과 상관없이 바이브 스트리밍 프로토콜을 사용할 수 있다.

AI 엔진 분석

도 7은 몰입형 오디오 시스템(600)에서 AI 분석(610)과 AI 바이브 설계자(612)가 나타내는 바이브 믹스 데이터를 생성하는 것을 분석하기 위해 하나 이상의 AI 엔진에 대한 데이터 흐름을 나타내는 데이터 흐름도(700)이다. 하나 이상의 음원(601)으로부터의 데이터는 AI 분석(610)에 의해 수신될 수 있다. AI 분석(610)은 제1 AI 엔진(650) 및 제2 AI 엔진(652)과 같은 하나 이상의 AI 엔진을 포함할 수 있다. 제1 및 제2 AI 엔진(650, 652)은 상대적으로 평평한 오디오 파일을 시각화 목적으로 다르게 처리될 수 있는 노래 부분의 위치를 파악하는 데 사용될 수 있는 데이터의 볼륨으로 변환하기 위해 트랙 분석을 수행할 수 있다. 음원은 MP3와 같은 하나 또는 다양한 포맷의 음악 데이터를 제공할 수 있다. 음악 트랙은 아티스트, 제목, 장르, 길이 등과 같은 특정 메타데이터를 포함할 수 있다. 제1 인공 지능 엔진(650)은 트랙을 분석하여 BPM(Beats Per minute), 비트, 구간 등의 곡 피처를 결정할 수 있다. 일부 실시예에서, 제1 AI 엔진(650)은 이 트랙 정보를 반환하기 위해 Spotify와 같은 DSP API(670)에 트랙 메타데이터를 송신할 수 있다. 제1 인공 지능 엔진(650)은 트랙을 분석하여 스템 MP3 및 스템 PCM 정보를 결정할 수 있다. 스템 PCM은 특정 드럼과 관련된 스템 데이터(예를 들어, 스네어, 킥, 베이스), 보컬, 리드/멜로디 등을 포함할 수 있다. 제2 AI 엔진(652)은 스템 데이터, BPM, 비트, 구간, 및 장르 데이터를 수신하고, 악구를 생성할 수 있다. 일부 실시예에서, 악구는 특정 구간의 시작 및/또는 종료(예를 들어, 드롭: 시작 및 종료, 벌스: 시작 및 종료)을 포함할 수 있다. 이에 따라 제2 인공 지능 엔진(652)은 이러한 악구 이벤트가 트랙 전체에 걸쳐 발생하는 곳의 위치를 파악하고 이를 나타내는 데이터를 생성할 수 있다.

AI 바이브 설계자(612)는 AI 분석(610)으로부터 분석 데이터를 수신하여 몰입형 오디오 경험을 생성하는데 사용될 수 있는 적절한 시각화를 적용할 수 있는 하나 이상의 AI 엔진을 포함할 수 있다. 도 7의 실시예는 제3 AI 엔진(654)과 제4 AI 엔진(656)을 포함한다. 일부 실시예에서, 제3 AI 엔진(654)은 제1 AI 엔진(650)에 의해 생성된 스템 PCM 데이터, 제2 AI 엔진(652)에 의해 생성된 악구 데이터, 및 DSP API(670) 또는 제1 AI 엔진 중 어느 하나에 의해 수신된 BPM 정보를 수신할 수 있다. 제3 AI 엔진(654)은 이 데이터를 처리하여 바이브, 바이브 믹스, 또는 바이브 데이터를 생성할 수 있다. 바이브는 경험 데이터 컨테이너 시간 코딩된 지시 및 이벤트, 및 기타 메타데이터일 수 있다. 예를 들어, 여러 8 마디 음악 악구가 포함될 수 있는 노래로, 생성된 바이브는 여러 8 마디 길이의 바이브들로 오디오 파일을 풍부하게 할 수 있다. 일부 실시예에서, 바이브는 대신 악구의 길이일 수 있다. 일부 실시예에서, 오디오의 단일 피스는 많은 호환가능한 바이브들을 포함할 수 있다. 일부 실시예에서, 제3 AI 엔진(654)에 의해 생성된 바이브는 명칭, 무드, 음악 키, 악구에 대한 에너지/강도, 레벨/음량, 커브(예를 들어, 시간에 따른 스템의 변화)과 같은 데이터 필드를 포함할 수 있다. 일부 실시예에서, 무드는 상이한 시각화 효과들로 나타내어질 수 있는 혼란, 슬픔, 강함, 행복, 분노, 활기, 휴식, 우울, 걱정, 상처, 외로움, 후회, 냉담과 같은 상이한 톤을 포함할 수 있다. 일부 실시예에서, 제1 인공 지능 엔진(650), 제2 인공 지능 엔진(652), 제3 인공 지능 엔진(654), 제4 인공 지능 엔진(656)은 본 명세서에서 설명된 각 기능을 개선하기 위해 반복적인 방식으로 함께 작동할 수 있다. 나아가 당업자는 운영 순서가 항상 설명된 동일한 순서를 따르지 않을 것이고, 서로 다르거나 조합된 인공 지능 엔진이 여전히 본 개시의 범위에 속하면서 유사한 데이터를 분석하고 추출할 수 있음을 인식할 것이다.

일부 실시예에서, 제4 인공 지능 엔진(656)은 제3 인공 지능 엔진(654)에 의해 생성된 바이브 데이터와 특정 유형의 장비에 특정될 수 있는 디바이스 구성 데이터를 수신할 수 있다. 예를 들어, 헤드 회전 픽스처는 그 픽스처에 특정 활동을 배정하기 위해 제4 인공 지능 엔진(656)이 처리할 수 있는 퍼포먼스 및 능력에 관한 특정 구성 사양을 가질 수 있다. 일부 실시예에서, 제4 인공 지능 엔진(656)이 수신한 디바이스 구성 데이터는 특정 사용자의 A/V 픽스처 환경에 대한 것일 수 있고, 보다 일반적인 카테고리 또는 픽스처 유형에 대한 것일 수 있다. 제4 인공 지능 엔진(656)은 바이브 데이터 및 디바이스 구성 데이터를 처리하여 시퀀스를 생성할 수 있다. 각 시퀀스는 생성된 바이브 경험을 이행하기 위해 트랙의 특정 부분에서 활성화될 특정 작업을 특정 A/V 픽스처 또는 픽스처의 유형에 배정할 수 있다. 예를 들어, 시퀀스는 특정 시간 길이 동안 활성화될 헤드 회전 디바이스에 대한 정보를 포함할 수 있는데, 이는 악구의 길이 또는 특정 바이브의 길이일 수 있다. 시퀀스는 또한, 디바이스가 특정 시퀀스를 참조하여 수행할 특정 동작 및 시간을 포함할 수 있다. 예를 들어, 48초의 시퀀스가 0초에 "시작"하고 48초에 종료하한다면 그 시퀀스를 참조한다. 이 48초 동안 시퀀스 데이터는 특정 동작에 대한 회전(X축, Y축, 및 Z축), 색상, 애퍼처, 및 시작 시간과 관련된 정보를 포함할 수 있다. 예를 들어, 시퀀스는 Y축 상에서 24초 동안 180도 위치로 회전 헤드가 시퀀스로 회전하고, 48초 마크에서 Y축 상에서 0도 위치로 다시 회전하는 데이터를 포함할 수 있다. 당업자라면 트랙 동안 각 악구 및/또는 바이브에 대해 A/V 픽스처의 각 유형마다 상세한 시퀀스가 생성될 수 있음을 이해할 것이다.

일부 실시예에서, AI 데이터 흐름도(700)의 출력은 본 명세서에서 보다 상세히 설명하는 바와 같이 바이브 믹스(658)일 수 있다. 바이브 믹스(658)는 사용자의 실제 또는 가상 A/V 픽스처를 통해 특정 몰입형 오디오 경험을 제공하기 위해 오디오 트랙에 바인딩될 수 있는 데이터를 포함할 수 있다. 예를 들어, 일부 실시예에서, 바이브 믹스(658)는 명칭, 트랙(음악 트랙 특정 바이브인 경우), 바이브가 시작 및 종료해야 하는 장소(비트 또는 시간 단위), 특정 시퀀스의 트랙 내의 위치 등과 같은 정보를 포함할 수 있다. 즉, 바이브 믹스(658)는 시스템(600)이 제공하는 원하는 몰입형 오디오 경험을 생성하는데 필요한 데이터를 포함할 수 있다.

실제 조명 픽스처 및 가상 조명 픽스처

당업자라면 이해할 수 있듯이, 몰입형 오디오 시스템(600)이 생성하는 바이브 데이터는 조명, 스마트 조명, 시각화 환경, 레이저 등 다양한 상이한 실생활 또는 가상 A/V 픽스처로 구현될 수 있다. 도 9는 본 명세서에서 설명하는 몰입형 오디오 시스템의 맥락 또는 다른 미디어 환경에서 사용될 수 있는 커스텀 스마트 조명 픽스처(900)의 일 실시예이다. 조명 픽스처(900)는 실질적으로 원형 또는 링 형상일 수 있으며, 주어진 미디어 환경에서 벽, 천장 또는 다른 면에 장착되도록 구성될 수 있으며, 배터리, A/C 전원 등을 통해 전원을 공급받을 수 있다. 일부 실시예에서, 조명 픽스처(900)는 와이파이, 블루투스, 또는 다른 무선 또는 유선 연결을 통해 무선 네트워크에 연결되도록 구성될 수 있다. 일부 실시예에서, 조명 픽스처(900)는 미러, 색상 전구, LED 조명, 광굴절 재료를 조합할 수 있으며, 본 명세서에서 설명하는 클라이언트 소프트웨어 애플리케이션과 같은 소프트웨어를 통해 또는 오디오 감지 능력 또는 다른 소프트웨어 제어를 통해 음악에 동기화될 수 있다. 조명 픽스처(900)는 음악에 동기화되도록 구성가능한 색상, 저지연 스마트 전구일 수 있는 복수의 조명 전구들(902)을 포함할 수 있다. 도 9에서는 8개의 전구(902)를 포함하는 조명 픽스처 실시예(900)를 도시하고 있지만, 조명 전구(902)의 개수는 원하는 시각 효과에 따라 달라질 수 있다. 조명 픽스처(900)는 조명 효과를 발생시키기 위해 반사 텍스처를 포함할 수 있는 광굴절 소자(904)를 포함할 수 있다. 일부 실시예에서, 굴절 소자(904)는 도 10a 내지 10c에서 가장 잘 볼 수 있는 바와 같이 각 조명 전구를 실질적으로 덮는 링에 배치될 수 있다. 시청자의 관점에서, 전구(902)는 굴절 요소(904) 뒤에 위치하여 전구의 빛이 굴절 요소를 통해 방으로 비춰져 시각적 효과를 낼 수 있다. 일부 실시예에서, 굴절 요소(904)는 하나 이상의 조각으로 구성될 수 있고, 실질적으로 투명하거나 반투명할 수 있고, 색상이 선명하거나 하나 이상의 색상으로 착색될 수 있다.

일부 실시예에서, 조명 픽스처(900)는 하나 이상의 LED 스트립(906)을 포함할 수 있다. LED 스트립(906)은 경사형, 굴절 요소(904)의 내부(전구측)에 빛을 비추기 위해 빛을 향하게 하여 감쌀 수 있는 적외선을 포함하는 다중 구역 LED 스트립일 수 있다. 일부 실시예에서, LED 스트립(906)은 전구(902)와 굴절 요소(904)에 의해 형성된 링 패턴을 대체로 추적할 수 있는 LED 링을 실질적으로 형성하도록 배치될 수 있다. LED 스트립(906)은 음악에 동기화될 수 있다. 일부 실시예에서, 조명 픽스처(900)는 전구(902)가 미러(908)과 굴절 요소(904) 사이에 배치될 수 있도록 픽스처의 후방에 장착될 수 있는 하나 이상의 미러(908)을 더 포함할 수 있다. 일부 실시예에서, 미러(908)는 전구(902)와 굴절 요소(904)의 링의 경계를 지나 외측으로 확장될 수 있다. 미러(908)은 전구(902)와 LED 스트립(906)의 빛을 반사하여 그 효과를 증폭시킬 수 있다.

일부 실시예에서, LED 스트립은 LED 구역으로 나뉠 수 있다. 예를 들어, 도 10a는 링 형상의 굴절 요소(904a) 주위에 실질적으로 균등하게 배열된 4개의 전구(902a)를 포함하는 조명 픽스처(900a)의 일 실시예를 도시한다. 조명 픽스처(900a)는 굴절 요소(904a) 주위에 링 형상으로 배열되고 4개의 LED 구역(906a1, 906a2, 906a3, 906a4)으로 나뉘어진 LED 스트립(906a)을 더 포함한다. 4개의 구역 각각은 실질적으로 각 인접한 전구(902a) 사이에 배치될 수 있다. LED 스트립(906a)은 각 구역마다 인접한 전구(902a)나 다른 구역과 협력하여 상이한 색상의 조명을 나타내도록 프로그램되거나 지시될 수 있다. 도 10b는 8개의 전구(902b), 미러(908b), 굴절 요소(904b), 8개의 구역으로 나뉘어질 수 있는 LED 스트립(906b)을 포함하는 조명 픽스처(900b)의 유사한 실시예를 도시한다. 도 10a와 마찬가지로, 도 10b의 LED 스트립(906b)은 인접한 전구들 사이에 정의된 별개의 구역, 예를 들어, 8개의 상이한 LED 구역을 포함할 수 있다. 도 10c는 16개의 전구(902c), 미러(908c), 굴절 요소(904c), 8개의 구역으로 나뉘어질 수 있는 LED 스트립(906c)을 포함하는 조명 픽스처(900c)의 유사한 실시예를 도시한다. 도 10c의 LED 스트립(906c)은 인접한 전구(902c) 사이에 정의된 별개의 구역, 예를 들어, 16개의 상이한 LED 구역을 포함할 수 있다. 일부 실시예에서, 조명 픽스처(900)는 4번 또는 2번에 의해 나뉠 수 있는 다수의 조명들 및/또는 대응하는 LED 구역을 포함하는 것이 바람직할 수 있다. 일부 실시예에서, 원하는 시각적 효과를 전달하기 위해 임의의 원하는 수의 빛과 대응하는 LED 구역이 사용될 수 있다.

일부 실시예에서, 가상 조명 "픽스처"는 본 명세서에서 개시된 몰입형 오디오 시스템과 함께 구현될 수 있다. 일부 실시예에서, 사용자는 음악 반응적이 될 수 있는 레이어를 포함할 수 있는 디지털 아바타 또는 이미지를 생성, 구매 또는 달리 획득할 수 있다. 디지털 아바타는 다른 아바타와 함께 콘서트, 바이브 샵, 또는 그 밖의 사교 모임에 참석하기 위해 메타버스 전반에 걸쳐 사용될 수 있는 사용자의 "디지털 트윈" 역할을 할 수 있다. 일부 실시예에서, 디지털 이미지는 NFT의 특정 사용자 또는 소유자에게 고유할 수 있는 NFT로서 민팅될 수 있다. 민팅 과정에서 아바타 이미지는 PNG 레이어가 달라져 다른 변화로 어셈블링될 수 있다. 민트 후에는, 모든 레이어가 마치 가상의 조명 픽스처인 것처럼 맵핑될 수 있다. 즉, 사용자의 디지털 트윈은 독특한 방식으로 각 음악에 반응하는 상이한 레이어를 포함할 수 있다. 일부 실시예에서, 레이어는 본 명세서에서 설명된 몰입형 오디오 시스템을 사용하여 생성된 바이브 믹스를 처리하고 이에 응답할 수 있거나, 사용자는 (예를 들어, 픽스처로서) 디지털 아바타가 자신의 아바타 레이어의 맵핑에 따라 응답하도록 각자의 바이브를 설계할 수 있다. 일부 실시예에서, 사용자의 디지털 아바타 또는 NFT 아바타는 음악 반응 레이어를 가진 메타버스에서 다른 인간들에 의해 본 명세서에서 개시된 바와 같은 하나 이상의 바이브 믹스의 시각화된 출력을 통해 고유한 시각적 디스플레이를 생성하는 것으로 볼 수 있다.

도면은 단지 예시의 목적을 위한 바람직한 실시예를 도시한다. 관련 기술분야의 통상의 기술자는 이하의 논의로부터, 본 명세서에서 예시되는 구조들 및 방법들의 대안적인 실시예들이 본 명세서에서 설명되는 원리들로부터 벗어나지 않으면서 이용될 수 있다는 것을 쉽게 인식할 것이다.

본 개시를 읽으면, 당업자는 본 명세서에서 개시된 원리를 통해 본 명세서에서 설명된 시스템 및 방법에 대한 추가적인 대안적인 구조적 및 기능적 설계를 여전히 인식할 것이다. 이에 따라, 특정 실시예 및 적용례를 예시하고 설명하였지만, 개시된 실시예는 본 명세서에서 개시된 정확한 구성 및 구성요소에 한정되지 않는다는 것을 이해하여야 한다. 당업자에게 명백할 다양한 수정, 변경 및 변형이 첨부된 청구범위에 정의된 정신 및 범위를 벗어나지 않고 본 명세서에서 개시된 시스템 및 방법의 배열, 동작 및 상세한 내용에서 이루어질 수 있다.

Claims

몰입형 오디오 경험을 생성하기 위한 컴퓨터 구현 방법으로서,
사용자 컴퓨팅 디바이스로부터, 사용자 인터페이스를 통해 오디오 트랙의 사용자 선택을 수신하는 단계;
오디오 소스로부터, 상기 오디오 트랙에 대한 오디오 트랙 메타데이터를 수신하는 단계;
상기 트랙 메타데이터에 기초하여 오디오 데이터베이스에 질의하는 단계;
상기 질의에 기초하여, 상기 오디오 트랙에 대한 오디오 데이터가 상기 오디오 데이터베이스에 저장되어 있지 않다고 결정하는 단계;
상기 오디오 트랙에 대한 오디오 데이터가 상기 오디오 데이터베이스에 저장되어 있지 않다고 결정하는 것에 기초하여, 상기 오디오 트랙을 분석하여 하나 이상의 오디오 트랙 특성을 결정하는 단계;
상기 하나 이상의 오디오 트랙 특성에 기초하여, 바이브 데이터(vibe data)를 생성하는 단계 ― 상기 바이브 데이터는 시간 코딩된(time-coded) 메타데이터를 포함함 ―;
상기 바이브 데이터에 기초하여, 상기 사용자 컴퓨팅 디바이스와 통신하는 하나 이상의 시청각(audio/visual, A/V) 디바이스에 대한 시각화 지시를 생성하는 단계; 및
상기 생성된 시각화 지시 및 상기 오디오 트랙을 상기 사용자 컴퓨팅 디바이스에 송신하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 하나 이상의 트랙 특성은 상기 오디오 트랙의 하나 이상의 구간(section)을 포함하는 것인, 방법.
제1항에 있어서, 상기 하나 이상의 트랙 특성은 상기 오디오 트랙의 장르, 비트, BPM(beats per minute), 스템(stem), 주파수, 또는 악구(phrase) 중 적어도 하나를 포함하는 것인, 방법.
제1항에 있어서, 상기 오디오 트랙을 분석하는 단계는 하나 이상의 인공 지능(AI) 엔진 또는 머신 러닝 기법을 사용하는 것인, 방법.
제1항에 있어서, 상기 오디오 소스는 디지털 서비스 제공자(digital service provider, DSP)인 것인, 방법.
제1항에 있어서, 상기 생성된 시각화 데이터 및 상기 오디오 트랙은 스트리밍 프로토콜을 사용하여 상기 사용자 컴퓨팅 디바이스로 송신되는 것인, 방법.
제6항에 있어서, 상기 스트리밍 프로토콜은 상기 생성된 시각화 데이터의 부분들을 상기 오디오 트랙의 연관된 부분들에 바인딩(binding)하는 것을 포함하는 것인, 방법.
몰입형 오디오 경험을 생성하기 위한 시스템으로서,
복수의 A/V 디바이스들과 무선으로 통신하도록 구성된 사용자 컴퓨팅 디바이스 ― 상기 사용자 컴퓨팅 디바이스는 오디오 트랙의 사용자 선택을 수신하기 위한 그래픽 사용자 인터페이스를 제공하기 위한 프로세서 실행가능 지시를 포함하는 메모리와 통신하는 하나 이상의 프로세서를 포함함 ―; 및
상기 사용자 컴퓨팅 디바이스와 전자 통신하는 하나 이상의 원격 컴퓨터 서버를 포함하며, 상기 하나 이상의 원격 컴퓨터 서버는:
오디오 소스로부터 상기 오디오 트랙에 대한 오디오 트랙 메타데이터를 수신하고,
상기 오디오 트랙 메타데이터를 분석하여 상기 오디오 트랙과 연관된 하나 이상의 오디오 트랙 특성을 결정하고,
상기 하나 이상의 오디오 트랙 특성에 기초하여, 바이브 데이터를 생성하고 ― 상기 바이브 데이터는 시간 코딩된 메타데이터를 포함함 ―,
상기 바이브 데이터에 기초하여, 상기 복수의 시청각(A/V) 디바이스들 중 적어도 하나에 대한 시각화 지시를 생성하고,
상기 생성된 시각화 지시 및 상기 오디오 트랙을 상기 사용자 컴퓨팅 디바이스에 송신하기 위한 프로세서 실행가능 지시를 포함하는 메모리와 통신하는 하나 이상의 프로세서를 포함하며,
상기 사용자 컴퓨팅 디바이스의 메모리는 상기 생성된 시각화 지시를 상기 복수의 시청각(A/V) 디바이스들 중 적어도 하나에 송신하기 위한 프로세서 실행가능 지시를 더 포함하는 것인, 시스템.
제8항에 있어서, 상기 하나 이상의 트랙 특성은 상기 오디오 트랙의 하나 이상의 구간을 포함하는 것인, 방법.
제8항에 있어서, 상기 하나 이상의 트랙 특성은 상기 오디오 트랙의 장르, 비트, BPM(beats per minute), 스템, 주파수, 또는 악구 중 적어도 하나를 포함하는 것인, 방법.
제8항에 있어서, 상기 오디오 트랙을 분석하는 단계는 하나 이상의 인공 지능(AI) 엔진 또는 머신 러닝 기법을 사용하는 것인, 방법.
제8항에 있어서, 상기 오디오 소스는 디지털 서비스 제공자(digital service provider, DSP)인 것인, 방법.
제8항에 있어서, 상기 생성된 시각화 데이터 및 상기 오디오 트랙은 스트리밍 프로토콜을 사용하여 상기 사용자 컴퓨팅 디바이스로 송신되는 것인, 방법.
제13항에 있어서, 상기 스트리밍 프로토콜은 상기 생성된 시각화 데이터의 부분들을 상기 오디오 트랙의 연관된 부분들에 바인딩(binding)하는 것을 포함하는 것인, 방법.
몰입형 오디오 경험을 생성하기 위한 컴퓨터 구현 방법으로서,
사용자 컴퓨팅 디바이스로부터, 사용자 인터페이스를 통해 오디오 트랙의 사용자 선택을 수신하는 단계;
상기 오디오 트랙을 분석하여 하나 이상의 오디오 트랙 특성을 결정하는 단계;
상기 하나 이상의 오디오 트랙 특성에 기초하여, 바이브 데이터를 생성하는 단계 ― 상기 바이브 데이터는 시간 코딩된 메타데이터를 포함함 ―;
상기 사용자 컴퓨팅 디바이스로부터, 상기 바이브 데이터를 편집하여 사용자 바이브 데이터를 생성하기 위한 하나 이상의 사용자 지시를 수신하는 단계;
상기 사용자 바이브 데이터에 기초하여 시각화 지시를 생성하는 단계; 및
상기 생성된 시각화 지시 및 상기 오디오 트랙을 상기 사용자 컴퓨팅 디바이스에 송신하는 단계를 포함하는, 방법.
제15항에 있어서, 상기 하나 이상의 트랙 특성은 상기 오디오 트랙의 하나 이상의 구간을 포함하는 것인, 방법.
제15항에 있어서, 상기 하나 이상의 트랙 특성은 상기 오디오 트랙의 장르, 비트, BPM(beats per minute), 스템, 주파수, 또는 악구 중 적어도 하나를 포함하는 것인, 방법.
제15항에 있어서, 상기 오디오 트랙을 분석하는 단계는 하나 이상의 인공 지능(AI) 엔진 또는 머신 러닝 기법을 사용하는 것인, 방법.
제15항에 있어서, 상기 오디오 소스는 디지털 서비스 제공자(DSP)인 것인, 방법.
제1항에 있어서, 상기 생성된 시각화 데이터 및 상기 오디오 트랙은 스트리밍 프로토콜을 사용하여 상기 사용자 컴퓨팅 디바이스로 송신되고, 상기 스트리밍 프로토콜은 상기 생성된 시각화 데이터의 부분들을 상기 오디오 트랙의 연관된 부분들에 바인딩하는 것을 포함하는 것인, 방법.