KR20230125985A

KR20230125985A - 심층신경망 기반 다계층 구조를 활용한 오디오 신호의 압축 방법, 압축 장치, 및 그 훈련 방법

Info

Publication number: KR20230125985A
Application number: KR1020220022902A
Authority: KR
Inventors: 장인선; 백승권; 성종모; 이태진; 임우택; 조병호; 강홍구; 이지현; 이찬우; 임형섭
Original assignee: 한국전자통신연구원; 연세대학교 산학협력단
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2023-08-29
Also published as: US20230267940A1; US11881227B2

Abstract

본 발명에 따른 오디오 신호 압축 방법은 프로세서에 의해서 실행되는 복수의 계층들에서 오디오 신호를 압축하는 방법에 있어서, 입력 받은 오디오 신호를 최상위 계층에서 제1 신호로서 복원하는 단계(a), 최상위 계층 또는 직전의 중간 계층에서 상기 복원된 오디오 신호를 업샘플링 한 후, 상기 업샘플링된 신호를 상기 입력 받은 오디오 신호에서 뺀 신호를 적어도 하나 이상의 중간 계층에서 입력 받아 제2 신호로서 복원하는 단계(b), 및 최하위 계층 직전의 중간 계층에서 상기 복원된 오디오 신호를 업샘플링한 후, 상기 업샘플링된 신호를 상기 입력 받은 오디오 신호에서 뺀 신호를 상기 최하위 계층에서 입력 받아 제3 신호로서 복원하는 단계(c)를 포함하고, 상기 제1 신호, 상기 제2 신호, 및 상기 제3 신호가 결합되어 최종 복원 오디오 신호가 출력되며, 상기 최상위 계층, 상기 적어도 하나 이상의 중간 계층, 및 상기 최하위 계층은 각 계층별로 부호화기, 양자화기 및 복호화기를 구비하는 것을 특징으로 한다.

Description

심층신경망 기반 다계층 구조를 활용한 오디오 신호의 압축 방법, 압축 장치, 및 그 훈련 방법{AUDIO GENERATION DEVICE AND METHOD USING ADVERSARIAL GENERATIVE NEURAL NETWORK, AND TRAINNING METHOD THEREOF}

본 발명은 오디오 신호를 압축하고 복원하는 기술에 관한 것으로, 보다 상세하게는, 다계층 구조를 활용하여 오디오 신호를 압축하고 복원하기 위한 심층신경망 기반의 오디오 신호 압축 방법, 압축 장치, 및 그 학습 방법에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래 기술을 구성하는 것은 아니다.

종래 오디오 압축 기술 중 손실 압축 기반 방식은 오디오 신호 내에서 일부 신호 성분을 제거함으로써 신호를 장치에 저장하거나 통신을 위해 전송하는 데 필요한 정보의 양을 줄이는 기술이다. 또한, 종래의 손실 압축 기반 방식은 일부 신호의 상실로 인해 발생하는 왜곡이 가급적 일반적인 청취자들에게 적게 인지될 수 있도록 심리음향적(Psychoacoustic) 지식을 바탕으로 제거할 신호 성분을 결정하여 제거하였다. 그 대표적인 예로, MP3나 AAC 같이 현재 다양한 멀티미디어 서비스에서 활용되고 있는 주요 오디오 코덱들은 MDCT(Modified Discrete Cosine Transform)와 같은 전통적인 신호 변환 기술을 이용해 신호를 구성하는 주파수 성분을 분석하고, 다양한 청취 실험을 통해 설계된 심리음향모델(Psychoacoustic Model)을 기반으로 각 주파수 성분이 실제로 사람에게 인지되는 정도와 함께 각 주파수 성분에 보다 낮은 비트를 부호화에 할당하였을 때의 왜곡 정도를 판단하여 그 중요도에 따라 각 주파수 성분에 할당할 비트의 수를 결정하고 있다. 그 결과 현재 상용 코덱들은 약 7배에서 10배 정도의 압축률에서도 거의 원본 신호와 구분이 불가능한 수준의 압축 복원 품질을 달성하였다.

최근에는 전통적인 신호 처리 방식에서 벗어나 급격히 발전하고 있는 심층 신경망 기반 딥러닝 기술을 오디오 신호의 압축에 접목하고자 하는 노력이 지속적으로 이루어지고 있다. 특히, 비트 할당 이전의 신호 변환 방식과 입력 신호에 따른 비트 할당 방식, 그리고 변환된 신호로부터 시간축 파형 신호의 변환 방식 모두를 심층 신경망 모듈로 대체한 뒤 다양한 데이터를 통해 최적의 변환 및 양자화 방식을 찾아내고자 하는 연구들이 시도되고 있다.

그러나 이와 같은 종단간(End-To-End) 심층 신경망 구조들은 그 구조적인 한계로 인하여 아직까지 그 응용이 주로 음성 신호에 한정되어 있으며, 보다 넓은 주파수 대역의 성분을 포함하고 있으며, 그 패턴이 다양한 일반 음향 신호에 대해서는 제한된 성능을 보여주고 있는 문제가 있다.

상기와 같은 문제를 해결하기 위한 본 발명의 목적은 음향 신호 압축을 위한 종단간 심층 신경망 구조를 구성하는 데 있어 부호화 및 복호화 방식의 개선을 통해 동일한 데이터 양 대비 복원 후 음향 품질을 향상시키는 방법을 제공하는데 그 목적이 있다.

상기와 같은 문제를 해결하기 위한 본 발명의 다른 목적은 20 kHz 이상의 넓은 대역폭을 가지는 전대역(full-band) 신호에 대해서도 효과적으로 압축을 수행할 수 있는 방법을 제공하는데 그 목적이 있다.

상기와 같은 문제를 해결하기 위한 본 발명의 또 다른 목적은 20 kHz 이상의 넓은 대역폭을 가지는 전대역(full-band) 신호에 대해서도 효과적으로 압축을 수행할 수 있는 장치의 효과적인 학습을 위한 훈련 방식을 제공하는데 그 목적이 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 오디오 신호 압축 방법은 프로세서에 의해서 실행되는 복수의 계층들에서 오디오 신호를 압축하는 방법에 있어서, 입력 받은 오디오 신호를 최상위 계층에서 제1 신호로서 복원하는 단계(a), 최상위 계층 또는 직전의 중간 계층에서 상기 복원된 오디오 신호를 업샘플링 한 후, 상기 업샘플링된 신호를 상기 입력 받은 오디오 신호에서 뺀 신호를 적어도 하나 이상의 중간 계층에서 입력 받아 제2 신호로서 복원하는 단계(b), 및 최하위 계층 직전의 중간 계층에서 상기 복원된 오디오 신호를 업샘플링한 후, 상기 업샘플링된 신호를 상기 입력 받은 오디오 신호에서 뺀 신호를 상기 최하위 계층에서 입력 받아 제3 신호로서 복원하는 단계(c)를 포함하고, 상기 제1 신호, 상기 제2 신호, 및 상기 제3 신호가 결합되어 최종 복원 오디오 신호가 출력되며, 상기 최상위 계층, 상기 적어도 하나 이상의 중간 계층, 및 상기 최하위 계층은 각 계층별로 부호화기, 양자화기 및 복호화기를 구비한다.

상기 단계(a), 단계(b), 및 단계(c) 각각은: 상기 부호화기가 입력되는 신호를 다운샘플링하여 부호화 하는 단계, 상기 양자화기가 상기 부호화된 신호를 양자화 하는 단계, 및 상기 복호화기가 상기 양자화 된 신호를 업샘플링하여 복호화 하는 단계를 포함할 수 있다.

상기 최상위 계층 및 상기 적어도 하나 이상의 중간 계층에 있어서, 상기 복호화기의 업샘플링 비율은 상기 부호화기의 다운샘플링 비율보다 작을 수 있다.

상기 부호화기 및 상기 복호화기는 합성곱 신경망(Convolutional Neural Network, CNN)으로 구성되고, 상기 양자화기는 신경망으로 학습 가능한 벡터 양자화기로 구성될 수 있다.

적어도 하나 이상의 중간 계층 및 최하위 계층에 있어서, 해당 계층에서 복원된 신호의 샘플링 주파수는 선행 계층의 복원된 신호의 샘플링 주파수보다 더 큰 샘플링 주파수를 가질 수 있다.

상기 적어도 하나 이상의 중간 계층, 및 상기 최하위 계층의 상기 복호화기는, 선행 계층 복호화기의 심층 신경망 구조 내부에서 얻어진 중간 신호를 다음 계층의 복호화기에 전달할 수 있다.

각 계층별로 할당되는 비트수를 설정하는 단계를 더 포함할 수 있다.

상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 오디오 신호 압축 장치에 있어서, 하나 이상의 명령들이 저장된 메모리(memory) 및 상기 메모리에 저장된 하나 이상의 명령을 실행하는 프로세서를 포함하고, 상기 하나 이상의 명령들은 오디오 신호 압축 장치가: 입력 받은 오디오 신호를 최상위 계층에서 제1 신호로서 복원하는 단계(a), 최상위 계층 또는 직전의 중간 계층에서 상기 복원된 오디오 신호를 업샘플링 한 후, 상기 업샘플링된 신호를 상기 입력 받은 오디오 신호에서 뺀 신호를 적어도 하나 이상의 중간 계층에서 입력 받아 제2 신호로서 복원하는 단계(b), 및 최하위 계층 직전의 중간 계층에서 상기 복원된 오디오 신호를 업샘플링한 후, 상기 업샘플링된 신호를 상기 입력 받은 오디오 신호에서 뺀 신호를 상기 최하위 계층에서 입력 받아 제3 신호로서 복원하는 단계(c)를 수행하도록 하며, 상기 제1 신호, 상기 제2 신호, 및 상기 제3 신호가 결합되어 최종 복원 오디오 신호가 출력되며, 상기 최상위 계층, 상기 적어도 하나 이상의 중간 계층, 및 상기 최하위 계층은 각 계층별로 부호화기, 양자화기 및 복호화기를 구비한다.

상기 단계(a), 단계(b), 및 단계(c) 각각은: 상기 부호화기가 입력되는 신호를 다운샘플링하여 부호화 하는 단계, 상기 양자화기가 상기 부호화된 신호를 양자화 하는 단계, 및 상기 복호화기가 상기 양자화 된 신호를 업샘플링하여 복호화 하는 단계를 포함하여 수행할 수 있다.

상기 부호화기 및 상기 복호화기는 합성곱 신경망(Convolutional Neural Network, CNN)으로 구성되며, 상기 양자화기는 신경망으로 학습 가능한 벡터 양자화기로 구성될 수 있다.

각 계층별로 할당되는 비트수를 설정하는 단계를 더 포함하여 수행할 수 있다.

상기 목적을 달성하기 위한 본 발명의 또 다른 실시예에 따른 각 계층에서 입력 받은 신호를 압축 및 복원하는 단계(a), 및 각 계층에서 복원된 신호와 해당 계층의 가이드 신호를 비교 판별하는 단계(b),를 포함하고, 상기 단계(a)는, 최상위 계층을 제외한 나머지 계층들에서 있어서 각 계층에 입력되는 신호는, 선행 계층에서 복원된 신호와 선행 계층의 가이드 신호를 소정의 비율로 결합한 신호를 업샘플링한 후, 상기 업샘플링된 신호를 상기 입력된 오디오 신호에서 제거한 신호인 것을 특징으로 한다.

상기 복수의 계층들은 각 계층별로 부호화기, 양자화기, 및 복호화기를 구비할 수 있다.

상기 부호화기 및 상기 복호화기는 합성곱 신경망(Convolutional Neural Network, CNN)로 구성되며, 상기 양자화기는 신경망으로 학습 가능한 벡터 양자화기로 구성될 수 있다.

상기 단계(b)에서 가이드 신호는, 최하위 계층의 가이드 신호는 상기 입력된 오디오 신호이고, 상기 최하위 계층 외의 계층의 가이드 신호들은 상기 입력된 오디오 신호를 해당 계층의 주파수 대역에 맞추어 설정된 밴드 패스 필터를 활용하여 해당 계층의 생성된 신호일 수 있다.

상기 단계(a)에서 선행 계층에서 복원한 신호와 선행 계층의 가이드 신호를 소정의 비율로 결합하는 것은, 상기 선행 계층의 복원 신호에 α를 곱하고, 상기 선행 계층의 가이드 신호에 '1- α'를 곱한 후, 상기 두 신호를 결합할 수 있다.

상기 'α'값은, 학습 초기 단계에서는 0으로 설정하였다가 점진적으로 1까지 증가시킬 수 있다.

본 발명에 의하면, 심층 신경망 기반 종단간 압축 모델의 설계에 있어 광대역 및 전대역 신호의 모든 주파수 대역을 다루는 하나의 코딩 계층을 이용하는 대신 서로 다른 주파수 대역을 다루는 다수의 계층을 결합하여 이용하는 구조를 채용하고, 계층 사이의 역할이 분리되도록 학습을 유도함으로써 넓은 대역폭을 가지는 신호의 보다 효율적인 압축을 가능하게 할 수 있다.

특히, 본 발명은 기존의 서브밴드 코딩(Subband Coding)의 방식을 계승함에 더하여, 본 발명의 후속 계층은 선행 계층에서 발생한 오차까지 보상하므로 보다 높은 복원 성능을 기대할 수 있다.

특히, 본 발명의 구조적 개선은 각 계층을 구성하는 부호화기, 복호화기, 그리고 양자화기의 설계 방식과 독립적인 관계를 가지므로 향후 딥러닝 기술의 발전으로 각 모듈의 개선이 이루어진 후에 더욱 높은 설계 효용을 창출할 수 있을 것으로 기대된다.

도 1은 본 발명의 일 실시예에 따른 심층신경망 기반 다계층 구조를 활용한 오디오 신호 압축 장치의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 심층신경망 기반 다계층 구조를 활용한 오디오 신호 압축 장치의 학습 방법을 보여주는 도면이다.
도 3은 본 발명의 일 실시예에 따른 MUSHRA Test 결과를 보여주는 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

본 출원의 실시예들에서, "A 및 B 중에서 적어도 하나"는 "A 또는 B 중에서 적어도 하나" 또는 "A 및 B 중 하나 이상의 조합들 중에서 적어도 하나"를 의미할 수 있다. 또한, 본 출원의 실시예들에서, "A 및 B 중에서 하나 이상"은 "A 또는 B 중에서 하나 이상" 또는 "A 및 B 중 하나 이상의 조합들 중에서 하나 이상"을 의미할 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 일 실시예에 따른 심층신경망 기반 다계층 구조를 활용한 오디오 신호 압축 장치의 블록도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 오디오 신호 압축 장치는 부호화기(1010, 2010, 3010), 양자화기(1020, 2020, 3020), 및 복호화기(1030, 2030, 3030)로 구성되는 복수의 코딩 계층(1000, 2000, 3000) 및 업샘플링 모듈(1100, 1200, 2100, 2200)을 포함하고 있을 수 있다. 상기 복수의 코딩 계층(1000, 2000, 3000)은 최상위 계층(1000), 최하위 계층(3000), 및 적어도 하나 이상의 중간 계층(2000)을 포함할 수 있다.

여기서, 개별적인 코딩 계층(1000, 2000, 3000)들은 부호화기(1010, 2010, 3010), 양자화기(1020, 2020, 3020), 및 복호화기(1030, 2030, 3030)를 포함하고 있음에 따라, 각 코딩 계층(1000, 2000, 3000)들은 계층별로 서로 다른 방식으로 압축 및 복원을 수행할 수 있다.

상기 부호화기(1010, 2010, 3010)는 입력 오디오 신호에 대해서 심층 신경망을 통한 변환을 수행하여 변환된 신호를 생성할 수 있다. 상기 부호화기(1010, 2010, 3010)는 상기 입력 오디오 신호를 후술되는 벡터 양자화에 적합하도록 변환할 수 있는 잔차 연결(Residual Connection)을 가진 합성곱 신경망(Convolutional Neural Networks) 계층으로 구현할 수 있다. 상기 부호화기(1010, 2010, 3010)는 입력된 신호를 특정한 비율만큼 다운 샘플링 할 수 있다.

상기 양자화기(1020, 2020, 3020)는 변환된 신호에 대해서 가장 적합한 코드를 할당함으로써 양자화를 수행할 수 있다. 상기 양자화기(1020, 2020, 3020)는 VQ-VAE(Vector Quantised-Variational AutoEncoder)를 활용하여 변환된 신호에 가장 가까운 코드 벡터를 선택함으로써, 임베딩 벡터(Embedding Vector)를 표현하는데 필요한 비트 수를 감소시킬 수 있다. 상기 양자화기(1020, 2020, 3020)는 VQ-VAE 내 VQ 관련 손실함수를 이용하여 VQ의 코드북을 학습할 수 있으며, 각각의 계층마다 독자적인 VQ 코드북을 가질 수 있다.

상기 복호화기(1030, 2030, 3030)는 양자화기로부터 전달된 코드를 심층 신경망에 통과시켜 최종적으로 시계열 오디오 신호를 복원할 수 있다. 상기 복호화기(1030, 2030, 3030)는 잔차 연결(Residual Connection)을 가진 합성곱 신경망(Convolutional Neural Networks) 계층으로 구현할 수 있다. 상기 복호화기(1030, 2030, 3030)는 상기 양자화기(1020, 2020, 3020)로부터 전달받은 신호를 특정한 비율만큼 업샘플링을 수행할 수 있다.

여기서, 최하위 계층(3000)을 제외한 모든 계층, 즉, 최상위 계층(1000) 및 중간 계층(2000)에 있어서, 해당 계층의 복호화기(1030, 2030)의 업샘플링 비율은 해당 계층의 부호화기(1010, 2010)의 다운샘플링 비율보다 작을 수 있다. 다시 말하면, 해당 계층(1000, 2000)에서 복원되는 신호들은 입력 오디오 신호보다 낮은 샘플링 주파수를 가질 수 있다. 이를 통하여, 본 발명은 각 계층에서 복원할 수 있는 주파수의 대역폭을 제한할 수 있다.

또한, 상기 부호화기(1010, 2010, 3010), 양자화기(1020, 2020, 3020), 및 복호화기(1030, 2030, 3030)는 모두 심층 신경망으로 구성되며, 기존의 딥러닝 학습 방식에 준하여 복원된 입력 신호와 입력 오디오 신호 사이에서 계산된 오차의 역전파를 통해 학습될 수 있다.

본 발명은 이와 같은 방식을 통해 특정한 하나의 코딩 계층이 입력 신호의 모든 주파수 대역을 변환하고 압축하는 것이 아니라, 복수의 코딩 계층을 구비하고, 하나의 코딩 계층은 일부 대역만을 다루도록 한정할 수 있다. 또한, 본 발명은 네트워크 학습 과정에서 각각의 계층들이 그에 대응되는 주파수 대역의 고유한 신호의 특성과 이에 따른 신호 변환 및 양자화 방식을 학습하도록 유도할 수 있다.

또한, 복호화기(1030, 2030, 3030)에서의 복원 성능을 향상시키기 위하여, 직전 계층의 복호화기(1030, 2030)를 구성하는 심층 신경망 구조 내부에서 얻어진 중간 신호는 해당 계층의 복호화기(2030, 3030)에 제공될 수 있다. 또한, 중간 신호를 결합하는 방식으로는 단순히 양측의 중간 신호를 더해주거나 그 사이에 임의의 심층 신경망 구조를 추가하는 등 다양한 방식이 적용될 수 있다. 다만, 해당 연결 방식은 네트워크의 학습을 위해 손실 함수의 역전파를 허용하는 것이어야 한다.

각 코딩 계층(1000, 2000, 3000)을 구성하는 데 있어 상기의 업샘플링, 다운샘플링의 비율에 대한 조건이 만족되는 한, 상기 부호화기(1010, 2010, 3010), 상기 양자화기(1020, 2020, 3020), 및 상기 복호화기(1030, 2030, 3030)의 세부적인 내부 구조에는 특별한 제약이 따르지 않으며, 본 발명에서 제안하는 전체 시스템의 구성 방식은 내부 모듈의 세부 구조로 인해 실시를 제한 받지 아니한다. 상기 부호화기(1010, 2010, 3010)와 상기 복호화기(1030, 2030, 3030)를 구성하는 대표적인 구성 요소로는 합성곱 신경망(Convolutional Neural Network, CNN), 다층 퍼셉트론(Multi-Layer Perceptron, MLP) 및 다양한 비선형 함수들이 존재하며, 상기 요소들을 임의의 순서로 조합함으로써 각 부호화기(1010, 2010, 3010), 양자화기(1020, 2020, 3020), 및 복호화기(1030, 2030, 3030)를 구성할 수도 있다.

다시 도 1을 참조하면, 최상위 계층(1000)을 제외한, 중간 계층(2000) 및 최하위 계층(3000)은 직전 코딩 계층(1000, 2000)에서 복원된 신호를 상기 입력 오디오 신호에서 제거한 여분의 입력 오디오 신호가 입력될 수 있다. 이를 통하여, 각 계층이 다루는 주파수 대역이 중복되어 같은 신호가 불필요하게 여러 번 부호화되는 것을 방지할 수 있는 효과가 있다.

또한, 최종 복원 오디오 신호는 최하위 계층(3000)이 복원한 신호 및 이전 계층(1000, 2000)들에서 복원된 신호와 합산됨으로써, 즉, 모든 계층(1000, 2000, 3000)의 복원 결과의 총합으로 결정될 수 있다.

예를 들면, 상기 최상위 계층(1000)에서 복원한 신호를 제1 신호, 상기 중간 계층(2000)에서 복원한 신호를 제2 신호, 및 상기 최하위 계층(3000)에서 복원한 신호를 제3 신호라고 할 수 있다. 상기 최상위 계층(1000)은 상기 입력 오디오 신호를 입력 받아 제1 신호를 생성할 수 있다. 상기 중간 계층(2000)은 상기 제1 신호를 업샙플링한 신호를 상기 입력 오디오 신호에서 제거한 신호를 입력 받아 제2 신호를 생성할 수 있다. 상기 최하위 계층(3000)은 상기 제2 신호를 업샙플링한 신호를 상기 입력 오디오 신호에서 제거한 신호를 입력 받아 제3 신호를 생성할 수 있다. 제1 신호, 제2 신호, 및 제3 신호를 결합하여 최종 복원된 오디오 신호를 출력할 수 있다. 여기서, 제1 신호 및 제2 신호는 동기화를 위해 소정의 비율로 업샘플링될 수 있다.

도 2는 본 발명의 일 실시예에 따른 심층신경망 기반 다계층 구조를 활용한 오디오 신호 압축 장치의 학습 방법을 보여주는 도면이다.

코딩 계층 간에는 샘플링 주파수의 차이가 존재하므로 이를 일치시키기 위하여 적절한 비율만큼 업샘플링 또는 다운샘플링을 수행할 필요가 있다. 본 발명에서는 복수의 계층이 보다 효과적으로 압축을 수행할 수 있도록 샘플링 주파수가 낮은 순서에서 높은 순서로 계층들을 연결할 수 있다. 이 경우, 도 2와 같이 후행 계층으로 전달되는 신호들은 업샘플링을 통해 샘플링 주파수가 동기화될 수 있다. 또한, 업샘플링 모듈(1100, 1200, 2100, 2200)에는 기존의 신호 처리 이론에 기반한 다양한 기술들이 사용될 수 있음은 자명하다.

그러나 상기 언급된 방식과 같이 네트워크를 구성할 경우, 중간 코딩 계층(2000)의 입력과 출력이 모두 이전 코딩 계층의 결과에 의존함으로써, 각 계층을 구성하는 심층 신경망의 파라미터들이 제대로 학습되지 않은 상태, 즉, 훈련 초기에는 학습이 원활히 진행되지 않을 가능성이 높다. 또한, 계층 간의 차별점을 제공하는 요소가 오직 다운샘플링 또는 업샘플링 비율의 차이만 존재하므로 계층 간의 역할을 보다 명확히 나누어 줄 수 있는 기준이 필요하다.

도 2를 참조하면, 본 발명에서는 이러한 문제를 해결하기 위하여, 각 계층(1000, 2000, 3000)에서는 부호화를 거쳐 생성된 중간 복원 신호와 계층 별로 주어지는 임의의 가이드 신호의 차이로부터 손실 함수가 계산되며 이를 통해 코딩 계층을 구성하는 심층 신경망 모듈들의 역전파 학습이 진행될 수 있다. 다시 말하면, 전체 네트워크는 최종 복원 신호와 입력 신호 사이의 차이만 최소화되도록 훈련되는 것이 아니라 중간 과정에서 복원되는 신호들과 임의의 가이드 신호들 사이의 차이 역시 최소화 되도록 훈련될 수 있다. 이때 손실 함수의 계산식은 모든 계층에서 동일할 수 있으나, 반드시 모든 식이 동일할 필요는 없으며 임의에 따라 계층 별로 조정이 가능하다.

상기 가이드 신호는 각 계층(1000, 2000, 3000)별로 복원된 신호가 가질 수 있는 최대 주파수 대역폭에 맞추어 대역 필터(bandpass filter)(1300, 2300)가 적용된 입력 오디오 신호가 이용될 수 있다. 전술한 바와 같이 각 코딩 계층의 복호화기(1030, 2030, 3030)는 부호화기(1010, 2010, 3010)보다 낮은 비율로 업샘플링을 수행하도록 되어 있음에 따라, 상기 중간 복원 신호는 상기 입력 오디오 신호보다 낮은 샘플링 주파수 및 좁은 대역폭을 가진다. 따라서 가이드 신호는 각 계층(1000, 2000, 3000)이 복원이 가능한 대역폭만큼의 신호가 주어질 필요가 있으며, 이는 상기 입력 오디오 신호에서 특정한 주파수 대역만을 각 계층(1000, 2000, 3000)의 대역폭 한계만큼 통과시키는 대역 필터(1300, 2300)를 이용함으로써 얻어낼 수 있다. 예를 들면, 상기 최하위 계층(3000)의 가이드 신호는 상기 입력 오디오 신호일 수 있고, 상기 중간 계층(2000) 및 상기 최상위 계층(1000)의 가이드 신호는 상기 입력 오디오 신호를 각 계층(1000, 2000, 3000)의 최대 주파수 대역폭에 맞추어진 대역 필터(1300, 2300)에 통과시킨 신호를 가이드 신호로 적용할 수 있다. 다만, 선행 계층의 중간 복원 신호가 후행 계층의 압축 과정에서 배제된다는 점을 고려하여 대역 필터(1300, 2300)들은 임의의 중간 계층이 다루는 주파수 대역이 모든 선행 계층이 다루는 주파수 대역을 포괄하도록 설계되어야 한다.

또한, 훈련 초기에 복호화기(1030, 2030, 3030)의 복원 성능이 떨어지는 점을 보완하기 위해 임의의 중간계층(2000)에서 복호화기(1030, 2030, 3030)를 통해 얻어진 중간 복원 신호 대신 상기 가이드 신호를 후행 코딩 계층의 부호화기(1010, 2010, 3010)와 복호화기(1030, 2030, 3030)에 전달할 수 있다. 이는 도 2의 'α'의 값을 0으로 설정하는 것으로 구현 가능하다. 이를 통해 훈련 초기에 각 계층은 입력 오디오 신호와 계층별 가이드 신호의 차이를 압축하고 복원하도록 독립적으로 학습될 수 있다.

상기 가이드 신호를 이용한 계층별 독립적 훈련이 수렴한 뒤에는 점차 α의 값을 증가시켜 각 계층이 선행 계층의 복원 결과를 반영할 수 있도록 훈련을 유도할 수 있다. 이 과정에서 중간 복원 신호와 가이드 신호는 각각 'α'와 '1-α'의 비율만큼 곱해진 뒤에 합산되고, 상기 합산된 신호가 업샘플링 모듈을 거쳐 후행 계층에 전달될 수 있다.

최종 훈련 단계에서는 'α'의 값을 1로 고정하여 모든 코딩 계층들이 선행 계층들의 복원 오차를 보상할 수 있도록 훈련이 유도될 수 있다. 이때 'α'의 값을 바꾸는 기준과 시기는 손실 함수의 수렴 정도를 기반으로 한 설계자의 판단에 따라 임의로 결정될 수 있다.

도 3은 본 발명의 일 실시예에 따른 MUSHRA Test 결과를 보여주는 도면이다.

도 3을 참조하면, 6개의 모델을 적용한 표본으로 주관적인 청취 테스트인 MUSHRA(Multi-Stimulus test with Hidden Reference and Anchor) Test를 수행하였다. 상기 MUSHRA Test는 본 발명에 따라 각 계층에 32코드(5비트)를 할당하여 생성한 모델(Progressive 166kps)과 각 계층에 16 코드(4비트)를 할당하여 생성한 모델(Progressive 132kps)에 대하여 MUSHRA Test를 수행하였다. 또한, 계층에 따른 효과를 확인하기 위하여 단일 계층을 활용하여 생성한 모델(Single-Stage), 기존의 코덱과의 비교를 위하여 MP3를 적용한 모델, 청취자의 평가 적정성을 검증하기 위하여 원본 데이터(reference) 및 7kHz의 저역 통과 앵커(LP-7kHz)를 포함하여 MUSHRA Test를 진행하였다.

도 3을 참조하면, 원본 데이터에 대한 값이 높고, LP-7kHz에 대한 값이 낮은 것으로 보아 평가가 적정하게 이루어 졌음을 확인 할 수 있다. 또한, 단일 계층을 활용한 것 보다는 복수 계층을 활용한 경우에 원음과 더욱 유사하게 복원되었으며, 낮은 비트를 할당한 Progressive 132kbps 모델이 우수한 성능을 보이고 있다고 인정받고 있는 80kbps MP3 모델과 유사한 결과 값을 도출하였고, 높은 비트를 할당한 Progressive 166kbps 모델은 보다 더 우수한 평가를 받았음을 알 수 있다.

또한, MUSHRA Test에 더하여 보다 객관적인 평가를 위하여 산출된 ViSQOL(Virtual Speech Quality Objective Listener) 및 SDR(Signal to Distortion Ratio) 값은 표 1과 같다.

System	Bitrate	ViSQOL	SDR (dB)
Progressive	166±3	4.64±0.02	38.27±1.40
Progressive	132±3	4.54±0.04	31.75±1.11
Single-stage	150±2	4.19±0.08	26.73±0.77
MP3	80	4.63±0.01	24.83±1.38

표 1을 참조하면, 주관적 평가지표인 MUSHRA Test 결과와 유사한 결과를 보여준다. 복수 계층을 가지고 생성한 모델이 단일 계층을 활용하여 생성한 모델보다 우수한 성능을 보여준다.

표 2는 훈련이 완료된 후, 각 단계별 비트레이트를 분석한 결과를 보여준다.

System	Bitrate(kbps)
System	Stage 1	Stage 2	Stage 3
Progressive	23.7±0.5	50.1±0.7	92.1±2.3
Progressive	18.6±0.4	40.4±0.6	72.6±2.3
Single-stage	-	-	150.0±2.1

각 계층의 비트레이트는 엔트로피 코딩을 감안하여 코드북의 엔트로피와 크드 벡터의 비율을 기반으로 산출되었다. 표 2를 참조하면, 가장 높은 주파수 대역을 변환하도록 설계된 세번째 단계의 비트 레이트가 가장 크게 산출되었다. 심리 음향학적 지식에 비추어 보면 상기 고주파 성분의 경우, 일반적으로 에너지가 낮고 사람이 인지하는데 비교적 덜 중요함으로 일반적으로 매우 적은 비트를 할당할 수 있다. 즉, 기존의 심리 음향학적 지식을 기반으로 각 계층에 할당되는 비트를 조정함으로써 코딩 효율을 더욱 향상시킬 수도 있다.

다시 말하면, 훈련을 통해서 네트워크 내에서 자율적으로 각 계층에 비트가 할당되도록 할 수도 있고, 이와 달리 각 계층에 할당되는 비트를 인위적으로 설정할 수도 있다. 예를 들면, 저대역이 중요한 경우, 최상위 계층(1000)에 더 많은 비트를 할당하고, 중간 계층(2000) 및 최하위 계층(3000)에 적은 비트를 할당할 수 있다. 또한, 중대역이 중요한 경우, 중간 계층(2000)에 더 많은 비트를 할당하고, 최상위 계층(1000) 및 최하위 계층(3000)에 적은 비트를 할당 할 수도 있다. 계층에 할당되는 비트 수는 본원 발명이 적용되는 분야 및 특성과 기존의 심리 음향학적 지식을 활용하여 사용자가 설정할 수 있다.

본 발명에 따른 방법들은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능 매체의 예에는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

1000 최상위 계층 2000 중간계층
3000 최하위 계층 1010, 2010, 3010 부호화기
1020, 2020, 3020 양자화기 1030, 2030, 3030 복호화기
1100, 1200, 2100, 2200 업샘플링 모듈 1300, 2300 대역필터

Claims

프로세서에 의해서 실행되는 복수의 계층들에서 오디오 신호를 압축하는 방법에 있어서,
입력 받은 오디오 신호를 최상위 계층에서 제1 신호로서 복원하는 단계(a);
최상위 계층 또는 직전의 중간 계층에서 상기 복원된 오디오 신호를 업샘플링 한 후, 상기 업샘플링된 신호를 상기 입력 받은 오디오 신호에서 뺀 신호를 적어도 하나 이상의 중간 계층에서 입력 받아 제2 신호로서 복원하는 단계(b); 및
최하위 계층 직전의 중간 계층에서 상기 복원된 오디오 신호를 업샘플링한 후, 상기 업샘플링된 신호를 상기 입력 받은 오디오 신호에서 뺀 신호를 상기 최하위 계층에서 입력 받아 제3 신호로서 복원하는 단계(c)를 포함하고,
상기 제1 신호, 상기 제2 신호, 및 상기 제3 신호가 결합되어 최종 복원 오디오 신호가 출력되며,
상기 최상위 계층, 상기 적어도 하나 이상의 중간 계층, 및 상기 최하위 계층은 각 계층별로 부호화기, 양자화기 및 복호화기를 구비하는 것을 특징으로 하는,
오디오 신호 압축 방법.
청구항 1에 있어서,
상기 단계(a), 단계(b), 및 단계(c) 각각은:
상기 부호화기가 입력되는 신호를 다운샘플링하여 부호화 하는 단계;
상기 양자화기가 상기 부호화된 신호를 양자화 하는 단계; 및
상기 복호화기가 상기 양자화 된 신호를 업샘플링하여 복호화 하는 단계를 포함하는 것을 특징으로 하는,
오디오 신호 압축 방법.
청구항 2에 있어서,
상기 최상위 계층 및 상기 적어도 하나 이상의 중간 계층에 있어서,
상기 복호화기의 업샘플링 비율은 상기 부호화기의 다운샘플링 비율보다 작은 것을 특징으로 하는,
오디오 신호 압축 방법.
청구항 2에 있어서,
상기 부호화기 및 상기 복호화기는 합성곱 신경망(Convolutional Neural Network, CNN)으로 구성되며, 상기 양자화기는 신경망으로 학습 가능한 벡터 양자화기로 구성되는 것을 특징으로 하는,
오디오 신호 압축 방법.
청구항 2에 있어서,
적어도 하나 이상의 중간 계층 및 최하위 계층에 있어서,
해당 계층에서 복원된 신호의 샘플링 주파수는 선행 계층의 복원된 신호의 샘플링 주파수보다 더 큰 샘플링 주파수를 가지는 것을 특징으로 하는,
오디오 신호 압축 방법.
청구항 1에 있어서,
상기 적어도 하나 이상의 중간 계층, 및 상기 최하위 계층의 상기 복호화기는,
선행 계층 복호화기의 심층 신경망 구조 내부에서 얻어진 중간 신호를 다음 계층의 복호화기에 전달하는 것을 특징으로 하는,
오디오 신호 압축 방법.
청구항 1에 있어서,
각 계층별로 할당되는 비트수를 설정하는 단계를 더 포함하는,
오디오 신호 압축 방법.
오디오 신호 압축 장치에 있어서,
하나 이상의 명령들이 저장된 메모리(memory) 및
상기 메모리에 저장된 하나 이상의 명령을 실행하는 프로세서를 포함하고,
상기 하나 이상의 명령들은 오디오 신호 압축 장치가:
입력 받은 오디오 신호를 최상위 계층에서 제1 신호로서 복원하는 단계(a);
최상위 계층 또는 직전의 중간 계층에서 상기 복원된 오디오 신호를 업샘플링 한 후, 상기 업샘플링된 신호를 상기 입력 받은 오디오 신호에서 뺀 신호를 적어도 하나 이상의 중간 계층에서 입력 받아 제2 신호로서 복원하는 단계(b); 및
최하위 계층 직전의 중간 계층에서 상기 복원된 오디오 신호를 업샘플링한 후, 상기 업샘플링된 신호를 상기 입력 받은 오디오 신호에서 뺀 신호를 상기 최하위 계층에서 입력 받아 제3 신호로서 복원하는 단계(c)를 수행하도록 하며,
상기 제1 신호, 상기 제2 신호, 및 상기 제3 신호가 결합되어 최종 복원 오디오 신호가 출력되며,
상기 최상위 계층, 상기 적어도 하나 이상의 중간 계층, 및 상기 최하위 계층은 각 계층별로 부호화기, 양자화기 및 복호화기를 구비하는 것을 특징으로 하는,
오디오 압축 장치.
청구항 8에 있어서,
상기 단계(a), 단계(b), 및 단계(c) 각각은:
상기 부호화기가 입력되는 신호를 다운샘플링하여 부호화 하는 단계;
상기 양자화기가 상기 부호화된 신호를 양자화 하는 단계; 및
상기 복호화기가 상기 양자화 된 신호를 업샘플링하여 복호화 하는 단계를 포함하여 수행하는 것을 특징으로 하는,
오디오 신호 압축 장치.
청구항 9에 있어서,
상기 최상위 계층 및 상기 적어도 하나 이상의 중간 계층에 있어서,
상기 복호화기의 업샘플링 비율은 상기 부호화기의 다운샘플링 비율보다 작은 것을 특징으로 하는,
오디오 신호 압축 장치.
청구항 9에 있어서,
상기 부호화기 및 상기 복호화기는 합성곱 신경망(Convolutional Neural Network, CNN)으로 구성되며, 상기 양자화기는 신경망으로 학습 가능한 벡터 양자화기로 구성되는 것을 특징으로 하는,
오디오 신호 압축 장치.
청구항 9에 있어서,
적어도 하나 이상의 중간 계층 및 최하위 계층에 있어서,
해당 계층에서 복원된 신호의 샘플링 주파수는 선행 계층의 복원된 신호의 샘플링 주파수보다 더 큰 샘플링 주파수를 가지는 것을 특징으로 하는,
오디오 신호 압축 장치.
청구항 8에 있어서,
상기 적어도 하나 이상의 중간 계층, 및 상기 최하위 계층의 상기 복호화기는,
선행 계층 복호화기의 심층 신경망 구조 내부에서 얻어진 중간 신호를 다음 계층의 복호화기에 전달하는 것을 특징으로 하는,
오디오 신호 압축 장치.
청구항 8에 있어서,
각 계층별로 할당되는 비트수를 설정하는 단계를 더 포함하여 수행하는 것을 특징으로 하는,
오디오 신호 압축 장치.
프로세서에 의해서 실행되는 복수의 계층들에서 오디오 신호를 압축하는 신경망을 학습시키는 방법에 있어서,
각 계층에서 입력 받은 신호를 압축 및 복원하는 단계(a); 및
각 계층에서 복원된 신호와 해당 계층의 가이드 신호를 비교 판별하는 단계(b);를 포함하고,
상기 단계(a)는,
최상위 계층을 제외한 나머지 계층들에서 있어서 각 계층에 입력되는 신호는,
선행 계층에서 복원된 신호와 선행 계층의 가이드 신호를 소정의 비율로 결합한 신호를 업샘플링한 후, 상기 업샘플링된 신호를 상기 입력된 오디오 신호에서 제거한 신호인 것을 특징으로 하는,
학습 방법.
청구항 15에 있어서,
상기 복수의 계층들은 각 계층별로 부호화기, 양자화기, 및 복호화기를 구비하는 것을 특징으로 하는,
학습방법.
청구항 16에 있어서,
상기 부호화기 및 상기 복호화기는 합성곱 신경망(Convolutional Neural Network, CNN)로 구성되며, 상기 양자화기는 신경망으로 학습 가능한 벡터 양자화기로 구성되는 것을 특징으로 하는,
학습방법.
청구항 15에 있어서,
상기 단계(b)에서 가이드 신호는,
최하위 계층의 가이드 신호는 상기 입력된 오디오 신호이고,
상기 최하위 계층 외의 계층의 가이드 신호들은 상기 입력된 오디오 신호를 해당 계층의 주파수 대역에 맞추어 설정된 밴드 패스 필터를 활용하여 해당 계층의 생성된 신호인 것을 특징으로 하는,
학습방법.
청구항 15에 있어서,
상기 단계(a)에서 선행 계층에서 복원한 신호와 선행 계층의 가이드 신호를 소정의 비율로 결합하는 것은,
상기 선행 계층의 복원 신호에 α를 곱하고, 상기 선행 계층의 가이드 신호에 '1- α'를 곱한 후, 상기 두 신호를 결합하는 것을 특징으로 하는,
학습 방법.
청구항 19에 있어서,
상기 'α'값은,
학습 초기 단계에서는 0으로 설정하였다가 점진적으로 1까지 증가시키는 것을 특징으로 하는,
학습 방법.