상기한 과제를 해결하기 위해서, 본 발명(청구항 1)에 관한 오디오 신호 압축 방법은, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 방법에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하고, 상기 산출한 스펙트럼 포락을 이용하여, 상기 입력 오디오 신호를 프레임마다 평활화하도록 한 것이다.
본 발명(청구항 1)에 관한 오디오 신호 압축 방법은 이와 같이 구성함으로써, 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석할 수 있게 하여, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 방법을 실현 가능하게 한다.
또한, 본 발명(청구항 2)에 관한 오디오 신호 압축 방법은, 청구항 1에 기재된 오디오 신호 압축 방법에 있어서, 상기 스펙트럼 포락의 산출은, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중으로서, 바크 척도를 이용하여, 상기 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하도록 한 것이다.
본 발명(청구항 2)에 관한 오디오 신호 압축 방법은 이와 같이 구성함으로써, 바크 척도를 이용하여 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석할 수 있게 하여, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 방법을 실현 가능하게 한다.
또한, 본 발명(청구항 3)에 관한 오디오 신호 압축 방법은, 청구항 1에 기재된 오디오 신호 압축 방법에 있어서, 상기 스펙트럼 포락의 산출은, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중으로서, 멜 척도를 이용하여, 상기 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하도록 한 것이다.
본 발명(청구항 3)에 관한 오디오 신호 압축 방법은 이와 같이 구성함으로써, 멜 척도를 이용하여 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 방법을 실현 가능하게 한다.
또한, 본 발명(청구항 4)에 관한 오디오 신호 압축 방법은, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 방법에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 올패스 필터를 이용해 주파수축을 신축시켜 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하며, 상기 스펙트럼 포락을 이용하여, 상기 입력 오디오 신호를 프레임마다 평활화하도록 한 것이다.
본 발명(청구항 4)에 관한 오디오 신호 압축 방법은 이와 같이 구성함으로써, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 방법을 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 5)에 관한 오디오 신호 압축 방법은, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 방법에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 예측 모델에 주파수 신축을 조합한 멜 LPC 분석(이하, 멜 선형 예측 분석이라고 칭함)을 이용해 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하고, 상기 스펙트럼 포락을 이용하여, 상기 입력 오디오 신호를 프레임마다 평활화하도록 한 것이다.
본 발명(청구항 5)에 관한 오디오 신호 압축 방법은 이와 같이 구성함으로써 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 통하여, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 방법을 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 6)에 관한 오디오 신호 압축 방법은, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 방법에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용해 실행하는, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락의 산출은, 상기 입력 오디오 신호로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터를 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 입력 신호와 각 단마다의 필터 출력 신호와의 승산합은 승산합을 실행하는 범위를 상기 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여, 상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하든지, 혹은 상기 멜 선형 예측 계수로부터 스펙트럼 포락을 구하도록 한 것이다.
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
본 발명(청구항 6)에 관한 오디오 신호 압축 방법은 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 본래 무한 회수의 연산을 필요로 했던 것이 근사 계산을 전혀 필요로 하는 일 없이 미리 설정한 유한 회수의 연산으로 완료되게 되어, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 방법을 실제로 실현 가능하게 한다.
또, 본 발명(청구항 7)에 관한 오디오 신호 압축 방법은, 청구항 6에 기재된오디오 신호 압축 방법에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로서, 1차의 올패스 필터인 것으로 한 것이다.
본 발명(청구항 7)에 관한 오디오 신호 압축 방법은 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 본래 무한 회수의 연산을 필요로 했던 것이 실제로 실현 가능한 1차의 올패스 필터를 구비함으로써 근사 계산을 전혀 필요로 하는 일 없이 미리 설정한 유한 회수의 연산으로 완료되게 되어, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 방법을 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 8)에 관한 오디오 신호 압축 장치는, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 장치에 있어서, 입력된 오디오 신호를 주파수 영역 신호로 변환하는 시간 주파수 변환 수단과, 상기 입력 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하는 스펙트럼 포락 산출 수단과, 상기 시간 주파수 변환 수단에 의해 얻어진 주파수 영역 신호를, 상기 스펙트럼 포락 산출 수단에 의해 얻어진 스펙트럼 포락으로 정규화하여 잔차 신호를 얻는 정규화 수단과, 상기 잔차 신호를 파워에 의해 정규화하는 파워 정규화 수단과, 상기 입력 오디오 신호의 스펙트럼과 인간의 청각적인 성질인 청각 감도 특성에 근거하여, 주파수상의 가중 계수를 산출하는 청각 가중 계산 수단과, 상기 파워 정규화 수단에 의해 정규화된 상기 잔차 신호가 입력되는, 종렬로 접속된 복수단의 벡터 양자화부를 갖고, 또한 그 중 적어도 1개의 벡터 양자화부가 상기 청각 가중 계산 수단에 의해 얻어진 가중 계수를 이용하여 양자화를 실행하는 다단 양자화 수단을 포함하도록 한 것이다.
본 발명(청구항 8)에 관한 오디오 신호 압축 장치는 이와 같이 구성함으로써, 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하다게 하여, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 장치를 실현 가능하게 한다.
또한, 본 발명(청구항 9)에 관한 오디오 신호 압축 장치는, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 장치에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 주파수축상의 멜 선형 예측 계수를 산출하는 멜 파라미터 산출 수단과, 상기 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하는 파라미터 변환 수단과, 상기 입력 오디오 신호를 상기 파라미터 변환 수단에 의해 얻어진 스펙트럼 포락을 표현하는 특징량에 의해 역 필터링하여 정규화함으로써 잔차 신호를 얻는 포락 정규화 수단과, 상기 잔차 신호를 파워의 최대값, 혹은 평균값 등에 근거하여 정규화함으로써 정규화 잔차 신호를 구하는 파워 정규화 수단과, 상기 파워 정규화 수단에 의해 정규화된 상기 정규화 잔차 신호를 잔차 코드북에 따라 벡터 양자화하여 잔차 부호로 변환하는 벡터 양자화부를 포함하도록 한 것이다.
본 발명(청구항 9)에 관한 오디오 신호 압축 장치는 이와 같이 구성함으로써, 멜 척도를 이용하여 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 장치를 실현 가능하게 한다.
또한, 본 발명(청구항 10 및 청구항 35)에 관한 오디오 신호 압축 장치는, 각각 청구항 8 또는 청구항 9에 기재된 오디오 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 입력 오디오 신호를 올패스 필터를 이용하여 주파수축을 신축시켜 상기 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하는 것으로 한 것이다.
본 발명(청구항 10 및 청구항 35)에 관한 오디오 신호 압축 장치는 이와 같이 구성함으로써, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 장치를 실현 가능하게 한다.
또, 본 발명(청구항 11 및 청구항 36)에 관한 오디오 신호 압축 장치는, 각각 청구항 8 또는 청구항 9에 기재된 오디오 신호 압축 장치에 있어서, 오디오 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여, 입력 오디오 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하는 것으로 한 것이다.
본 발명(청구항 11 및 청구항 36)에 관한 오디오 신호 압축 장치는 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 통하여, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 오디오 신호압축 장치를 실현 가능하게 한다.
또한, 본 발명(청구항 12 및 청구항 37)에 관한 오디오 신호 압축 장치는, 각각 청구항 8 또는 청구항 9에 기재된 오디오 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 입력된 오디오 신호로부터 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하는 것이며, 상기 입력 오디오 신호로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터를 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 입력 신호와 각 단마다의 필터 출력 신호의 상기 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 입력 신호와 각 단마다의 필터 출력 신호의 승산합은 승산합을 실행하는 범위를 상기 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여, 상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하든지, 혹은 상기 멜 선형 예측 계수로부터 스펙트럼 포락을 구하는 것으로 한 것이다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
본 발명(청구항 12 및 청구항 37) 에 관한 오디오 신호 압축 장치는 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 근사 계산을 전혀 필요로 하는 일 없이 미리 설정한 유한 회수의 연산으로 처리가 가능해져, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 장치를 실제로 실현 가능하게 한다.
또, 본 발명(청구항 13 및 청구항 38)에 관한 오디오 신호 압축 장치는, 각각 청구항 12 또는 청구항 37에 기재된 오디오 신호 압축 장치에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로서, 1차의 올패스 필터인 것으로 한 것이다.
본 발명(청구항 13 및 청구항 38)에 관한 오디오 신호 압축 장치는 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 올패스 필터를 실현할 수 있는 1차의 올패스 필터를 이용하도록 하였기 때문에, 근사 계산을 전혀 필요로 하는 일 없이 미리 설정한 유한 회수의 연산으로 처리할 수 있게 되어, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 장치를 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 14)에 관한 오디오 신호 압축 장치는, 청구항 8에 기재된 오디오 신호 압축 장치에 있어서, 상기 다단 양자화 수단을 구성하는 복수단중의 복수의 벡터 양자화부는, 청각 가중 계산 수단에 의해 얻어진 가중 계수를 이용하여 양자화를 실행하는 것이며, 상기 청각 가중 계산 수단은, 상기 복수의 벡터양자화부 각각이 이용하는 개별적인 가중 계수를 산출하는 것으로 한 것이다.
본 발명(청구항 14)에 관한 오디오 신호 압축 장치는 이와 같이 구성함으로써, 다단 양자화 수단을 구성하는 복수단중의 복수의 벡터 양자화부는, 청각 가중 계산 수단에 의해 얻어진 가중 계수를 이용하여 양자화를 실행하고, 또한 청각 가중 계산 수단은, 복수의 벡터 양자화부 각각이 이용하는 개별적인 가중 계수를 산출하는 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 근사 계산을 전혀 필요로 하는 일 없이 미리 설정한 유한 회수의 연산으로 처리가 가능해져, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 장치를 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 15)에 관한 오디오 신호 압축 장치는, 청구항 14에 기재된 오디오 신호 압축 장치에 있어서, 상기 다단 양자화 수단은, 상기 스펙트럼 포락 산출 수단에 의해 얻어진 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 각 주파수 영역에서의 가중 계수로 하여, 상기 파워 정규화 수단에 의해 정규화된 잔차 신호의 양자화를 실행하는 제 1 단 양자화부와, 상기 스펙트럼 포락과 상기 제 1 단 양자화부의 양자화 오차 신호의 상관에 근거하여 산출된 가중 계수를 각 주파수 영역에서의 가중 계수로 하여, 상기 제 1 단 양자화부로부터 출력되는 양자화 오차 신호의 양자화를 실행하는 제 2 단 양자화부와, 상기 청각 가중 계산 수단에서, 상기 시간 주파수 변환 수단에 의해 주파수 영역 신호로 변환된 입력 신호와 청각 특성에 의해 산출된 가중을, 상기 스펙트럼 포락, 상기 제 2 단 양자화부의 양자화 오차 신호, 상기 파워 정규화 수단에서 정규화된 상기 잔차 신호에 근거해 조정하여 구한 가중 계수를 각 주파수 영역에서의 가중 계수로 하여, 상기 제 2 단 양자화부로부터 출력되는 양자화 오차 신호의 양자화를 실행하는 제 3 단 양자화부를 포함하도록 한 것이다.
본 발명(청구항 15)에 관한 오디오 신호 압축 장치는 이와 같이 구성함으로써, 다단 양자화 수단을 제 1 단 내지 제 3 단 양자화부로 구성하여, 제 1 단 양자화부를 파워 정규화 수단에 의해 정규화된 잔차 신호의 양자화를 실행하는 것으로 하고, 제 2 단 양자화부를, 스펙트럼 포락과 제 1 단의 양자화부의 양자화 오차 신호의 상관에 근거하여 산출된 가중 계수를 각 주파수 영역에서의 가중 계수로 하여, 제 1 단 양자화부로부터 출력되는 양자화 오차 신호의 양자화를 실행하는 것으로 하며, 제 3 단 양자화부를, 스펙트럼 포락, 제 2 단 양자화부의 양자화 오차 신호, 파워 정규화 수단에 의해 정규화된 잔차 신호에 근거해 조정하여 구한 가중 계수를, 각 주파수 영역에서의 가중 계수로 하여 제 2 단 양자화부로부터 출력되는 양자화 오차 신호의 양자화를 실행하는 것으로 하였기 때문에, 청각 가중 계산 수단은, 복수의 벡터 양자화부의 각각이 이용하는 개별적인 가중 계수를 산출할 때에 이용하는 스펙트럼 포락을, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용함으로써, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 오디오 신호 압축 장치를 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 16)에 관한 음성 신호 압축 방법은, 입력된 음성 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 음성 신호 압축 방법에 있어서, 입력된 음성 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한주파수상의 가중에 근거하여, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 실행하는, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락의 산출은, 상기 입력 음성 신호로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터에 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 입력 신호와 각 단마다의 필터 출력 신호와의 승산합은 승산합을 실행하는 범위를 상기 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여 상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하든지, 혹은 상기 멜 선형 예측 계수로부터 스펙트럼 포락을 구하도록 한 것이다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
본 발명(청구항 16)에 관한 음성 신호 압축 방법은 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 본래 무한 회수의 연산을 필요로 했던 것이 올패스 필터를 구비함으로써, 근사 계산을 전혀 필요로 하는 일 없이 미리 설정한 유한 회수의 연산에 의해 처리가 가능해져, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 음성 신호 압축 방법을 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 17)에 관한 음성 신호 압축 방법은, 청구항 16에 기재된 음성 신호 압축 방법에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로서, 1차의 올패스 필터인 것으로 하고 있다.
본 발명(청구항 17)에 관한 음성 신호 압축 방법은 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 본래 무한 회수의 연산을 필요로 했던 것이 실제로 실현 가능한 1차의 올패스 필터를 구비함으로써, 근사 계산을 전혀 필요로 하는 일 없이 미리 설정한 유한 회수의 연산으로 처리할 수 있게 되어, 인간의 청각적인 성질을 이용하여 효율적인 신호 압축을 실행할 수 있는 음성 신호 압축 방법을 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 18)에 관한 음성 신호 압축 장치는, 입력된 음성 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 음성 신호 압축 장치에 있어서, 입력된 음성 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 주파수축상의 멜 선형 예측 계수를 산출하는 멜 파라미터 산출 수단과, 상기 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하는 파라미터 변환 수단과, 상기 입력 신호를 상기 파라미터 변환 수단에 의해 얻어진 스펙트럼 포락을 표현하는 특징량으로 역 필터링하여 정규화함으로써 잔차 신호를 얻는 포락 정규화 수단과, 상기 잔차 신호를 파워의 최대값, 혹은 평균값 등에 근거하여 정규화함으로써 정규화 잔차 신호를 구하는 파워 정규화 수단과, 상기 파워 정규화 수단에 의해 정규화된 상기 정규화 잔차 신호를 잔차 코드북에 따라 벡터 양자화하여 잔차 부호로 변환하는 벡터 양자화부를 포함하도록 한 것이다.
본 발명(청구항 18)에 관한 음성 신호 압축 장치는 이와 같이 구성함으로써, 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 음성 신호 압축 장치를 실현 가능하게 한다.
또한, 본 발명(청구항 19)에 관한 음성 신호 압축 장치는, 청구항 18에 기재된 음성 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 입력 음성 신호를 올패스 필터를 이용하여 주파수축을 신축시켜 상기 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하는 것으로 한 것이다.
본 발명(청구항 19)에 관한 음성 신호 압축 장치는 이와 같이 구성함으로써, 멜 척도를 이용하여 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 음성 신호 압축 장치를 실현 가능하게 한다.
또한, 본 발명(청구항 20)에 관한 음성 신호 압축 장치는, 청구항 18에 기재된 음성 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여, 입력 음성 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하는 것으로 한 것이다.
본 발명(청구항 20)에 관한 음성 신호 압축 장치는 이와 같이 구성함으로써, 멜 척도를 이용하여 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 음성 신호 압축 장치를 실현 가능하게 한다.
또, 본 발명(청구항 21)에 관한 음성 신호 압축 장치는, 청구항 18에 기재된 음성 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 입력된 음성 신호로부터 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하는 것이며, 상기 입력 음성 신호로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터에 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 입력 신호와 각 단마다의 필터 출력 신호의 승산합은 승산합을 실행하는 범위를 상기 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여, 상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하든지, 혹은 상기 멜 선형 예측 계수로부터 스펙트럼 포락을 구하도록 한 것이다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
본 발명(청구항 21)에 관한 음성 신호 압축 장치는 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 올패스 필터를 실현할 수 있는 1차의 올패스 필터를 이용하도록 하였기 때문에, 근사 계산을 전혀 필요로 하는 일 없이 미리 설정한 유한 회수의 연산으로 처리할 수 있게 되어, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 음성 신호 압축 장치를 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 22)에 관한 음성 신호 압축 장치는, 청구항 21에 기재된 음성 신호 압축 장치에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로서, 1차의 올패스 필터인 것으로 한 것이다.
본 발명(청구항 22)에 관한 음성 신호 압축 장치는 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 올패스 필터를 실현 가능한 1차의 올패스 필터를 이용하도록 하였기 때문에, 근사 계산을 전혀 필요로 하는 일 없이 미리 설정한 유한 회수의 연산으로 처리할 수 있게 되어, 인간의 청각적인 성질을 이용해 효율적인 신호 압축을 실행할 수 있는 음성 신호 압축 장치를 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 23)에 관한 음성 인식 방법은, 입력된 음성 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분해능을 변화시킨 선형 예측 분석법에 의해 스펙트럼 포락에 대응하는 특징량을 산출하고, 상기 특징량을 이용하여 입력 음성을 인식하도록 한 것이다.
본 발명(청구항 23)에 관한 음성 인식 방법은 이와 같이 구성함으로써, 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용해 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 방법을 실현 가능하게 한다.
또, 본 발명(청구항 24)에 관한 음성 인식 방법은, 청구항 23에 기재된 음성 인식 방법에 있어서, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중으로서, 바크 척도를 이용하여, 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는 상기 특징량을 산출하도록 한 것이다.
본 발명(청구항 24)에 관한 음성 인식 방법은 이와 같이 구성함으로써, 바크 척도를 이용하여 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용해 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 방법을 실현 가능하게 한다.
또, 본 발명(청구항 25)에 관한 음성 인식 방법은, 청구항 23에 기재된 음성 인식 방법에 있어서, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중으로서, 멜 척도를 이용하여, 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는, 상기 특징량을 산출하도록 한 것이다.
본 발명(청구항 25)에 관한 음성 인식 방법은 이와 같이 구성함으로써, 멜 척도를 이용하여 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용해 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 방법을 실현 가능하게 한다.
또한, 본 발명(청구항 26)에 관한 음성 인식 방법은, 입력된 음성으로부터, 인간의 청각적인 성질인 청각 감도 특성을 고려한 스펙트럼 포락을 구하는 방법으로서, 올패스 필터를 이용하여 주파수축을 신축시켜 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행하여 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는 특징량을 구하며, 상기 특징량을 이용하여 입력 음성을 인식하도록 한 것이다.
본 발명(청구항 26)에 관한 음성 인식 방법은 이와 같이 구성함으로써, 인간의 청각적인 성질을 이용해 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 방법을 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 27)에 관한 음성 인식 방법은, 입력된 음성으로부터, 인간의 청각적인 성질인 청각 감도 특성을 고려한 스펙트럼 포락에 대응하는 특징량을 구하는 방법으로서, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용한 선형 예측 분석법에 의해 특징량을 구하고, 상기 특징량을 이용하여 입력 음성을 인식하도록 한 것이다.
본 발명(청구항 27)에 관한 음성 인식 방법은 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 통하여, 인간의 청각적인 성질을 이용해 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 방법을 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 28)에 관한 음성 인식 방법은, 입력된 음성으로부터, 인간의 청각적인 성질인 청각 감도 특성을 고려한 스펙트럼 포락에 대응하는 특징량을 구하는 방법으로서, 상기 입력 음성으로부터 일정 시간 길이의 입력 신호를 페치하여, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터에 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 일정 시간 길이의 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 일정 시간 길이의 입력 신호와 각 단마다의 필터 출력 신호의 승산합은 승산합을 실행하는 범위를 상기 일정 시간 길이의 입력신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여, 상기 멜 선형 예측 계수 그 자체나, 혹은 상기 멜 선형 예측 계수로부터 구해진 켑스트럼 계수를 나타내는 특징량을 이용하여 입력 음성을 인식하도록 한 것이다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
본 발명(청구항 28)에 관한 음성 인식 방법은 이와 같이 구성함으로써, 예측모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 본래 무한 회수의 연산을 필요로 했던 것이 올패스 필터를 구비함으로써, 근사 계산을 전혀 필요로 하는 일 없이, 미리 설정한 유한 회수의 연산으로 처리할 수 있게 되어, 인간의 청각적인 성질을 이용해 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 방법을 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 29)에 관한 음성 인식 방법은, 청구항 28에 기재된 음성 인식 방법에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하는, 1차의 올패스 필터인 것으로 한 것이다.
본 발명(청구항 29)에 관한 음성 인식 방법은 이와 같이 구성함으로써, 본래 무한 회수의 연산을 필요로 했던 것이 올패스 필터를 구비함으로써, 근사 계산을 전혀 필요로 하는 일 없이, 미리 설정한 유한 회소의 연산으로 처리할 수 있게 되어, 인간의 청각적인 성질을 이용해 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 방법을 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 30)에 관한 음성 인식 장치는, 입력된 음성으로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는 선형 예측 계수를 산출하는 멜 선형 예측 분석 수단과, 상기 멜 선형 예측 분석 수단에 의해 얻어진 선형 예측 계수로부터 켑스트럼 계수를 산출하는 켑스트럼 계수 산출 수단과, 상기 켑스트럼 계수의 복수 프레임분과 복수의 표준 모델 사이의 거리를 산출하여, 어느 표준 모델과 유사한지 여부를 판정하는 음성 인식 수단을 포함하도록 한 것이다.
본 발명(청구항 30)에 관한 오디오 신호 압축 장치는 이와 같이 구성함으로써, 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용해 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 장치를 실현 가능하게 하는 것이다.
또한, 본 발명(청구항 31)에 관한 음성 인식 장치는, 청구항 30에 기재된 음성 인식 장치에 있어서, 상기 멜 선형 예측 분석 수단은, 입력 음성을 올패스 필터를 이용하여 주파수축 신축시킴으로써 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행함으로써 주파수마다 분해능을 변화시킨 선형 예측 계수를 구하도록 한 것이다.
본 발명(청구항 31)에 관한 음성 인식 장치는 이와 같이 구성함으로써, 인간의 청각적인 성질을 이용하여 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 장치를 실현 가능하게 한다.
또한, 본 발명(청구항 32)에 관한 음성 인식 장치는, 청구항 30에 기재된 음성 인식 장치에 있어서, 상기 멜 선형 예측 분석 수단은, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 입력 음성으로부터 주파수마다 분해능을 변화시킨 선형 예측 계수를 구하도록 한 것이다.
본 발명(청구항 32)에 관한 음성 인식 장치는 이와 같이 구성함으로써, 멜 척도를 이용하여 인간의 청각상 중요한 낮은 주파수 대역측을 높은 주파수 대역측에 비해 보다 주파수 분해능을 높여 분석하는 것을 가능하게 하여, 인간의 청각적인 성질을 이용해 효율적인 음성 인식을 실행할 수 있는 음성 인식 장치를 실현 가능하게 한다.
또한, 본 발명(청구항 33)에 관한 음성 인식 장치는, 청구항 30에 기재된 음성 인식 장치에 있어서, 상기 멜 선형 예측 분석 수단은, 입력된 음성으로부터 인간의 청각적인 성질인 청각 감도 특성을 고려한 스펙트럼 포락에 대응하는 특징량을 구하는 것이며, 상기 입력 음성으로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터에 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 일정 시간 길이의 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 일정 시간 길이의 입력 신호와 각 단마다의 필터 출력 신호의 승산합은 승산합을 실행하는 범위를 상기 일정 시간 길이의 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하도록 한 것이다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
본 발명(청구항 33)에 관한 음성 인식 장치는 이와 같이 구성함으로써, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 신호 압축을 실행할 때에, 본래 무한 회수의 연산을 필요로 했던 것이 올패스 필터를 구비함으로써, 근사 계산을 전혀 필요로 하는 일 없이, 미리 설정한 유한 회수의 연산으로 처리할 수 있게 되어, 인간의 청각적인 성질을 이용해 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 장치를 실제로 실현 가능하게 한다.
또한, 본 발명(청구항 34)에 관한 음성 인식 장치는, 청구항 31에 기재된 음성 인식 장치에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로, 1차의 올패스 필터인 것으로 한 것이다.
본 발명(청구항 34)에 관한 음성 인식 장치는 이와 같이 구성함으로써, 인간의 청각적인 성질을 이용하여 정밀도 높은 음성 인식을 실행할 수 있는 음성 인식 장치를 실제로 실현 가능하게 한다.
본 발명의 상기 및 그 밖의 목적, 특징, 국면 및 이익 등은 첨부 도면을 참조로 하여 설명하는 이하의 상세한 실시예로부터 더욱 명백해질 것이다.
발명의 실시예
(실시예 1)
도 1은 본 발명의 실시예 1에 의한 오디오 신호 압축 장치의 구성을 나타내는 블럭도이다. 동 도면에 있어서, (1)은, 예를 들면 MDCT, 혹은 FFT 등에 의해 입력된 디지탈 오디오 신호나 음성 신호의 시계열을, 일정 주기의 길이(프레임)마다 주파수 특성 신호 계열로 변환하는 시간 주파수 변환부이다. 또한, (2)는 예측 모델에 주파수 신축 기능을 조합한 멜 선형 예측 분석을 이용하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 입력 오디오 신호로부터 프레임마다 구하는 스펙트럼 포락 산출부이다. (3)은 시간 주파수 변환부(1)에서 산출된 주파수 특성 신호 계열을 스펙트럼 포락 산출부(2)에서 구한 스펙트럼 포락으로 제산하여 정규화함으로써, 주파수 특성을 평탄화하는 정규화부, (4)는 정규화부(3)에서 평탄화된주파수 특성 신호 계열에 대하여 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화를 실행하는 파워 정규화부이다. (5)는 정규화부(3), 파워 정규화부(4)에 의해 평탄화된 주파수 특성 신호 계열을 벡터 양자화하는 다단 양자화부이며, 이 다단 양자화부(5)는, 서로 종렬 접속된 제 1 단의 양자화기(51), 제 2 단의 양자화기(52), …, 제 N 단의 양자화기(53)를 포함한다. (6)은 시간 주파수 변환부(1)로부터 출력된 주파수 특성 신호 계열과 스펙트럼 포락 산출부(2)에서 구한 스펙트럼 포락을 입력으로 하여, 인간의 청각 감도 특성에 근거해 양자화부(5)에서의 양자화시에 이용하는 가중 계수를 구하는 청각 가중 계산부이다.
다음에 동작에 대하여 설명한다. 입력된 디지탈 오디오 신호(이하, 입력 신호라고도 칭함)의 시계열은, 일정 주기의 길이(프레임)마다 시간 주파수 변환부(1)에서 MDCT, FFT 등에 의해 주파수 특성 신호 계열로 변환된다.
또한, 입력 신호는 프레임마다, 스펙트럼 포락 산출부(2)에서, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락이 구해진다.
도 2는, 입력 신호로부터, 멜 선형 예측 분석을 이용하여 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하는 스펙트럼 포락 산출부(2)를 나타낸 도면이다. 동 도면에 있어서, 스펙트럼 포락 산출부(2)는 멜 선형 예측 분석을 이용하여 주파수마다 분석 정밀도를 변화시킨, 즉 멜화한 선형 예측 계수를 구하는 멜화 계수 산출부(21)와, 스펙트럼 평탄화를 위해 이용하는 직선 주파수의 스펙트럼 포락을 계산하는 포락 산출부(22)로 이루어진다. 이하, 이 멜화 계수 산출부(21)와 포락 산출부(22)의 각각에 대하여 설명한다.
우선 멜화 계수 산출부(21)에 있어서의 처리를 도 3에 개략적으로 도시한다. 도 3에 있어서, (211)은 입력 신호의 주파수축을 신축시키는 올패스 필터, (212)는 이 올패스 필터(211)의 출력 신호와 예측 계수의 선형 결합을 작성하여, 올패스 필터(211)의 입력 신호의 예측값을 출력하는 선형 결합부, (213)은 선형 결합부(212)로부터 출력되는 예측값과 올패스 필터(211)의 출력 신호에 대하여 최소 자승법을 적용해 멜화 선형 예측 계수를 출력하는 최소 자승법 연산부이다.
다음에, 이 도 3을 이용하여 주파수마다 분석 정밀도를 변화시킨 선형 예측 계수, 즉 멜화한 선형 예측 계수의 추정 방법을 설명한다,
우선, 입력 신호 x[n]을, 1단의 올패스 필터(211)(수학식 2 참조)에 통과시킨 출력 신호 yi[n]과, 선형 결합부(212)에 의해 작성한, 예측 계수(수학식 3 참조)와의 선형 결합에 의한 x[n]의 예측값(수학식 4 참조)은 수학식 5로 표시된다.
단, []는 시간축상의 수열을 나타낸다.
여기서, 올패스 필터(수학식 2 참조)는 수학식 6으로 표시된다. 또한, 출력 신호 yi[n]는 후술하는 수학식 10 및 수학식 18로부터 구해진다.
단, z는 z 변환의 연산자를 나타낸다.
이 올패스 필터의 주파수 특성을 도 5에 도시한다. 도 5에 있어서, 횡축이 변환전의 주파수축이고, 종축이 변환후의 주파수축을 나타낸다. 도면에 있어서, α=-0.5부터 α=0.8까지 0.1 피치 간격으로 α의 값을 변화시켰을 때의 모양을 표시하고 있다. 도면으로부터 α의 값이 포지티브일 때에는, 저(低)주파수 대역이 신장되고, 고(高)주파수 대역이 줄어들었음을 알 수 있다. 또한, α의 값이 네가티브일 경우에는 그 반대로 된다.
본 발명에서는, 입력 신호로서 샘플링 주파수, 즉 대역폭이 서로 다른 오디오 신호나 음성 신호를 상정하고 있기 때문에, 샘플링 주파수에 따라서 α의 값을 각각의 신호에 맞게 결정함으로써, 스펙트럼 포락을 구할 때에 인간의 청각 특성에 알맞은 주파수 분해능을 얻기 때문에, 스펙트럼 포락을 구할 때에 사람의 청각 특성에 적합한 주파수 분해능을 얻을 수 있다. 예를 들어, 청각의 주파수 분해능에관한 경계 대역폭의 관측으로부터 도입된 척도로서 바크 척도가 일반적으로 알려져 있으며, 이 특성에 근거하여 α의 값을 결정하는 것도 가능하다.
이 바크 척도는 플레쳐(Fletcher)가 제창한 청각 필터의 개념으로부터 얻어진 척도이며, 플레쳐가 말하는 청각 필터란 중심 주파수가 연속적으로 변화하는 대역 필터로서, 신호음에 가장 가까운 중심 주파수를 갖는 대역 필터가 신호음의 주파수를 분석하며, 소리의 마스킹에 영향을 미치는 잡음 성분은 이 대역 필터내의 주파수 성분에 한정되는 필터이다. 플레쳐는 이 대역 필터의 밴드폭을 경계 대역이라고 명명하고 있다.
또한, 인간의 주관에 근거하여 피치 감각을 직접 수량화한 심리 척도로서 멜 척도가 일반적으로 알려져 있으며, 이 특성에 근거하여 α의 값을 결정하는 것도 가능하다.
예를 들어 멜 척도를, 청각 감도 특성에 대응한 주파수상의 가중으로서 채용하는 경우, 여기서 샘플링 주파수가 8kHz에서는 α=0.31로 하고, 10kHz에서는 α=0.35, 12kHz에서는 α=0.41, 16kHz에서는 α=0.45, 44.1kHz에서는 α=O.6∼O.7로 하였다. 또한, 바크 척도를, 청각 감도 특성에 대응한 주파수상의 가중으로서 채용하는 경우, α를 이들 값으로부터 적절히 변경하면 된다. 예를 들면, 바크 척도의 경우, 12kHz에서는, 여기서 α=0.51을 채용하고 있다.
다음에, 수학식 7로 표시되는 올패스 필터의 출력 신호 yi[n]과, 예측값(수학식 4 참조)과의 전체 자승 오차 ε을 최소화하도록 최소 자승법 연산부(213)에 있어서, 최소 자승법을 이용하여 계수(수학식 8 참조)를 구할 수 있다.
여기서, p는 예측 계수의 차수로서, p는 미리 예비 실험적으로 신호 압축의 계산량을 고려하여 그 값을 설정해두는 것이 좋은데, 입력 신호와 음성 신호의 경우, 예를 들면 8 내지 14 등으로, 또한 입력 신호가 오디오 신호의 경우, 예를 들면 10 내지 20 등으로 설정해 두는 것이 좋다.
단, 수학식 9 내지 수학식 10를 참조하는 것으로 한다.
그런데, 수학식 7의 전체 자승 오차 ε을 최소화하는, 멜화한 선형 예측 계수는 다음의 정규 방정식(수학식 11 참조)에 의해 주어진다.
단, 계수(수학식 12 참조)는 멜 주파수축상(멜 주파수 영역)에서의 자기 상관 함수(멜 자기 상관 함수)이며, 다음 수학식 13에 의해 주어진다.
여기서, 수학식 12은 퍼시벌의 정리에 의해, 직선 주파수축상에서의 스펙트럼(수학식 14 참조)과, 수학식 15에 의해 관계지어진다. 단, ()는 주파수 영역에서의 수열을 나타낸다.
또한, 수학식 15를 멜 주파수축상에서의 형태로 리라이트하면, 수학식 16와같이 된다.
단, 수학식 17을 참조하는 것으로 한다.
이 수학식 17은 수학식 6으로 표시되는 올패스 필터를 퓨리에 변환함으로써 얻어진다.
수학식 16는 멜 자기 상관 함수(수학식 12 참조), 멜 주파수축상에서의 파워 스펙트럼의 역퓨리에 변환과 동등하다는 것을 의미한다. 따라서, 수학식 11의 계수 행렬은 토플리쯔(Toeplitz)형의 자기 상관 행렬로 되며, 간단한 점화식(漸化式)에 의해 멜화한 선형 예측 계수를 구할 수 있게 된다.
이하, 멜화한 선형 예측 계수를 구하기 위한 실제의 계산 순서를 나타내며, 그 흐름을 도 4에 도시한다.
(단계 1)
단계 S1에 있어서 입력 신호 x[n]을 얻고, 단계 S2에 있어서 i단의 올패스필터에 통과킴으로써, 단계 S3에 있어서 얻은 출력 신호 yi[n]을 다음 수학식 18에 의해 구한다. 단 수학식 10을 참조한다.
(단계 2)
단계 S4에 있어서 입력 신호 x[n]과 각 단의 필터 출력 신호 yi[n]의 다음 수학식 19과 같은 승산합을 연산함으로써, 단계 S5에 있어서 멜 주파수축상의 자기 상관 함수를 얻는다. 이 때, 멜 자기 상관 함수(수학식 12 참조)는 수학식 16의 관계로부터 올패스 필터의 단수차(수학식 19 참조)에만 의존하고 있기 때문에, 다음의 수학식 20과 같이, N항의 승산합 연산에 의해 계산할 수 있어, 연산 절단(truncation)에 의한 근사값을 구할 필요가 없다. 또, 이 수학식 20은 수학식 10 및 수학식 18을 이용하여 수학식 13을 변형함으로써 얻어지는 것이다.
즉, 이 수학식 20으로부터 알 수 있는 바와 같이, 이 계산은 수학식 13에 표시된, 통상의 계산 방법이라면, 본래 무한 회수의 계산을 필요로 했던 것이 유한 회수의 계산만으로 종료되기 때문에, 방대한 계산을 필요로 하지 않는다. 또한, 무한 회수의 연산을 수행하는 대신에 유한 회수의 연산에서 연산을 절단하는 경우에 필요한 파형 절단 등의 근사(近似)를 전혀 필요로 하지 않아, 파형 절단에 따르는 오차는 전혀 발생하지 않는다. 또한, 그 계산량은 통상의 자기 상관 계수의 약 2배의 계산량으로 완료되므로, 파형으로부터 직접 구하는 것이 가능하다. 이 점은 수학식 13에 표시된, 종래의 계산법과는 결정적으로 상이한 중요한 점이다.
(단계 3)
단계 S6에 있어서, 멜 자기 상관 함수(수학식 12 참조)를 이용하여 수학식 11의 정규 방정식을, 이미 공지된 알고리즘, 예를 들면 더빈(Durbin)의 방법 등으로 풀어, 단계 S7에서 멜화된 선형 예측 계수(멜 선형 예측 계수)를 구한다.
다음에, 포락 산출부(22)의 개략을 도 6에 도시한다. 이 도 6에 있어서, (221)은 멜화 선형 예측 계수에 대하여 역 멜 변환을 실행하여 직선 주파수의 선형 예측 계수를 출력하는 역 멜 변환부, (222)는 직선 주파수의 선형 예측 계수를 퓨리에 변환하여 스펙트럼 포락을 출력하는 FFT부이다.
다음에, 이 도 6을 이용하여, 주파수마다 분석 정밀도를 변화시킨 선형 예측 계수, 즉 멜화한 선형 예측 계수(수학식 8 참조)로부터 스펙트럼 평탄화를 위해 이용하는 직선 주파수의 스펙트럼 포락을 구하는 방법을 설명한다. 우선, 역 멜 변환부(221)에 있어서, 멜화한 선형 예측 계수(수학식 8 참조)로부터 다음 수학식 21로 표시되는 역 멜 변환에 의해, 직선 주파수의 선형 예측 계수(수학식 22 참조)를 구한다.
실제로 수학식 21을 풀기 위해서는, 이미 잘 알려진 오펜하임(Oppenheim)의 점화식을 계산함으로써 풀 수 있다.
여기서, 올패스 필터(수학식 23 참조)는 수학식 6에 있어서 α를 -α로 치환한 수학식 24의 올패스 필터를 이용하여야 한다.
이에 따라, 멜 주파수로부터 선형 주파수로 변환된 예측 계수를 구하는 것이 가능해진다. 또한, FFT부(222)에 있어서, 이 직선 주파수의 선형 예측 계수(수학식 22 참조)로부터 FFT를 이용하여, 스펙트럼 평탄화를 위해 이용하는 직선 주파수의 스펙트럼 포락 S(ejα)를 다음 수학식 25에 의해 구할 수 있다.
다음에, 정규화부(3)에서는, 상기에서 산출된 주파수 특성 신호 계열을 스펙트럼 포락으로 제산하여 정규화함으로써 주파수 특성 신호 계열을 평탄화한다. 정규화부(3)에서 평탄화된 주파수 특성 신호 계열은, 파워 정규화부(4)에 있어서 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화가 더 실행된다.
그런데, 음성 신호 압축에서는, 이 정규화부(3)와 마찬가지의 스펙트럼 포락에 의한 정규화를 실행하고 있다. 즉, 입력된 음성 신호의 시계열은, 프레임마다 선형 예측 분석(LPC 분석)함으로써, LPC 계수(선형 예측 계수)나 LSP 계수(line spectrum pair coefficient) 혹은 PARCOR 계수(편자기 상관 계수) 등의 LPC 스펙트럼 포락 성분과 주파수 특성이 평탄화된 잔차 신호로 분리하고 있는데, 이것은 다시말해, 상기 실시예와 같이 스펙트럼 포락 성분에 의한 주파수상에서의 제산 처리와 등가의 처리이며, 또한 선형 예측 분석에 의해 구한 선형 예측 계수나 LSP 계수, 혹은 PARCOR 계수 등의 스펙트럼 포락 성분을 이용하여 시간축상에서의 역 필터링 처리를 하는 것과도 등가이다.
그래서, 본 발명와 같은 입력 음성으로부터 구한 멜화된 선형 예측 계수나,혹은 통상의 선형 예측 계수로부터 PARCOR 계수를 구하는 것과 마찬가지의 공지된 방법에 의해, 멜화된 선형 예측 계수로부터 구한 멜화된 PARCOR 계수나, 혹은 통상의 선형 예측 계수로부터 LSP 계수를 구하는 것과 마찬가지의 공지된 방법으로, 멜화된 선형 예측 계수로부터 구한 멜화된 LSP 계수를 이용하여, 시간축상에서의 역 필터링 처리를 실행하거나, 혹은 스펙트럼 포락 성분과 잔차 신호로 분리함으로써 음성 신호를 압축하는 것이 가능하다.
한편, 청각 가중 계산부(6)에는, 시간 주파수 변환부(1)로부터 출력된 주파수 특성 신호 계열과, 스펙트럼 포락 산출부(2)에서 구한 스펙트럼 포락이 입력되고, 시간 주파수 변환부(1)로부터 출력된 주파수 특성 신호 계열의 스펙트럼에 대하여, 최소 가청 한계 특성이나 청각 마스킹 특성 등의 인간의 청각적인 성질인 청각 감도 특성에 근거하여 이 청각 감도 특성을 고려한 특성 신호를 산출하고, 또한 이 특성 신호와 스펙트럼 포락에 근거하여 양자화에 이용하는 가중 계수를 구한다.
파워 정규화부(4)로부터 출력된 잔차 신호는, 다단 양자화부(5)의 제 1 단의 양자화부(51)에서 청각 가중 계산부(6)에 의해 구해진 가중 계수를 이용해 양자화되고, 제 1 단의 양자화부(51)에서의 양자화에 의한 양자화 오차 성분이, 다단 양자화부(5)의 제 2 단 양자화부(52)에서 청각 가중 계산부(6)에 의해 구해진 가중 계수를 이용하여 양자화되며, 이하 마찬가지로 하여 복수단의 양자화부 각각에 있어서, 전단의 양자화부에서의 양자화에 의한 양자화 오차 성분이 양자화된다. 이들 각 양자화부는 양자화 결과적으로 코드를 출력한다. 그리고, 제 (N-1) 단의 양자화부에서의 양자화에 의한 양자화 오차 성분에 대하여, 제 N 단의 양자화부(53)에서 청각 가중 계산부(6)에 의해 구해진 가중 계수를 이용해 양자화가 실행됨에 따라, 오디오 신호의 압축 부호화가 완료된다.
이와 같이, 본 실시예 1에 의한 오디오 신호 압축 방법 및 오디오 신호 압축 장치에 따르면, 입력 오디오 신호로부터 산출된 주파수 특성 신호 계열을 정규화부(3)에서, 인간의 청각적인 성질인 청각 감도 특성에 따라서 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 이용해 정규화하는 구성으로 하였기 때문에, 정확하게 주파수 특성 신호 계열의 평탄화를 실행할 수 있어, 효율적인 양자화를 실행하는 것이 가능하다.
또한, 다단 양자화부(5)에서 벡터 양자화할 때의 부담이 줄어들어, 효율적인 양자화를 실행할 수 있다. 벡터 양자화에서는, 소정의 한정된 정보(코드)로 주파수 특성 신호 계열을 표현하기 때문에, 주파수 특성 신호 계열의 형상이 단순하면 단순할수록, 보다 적은 코드로 표현할 수 있다.
그래서, 본 발명에서는 주파수 특성 신호 계열의 형상을 단순화하기 위하여, 주파수 특성 신호 계열의 개략 형상을 표현하고 있는 스펙트럼 포락을 이용하여 정규화하고 있지만, 이 개략 형상으로서 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 이용함으로써, 보다 정확하게 주파수 특성 신호 계열의 형상을 단순화할 수 있어, 효율적인 양자화를 실행할 수 있다.
또한, 다단 양자화부(5)의 복수단의 벡터 양자화부(51∼53)에서, 청각 가중 계산부(6)에 있어서 입력 오디오 신호의 스펙트럼, 인간의 청각적인 성질인 청각 감도 특성, 및 인간의 청각적인 성질인 청각 감도 특성에 따라서, 주파수마다 분석정밀도를 변화시킨 스펙트럼 포락에 근거하여 산출된 주파수상의 가중 계수를 양자화시의 가중으로서 이용하여 벡터 양자화를 실행하는 구성으로 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적인 양자화를 실행할 수 있다.
또, 멜화 계수 산출부(21)는, 입력 신호로부터, 멜 선형 예측 분석을 이용하여 주파수마다 분석 정밀도를 변화시킨 선형 예측 계수, 즉 멜화한 선형 예측 계수를 구하는 부분이지만, 이하와 같은 방법을 이용하여 구하여도 무방하다. 즉, 입력 신호에 대하여, 올패스 필터를 이용해 주파수축을 신축시킴으로써 주파수 신축 신호를 구하고, 이 주파수 신축 신호에 대하여 통상의 선형 예측 분석을 실행함으로써 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하는 방법이다. 이하, 주파수마다 분석 정밀도를 변화시킨 선형 예측 계수, 즉 멜화한 선형 예측 계수를 추정하는 방법에 대하여 설명한다.
우선, 입력 신호 x[n]를 수학식 26에 의해 주파수축을 멜 주파수로 변환한 출력 신호(수학식 27 참조)를 구한다.
여기서, 올패스 필터(수학식 28 참조)는 수학식 6으로 표현된다.
다음에, 이 출력 신호(수학식 27 참조)에 대하여 통상의 선형 예측 분석을 실행함으로써 멜화된, 즉 주파수마다 분석 정밀도를 변화시킨 선형 예측 계수(수학식 29 참조)를 구할 수 있다.
실제로 수학식 26을 풀기 위해서는, 이미 잘 알려진 오펜하임 점화식을 계산함으로써 풀 수 있다. 멜화 계수 산출부(21)에서는, 이러한 방법으로 구한 주파수마다 분석 정밀도를 변화시킨 선형 예측 계수를 이용하여도 무방하다.
또한, 스펙트럼 포락 산출부(2)는 입력 신호로부터 직접 올패스 필터를 이용하여 주파수축을 신축시킴으로써 주파수 신축 신호를 구하는 것으로, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하는 방법 이외에, 입력 신호의 파워 스펙트럼을 주파수축상에서 재표본화, 즉 보간 처리를 실행함으로써 주파수축을 신축시킨, 즉 멜 변환한 파워 스펙트럼을 구해 두고, 이것을 역 DFT함으로써, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하는 것도 가능하다.
또한, 스펙트럼 포락 산출부(2)는, 입력 신호로부터 구한 자기 상관 함수를 m단의 올패스 필터를 통과시켜 주파수축을 신축시킨 자기 상관 함수를 구하고, 이 자기 상관 함수로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하는것도 가능하다.
또, 도 1의 오디오 신호 압축 장치에서는, 청각 가중 계산부(6)가 가중 계수의 산출에 스펙트럼 포락을 이용하는 구성으로 하고 있지만, 입력 오디오 신호의 스펙트럼과, 인간의 청각적인 성질인 청각 감도 특성만을 이용하여, 가중 계수를 산출하도록 하여도 무방하다.
또한, 도 1의 오디오 신호 압축 장치에서는, 다단 양자화부(5)의 복수단의 벡터 양자화부 모두가 청각 가중 계산부(6)에 있어서 구해진 청각 감도 특성에 근거한 가중 계수를 이용하여 양자화하도록 하고 있지만, 다단 양자화부(5)의 복수단의 벡터 양자화기 중 어느 1개가 청각 감도 특성에 근거한 가중 계수를 이용하여 양자화를 실행하는 것이면, 이러한 청각 감도 특성에 근거한 가중 계수를 이용하지 않는 경우에 비하여 효율적인 양자화를 실행할 수 있다.
또한, 도 1의 오디오 신호 압축 장치에서는, 압축해야 할 신호가 오디오 대역의 신호인 것으로 하여 설명하였지만, 이것을 음성 대역의 신호로 하여도 무방하며, 이 경우 도 1의 장치가 그대로 음성 신호 압축 장치로 된다.
또한, 도 1의 오디오 신호 압축 장치에서는, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중으로서, 멜 척도를 이용하도록 하였지만, 올패스 필터의 α값을 적절히 변경함으로써, 도 1의 블럭 구성 그대로 바크 척도에 근거하여 신호를 압축하는 오디오 신호 압축 장치에 장치 변경을 가할 수 있다.
(실시예 2)
도 7은 본 발명의 실시예 2에 의한 음성 인식 장치의 구성을 나타내는 블럭도이다. 동 도면에 있어서, (7)은 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여, 입력 음성으로부터 주파수마다 분해능을 변화시킨 멜 선형 예측 계수를 프레임마다 산출하는 멜 선형 예측 분석부이다. (8)은 멜 선형 예측 분석부(7)에서 산출된 멜 선형 예측 계수를 켑스트럼 계수로 변환하는 켑스트럼 계수 산출부이다. (9)는, 켑스트럼 계수 산출부(8)에서 산출된 켑스트럼 계수의 시계열과, 미리 준비한 단어나 음운 등의 복수의 표준 모델 사이의 유사도를 산출하여, 가장 유사도가 큰 단어나 음운을 인식하는 음성 인식부이다. 또, 이 음성 인식부(9)는 특정 화자 인식을 하는 것이어도 좋고, 불특정 화자 인식을 하는 것이어도 좋다.
다음에 상세한 동작에 대하여 설명한다. 우선, 입력된 디지탈 음성(이하, 「입력 신호」라고도 칭함)의 시계열은, 일정 주기의 길이(프레임)마다 멜 선형 예측 분석부(7)에서 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여, 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는 멜 선형 예측 계수가 산출된다. 이하, 멜 선형 예측 분석부(7)의 동작에 대하여 설명한다.
우선, 멜 선형 예측 분석부(7)의 개략을 도 7에 도시한다. 도 7을 이용하여 주파수마다 분해능을 변화시킨 선형 예측 계수, 즉 멜화한 선형 예측 계수의 산출 방법을 설명한다. 우선 본 실시예 2에서는, 예측 모델로서 단위 지연 z-1을 1차의 올패스 필터(수학식 30 참조)로 치환한 모델(수학식 31 참조)을 이용한다.
단, 상기 수학식 32는 멜 선형 예측 계수, α는 선형 예측 분석의 분해능을 주파수마다 변화시키기 위한 신축 계수이다. 올패스 필터의 주파수 특성은, 도 5에 이미 도시되어 있다. 예를 들어, 신축 계수로서는, 샘플링 주파수가 8kHz에서는 α=0.31, 10kHz에서는 α=0.35, 12kHz에서는 α=0.41, 16kHz에서는 α=0.45, 44.1kHz에서는 α=0.6∼0.7 등의 값을 이용하면 좋다.
여기서, 길이 N의 유한 길이 파형 x[n](n=0. …, N-1)에 대한 예측 오차를 수학식 33과 같이 무한 구간에 걸친 전체 자승 예측 오차에 의해 평가한다.
이 때, 수학식 34를 참조하는 것으로 하며, 또한 yi[n]을, 입력 신호 x[n]을i단의 올패스 필터에 통과시킨 출력 파형으로 하면, yi[n]의 예측값(수학식 35 참조)은 다음 수학식 36과 같은 선형 결합으로 표현된다.
이에 따라, 예측 오차를 최소로 하는 계수(수학식 32 참조)는 다음 수학식 37의 연립 방정식에 의해 주어진다.
단, φij는 무한 길이 파형 yi[n]과 yj[n]의 공통 분산이지만, 퍼시벌의 정리 및 올패스 필터(수학식 38 참조)를 퓨리에 변환한, 주파수축상에서의 표현을 이용함으로써, φij는 다음 수학식 39와 같이 유한 회수의 승산합 연산에 의해 주어진다.
또한, 수학식 40과 같이 해두면, r[m]은 자기 상관 함수로서의 성질을 갖는 것을 나타낼 수 있어, 수학식 41의 안정성도 보증된다.
또한, 수학식 39로부터 알 수 있는 바와 같이, 이 계산은 수학식 39의 중간변에 표시된 통상의 계산 방법이면 본래 무한 회수의 계산을 필요해야할 것이, 수학식 39의 우변에 표시된 유한 회수의 계산으로 종료되기 때문에, 방대한 계산을 필요로 하지 않는다. 또한, 무한 회수의 연산을 실행하는 대신에 유한 회수의 연산으로 연산을 절단하는 경우 필요한 파형의 절단 등의 근사를 전혀 필요로 하지 않으며, 파형 절단에 따르는 오차는 전혀 발생하지 않는다. 또한, 그 계산량은 통상의 자기 상관 계수의 수배의 계산량이면 되기 때문에, 파형으로부터 직접 구하는 것이 가능하다.
이 점은, 종래의 계산법과는 결정적으로 다른 중요한 점이다.
이하, 멜 선형 예측 계수를 구하기 위한 실제의 계산의 순서를 도 8에 도시한다. 이 부분은 실시예 1의 도 3과 마찬가지이며, 도 8에 있어서 (71)은 입력 신호의 주파수축을 신축시키는 올패스 필터, (72)는 이 올패스 필터(71)의 출력 신호와 예측 계수의 선형 결합을 작성하여, 올패스 필터(71)의 입력 신호 예측값을 출력하는 선형 결합부, (73)은 선형 결합부(72)로부터 출력되는 예측값과 입력 신호에 대하여 최소 자승법을 적용해 멜화 선형 예측 계수를 출력하는 최소 자승법 연산부이다.
다음에, 이 도 8을 이용하여 주파수마다 분석 정밀도를 변화시킨 선형 예측 계수, 즉 멜화한 선형 예측 계수의 추정 방법을 설명한다.
(단계 1)
입력 신호 x[n]을 i단의 올패스 필터(71)에 통과시켜 얻은 출력 신호 yi[n]을 다음 수학식 42에 의해 구한다. 단, 여기서 수학식 10을 참조하기로 한다.
(단계 2)
선형 결합부(72)에 있어서, 입력 신호 x[n]과 각 단의 필터 출력 신호yi[n]의 다음 수학식 43과 같은 승산합에 의해, 멜 주파수축상의 자기 상관 함수를 구한다. 이 때 멜 자기 상관 함수(수학식 12 참조)는 수학식 16의 관계로부터 올패스 필터의 단수차(수학식 43 참조)에만 의존하고 있기 때문에, 다음 수학식 44와 같이 절단하여 근사시키는 일 없이, N항의 승산합 연산에 의해 계산할 수 있다.
(단계 3)
최소 자승법 연산부(73)에 있어서, 멜 자기 상관 함수(수학식 12 참조)를 이용하여 수학식 11의 정규 방정식을, 이미 공지된 알고리즘, 예를 들면 더빈 방법 등으로 풀어, 멜화한 선형 예측 계수(멜 선형 예측 계수)를 구한다.
이상과 같이 하여 구한 멜 선형 예측 계수(수학식 32 참조)로부터, 켑스트럼 연산 산출부(8)에서 켑스트럼 계수로 변환한다. 켑스트럼 계수로의 변환 방법은 이미 공지된 것으로, 예를 들면 문헌(시카노 기요히로, 나카무라 테츠, 이세 후미로 저,「음성·음정보의 디지탈 신호 처리」, 쇼코도, p10∼16)에 상세히 기재되어 있으며, 멜 선형 예측 계수를 통상의 선형 예측 계수와 동일하게 취급하여 변환하면 된다. 그 결과, 멜 주파수축상에서의 켑스트럼 계수를 구할 수 있다.
이렇게하여 산출된 켑스트럼 계수(이하, 멜 LPC 켑스트럼 계수라고 칭함)의 시계열은, 음성 인식부(9)에 있어서 미리 준비한 단어나 음운 등의 복수의 표준 모델 사이의 유사도를 산출하여, 가장 유사도가 큰 단어나 음운을 인식한다.
표준 모델로서는, 복수의 인식 대상 어휘마다의 특징량의 시계열을 확률적인 천이로서 표현하는 히든 마르코프 모델(HMM)이라고 불리는 방법이 있는데, 이미 폭넓게 공지되어 이용되고 있다(예를 들면, 나카가와 세이치:"확률 모델에 의한 음성 인식", 전자 정보 통신 학회편). HMM이란, 미리 개인차에 의한 음운이나 단어의 특징량의 시계열을 HMM 모델에 학습시켜 두고, 입력 음성이 모델에 확률값으로서 어느 정도 가까운지를 파악하여 인식하는 방법이다. 본 실시예에서는, 이 특징량의 시계열로서 전술한 멜 LPC 켑스트럼 계수의 시계열을 이용한다.
또한, 표준 모델로서는, 복수의 인식 대상 어휘마다의 특징량의 시계열 중 대표적인 특징량의 시계열을 모델로 하여도 무방하며, 또한 특징량의 시계열을 시간적 혹은 주파수적으로 정규화(신축)함으로써 얻어지는 특징량의 정규화 시계열을 이용하여도 무방하다. 예를 들면, 시간축상에서 임의의 길이로 정규화하는 방법으로서 DP 매칭(dynamic programming;동적 계획법)이 있으며, 미리 결정한 대응 규칙에 따라서, 시간적 특징량의 시계열을 정규화하는 것이 가능하다.
본 실시예에서는, 이와 같이 어떠한 경우의 표준 모델을 사용하더라도, 특징량의 시계열로서 전술한 멜 LPC 켑스트럼 계수의 시계열을 이용하면 되기 때문에, 아무런 문제는 없다.
그런데 본 실시예에서는, 입력 음성으로부터 구한 특징량의 시계열로서, 멜LPC 켑스트럼 계수를 이용하여 인식하였지만, 통상의 선형 예측 계수로부터 PARCOR 계수를 구하는 것과 마찬가지의 공지된 방법에 의해 멜 선형 예측 계수로부터 구할 수 있는 멜 PARCOR 계수나, 혹은 통상의 선형 예측 계수로부터 LSP 계수를 구하는 것과 마찬가지의 공지의 방법에 의해 멜 선형 예측 계수로부터 구할 수 있는 멜 LSP 계수를 음성 인식에 이용하는 것도 가능하다. 또한, 이들 멜 선형 예측 계수로부터 구해지는 멜 선형 예측 계수, 멜 PARCOR 계수, 멜 LSP 계수, 멜 LPC 켑스트럼 계수 등은, 음성 인식뿐만 아니라 음성 합성이나 음성 부호화 등의 폭넓은 분야에서, 종래의 선형 예측 분석으로부터 구해지는 선형 예측 계수, PARCOR 계수, LSP 계수, LPC 켑스트럼 계수 등으로 대체하여 사용할 수 있다.
또, 본 실시예에 있어서, 멜 선형 예측 분석부(7)는, 입력 신호로부터, 멜 선형 예측 분석을 이용하여 주파수마다 분해능을 변화시킨 선형 예측 계수, 즉 멜화한 선형 예측 계수를 구하는 것으로 하였지만, 실시예 1과 마찬가지 방법을 이용하여 구하여도 무방하다. 즉, 입력 신호를 올패스 필터를 이용하여 주파수축을 신축시킴으로써 주파수 신축 신호를 구하고, 이 주파수 신축 신호에 대하여 통상의 선형 예측 분석을 실행함으로써 주파수마다 분해능을 변화시킨 스펙트럼 포락을 구하는 방법이다.
이와 같이 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여 멜 선형 예측 분석에 의해, 청각 감도 특성에 따라서 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는 특징량을 구함으로써, 적은 특징량으로도 효율적으로 스펙트럼 포락의 특징을 파악할 수 있고, 또한 이 특징량을 음성 인식에 이용함으로써 종래보다도 적은 처리량으로 높은 인식 성능을 실현할 수 있다.
(실시예 3)
도 9는 본 발명의 실시예 3에 의한 오디오 신호 압축 장치의 구성을 나타내는 블럭도이다. 본 실시예에 의한 오디오 신호 압축 장치는, 주로 음성 등의 협(狹)대역 신호 압축에 있어서 이용되고 있는 음성 신호 압축 장치에 대하여 설명한 것이다. 동 도면에 있어서, (11)은 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석에 의해, 입력 오디오 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 선형 예측 계수를 프레임마다 구하는 멜 파라미터 산출부이다. (12)는 멜 파라미터 산출부(1)에서 구한 멜 주파수축상의 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하는 파라미터 변환부이다. (13)은 입력 오디오 신호를 파라미터 변환부(2)에서 구한 특징량에 의해 역 필터링하여 정규화함으로써 잔차 신호를 산출하는 포락 정규화부, (14)는 포락 정규화부(13)에서 산출한 잔차 신호를 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화를 실행하는 파워 정규화부이다. (15)는 파워 정규화부(14)에서 정규화된 정규화 잔차 신호를 잔차 코드북(16)에 의해 벡터 양자화하여 잔차 부호로 변환하는 벡터 양자화부이다.
다음에 동작에 대하여 설명한다. 입력된 음성 등의 디지탈 오디오 신호(이하, 입력 신호 혹은 입력 음성이라고도 칭함)의 시계열은, 일정 주기의 길이(프레임)마다, 멜 파라미터 산출부(11)에서, 예측 모델에 주파수 신축을 조합한 멜 선형예측 분석에 의해, 입력 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 선형 예측 계수가 구해진다. 스펙트럼 포락을 표현하는 멜 선형 예측 계수를 구하는 부분은, 실시예 1의 멜화 계수 산출부(21)에서 설명한 방법과 동일하므로, 마찬가지의 순서로 스펙트럼 포락을 표현하는 특징량을 구할 수 있다.
다음에, 파라미터 변환부(12)에서는, 멜 파라미터 산출부(11)에서 산출된 멜 주파수축상의 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등 스펙트럼 포락을 표현하는 특징량으로 변환한다. 이 부분도, 실시예 1에서 설명했던 방법과 동일하므로, 포락 산출부(22)와 마찬가지의 방법으로 실현할 수 있다. 그런데 주로 음성 신호의 압축에 있어서, 입력된 음성 신호의 시계열은, 프레임마다 선형 예측 분석(LPC 분석)함으로써 LPC 계수(선형 예측 계수)나 LSP 계수(line spectrum pair coefficient) 혹은 PARCOR 계수(편자기 상관 계수) 등의 LPC 스펙트럼 포락 성분을 나타내는 특징량을 구하고, 이 특징량으로 역 필터링하여 정규화함으로써 잔차 신호를 산출하고 있다. 그래서 본 실시예와 같은 입력 음성으로부터 구한 멜화된 선형 예측 계수를 정규화를 위한 특징량으로서 이용하거나, 혹은 통상의 선형 예측 계수로부터 PARCOR 계수를 구하는 것과 마찬가지의 공지된 방법에 의해 멜화된 선형 예측 계수로부터 구한 멜화된 PARCOR 계수나, 혹은 통상의 선형 예측 계수로부터 LSP 계수를 구하는 것과 마찬가지의 공지된 방법에 의해 멜화된 선형 예측 계수로부터 구한 멜화된 LSP 계수를 이용하여, 시간축상에서의 역 필터링 처리를 실행하거나, 혹은 스펙트럼 포락 성분과 잔차 신호로 분리하면, 보다 정밀도 높은정규화나 분리가 가능해진다.
마찬가지로, 본 실시예의 포락 정규화부(13)에서는, 파라미터 변환부(12)에서 변환된 직선 주파수축의 선형 예측 계수 등 스펙트럼 포락을 표현하는 특징량을 이용해 역 필터링하고, 스펙트럼 포락 성분을 정규화하여 잔차 신호를 산출하고 있다.
또한 파워 정규화부(14)에서는, 포락 정규화부(3)에 의해 구해진 잔차 신호를 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화가 실행된다.
그리고 벡터 양자화부(15)에서는, 파워 정규화부(14)로부터 출력된 잔차 신호가, 미리 구해 놓은 잔차 코드북(16)을 이용하여 벡터 양자화된다. 그 결과, 벡터 양자화부(15)는 양자화 결과로서 코드를 출력함으로써 입력 신호의 압축 부호화가 완료된다.
이와 같이, 본 실시예에 의한 오디오 신호 압축 방법 및 오디오 신호 압축 장치에 따르면, 멜 파라미터 산출부(1)에 있어서, 입력 오디오 신호로부터 산출된 주파수 특성 신호 계열을 인간의 청각적인 성질인 청각 감도 특성에 따라서 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 선형 예측 계수를 구하고, 파라미터 변환부(2)에서, 이 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하며, 또한 포락 정규화부(3)에서, 파라미터 변환부(2)에 의해 구한 특징량으로 역 필터링하여 정규화함으로써, 잔차 신호를 정규화하는 구성으로 하였기 때문에, 정확히 주파수 특성 신호 계열의 평탄화를 실행할 수 있어, 효율적인 양자화를 실행할 수 있다. 또한, 벡터 양자화에서는 소정의 한정된 정보(코드)로 잔차 신호를 표현하기 때문에, 잔차 신호의 형상이 단순하면 단순할수록 보다 적은 코드로 표현할 수 있다. 그래서 본 발명에서는, 잔차 신호의 형상을 단순화하기 위하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 이용함으로써, 보다 정확히 잔차 신호의 형상을 단순화할 수 있어, 효율적인 양자화를 실행하는 것이 가능하다.
(실시예 4)
도 10은 본 발명의 실시예 4에 의한 휴대 전화기의 구성을 나타내는 블럭도이다.
본 실시예에 의한 휴대 전화기는, 실시예 3에 있어서의, 주로 음성 등의 협대역 신호 압축에 있어서 이용되고 있는 음성 신호 압축 장치를 이용하여 신호를 압축하도록 한 것에 대하여 설명한 것이다. 동 도면에 있어서, (11)은 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석에 의해, 입력 오디오 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 선형 예측 계수를 프레임마다 구하는 멜 파라미터 산출부이다. (12)는, 멜 파라미터 산출부(1)에서 구한 멜 주파수축상의 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하는 파라미터 변환부이다. (13)은 입력 오디오 신호를 파라미터 변환부(2)에서 구한 특징량으로 역 필터링하여 정규화함으로써 잔차 신호를 산출하는 포락 정규화부, (14)는 포락 정규화부(13)에서 산출한 잔차 신호를 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화를 실행하는파워 정규화부이다. (15)는 파워 정규화부(14)에서 정규화된 정규화 잔차 신호를 잔차 코드북(16)에 의해 벡터 양자화하여 잔차 부호로 변환하는 벡터 양자화부이다. (10)은 이들 멜 파라미터 산출부(11), 파라미터 변환부(12), 포락 정규화부(13), 파워 정규화부(14), 벡터 양자화부(15) 및 잔차 코드북(16)으로 이루어지며, 마이크로폰 등으로부터 입력되는 입력 음성 신호를, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여 정보 압축하는 음성 압축부이다. (31)은 이 음성 압축부(10)에 의해 정보 압축된 코드를, 휴대 전화기의 사양에 따른 주파수 및 변조 방식의 고주파 신호로 변조하여 송신하는 송신부, (32)는 이 송신부(31)로부터의 고주파 신호를 송신하는 안테나이다.
다음에 동작에 대하여 설명한다. 음성 압축부(10)의 동작은 실시예 3에 의한 음성 신호 압축 장치와 마찬가지이다. 즉, 입력된 음성 등의 디지탈 오디오 신호(이하, 입력 신호 혹은 입력 음성이라고도 칭함)의 시계열은, 일정 주기의 길이(프레임)마다, 멜 파라미터 산출부(11)에서, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석에 의해, 입력 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 선형 예측 계수가 구해진다. 스펙트럼 포락을 표현하는 멜 선형 예측 계수를 구하는 부분은, 실시예 1의 멜화 계수 산출부(21)에서 설명한 방법과 동일하므로, 마찬가지의 순서로 스펙트럼 포락을 표현하는 특징량을 구할 수 있다.
다음에, 파라미터 변환부(12)에서는, 멜 파라미터 산출부(11)에서 산출된 멜 주파수축상의 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등 스펙트럼포락을 표현하는 특징량으로 변환한다. 이 부분도, 실시예 1에서 설명한 방법과 동일하므로, 포락 산출부(22)와 마찬가지의 방법으로 실현할 수 있다. 그런데 주로 음성 신호의 압축에 있어서, 입력된 음성 신호의 시계열은, 프레임마다 선형 예측 분석(LPC 분석)함으로써, LPC 계수(선형 예측 계수)나 LSP 계수(line spectrum pair coefficient) 혹은 PARCOR 계수(편자기 상관 계수) 등의 LPC 스펙트럼 포락 성분을 나타내는 특징량을 구하고, 이 특징량으로 역 필터링하여 정규화함으로써 잔차 신호를 산출하고 있다. 그래서 본 실시예와 같은 입력 음성으로부터 구한 멜화된 선형 예측 계수를 정규화를 위한 특징량으로서 이용하거나, 혹은 통상의 선형 예측 계수로부터 PARCOR 계수를 구하는 것과 마찬가지의 공지된 방법에 의해 멜화된 선형 예측 계수로부터 구한 멜화된 PARCOR 계수나, 혹은 통상의 선형 예측 계수로부터 LSP 계수를 구하는 것과 마찬가지의 공지된 방법에 의해 멜화된 선형 예측 계수로부터 구한 멜화된 LSP 계수를 이용하여, 시간축상에서의 역 필터링 처리를 실행하거나, 혹은 스펙트럼 포락 성분과 잔차 신호로 분리하면, 보다 정밀도 높은 정규화나 분리가 가능해진다.
마찬가지로, 본 실시예의 포락 정규화부(13)에서는, 파라미터 변환부(12)에서 변환된 직선 주파수축의 선형 예측 계수 등 스펙트럼 포락을 표현하는 특징량을 이용해 역 필터링하여, 스펙트럼 포락 성분의 정규화함으로써 잔차 신호를 산출하고 있다.
또한, 파워 정규화부(14)에서는 포락 정규화부(3)에 의해 구해진 잔차 신호를 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화가 실행된다.
그리고 벡터 양자화부(15)에서는 파워 정규화부(14)로부터 출력된 잔차 신호가, 미리 구해 놓은 잔차 코드북(16)을 이용하여 벡터 양자화된다. 그 결과, 벡터 양자화부(15)는, 양자화 결과로서 코드를 출력함으로써 음성 신호의 압축 부호화가 완료된다.
그리고, 이와 같이 음성 압축부(10)에 있어서 압축 부호화된 음성 신호의 코드는 송신부(31)로 입력되고, 이 송신부(31)에 있어서, 휴대 전화기가 채용하고 있는 사양에 따른 주파수 및 변조 방식의 고주파로 변환되어, 안테나(32)를 거쳐 기지국으로 송신된다.
이와 같이, 본 실시예에 의한 휴대 전화기에 따르면, 멜 파라미터 산출부(1)에 있어서, 입력 오디오 신호로부터 산출된 주파수 특성 신호 계열을 인간의 청각적인 성질인 청각 감도 특성에 따라 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 선형 예측 계수를 구하고, 파라미터 변환부(2)에 있어서, 이 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하며, 또한 포락 정규화부(3)에 있어서, 파라미터 변환부(2)에 의해 구한 특징량으로 역 필터링하여 정규화함으로써 잔차 신호를 정규화하는 구성으로 하였기 때문에, 정확히 주파수 특성 신호 계열을 평탄화할 수 있어, 효율적인 양자화를 실행할 수 있다. 또한, 벡터 양자화에서는, 소정 한정된 정보(코드)로 잔차 신호를 표현하기 때문에, 잔차 신호의 형상이 단순하면 단순할수록, 보다 적은 코드로 표현할 수 있다. 그래서 본 발명에서는, 잔차 신호의 형상을 단순화하기 위하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 이용함으로써, 보다 정확하게 잔차 신호의 형상을 단순화할 수 있어, 효율적인 양자화를 실행하는 것이 가능하게 된다.
이 때문에, 동일한 대역을 사용하는 것이면, 종래의 것에 비해 보다 통화 품질을 향상시킬 수 있고, 종래와 동등한 통화 품질일 경우, 보다 채널수를 증가시키는 것이 가능해진다.
또, 본 실시예는 휴대 전화기 이외에도, 자동차 전화기 등의 이동 통신에 적용할 수 있다.
(실시예 5)
도 11은 본 발명의 실시예 5에 의한 네트워크 기기의 구성을 나타내는 블럭도이다.
본 실시예에 의한 네트워크 기기는, 실시예 3에 있어서의, 주로 음성 등의 협대역 신호 압축에 있어서 사용하고 있는 음성 신호 압축 장치를 이용하여 신호를 압축시켜서, 이것을 인터넷 등의 네트워크를 거쳐 다른 네트워크 기기로 송신하는, 인터넷 전화 등을 상정하고 있는 것이다. 동 도면에 있어서, (11)은 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석에 의해 입력 오디오 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 선형 예측 계수를 프레임마다 구하는 멜 파라미터 산출부이다. (12)는 멜 파라미터 산출부(1)에 의해 구한 멜 주파수축상의 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하는 파라미터 변환부이다. (13)은 입력 오디오 신호를 파라미터 변환부(2)에서 구한 특징량으로 역 필터링하여 정규화함으로써 잔차 신호를 산출하는 포락 정규화부, (14)는 포락 정규화부(13)에서 산출한 잔차 신호를 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화를 실행하는 파워 정규화부이다. (15)는 파워 정규화부(14)에서 정규화된 정규화 잔차 신호를 잔차 코드북(16)에 의해 벡터 양자화하여 잔차 부호로 변환하는 벡터 양자화부이다. (10)은 이들 멜 파라미터 산출부(11), 파라미터 변환부(12), 포락 정규화부(13), 파워 정규화부(14), 스펙트럼 양자화부(15) 및 잔차 코드북(16)으로 이루어지며, 마이크로폰 등으로부터 입력되는 입력 음성 신호를, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여 정보 압축하는 음성 압축부이다. (40)은 이 음성 압축부(10)에 의해 정보 압축된 코드를, 네트워크에 의해 음성 데이터의 전송용 코드로 변환하여 TCP/IP 프로토콜 등의 네트워크 사양에 따른 프로토콜에 따라 전송하는 네트워크 인터페이스부이다.
다음에 동작에 대하여 설명한다. 음성 압축부(10)의 동작은 실시예 3에 의한 음성 신호 압축 장치와 마찬가지이다. 즉, 입력된 음성 등의 디지탈 오디오 신호(이하, 입력 신호라고도 칭함)의 시계열은, 일정 주기의 길이(프레임)마다, 멜 파라미터 산출부(11)에서, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석에 의해, 입력 오디오 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 선형 예측 계수가 구해진다. 스펙트럼 포락을 표현하는 멜 선형 예측 계수를 구하는 부분은, 실시예 1의 멜화 계수 산출부(21)에서 설명한 방법과 동일하므로, 마찬가지 순서로 스펙트럼 포락을 표현하는 특징량을 구할 수 있다.
다음에, 파라미터 변환부(12)에서는, 멜 파라미터 산출부(11)에 의해 산출된 멜 주파수축상의 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등 스펙트럼 포락을 표현하는 특징량으로 변환한다. 이 부분 역시, 실시예 1에서 설명한 방법과 동일하므로, 포락 산출부(22)와 마찬가지 방법으로 실현할 수 있다. 그런데 주로 음성 신호의 압축에서는, 입력된 음성 신호의 시계열은 프레임마다 선형 예측 분석(LPC 분석)함으로써, LPC 계수(선형 예측 계수)나 LSP 계수(line spectrum pair coefficient), 혹은 PARCOR 계수(편자기 상관 계수) 등의 LPC 스펙트럼 포락 성분을 나타내는 특징량을 구하고, 이 특징량으로 역 필터링하여 정규화함으로써 잔차 신호를 산출하고 있다. 그래서, 본 실시예와 같은 입력 음성으로부터 구한 멜화된 선형 예측 계수를 정규화를 위한 특징량으로서 이용하거나, 혹은 통상의 선형 예측 계수로부터 PARCOR 계수를 구하는 것과 마찬가지의 공지된 방법에 의해 멜화된 선형 예측 계수로부터 구한 멜화된 PARCOR 계수나, 혹은 통상의 선형 예측 계수로부터 LSP 계수를 구하는 것과 마찬가지의 공지된 방법에 의해 멜화된 선형 예측 계수로부터 구한 멜화된 LSP 계수를 이용하여, 시간축상에서의 역 필터링 처리를 실행하거나, 혹은 스펙트럼 포락 성분과 잔차 신호로 분리를 하면, 보다 정밀도 높은 정규화나 분리가 가능해진다.
마찬가지로, 본 실시예의 포락 정규화부(13)에서는, 파라미터 변환부(12)에서 변환된 직선 주파수축의 선형 예측 계수 등 스펙트럼 포락을 표현하는 특징량을 이용해 역 필터링하여, 스펙트럼 포락 성분의 정규화함으로써 잔차 신호를 산출하고 있다.
또한 파워 정규화부(14)에서는, 포락 정규화부(3)에서 구해진 잔차 신호를 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화가 실행된다.
그리고 벡터 양자화부(15)에서는, 파워 정규화부(14)로부터 출력된 잔차 신호가, 미리 구해 놓은 잔차 코드북(16)을 이용하여 벡터 양자화된다. 그 결과, 벡터 양자화부(15)는 양자화 결과로서 코드를 출력함으로써 음성 신호의 압축 부호화가 완료된다.
그리고, 이와 같이 음성 압축부(10)에 있어서 압축 부호화된 음성 신호의 코드는, 네트워크 인터페이스부(40)에 입력된 후, 이 네트워크 인터페이스부(40)에 있어서 음성 압축부(10)에 의해 정보 압축된 코드를, 네트워크에 의해 음성 데이터의 전송용 코드로 변환하여 TCP/IP 프로토콜 등의 네트워크의 사양에 따른 프로토콜에 따라 네트워크를 향해 송출한다.
이에 따라 본 실시예에 의한 네트워크 기기에 따르면, 멜 파라미터 산출부(11)에 있어서, 입력 오디오 신호로부터 산출된 주파수 특성 신호 계열을 인간의 청각적인 성질인 청각 감도 특성에 따라서 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 선형 예측 계수를 구하고, 파라미터 변환부(12)에서, 이 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하며, 또한 포락 정규화부(13)에서, 파라미터 변환부(12)에 의해 구한 특징량으로 역 필터링하여 정규화함으로써 잔차 신호를 정규화하는 구성으로 하였기 때문에, 정확히 주파수 특성 신호 계열을 평탄화할 수 있어, 효율적인 양자화를 실행할 수 있다. 또한, 벡터 양자화에서는, 소정의 한정된 정보(코드)로 잔차 신호를 표현하기 때문에, 잔차 신호의 형상이 단순하면 단순할수록, 보다 적은 코드로 표현할 수 있다. 그래서 본 발명에서는, 잔차 신호의 형상을 단순화하기 위하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 이용함으로써, 보다 정확히 잔차 신호의 형상을 단순화할 수 있어, 효율적인 양자화를 실행하는 것이 가능하다.
이 때문에, 네트워크의 데이터 전송 속도가 동일할 경우, 종래의 것에 비해 통화 품질을 보다 향상시킬 수 있으며, 종래와 동등한 통화 품질일 경우, 수용할 수 있는 단말의 수를 보다 증가시킬 수 있다.
또, 본 실시예는 퍼스널 컴퓨터나 인터넷 전화기, 인터넷 TV 등의 인터넷 기기를 상정하고 있지만, 퍼스널 컴퓨터 통신 등, 인터넷 이외의 프로토콜을 이용하는 단말에도 적용할 수 있다.
(실시예 6)
도 12는 본 발명의 실시예 6에 의한 네트워크 기기의 구성을 나타내는 블럭도이다.
본 실시예에 의한 네트워크 기기는, 실시예 1에 있어서의, 주로 오디오 대역의 신호 압축에 있어서 이용되고 있는 오디오 신호 압축 장치를 이용하여 신호를 압축시키고, 이것을 인터넷 등의 네트워크를 거쳐 다른 네트워크 기기로 송신하는, 인터넷 기기 등을 상정하고 있는 것이다. 동 도면에 있어서, (1)은, 예를 들면 MDCT, 혹은 FFT 등에 의해 입력된 디지탈 오디오 신호나 음성 신호의 시계열을, 일정 주기의 길이(프레임)마다 주파수 특성 신호 계열로 변환하는 시간 주파수 변환부이다. 또한, (2)는 예측 모델에 주파수 신축 기능을 조합한 멜 선형 예측 분석을 이용하여, 입력 오디오 신호로부터, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 프레임마다 구하는 스펙트럼 포락 산출부이다. (3)은 시간 주파수 변환부(1)에서 산출된 주파수 특성 신호 계열을 스펙트럼 포락 산출부(2)에 의해 구한 스펙트럼 포락으로 제산하여 정규화함으로써 주파수 특성을 평탄화하는 정규화부, (4)는 정규화부(3)에서 평탄화된 주파수 특성 신호 계열에 대하여, 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화를 실행하는 파워 정규화부이다. (5)는 정규화부(3), 파워 정규화부(4)에서 평탄화된 주파수 특성 신호 계열을 벡터 양자화하는 다단 양자화부이며, 이 다단 양자화부(5)는 서로 종렬 접속된 제 1 단의 양자화기(51), 제 2 단 양자화기(52), …, 제 N 단의 양자화기(53)를 포함한다. (6)은 시간 주파수 변환부(1)로부터 출력된 주파수 특성 신호 계열과 스펙트럼 포락 산출부(2)에 의해 구한 스펙트럼 포락을 입력으로 하여, 인간의 청각 감도 특성에 근거해 양자화부(5)에서의 양자화시에 이용하는 가중 계수를 구하는 청각 가중 계산부이다. (20)은 이들 시간 주파수 변환부(1), 스펙트럼 포락 산출부(2), 정규화부(3), 파워 정규화부(4), 양자화부(5) 및 청각 가중 계산부(6)로 이루어지며, 외부로부터 입력되는 입력 오디오 음성 신호를, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여 정보 압축하는 오디오 신호 압축부이다. (41)은 이 오디오 신호 압축부(20)에 의해 정보 압축된 코드를, 네트워크에 의해 오디오 데이터의 전송용 코드로 변환하여, TCP/IP 프로토콜 등의 네트워크사양에 따른 프로토콜에 따라 전송하는 네트워크 인터페이스부이다.
다음에 동작에 대하여 설명한다. 오디오 신호 압축부(20)의 동작은 실시예 1에 의한 오디오 신호 압축 장치와 마찬가지이다. 즉, 입력된 디지탈 오디오 신호(이하, 입력 신호라고도 칭함)의 시계열은, 일정 주기의 길이(프레임)마다 시간 주파수 변환부(1)에서 MDCT, FFT 등에 의해 주파수 특성 신호 계열로 변환된다.
또한 입력 신호는, 프레임마다 스펙트럼 포락 산출부(2)에서, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락이 구해진다.
다음에, 정규화부(3)에서는, 상기에서 산출된 주파수 특성 신호 계열을 스펙트럼 포락으로 제산하여 정규화함으로써, 주파수 특성 신호 계열을 평탄화한다. 정규화부(3)에서 평탄화된 주파수 특성 신호 계열은, 파워 정규화부(4)에서 파워의 최대값, 혹은 평균값 등에 근거하여 파워 정규화가 더 실행된다.
한편, 청각 가중 계산부(6)에는 시간 주파수 변환부(1)로부터 출력된 주파수 특성 신호 계열과, 스펙트럼 포락 산출부(2)에서 구한 스펙트럼 포락이 입력되고, 시간 주파수 변환부(1)로부터 출력된 주파수 특성 신호 계열의 스펙트럼에 대해 최소 가청 한계 특성이나 청각 마스킹 특성 등의 인간의 청각적인 성질인 청각 감도 특성에 근거하여, 이 청각 감도 특성을 고려한 특성 신호를 산출하고, 또한 이 특성 신호와 스펙트럼 포락에 근거하여 양자화에 이용하는 가중 계수를 구한다.
파워 정규화부(4)로부터 출력된 잔차 신호는, 다단 양자화부(5)의 제 1 단의 양자화부(51)에서 청각 가중 계산부(6)에 의해 구해진 가중 계수를 이용하여 양자화되고, 제 1 단의 양자화부(51)에서의 양자화에 의한 양자화 오차 성분이 다단 양자화부(5)의 제 2 단 양자화부(52)에서 청각 가중 계산부(6)에 의해 구해진 가중 계수를 이용하여 양자화되며, 이하 마찬가지로 하여 복수단의 양자화부 각각에 있어서, 전단의 양자화부에서의 양자화에 의한 양자화 오차 성분의 양자화가 실행된다. 이들 각 양자화부는 양자화 결과로서 코드를 출력한다. 그리고, 제 (N-1) 단의 양자화부에서의 양자화에 의한 양자화 오차 성분에 대하여, 제 N 단의 양자화부(53)에서 청각 가중 계산부(6)에 의해 구해진 가중 계수를 이용해 양자화가 실행됨에 따라, 오디오 신호의 압축 부호화가 완료된다.
그리고, 이와 같이 오디오 신호 압축부(20)에 있어서 압축 부호화된 음성 신호의 코드는 네트워크 인터페이스부(41)에 입력되고, 이 네트워크 인터페이스부(40)에 있어서 오디오 신호 압축부(20)에 의해 정보 압축된 코드를, 네트워크에 의해 오디오 데이터의 전송용 코드로 변환하여, TCP/IP 프로토콜 등의 네트워크의 사양에 따른 프로토콜에 따라 네트워크로 송출한다.
이와 같이, 본 실시예 6에 의한 네트워크 기기에 따르면, 정규화부(3)에서, 입력 오디오 신호로부터 산출된 주파수 특성 신호 계열을, 인간의 청각적인 성질인 청각 감도 특성에 따라 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 이용해 정규화하는 구성으로 하였기 때문에, 주파수 특성 신호 계열을 정확하게 평탄화할 수 있어, 효율적인 양자화를 실행하는 것이 가능하다.
또한, 다단 양자화부(5)에서 벡터 양자화할 때의 부담이 줄어들어, 효율적인 양자화를 실행할 수 있다. 벡터 양자화에서는, 소정의 한정된 정보(코드)로 주파수 특성 신호 계열을 표현하기 때문에, 주파수 특성 신호 계열의 형상이 단순하면 단순할수록, 보다 적은 코드로 표현할 수 있다.
그래서, 본 발명에서는, 주파수 특성 신호 계열의 형상을 단순화하기 위하여 주파수 특성 신호 계열의 개략 형상을 표현하고 있는 스펙트럼 포락을 이용해 정규화하고 있지만, 이 개략 형상으로서 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 이용함으로써, 보다 정확하게 주파수 특성 신호 계열의 형상을 단순화할 수 있어, 효율적인 양자화를 실행하는 것이 가능하다.
또한, 다단 양자화부(5)의 복수단의 벡터 양자화부(51∼53)에 있어서, 청각 가중 계산부에서 입력 오디오 신호의 스펙트럼, 인간의 청각적인 성질인 청각 감도 특성 및 인간의 청각적인 성질인 청각 감도 특성에 따라, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락에 근거해 산출된 주파수상의 가중 계수를 양자화시의 가중으로서 이용하여 벡터 양자화를 실행하는 구성으로 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적인 양자화를 실행하는 것이 가능하다.
이와 같이, 오디오 신호의 효율적인 양자화를 실행하고 있기 때문에, 네트워크의 데이터 전송 속도가 동일할 경우, 종래의 것에 비해 오디오보다 품질을 보다 향상시킬 수 있으며, 종래와 동등한 오디오 품질일 경우, 수용할 수 있는 단말의 수를 보다 증가시킬 수 있다.
또, 본 실시예는 퍼스널 컴퓨터나 인터넷 TV 등의 인터넷 기기를 상정하고 있지만, 퍼스널 컴퓨터 통신 등, 인터넷 이외의 프로토콜을 이용하는 단말에도 적용하는 것이 가능하다.
이상과 같이, 본 발명(청구항 1)에 관한 오디오 신호 압축 방법에 따르면, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 방법에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하고, 상기 산출한 스펙트럼 포락을 이용하여, 상기 입력 오디오 신호를 프레임마다 평활화하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 방법을 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 2)에 관한 오디오 신호 압축 방법에 따르면, 청구항 1에 기재된 오디오 신호 압축 방법에 있어서, 상기 스펙트럼 포락의 산출은, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중으로서, 바크 척도를 이용하여, 상기 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 방법을 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 3)에 관한 오디오 신호 압축 방법에 따르면, 청구항 1에 기재된 오디오 신호 압축 방법에 있어서, 상기 스펙트럼 포락의 산출은, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중으로서, 멜 척도를 이용하여, 상기 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는오디오 신호 압축 방법을 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 4)에 관한 오디오 신호 압축 방법에 따르면, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 방법에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 올패스 필터를 이용해 주파수축을 신축시켜 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하며, 상기 스펙트럼 포락을 이용하여, 상기 입력 오디오 신호를 프레임마다 평활화하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 방법을 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 5)에 관한 오디오 신호 압축 방법에 따르면, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 방법에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용해 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하고, 상기 스펙트럼 포락을 이용하여, 상기 입력 오디오 신호를 프레임마다 평활화하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 보다 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 방법를 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 6)에 관한 오디오 신호 압축 방법에 따르면, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호압축 방법에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용해 실행하는, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락의 산출은, 상기 입력 오디오 신호로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터를 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 입력 신호와 각 단마다의 필터 출력 신호와의 승산합은 승산합을 실행하는 범위를 상기 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여, 상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하든지, 혹은 상기 멜 선형 예측 계수로부터 스펙트럼 포락을 구하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 보다 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 방법을 얻을 수 있다고 하는 효과가 있다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
또한, 본 발명(청구항 7)에 관한 오디오 신호 압축 방법에 따르면, 청구항 6에 기재된 오디오 신호 압축 방법에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로서, 1차의 올패스 필터인 것으로 하였기 때문에, 인간의 청각적인 성질을 이용하여 보다 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 방법을 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 8)에 관한 오디오 신호 압축 장치에 따르면, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 장치에 있어서, 입력된 오디오 신호를 주파수 영역 신호로 변환하는 시간 주파수 변환 수단과, 상기 입력 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하는 스펙트럼 포락 산출 수단과, 상기 시간 주파수 변환 수단에 의해 얻어진 주파수 영역 신호를, 상기 스펙트럼 포락 산출 수단에 의해 얻어진 스펙트럼 포락으로 정규화하여 잔차 신호를 얻는 정규화 수단과, 상기 잔차 신호를 파워에 의해 정규화하는 파워 정규화 수단과, 상기 입력 오디오 신호의 스펙트럼과 인간의 청각적인 성질인 청각 감도 특성에 근거하여, 주파수상의 가중 계수를 산출하는 청각 가중 계산 수단과, 상기 파워 정규화 수단에 의해 정규화된 상기 잔차 신호가 입력되는, 종렬로 접속된 복수단의 벡터 양자화부를 갖고, 또한 그 중 적어도 1개의 벡터 양자화부가 상기 청각 가중 계산 수단에 의해 얻어진 가중 계수를 이용하여 양자화를 실행하는 다단 양자화 수단을 포함하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 장치를 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 9)에 관한 오디오 신호 압축 장치에 따르면, 입력된 오디오 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 오디오 신호 압축 장치에 있어서, 입력된 오디오 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 주파수축상의 멜 선형 예측 계수를 산출하는 멜 파라미터 산출 수단과, 상기 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하는 파라미터 변환 수단과, 상기 입력 오디오 신호를 상기 파라미터 변환 수단에 의해 얻어진 스펙트럼 포락을 표현하는 특징량에 의해 역 필터링하여 정규화함으로써 잔차 신호를 얻는 포락 정규화 수단과, 상기 잔차 신호를 파워의 최대값, 혹은 평균값 등에 근거하여 정규화함으로써 정규화 잔차 신호를 구하는 파워 정규화 수단과, 상기 파워 정규화 수단에 의해 정규화된 상기 정규화 잔차 신호를 잔차 코드북에 따라 벡터 양자화하여 잔차 부호로 변환하는 벡터 양자화부를 포함하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 장치를 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 10 및 청구항 35)에 관한 오디오 신호 압축 장치에 따르면, 각각 청구항 8 또는 청구항 9에 기재된 오디오 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 입력 오디오 신호를 올패스 필터를 이용하여 주파수축을 신축시켜 상기 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 장치를 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 11 및 청구항 36)에 관한 오디오 신호 압축 장치에 따르면, 각각 청구항 8 또는 청구항 9에 기재된 오디오 신호 압축 장치에 있어서, 오디오 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여, 입력 오디오 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 장치를 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 12 및 청구항 37)에 관한 오디오 신호 압축 장치에 따르면, 각각 청구항 8 또는 청구항 9에 기재된 오디오 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 입력된 오디오 신호로부터 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하는 것이며, 상기 입력 오디오 신호로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터를 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 입력 신호와 각 단마다의 필터 출력 신호의승산합은 승산합을 실행하는 범위를 상기 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여, 상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하든지, 혹은 상기 멜 선형 예측 계수로부터 스펙트럼 포락을 구하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호 압축을 실행할 수 있는 오디오 신호 압축 장치를 얻을 수 있다고 하는 효과가 있다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
또한, 본 발명(청구항 13 및 청구항 38)에 관한 오디오 신호 압축 장치에 따르면, 각각 청구항 12 및 청구항 37에 기재된 오디오 신호 압축 장치에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로서, 1차의 올패스 필터인 것으로 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 장치를 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 14)에 관한 오디오 신호 압축 장치에 따르면, 청구항8에 기재된 오디오 신호 압축 장치에 있어서, 상기 다단 양자화 수단을 구성하는 복수단중의 복수의 벡터 양자화부는, 청각 가중 계산 수단에 의해 얻어진 가중 계수를 이용하여 양자화를 실행하는 것이며, 상기 청각 가중 계산 수단은, 상기 복수의 벡터 양자화부 각각이 이용하는 개별적인 가중 계수를 산출하는 것으로 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 장치를 얻을 수 있다고하는 효과가 있다.
또한, 본 발명(청구항 15)에 관한 오디오 신호 압축 장치에 따르면, 청구항 14에 기재된 오디오 신호 압축 장치에 있어서, 상기 다단 양자화 수단은, 상기 스펙트럼 포락 산출 수단에 의해 얻어진 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 각 주파수 영역에서의 가중 계수로 하여, 상기 파워 정규화 수단에 의해 정규화된 잔차 신호의 양자화를 실행하는 제 1 단 양자화부와, 상기 스펙트럼 포락과 상기 제 1 단 양자화부의 양자화 오차 신호의 상관에 근거하여 산출된 가중 계수를 각 주파수 영역에서의 가중 계수로 하여, 상기 제 1 단 양자화부로부터 출력되는 양자화 오차 신호의 양자화를 실행하는 제 2 단 양자화부와, 상기 청각 가중 계산 수단에서, 상기 시간 주파수 변환 수단에 의해 주파수 영역 신호로 변환된 입력 신호와 청각 특성에 의해 산출된 가중을, 상기 스펙트럼 포락, 상기 제 2 단 양자화부의 양자화 오차 신호, 상기 파워 정규화 수단에서 정규화된 상기 잔차 신호에 근거해 조정하여 구한 가중 계수를 각 주파수 영역에서의 가중 계수로 하여, 상기 제 2 단 양자화부로부터 출력되는 양자화 오차 신호의 양자화를 실행하는 제 3 단 양자화부를 포함하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 효율적으로 신호를 압축할 수 있는 오디오 신호 압축 장치를 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 16)에 관한 음성 신호 압축 방법에 따르면, 입력된 음성 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 음성 신호 압축 방법에 있어서, 입력된 음성 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 실행하는, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락의 산출은, 상기 입력 음성 신호로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터에 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 입력 신호와 각 단마다의 필터 출력 신호와의 승산합은 승산합을 실행하는 범위를 상기 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여 상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하든지, 혹은 상기 멜 선형 예측 계수로부터 스펙트럼 포락을 구하도록 하였기 때문에, 인간의 청각적인 성질을 보다 효율적으로 이용하여 신호를 압축할 수 있는 음성 신호 압축 방법을 얻을 수 있다고 하는 효과가 있다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
또한, 본 발명(청구항 17)에 관한 음성 신호 압축 방법에 따르면, 청구항 16에 기재된 음성 신호 압축 방법에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로서, 1차의 올패스 필터인 것으로 하였기 때문에, 인간의 청각적인 성질을 보다 효율적으로 이용하여 신호를 압축할 수 있는 음성 신호 압축 방법을 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 18)에 관한 음성 신호 압축 장치에 따르면, 입력된 음성 신호에 대해 부호화를 실행하고, 또한 그 정보량을 압축하는 음성 신호 압축 장치에 있어서, 입력된 음성 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 표현하는 멜 주파수축상의 멜 선형 예측 계수를 산출하는 멜 파라미터 산출 수단과, 상기 멜 선형 예측 계수를 직선 주파수축의 선형 예측 계수 등의 스펙트럼 포락을 표현하는 특징량으로 변환하는 파라미터 변환 수단과, 상기 입력 신호를 상기 파라미터 변환 수단에 의해 얻어진 스펙트럼 포락을 표현하는 특징량으로 역 필터링하여 정규화함으로써 잔차 신호를 얻는 포락 정규화 수단과, 상기 잔차 신호를파워의 최대값, 혹은 평균값 등에 근거하여 정규화함으로써 정규화 잔차 신호를 구하는 파워 정규화 수단과, 상기 파워 정규화 수단에 의해 정규화된 상기 정규화 잔차 신호를 잔차 코드북에 따라 벡터 양자화하여 잔차 부호로 변환하는 벡터 양자화부를 포함하도록 하였기 때문에, 인간의 청각적인 성질을 보다 효율적으로 이용하여 신호를 압축할 수 있는 음성 신호 압축 장치를 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 19)에 관한 음성 신호 압축 장치에 따르면, 청구항 18에 기재된 음성 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 입력 음성 신호를 올패스 필터를 이용하여 주파수축을 신축시켜 상기 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하도록 하였기 때문에, 인간의 청각적인 성질을 보다 효율적으로 이용하여 신호를 압축할 수 있는 음성 신호 압축 장치를 얻어지는 효과가 있다.
또한, 본 발명(청구항 20)에 관한 음성 신호 압축 장치에 따르면, 청구항 18에 기재된 음성 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여, 입력 음성 신호로부터 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 구하도록 하였기 때문에, 인간의 청각적인 성질을 보다 효율적으로 이용하여 신호를 압축할 수 있는 음성 신호 압축 장치으를 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 21)에 관한 음성 신호 압축 장치에 따르면, 청구항 18에 기재된 음성 신호 압축 장치에 있어서, 상기 스펙트럼 포락 산출 수단은, 입력된 음성 신호로부터 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분석 정밀도를 변화시킨 스펙트럼 포락을 산출하는 것이며, 상기 입력 음성 신호로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터에 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 입력 신호와 각 단마다의 필터 출력 신호의 승산합은 승산합을 실행하는 범위를 상기 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여, 상기 멜 선형 예측 계수 그 자체를 스펙트럼 포락으로 하든지, 혹은 상기 멜 선형 예측 계수로부터 스펙트럼 포락을 구하도록 하였기 때문에, 인간의 청각적인 성질을 보다 효율적으로 이용하여 신호를 압축할 수 있는 음성 신호 압축 장치를 얻을 수 있는 효과가 있다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
또한, 본 발명(청구항 22)에 관한 음성 신호 압축 장치에 따르면, 청구항 21에 기재된 음성 신호 압축 장치에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로서, 1차의 올패스 필터인 것으로 하였기 때문에, 인간의 청각적인 성질을 보다 효율적으로 이용하여 신호를 압축할 수 있는 음성 신호 압축 장치를 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 23)에 관한 음성 인식 방법에 따르면, 입력된 음성 신호로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분해능을 변화시킨 선형 예측 분석법에 의해 스펙트럼 포락에 대응하는 특징량을 산출하고, 상기 특징량을 이용하여 입력 음성을 인식하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 고정밀도로 음성 인식할 수 있는 음성 인식 방법을 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 24)에 관한 음성 인식 방법에 따르면, 청구항 23에 기재된 음성 인식 방법에 있어서, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중으로서, 바크 척도를 이용하여, 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는 상기 특징량을 산출하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 고정밀도로 음성 인식할 수 있는 음성 인식 방법을 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 25)에 관한 음성 인식 방법에 따르면, 청구항 23에 기재된 음성 인식 방법에 있어서, 인간의 청각적인 성질인 청각 감도 특성에 대응한주파수상의 가중으로서, 멜 척도를 이용하여, 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는, 상기 특징량을 산출하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 고정밀도로 음성 인식할 수 있는 음성 인식 방법을 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 26)에 관한 음성 인식 방법에 따르면, 입력된 음성으로부터, 인간의 청각적인 성질인 청각 감도 특성을 고려한 스펙트럼 포락을 구하는 방법으로서, 올패스 필터를 이용하여 주파수축을 신축시켜 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행하여 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는 특징량을 구하며, 상기 특징량을 이용하여 입력 음성을 인식하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 고정밀도로 음성 인식할 수 있는 음성 인식 방법을 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 27)에 관한 음성 인식 방법에 따르면, 입력된 음성으로부터, 인간의 청각적인 성질인 청각 감도 특성을 고려한 스펙트럼 포락에 대응하는 특징량을 구하는 방법으로서, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용한 선형 예측 분석법에 의해 특징량을 구하고, 상기 특징량을 이용하여 입력 음성을 인식하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 보다 고정밀도로 음성 인식할 수 있는 음성 인식 방법을 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 28)에 관한 음성 인식 방법에 따르면, 입력된 음성으로부터, 인간의 청각적인 성질인 청각 감도 특성을 고려한 스펙트럼 포락에 대응하는 특징량을 구하는 방법으로서, 상기 입력 음성으로부터 일정 시간 길이의 입력 신호를 페치하여, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터에 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 일정 시간 길이의 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 일정 시간 길이의 입력 신호와 각 단마다의 필터 출력 신호의 승산합은 승산합을 실행하는 범위를 상기 일정 시간 길이의 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하여, 상기 멜 선형 예측 계수 그 자체나, 혹은 상기 멜 선형 예측 계수로부터 구해진 켑스트럼 계수를 나타내는 특징량을 이용하여 입력 음성을 인식하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 보다 고정밀도로 음성 인식할 수 있는 음성 인식 방법을 얻을 수 있다고 하는 효과가 있다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
또한, 본 발명(청구항 29)에 관한 음성 인식 방법에 따르면, 청구항 28에 기재된 음성 인식 방법에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하는, 1차의 올패스 필터인 것으로 하였기 때문에, 인간의 청각적인 성질을 이용하여 보다 고정밀도로 음성 인식할 수 있는 음성 인식 방법을 얻을 수 있다고 하는 효과가 있다.
또한, 본 발명(청구항 30)에 관한 음성 인식 장치에 따르면, 입력된 음성으로부터, 인간의 청각적인 성질인 청각 감도 특성에 대응한 주파수상의 가중에 근거하여, 주파수마다 분해능을 변화시킨 스펙트럼 포락에 대응하는 선형 예측 계수를 산출하는 멜 선형 예측 분석 수단과, 상기 멜 선형 예측 분석 수단에 의해 얻어진 선형 예측 계수로부터 켑스트럼 계수를 산출하는 켑스트럼 계수 산출 수단과, 상기 켑스트럼 계수의 복수 프레임분과 복수의 표준 모델 사이의 거리를 산출하여, 어느 표준 모델과 유사한지 여부를 판정하는 음성 인식 수단을 포함하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 고정밀도로 음성 인식할 수 있는 음성 인식 장치를 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 31)에 관한 음성 인식 장치에 따르면, 청구항 30에 기재된 음성 인식 장치에 있어서, 상기 멜 선형 예측 분석 수단은, 입력 음성을 올패스 필터를 이용하여 주파수축 신축시킴으로써 주파수 신축 신호를 구하고, 상기 주파수 신축 신호에 대해 선형 예측 분석을 실행함으로써 주파수마다 분해능을 변화시킨 선형 예측 계수를 구하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 고정밀도로 음성 인식할 수 있는 음성 인식 장치를 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 32)에 관한 음성 인식 장치에 따르면, 청구항 30에 기재된 음성 인식 장치에 있어서, 상기 멜 선형 예측 분석 수단은, 예측 모델에 주파수 신축을 조합한 멜 선형 예측 분석을 이용하여 입력 음성으로부터 주파수마다 분해능을 변화시킨 선형 예측 계수를 구하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 고정밀도로 음성 인식할 수 있는 음성 인식 장치를 얻을 수 있는 효과가 있다.
또한, 본 발명(청구항 33)에 관한 음성 인식 장치에 따르면, 청구항 30에 기재된 음성 인식 장치에 있어서, 상기 멜 선형 예측 분석 수단은, 입력된 음성으로부터 인간의 청각적인 성질인 청각 감도 특성을 고려한 스펙트럼 포락에 대응하는 특징량을 구하는 것이며, 상기 입력 음성으로부터 일정 시간 길이의 입력 신호를 페치하고, 상기 일정 시간 길이의 입력 신호를 복수단의 올패스 필터에 통과시켜 각 단마다의 필터 출력 신호를 구하여, 상기 일정 시간 길이의 입력 신호와 각 단마다의 필터 출력 신호의 수학식 1에 의한 승산합으로부터 멜 주파수축상에서의 자기 상관 함수를 구하고, 또한 상기 일정 시간 길이의 입력 신호와 각 단마다의 필터 출력 신호의 승산합은 승산합을 실행하는 범위를 상기 일정 시간 길이의 입력 신호의 시간 길이로 제한하여 실행하며, 상기 멜 주파수축상에서의 자기 상관 함수로부터 멜 선형 예측 계수를 구하도록 하였기 때문에, 인간의 청각적인 성질을 이용하여 보다 고정밀도로 음성 인식할 수 있는 음성 인식 장치를 얻을 수 있는 효과가 있다.
(수학식 1)
단, φ(i,j)는 자기 상관 함수,
x[n]은 입력 신호,
y(i-j)[n]은 각 단마다의 필터 출력 신호임.
또한, 본 발명(청구항 34)에 관한 음성 인식 장치에 따르면, 청구항 31에 기재된 음성 인식 장치에 있어서, 상기 올패스 필터는, 직선 주파수축상의 신호를 주파수 변환하여 멜 주파수축상에서의 신호로 변환하기 위한 것으로, 1차의 올패스 필터인 것으로 하였기 때문에, 인간의 청각적인 성질을 이용하여 보다 고정밀도로 음성 인식할 수 있는 음성 인식 장치를 얻을 수 있는 효과가 있다.
이상 본 발명자에 의해서 이루어진 발명을 상기 실시예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시예에 한정되는 것이 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.