Nothing Special   »   [go: up one dir, main page]

KR20220156834A - 업-샘플링을 사용한 동시 통화 검출 - Google Patents

업-샘플링을 사용한 동시 통화 검출 Download PDF

Info

Publication number
KR20220156834A
KR20220156834A KR1020227031586A KR20227031586A KR20220156834A KR 20220156834 A KR20220156834 A KR 20220156834A KR 1020227031586 A KR1020227031586 A KR 1020227031586A KR 20227031586 A KR20227031586 A KR 20227031586A KR 20220156834 A KR20220156834 A KR 20220156834A
Authority
KR
South Korea
Prior art keywords
audio signal
signal
sampling frequency
power
audio
Prior art date
Application number
KR1020227031586A
Other languages
English (en)
Inventor
닝 왕
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20220156834A publication Critical patent/KR20220156834A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
    • H04B3/234Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers using double talk detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephone Function (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

동시 통화 검출 방법은 업-샘플링을 사용하는 단계를 포함한다. 원단(far end)으로부터 수신된 오디오 신호들은 근단(near end)에서 확성기에 의해 출력되기 전에 업-샘플링된다. 근단에서의 마이크로폰은 업-샘플링된 레이트로 오디오를 캡처하고, 확성기에 의해 출력된 오디오는 업-샘플링된 주파수 대역들에서 에너지를 갖지 않기 때문에 검출가능하다. 동시 통화 검출기는 이 정보를 사용하여 원단으로 송신되는 캡처된 오디오 신호로부터 원단 오디오의 에코를 억제하기 위한 신호를 생성한다.

Description

업-샘플링을 사용한 동시 통화 검출
본 출원은 2021년 2월 25일자로 출원된 미국 가출원 제63/153,522호 및 2020년 3월 23일자로 출원된 미국 가출원 제62/993,136호에 대한 우선권을 주장하며, 이들 모두는 본 명세서에 참고로 포함된다.
본 개시내용은 오디오 처리에 관한 것으로, 특히, 동시 통화 검출에 관한 것이다.
본원에서 달리 표시되지 않는 한, 본 섹션에서 설명되는 접근법들이 본 출원의 청구항들에 대한 종래 기술은 아니며, 본 섹션에 포함되어 있다고 종래 기술인 것으로 인정되는 것은 아니다.
오디오 회의 시스템과 같은 통신 디바이스는 일반적으로 확성기와 마이크로폰 둘 다를 포함한다. 통신의 두 당사자는 근단 당사자(near end party) 및 원단 당사자(far end party)라고 지칭될 수 있다. 근단 당사자는 제1 통신 디바이스에 근접하고, 원단 당사자는 근단 당사자와 상이한 위치에 있으며, 유선 또는 무선 통신 네트워크를 통해 제2 통신 디바이스를 사용하여 통신한다. 근단 디바이스의 마이크로폰은 근단 당사자의 스피치를 캡처할 뿐만 아니라, 근단의 확성기로부터 출력된 원단 당사자의 스피치를 캡처할 수도 있다. 마이크로폰에 의해 캡처되는 확성기로부터의 출력은 일반적으로 에코라고 지칭된다. 근단 통신 디바이스는 일반적으로 근단에서 캡처된 오디오를 원단에 송신하기 전에 에코를 감소시키기 위한 에코 관리 시스템을 포함한다.
용어 "동시 통화(double talk)"는 일반적으로 대화 중인 양 당사자가 동시에 말하고 있을 때의 상황을 설명하기 위해 사용된다. 양 당사자는 동시 통화를 성가신 것으로 생각하고, 일반적으로 한쪽은 말하는 것을 중단할 것이다. 통신의 품질을 향상시키기 위해 동시 통화가 일어날 때 적절히 응답할 수 있는 디바이스를 가짐으로써 사용자 경험을 향상시키는 것이 유리할 것이다.
동시 통화가 존재할 때, 동시 통화가 발생하고 있는 원단에 가청 단서를 제공하기 위해, 많은(또는 임의의) 에코 감소를 수행하지 않고 원단에 근단 스피치를 송신하는 것이 바람직하다. 근단에서의 통신 디바이스는 동시 통화를 검출하고, 결과적으로 너무 많은 감쇠를 수행하지 않도록 에코 관리 시스템을 제어하는 동시 통화 검출기를 포함할 수 있다.
기존의 동시 통화 검출 시스템들의 한가지 이슈는 음성 신호들의 비정적 성질이 동시 통화를 검출하는 높은 거짓 양성률을 가져온다는 것이다. 게다가, 확성기가 마이크로폰에 아주 근접해 있는 랩톱 컴퓨터들과 같은 통신 디바이스들의 경우, 에코 관리 시스템은 기본값으로서 더 많은 감쇠를 수행할 필요가 있고, 따라서 대화에서 동시 통화의 거짓 양성 검출이 훨씬 더 바람직하지 않게 된다. 상기한 것을 고려하면, 특히 확성기가 마이크로폰에 아주 근접해 있는 디바이스들에 대해, 동시 통화 검출을 향상시킬 필요가 있다.
실시예에 따르면, 오디오 처리의 컴퓨터 구현 방법은 제1 오디오 신호를 수신하는 단계를 포함하고, 제1 오디오 신호는 제1 샘플링 주파수를 갖는다. 본 방법은 제1 오디오 신호를 업-샘플링하여 제2 오디오 신호를 생성하는 단계를 추가로 포함하고, 제2 오디오 신호는 제1 샘플링 주파수보다 큰 제2 샘플링 주파수를 갖는다. 본 방법은 확성기에 의해, 제2 오디오 신호에 대응하는 확성기 출력을 출력하는 단계를 추가로 포함한다. 본 방법은 마이크로폰에 의해, 제3 오디오 신호를 캡처하는 단계를 추가로 포함하고, 제3 오디오 신호는 제1 샘플링 주파수보다 큰 제3 샘플링 주파수를 갖는다. 본 방법은 제3 오디오 신호의 신호 전력을 결정하는 단계를 추가로 포함한다. 본 방법은 제1 샘플링 주파수보다 큰 주파수 대역에서 결정된 제3 오디오 신호의 신호 전력이 있을 때 동시 통화를 검출하는 단계를 추가로 포함한다.
본 방법은 동시 통화가 검출될 때 제어 신호를 선택적으로 생성하는 단계, 및 제어 신호에 따라 제3 오디오 신호에 대해 에코 관리를 수행하는 단계를 추가로 포함할 수 있다.
제3 오디오 신호의 신호 전력을 결정하고 동시 통화를 검출하는 단계는 제1 샘플링 주파수보다 큰 주파수 대역에서의 제3 오디오 신호의 신호 전력을 측정하는 단계; 제1 샘플링 주파수보다 큰 주파수 대역에서의 제3 오디오 신호의 배경 잡음 전력을 추적하는 단계; 및 제1 샘플링 주파수보다 큰 주파수 대역에서의 제3 오디오 신호의 신호 전력과 제1 샘플링 주파수보다 큰 주파수 대역에서의 제3 오디오 신호의 배경 잡음 전력을 비교한 결과로서 동시 통화를 검출하는 단계를 포함할 수 있다.
다른 실시예에 따르면, 장치는 확성기, 마이크로폰 및 프로세서를 포함한다. 프로세서는 본 명세서에 설명된 방법들 중 하나 이상을 구현하게 장치를 제어하도록 구성된다. 본 장치는 부가적으로, 본 명세서에서 설명된 방법들 중 하나 이상의 것들과 유사한 세부사항들을 포함할 수 있다.
다른 실시예에 따르면, 비-일시적인 컴퓨터 판독가능 매체는, 프로세서에 의해 실행될 때, 본 명세서에서 설명된 방법들 중 하나 이상을 포함하는 처리를 실행하도록 장치를 제어하는 컴퓨터 프로그램을 저장한다.
다음의 상세한 설명 및 첨부된 도면들은 다양한 구현들의 성질 및 이점들의 추가적인 이해를 제공한다.
도 1은 오디오 처리 시스템(100)의 블록도이다.
도 2는 오디오 코덱 시스템(201)(도 1을 참조)의 부가적인 세부사항들을 도시한 블록도이다.
도 3a 및 도 3b는 2가지 상황에서 업-샘플링된 신호(210) 및 캡처된 오디오 신호(211)의 전력 스펙트럼을 도시한 그래프들이다.
도 4는 동시 통화 검출기(401)(도 1 및 도 2를 또한 참조)의 부가적인 세부사항들을 도시한 블록도이다.
도 5는 동시 통화 검출기(501)의 블록도이다.
도 6은 실시예에 따른, 본 명세서에 기술된 특징들 및 프로세스들을 구현하기 위한 모바일 디바이스 아키텍처(600)이다.
도 7은 오디오 처리의 방법(700)의 흐름도이다.
동시 통화 검출에 관련된 기법들이 본 명세서에 기술되어 있다. 다음의 설명에서, 설명의 목적들을 위해, 수많은 예들 및 특정한 세부사항들이 본 개시내용을 완전히 이해시키기 위해 제시된다. 그러나, 청구항들에 의해 정의된 바와 같은 본 개시내용은, 이러한 예들에서의 특징들 중 일부 또는 그 전부를, 단독으로 또는 아래에서 설명되는 다른 특징들과 결합하여 포함할 수 있고, 본 명세서에서 설명되는 특징들 및 개념들의 수정들 및 등가물들을 추가로 포함할 수도 있다는 것이 관련 기술분야의 통상의 기술자에게 명백할 것이다.
다음의 설명에서, 다양한 방법들, 프로세스들, 및 절차들이 상세히 설명된다. 특정 단계들이 특정 순서로 설명될 수 있지만, 그러한 순서는 주로 편의성 및 명확성을 위한 것이다. 특정 단계는 두 번 이상 반복될 수 있고, 다른 단계들(그 단계들이 다른 순서로 달리 설명되는 경우라 하더라도) 전에 또는 그 후에 발생할 수 있고, 다른 단계들과 병렬로 발생할 수 있다. 제2 단계가 시작되기 전에 제1 단계가 완료되어야 할 때에만 제2 단계가 제1 단계에 후속되도록 요구된다. 그러한 상황은 맥락으로부터 명확하지 않을 때 구체적으로 지적될 것이다.
본 문서에서, "및", "또는" 및 "및/또는"이라는 용어들이 사용된다. 그러한 용어들은 포괄적인 의미를 갖는 것으로 읽혀져야 한다. 예컨대, "A 및 B"는 적어도 다음의 것들: "A 및 B 둘 다", "적어도 A 및 B 둘 다"를 의미할 수 있다. 다른 예로서, "A 또는 B"는 적어도 다음의 것들: "적어도 A", "적어도 B", "A 및 B 둘 다", "적어도 A 및 B 둘 다"를 의미할 수 있다. 다른 예로서, "A 및/또는 B"는 적어도 다음의 것들: "A 및 B", "A 또는 B"를 의미할 수 있다. 배타적 논리합(exclusive-or)이 의도될 때, 그러한 것은 구체적으로 언급될 것이다(예를 들어, "A 또는 B 중 어느 하나", "A 및 B 중 최대 하나").
본 문서는, 블록들, 요소들, 컴포넌트들, 회로들 등과 같은 구조들과 연관되는 다양한 처리 기능들을 설명한다. 일반적으로, 이러한 구조들은 하나 이상의 컴퓨터 프로그램에 의해 제어되는 프로세서에 의해 구현될 수 있다.
도 1은 오디오 처리 시스템(100)의 블록도이다. 오디오 처리 시스템(100)은 랩톱 컴퓨터, 모바일 폰, 스피커폰, 오디오 회의 시스템, 비디오 회의 시스템 등과 같은 다양한 디바이스들에서 구현될 수 있다. 예를 들어, 오디오 처리 시스템(100)은 랩톱 컴퓨터에서 구현될 수 있고, 다양한 컴포넌트들은 랩톱 컴퓨터가 실행하는 컴퓨터 프로그램들에 의해 구현된다. 오디오 처리 시스템(100)은 통신 애플리케이션(102), 오디오 드라이버 시스템(103), 오디오 코덱 시스템(201), 확성기(106), 및 마이크로폰(108)을 포함한다. 오디오 처리 시스템(100)은 (간결성을 위해) 상세히 논의되지 않은 다른 컴포넌트들을 포함할 수 있다.
통신 애플리케이션(102)은 일반적으로 오디오 처리 시스템(100)을 구현하는 디바이스의 오디오 입력들 및 출력들을 제어한다. 예를 들어, 구현 디바이스가 랩톱 컴퓨터일 때, 통신 애플리케이션(102)은 Microsoft SkypeTM 애플리케이션, Microsoft TeamsTM 애플리케이션, ZoomTM 애플리케이션 등과 같은 컴퓨터 프로그램일 수 있다. 통신 애플리케이션(102)은 네트워크(도시되지 않음)와 통신하여, 오디오 처리 시스템(100)(근단 디바이스라고도 지칭됨)에 의한 출력을 위해 원격 디바이스들(원단 디바이스들이라고도 지칭됨)로부터 오디오를 수신하고, 오디오 처리 시스템(100)에 의해 캡처된 오디오를 원격 디바이스들에 송신한다. 근단 출력을 위해 네트워크로부터 수신된 오디오는 재생 오디오 신호(120)라고 지칭되고, 원단 출력을 위해 네트워크에 송신된 오디오는 캡처된 오디오 신호(122)라고 지칭된다.
오디오 드라이버 시스템(103)은 일반적으로 그것이 수신하는 신호들에 대해 오디오 처리를 수행하고 처리된 오디오 신호들을 생성한다. 오디오 드라이버 시스템(103)은 재생 오디오 신호(120)를 수신하고 재생 오디오 신호(124)를 생성하고; 캡처된 오디오 신호(126)를 수신하고 캡처된 오디오 신호(122)를 생성한다. 통신 애플리케이션(102)은 다양한 오디오 처리 프로세스들을 오디오 드라이버 시스템(103)에 오프로드할 수 있고, 오디오 드라이버 시스템(103)은 통신 애플리케이션(102)의 컴포넌트일 수 있다. 오디오 드라이버 시스템(103)은 재생/캡처 스택, 오디오 처리 객체(APO) 등이라고 지칭될 수 있다. 오디오 드라이버 시스템(103)의 예는 Dolby VoiceTM 통신 시스템이다. 오디오 드라이버 시스템(103)은 재생 오디오 신호(124)를 오디오 코덱 시스템(201)에 제공하고, 오디오 코덱 시스템(201)으로부터 캡처된 오디오 신호(126)를 수신한다.
오디오 드라이버 시스템(103)은 에코 관리 시스템(130)을 포함하는 다양한 처리 모듈들을 포함한다. 에코 관리 시스템(130)은 일반적으로 마이크로폰(108)에 의해 캡처된 근단 음성을 보존하면서, 확성기(106)로부터 출력되고 마이크로폰(108)에 의해 캡처된 원단 음성의 에코를 감쇠시킨다. 에코 관리 시스템(130)은 에코 제거기(132), 에코 억제기(134), 및 동시 통화 검출기(401)를 포함한다.
에코 제거기(132)는 일반적으로 캡처된 오디오 신호(126)에 대해 에코 제거를 수행한다. 에코 제거는 음향 에코 제거라고도 지칭될 수 있다. 일반적으로, 에코 제거는 신호에 선형 감쇠를 적용한다. 에코 제거기는 적응 필터로 구현될 수 있다. 적응 필터는 확성기(106)와 마이크로폰(108)의 결합된 시스템의 실내 응답(room response)을 모델링한다. 에코 제거기(132)는 통상적으로 캡처된 오디오 신호(126)에 최대 20 내지 25dB의 감쇠를 적용할 수 있다.
에코 억제기(134)는 일반적으로 캡처된 오디오 신호(126)에 대해 에코 억제를 수행한다. 일반적으로, 에코 억제는 신호에 비선형 감쇠를 적용한다. 비선형 감쇠는 전력 대역들에 기초하여 수행될 수 있고, 에코 억제기(134)는 상이한 대역들에 상이한 억제를 적용할 수 있다. 에코 억제기(134)가 특정 대역들에서 에코를 검출하면, 에코 억제기(134)는 그러한 특정 대역들에 억제를 적용한다. 에코 억제기(134)는 통상적으로 캡처된 오디오 신호(126)에 최대 20 내지 25dB의 감쇠를 적용할 수 있다.
동시 통화 검출기(401)는 일반적으로 에코 제거기(132) 및 에코 억제기(134)를 제어하기 위한 제어 신호(410)를 생성한다. 동시 통화는 일반적으로 (원단으로부터 수신된) 오디오를 출력하는 확성기(106)와 동시에 (근단에서) 오디오를 캡처하는 마이크로폰(108)을 지칭한다. 동시 통화가 존재하지 않을 때, 캡처된 오디오 신호(126)는 확성기(106)에 의해 출력된 원단 스피치의 에코만을 포함하고, 제어 신호(410)는 원단으로 송신되는 캡처된 오디오 신호(122)에서의 에코의 양을 감소시키기 위해 감쇠를 수행하도록 에코 관리 시스템(130)을 제어한다. 동시 통화가 있을 때, 캡처된 오디오 신호(126)는 마이크로폰(108)에 의해 캡처된 원단의 에코 및 근단 스피치 둘 다를 포함하고, 제어 신호(410)는 원단에 송신된 캡처된 오디오 신호(122)를 생성할 때 감쇠를 거의(또는 전혀) 수행하지 않도록 에코 억제기(134)를 제어하고; 제어 신호(410)는 또한 동시 통화로 인한 오적응을 감소시키기 위해, 적응 필터가 업데이트되는 것을 중단하도록 에코 제거기(132)를 제어할 수 있다. 동시 통화 검출기(401)의 부가적인 세부사항들이 도 4를 참조하여 이하에서 제공된다.
오디오 코덱 시스템(201)은 일반적으로 그가 수신하는 신호들에 대해 아날로그-디지털 및 디지털-아날로그 변환을 수행한다. 오디오 코덱 시스템(201)은 또한 도 2를 참조하여 이하에서 더 상세히 설명되는 바와 같이, 업-샘플링 및 다운-샘플링을 수행한다. 오디오 코덱 시스템(201)은 재생 오디오 신호(124)를 수신하고, 디지털-아날로그 변환을 수행하고, 재생 오디오 신호(140)를 생성한다. 오디오 코덱 시스템(201)은 캡처된 오디오 신호(142)를 수신하고, 아날로그-디지털 변환을 수행하고, 캡처된 오디오 신호(126)를 생성한다. 오디오 코덱 시스템(201)은 재생 오디오 신호(140)를 확성기(106)에 제공하고, 마이크로폰(108)으로부터 캡처된 오디오 신호(142)를 수신한다. 오디오 코덱 시스템(201)의 부가적인 세부사항들이 도 2를 참조하여 이하에서 제공된다.
확성기(106)는 일반적으로 재생 오디오 신호(140)에 대응하는 사운드를 출력한다.
마이크로폰(108)은 일반적으로 오디오 처리 시스템(100)을 구현하는 디바이스가 존재하는 환경에서 사운드를 캡처하고, 캡처된 오디오 신호(142)를 생성한다. 캡처된 사운드는 원하는 사운드(예를 들어, 근단 환경에서 말하는 사람들의 스피치)뿐만 아니라, "에코"라고도 지칭되는, 확성기(106)로부터 출력되는 사운드도 포함한다. 에코 관리 시스템(130)의 한가지 목표는 일반적으로, 적절한 상황에서, 캡처된 오디오 신호(142)로부터 에코를 감소(또는 감쇠 또는 제거)시키는 것이다.
에코 관리 시스템(130)은 일반적으로, 존재하는 원단 스피치 및 근단 스피치 중 어느 하나 또는 양쪽 모두의 조합에 기초하여, 3가지 상황에서 동작가능하다. (스피치는 일반적으로 관심대상 신호이기 때문에 용어 "스피치"가 사용되지만; 근단 및 원단에서 캡처된 신호들은 일반적으로 스피치와 음악, 환경 잡음 등의 다른 비-스피치 오디오 양쪽 모두를 포함할 것이고, 용어 "스피치"는 비-스피치 오디오를 배제하는 것을 의미하지 않는다.) 확성기(106)에 의해 출력된 원단 스피치가 있고 근단 스피치가 없을 때, 마이크로폰(108)은 원단 스피치의 에코만을 캡처하므로, 에코 관리 시스템(130)은 캡처된 오디오 신호(122)를 생성할 때 캡처된 오디오 신호(126)로부터 원단 스피치를 제거하기 위해 에코 관리(예를 들어, 다량의 감쇠)를 수행한다. 확성기(106)에 의해 출력된 원단 스피치와 근단 스피치 양쪽 모두가 있을 때, 마이크로폰(108)은 원단 스피치의 에코와 근단 스피치("동시 통화") 양쪽 모두를 캡처하므로, 에코 관리 시스템(130)은 제어 신호(410)에 따라 동작한다. 원단 스피치가 없을 때, 마이크로폰(108)은 근단 스피치만을 캡처하므로, 에코 관리 시스템(130)은 최소한의 감쇠를 수행한다(또는 감쇠를 수행하지 않는다). 이러한 방식으로, 제어 신호(410)는 에코 관리 시스템(130)이 3가지 상황을 구별하는 것을 돕는다.
요약하면, 에코 관리 시스템(130)은 일반적으로 캡처된 오디오 신호(126)로부터 원단 스피치를 제거하도록 동작하여, 캡처된 오디오 신호(122)를 생성할 때 근단 스피치를 남긴다. 동시 통화 검출기(401)는 일반적으로 근단 스피치가 있고 원단 스피치가 없을 때 적극적인 감쇠를 적용하는 것을 피하기 위해 에코 관리 시스템(130)을 제어한다. 예를 들어, 이상적인 상황에서, 에코 억제기(134)는 근단 스피치가 있을 때 최소의 감쇠를 수행한다(또는 감쇠를 수행하지 않는다).
캡처된 오디오 신호(142)에 존재하는 에코의 양은 오디오 처리 시스템(100)을 구현하는 디바이스의 물리적 속성들에 따라 변할 수 있다. 예를 들어, 랩톱 디바이스의 경우, 확성기와 마이크로폰(108) 사이의 물리적 분리는 대략 10dB의 신호 감쇠만을 제공할 수 있다. 통신 시스템들에서, 사용자 경험은 일반적으로 45 내지 55dB의 에코 제거 및 에코 억제를 선호하므로, 에코 관리 시스템(130)은 일반적으로 다른 35 내지 45dB의 에코 제거 및 에코 억제를 제공하도록 동작한다.
도 2는 오디오 코덱 시스템(201)(도 1을 참조)의 부가적인 세부사항들을 도시한 블록도이다. 오디오 코덱 시스템(201)은 업-샘플러(220), 신호 변환기(222), 및 다운-샘플러(224)를 포함한다. 도 2에 도시된 다른 컴포넌트들은 유사한 참조 번호들을 갖는 도 1을 참조하여 앞서 기술한 것들(예를 들어, 오디오 드라이버 시스템(103), 확성기(106), 마이크로폰(108), 동시 통화 검출기(401) 등)과 유사하다. 오디오 코덱 시스템(201)은 (간결성을 위해) 상세히 논의되지 않은 부가적인 컴포넌트들을 포함할 수 있다.
업-샘플러(220)는 재생 오디오 신호(212)를 수신하고, 업-샘플링을 수행하며, 업-샘플링된 신호(210)를 생성한다. 재생 오디오 신호(212)는 일반적으로 오디오 드라이버 시스템(103)(도 1을 참조)에 의해 제공되는 재생 오디오 신호(124)에 대응한다. 업-샘플링은 일반적으로 주어진 샘플링 주파수에서의 신호를 더 높은 샘플링 주파수로 변환하는 것을 지칭한다. 예를 들어, 재생 오디오 신호(212)는 8kHz(예를 들어, 전화 접속용), 16kHz(예를 들어, Microsoft TeamsTM 오디오 신호), 24kHz(예를 들어, ZoomTM 오디오 신호) 등의 샘플링 주파수를 가질 수 있고; 업-샘플링된 신호(210)는 16kHz(예를 들어, 2x8kHz 신호 등), 32kHz(예를 들어, 4x8kHz 신호, 2x16kHz 신호, 1.333x24kHz 신호 등), 48kHz(6x8kHz 신호, 4x16kHz 신호, 2x24kHz 신호 등) 등의 샘플링 주파수를 가질 수 있다. 더 낮은 샘플링 주파수는 fs0라고 지칭될 수 있고, 더 높은 샘플링 주파수는 fs1이라고 지칭될 수 있다.
신호 변환기(222)는 일반적으로 신호들에 대해 아날로그-디지털 및 디지털-아날로그 변환을 수행한다. 신호 변환기(222)는 업-샘플링된 신호(210)를 수신하고, 디지털-아날로그 변환을 수행하고, 확성기(106)에 의해 출력하기 위한 재생 오디오 신호(140)를 생성한다. 신호 변환기(222)는 마이크로폰(108)에 의해 캡처된 오디오 신호(142)를 수신하고, 아날로그-디지털 변환을 수행하고, 캡처된 오디오 신호(211)를 생성한다. 신호 변환기(222)는 일반적으로 더 높은 샘플링 주파수(예를 들어, 재생 오디오 신호(212)의 더 낮은 샘플링 주파수 fs0보다 더 높은 fs1에 대응하는 48kHz)에서 변환을 수행하고, 따라서 캡처된 오디오 신호(211)는 또한 더 높은 샘플링 주파수(예를 들어, 48kHz)를 갖는다.
다운-샘플러(224)는 캡처된 오디오 신호(211)를 수신하고, 다운-샘플링을 수행하고, 다운-샘플링된 신호(213)를 생성한다. 다운-샘플링된 신호(213)는 일반적으로 오디오 드라이버 시스템(103)(도 1을 참조)에 제공되는 캡처된 오디오 신호(126)에 대응한다. 다운샘플링은 일반적으로 주어진 샘플링 주파수에서의 신호를 더 낮은 샘플링 주파수로 변환하는 것을 지칭한다. 예를 들어, 캡처된 오디오 신호(211)는 8kHz(예를 들어, 전화 접속용), 16kHz(예를 들어, Microsoft TeamsTM 오디오 신호), 24kHz(예를 들어, ZoomTM 오디오 신호) 등의 샘플링 주파수를 가질 수 있다. 일반적으로, 다운-샘플링된 신호(213) 및 재생 오디오 신호(212)는 동일한 샘플링 주파수를 가질 것이다.
동시 통화 검출기(401)는 오디오 코덱 시스템(201)으로부터 캡처된 오디오 신호(211)를 수신한다. 결과적으로, 도 1의 캡처된 오디오 신호(126])는 캡처된 오디오 신호(211) 및 다운-샘플링된 신호(213) 모두에 대응한다.
선택적으로, 동시 통화 검출기(401)는 또한 오디오 드라이버 시스템(103)이 오디오 코덱 시스템(201)에 제공하는 재생 오디오 신호(212)를 수신할 수 있다. 이 선택적 배열은 도 5를 참조하여 이하에서 더 상세히 논의된다.
출력을 위해 확성기(106)에 제공되는 업-샘플링된 신호(210)가 재생 오디오 신호(212)를 업-샘플링하는 것으로부터 얻어지기 때문에, 마이크로폰(108)에 의해 캡처되는 업-샘플링된 신호(210)의 에코는 도 3a 및 도 3b를 참조하여 더 상세히 설명되는 바와 같이, 재생 오디오 신호(212)의 샘플링 주파수의 절반 위의 주파수들에서 신호 에너지가 부족할 것이다.
도 3a 및 도 3b는 2가지 상황에서 업-샘플링된 신호(210) 및 캡처된 오디오 신호(211)의 전력 스펙트럼을 도시한 그래프들이다. 도 3a는 마이크로폰(108)이 임의의 캡처된 근단 스피치 없이 확성기(106)(도 1 내지 도 2를 참조)에 의해 출력된 원단 스피치만을 캡처할 때의 전력 스펙트럼을 도시한다. 도 3b는 마이크로폰(108)이 확성기(106)(도 1 내지 도 2를 참조)에 의해 출력된 원단 스피치 및 근단 스피치 둘 다를 캡처할 때의 전력 스펙트럼을 도시한다. 이들 2가지 상황은 마이크로폰(108)이 신호를 캡처했을 때, 오디오 처리 시스템(100)이 동시 통화가 존재하는지(이 경우에, 감쇠를 거의 또는 전혀 적용할 필요가 없음) 또는 동시 통화가 존재하지 않는지(이 경우에, 원단 신호의 에코로 인해 비교적 다량의 감쇠를 적용할 필요가 있음)를 결정할 필요가 있다는 것을 나타내고 있다.
도 3a에서, y축은 신호 전력이고 x축은 주파수이다. 도시된 주파수들은 1/2fs0 및 1/2fs1인데, 그 이유는 나이퀴스트-샤논(Nyquist-Shannon) 샘플링 이론에 따라, 주어진 샘플 레이트 S가 1/2S의 신호에 존재하는 최대 주파수를 갖는 신호의 정확한 재구성을 허용하기 때문이다. 예를 들어, fs0는 24kHz일 수 있고, fs1은 48kHz일 수 있으며, 이 경우 1/2fs0는 12kHz이고, 1/2fs1은 24kHz이다. 마이크로폰(108)이 임의의 캡처된 근단 스피치 없이 확성기(106)에 의해 출력된 원단 스피치만을 캡처할 때, 업-샘플링된 신호(210) 및 캡처된 오디오 신호(211)는 둘 다 1/2fs0 미만의 신호 전력을 갖는다. 이것은 재생 오디오 신호(212)가 fs0의 샘플링 주파수를 가지며 따라서 1/2fs0 초과의 신호 에너지를 갖지 않기 때문이며, 따라서 업-샘플링을 수행하는 것은 마찬가지로 업-샘플링된 신호(210)가 또한 1/2fs0 초과의 신호 에너지를 갖지 않게 한다. 따라서, 도 3a의 상황에서, 1/2fs0 초과의 신호 전력의 부재는 동시 통화의 부재를 나타낸다.
도 3b에서, 마이크로폰(108)이 확성기(106)(도 1 내지 도 2를 참조)에 의해 출력된 원단 스피치 및 근단 스피치 둘 다를 캡처할 때, 업-샘플링된 신호(210)는 1/2fs0 미만의 신호 전력만을 갖지만, 캡처된 오디오 신호(211)는 1/2fs0 초과의 신호 전력을 갖는다(1/2fs0 미만 및 1/2fs0과 1/2fs1 사이 둘 다). 이것은 캡처된 오디오 신호(211)가 fs1의 샘플링 주파수를 갖고 따라서 근단 스피치가 최대 1/2fs1까지 캡처되는 에너지를 갖지만, 재생 오디오 신호(212)가 여전히 1/2fs0 초과의 신호 에너지를 갖지 않기 때문이다. 따라서, 도 3b의 상황에서, 1/2fs0 초과(예를 들어, 1/2fs0과 1/2fs1 사이)의 신호 전력의 존재는 동시 통화의 존재를 나타낸다.
도 4는 동시 통화 검출기(401)(도 1 및 도 2를 또한 참조)의 부가적인 세부사항들을 도시한 블록도이다. 동시 통화 검출기(401)는 전력계(405), 최소 팔로워(404), 및 결정기(406)를 포함한다. 동시 통화 검출기(401)는 (간략성을 위해) 상세히 논의되지 않은 다른 컴포넌트들을 포함할 수 있다.
전력계(405)는 일반적으로 캡처된 오디오 신호(211)(도 2를 참조)를 수신하고, 1/2fs0과 1/2fs1 사이의 전력을 측정하고, 전력 신호(402)를 생성한다. 전력 신호(402)는 일반적으로 1/2fs0과 1/2fs1 사이의 대역에서의 제곱 평균 제곱근(rms) 전력에 대응하고; 그것은 또한 캡처된 오디오 신호(211)의 순간 전력 또는 평활화된 전력이라고 지칭될 수 있다.
최소 팔로워(404)는 일반적으로 전력 신호(402)를 수신하고, 배경 잡음 전력을 추적하고, 배경 잡음 전력 신호(403)를 생성한다. 배경 잡음 전력 신호(403)는 일반적으로 전력 신호(402)의 1/2fs0과 1/2fs1 사이의 배경 잡음 전력에 대응한다.
결정기(406)는 일반적으로 전력 신호(402) 및 배경 잡음 전력 신호(403)를 수신하고, 그들의 레벨들을 비교하고, 제어 신호(410)를 생성한다. 결정기(406)는 예를 들어, 출력이 최근의 시스템 이력을 고려하는 것에 의해 그렇지 않은 경우보다 덜 빠르게 반응하도록 입력들을 필터링하기 위해, 히스테리시스 결정 프로세스에 따라 동작할 수 있다. 동시 통화가 없고 전력 신호(402)의 레벨이 배경 잡음 전력 신호(403)의 레벨을 제1 임계량만큼 초과할 때, 결정기(406)가 발동한다. 동시 통화가 있을 때(즉, 결정기(406)가 발동 상태(fire state)에 있을 때), 결정기(406)는 전력 신호(402)가 제2 임계량 아래로 떨어질 때에만 오프 상태로 변경된다.
도 5는 동시 통화 검출기(501)의 블록도이다. 동시 통화 검출기(501)는 동시 통화 검출기(401)(도 4를 참조)와 유사하고, 부가적인 컴포넌트들을 가지며, 또한 재생 오디오 신호(212)(도 2를 참조)를 수신한다. 랩톱들 및 모바일 폰들과 같은 디바이스들은 종종 마이크로-스피커들을 사용하여 확성기(106)(도 1을 참조)를 구현한다. 마이크로-스피커들에 대해, 디바이스의 트랜스듀서 컴포넌트들 및 일반적인 기계적 왜곡들은 [1/2fs0, 1/2fs1]의 주파수 범위에서 부가적인 전력을 생성할 수 있다. 이러한 경우에, 동시 통화 검출기(501)는 오경보율(예를 들어, 실제로 근단 음성이 없을 때 근단 음성이 캡처되는 것을 검출한 것으로 인한 오경보)을 감소시키기 위해 사용될 수 있다.
동시 통화 검출기(501)는 대역 통과 필터(511), 전력계(512), 및 비선형 조정기(513)를 포함한다. 동시 통화 검출기(501)는 또한 전력계(555), 최소 팔로워(554), 및 결정기(556)(도 4의 전력계(405), 최소 팔로워(404), 및 결정기(406)와 유사함)를 포함한다.
전력계(555)는 일반적으로 캡처된 오디오 신호(211)(도 2를 참조)를 수신하고, 전력계(405)와 유사한 방식으로 전력 신호(552)를 생성한다. 최소 팔로워(554)는 일반적으로 전력 신호(552)를 수신하고, 최소 팔로워(404)와 유사한 방식으로 배경 잡음 전력 신호(553)를 생성한다.
대역 통과 필터(511)는 일반적으로 재생 오디오 신호(212)를 수신하고, 대역 통과 필터링을 수행하고, 필터링된 신호(521)를 생성한다. 대역 통과 필터(511)의 통과 대역은 공진 주파수 fres 주위의 대역 B일 수 있다. 공진 주파수 fres는 일반적으로 확성기(106)를 구현하기 위해 사용되는 특정 컴포넌트들 및 오디오 처리 시스템(100)을 구현하는 디바이스의 다른 컴포넌트들에 대응하고, 경험적으로 측정될 수 있다. 대역 B는 또한 오디오 처리 시스템(100)을 구현하는 디바이스의 다른 컴포넌트들에 기초하여 경험적으로 결정될 수 있다. 대역 B의 예시적인 범위는 600Hz이고, 결과적으로 대역 통과 필터(511)는 [fres-300, fres+300]의 통과 대역을 갖는다.
전력계(512)는 일반적으로 필터링된 신호(521)를 수신하고, 신호 전력을 측정하고, 공진 전력 신호(522)를 생성한다. 공진 전력 신호(Pres)(522)는 필터링된 신호(521)의 신호 전력(예를 들어, 확성기(106)의 기계적 공진의 전력)에 대응한다.
비선형 조정기(513)는 일반적으로 공진 전력 신호(522)를 수신하고, 비선형 조정을 수행하고, 왜곡 전력 신호(Pdist)(514)를 생성한다. 왜곡 전력 신호(514)는 주파수 범위 [1/2fs0, 1/2fs1]에서의 왜곡 전력에 대응한다. 비선형 조정기(513)는 다음과 같이 왜곡 전력 신호 Pdist를 생성하기 위해 비선형 조정을 수행할 수 있다:
Figure pct00001
상기 수학식에서, th0은 임계 파라미터이고, k는 튜닝 파라미터이며; 이들 파라미터는 경험적 측정에 따라 원하는 대로 조정될 수 있다. 조정은 Pres와 th0 사이의 관계에 의존하는 Pdist의 2개의 함수로 인해 비선형이라고 지칭된다. Pdist의 기울기는 Pres와 th0 사이의 차이에 적용되는 튜닝 파라미터 k에 의해 제어되고, Pdist가 0으로부터 증가하기 시작하는 시작점은 Pres와 th0 사이의 관계에 의해 제어된다.
결정기(556)는 일반적으로 전력 신호(552), 배경 잡음 전력 신호(553), 및 왜곡 전력 신호(514)를 수신하고, 그들의 레벨들을 비교하고, 제어 신호(410)를 생성한다. 일반적으로, 결정기(556)는 에너지가 주로 캡처된 근단 음성으로부터인지 또는 디바이스 왜곡들로부터인지 여부를 결정하는 것의 일부로서 왜곡 전력 신호(514)를 사용한다. 더 구체적으로, 결정기(556)는 왜곡 전력 신호(514)를 사용하여 전력 신호(552) 및 배경 잡음 전력 신호(553)에 적용되는 히스테리시스의 임계값(예를 들어, 결정기(406)에 관해 위에서 논의된 제1 임계값)을 증가시킨다. 결정기(556)는 그 이외에는 결정기(406)와 유사하다.
도 6은 실시예에 따른, 본 명세서에 기술된 특징들 및 프로세스들을 구현하기 위한 모바일 디바이스 아키텍처(600)이다. 아키텍처(600)는 데스크톱 컴퓨터, 소비자 오디오/비주얼(AV) 장비, 라디오 방송 장비, 모바일 디바이스들(예를 들어, 스마트폰, 태블릿 컴퓨터, 랩톱 컴퓨터, 웨어러블 디바이스) 등을 포함하지만 이들로 제한되지 않는 임의의 전자 디바이스에서 구현될 수 있다. 도시된 예시적인 실시예에서, 아키텍처(600)는 랩톱 컴퓨터에 대한 것이고, 프로세서(들)(601), 주변 장치들 인터페이스(602), 오디오 서브시스템(603), 확성기들(604), 마이크로폰(605), 센서들(606)(예를 들어, 가속도계들, 자이로들, 기압계, 자력계, 카메라), 위치 프로세서(607)(예를 들어, GNSS 수신기), 무선 통신 서브시스템들(608)(예를 들어, Wi-Fi, 블루투스, 셀룰러), 및 터치 제어기(610) 및 다른 입력 제어기들(611), 터치 표면(612) 및 다른 입력/제어 디바이스들(613)을 포함하는 I/O 서브시스템(들)(609)을 포함한다. 개시된 실시예들을 구현하기 위해 더 많거나 더 적은 컴포넌트들을 갖는 다른 아키텍처들이 또한 사용될 수 있다.
메모리 인터페이스(614)는 프로세서들(601), 주변 장치들 인터페이스(602) 및 메모리(615)(예를 들어, 플래시, RAM, ROM)에 결합된다. 메모리(615)는 운영 체제 명령어들(616), 통신 명령어들(617), GUI 명령어들(618), 센서 처리 명령어들(619), 전화 명령어들(620), 전자 메시징 명령어들(621), 웹 브라우징 명령어들(622), 오디오 처리 명령어들(623), GNSS/내비게이션 명령어들(624) 및 애플리케이션들/데이터(625)를 포함하지만 이들로 제한되지 않는 컴퓨터 프로그램 명령어들 및 데이터를 저장한다. 오디오 처리 명령어들(623)은 본 명세서에 설명된 오디오 처리를 수행하기 위한 명령어들을 포함한다.
도 7은 오디오 처리의 방법(700)의 흐름도이다. 방법(700)은 예를 들어, 하나 이상의 컴퓨터 프로그램을 실행함으로써, 오디오 처리 시스템(100)(도 1을 참조), 오디오 코덱 시스템(201)(도 2를 참조), 동시 통화 검출기(401)(도 4를 참조), 동시 통화 검출기(501)(도 5를 참조) 등의 기능성을 구현하기 위해, 도 6의 아키텍처(600)의 컴포넌트들을 갖는 디바이스(예를 들어, 랩톱 컴퓨터, 모바일 폰 등)에 의해 수행될 수 있다.
702에서, 제1 오디오 신호가 수신된다. 제1 오디오 신호는 제1 샘플링 주파수를 갖는다. 예를 들어, 오디오 코덱 시스템(201)(도 2를 참조)은 샘플링 주파수 fs0을 갖는 재생 오디오 신호(212)를 수신할 수 있다.
704에서, 제1 오디오 신호가 업-샘플링되어 제2 오디오 신호를 생성한다. 제2 오디오 신호는 제1 샘플링 주파수보다 큰 제2 샘플링 주파수를 갖는다. 예를 들어, 업-샘플러(220)(도 2를 참조)는 재생 오디오 신호(212)를 업-샘플링하여 샘플링 주파수 fs1을 갖는 업-샘플링된 신호(210)를 생성할 수 있다. 구체적인 예로서, fs0은 24kHz일 수 있고, fs1은 48kHz일 수 있다.
706에서, 제2 오디오 신호에 대응하는 확성기 출력이 확성기에 의해 출력될 수 있다. 예를 들어, 확성기(106)(도 2를 참조)는 업-샘플링된 신호(210)에 대응하는 오디오 출력을 출력할 수 있다.
708에서, 제3 오디오 신호가 마이크로폰에 의해 캡처된다. 제3 오디오 신호는 제1 샘플링 주파수보다 큰 제3 샘플링 주파수를 갖는다. 제3 샘플링 주파수는 제2 샘플링 주파수와 동일할 수 있다. 예를 들어, 마이크로폰(108)(도 2를 참조)은 샘플링 주파수 fs1을 갖는 캡처된 오디오 신호(211)를 캡처할 수 있다. 캡처된 오디오 신호(211)는 (예를 들어, 제2 오디오 신호에 대응하는 확성기 출력의) 에코, 캡처된 근단 스피치(예를 들어, 로컬 통화(local talk)), 방법(700)을 수행하고 있는 디바이스의 기계적 왜곡(예를 들어, 다른 로컬 오디오) 등을 포함할 수 있다.
710에서, 제3 오디오 신호의 신호 전력이 결정된다. 예를 들어, 동시 통화 검출기(401)(도 4를 참조)는 캡처된 오디오 신호(211)의 신호 전력을 결정할 수 있다. 다른 예로서, 동시 통화 검출기(501)(도 5를 참조)는 캡처된 오디오 신호(211)의 신호 전력을 결정할 수 있다.
712에서, 제1 샘플링 주파수보다 큰 주파수 대역에서 결정된 제3 오디오 신호의 신호 전력이 있을 때 동시 통화가 검출된다. 예를 들어, 동시 통화 검출기(401)는 주파수 대역[1/2fs0, 1/2fs1]에서의 신호 전력에 기초하여 동시 통화를 검출할 수 있고; 신호 전력이 없을 때(예를 들어, 도 3a에 도시되어 있음), 동시 통화가 검출되지 않으며, 신호 전력이 있을 때(예를 들어, 도 3b에 도시되어 있음), 동시 통화가 검출된다.
714에서, 동시 통화가 검출될 때 제어 신호가 선택적으로 생성된다. 예를 들어, 동시 통화 검출기(401)(도 4를 참조)는 동시 통화가 검출될 때 제어 신호(410)를 생성할 수 있다. 다른 예로서, 동시 통화 검출기(501)(도 5를 참조)는 동시 통화가 검출될 때 제어 신호(410)를 생성할 수 있다.
716에서, 제어 신호에 따라 제3 오디오 신호에 대한 에코 관리가 수행된다. 예를 들어, 에코 관리 시스템(130)(도 1을 참조)은 제어 신호(410)에 기초하여, 캡처된 오디오 신호(126)에 대해 에코 제거, 에코 억제 등을 수행하여, 캡처된 오디오 신호(122)를 생성할 수 있다.
방법(700)은 본 명세서에 설명된 오디오 처리 시스템(100)의 다른 기능성들에 대응하는 부가적인 단계들을 포함할 수 있다.
부가적인 응용들
앞서 논의된 바와 같이, 오디오 처리 시스템(100)은 에코 관리 프로세스의 일부로서 동시 통화를 검출할 수 있다. 또한, 오디오 처리 시스템(100)은 예를 들어, 디바이스를 이동시키는 것으로 인해, 또는 그렇지 않으면 디바이스가 촉각적 상호작용들을 받을 때, 다른 오디오 왜곡들을 검출할 수 있다. 이러한 경우에, 에코 관리 시스템(130)은 근단 스피치 또는 캡처된 원단 스피치의 부재시에도 에코 제거를 수행하도록 에코 제거기(132)를 적응시킬 수 있다.
구현 세부사항들
실시예는, 하드웨어, 컴퓨터 판독가능 매체 상에 저장되는 실행가능 모듈들, 또는 둘 다의 조합(예를 들어, 프로그래밍가능 로직 어레이들)으로 구현될 수 있다. 달리 특정되지 않는 한, 실시예들에 의해 실행되는 단계들이 특정 실시예들에 있을 수 있지만, 본질적으로 임의의 특정 컴퓨터 또는 다른 장치와 관련될 필요는 없다. 특히, 다양한 범용 머신이 본 명세서에서의 교시들에 따라 작성된 프로그램들과 함께 사용될 수 있거나, 요구된 방법 단계들을 수행하도록 보다 전문화된 장치(예를 들어, 집적 회로들)를 구성하는 것이 보다 편리할 수 있다. 그에 따라, 실시예들은, 각각이 적어도 하나의 프로세서, 적어도 하나의 데이터 저장 시스템(휘발성 및 비-휘발성 메모리 및/또는 저장 요소들을 포함함), 적어도 하나의 입력 디바이스 또는 포트, 및 적어도 하나의 출력 디바이스 또는 포트를 포함하는 하나 이상의 프로그래밍가능 컴퓨터 시스템 상에서 실행되는 하나 이상의 컴퓨터 프로그램으로 구현될 수 있다. 본 명세서에 기술되는 기능들을 수행하고 출력 정보를 생성시키기 위해 프로그램 코드가 입력 데이터에 적용된다. 출력 정보는 공지된 방식으로 하나 이상의 출력 디바이스에 적용된다.
각각의 이러한 컴퓨터 프로그램은 바람직하게는, 저장 매체 또는 디바이스가 본 명세서에 기술되는 절차들을 수행하기 위해 컴퓨터 시스템에 의해 판독될 때 컴퓨터를 구성하여 작동시키기 위해, 범용 또는 특수 목적 프로그램가능 컴퓨터에 의해 판독가능한 저장 매체 또는 디바이스(예를 들어, 고상 메모리 또는 매체, 또는 자기 또는 광 매체) 상에 저장되거나 그에 다운로드된다. 본 발명의 시스템은 또한, 컴퓨터 프로그램이 구성된 컴퓨터 판독가능 저장 매체로서 구현되는 것으로 간주될 수 있으며, 여기서, 그렇게 구성된 저장 매체는, 컴퓨터 시스템으로 하여금, 특정한 그리고 미리 정의된 방식으로 동작하여 본 명세서에서 설명된 기능들을 수행하게 한다. (소프트웨어 그 자체 및 무형의 또는 일시적인 신호들은 그들이 특허불가능한 주제인 관계로 제외된다).
본 명세서에서 설명되는 시스템들의 양태들은 디지털 또는 디지털화된 오디오 파일들을 처리하기 위한 적절한 컴퓨터 기반 사운드 처리 네트워크 환경에서 구현될 수 있다. 적응 오디오 시스템의 부분들은, 컴퓨터들 사이에서 송신되는 데이터를 버퍼링하고 라우팅하는 역할을 하는 하나 이상의 라우터(도시되지 않음)를 포함하는, 임의의 원하는 수의 개별 머신들을 포함하는 하나 이상의 네트워크를 포함할 수 있다. 이러한 네트워크는 다양한 상이한 네트워크 프로토콜들 상에 구축될 수 있고, 인터넷, 광역 네트워크(WAN), 근단 네트워크(LAN), 또는 이들의 임의의 조합일 수 있다.
컴포넌트들, 블록들, 프로세스들 또는 다른 기능 컴포넌트들 중 하나 이상은 시스템의 프로세서 기반 컴퓨팅 디바이스의 실행을 제어하는 컴퓨터 프로그램을 통해 구현될 수 있다. 또한, 본 명세서에 개시된 다양한 기능들은 그들의 거동, 레지스터 송신, 로직 컴포넌트, 및/또는 다른 특성들의 관점에서 하드웨어, 펌웨어, 및/또는 다양한 머신-판독가능 또는 컴퓨터-판독가능 매체에 구현된 명령어들을 이용하여 설명될 수 있음에 유의해야 한다. 이러한 포맷된 데이터 및/또는 명령어들이 구현될 수 있는 컴퓨터-판독가능 매체는, 광학, 자기, 또는 반도체 저장 매체와 같은 다양한 형태들의 물리적인(비-일시적인), 비휘발성 저장 매체를 포함하지만, 이들로 제한되지 않는다.
위의 설명은, 본 개시내용의 다양한 실시예들과 함께 본 개시내용의 양태들이 어떻게 구현될 수 있는지의 예들을 예시한다. 위의 예들 및 실시예들은 유일한 실시예들인 것으로 간주되어서는 안되며, 다음의 청구항들에 의해 정의되는 바와 같은 본 개시내용은 유연성 및 이점들을 예시하도록 제시된다. 위의 개시내용 및 다음의 청구항들에 기반하여, 다른 배열들, 실시예들, 구현들, 및 등가물들이 관련 기술분야의 통상의 기술자들에게 명백할 것이고, 청구항들에 의해 정의되는 바와 같은 본 개시내용의 사상 및 범위를 벗어남이 없이 이용될 수 있다.

Claims (20)

  1. 오디오 처리의 컴퓨터 구현 방법으로서,
    제1 오디오 신호를 수신하는 단계- 상기 제1 오디오 신호는 제1 샘플링 주파수를 가짐 -;
    상기 제1 오디오 신호를 업-샘플링하여 제2 오디오 신호를 생성하는 단계- 상기 제2 오디오 신호는 상기 제1 샘플링 주파수보다 큰 제2 샘플링 주파수를 가짐 -;
    확성기에 의해, 상기 제2 오디오 신호에 대응하는 확성기 출력을 출력하는 단계;
    마이크로폰에 의해, 제3 오디오 신호를 캡처하는 단계- 상기 제3 오디오 신호는 상기 제1 샘플링 주파수보다 큰 제3 샘플링 주파수를 가짐 -;
    상기 제3 오디오 신호의 신호 전력을 결정하는 단계; 및
    상기 제1 샘플링 주파수보다 큰 주파수 대역에서 결정된 상기 제3 오디오 신호의 신호 전력이 있을 때 동시 통화를 검출하는 단계를 포함하는 방법.
  2. 제1항에 있어서,
    상기 동시 통화가 검출될 때 제어 신호를 선택적으로 생성하는 단계; 및
    상기 제어 신호에 따라 상기 제3 오디오 신호에 대해 에코 관리를 수행하는 단계를 추가로 포함하는 방법.
  3. 제2항에 있어서,
    에코 관리를 수행하는 단계는:
    상기 제어 신호에 따라 상기 제3 오디오 신호에 대해 에코 제거를 수행하는 단계- 상기 에코 제거는 상기 제3 오디오 신호에 대해 선형 감쇠를 수행함 -를 포함하는 방법.
  4. 제2항 또는 제3항에 있어서,
    에코 관리를 수행하는 단계는:
    상기 제어 신호에 따라 상기 제3 오디오 신호에 대해 에코 억제를 수행하는 단계- 상기 에코 억제는 상기 제3 오디오 신호의 특정 주파수 대역들에 대해 비선형 감쇠를 수행함 -를 포함하는 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 제3 오디오 신호는 로컬 오디오와 상기 확성기 출력을 포함하고, 상기 로컬 오디오는 상기 확성기 출력 이외의 오디오에 대응하고, 상기 로컬 오디오는 상기 확성기에 의해 출력되지 않고 상기 마이크로폰에 의해 캡처되는 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 제1 샘플링 주파수는 8kHz이고, 상기 제2 샘플링 주파수는 적어도 16kHz이고, 상기 제3 샘플링 주파수는 적어도 16kHz인 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 제3 오디오 신호를 다운-샘플링하여 제4 오디오 신호를 생성하는 단계- 상기 제4 오디오 신호는 상기 제3 샘플링 주파수보다 작은 제4 샘플링 주파수를 가짐 -; 및
    상기 제4 오디오 신호를 원단 디바이스(far end device)에 송신하는 단계를 추가로 포함하는 방법.
  8. 제7항에 있어서,
    상기 제4 샘플링 주파수와 상기 제1 샘플링 주파수는 동일한 샘플링 주파수인 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 제3 오디오 신호의 신호 전력을 결정하는 단계와 상기 동시 통화를 검출하는 단계는:
    상기 제1 샘플링 주파수보다 큰 상기 주파수 대역에서의 상기 제3 오디오 신호의 신호 전력을 측정하는 단계;
    상기 제1 샘플링 주파수보다 큰 상기 주파수 대역에서의 상기 제3 오디오 신호의 배경 잡음 전력을 추적하는 단계; 및
    상기 제1 샘플링 주파수보다 큰 상기 주파수 대역에서의 상기 제3 오디오 신호의 신호 전력과 상기 제1 샘플링 주파수보다 큰 상기 주파수 대역에서의 상기 제3 오디오 신호의 배경 잡음 전력을 비교한 결과로서 상기 동시 통화를 검출하는 단계를 포함하는 방법.
  10. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 제3 오디오 신호의 신호 전력을 결정하는 단계와 상기 동시 통화를 검출하는 단계는:
    상기 제1 샘플링 주파수보다 큰 상기 주파수 대역에서의 상기 제3 오디오 신호의 신호 전력을 측정하는 단계;
    상기 제1 샘플링 주파수보다 큰 상기 주파수 대역에서의 상기 제3 오디오 신호의 배경 잡음 전력을 추적하는 단계;
    상기 제1 오디오 신호의 왜곡 전력을 측정하는 단계; 및
    상기 제1 샘플링 주파수보다 큰 상기 주파수 대역에서의 상기 제3 오디오 신호의 신호 전력, 상기 제1 샘플링 주파수보다 큰 상기 주파수 대역에서의 상기 제3 오디오 신호의 배경 잡음 전력, 및 상기 제1 오디오 신호의 왜곡 전력에 기초하여 상기 동시 통화를 검출하는 단계를 포함하는 방법.
  11. 제10항에 있어서,
    상기 제1 오디오 신호의 왜곡 전력을 측정하는 단계는:
    상기 제1 오디오 신호에 대해 대역 통과 필터링을 수행함으로써 필터링된 신호를 생성하는 단계;
    상기 필터링된 신호의 신호 전력을 측정하는 단계; 및
    상기 필터링된 신호의 신호 전력에 대해 비선형 조정을 수행함으로써 상기 왜곡 전력을 결정하는 단계를 포함하는 방법.
  12. 컴퓨터 프로그램을 저장한 비-일시적인 컴퓨터 판독가능 매체로서,
    상기 컴퓨터 프로그램은, 프로세서에 의해 실행될 때, 제1항 내지 제11항 중 어느 한 항의 방법을 포함하는 처리를 실행하도록 장치를 제어하는 비-일시적인 컴퓨터 판독가능 매체.
  13. 오디오 처리를 위한 장치로서,
    확성기;
    마이크로폰; 및
    프로세서를 포함하고;
    상기 프로세서는 제1 오디오 신호를 수신하게 상기 장치를 제어하도록 구성되고- 상기 제1 오디오 신호는 제1 샘플링 주파수를 가짐 -;
    상기 프로세서는 상기 제1 오디오 신호를 업-샘플링하여 제2 오디오 신호를 생성하게 상기 장치를 제어하도록 구성되고- 상기 제2 오디오 신호는 상기 제1 샘플링 주파수보다 큰 제2 샘플링 주파수를 가짐 -;
    상기 프로세서는 상기 확성기에 의해, 상기 제2 오디오 신호에 대응하는 확성기 출력을 출력하게 상기 장치를 제어하도록 구성되고;
    상기 프로세서는 상기 마이크로폰에 의해, 제3 오디오 신호를 캡처하게 상기 장치를 제어하도록 구성되고- 상기 제3 오디오 신호는 상기 제1 샘플링 주파수보다 큰 제3 샘플링 주파수를 가짐 -;
    상기 프로세서는 상기 제3 오디오 신호의 신호 전력을 결정하게 상기 장치를 제어하도록 구성되고;
    상기 프로세서는 상기 제1 샘플링 주파수보다 큰 주파수 대역에서 결정된 상기 제3 오디오 신호의 신호 전력이 있을 때 동시 통화를 검출하게 상기 장치를 제어하도록 구성되는 장치.
  14. 제13항에 있어서,
    상기 프로세서는 상기 동시 통화가 검출될 때 제어 신호를 선택적으로 생성하게 상기 장치를 제어하도록 구성되고;
    상기 프로세서는 상기 제어 신호에 따라 상기 제3 오디오 신호에 대해 에코 관리를 수행하게 상기 장치를 제어하도록 구성되는 장치.
  15. 제14항에 있어서,
    에코 관리를 수행하게 상기 장치를 제어하는 것은:
    상기 제어 신호에 따라 상기 제3 오디오 신호에 대해 에코 제거를 수행하게 상기 장치를 제어하는 것- 상기 에코 제거는 상기 제3 오디오 신호에 대해 선형 감쇠를 수행함 -을 포함하는 장치.
  16. 제14항 또는 제15항에 있어서,
    에코 관리를 수행하게 상기 장치를 제어하는 것은:
    상기 제어 신호에 따라 상기 제3 오디오 신호에 대해 에코 억제를 수행하게 상기 장치를 제어하는 것- 상기 에코 억제는 상기 제3 오디오 신호의 특정 주파수 대역들에 대해 비선형 감쇠를 수행함 -을 포함하는 장치.
  17. 제13항 내지 제16항 중 어느 한 항에 있어서,
    상기 프로세서는 상기 제3 오디오 신호를 다운-샘플링하여 제4 오디오 신호를 생성하게 상기 장치를 제어하도록 구성되고, 상기 제4 오디오 신호는 상기 제3 샘플링 주파수보다 작은 제4 샘플링 주파수를 갖고;
    상기 프로세서는 상기 제4 오디오 신호를 원단 디바이스에 송신하게 상기 장치를 제어하도록 구성되는 장치.
  18. 제13항 내지 제17항 중 어느 한 항에 있어서,
    상기 제3 오디오 신호의 신호 전력을 결정하고 상기 동시 통화를 검출하게 상기 장치를 제어하는 것은:
    상기 제1 샘플링 주파수보다 큰 상기 주파수 대역에서의 상기 제3 오디오 신호의 신호 전력을 측정하게 상기 장치를 제어하는 것;
    상기 제1 샘플링 주파수보다 큰 상기 주파수 대역에서의 상기 제3 오디오 신호의 배경 잡음 전력을 추적하게 상기 장치를 제어하는 것; 및
    상기 제1 샘플링 주파수보다 큰 상기 주파수 대역에서의 상기 제3 오디오 신호의 신호 전력과 상기 제1 샘플링 주파수보다 큰 상기 주파수 대역에서의 상기 제3 오디오 신호의 배경 잡음 전력을 비교한 결과로서 상기 동시 통화를 검출하게 상기 장치를 제어하는 것을 포함하는 장치.
  19. 제13항 내지 제17항 중 어느 한 항에 있어서,
    상기 제3 오디오 신호의 신호 전력을 결정하고 상기 동시 통화를 검출하게 상기 장치를 제어하는 것은:
    상기 제1 샘플링 주파수보다 큰 상기 주파수 대역에서의 상기 제3 오디오 신호의 신호 전력을 측정하게 상기 장치를 제어하는 것;
    상기 제1 샘플링 주파수보다 큰 상기 주파수 대역에서의 상기 제3 오디오 신호의 배경 잡음 전력을 추적하게 상기 장치를 제어하는 것;
    상기 제1 오디오 신호의 왜곡 전력을 측정하게 상기 장치를 제어하는 것; 및
    상기 제1 샘플링 주파수보다 큰 상기 주파수 대역에서의 상기 제3 오디오 신호의 신호 전력, 상기 제1 샘플링 주파수보다 큰 상기 주파수 대역에서의 상기 제3 오디오 신호의 배경 잡음 전력, 및 상기 제1 오디오 신호의 왜곡 전력에 기초하여 상기 동시 통화를 검출하게 상기 장치를 제어하는 것을 포함하는 장치.
  20. 제19항에 있어서,
    상기 제1 오디오 신호의 왜곡 전력을 측정하게 상기 장치를 제어하는 것은:
    상기 제1 오디오 신호에 대해 대역 통과 필터링을 수행함으로써 필터링된 신호를 생성하게 상기 장치를 제어하는 것;
    상기 필터링된 신호의 신호 전력을 측정하게 상기 장치를 제어하는 것; 및
    상기 필터링된 신호의 신호 전력에 대해 비선형 조정을 수행함으로써 상기 왜곡 전력을 결정하게 상기 장치를 제어하는 것을 포함하는 장치.
KR1020227031586A 2020-03-23 2021-03-19 업-샘플링을 사용한 동시 통화 검출 KR20220156834A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202062993136P 2020-03-23 2020-03-23
US62/993,136 2020-03-23
US202163153522P 2021-02-25 2021-02-25
US63/153,522 2021-02-25
PCT/US2021/023196 WO2021194881A1 (en) 2020-03-23 2021-03-19 Double talk detection using up-sampling

Publications (1)

Publication Number Publication Date
KR20220156834A true KR20220156834A (ko) 2022-11-28

Family

ID=75439580

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227031586A KR20220156834A (ko) 2020-03-23 2021-03-19 업-샘플링을 사용한 동시 통화 검출

Country Status (7)

Country Link
US (1) US20230115316A1 (ko)
EP (1) EP4128731B1 (ko)
JP (1) JP2023518716A (ko)
KR (1) KR20220156834A (ko)
CN (1) CN115349250A (ko)
BR (1) BR112022018182A2 (ko)
WO (1) WO2021194881A1 (ko)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030133565A1 (en) * 2002-01-15 2003-07-17 Chienchung Chang Echo cancellation system method and apparatus
US8625775B2 (en) * 2009-08-06 2014-01-07 Hti Ip, L.L.C. Method and system for reducing echo and noise in a vehicle passenger compartment environment

Also Published As

Publication number Publication date
JP2023518716A (ja) 2023-05-08
CN115349250A (zh) 2022-11-15
BR112022018182A2 (pt) 2022-10-25
US20230115316A1 (en) 2023-04-13
EP4128731B1 (en) 2024-09-11
EP4128731A1 (en) 2023-02-08
WO2021194881A1 (en) 2021-09-30

Similar Documents

Publication Publication Date Title
US9467779B2 (en) Microphone partial occlusion detector
US8903721B1 (en) Smart auto mute
CA2766196C (en) Apparatus, method and computer program for controlling an acoustic signal
EP2783504B1 (en) Acoustic echo cancellation based on ultrasound motion detection
US9100756B2 (en) Microphone occlusion detector
KR101255404B1 (ko) 컴퓨터 시스템에서 에코 소거를 적용할지를 판정하는 방법,컴퓨터 시스템에서 에코 소거 알고리즘을 구성하는 방법및 에코 소거 알고리즘을 구성하는 컴퓨터 시스템
US8750526B1 (en) Dynamic bandwidth change detection for configuring audio processor
JP2014112831A (ja) 複数のマイクロフォン及びスピーカーを管理するシステム
WO2010092523A1 (en) Controlling an adaptation of a behavior of an audio device to a current acoustic environmental condition
US9769567B2 (en) Audio system and method
US20140135078A1 (en) Dynamic Speaker Management with Echo Cancellation
WO2013107307A1 (zh) 降噪方法及设备
CN106033673B (zh) 一种近端语音信号检测方法及装置
EP2700161A2 (en) Processing audio signals
WO2019239102A1 (en) Techniques for howling detection
US10516941B2 (en) Reducing instantaneous wind noise
US9282279B2 (en) Quality enhancement in multimedia capturing
KR20220156834A (ko) 업-샘플링을 사용한 동시 통화 검출
KR102466293B1 (ko) 보조 신호를 사용하는 오디오 디바이스에 대한 송신 제어
US10827076B1 (en) Echo path change monitoring in an acoustic echo canceler
JP7196002B2 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
JP7030470B2 (ja) 信号処理装置、信号処理方法、及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination