Nothing Special   »   [go: up one dir, main page]

KR102110285B1 - 주파수별 어음에너지 산출 기반의 청력 검사 방법 및 장치 - Google Patents

주파수별 어음에너지 산출 기반의 청력 검사 방법 및 장치 Download PDF

Info

Publication number
KR102110285B1
KR102110285B1 KR1020180055330A KR20180055330A KR102110285B1 KR 102110285 B1 KR102110285 B1 KR 102110285B1 KR 1020180055330 A KR1020180055330 A KR 1020180055330A KR 20180055330 A KR20180055330 A KR 20180055330A KR 102110285 B1 KR102110285 B1 KR 102110285B1
Authority
KR
South Korea
Prior art keywords
speech
frequency
calculating
band
importance
Prior art date
Application number
KR1020180055330A
Other languages
English (en)
Other versions
KR20190130784A (ko
Inventor
진인기
허소희
오홍엽
정승엽
Original Assignee
한림대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한림대학교 산학협력단 filed Critical 한림대학교 산학협력단
Priority to KR1020180055330A priority Critical patent/KR102110285B1/ko
Publication of KR20190130784A publication Critical patent/KR20190130784A/ko
Application granted granted Critical
Publication of KR102110285B1 publication Critical patent/KR102110285B1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/12Audiometering
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Veterinary Medicine (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

본 발명의 실시 예에 따른 주파수별 어음에너지 산출 기반의 청력 검사 방법은 테스트 파일에 대한 주파수별 어음역동범위를 산출하는 동작, 상기 산출된 어음역동범위를 기반으로 주파수별 대역가청함수를 따르는 대역가청값을 산출하는 동작,상기 대역 가청값을 산출한 동일 주파수에 대한 주파수 중요도를 산출하는 동작 및상기 대역가청값과 상기 주파수 중요도를 기반으로 어음명료지수를 산출하는 동작을 포함하되, 상기 테스트 파일에 대한 주파수별 어음역동범위를 산출하는 동작은 테스트용 파일에서 데이터 내의 묵음을 제거하는 동작, 상기 묵음이 제거된 데이터의 평균 실효값 레벨을 계산한 후, 각 녹음 파일들을 일정 dB SPL로 정규화하는 동작, 다수의 임계 대역에서 신호 포락선을 계산하는 동작, 상기 신호 포락선을 곡선화하는 동작, 곡선화된 신호 포락선을 부표본화하고 단위 변환하는 동작 및 누적 신호 포락선 분포 레벨을 데시벨 신호 포락선 히스토그램으로 변환하여 어음의 역동범위를 산출하는 동작을 포함할 수 있다.

Description

주파수별 어음에너지 산출 기반의 청력 검사 방법 및 장치{HEARING TEST METHOD AND APPARATUS BASED ON SPEECH DYNAMIC RANGE BY FREQUENCY BAND}
본 발명은 주파수별 어음에너지 산출 기반의 청력 검사 방법 및 장치에 관한 것이다. 보다 상세하게는 본 발명 어음명료지수를 산출하기 위해 요구되는 정보인 어음에너지 정보를 다수의 주파수 대역별로 산출하고, 산출된 주파수 대역별 어음에너지를 이용하여 어음명료지수를 산출하기 위한 방법 및 장치에 관한 것이다. 이를 기반으로 본 발명의 다양한 실시 예는 청력검사 대상자의 청각 능력을 보다 정확히 측정할 수 있다.
조음이론모델(the model of articulation theory)은 전기음향학적인 조건 속에서 다양한 통신기기를 통해 어음이 정확하게 전달되는 정도를 예측하기 위하여 제안되었다. 특히 조음이론모델은 어음의 주파수중요함수(frequency importance function)와 가청어음신호(audible speech cues)를 이용하여 전달되는 어음의 품질을 평가했는데, 청각학에서는 조음이론모델의 일부 구성 요소를 어음인지도를 예측하는 모델의 개발에 활용하였다. 초기의 어음인지도 예측 모델은 가청어음신호와 어음명료도와의 관계를 정량화하기 위해 개발되었고, 조음지수라는 이름으로 사용되었으나, 후에 어음명료지수(Speech Intelligibility Index; SII)로 명칭이 변경되었다.
어음명료지수는 주로 보청기의 착용 전과 후의 예후를 어음인지도의 변화를 통해 예측하기 위해 사용되고 있다. 어음명료지수를 계산하기 위한 방법으로는 Mueller &Killion이 제안한 Count-the-Dot 방식이 널리 사용되고 있다. Count ??the Dot 방식은 도 1과 같이 회색 사각형과 다수개의 점을 표시하는 방법으로 어음명료지수(SII)를 산출할 수 있다.
보다 상세하게는, 도 1에서의 가로축은 입력음의 주파수를, 세로축은 입력음의 강도(레벨)을 나타내고 있다. 그리고 도 1에서 표시되는 색칠된 영역은 보통 말하기 강도 기준의 어음(말소리) 에너지 분포를 나타내고 있으며, 어음에너지 내부에 표시되는 점은 주파수별 중요도를 나타내고 있다. 그리고 색칠된 영역을 가로지르는 선은 대상자의 청력 역치값을 표시하고 있다.
도 1에 표시된 바에 따르면, 250Hz에서 대상자의 청력역치가 10dB이고 해당 주파수의 어음에너지 분포가 10-40dB이므로 대상자는 모든 소리를 들을 수 있다. 그리고 대상자는 2K부터는 급격히 나쁜 청력 역치를 보이다, 4K의 경우에는 가장 아래부분의 점 하나 정도를 듣고 그 외에는 듣지 못한다.
또한 도 1에 따르면, 어음에너지 영역 안에 존재하는 점은 전체 100개이며, 250Hz에 해당하는 점은 3개가 도시되어 있다. 이는 전체 점이 100%를 의미하고 있으며, 250Hz에 속하는 3개의 점은 3%의 중요도가 있는 것을 의미할 수 있다. 2K 주파수 대역에서는 11개의 점이 표시되고 있으며 11%의 중요도가 있는 것을 의미하므로, 2KHz 대역은 250Hz대역에 비해 더 중요한 주파수 대역임을 알 수 있다. 그리고 대상자의 가청역치 선의 아래부분(가청역치 dB보다 큰 값을 갖는 부분)에 존재하는 점을 확인함을 통해 대상자가 전체 가청영역 중에서 들을 수 있는 비율을 확인할 수 있는데, 점의 개수가 총 76개이므로, 대상자는 전체 가청영역 중 76%를 들을 수 있음을 알 수 있게 된다.
이와 같은 기존 방식(Count-the Dot)은 간편하고 단순한 방식이라는 장점이 있으나, 실제 어음 에너지 분포를 고려하지 못한다는 점(일괄적으로 역동범위를 30dB로 지정)과, 주파수별 중요도를 점으로만 표시하는 점에 따라 정확한 데이터 산출이 어렵고, 오류가 발생될 수 있다는 문제점이 있었다.
한편, 이와 관련된 선행 기술로는 공개특허공보 10-2015-0129661(청력검사와 청각 평가 장치)호가 있다.
본 발명의 실시 예는 종래의 Count-the Dot 방식에 의해 어음명료지수를 산출할 시 발생될 수 있는 문제를 해결하기 위해 고안된 것으로, 주파수 대역별 대역가청값 적용 및 테스트 파일의 속성에 따른 주파수 중요도 적용을 수행하여 보다 정확한 어음명료지수를 산출하려는 목적이 있다.
본 발명의 실시 예에 따른 주파수별 어음에너지 산출 기반의 청력 검사 방법은 테스트 파일에 대한 주파수별 어음역동범위를 산출하는 동작, 상기 산출된 어음역동범위를 기반으로 주파수별 대역가청함수를 따르는 대역가청값을 산출하는 동작,상기 대역 가청값을 산출한 동일 주파수에 대한 주파수 중요도를 산출하는 동작 및상기 대역가청값과 상기 주파수 중요도를 기반으로 어음명료지수를 산출하는 동작을 포함하되, 상기 테스트 파일에 대한 주파수별 어음역동범위를 산출하는 동작은 테스트용 파일에서 데이터 내의 묵음을 제거하는 동작, 상기 묵음이 제거된 데이터의 평균 실효값 레벨을 계산한 후, 각 녹음 파일들을 일정 dB SPL로 정규화하는 동작, 다수의 임계 대역에서 신호 포락선을 계산하는 동작, 상기 신호 포락선을 곡선화하는 동작, 곡선화된 신호 포락선을 부표본화하고 단위 변환하는 동작 및 누적 신호 포락선 분포 레벨을 데시벨 신호 포락선 히스토그램으로 변환하여 어음의 역동범위를 산출하는 동작을 포함할 수 있다.
본 발명의 다양한 실시 예는 주파수별 어음에너지를 기반으로 검사 결과를 산출하므로, 청력 검사 대상자의 어음 인지 능력을 보다 정확하게 측정하는 효과가 있다.
도 1은 종래의 어음명료지수를 산출 방법에 대하여 도시하는 도면이다.
도 2는 본 발명의 어음명료지수 및 어음명료지수를 산출하기 위해 필요한 구성 요소들을 설명하기 위해 도시된 도면이다.
도 3은 본 발명의 실시 예에 따른 어음명료지수와 어음인지도의 상관관계를 나타내는 전달함수에 대하여 도시하는 도면이다.
도 4a 및 도 4b는 본 발명의 실시 에에 따른 어음종류에 따른 한국어의 어음역동범위에 대한 그래프를 도시하는 도면이다.
도 5a 및 도 5b는 본 발명의 실시 예에 따라 산출된 주파수별 역동범위에 대하여 도시한 도면이다.
도 6a 및 도 6b는 본 발명의 실시 에에 따른 한국어 기반 주파수 중요도를 적용한 어음명료지수 산출 방식에 대하여 도시한 도면이다.
도 7a 내지 도 7c는 본 발명의 실시 예에 따른 한국어 기반의 주파수 중요도 적용 결과를 도시한 도면이다.
도 8은 본 발명의 실시 예에 따른 청력 검사 장치의 구조를 도시한 블록도이다.
도 9는 본 발명의 실시예에 따른 어음역동범위 산출부의 구성에 대하여 도시한 블록도이다.
도 10은 본 발명의 실시 에에 따른 청력 검사 장치에서의 청력 검사 데이터를 산출하는 과정에 대하여 도시한 순서도이다.
도 11은 도 10의 101동작 이전 단계에서 수행될 수 있는 주파수별 어음에너지 산출에 대하여 도시한 순서도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
어떤 구성요소가 다른 구성요소에 '연결되어' 있다거나 '접속되어'있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 '직접 연결되어'있다거나 '직접 접속되어'있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, '포함하다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 본 발명의 구체적인 실시 예를 보다 상세하게 설명하기 위해 도면을 참조하여 어음명료지수의 산출 방식의 기본 개념에 대하여 설명하기로 한다.
먼저, 도 2는 본 발명의 어음명료지수 및 어음명료지수를 산출하기 위해 필요한 구성 요소들을 설명하기 위해 도시된 도면이다.
도 2의 그래프 하단을 먼저 살펴보면 BAF(
Figure 112018047585406-pat00001
)의 값이 500Hz와 1000Hz에서 1.0이고 2000Hz에서는 0.5이며, 4000Hz 및 5000Hz에서는 0으로 표시되고 있고, BIF(
Figure 112018047585406-pat00002
)값이 BAF가 산출된 주파수 대역마다 표시되고 있다. 그리고 주파수 대역별로 BAF와 BIF를 곱한 값들과, 상기 주파수 대역별로 BAF와 BIF를 곱한 값들을 더한 값이 더불어 표시되고 있다. 이 때 주파수 대역별로 BAF와 BIF를 곱한 값들을 전체 더한 값이 SII(어음명료지수, Speech Intelligibility Index)이다. 즉, 어음명료지수는 하기 수학식 1과 같이 산출될 수 있다.
[수학식 1]
Figure 112018047585406-pat00003
상기 SII는 어음명료지수(0과 1사이의 범위로 나타낼 수 있음)이고, 상기 K 는 주파수대역(frequency band)의 전체 숫자를 의미하고, 상기
Figure 112018047585406-pat00004
는 주파수대역 k 에서의 대역가청함수(band-audibility function, BAF)를 의미하며, 상기
Figure 112018047585406-pat00005
는 주파수대역 k 에서의 주파수중요함수(band-importance function, BIF)를 의미한다.
본 발명의 실시 예에 따른 청력 검사 장치는 상기 수학식 1에서 도시된 바와 같이 어음명료지수를 산출할 수 있고, 이를 위해 어음명료지수 산출에 요구되는 주요 요소를 산출할 수 있다.
상기 어음명료지수를 구성하는 주요 요소는 '대역가청함수'와 '주파수중요함수'이다. 먼저, '대역가청함수'에 대하여 설명하면, 다음과 같다.
도 2의 그래프 부분을 참조하면, 어음의 역동 범위(Dynamic range)가 20dB에서부터 50dB까지 30dB의 범위로 모든 주파수 대역에 대하여 동일하게 설정된 모습이 도시되고 있다. 그리고 청자의 가청 역치(Threshold)값이 점선으로 표시되고 있으며, 청자의 가청 역치는 500Hz와 1000Hz 사이에서는 10dB이고, 2000Hz에서는 어음의 역동 범위의 중간인 35dB까지 증가하였으며, 주파수가 증가할수록 가청 역치의 값도 계속 증가하여 4000Hz 이후에는 어음의 역동 범위를 벗어나는 것으로 도시되고 있다. BAF는 밴드가청함수(Band Audibility Function)를 의미하며, 밴드가청함수는 전체 어음역동범위에 대한 청자의 가청 어음에너지의 비율에 대한 값을 나타낼 수 있다. 구체적으로 설명하면, 청자는 가청역치값 이상의 dB 소리를 들을 수 있으므로, 2000Hz에서 청자의 가청역치의 값이 35dB라는 것은(전체 어음역동범위(20~50dB) 중 중간값에 해당) 50%정도를 들을 수 있다는 것을 의미하며, 4000Hz이상에서는 청자의 가청역치가 역동 범위를 벗어나있으므로 들을 수 있는 소리가 없다는 것을 의미한다. 한편, 500Hz와 1000Hz사이에서 청자의 가청 역치는 10dB로 표시되고 있으며 이는 어음의 전체 역동범위(어음 에너지의 최대 레벨에서 최소레벨까지 모두)의 어음 에너지 값이 가청역치보다 큰 dB값을 가지므로, 사용자는 해당 주파수대역에서 모든 소리를 들을 수 있음을 의미한다.
이와 같이 어음의 역동 범위(DR;Dynamic range)에서 청자(청력 검사 대상자)가 들을 수 있는 어음에너지의 비율을 대역가청함수라고 하고, 대역가청역치는 본 발명의 실시 예에 따른 청력 검사 장치에 의해 하기 수학식 2를 따라 산출될 수 있다.
[수학식 2]
Figure 112018047585406-pat00006
이 때, 상기
Figure 112018047585406-pat00007
는 주파수대역 i 에서의 신호대잡음비(signal-to-noise ratio, SNR)를 데시벨(dB) 단위로 표현한 값을 의미하고, 상기 K 는 어음강도의 최대값에서 어음의 실효치 레벨(speech root-mean-square level)을 뺀 값을 의미하며, 상기 D 는 어음의 역동범위를 의미할 수 있다.
종래의 영어버전 대역가청함수의 경우, 어음의 실효치 레벨을 기준으로 ㅁ15 dB로 표준화하여 사용되고 있으며, 이 범위는 다양한 SNR 상황에서 측정된 어음의 인지도와 표준화된 어음의 역동범위를 기반으로 채택되었다. 즉, 영어의 경우, 어음의 역동범위는 전 주파수에 걸쳐 30 dB이며, 대역 가청역치의 값은 0과 1사이에서 결정된다. 0은 청자의 청력역치가 어음의 역동범위를 벗어나 어떠한 어음도 들을 수 없음을 의미하고, 1은 청자의 청력역치가 모든 주파수대역에서 어음의 역치보다 충분히 좋아 모든 어음을 다 들을 수 있음을 의미할 수 있다.
어음명료지수를 구성하는 두 번째 요소는 주파수중요함수(BIF)이며 본 발명의 실시 예에 따른 청력 검사 장치는 테스트용 녹음 파일에 대한 주파수 중요함수를 선택 또는 산출할 수 있다. 상기 주파수중요함수는 어음인지도에 대해서 다른 주파수대역과 비교할 때 중요한 정도를 비율로 나타낸 지표를 말한다. 즉, 각 주파수대역의 중요도는 전체중요도를 1로 고정하고 상대적인 중요도로 계산되며, 각 주파수 대역에서의 중요도를 모두 더하면 그 합은 1이 된다. 예컨대, 영어문장표를 기준으로 산출한 주파수중요함수의 경우, 1,370 Hz(CF;중심주파수)대역이 0.1099, 150 Hz(중심주파수)대역은 0.0315, 2,900Hz(중심주파수)대역은 0.0646로 산출될 수 있다. 이와 같이 주파수중요도는 주파수대역마다 다른 값을 가질 수 있으며, 상기 예시에 따르면 어음인지에 가장 중요한 주파수 대역은 0.1099(10.99%)값을 갖는 1370Hz 대역임을 알 수 있다. 그리고 각 주파수대역의 중요도를 모두 더하면 그 합은 1(100%)이 될 수 있다.
본 발명의 실시 예에 따른 청력 검사 장치는 여러 단계의 절차와 반복적인 접근법을 사용하여 주파수중요도를 얻을 수 있다. 첫 번째 단계는 SNR을 이용한 다양한 소음의 조건과 여러 주파수대역을 필터링(filtering)을 이용해서 나눈 다음, 다양한 조건 속에서 어음인지도를 측정하는 것이다. 본 발명의 실시 예에 따르면 단음절어표를 이용하여 SNR은 -10 dB에서 +8 dB까지 2 dB간격으로 총 10개, 필터링은 총 13개의 주파수 대역에서 어음인지도를 측정하여 주파수중요함수를 구할 수 있다.
두 번째 단계에서 상기 청력 검사 장치는 각 조건에서의 평균 어음인지도와 어음명료지수 값의 대략적인 상관관계를 구할 수 있다. 일반적으로 어음인지도는 백분율(0에서 100%)에서 지수(0에서 1사이)로 바꾸어 표시될 수 있다. 이때 그래프를 통해서 두 지표의 대략적인 관계가 형성되는데 그래프를 부드럽게 표현하기 위해서 다음의 네 가지 법칙을 따를 수 있다. (1) 하나의 SNR 그래프는 다른 SNR 그래프와 겹치지 않도록 한다. (2) 같은 SNR 조건에서 저주파수통과필터(low-pass filter)와 고주파수통과필터(high-pass filter) 사이에는 한 개의 교차점만 있도록 한다. (3) SNR이 증가하면 어음인지도는 증가하도록 한다. (4) 같은 SNR 조건에서 두 그래프는(low-pass & high-pass filters) 최대한 비슷한 점수로 끝나도록 한다.
전달함수에 대한 그래프는 부드러운 곡선 형태로 산출되기 위하여 그래프산출법(예, cubic spline curve fitting법)에 의한 처리과정이 수반될 수 있다.
세 번째 단계는 두 번째 단계에서 부드럽게 산출한 그래프들을 기준으로 어음인지도와 상응하는 어음명료지수를 구하는 것이다. 예를 들면, 가장 높은 SNR에서 산출한 두 곡선(low-pass & high-pass filters)의 교차점은 어음인지에 가장 유리한 조건의 어음인지도를 100점으로 보았을 때, 전체 어음인지도의 50%에 해당하는 지점으로 볼 수 있으므로 0.5 SII에 상응하는 값으로 간주될 수 있다. 본 발명의 실시 예에 따른 장치는 이와 같은 방법으로 수십개의 상응점을 찾아내고 이를 하나의 그래프로 표현할 수 있다. 그리고 해당 그래프의 사이값들을 가장 잘 추정할 수 있는 수학공식을 산출하는데 다음의 수학식 3이 사용될 수 있다.
[수학식 3]
Figure 112018047585406-pat00008
상기 수학식 3에서 S 는 어음인지도, P 는 화자와 청자의 발화와 듣기능력의 숙련도(일반적으로 1로 고정), A 는 어음명료지수 값을 나타내고, Q 와 N 은 곡선을 잘 나타내기 위한 상수값(fitting constant)을 의미한다.
네 번째 단계는 수학식 3에서 역수방정식(inverse equation)을 이용하여, 어음명료지수 값(A)을 어음인지도(S)와 바꿔서 같은 식이 성립하도록 한 다음, 첫번째 단계에서 구한 모든 평균어음인지도를 수학식3의 역수방정식을 통해 상응하는 어음명료지수 값을 구하는 것이다. 그러면 모든 평균어음인지도는 그에 상응하는 어음명료지수 값으로 바뀌게 되고 이는 각 주파수대역에 해당하는 값이라기 보단 이전 주파수대역에서의 어음명료지수 값을 포함하는 누적분포로 나타난다. 이를 각 주파수대역별 어음명료지수 값으로 변화하기 위해서 가장 높은 주파수대역의 값에서 한 단계 아래의 주파수대역의 값을 차감한다. 이와 같은 방법으로 각 주파수대역별 어음명료지수 값을 구할 수 있다.
다섯 번째 단계는 같은 SNR에서 동일한 주파수대역별로 저주파수통과필터와 고주파수통과필터의 값을 평균하는 것이다. 단, 한쪽의 값이 0이거나 0보다 작을 경우, 이는 양수인 다른 쪽의 값만 사용하여 구할 수 있다. 그 다음, 같은 주파수대역에 존재하는 모든 SNR 조건에서의 값들의 평균을 구할 수 있다. 그러면 각 주파수대역마다 하나의 통합된 평균값을 가지게 되고 이를 누적분포로 만들어 가장 넓은 주파수범위의 값이 1이 아니라면 이를 1로 고정하고, 나머지 값들을 비율공식을 이용하여 상대적인 비율로 나타낼 수 있다. 그리고 최대값이 1로 바뀌어진 누적분포값을 각 주파수별 값으로 바꾸면 최종 주파수대역별 주파수중요도를 얻을 수 있다.
도 3은 본 발명의 실시 예에 따른 어음명료지수와 어음인지도의 상관관계를 나타내는 전달함수에 대하여 도시하는 도면이다.
본 발명의 실시 예에 따른 청력 검사 장치는 상기 도시되는 도 3의 전달함수에 따라 산출된 어음명료지수를 어음인지도로 환산할 수 있다.
도 3은 임의의 값으로 제작된 전달함수 그래프를 도시하고 있다. 그래프에서 X축은 어음명료지수(SII) 값이고, Y축은 어음인지도 값을 의미한다. 상기 전달함수 그래프는 어음명료지수와 어음인지도의 상관관계를 나타내고 있다. 그리고 상기 전달함수는 (주파수 중요함수 및 대역가청함수에 기반하여 산출된)어음명료지수를 통해 어음인지도의 대략적인 값을 산출하는 데 사용될 수 있다.
예컨대 청자의 청력역치와 주파수중요함수 및 대역가청함수를 통하여 얻은 어음명료지수가 보청기를 착용하기 전에 0.2 SII 였다면, 상기 도 3의 전달함수를 적용할 경우, 약 25%의 어음인지도가 예상됨을 알 수 있다. 그리고 보청기 착용 후에 다시 측정한 어음명료지수 점수가 0.5 SII였다면, 어음인지도는 약 85%로 산출될 것임을 알 수 있다. 이에 따라 보청기 착용 전후의 어음인지도의 변화는 25%에서 85%로 약 60%임을 알 수 있다. 이와 같은 어음인지도 산출 방식은 실제 어음인지도 측정에 어려움이 있는 아동이나 노인에게 적용되어 보청기의 착용 효과를 예측하기 위해 사용될 수 있다.
종래에, 어음명료지수를 비롯한 청력검사에 요구되는 다양한 데이터에 있어서, 주로 영어의 특성에 맞는 주파수 중요도를 적용해왔다. 그러나 주파수 대역에 따른 주파수 중요도는 사용언어, 성별, 어음의 종류(단음절, 문장, 담화)에 따른 차이가 있음이 밝혀졌다. 즉, 한국어 문장과 영어 문장을 듣고 인식하는 데 있어 중요하게 여겨지는 주파수 대역은 다를 수 있다. 그러나 종래 적용되고 있는 방식은 이러한 사용 언어에 대한 차이를 배제한 채, 한국어를 사용하여 테스트를 수행하는 경우에도 영어 어음을 토대로 산출된 주파수중요도를 적용하는 등의 문제가 있었다. 이에 따라 본 발명의 다양한 실시 예는 한국어 특성에 기반한 주파수중요도를 산출하고 이를 적용하여 청력 검사 데이터를 산출할 수 있게 한다.
이하에서는, 본 발명의 실시 예에 따른 한국어 특성에 따른 청각 검사 데이터를 산출하기 위한 과정에 대하여 설명하기로 한다.
도 4a 및 도 4b는 본 발명의 실시 에에 따른 어음종류에 따른 한국어의 어음역동범위에 대한 그래프를 도시하는 도면이다.
그리고 상기 도 4a는 남성의 어음역동범위를 도시하고 있고, 도 4b는 여성의 어음역동범위에 대한 그래프를 도시하고 있다.
구체적으로, 어음종류에 따른 한국어의 어음역동범위는 다음과 같이 측정될 수 있다. 단음절의 어음역동범위는 남성의 경우 7.79 dB (CF: 150Hz)에서 27.71 dB (CF: 1,170 Hz), 여성의 경우 10.61 dB (CF:150 Hz)에서 29.73 dB (CF: 1,370 Hz)의 범위를 보였다. 문장의 어음역동범위는 남성의 경우 8.96 dB (CF:150 Hz)에서 23.83 dB (CF: 7,000 Hz), 여성의 경우 11.06 dB (CF: 150 Hz)에서 23.19 dB (CF: 5,800 Hz)의 범위를 보였으며 담화의 어음역동범위는 남성이 8.64 dB (CF: 150 Hz)에서 24.66dB (CF: 7,000 Hz), 여성이 11.61 dB (CF: 250 Hz)에서 23.52dB (CF: 8,500 Hz)였다.
단음절의 어음역동범위가 남녀 모두 중주파수 대역에서 문장, 담화의 역동범위보다 유의미하게 넓게 분석되었고, 남성의 경우 중심주파수가 350~2900Hz일 때 단음절어의 역동범위가 문장, 담화의 역동범위보다 유의미하게 넓었다.
이러한 주파수 대역에서 단음절과 문장 간의 어음역동범위 차이는 1.36 dB (CF:350 Hz)에서 7.16 dB (CF: 1,370 Hz) 사이였으며, 단음절과 담화간의 어음역동범위 차이는 2.4 dB (CF: 350 Hz)에서 6.95 dB(CF: 1,170 Hz) 사이였다. 여성의 경우에는 중심주파수가 450~3,400 Hz일 때 단음절어의 역동범위가 문장, 담화의 역동범위보다 유의미하게 넓었다(p < 0.05). 이러한 주파수 대역에서 단음절과 문장 간의 어음역동범위 차이는 2.23 dB (CF: 570Hz)에서 7.6 dB (CF: 1,370 Hz) 사이였으며, 단음절과 담화 간의 어음역동범위 차이는 2.32 dB (CF: 3,400 Hz)에서 7.43 dB(CF: 1,370 Hz) 사이였다. 도 4a 및 도 4b에서 볼 수 있듯이, 문장과 담화의 역동범위는 차이가 크지 않았다. 남성의 경우, 중심주파수가 350과 450 Hz일 때를 제외한 나머지 주파수대역에서는 유의미한 차이가 나타나지 않았으며, 여성의 경우 중심주파수가 1,600과 1,850 Hz일 때를 제외하고 유의미한 차이가 나타나지 않았다.
도 5a 및 도 5b는 본 발명의 실시 예에 따라 산출된 주파수별 역동범위에 대하여 도시한 도면이다.
도 5a는 남성의 어음역동범위(어음에너지의 최대 레벨과 최소레벨의 사이 값)를 도시하고 있으며, 도 5b는 여성의 어음역동범위에 대하여 도시하고 있다. 그래프에서 실선은 단음절에 대한 어음에너지의 최대 및 최소값을 도시하고 있으며, 굵은 점선은 문장, 가는 점선은 담화에 대한 어음에너지의 최대, 최소값을 도시하고 있다.
도 5a 및 도 5b에서는 각 어음 종류별 최대 레벨과 최소 레벨을 통하여 어음역동범위(L99 - L30) 분포를 제시하고 있다. 상기 도 5a 및 도5b에서 볼 수 있듯이 남녀 모두에서 대부분 단음절이 문장, 담화보다 더 큰 최대 레벨(L99)과 더 작은 최소 레벨(L30)의 분포를 가지는 것을 볼 수 있다.
연구에 따르면, 어음은 종류에 따라, 단음절의 경우에는 약 8~30dB 정도의 어음역동범위를 보이며, 문장의 경우에는 약 9~23dB, 담화의 경우에는 9~25dB정도의 어음역동범위를 보였다. 즉, 어음에 따른 어음역동범위의 비교에서는 단음절의 어음역동범위가 문장 또는 담화의 음역동범위보다 중주파수 영역에서 넓은 것으로 나타났다. 반면, 문장과 담화의 어음역동범위는 대부분의 주파수 대역에서 유의미한 차이는 발견되지 않았다.
그리고 한국어의 어음역동범위는 성별에 따라 주파수별로 유의미한 차이가 발견되었는데, 여성의 경우 주파수에 따라 약 10~30dB정도의 어음역동범위가 산출되었고, 남성의 경우에는 약 7~27dB정도의 어음역동범위가 산출되었다. 즉, 남성에 비해 대부분의 주파수 영역에서 여성의 어음역동범위가 넓은 것으로 나타났다.
이에 따라 본원 발명의 실시 예에 따른 청력 검사 방법에서는 상기와 같은 성별 및 자극음의 종류에 따른 어음역동범위의 차이를 고려한 데이터값(예, 주파수 중요도)를 적용하여 결과를 산출할 수 있다.
구체적으로는, 본 발명의 실시 예에 따른 청력검사 장치는 상기 제시된 어음 종류별 어음역동범위의 차이 및 성별에 따른 어음역동범위 차이를 반영할 수 있다. 예컨대, 본 발명의 실시 예에 따른 청력검사 장치는 테스트 녹음 파일의 목소리의 성별, 어음의 종류(단음절, 문장, 담화 중 어느것에 해당하는지)에 따라 해당 속성에 대응하는 주파수별 어음역동범위를 적용할 수 있다.
도 6a 및 도 6b는 본 발명의 실시 에에 따른 한국어 기반 주파수 중요도를 적용한 어음명료지수 산출 방식에 대하여 도시한 도면이다.
주파수 중요도는 상기 도면에 도시된 바와 같이 21개 주파수 대역에 대한 각각의 중요도 값이 적용될 수 있으며, 전체 대역의 주파수중요도의 합은 100%가 된다. 이 때 말하는 상대의 성별(남성인지 또는 여성인지)에 따라 다른 값의 어음에너지 및 주파수 중요도가 사용될 수 있으며, 자극음(담화, 문장, 단음절)수준에 따라 다른 어음에너지 및 주파수중요도가 적용될 수 있다.
도 6b를 참조하면, 청자(청각 검사 대상자)의 청력역치를 각 주파수별로 표시하고 선으로 연결한 그래프가 어음에너지 그래프와 함께 도시되고 있다. 청자가 각 주파수 대역에서 들을 수 있는 가청영역을 최대/최소 레벨 사이값에 대한 비율(특정 주파수 대역에서의 어음에너지의 최대/최소 사이값 중 청자의 가청역치와 최대 어음에너지의 사이값의 비율)로 나타낸 것이 대역가청값(대역가청함수BAF를 따름)이다. 도 6b에서는 각 주파수 대역(21개의 대역)별로 청자의 대역가청값이 산출되어 표시된 모습이 도시되고 있다. 본 발명의 실시 예에 따른 청력 검사 장치는 주파수 대역별로 산출된 주파수 중요도(I)와 대역가청값(A)를 곱하여 주파수 대역별 SII를 계산할 수 있고, 전체 대역에 대하여 대역별 SII를 모두 더하면 total SII(어음명료지수)를 산출할 수 있게 된다.
도 6b에 기재된 수치를 참고하면, 저주파수부터 1번이라고 가정할 때, 10번 주파수까지는 청력 역치가 어음에너지보다 작은 값을 가지므로 충분히 모든 신호를 들을 수 있다. 화살표가 표시되는 지점의 주파수대역부터 청력 역치가 어음에너지보다 큰 값을 갖기 시작하므로 청자는 차츰 소리를 듣지 못하게 됨을 알 수 있다.
11번 주파수 대역의 경우, BAF(A)값은 0.9이고, BIF(I)값은 4.4로 도시되고 있다. 이는 청자가 해당 주파수 대역에서 전체 어음에너지의 90%를 들을 수 있고, 해당 주파수의 중요도가 4.4%(0.044)임을 의미하는 것이다. 그리고 주파수 대역별 SII는 상기 두 값을 곱한(0.9*0.044=0.0396) 결과인 3.96(%)로 산출될 수 있다. 그리고 산출된 각 주파수별 SII값들을 모두 더하면 토탈 SII값이 산출될 수 있는데 도 6b에서는 그 값이 0.6653으로 산출됨을 알 수 있다. 이는 제공된 테스트 자료에 대하여 약 66.53%정도 가청이 가능함을 의미할 수 있다.
상기 도면에 도시된 바와 같이, 본 발명의 실시 예에 따른 청력 검사 장치는 주파수 대역별 산출된 주파수 중요도와 대역가청값을 곱하여 주파수 대역별 SII를 산출한 후, 각 주파수 대역별로 산출된 대역별 SII를 모두 더하여 최종 SII를 산출할 수 있다.
도 7a 내지 도 7c는 본 발명의 실시 예에 따른 한국어 기반의 주파수 중요도 적용 결과를 도시한 도면이다.
도 7a는 우하향하는 선은 대상자의 가청역치를 의미하는 것이고, 전체 주파수 대역에 걸쳐있는 두 개의 선은 어음에너지의 최대/최소값을 도시하고 있다. 테스트 어음 데이터(한국어 및 영어)가 동일한 어음역동범위를 갖는다고 가정할 때, 한국어 및 영어는 주파수 대역별 주파수 중요도의 값에 따라 SII의 값의 차이가 두드러질 수 있다. 도 7b를 참조하면, BAF(대역가청함수)에 따른 대역가청값이 주파수 대역별로 동일한 상태에서, BIF(주파수중요도)가 영어와 한국어에 대하여 다르게 설정되어 있음을 볼 수 있다. 그리고 이에 따라 궁극적으로 도출되는 SII값은 영어의 경우 0.49이고, 한국어의 경우 0.59와 같다.
도 7c를 참조하면, 영어 및 한국어에 대한 SII값의 차이를 보다 명확하게 짐작할 수 있다. 영어의 SII값(0.49)을 전달함수에 따라 어음인지도 값으로 환산하면 이는 85%로 산출될 수 있다. 그러나 한국어의 경우, SII값(0.59)를 전달함수에 따라 어음인지도 값으로 환산하면 이는 96%로 산출될 수 있다. 이와 같이 동일 어음역동범위를 갖는 어음에 대한 청각 테스트에 있어서, 테스트 대상 어음이 어떤 언어이냐에 따라 최종 어음명료지수 및 어음인지도 값의 차이가 발생됨을 알 수 있다.
이와 같이 언어별로 주파수중요도가 다르게 산출되는 이유는 언어가 갖는 음절구조나 억양 등의 속성이 다르기 때문인데, 구체적인 내용은 다음과 같다.
한국어의 역동범위는 중심주파수를 기준으로 455Hz이하의 저주파수에서는 타 언어(영어, 광동어)에 비해 좁은 역동범위를 가지며, 455Hz에서 4050Hz에 이르는 중주파수 대역에서는 영어의 역동범위가 가장 좁으며, 4050Hz이상의 고주파수 대역에서는 한국어와 광동어의 역동범위는 유사했으나 영어의 역동범위는 상대적으로 타 언어들에 비해 넓은 역동범위를 갖는다. 즉, 영어의 역동범위는 한국어와 비교할 때 중주파수대역에서는 상대적으로 좁고 고주파수 대역에서는 넓고 한국어는 영어와 반대가 된다.
또한 음절의 구조에서도 한국어는 타언어와 다른 차이가 있다. 예를 들어, 영어의 음절구조는 가장 짧은 경우에 /a/와 같이 하나의 모음으로 음절을 이룰 수 있으나,/strength/와 같은 음절 에서는 자음의 수가 모음에 비해 현저히 많은 음절구조를 보인다. 반면에 한국어는 /가/, /각/, /각도/와 같이 자음과 모음의 수가 영어에 비해 비슷하게 유지되는 구조를 가지고 있다. 이는 영어에 비해 상대적으로 모음의 사용이 많은 한국어가 저주파수의 에너지를 더 많이 사용할 가능성이 있으며, 이는 한국어가 영어에 비해 저주파수 영역이 어음인지도에 미치는 영향이 크다는 점을 암시할 수 있다.
이에 따라 본 발명의 실시 예에 따른 청력 검사 장치는 이러한 한국어의 특성에 따른 주파수 중요도를 적용하여 어음명료지수를 산출할 수 있다. 예컨대, 본 발명의 실시 예에 따른 청력 검사 장치는 테스트용 녹음 파일의 언어가 한국어인 것이 확인되면, 한국어 특성에 맞추어 산출된 주파수중요도를 적용하도록 제어할 수 있다. 예컨대, 테스트용 녹음 파일이 한국어이면, 본 발명에 따른 장치는 전체 주파수 대역(저주파수, 중주파수, 고주파수 3단계 대역으로 구분됨을 가정) 중 저주파수 대역에서 기본 설정된 주파주중요도(영어 기반으로 산출된 주파수중요도)에서 일정 값(제 1조정값)을 증가시킨 중요도를 적용시키고, 중주파수대역에서는 일정값(제 2조정값)을 증가시킨 중요도를 적용시키며, 고주파수대역에서는 일정값(제 3조정값)을 감소시킨 중요도를 적용시키도록 제어할 수 있다. 그리고 이 때 감소분과 증가분의 크기는 같도록 설정되어, 주파수 중요도 조정 이후에도 전체 주파수중요도의 합은 1(또는 100%)을 유지하도록 할 수 있다.
도 8은 본 발명의 실시 예에 따른 청력 검사 장치의 구조를 도시한 블록도이다.
도 8을 참조하면 본 발명의 실시 예에 따른 장치는 저장부 810, 입력부 820, 표시부 830, 오디오처리부 840 및 제어부 850를 포함할 수 있다. 그리고 상기 제어부 850는 어음역동범위 산출부 851, 대역가청산출부 852, 주파수 중요도 산출부 853, 테스트 파일 종류 확인부 854, 주파수 중요도 적용부 855, 어음인지 능력 판단부 856을 포함하여 구성될 수 있다.
먼저 상기 저장부 810는 대역가청함수, 주파수중요함수 및 어음명료지수를 산출하기 위한 데이터를 저장할 수 있다. 또한 상기 저장부 810는 어음명료지수로부터 어음인지도를 산출하는데 요구되는 전달함수 및 그와 관련된 데이터들을 저장할 수 있다. 이 밖에도 상기 저장부 810는 테스트용 파일의 종류(어음의 종류, 언어 종류, 목소리의 성별)에 따라 다르게 설정되는 주파수중요도에 관한 데이터를 저장할 수 있다. 상기 저장부 810에 저장되는 주파수 중요도는 상기 주파수 중요도 산출부 853에 의해 산출된 수치일 수 있다. 또는 상기 저장부 810는 디폴트로 설정되는 주파수 중요도에 대한 정보를 포함할 수 있다. 이 때 장치에 기본으로 설정되는 주파수 중요도는 종래 통상적으로 사용되는 주파수 중요도 값(영어 기반으로 산출된 주파수 중요도)일 수 있다.
또한 상기 저장부 810는 주파수 대역별로 어음의 역동범위를 산출하기 위해 요구되는 데이터를 저장할 수 있다. 이 밖에도 상기 저장부 810는 청력검사 대상자의 어음인지 능력을 판단하기 위해 요구되는 다양한 데이터를 저장할 수 있다.
상기 표시부 820는 본 발명의 실시 예에 따른 청력검사장치에서 청력검사를 수행하는 데 요구되는 정보 및 검사 결과 정보를 사용자에게 표시할 수 있다.
상기 입력부 830는 본 발명의 실시 예에 따른 청력검사장치에서 청력 검사를 수행하는 데 요구되는 값들을 입력받을 수 있다. 예컨대, 상기 입력부 830는 청력검사 대상자가 테스트 파일에 대한 응답 내용(예, 들리는 내용에 대하여 글자를 타이핑하는 방식으로 청력검사가 수행될 경우, 타이핑된 단어 또는 문장 등이 해당될 수 있음)을 입력받을 수 있다.
상기 오디오 처리부 840는 테스트용 파일(검사 대상자의 어음 인식 능력을 테스트하기 위해 단음절, 문장 또는 담화를 사용자 목소리로 녹음한 파일)을 출력할 수 있다. 또한 다양한 실시 예에 따라 상기 오디오 처리부 840는 어음인지검사를 수행함에 있어, 검사 대상자가 듣는 어음을 소리내어 따라 말하는 방식으로 테스트할 경우, 검사 대상자가 말하는 소리를 입력받을 수 있다.
상기 제어부 850는 어음역동범위 산출부 851, 대역가청 산출부 852, 주파수 중요도 산출부 853, 테스트파일 종류 확인부 854, 주파수 중요도 적용부 855, 어음인지능력 판단부 856을 포함할 수 있다.
먼저, 상기 어음역동범위 산출부 851에 대하여는 도 9를 참조하여 설명하기로 한다.
도 9는 본 발명의 실시예에 따른 어음역동범위 산출부의 구성에 대하여 도시한 블록도이다.
상기 어음 역동범위 산출부 851는 테스트 파일의 어음역동범위를 산출하기 위해, 묵음 제거부 851a 와 히스토그램 레벨 산출부 851b를 포함할 수 있다. 테스트 파일이 본 발명의 실시 예에 따른 청력 검사 장치에 입력되면, 상기 묵음 제거부 851a는 해당 파일의 묵음(Pauses)를 제어할 수 있다. 이 때 묵음 제거는 250ms 이상 유지되는 묵음에 한하여 수행될 수 있다. 묵음 시간이 200ms 이상이 되면 비로소 어음 발성 시에 자연스럽게 나타나는 묵음의 범위를 벗어나는 것으로 판단되기 때문에, 묵음 제거 기준 시간은 250ms로 설정될 수 있다.
이후, 상기 히스토그램 레벨 산출부 851b는 묵음이 제거된 데이터를 대상으로 여러 단계에 거쳐 누적 히스토그램 레벨(cumulative histogram levels)을 도출할 수 있다. 상기 히스토그램 레벨 산출부 851b는 녹음 데이터의 누적 히스토그램 레벨 도출 과정을 다음과 같이 수행할 수 있다. (1)녹음 데이터의 평균 실효값(root mean square) 레벨을 계산한 후에, 각 녹음 파일들을 65 dB SPL로 정규화한다. (2)중심주파수가 150~8,600 Hz의 범위를 가지는 21개의 임계 대역(critical bands)에서 신호 포락선(signal envelope)을 계산한다. 참고로, 이러한 21개의 주파수 대역 범위는 어음인지 지수를 계산할 때의 임계 대역 범위를 기준으로 할 수 있다. (3)매트랩을 이용하여 1,000분의 1초 단위로 계산되는 상승 여현창(raised cosine window)을 통해 신호 포락선을 부드럽게 곡선화한다. (4)곡선화된 신호 포락선을 창 길이(window length)가 50% 중첩되게 하여 부표본화하고 dB SPL 단위로 변환시킨다. (5) 누적 신호 포락선 분포 레벨을 데시벨 신호 포락선 히스토그램으로 변화하여 어음의 역동범위를 도출한다.
참고로, 누적 히스토그램 레벨은 주파수 대역 내에서 어음의 누적신호 포락선의 분포를 보여줄 수 있는데, 예를 들어, 99% 누적 히스토그램 레벨(L99)은 측정된 어음 신호에서 최고치 레벨(peak level)을 포함하거나 그 이하의 99% 부분을 가리킬 수 있다. 30% 누적 히스토그램 레벨(L30)은 측정된 어음 신호에서 최소 레벨을 포함하거나 그 이상의 30% 부분을 가리킬 수 있다. 다시 말하면, 상기 L99는 어음의 최대 레벨을 말하며, L30은 어음의 최소 레벨을 말할 수 있다. (어음역동범위는 최대 레벨에서 최소 레벨을 뺀 값을 나타낸다(L99 ?? L30). 상기 기술한 내용과 같이 상기 어음역동범위 산출부 851는 테스트용 녹음 파일로부터 주파수 대역별 어음역동범위를 산출할 수 있다.
상기 대역가청산출부 852는 상기 어음역동범위 산출부 851에 의해 산출된 어음역동범위를 기반으로 어음에너지의 최대레벨 및 최소레벨을 판단할 수 있다. 또한 상기 대역가청산출부 852는 주파수 대역별로 산출된 어음역동범위를 기반으로 대역가청함수를 따르는 대역가청값을 산출할 수 있다. 이 때 대역가청함수는 다음의 수학식 2를 따른다.
[수학식 2]
Figure 112018047585406-pat00009
이 때, 상기
Figure 112018047585406-pat00010
는 주파수대역 i 에서의 신호대잡음비(signal-to-noise ratio, SNR)를 데시벨(dB) 단위로 표현한 값을 의미하고, 상기 K 는 어음강도의 최대값에서 어음의 실효치 레벨(speech root-mean-square level)을 뺀 값을 의미하며, 상기 D 는 어음의 역동범위를 의미할 수 있다.
이 때 대역가청값을 산출하기 위해 요구되는 검사 대상자의 가청역치는 가청역치 측정부(미도시)를 통해 산출될 수 있다. 예컨대, 상기 가청역치 측정부는 테스트용 녹음 파일의 재생에 따른 대상자의 반응 기록을 토대로 사용자의 가청역치 수준을 판단할 수 있다. 다양한 실시 예에 따라 상기 가청역치 측정부는 어음 뿐 아니라 순음 청력에 대한 검사자료를 토대로 사용자의 가청역치 수준을 판단할 수 있다.
상기 주파수 중요도 산출부 853는 테스트 파일에 대한 주파수 중요도를 산출하는 기능을 수행할 수 있다. 상기 주파수 중요도 산출부 853는 이미 수행된 검사 결과를 토대로 어음의 주파수대역 및 어음역동범위에 대응하는 검사 대상자의 인식률을 토대로 주파수 중요도를 산출할 수 있다. 그리고 상기 주파수 중요도 산출부 853는 테스트 파일에 녹음된 언어 종류, 성별 종류 및 어음 종류별로 주파수 중요도를 다르게 산출할 수 있다. 예컨대, 상기 주파수 중요도 산출부는 영어 문장에 대하여 4050Hz이상의 고주파영역에 대응하는 주파수중요도를 한국어 문장에서의 주파수 중요도에 비해 0.2 높은 값으로 산출할 수 있다. 이 때 주파수 중요도 산출부 853에서 산출하는 주파수 중요도의 전제 대역에 대한 합은 1(또는 100%)로 설정될 수 있다.
이 밖에도 다양한 실시 예에 따라 상기 주파수 중요도 산출부 853는 기 설정된 기본 주파수 중요도(예, 영어 기준으로 산출된 주파수 중요도)에 대한 증가분 또는 감소분으로 주파수 중요도를 산출할 수 있다.
상기 테스트 파일 종류 확인부 854는 테스트 파일의 종류를 확인할 수 있다. 구체적으로 상기 테스트 파일 종류 확인부 854는 테스트 파일을 녹음한 목소리의 성별이 여자인지 또는 남자인지 여부를 확인할 수 있다. 또한 상기 테스트파일 종류 확인부 854는 테스트 파일의 언어 종류가 한국어인지 또는 외국어인지 여부를 확인할 수 있다. 또한 테스트파일 종류 확인부 854는 어음 종류가 담화인지, 문장인지 또는 단음절인지 여부를 판단할 수 있다. 상기 테스트 파일 종류 확인부 854는 테스트 파일이 장치에 입력되면 자체적으로 해당 파일을 모의 재생하여 기록된 신호정보를 분석하고, 이에 따라 테스트 파일의 종류를 판단할 수 있다. 또는 상기 테스트 파일 종류 확인부 854는 테스트 파일에 대하여 기 부여된 식별 값을 판단하는 방법으로 어음 종류, 언어 종류 등을 판단할 수 있다.
상기 주파수 중요도 적용부 855는 확인된 테스트 파일의 종류 정보에 기반하여 해당하는 주파수 중요도을 적용할 수 있다. 예를 들어, 테스트 파일이 한국어임이 확인되면, 상기 주파수 중요도 적용부 855는 주파수중요도를 설정함에 있어, 상기 주파수 중요도 산출부 853에서 산출되고 저장부 810에 저장된 정보인 한국어 대응 주파수중요도 값을 적용하도록 제어할 수 있다.
어음인지능력 판단부 856는 청력검사 대상자의 어음명료지수 및 어음인지도를 산출할 수 있다. 이 때 상기 어음인지 능력 판단부 856는 어음명료지수를 산출할 시, 하기의 수학식 1에 기반하여 어음명료지수를 산출할 수 있다.
[수학식 1]
Figure 112018047585406-pat00011
상기 SII는 어음명료지수(0과 1사이의 범위로 나타낼 수 있음)이고, 상기 K 는 주파수대역(frequency band)의 전체 숫자를 의미하고, 상기
Figure 112018047585406-pat00012
는 주파수대역 k 에서의 대역가청함수(band-audibility function, BAF)를 의미하며, 상기
Figure 112018047585406-pat00013
는 주파수대역 k 에서의 주파수중요함수(band-importance function, BIF)를 의미한다.
상기 어음인지 능력 판단부 856는 산출된 어음명료지수에 기반하여 어음인지도를 산출할 수 있다. 상기 어음인지 능력 판단부 856는 어음명료지수에 전달함수를 적용하여 어음인지도의 대략적인 추정치를 산출할 수 있다. 어음명료지수와 어음인지도의 상관관계를 나타내는 전달함수에 관하여는 도 3에서 설명하였으므로 생략하기로 한다.
도 10은 본 발명의 실시 에에 따른 청력 검사 장치에서의 청력 검사 데이터를 산출하는 과정에 대하여 도시한 순서도이다.
도 11은 도 10의 101동작 이전 단계에서 수행될 수 있는 주파수별 어음에너지 산출에 대하여 도시한 순서도이다.
도 10을 참조하여 설명하면, 제어부 850는 대역가청값을 산출하는 101동작을 수행할 수 있고, 이후 상기 제어부 850는 주파수 중요도를 적용하는 103동작을 수행할 수 있다. 이후 상기 제어부 850는 상기 주파수 중요도 및 대역가청값을 기반으로 어음명료지수를 산출하는 105동작을 수행할 수 있다.
상기 대역가청값과 주파수 중요도는 모두 21개의 주파수 대역에 대응하여 설정될 수 있다. 상기 제어부 850는 어음명료지수를 산출할 시, 먼저는 동일 주파수에 대응하는 대역가청값과 주파수중요도를 곱하여 주파수별 어음명료지수를 산출하고, 이후 산출된 어음명료지수들을 전체 더하는 방식으로 최종 어음명료지수를 산출할 수 있다. 이후 상기 제어부 850는 산출된 어음명료지수를 기반으로 어음인지도를 산출하는 107동작을 수행할 수 있다. 어음인지도 산출 과정은 생략될 수도 있다. 그리고 어음인지도 산출동작은 어음명료지수와 어음인지도와의 관계식인 전달함수를 이용하여 산출될 수 있다. 각 어음명료지수를 산출하기 위해 요구되는 각 데이터 및 전달함수에 관한 설명은 도 2 및 도 3에 대한 설명에서 다루었으므로 생략하기로 한다.
그리고 본 발명에서는 다수의 대역 각각에 대응하는 대역가청값을 산출하기 위해 요구되는 정보인 어음역동범위(또는 어음에너지)를 해당 주파수 대역별(예, 21개의 대역)로 산출할 수 있다. 주파수 대역별 어음역동범위 산출에 관한 동작에 대하여, 도 11을 참조하여 설명하기로 한다.
도 11을 참조하면, 제어부 850는 테스트 파일의 입력을 확인하는 111동작을 수행할 수 있다. 이후 상기 제어부 850(예, 묵음 제거부 851a)는 입력된 해당 파일에서 묵음을 제거하는 113동작을 수행할 수 있다. 이 때 제어부 850는 일반적인 어음 발성에 필수적으로 요구되는 묵음과 분별하기 위해 250ms이상 유지되는 묵음에 한하여 제거를 수행할 수 있다.
이후 제어부 850(예, 히스토그램 레벨 산출부 851b)는 묵음이 제거된 데이터를 가지고 다수의 임계 대역에서의 신호 포락선을 계산하는 1153동작을 수행할 수 있다. 이 때 임계 대역은 중심 주파수가 150~8600Hz의 범위를 갖는 21개의 영역으로 설정될 수 있다.
이후 상기 제어부 850는 상기 신호 포락선을 곡선화하는 117동작을 수행할 수 있다. 이후 상기 제어부 850는 곡선화된 신호 포락선의 부표본화 및 단위 변환을 수행하는 119동작을 수행할 수 있다.
그리고 이후 상기 제어부 850는 누적 신호 포락선 분포 레벨을 데시벨 신호 포락선 히스토그램으로 변환하는 121동작을 수행함을 통해 21개의 주파수 대역별 어음역동범위를 산출할 수 있다.
앞서 본 발명의 실시 예에 따른 청력 검사 장치를 통해 어음인지능력을 측정하는 동작에 대하여 살펴보았다. 그러나 본 발명은 이에 한정되지 않고, 보다 다양한 실시 예에 따라 어음인지 결과에 대한 통계를 기반으로 주파수중요도를 산출하는 동작을 수행할 수 있다.
구체적으로 예를 들면, 상기 제어부 850는 다수의 청력 검사 대상자들의 테스트 파일에 대한 어음인지 결과를 기반으로 기 분류되어 있는 주파수대역별 사용자의 어음명료지수를 추출할 수 있다. 주파수대역별 어음명료지수는 total SII(어음명료지수)가 산출되기 전 단계에서 계산되므로, 별도의 연산과정 없이 추출될 수 있다. 이 때 상기 제어부 850는 total 어음명료지수의 결과가 평균값인(어음인지 능력이 정상인 것으로 판단되는) 청력 검사 대상자들의 주파수대역별 어음명료지수들만을 통계 대상으로 선정할 수 있다. 이후 상기 제어부 850는 동일한 테스트 파일에 대한 어음명료지수들끼리 분류할 수 있다. 그리고 상기 제어부 850는 동일 테스트 파일에 대하여, 부분 어음명료지수가 높은 주파수 대역을 인식률이 높은 주파수 대역으로 판단하고 해당 대역의 주파수중요도에 가중치를 더 부여할 수 있다. 예를 들어, 1대역, 2대역에 대한 기존의 주파수 중요도가 각각 50%와 50%로 설정되어 있는 상태에서, 통계 결과 1대역에 대한 청력 검사 대상자들의 어음명료지수가 일정 값 이상 더 높게 산출되었다고 할 때, 상기 제어부 850는 1대역에 대한 중요도를 일정 값(예, 1%) 높게 설정할 수 있다. 그리고 중요도 증가분과 중요도 감소분의 값은 같아야 하므로, 특정 대역에서 중요도가 증가되면, 나머지 대역들에서는 증가된 중요도 크기만큼 중요도가 감소될 수 있다. 즉, 1대역에서 중요도가 1%증가함에 따라 2대역에서는 중요도가 1% 감소될 수 있다. 만약, 21개의 대역 중 1개의 대역에서만 중요도 증가가 20% 이루어지게 되면, 나머지 대역(20개의 대역)은 증가분을 각각 동일하게 나누어 중요도가 감소될 수 있으며, 이 경우, 나머지 20개 대역에서의 주파수 중요도는 각각 1%씩 감소될 수 있다.
다양한 실시 예에 따라 상기 제어부 850는 테스트 파일이 입력되는 즉시, 해당 파일의 녹음 내용(예, 주파수대역)을 분석하여 목소리의 성별을 확인하는 동작을 수행할 수 있다. 또는 상기 제어부 850는 테스트 파일이 출력되어 청력 검사 대상자에게 제공될 시, 출력되는 사운드의 주파수를 분석 및 음성인식을 수행하여, 어음 속성(어음 종류(단음절, 문장, 담화), 성별, 언어 종류 등)을 판단할 수 있다. 그리고 이에 따라 상기 제어부 850(예, 주파수 중요도 적용부 855)는 분석된 테스트 파일 종류에 대응하는 주파수 중요도를 적용할 수 있다.
상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 당업자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다. 요컨대 본 발명이 의도하는 효과를 달성하기 위해 도면에 도시된 모든 기능 블록을 별도로 포함하거나 도면에 도시된 모든 순서를 도시된 순서 그대로 따라야만 하는 것은 아니며, 그렇지 않더라도 얼마든지 청구항에 기재된 본 발명의 기술적 범위에 속할 수 있음에 주의한다.
810 : 저장부
820 : 입력부
830 : 표시부
840 : 오디오처리부
850 : 제어부
851 : 어음역동범위 산출부
852 : 대역가청 산출부
853 : 주파수 중요도 산출부
854 : 테스트 파일 종류 확인부
855 : 주파수 중요도 적용부
856 : 어음인지능력 판단부

Claims (11)

  1. 청력 검사 장치의 청력 검사 방법에 있어서,
    상기 청력 검사 장치의 제어부에 의해, 테스트 파일에 대한 주파수별 어음역동범위를 산출하는 동작;
    상기 제어부에 의해, 상기 산출된 어음역동범위를 기반으로 주파수별 대역가청함수를 따르는 대역가청값을 산출하는 동작;
    상기 제어부에 의해, 상기 대역 가청값을 산출한 동일 주파수에 대한 주파수 중요도를 산출하는 동작; 및
    상기 제어부에 의해, 상기 대역가청값과 상기 주파수 중요도를 기반으로 어음명료지수를 산출하는 동작;을 포함하되,
    상기 테스트 파일에 대한 주파수별 어음역동범위를 산출하는 동작은
    상기 제어부에 의해, 테스트용 파일에서 데이터 내의 묵음을 제거하는 동작;
    상기 제어부에 의해, 상기 묵음이 제거된 데이터의 평균 실효값 레벨을 계산한 후, 각 녹음 파일들을 일정 dB SPL로 정규화하는 동작;
    상기 제어부에 의해, 다수의 임계 대역에서 신호 포락선을 계산하는 동작;
    상기 제어부에 의해, 상기 신호 포락선을 곡선화하는 동작;
    상기 제어부에 의해, 곡선화된 신호 포락선을 부표본화하고 단위 변환하는 동작; 및
    상기 제어부에 의해, 누적 신호 포락선 분포 레벨을 데시벨 신호 포락선 히스토그램으로 변환하여 어음의 역동범위를 산출하는 동작;을 포함하는 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법.
  2. 제 1항에 있어서,
    상기 신호 포락선을 계산하는 동작은
    상기 묵음이 제거된 데이터에 대하여 중심 주파수가 150~8600Hz의 범위를 갖는 21개의 주파수 대역에 대하여 신호 포락선을 계산하는 동작인 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법.
  3. 제 1항에 있어서,
    상기 어음명료지수는 하기 수학식 1에 기반하여 산출되고,
    [수학식 1]
    Figure 112018047585406-pat00014

    상기 SII는 어음명료지수이고, 상기 K 는 주파수대역(frequency band)의 전체 숫자를 의미하고, 상기
    Figure 112018047585406-pat00015
    는 주파수대역 k 에서의 대역가청함수(band-audibility function, BAF)를 의미하며, 상기
    Figure 112018047585406-pat00016
    는 주파수대역 k 에서의 주파수중요함수(band-importance function, BIF)를 의미하는 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법.
  4. 제 1항에 있어서,
    상기 데이터 내의 묵음을 제거하는 동작은
    묵음 유지 기간이 250ms 이상이 되는 경우에 한하여 해당 묵음을 제거하는 동작인 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법.
  5. 제 1항에 있어서,
    상기 신호 포락선을 곡선화하는 동작은
    1000분의 1초 단위로 계산되는 상승 여현창(raised cosine window)을 통해 포락선을 곡선화하는 동작이고,
    상기 곡선화된 신호 포락선을 부표본화하고 단위 변환하는 동작은
    상기 곡선화된 신호 포락선을 창 길이(window length)가 50% 중첩되게 하여 부표본화하고 dB SPL 단위로 변환하는 동작인 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법.
  6. 제 1항에 있어서,
    상기 대역가청함수는
    주어진 주파수대역에서 청자의 청력역치를 기준으로 청자가 들을 수 있는 어음에너지의 비율을 의미하며, 하기 수학식 2를 따르고,
    [수학식 2]
    Figure 112018047585406-pat00017

    상기
    Figure 112018047585406-pat00018
    는 주파수대역 i 에서의 신호대잡음비(signal-to-noise ratio, SNR)를 데시벨(dB) 단위로 표현한 값을 의미하고, 상기 K 는 어음강도의 최대값에서 어음의 실효치 레벨(speech root-mean-square level)을 뺀 값을 의미하며, 상기 D 는 어음의 역동범위를 의미하는 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법.
  7. 제 1항에 있어서,
    상기 주파수별 어음에너지 산출 기반의 청력 검사 방법은,
    상기 제어부에 의해, 상기 어음명료지수에 전달함수를 적용하여 어음인지도를 산출하는 동작을 더 포함하고, 상기 어음인지도는 다음의 수학식 3에 따라 산출되고,
    [수학식 3]
    Figure 112020001180815-pat00019

    상기 S는 어음인지도, 상기 P는 화자와 청자의 발화와 듣기능력의 숙련도, 상기 A는 어음명료지수 값, 상기 Q와 N은 피팅(fitting) 상수를 의미하는 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법.
  8. 제 1항에 있어서,
    상기 주파수 중요도를 산출하는 동작은
    상기 테스트 파일에 녹음된 어음의 종류 및 목소리 성별에 따라 주파수 중요도를 산출하며, 상기 어음의 종류는 단음절, 문장 및 담화의 3가지로 구분되는 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법.
  9. 제 8항에 있어서,
    상기 주파수 중요도를 산출하는 동작은
    상기 테스트 파일이 재생됨에 따라, 상기 테스트 파일에 녹음된 소리의 주파수 대역을 판단하여 목소리의 성별 및 어음의 종류를 판단하고, 판단된 성별 및 어음의 종류에 대응하는 주파수 중요도를 적용하는 동작을 포함하는 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법.
  10. 제 1항에 있어서,
    상기 주파수 중요도를 산출하는 동작은
    어음인지 능력이 정상인 것으로 판단되는 청력 검사 대상자들의 주파수 대역별 어음명료지수를 기반으로 어음명료지수 수치가 기 설정값 이상 높게 산출된 주파수 대역의 주파수 중요도를 증가 설정하는 동작을 포함하는 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법.
  11. 테스트 파일에 대한 주파수별 어음역동범위를 산출하되, 테스트용 파일에서 데이터 내의 묵음을 제거하고, 상기 묵음이 제거된 데이터의 평균 실효값 레벨을 계산한 후, 각 녹음 파일들을 일정 dB SPL로 정규화한 후, 다수의 임계 대역에서 신호 포락선을 계산하고, 상기 신호 포락선을 곡선화하며, 곡선화된 신호 포락선을 부표본화한 후 단위 변환하고 누적 신호 포락선 분포 레벨을 데시벨 신호 포락선 히스토그램으로 변환하여 어음의 역동범위를 산출하는 어음역동범위 산출부;
    상기 산출된 어음역동범위를 기반으로 주파수별 대역가청함수를 따르는 대역가청값을 산출하는 대역 가정 산출부;
    상기 대역 가청값을 산출한 동일 주파수에 대한 주파수 중요도를 산출하는 주파수 중요도 산출부; 및
    상기 대역가청값과 상기 주파수 중요도를 기반으로 어음명료지수를 산출하는 어음 인지능력 판단부;를 포함하는 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 장치.

KR1020180055330A 2018-05-15 2018-05-15 주파수별 어음에너지 산출 기반의 청력 검사 방법 및 장치 KR102110285B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180055330A KR102110285B1 (ko) 2018-05-15 2018-05-15 주파수별 어음에너지 산출 기반의 청력 검사 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180055330A KR102110285B1 (ko) 2018-05-15 2018-05-15 주파수별 어음에너지 산출 기반의 청력 검사 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20190130784A KR20190130784A (ko) 2019-11-25
KR102110285B1 true KR102110285B1 (ko) 2020-05-13

Family

ID=68730752

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180055330A KR102110285B1 (ko) 2018-05-15 2018-05-15 주파수별 어음에너지 산출 기반의 청력 검사 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102110285B1 (ko)

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
논문(1)
논문(2)
논문(3)

Also Published As

Publication number Publication date
KR20190130784A (ko) 2019-11-25

Similar Documents

Publication Publication Date Title
Falk et al. Characterization of atypical vocal source excitation, temporal dynamics and prosody for objective measurement of dysarthric word intelligibility
Phatak et al. Consonant confusions in white noise
US7890323B2 (en) Digital filtering method, digital filtering equipment, digital filtering program, and recording medium and recorded device which are readable on computer
Moore Aspects of auditory processing related to speech perception
US20140309992A1 (en) Method for detecting, identifying, and enhancing formant frequencies in voiced speech
Boothroyd et al. The hearing aid input: A phonemic approach to assessing the spectral distribution of speech
Irino et al. Comparison of performance with voiced and whispered speech in word recognition and mean-formant-frequency discrimination
Berisha et al. Towards a clinical tool for automatic intelligibility assessment
KR20130083730A (ko) 사용자의 청력 특성에 따라 조정된 소리를 출력하는 멀티미디어 재생 장치 및 이를 수행하는 방법
Krishnamoorthy An overview of subjective and objective quality measures for noisy speech enhancement algorithms
Harrison Variability of formant measurements
Richard et al. Comparison of objective and subjective methods for evaluating speech quality and intelligibility recorded through bone conduction and in-ear microphones
KR102110284B1 (ko) 한국어 특성 기반의 청력 검사 장치 및 방법
Elbashti et al. Digitized speech characteristics in patients with maxillectomy defects
Ireland et al. Adaptive multi-rate compression effects on vowel analysis
KR102110285B1 (ko) 주파수별 어음에너지 산출 기반의 청력 검사 방법 및 장치
Young et al. Evaluation of noise excitation as a method for detection of hypernasality
Martens et al. Automated assessment and treatment of speech rate and intonation in dysarthria
Blamey et al. Predicting speech perception from the audiogram and vice versa
Sahoo et al. Analyzing the vocal tract characteristics for out-of-breath speech
Bapineedu et al. Analysis of Lombard speech using excitation source information.
Rao et al. Speech enhancement for listeners with hearing loss based on a model for vowel coding in the auditory midbrain
Tiwari et al. Speech enhancement using noise estimation with dynamic quantile tracking
Liu et al. Auditory detection of non-speech and speech stimuli in noise: Effects of listeners' native language background
US10129659B2 (en) Dialog enhancement complemented with frequency transposition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant