KR102110285B1 - Hearing test method and apparatus based on speech dynamic range by frequency band - Google Patents
Hearing test method and apparatus based on speech dynamic range by frequency band Download PDFInfo
- Publication number
- KR102110285B1 KR102110285B1 KR1020180055330A KR20180055330A KR102110285B1 KR 102110285 B1 KR102110285 B1 KR 102110285B1 KR 1020180055330 A KR1020180055330 A KR 1020180055330A KR 20180055330 A KR20180055330 A KR 20180055330A KR 102110285 B1 KR102110285 B1 KR 102110285B1
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- frequency
- calculating
- band
- importance
- Prior art date
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/12—Audiometering
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7271—Specific aspects of physiological measurement analysis
- A61B5/7275—Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Surgery (AREA)
- Veterinary Medicine (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
본 발명의 실시 예에 따른 주파수별 어음에너지 산출 기반의 청력 검사 방법은 테스트 파일에 대한 주파수별 어음역동범위를 산출하는 동작, 상기 산출된 어음역동범위를 기반으로 주파수별 대역가청함수를 따르는 대역가청값을 산출하는 동작,상기 대역 가청값을 산출한 동일 주파수에 대한 주파수 중요도를 산출하는 동작 및상기 대역가청값과 상기 주파수 중요도를 기반으로 어음명료지수를 산출하는 동작을 포함하되, 상기 테스트 파일에 대한 주파수별 어음역동범위를 산출하는 동작은 테스트용 파일에서 데이터 내의 묵음을 제거하는 동작, 상기 묵음이 제거된 데이터의 평균 실효값 레벨을 계산한 후, 각 녹음 파일들을 일정 dB SPL로 정규화하는 동작, 다수의 임계 대역에서 신호 포락선을 계산하는 동작, 상기 신호 포락선을 곡선화하는 동작, 곡선화된 신호 포락선을 부표본화하고 단위 변환하는 동작 및 누적 신호 포락선 분포 레벨을 데시벨 신호 포락선 히스토그램으로 변환하여 어음의 역동범위를 산출하는 동작을 포함할 수 있다. A hearing test method based on calculating speech energy for each frequency according to an embodiment of the present invention includes calculating a speech dynamic range for each frequency of a test file, and a band audible following a band audible function for each frequency based on the calculated speech dynamic range Calculating a value, calculating a frequency importance for the same frequency from which the band audible value is calculated, and calculating a speech intelligibility index based on the band audible value and the frequency importance, in the test file The operation of calculating the speech dynamic range for each frequency is to remove silence in the data from the test file, calculate the average effective value level of the data from which the silence has been removed, and then normalize each recording file to a certain dB SPL. , Calculating signal envelopes in a plurality of critical bands, curveting the signal envelopes, songs It may include sub-sampling the linearized signal envelope and performing unit conversion, and calculating the dynamic range of speech by converting the cumulative signal envelope distribution level into a decibel signal envelope histogram.
Description
본 발명은 주파수별 어음에너지 산출 기반의 청력 검사 방법 및 장치에 관한 것이다. 보다 상세하게는 본 발명 어음명료지수를 산출하기 위해 요구되는 정보인 어음에너지 정보를 다수의 주파수 대역별로 산출하고, 산출된 주파수 대역별 어음에너지를 이용하여 어음명료지수를 산출하기 위한 방법 및 장치에 관한 것이다. 이를 기반으로 본 발명의 다양한 실시 예는 청력검사 대상자의 청각 능력을 보다 정확히 측정할 수 있다. The present invention relates to a hearing test method and apparatus based on calculating speech energy for each frequency. More specifically, the method and apparatus for calculating speech energy information, which is information required for calculating the speech intelligibility index of the present invention, for a plurality of frequency bands, and calculating the speech intelligibility index by using the calculated speech energy for each frequency band It is about. Based on this, various embodiments of the present invention can more accurately measure the hearing ability of the hearing test subject.
조음이론모델(the model of articulation theory)은 전기음향학적인 조건 속에서 다양한 통신기기를 통해 어음이 정확하게 전달되는 정도를 예측하기 위하여 제안되었다. 특히 조음이론모델은 어음의 주파수중요함수(frequency importance function)와 가청어음신호(audible speech cues)를 이용하여 전달되는 어음의 품질을 평가했는데, 청각학에서는 조음이론모델의 일부 구성 요소를 어음인지도를 예측하는 모델의 개발에 활용하였다. 초기의 어음인지도 예측 모델은 가청어음신호와 어음명료도와의 관계를 정량화하기 위해 개발되었고, 조음지수라는 이름으로 사용되었으나, 후에 어음명료지수(Speech Intelligibility Index; SII)로 명칭이 변경되었다. The model of articulation theory has been proposed to predict the extent to which speech is accurately transmitted through various communication devices under electroacoustic conditions. In particular, the articulation theory model evaluated the quality of speech delivered using the frequency importance function of speech and the audible speech cues. In the auditory science, prediction of some components of the articulation theory model is speech. Was used to develop the model. The initial speech recognition prediction model was developed to quantify the relationship between audible speech signals and speech intelligibility, and was used as the name of the articulation index, but was later renamed as Speech Intelligibility Index (SII).
어음명료지수는 주로 보청기의 착용 전과 후의 예후를 어음인지도의 변화를 통해 예측하기 위해 사용되고 있다. 어음명료지수를 계산하기 위한 방법으로는 Mueller &Killion이 제안한 Count-the-Dot 방식이 널리 사용되고 있다. Count ??the Dot 방식은 도 1과 같이 회색 사각형과 다수개의 점을 표시하는 방법으로 어음명료지수(SII)를 산출할 수 있다. The speech intelligibility index is mainly used to predict the prognosis of the hearing aid before and after wearing it through a change in speech perception. As a method for calculating the speech intelligibility index, the count-the-dot method proposed by Mueller & Killion is widely used. The Count ?? the Dot method can calculate a speech intelligibility index (SII) by displaying a gray square and a plurality of dots as shown in FIG. 1.
보다 상세하게는, 도 1에서의 가로축은 입력음의 주파수를, 세로축은 입력음의 강도(레벨)을 나타내고 있다. 그리고 도 1에서 표시되는 색칠된 영역은 보통 말하기 강도 기준의 어음(말소리) 에너지 분포를 나타내고 있으며, 어음에너지 내부에 표시되는 점은 주파수별 중요도를 나타내고 있다. 그리고 색칠된 영역을 가로지르는 선은 대상자의 청력 역치값을 표시하고 있다. More specifically, the horizontal axis in FIG. 1 represents the frequency of the input sound, and the vertical axis represents the intensity (level) of the input sound. In addition, the colored area indicated in FIG. 1 usually represents speech (speech) energy distribution based on speech intensity, and the dots displayed inside speech energy indicate importance by frequency. In addition, a line crossing the colored area indicates the subject's hearing threshold.
도 1에 표시된 바에 따르면, 250Hz에서 대상자의 청력역치가 10dB이고 해당 주파수의 어음에너지 분포가 10-40dB이므로 대상자는 모든 소리를 들을 수 있다. 그리고 대상자는 2K부터는 급격히 나쁜 청력 역치를 보이다, 4K의 경우에는 가장 아래부분의 점 하나 정도를 듣고 그 외에는 듣지 못한다. As shown in FIG. 1, the subject's hearing threshold is 10 dB at 250 Hz, and the speech energy distribution of the corresponding frequency is 10-40 dB, so that the subject can hear all sounds. In addition, the subject has a sharply bad hearing threshold starting from 2K, and in 4K, one of the lowest points is heard and nothing else is heard.
또한 도 1에 따르면, 어음에너지 영역 안에 존재하는 점은 전체 100개이며, 250Hz에 해당하는 점은 3개가 도시되어 있다. 이는 전체 점이 100%를 의미하고 있으며, 250Hz에 속하는 3개의 점은 3%의 중요도가 있는 것을 의미할 수 있다. 2K 주파수 대역에서는 11개의 점이 표시되고 있으며 11%의 중요도가 있는 것을 의미하므로, 2KHz 대역은 250Hz대역에 비해 더 중요한 주파수 대역임을 알 수 있다. 그리고 대상자의 가청역치 선의 아래부분(가청역치 dB보다 큰 값을 갖는 부분)에 존재하는 점을 확인함을 통해 대상자가 전체 가청영역 중에서 들을 수 있는 비율을 확인할 수 있는데, 점의 개수가 총 76개이므로, 대상자는 전체 가청영역 중 76%를 들을 수 있음을 알 수 있게 된다. Also, according to FIG. 1, there are 100 points in the speech energy region, and 3 points corresponding to 250 Hz are shown. This means that the total point means 100%, and the three points belonging to 250 Hz have a significance level of 3%. In the 2K frequency band, 11 dots are displayed and it means that there is 11% importance, so it can be seen that the 2KHz band is a more important frequency band than the 250Hz band. In addition, by checking the point that exists in the lower part of the subject's audible threshold line (the part having a value greater than the audible threshold dB), it is possible to check the ratio that the target can hear among the entire audible area. The total number of points is 76 Therefore, it can be seen that the subject can hear 76% of the entire audible area.
이와 같은 기존 방식(Count-the Dot)은 간편하고 단순한 방식이라는 장점이 있으나, 실제 어음 에너지 분포를 고려하지 못한다는 점(일괄적으로 역동범위를 30dB로 지정)과, 주파수별 중요도를 점으로만 표시하는 점에 따라 정확한 데이터 산출이 어렵고, 오류가 발생될 수 있다는 문제점이 있었다. This existing method (Count-the Dot) has the advantage of being a simple and simple method, but it does not take into account the actual speech energy distribution (collectively, the dynamic range is specified as 30 dB) and the importance of frequency only. Accurate data calculation is difficult depending on the displayed point, and there is a problem that an error may occur.
한편, 이와 관련된 선행 기술로는 공개특허공보 10-2015-0129661(청력검사와 청각 평가 장치)호가 있다. On the other hand, prior art related to this is Patent Publication No. 10-2015-0129661 (hearing test and hearing evaluation device).
본 발명의 실시 예는 종래의 Count-the Dot 방식에 의해 어음명료지수를 산출할 시 발생될 수 있는 문제를 해결하기 위해 고안된 것으로, 주파수 대역별 대역가청값 적용 및 테스트 파일의 속성에 따른 주파수 중요도 적용을 수행하여 보다 정확한 어음명료지수를 산출하려는 목적이 있다. An embodiment of the present invention is designed to solve a problem that may occur when calculating a speech intelligibility index by the conventional count-the dot method, and the frequency importance according to the application of the band audible value for each frequency band and the properties of the test file The purpose is to calculate a more accurate speech intelligibility index by performing the application.
본 발명의 실시 예에 따른 주파수별 어음에너지 산출 기반의 청력 검사 방법은 테스트 파일에 대한 주파수별 어음역동범위를 산출하는 동작, 상기 산출된 어음역동범위를 기반으로 주파수별 대역가청함수를 따르는 대역가청값을 산출하는 동작,상기 대역 가청값을 산출한 동일 주파수에 대한 주파수 중요도를 산출하는 동작 및상기 대역가청값과 상기 주파수 중요도를 기반으로 어음명료지수를 산출하는 동작을 포함하되, 상기 테스트 파일에 대한 주파수별 어음역동범위를 산출하는 동작은 테스트용 파일에서 데이터 내의 묵음을 제거하는 동작, 상기 묵음이 제거된 데이터의 평균 실효값 레벨을 계산한 후, 각 녹음 파일들을 일정 dB SPL로 정규화하는 동작, 다수의 임계 대역에서 신호 포락선을 계산하는 동작, 상기 신호 포락선을 곡선화하는 동작, 곡선화된 신호 포락선을 부표본화하고 단위 변환하는 동작 및 누적 신호 포락선 분포 레벨을 데시벨 신호 포락선 히스토그램으로 변환하여 어음의 역동범위를 산출하는 동작을 포함할 수 있다. A hearing test method based on calculating speech energy for each frequency according to an embodiment of the present invention includes calculating a speech dynamic range for each frequency of a test file, and a band audible following a band audible function for each frequency based on the calculated speech dynamic range Calculating a value, calculating a frequency importance for the same frequency from which the band audible value is calculated, and calculating a speech intelligibility index based on the band audible value and the frequency importance, in the test file The operation of calculating the speech dynamic range for each frequency is to remove silence in the data from the test file, calculate the average effective value level of the data from which the silence has been removed, and then normalize each recording file to a certain dB SPL. , Calculating signal envelopes in a plurality of critical bands, curveting the signal envelopes, songs It may include sub-sampling the linearized signal envelope and performing unit conversion, and calculating the dynamic range of speech by converting the cumulative signal envelope distribution level into a decibel signal envelope histogram.
본 발명의 다양한 실시 예는 주파수별 어음에너지를 기반으로 검사 결과를 산출하므로, 청력 검사 대상자의 어음 인지 능력을 보다 정확하게 측정하는 효과가 있다. Since various embodiments of the present invention calculate test results based on speech energy for each frequency, there is an effect of more accurately measuring speech recognition ability of a hearing test subject.
도 1은 종래의 어음명료지수를 산출 방법에 대하여 도시하는 도면이다.
도 2는 본 발명의 어음명료지수 및 어음명료지수를 산출하기 위해 필요한 구성 요소들을 설명하기 위해 도시된 도면이다.
도 3은 본 발명의 실시 예에 따른 어음명료지수와 어음인지도의 상관관계를 나타내는 전달함수에 대하여 도시하는 도면이다.
도 4a 및 도 4b는 본 발명의 실시 에에 따른 어음종류에 따른 한국어의 어음역동범위에 대한 그래프를 도시하는 도면이다.
도 5a 및 도 5b는 본 발명의 실시 예에 따라 산출된 주파수별 역동범위에 대하여 도시한 도면이다.
도 6a 및 도 6b는 본 발명의 실시 에에 따른 한국어 기반 주파수 중요도를 적용한 어음명료지수 산출 방식에 대하여 도시한 도면이다.
도 7a 내지 도 7c는 본 발명의 실시 예에 따른 한국어 기반의 주파수 중요도 적용 결과를 도시한 도면이다.
도 8은 본 발명의 실시 예에 따른 청력 검사 장치의 구조를 도시한 블록도이다.
도 9는 본 발명의 실시예에 따른 어음역동범위 산출부의 구성에 대하여 도시한 블록도이다.
도 10은 본 발명의 실시 에에 따른 청력 검사 장치에서의 청력 검사 데이터를 산출하는 과정에 대하여 도시한 순서도이다.
도 11은 도 10의 101동작 이전 단계에서 수행될 수 있는 주파수별 어음에너지 산출에 대하여 도시한 순서도이다. 1 is a view showing a conventional method for calculating the speech intelligibility index.
FIG. 2 is a diagram illustrating components necessary for calculating a speech intelligibility index and a speech intelligibility index of the present invention.
3 is a diagram illustrating a transfer function showing a correlation between a speech intelligibility index and speech intelligibility according to an embodiment of the present invention.
4A and 4B are diagrams illustrating graphs of speech dynamic ranges in Korean according to speech types according to an embodiment of the present invention.
5A and 5B are diagrams illustrating a dynamic range for each frequency calculated according to an embodiment of the present invention.
6A and 6B are diagrams illustrating a method of calculating a speech intelligibility index to which Korean-based frequency importance is applied according to an embodiment of the present invention.
7A to 7C are diagrams illustrating a result of applying Korean-based frequency importance according to an embodiment of the present invention.
8 is a block diagram showing the structure of a hearing test apparatus according to an embodiment of the present invention.
9 is a block diagram showing the configuration of a speech dynamic range calculating unit according to an embodiment of the present invention.
10 is a flowchart illustrating a process of calculating hearing test data in the hearing test device according to an embodiment of the present invention.
FIG. 11 is a flow chart illustrating calculation of speech energy for each frequency that may be performed in a step before
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.The present invention can be applied to various changes and can have various embodiments, and specific embodiments will be illustrated in the drawings and described in detail.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. However, this is not intended to limit the present invention to specific embodiments, and should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention. In describing each drawing, similar reference numerals are used for similar components.
어떤 구성요소가 다른 구성요소에 '연결되어' 있다거나 '접속되어'있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 '직접 연결되어'있다거나 '직접 접속되어'있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.When an element is said to be 'connected' or 'connected' to another component, it is understood that other components may be directly connected to or connected to the other component, but other components may exist in the middle. It should be. On the other hand, when a component is said to be 'directly connected' or 'directly connected' to another component, it should be understood that no other component exists in the middle.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, '포함하다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in the present application are only used to describe specific embodiments, and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In this application, terms such as 'include' or 'have' are intended to designate the existence of features, numbers, steps, operations, components, parts or combinations thereof described in the specification, and one or more other features. It should be understood that the existence or addition possibilities of fields or numbers, steps, operations, components, parts or combinations thereof are not excluded in advance.
이하, 본 발명의 구체적인 실시 예를 보다 상세하게 설명하기 위해 도면을 참조하여 어음명료지수의 산출 방식의 기본 개념에 대하여 설명하기로 한다. Hereinafter, a basic concept of a method of calculating a speech intelligibility index will be described with reference to the drawings in order to describe a specific embodiment of the present invention in more detail.
먼저, 도 2는 본 발명의 어음명료지수 및 어음명료지수를 산출하기 위해 필요한 구성 요소들을 설명하기 위해 도시된 도면이다. First, FIG. 2 is a diagram illustrating components necessary for calculating a speech intelligibility index and a speech intelligibility index of the present invention.
도 2의 그래프 하단을 먼저 살펴보면 BAF()의 값이 500Hz와 1000Hz에서 1.0이고 2000Hz에서는 0.5이며, 4000Hz 및 5000Hz에서는 0으로 표시되고 있고, BIF()값이 BAF가 산출된 주파수 대역마다 표시되고 있다. 그리고 주파수 대역별로 BAF와 BIF를 곱한 값들과, 상기 주파수 대역별로 BAF와 BIF를 곱한 값들을 더한 값이 더불어 표시되고 있다. 이 때 주파수 대역별로 BAF와 BIF를 곱한 값들을 전체 더한 값이 SII(어음명료지수, Speech Intelligibility Index)이다. 즉, 어음명료지수는 하기 수학식 1과 같이 산출될 수 있다.Looking at the bottom of the graph of Figure 2 first BAF ( ) Is 1.0 at 500 Hz and 1000 Hz, 0.5 at 2000 Hz, and 0 at 4000 Hz and 5000 Hz, and BIF ( ) The value is displayed for each frequency band where BAF is calculated. In addition, BAF and BIF multiplied by frequency band and BAF and BIF multiplied by frequency band are added together. At this time, the total value obtained by multiplying BAF and BIF by frequency band is SII (Speech Intelligibility Index). That is, the speech intelligibility index can be calculated as in
[수학식 1][Equation 1]
상기 SII는 어음명료지수(0과 1사이의 범위로 나타낼 수 있음)이고, 상기 K 는 주파수대역(frequency band)의 전체 숫자를 의미하고, 상기 는 주파수대역 k 에서의 대역가청함수(band-audibility function, BAF)를 의미하며, 상기 는 주파수대역 k 에서의 주파수중요함수(band-importance function, BIF)를 의미한다. The SII is a speech intelligibility index (which can be expressed in a range between 0 and 1), and K is the total number of frequency bands, and the Denotes a band-audibility function (BAF) in the frequency band k, wherein Denotes a band-importance function (BIF) in the frequency band k.
본 발명의 실시 예에 따른 청력 검사 장치는 상기 수학식 1에서 도시된 바와 같이 어음명료지수를 산출할 수 있고, 이를 위해 어음명료지수 산출에 요구되는 주요 요소를 산출할 수 있다. The hearing test apparatus according to an embodiment of the present invention may calculate a speech intelligibility index as shown in
상기 어음명료지수를 구성하는 주요 요소는 '대역가청함수'와 '주파수중요함수'이다. 먼저, '대역가청함수'에 대하여 설명하면, 다음과 같다. The main elements constituting the speech intelligibility index are 'bandwidth audible function' and 'frequency important function'. First, the 'bandwidth audible function' will be described as follows.
도 2의 그래프 부분을 참조하면, 어음의 역동 범위(Dynamic range)가 20dB에서부터 50dB까지 30dB의 범위로 모든 주파수 대역에 대하여 동일하게 설정된 모습이 도시되고 있다. 그리고 청자의 가청 역치(Threshold)값이 점선으로 표시되고 있으며, 청자의 가청 역치는 500Hz와 1000Hz 사이에서는 10dB이고, 2000Hz에서는 어음의 역동 범위의 중간인 35dB까지 증가하였으며, 주파수가 증가할수록 가청 역치의 값도 계속 증가하여 4000Hz 이후에는 어음의 역동 범위를 벗어나는 것으로 도시되고 있다. BAF는 밴드가청함수(Band Audibility Function)를 의미하며, 밴드가청함수는 전체 어음역동범위에 대한 청자의 가청 어음에너지의 비율에 대한 값을 나타낼 수 있다. 구체적으로 설명하면, 청자는 가청역치값 이상의 dB 소리를 들을 수 있으므로, 2000Hz에서 청자의 가청역치의 값이 35dB라는 것은(전체 어음역동범위(20~50dB) 중 중간값에 해당) 50%정도를 들을 수 있다는 것을 의미하며, 4000Hz이상에서는 청자의 가청역치가 역동 범위를 벗어나있으므로 들을 수 있는 소리가 없다는 것을 의미한다. 한편, 500Hz와 1000Hz사이에서 청자의 가청 역치는 10dB로 표시되고 있으며 이는 어음의 전체 역동범위(어음 에너지의 최대 레벨에서 최소레벨까지 모두)의 어음 에너지 값이 가청역치보다 큰 dB값을 가지므로, 사용자는 해당 주파수대역에서 모든 소리를 들을 수 있음을 의미한다. Referring to the graph portion of FIG. 2, a dynamic range of speech is set in the range of 20dB to 50dB in a range of 30dB, and the same configuration is shown for all frequency bands. In addition, the audible threshold value of the listener is indicated by a dotted line, the audible threshold of the listener is 10 dB between 500 Hz and 1000 Hz, and increased to 35 dB, which is the middle of the dynamic range of speech at 2000 Hz, as the frequency increases. Values continue to increase and are shown to fall outside the dynamic range of speech after 4000 Hz. BAF stands for Band Audibility Function, and the band audibility function can represent a value for the ratio of audible speech energy of the listener to the entire speech dynamic range. Specifically, since the listener can hear a dB sound above the audible threshold value, a listener's audible threshold value of 35 dB at 2000 Hz (corresponding to the middle of the entire speech dynamic range (20 to 50 dB)) is about 50%. It means that you can hear, and above 4000Hz, the listener's audible threshold is outside the dynamic range, meaning there is no audible sound. On the other hand, between 500Hz and 1000Hz, the audible threshold of the listener is displayed as 10dB, because the speech energy value of the entire dynamic range of speech (from the maximum level to the minimum level of speech energy) has a dB value greater than the audible threshold. This means that the user can hear all sounds in the corresponding frequency band.
이와 같이 어음의 역동 범위(DR;Dynamic range)에서 청자(청력 검사 대상자)가 들을 수 있는 어음에너지의 비율을 대역가청함수라고 하고, 대역가청역치는 본 발명의 실시 예에 따른 청력 검사 장치에 의해 하기 수학식 2를 따라 산출될 수 있다. The ratio of speech energy that can be heard by a listener (hearing test subject) in a dynamic range of speech (DR) is referred to as a band audible function, and the band audible threshold is measured by a hearing test apparatus according to an embodiment of the present invention. It can be calculated according to Equation 2 below.
[수학식 2][Equation 2]
이 때, 상기 는 주파수대역 i 에서의 신호대잡음비(signal-to-noise ratio, SNR)를 데시벨(dB) 단위로 표현한 값을 의미하고, 상기 K 는 어음강도의 최대값에서 어음의 실효치 레벨(speech root-mean-square level)을 뺀 값을 의미하며, 상기 D 는 어음의 역동범위를 의미할 수 있다. At this time, remind Denotes a signal-to-noise ratio (SNR) expressed in frequency band i in decibels (dB), and K is a speech root-mean- at the maximum value of speech intensity. square level), and D may mean a dynamic range of speech.
종래의 영어버전 대역가청함수의 경우, 어음의 실효치 레벨을 기준으로 ㅁ15 dB로 표준화하여 사용되고 있으며, 이 범위는 다양한 SNR 상황에서 측정된 어음의 인지도와 표준화된 어음의 역동범위를 기반으로 채택되었다. 즉, 영어의 경우, 어음의 역동범위는 전 주파수에 걸쳐 30 dB이며, 대역 가청역치의 값은 0과 1사이에서 결정된다. 0은 청자의 청력역치가 어음의 역동범위를 벗어나 어떠한 어음도 들을 수 없음을 의미하고, 1은 청자의 청력역치가 모든 주파수대역에서 어음의 역치보다 충분히 좋아 모든 어음을 다 들을 수 있음을 의미할 수 있다. In the case of the conventional English version of the band audible function, it is standardized to ㅁ 15 dB based on the effective level of speech, and this range was adopted based on the recognition of speech measured in various SNR situations and the dynamic range of standardized speech. . That is, in the case of English, the dynamic range of speech is 30 dB over all frequencies, and the value of the band audible threshold is determined between 0 and 1. 0 means that the listener's hearing threshold is outside the dynamic range of speech and no speech can be heard, and 1 means that the listener's hearing threshold is better than the speech threshold in all frequency bands, so that all speech can be heard. Can be.
어음명료지수를 구성하는 두 번째 요소는 주파수중요함수(BIF)이며 본 발명의 실시 예에 따른 청력 검사 장치는 테스트용 녹음 파일에 대한 주파수 중요함수를 선택 또는 산출할 수 있다. 상기 주파수중요함수는 어음인지도에 대해서 다른 주파수대역과 비교할 때 중요한 정도를 비율로 나타낸 지표를 말한다. 즉, 각 주파수대역의 중요도는 전체중요도를 1로 고정하고 상대적인 중요도로 계산되며, 각 주파수 대역에서의 중요도를 모두 더하면 그 합은 1이 된다. 예컨대, 영어문장표를 기준으로 산출한 주파수중요함수의 경우, 1,370 Hz(CF;중심주파수)대역이 0.1099, 150 Hz(중심주파수)대역은 0.0315, 2,900Hz(중심주파수)대역은 0.0646로 산출될 수 있다. 이와 같이 주파수중요도는 주파수대역마다 다른 값을 가질 수 있으며, 상기 예시에 따르면 어음인지에 가장 중요한 주파수 대역은 0.1099(10.99%)값을 갖는 1370Hz 대역임을 알 수 있다. 그리고 각 주파수대역의 중요도를 모두 더하면 그 합은 1(100%)이 될 수 있다. The second component constituting the speech intelligibility index is a frequency critical function (BIF), and the hearing test apparatus according to an embodiment of the present invention may select or calculate a frequency important function for a test recording file. The frequency critical function refers to an index indicating the degree of importance of speech recognition in comparison with other frequency bands. That is, the importance of each frequency band is calculated as a relative importance by fixing the total importance to 1, and adding up the importance in each frequency band results in a sum of 1. For example, in the case of the frequency important function calculated based on the English sentence list, the 1,370 Hz (CF; center frequency) band is 0.1099, the 150 Hz (center frequency) band is 0.0315, and the 2,900 Hz (center frequency) band is calculated as 0.0646. Can be. As described above, the frequency importance may have different values for each frequency band, and according to the above example, it can be seen that the most important frequency band for speech recognition is a 1370 Hz band having a value of 0.1099 (10.99%). And if you add up the importance of each frequency band, the sum can be 1 (100%).
본 발명의 실시 예에 따른 청력 검사 장치는 여러 단계의 절차와 반복적인 접근법을 사용하여 주파수중요도를 얻을 수 있다. 첫 번째 단계는 SNR을 이용한 다양한 소음의 조건과 여러 주파수대역을 필터링(filtering)을 이용해서 나눈 다음, 다양한 조건 속에서 어음인지도를 측정하는 것이다. 본 발명의 실시 예에 따르면 단음절어표를 이용하여 SNR은 -10 dB에서 +8 dB까지 2 dB간격으로 총 10개, 필터링은 총 13개의 주파수 대역에서 어음인지도를 측정하여 주파수중요함수를 구할 수 있다. The hearing test apparatus according to an embodiment of the present invention may obtain frequency importance using a multi-step procedure and an iterative approach. The first step is to divide the various noise conditions and various frequency bands using SNR using filtering, and then measure speech perception in various conditions. According to an embodiment of the present invention, by using a monosyllabic table, SNR is 10 in total at 2 dB intervals from -10 dB to +8 dB, and filtering can measure the speech perception in a total of 13 frequency bands to obtain the frequency critical function. .
두 번째 단계에서 상기 청력 검사 장치는 각 조건에서의 평균 어음인지도와 어음명료지수 값의 대략적인 상관관계를 구할 수 있다. 일반적으로 어음인지도는 백분율(0에서 100%)에서 지수(0에서 1사이)로 바꾸어 표시될 수 있다. 이때 그래프를 통해서 두 지표의 대략적인 관계가 형성되는데 그래프를 부드럽게 표현하기 위해서 다음의 네 가지 법칙을 따를 수 있다. (1) 하나의 SNR 그래프는 다른 SNR 그래프와 겹치지 않도록 한다. (2) 같은 SNR 조건에서 저주파수통과필터(low-pass filter)와 고주파수통과필터(high-pass filter) 사이에는 한 개의 교차점만 있도록 한다. (3) SNR이 증가하면 어음인지도는 증가하도록 한다. (4) 같은 SNR 조건에서 두 그래프는(low-pass & high-pass filters) 최대한 비슷한 점수로 끝나도록 한다. In the second step, the hearing test apparatus may obtain a rough correlation between the average speech recognition and speech intelligibility index values under each condition. In general, maps of speech can be displayed by changing from percentage (0 to 100%) to exponent (between 0 and 1). At this time, the rough relationship between the two indicators is formed through the graph. To express the graph smoothly, the following four laws can be followed. (1) One SNR graph should not overlap another SNR graph. (2) In the same SNR condition, there is only one intersection between a low-pass filter and a high-pass filter. (3) As SNR increases, speech recognition increases. (4) Under the same SNR condition, the two graphs (low-pass & high-pass filters) should end up with a similar score as much as possible.
전달함수에 대한 그래프는 부드러운 곡선 형태로 산출되기 위하여 그래프산출법(예, cubic spline curve fitting법)에 의한 처리과정이 수반될 수 있다. The graph for the transfer function may be accompanied by a process by graphing (eg, cubic spline curve fitting method) in order to be calculated in the form of a smooth curve.
세 번째 단계는 두 번째 단계에서 부드럽게 산출한 그래프들을 기준으로 어음인지도와 상응하는 어음명료지수를 구하는 것이다. 예를 들면, 가장 높은 SNR에서 산출한 두 곡선(low-pass & high-pass filters)의 교차점은 어음인지에 가장 유리한 조건의 어음인지도를 100점으로 보았을 때, 전체 어음인지도의 50%에 해당하는 지점으로 볼 수 있으므로 0.5 SII에 상응하는 값으로 간주될 수 있다. 본 발명의 실시 예에 따른 장치는 이와 같은 방법으로 수십개의 상응점을 찾아내고 이를 하나의 그래프로 표현할 수 있다. 그리고 해당 그래프의 사이값들을 가장 잘 추정할 수 있는 수학공식을 산출하는데 다음의 수학식 3이 사용될 수 있다. The third step is to find the speech recognition index and the corresponding speech intelligibility index based on the graphs calculated in the second step. For example, the intersection of the two curves (low-pass & high-pass filters) calculated from the highest SNR is 50% of the total speech map when the map is 100 with the most favorable condition for speech recognition. Since it can be seen as a point, it can be regarded as a value corresponding to 0.5 SII. The apparatus according to the embodiment of the present invention can find dozens of corresponding points in this way and express them in a graph. In addition, the following Equation 3 may be used to calculate a mathematical formula that can best estimate the inter-values of the corresponding graph.
[수학식 3][Equation 3]
상기 수학식 3에서 S 는 어음인지도, P 는 화자와 청자의 발화와 듣기능력의 숙련도(일반적으로 1로 고정), A 는 어음명료지수 값을 나타내고, Q 와 N 은 곡선을 잘 나타내기 위한 상수값(fitting constant)을 의미한다. In Equation 3, S is speech, P is the proficiency of the speaker and listener's speech and listening skills (usually fixed to 1), A is the speech intelligibility index value, and Q and N are constants for representing the curve well. It means the fitting constant.
네 번째 단계는 수학식 3에서 역수방정식(inverse equation)을 이용하여, 어음명료지수 값(A)을 어음인지도(S)와 바꿔서 같은 식이 성립하도록 한 다음, 첫번째 단계에서 구한 모든 평균어음인지도를 수학식3의 역수방정식을 통해 상응하는 어음명료지수 값을 구하는 것이다. 그러면 모든 평균어음인지도는 그에 상응하는 어음명료지수 값으로 바뀌게 되고 이는 각 주파수대역에 해당하는 값이라기 보단 이전 주파수대역에서의 어음명료지수 값을 포함하는 누적분포로 나타난다. 이를 각 주파수대역별 어음명료지수 값으로 변화하기 위해서 가장 높은 주파수대역의 값에서 한 단계 아래의 주파수대역의 값을 차감한다. 이와 같은 방법으로 각 주파수대역별 어음명료지수 값을 구할 수 있다. The fourth step is to use the inverse equation in Equation 3 to replace the speech intelligibility index value (A) with the speech intelligibility map (S) so that the same equation holds, and then calculate all the average speech maps obtained in the first step. The inverse equation of equation 3 is used to find the corresponding speech intelligibility index. Then, all the average speech recognition maps are replaced with the corresponding speech intelligibility index values, which appear as cumulative distributions that include the speech intelligibility index values in the previous frequency band rather than the values corresponding to each frequency band. In order to change this to the speech intelligibility index value for each frequency band, the value of the frequency band one level below is subtracted from the highest frequency band value. In this way, the speech intelligibility index value for each frequency band can be obtained.
다섯 번째 단계는 같은 SNR에서 동일한 주파수대역별로 저주파수통과필터와 고주파수통과필터의 값을 평균하는 것이다. 단, 한쪽의 값이 0이거나 0보다 작을 경우, 이는 양수인 다른 쪽의 값만 사용하여 구할 수 있다. 그 다음, 같은 주파수대역에 존재하는 모든 SNR 조건에서의 값들의 평균을 구할 수 있다. 그러면 각 주파수대역마다 하나의 통합된 평균값을 가지게 되고 이를 누적분포로 만들어 가장 넓은 주파수범위의 값이 1이 아니라면 이를 1로 고정하고, 나머지 값들을 비율공식을 이용하여 상대적인 비율로 나타낼 수 있다. 그리고 최대값이 1로 바뀌어진 누적분포값을 각 주파수별 값으로 바꾸면 최종 주파수대역별 주파수중요도를 얻을 수 있다. The fifth step is to average the values of the low-pass filter and the high-pass filter for the same frequency band in the same SNR. However, if one value is 0 or less than 0, it can be obtained by using only the other value that is positive. Then, it is possible to average the values in all SNR conditions in the same frequency band. Then, there is one integrated average value for each frequency band, and this is a cumulative distribution. If the value of the widest frequency range is not 1, it can be fixed to 1, and the remaining values can be expressed as a relative ratio using a ratio formula. In addition, if the cumulative distribution value whose maximum value is changed to 1 is replaced with each frequency value, the frequency importance for each final frequency band can be obtained.
도 3은 본 발명의 실시 예에 따른 어음명료지수와 어음인지도의 상관관계를 나타내는 전달함수에 대하여 도시하는 도면이다.3 is a diagram illustrating a transfer function showing a correlation between a speech intelligibility index and speech intelligibility according to an embodiment of the present invention.
본 발명의 실시 예에 따른 청력 검사 장치는 상기 도시되는 도 3의 전달함수에 따라 산출된 어음명료지수를 어음인지도로 환산할 수 있다. The hearing test apparatus according to the embodiment of the present invention may convert the speech intelligibility index calculated according to the transfer function of FIG. 3 shown above into speech recognition.
도 3은 임의의 값으로 제작된 전달함수 그래프를 도시하고 있다. 그래프에서 X축은 어음명료지수(SII) 값이고, Y축은 어음인지도 값을 의미한다. 상기 전달함수 그래프는 어음명료지수와 어음인지도의 상관관계를 나타내고 있다. 그리고 상기 전달함수는 (주파수 중요함수 및 대역가청함수에 기반하여 산출된)어음명료지수를 통해 어음인지도의 대략적인 값을 산출하는 데 사용될 수 있다. 3 shows a graph of a transfer function produced with an arbitrary value. In the graph, the X axis is the speech intelligibility index (SII) value, and the Y axis is the speech map value. The transfer function graph shows the correlation between speech intelligibility index and speech recognition. In addition, the transfer function may be used to calculate an approximate value of speech recognition through a speech intelligibility index (calculated based on a frequency important function and a band audible function).
예컨대 청자의 청력역치와 주파수중요함수 및 대역가청함수를 통하여 얻은 어음명료지수가 보청기를 착용하기 전에 0.2 SII 였다면, 상기 도 3의 전달함수를 적용할 경우, 약 25%의 어음인지도가 예상됨을 알 수 있다. 그리고 보청기 착용 후에 다시 측정한 어음명료지수 점수가 0.5 SII였다면, 어음인지도는 약 85%로 산출될 것임을 알 수 있다. 이에 따라 보청기 착용 전후의 어음인지도의 변화는 25%에서 85%로 약 60%임을 알 수 있다. 이와 같은 어음인지도 산출 방식은 실제 어음인지도 측정에 어려움이 있는 아동이나 노인에게 적용되어 보청기의 착용 효과를 예측하기 위해 사용될 수 있다. For example, if the speech intelligibility index obtained through the listener's hearing threshold, frequency critical function, and band audible function was 0.2 SII before wearing the hearing aid, it was found that when applying the transfer function of FIG. 3, speech recognition of about 25% was expected. Can be. Also, if the speech intelligibility index score re-measured after wearing the hearing aid was 0.5 SII, it can be seen that speech recognition would be calculated to be about 85%. Accordingly, it can be seen that the change in speech perception before and after wearing the hearing aid is about 60%, from 25% to 85%. Such a speech recognition calculation method can be used to predict the effect of wearing a hearing aid by applying it to a child or an elderly person having difficulty in measuring actual speech recognition.
종래에, 어음명료지수를 비롯한 청력검사에 요구되는 다양한 데이터에 있어서, 주로 영어의 특성에 맞는 주파수 중요도를 적용해왔다. 그러나 주파수 대역에 따른 주파수 중요도는 사용언어, 성별, 어음의 종류(단음절, 문장, 담화)에 따른 차이가 있음이 밝혀졌다. 즉, 한국어 문장과 영어 문장을 듣고 인식하는 데 있어 중요하게 여겨지는 주파수 대역은 다를 수 있다. 그러나 종래 적용되고 있는 방식은 이러한 사용 언어에 대한 차이를 배제한 채, 한국어를 사용하여 테스트를 수행하는 경우에도 영어 어음을 토대로 산출된 주파수중요도를 적용하는 등의 문제가 있었다. 이에 따라 본 발명의 다양한 실시 예는 한국어 특성에 기반한 주파수중요도를 산출하고 이를 적용하여 청력 검사 데이터를 산출할 수 있게 한다. Conventionally, frequency importance, which is mainly suited to the characteristics of English, has been applied to various data required for hearing test including speech intelligibility index. However, it was found that the importance of frequency according to the frequency band differs according to the language, gender, and type of speech (single syllable, sentence, discourse). That is, the frequency bands considered important in listening and recognizing Korean and English sentences may be different. However, the method that has been applied in the related art has problems such as applying the frequency importance calculated based on the English speech even when the test is performed using Korean without excluding differences in the languages used. Accordingly, various embodiments of the present invention can calculate the frequency importance based on Korean characteristics and apply it to calculate hearing test data.
이하에서는, 본 발명의 실시 예에 따른 한국어 특성에 따른 청각 검사 데이터를 산출하기 위한 과정에 대하여 설명하기로 한다. Hereinafter, a process for calculating auditory test data according to Korean characteristics according to an embodiment of the present invention will be described.
도 4a 및 도 4b는 본 발명의 실시 에에 따른 어음종류에 따른 한국어의 어음역동범위에 대한 그래프를 도시하는 도면이다. 4A and 4B are diagrams illustrating graphs of speech dynamic ranges in Korean according to speech types according to an embodiment of the present invention.
그리고 상기 도 4a는 남성의 어음역동범위를 도시하고 있고, 도 4b는 여성의 어음역동범위에 대한 그래프를 도시하고 있다. In addition, FIG. 4A shows a speech dynamic range of a male, and FIG. 4B shows a graph of the speech dynamic range of a female.
구체적으로, 어음종류에 따른 한국어의 어음역동범위는 다음과 같이 측정될 수 있다. 단음절의 어음역동범위는 남성의 경우 7.79 dB (CF: 150Hz)에서 27.71 dB (CF: 1,170 Hz), 여성의 경우 10.61 dB (CF:150 Hz)에서 29.73 dB (CF: 1,370 Hz)의 범위를 보였다. 문장의 어음역동범위는 남성의 경우 8.96 dB (CF:150 Hz)에서 23.83 dB (CF: 7,000 Hz), 여성의 경우 11.06 dB (CF: 150 Hz)에서 23.19 dB (CF: 5,800 Hz)의 범위를 보였으며 담화의 어음역동범위는 남성이 8.64 dB (CF: 150 Hz)에서 24.66dB (CF: 7,000 Hz), 여성이 11.61 dB (CF: 250 Hz)에서 23.52dB (CF: 8,500 Hz)였다.Specifically, the speech dynamic range of Korean according to the type of speech may be measured as follows. The syllable dynamic range of single syllables ranged from 7.79 dB (CF: 150 Hz) to 27.71 dB (CF: 1,170 Hz) for men and 29.73 dB (CF: 1,370 Hz) to 10.61 dB (CF: 150 Hz) for women. . The speech dynamic range of sentences ranges from 8.96 dB (CF: 150 Hz) to 23.83 dB (CF: 7,000 Hz) for men and 11.06 dB (CF: 150 Hz) to 23.19 dB (CF: 5,800 Hz) for women. The speech dynamic range of the speech was 8.64 dB (CF: 150 Hz) for males and 24.66 dB (CF: 7,000 Hz) for males, and 23.52 dB (CF: 8,500 Hz) for females at 11.61 dB (CF: 250 Hz).
단음절의 어음역동범위가 남녀 모두 중주파수 대역에서 문장, 담화의 역동범위보다 유의미하게 넓게 분석되었고, 남성의 경우 중심주파수가 350~2900Hz일 때 단음절어의 역동범위가 문장, 담화의 역동범위보다 유의미하게 넓었다. The syllable dynamic range of single syllables was analyzed to be significantly wider than the dynamic range of sentences and discourses in the middle frequency band for both men and women. For men, when the central frequency was 350 ~ 2900Hz, the dynamic range of single syllables was significantly greater than the dynamic range of sentences and discourses. It was wide.
이러한 주파수 대역에서 단음절과 문장 간의 어음역동범위 차이는 1.36 dB (CF:350 Hz)에서 7.16 dB (CF: 1,370 Hz) 사이였으며, 단음절과 담화간의 어음역동범위 차이는 2.4 dB (CF: 350 Hz)에서 6.95 dB(CF: 1,170 Hz) 사이였다. 여성의 경우에는 중심주파수가 450~3,400 Hz일 때 단음절어의 역동범위가 문장, 담화의 역동범위보다 유의미하게 넓었다(p < 0.05). 이러한 주파수 대역에서 단음절과 문장 간의 어음역동범위 차이는 2.23 dB (CF: 570Hz)에서 7.6 dB (CF: 1,370 Hz) 사이였으며, 단음절과 담화 간의 어음역동범위 차이는 2.32 dB (CF: 3,400 Hz)에서 7.43 dB(CF: 1,370 Hz) 사이였다. 도 4a 및 도 4b에서 볼 수 있듯이, 문장과 담화의 역동범위는 차이가 크지 않았다. 남성의 경우, 중심주파수가 350과 450 Hz일 때를 제외한 나머지 주파수대역에서는 유의미한 차이가 나타나지 않았으며, 여성의 경우 중심주파수가 1,600과 1,850 Hz일 때를 제외하고 유의미한 차이가 나타나지 않았다.In this frequency band, the difference in speech dynamic range between single syllables and sentences was between 1.36 dB (CF: 350 Hz) and 7.16 dB (CF: 1,370 Hz), and the difference in speech dynamic range between single syllables and discourse was 2.4 dB (CF: 350 Hz). At 6.95 dB (CF: 1,170 Hz). In the case of women, when the center frequency was 450 ~ 3,400 Hz, the dynamic range of monosyllables was significantly wider than that of sentences and discourse ( p <0.05). In this frequency band, the difference in speech dynamic range between monosyllables and sentences was between 2.23 dB (CF: 570 Hz) and 7.6 dB (CF: 1,370 Hz), and the difference in speech dynamic range between monosyllables and discourse was 2.32 dB (CF: 3,400 Hz). It was between 7.43 dB (CF: 1,370 Hz). 4A and 4B, the dynamic range of the sentence and the discourse was not significantly different. In the case of men, there was no significant difference in the rest of the frequency bands except for the center frequencies of 350 and 450 Hz, and in the case of women, there was no significant difference except when the center frequencies were 1,600 and 1,850 Hz.
도 5a 및 도 5b는 본 발명의 실시 예에 따라 산출된 주파수별 역동범위에 대하여 도시한 도면이다. 5A and 5B are diagrams illustrating a dynamic range for each frequency calculated according to an embodiment of the present invention.
도 5a는 남성의 어음역동범위(어음에너지의 최대 레벨과 최소레벨의 사이 값)를 도시하고 있으며, 도 5b는 여성의 어음역동범위에 대하여 도시하고 있다. 그래프에서 실선은 단음절에 대한 어음에너지의 최대 및 최소값을 도시하고 있으며, 굵은 점선은 문장, 가는 점선은 담화에 대한 어음에너지의 최대, 최소값을 도시하고 있다. FIG. 5A shows the speech dynamic range of men (the value between the maximum and minimum levels of speech energy), and FIG. 5B shows the speech dynamic range of women. In the graph, the solid line shows the maximum and minimum values of speech energy for single syllables, the bold dotted line shows the maximum and minimum values of speech energy for the discourse.
도 5a 및 도 5b에서는 각 어음 종류별 최대 레벨과 최소 레벨을 통하여 어음역동범위(L99 - L30) 분포를 제시하고 있다. 상기 도 5a 및 도5b에서 볼 수 있듯이 남녀 모두에서 대부분 단음절이 문장, 담화보다 더 큰 최대 레벨(L99)과 더 작은 최소 레벨(L30)의 분포를 가지는 것을 볼 수 있다. 5A and 5B show the distribution of speech dynamic ranges L99-L30 through the maximum and minimum levels of each speech type. As can be seen in FIGS. 5A and 5B, it can be seen that, in both men and women, monosyllables have a distribution of a larger maximum level (L99) and a smaller minimum level (L30) than sentences and discourses.
연구에 따르면, 어음은 종류에 따라, 단음절의 경우에는 약 8~30dB 정도의 어음역동범위를 보이며, 문장의 경우에는 약 9~23dB, 담화의 경우에는 9~25dB정도의 어음역동범위를 보였다. 즉, 어음에 따른 어음역동범위의 비교에서는 단음절의 어음역동범위가 문장 또는 담화의 음역동범위보다 중주파수 영역에서 넓은 것으로 나타났다. 반면, 문장과 담화의 어음역동범위는 대부분의 주파수 대역에서 유의미한 차이는 발견되지 않았다. According to the study, the speech showed a speech dynamic range of about 8 to 30 dB in the case of single syllables, a speech dynamic range of about 9 to 23 dB in the case of sentences, and 9 to 25 dB in the case of speech. That is, in the comparison of the speech dynamic range according to the speech, the speech dynamic range of a single syllable was found to be wider in the middle frequency range than the speech dynamic range of a sentence or discourse. On the other hand, no significant difference was found in the speech dynamic range of sentences and discourse in most frequency bands.
그리고 한국어의 어음역동범위는 성별에 따라 주파수별로 유의미한 차이가 발견되었는데, 여성의 경우 주파수에 따라 약 10~30dB정도의 어음역동범위가 산출되었고, 남성의 경우에는 약 7~27dB정도의 어음역동범위가 산출되었다. 즉, 남성에 비해 대부분의 주파수 영역에서 여성의 어음역동범위가 넓은 것으로 나타났다. Also, in the Korean speech dynamic range, significant differences were found for each frequency according to gender. For women, speech dynamic range of about 10 ~ 30dB was calculated according to frequency, and for male, speech dynamic range of about 7 ~ 27dB Was calculated. That is, it was found that the speech dynamic range of women was wider in most frequency domains than men.
이에 따라 본원 발명의 실시 예에 따른 청력 검사 방법에서는 상기와 같은 성별 및 자극음의 종류에 따른 어음역동범위의 차이를 고려한 데이터값(예, 주파수 중요도)를 적용하여 결과를 산출할 수 있다. Accordingly, in the hearing test method according to an embodiment of the present invention, a result may be calculated by applying a data value (eg, frequency importance) in consideration of the difference in speech dynamic range according to the type of gender and stimulation sound as described above.
구체적으로는, 본 발명의 실시 예에 따른 청력검사 장치는 상기 제시된 어음 종류별 어음역동범위의 차이 및 성별에 따른 어음역동범위 차이를 반영할 수 있다. 예컨대, 본 발명의 실시 예에 따른 청력검사 장치는 테스트 녹음 파일의 목소리의 성별, 어음의 종류(단음절, 문장, 담화 중 어느것에 해당하는지)에 따라 해당 속성에 대응하는 주파수별 어음역동범위를 적용할 수 있다. Specifically, the hearing test apparatus according to an embodiment of the present invention may reflect a difference in the speech dynamic range according to the type of speech and the speech dynamic range according to gender. For example, the hearing test apparatus according to an embodiment of the present invention applies a speech dynamic range for each frequency corresponding to a corresponding attribute according to the gender of the voice and the type of speech (which corresponds to a single syllable, a sentence, or a discourse) of a test recording file can do.
도 6a 및 도 6b는 본 발명의 실시 에에 따른 한국어 기반 주파수 중요도를 적용한 어음명료지수 산출 방식에 대하여 도시한 도면이다. 6A and 6B are diagrams illustrating a method of calculating a speech intelligibility index to which Korean-based frequency importance is applied according to an embodiment of the present invention.
주파수 중요도는 상기 도면에 도시된 바와 같이 21개 주파수 대역에 대한 각각의 중요도 값이 적용될 수 있으며, 전체 대역의 주파수중요도의 합은 100%가 된다. 이 때 말하는 상대의 성별(남성인지 또는 여성인지)에 따라 다른 값의 어음에너지 및 주파수 중요도가 사용될 수 있으며, 자극음(담화, 문장, 단음절)수준에 따라 다른 어음에너지 및 주파수중요도가 적용될 수 있다. As the frequency importance, each importance value for 21 frequency bands can be applied as shown in the figure, and the sum of frequency importance of the entire band is 100%. At this time, different values of speech energy and frequency importance may be used depending on the gender (male or female) of the person speaking, and different speech energy and frequency importance may be applied depending on the level of stimulus (talk, sentence, monosyllable). .
도 6b를 참조하면, 청자(청각 검사 대상자)의 청력역치를 각 주파수별로 표시하고 선으로 연결한 그래프가 어음에너지 그래프와 함께 도시되고 있다. 청자가 각 주파수 대역에서 들을 수 있는 가청영역을 최대/최소 레벨 사이값에 대한 비율(특정 주파수 대역에서의 어음에너지의 최대/최소 사이값 중 청자의 가청역치와 최대 어음에너지의 사이값의 비율)로 나타낸 것이 대역가청값(대역가청함수BAF를 따름)이다. 도 6b에서는 각 주파수 대역(21개의 대역)별로 청자의 대역가청값이 산출되어 표시된 모습이 도시되고 있다. 본 발명의 실시 예에 따른 청력 검사 장치는 주파수 대역별로 산출된 주파수 중요도(I)와 대역가청값(A)를 곱하여 주파수 대역별 SII를 계산할 수 있고, 전체 대역에 대하여 대역별 SII를 모두 더하면 total SII(어음명료지수)를 산출할 수 있게 된다.Referring to FIG. 6B, a graph in which a hearing threshold of a listener (audience test subject) is displayed for each frequency and connected by a line is shown together with a speech energy graph. The ratio between the maximum / minimum level of the audible range that a listener can hear in each frequency band (the ratio between the maximum / minimum speech energy of the listener in a specific frequency band) Is the band audible value (follows the band audible function BAF). In FIG. 6B, a band audible value of a listener is calculated and displayed for each frequency band (21 bands). The hearing test apparatus according to an embodiment of the present invention can calculate the SII for each frequency band by multiplying the frequency importance (I) calculated for each frequency band and the band audible value (A), and adding SII for each band to all bands total SII (Speech Clearance Index) will be calculated.
도 6b에 기재된 수치를 참고하면, 저주파수부터 1번이라고 가정할 때, 10번 주파수까지는 청력 역치가 어음에너지보다 작은 값을 가지므로 충분히 모든 신호를 들을 수 있다. 화살표가 표시되는 지점의 주파수대역부터 청력 역치가 어음에너지보다 큰 값을 갖기 시작하므로 청자는 차츰 소리를 듣지 못하게 됨을 알 수 있다. Referring to the numerical values shown in FIG. 6B, assuming that the frequency is 1 from the low frequency, the hearing threshold has a smaller value than the speech energy up to the
11번 주파수 대역의 경우, BAF(A)값은 0.9이고, BIF(I)값은 4.4로 도시되고 있다. 이는 청자가 해당 주파수 대역에서 전체 어음에너지의 90%를 들을 수 있고, 해당 주파수의 중요도가 4.4%(0.044)임을 의미하는 것이다. 그리고 주파수 대역별 SII는 상기 두 값을 곱한(0.9*0.044=0.0396) 결과인 3.96(%)로 산출될 수 있다. 그리고 산출된 각 주파수별 SII값들을 모두 더하면 토탈 SII값이 산출될 수 있는데 도 6b에서는 그 값이 0.6653으로 산출됨을 알 수 있다. 이는 제공된 테스트 자료에 대하여 약 66.53%정도 가청이 가능함을 의미할 수 있다. For frequency band 11, the BAF (A) value is 0.9 and the BIF (I) value is 4.4. This means that the listener can hear 90% of the total speech energy in the frequency band, and the importance of the frequency is 4.4% (0.044). In addition, SII for each frequency band may be calculated as 3.96 (%), which is a result of multiplying the two values (0.9 * 0.044 = 0.0396). In addition, if all the calculated SII values for each frequency are added, a total SII value can be calculated. In FIG. 6B, it can be seen that the value is calculated as 0.6653. This may mean that about 66.53% of the audible test data can be audible.
상기 도면에 도시된 바와 같이, 본 발명의 실시 예에 따른 청력 검사 장치는 주파수 대역별 산출된 주파수 중요도와 대역가청값을 곱하여 주파수 대역별 SII를 산출한 후, 각 주파수 대역별로 산출된 대역별 SII를 모두 더하여 최종 SII를 산출할 수 있다. As shown in the figure, the hearing test apparatus according to an embodiment of the present invention calculates SII for each frequency band by multiplying the frequency importance calculated for each frequency band and the band audible value, and then calculating the SII for each frequency band. Can be added to calculate the final SII.
도 7a 내지 도 7c는 본 발명의 실시 예에 따른 한국어 기반의 주파수 중요도 적용 결과를 도시한 도면이다. 7A to 7C are diagrams illustrating a result of applying Korean-based frequency importance according to an embodiment of the present invention.
도 7a는 우하향하는 선은 대상자의 가청역치를 의미하는 것이고, 전체 주파수 대역에 걸쳐있는 두 개의 선은 어음에너지의 최대/최소값을 도시하고 있다. 테스트 어음 데이터(한국어 및 영어)가 동일한 어음역동범위를 갖는다고 가정할 때, 한국어 및 영어는 주파수 대역별 주파수 중요도의 값에 따라 SII의 값의 차이가 두드러질 수 있다. 도 7b를 참조하면, BAF(대역가청함수)에 따른 대역가청값이 주파수 대역별로 동일한 상태에서, BIF(주파수중요도)가 영어와 한국어에 대하여 다르게 설정되어 있음을 볼 수 있다. 그리고 이에 따라 궁극적으로 도출되는 SII값은 영어의 경우 0.49이고, 한국어의 경우 0.59와 같다. FIG. 7A shows that the line facing downward indicates the subject's audible threshold, and the two lines across the entire frequency band show the maximum / minimum value of speech energy. Assuming that the test speech data (Korean and English) have the same speech dynamic range, the difference in the value of SII may be noticeable in Korean and English according to the frequency importance value for each frequency band. Referring to FIG. 7B, it can be seen that BIF (frequency importance) is set differently for English and Korean, with the band audible value according to the BAF (band audible function) being the same for each frequency band. Accordingly, the ultimately derived SII value is 0.49 for English and 0.59 for Korean.
도 7c를 참조하면, 영어 및 한국어에 대한 SII값의 차이를 보다 명확하게 짐작할 수 있다. 영어의 SII값(0.49)을 전달함수에 따라 어음인지도 값으로 환산하면 이는 85%로 산출될 수 있다. 그러나 한국어의 경우, SII값(0.59)를 전달함수에 따라 어음인지도 값으로 환산하면 이는 96%로 산출될 수 있다. 이와 같이 동일 어음역동범위를 갖는 어음에 대한 청각 테스트에 있어서, 테스트 대상 어음이 어떤 언어이냐에 따라 최종 어음명료지수 및 어음인지도 값의 차이가 발생됨을 알 수 있다. Referring to FIG. 7C, it is possible to more clearly guess the difference between SII values for English and Korean. When the English SII value (0.49) is converted into a speech recognition value according to the transfer function, this can be calculated as 85%. However, in the case of Korean, if the SII value (0.59) is converted into a speech recognition value according to the transfer function, this can be calculated as 96%. As described above, in the hearing test for speech having the same speech dynamic range, it can be seen that the difference between the final speech intelligibility index and speech recognition value occurs depending on which language the speech to be tested is in.
이와 같이 언어별로 주파수중요도가 다르게 산출되는 이유는 언어가 갖는 음절구조나 억양 등의 속성이 다르기 때문인데, 구체적인 내용은 다음과 같다.The reason why the frequency importance is calculated differently for each language is because the attributes of the syllable structure and intonation of the language are different, and the details are as follows.
한국어의 역동범위는 중심주파수를 기준으로 455Hz이하의 저주파수에서는 타 언어(영어, 광동어)에 비해 좁은 역동범위를 가지며, 455Hz에서 4050Hz에 이르는 중주파수 대역에서는 영어의 역동범위가 가장 좁으며, 4050Hz이상의 고주파수 대역에서는 한국어와 광동어의 역동범위는 유사했으나 영어의 역동범위는 상대적으로 타 언어들에 비해 넓은 역동범위를 갖는다. 즉, 영어의 역동범위는 한국어와 비교할 때 중주파수대역에서는 상대적으로 좁고 고주파수 대역에서는 넓고 한국어는 영어와 반대가 된다. The dynamic range of Korean has a narrow dynamic range compared to other languages (English, Cantonese) at low frequencies below 455Hz based on the center frequency, and the dynamic range of English is the narrowest in the medium frequency range from 455Hz to 4050Hz, and more than 4050Hz In the high frequency band, the dynamic range of Korean and Cantonese was similar, but the dynamic range of English has a relatively wide dynamic range compared to other languages. In other words, the dynamic range of English is relatively narrow in the middle frequency band and wide in the high frequency band compared to Korean and Korean is opposite to English.
또한 음절의 구조에서도 한국어는 타언어와 다른 차이가 있다. 예를 들어, 영어의 음절구조는 가장 짧은 경우에 /a/와 같이 하나의 모음으로 음절을 이룰 수 있으나,/strength/와 같은 음절 에서는 자음의 수가 모음에 비해 현저히 많은 음절구조를 보인다. 반면에 한국어는 /가/, /각/, /각도/와 같이 자음과 모음의 수가 영어에 비해 비슷하게 유지되는 구조를 가지고 있다. 이는 영어에 비해 상대적으로 모음의 사용이 많은 한국어가 저주파수의 에너지를 더 많이 사용할 가능성이 있으며, 이는 한국어가 영어에 비해 저주파수 영역이 어음인지도에 미치는 영향이 크다는 점을 암시할 수 있다. Also, in the structure of syllables, Korean is different from other languages. For example, the syllable structure of the English language can form syllables as one vowel, such as / a / in the shortest case, but in syllables such as / strength /, the number of consonants is significantly higher than that of vowels. On the other hand, Korean has a structure in which the number of consonants and vowels remains similar to that of English, such as / a /, / angle /, and angle /. This may suggest that Korean, which has a lot of vowel use relative to English, may use low-frequency energy more, and this may imply that Korean has a greater effect on the low-frequency region of speech than English.
이에 따라 본 발명의 실시 예에 따른 청력 검사 장치는 이러한 한국어의 특성에 따른 주파수 중요도를 적용하여 어음명료지수를 산출할 수 있다. 예컨대, 본 발명의 실시 예에 따른 청력 검사 장치는 테스트용 녹음 파일의 언어가 한국어인 것이 확인되면, 한국어 특성에 맞추어 산출된 주파수중요도를 적용하도록 제어할 수 있다. 예컨대, 테스트용 녹음 파일이 한국어이면, 본 발명에 따른 장치는 전체 주파수 대역(저주파수, 중주파수, 고주파수 3단계 대역으로 구분됨을 가정) 중 저주파수 대역에서 기본 설정된 주파주중요도(영어 기반으로 산출된 주파수중요도)에서 일정 값(제 1조정값)을 증가시킨 중요도를 적용시키고, 중주파수대역에서는 일정값(제 2조정값)을 증가시킨 중요도를 적용시키며, 고주파수대역에서는 일정값(제 3조정값)을 감소시킨 중요도를 적용시키도록 제어할 수 있다. 그리고 이 때 감소분과 증가분의 크기는 같도록 설정되어, 주파수 중요도 조정 이후에도 전체 주파수중요도의 합은 1(또는 100%)을 유지하도록 할 수 있다. Accordingly, the hearing test apparatus according to the embodiment of the present invention can calculate the speech intelligibility index by applying the frequency importance according to the characteristics of the Korean language. For example, when it is confirmed that the language of the test recording file is Korean, the hearing test apparatus according to an embodiment of the present invention may be controlled to apply the frequency importance calculated according to Korean characteristics. For example, if the recording file for the test is Korean, the device according to the present invention has the frequency set as the default frequency in the low frequency band (assuming it is divided into three levels of low frequency, medium frequency, and high frequency). The importance of increasing a certain value (the first adjustment value) in the importance level is applied, and the importance of increasing the constant value (the second adjustment value) is applied in the middle frequency band, and the constant value (the third adjustment value) is applied in the high frequency band. It can be controlled to apply the reduced importance. At this time, the size of the decrement and the increment is set to be the same, so that the sum of the total frequency importance remains 1 (or 100%) even after the frequency importance adjustment.
도 8은 본 발명의 실시 예에 따른 청력 검사 장치의 구조를 도시한 블록도이다. 8 is a block diagram showing the structure of a hearing test apparatus according to an embodiment of the present invention.
도 8을 참조하면 본 발명의 실시 예에 따른 장치는 저장부 810, 입력부 820, 표시부 830, 오디오처리부 840 및 제어부 850를 포함할 수 있다. 그리고 상기 제어부 850는 어음역동범위 산출부 851, 대역가청산출부 852, 주파수 중요도 산출부 853, 테스트 파일 종류 확인부 854, 주파수 중요도 적용부 855, 어음인지 능력 판단부 856을 포함하여 구성될 수 있다. Referring to FIG. 8, an apparatus according to an embodiment of the present invention may include a
먼저 상기 저장부 810는 대역가청함수, 주파수중요함수 및 어음명료지수를 산출하기 위한 데이터를 저장할 수 있다. 또한 상기 저장부 810는 어음명료지수로부터 어음인지도를 산출하는데 요구되는 전달함수 및 그와 관련된 데이터들을 저장할 수 있다. 이 밖에도 상기 저장부 810는 테스트용 파일의 종류(어음의 종류, 언어 종류, 목소리의 성별)에 따라 다르게 설정되는 주파수중요도에 관한 데이터를 저장할 수 있다. 상기 저장부 810에 저장되는 주파수 중요도는 상기 주파수 중요도 산출부 853에 의해 산출된 수치일 수 있다. 또는 상기 저장부 810는 디폴트로 설정되는 주파수 중요도에 대한 정보를 포함할 수 있다. 이 때 장치에 기본으로 설정되는 주파수 중요도는 종래 통상적으로 사용되는 주파수 중요도 값(영어 기반으로 산출된 주파수 중요도)일 수 있다. First, the
또한 상기 저장부 810는 주파수 대역별로 어음의 역동범위를 산출하기 위해 요구되는 데이터를 저장할 수 있다. 이 밖에도 상기 저장부 810는 청력검사 대상자의 어음인지 능력을 판단하기 위해 요구되는 다양한 데이터를 저장할 수 있다. Also, the
상기 표시부 820는 본 발명의 실시 예에 따른 청력검사장치에서 청력검사를 수행하는 데 요구되는 정보 및 검사 결과 정보를 사용자에게 표시할 수 있다.The
상기 입력부 830는 본 발명의 실시 예에 따른 청력검사장치에서 청력 검사를 수행하는 데 요구되는 값들을 입력받을 수 있다. 예컨대, 상기 입력부 830는 청력검사 대상자가 테스트 파일에 대한 응답 내용(예, 들리는 내용에 대하여 글자를 타이핑하는 방식으로 청력검사가 수행될 경우, 타이핑된 단어 또는 문장 등이 해당될 수 있음)을 입력받을 수 있다. The
상기 오디오 처리부 840는 테스트용 파일(검사 대상자의 어음 인식 능력을 테스트하기 위해 단음절, 문장 또는 담화를 사용자 목소리로 녹음한 파일)을 출력할 수 있다. 또한 다양한 실시 예에 따라 상기 오디오 처리부 840는 어음인지검사를 수행함에 있어, 검사 대상자가 듣는 어음을 소리내어 따라 말하는 방식으로 테스트할 경우, 검사 대상자가 말하는 소리를 입력받을 수 있다. The
상기 제어부 850는 어음역동범위 산출부 851, 대역가청 산출부 852, 주파수 중요도 산출부 853, 테스트파일 종류 확인부 854, 주파수 중요도 적용부 855, 어음인지능력 판단부 856을 포함할 수 있다. The
먼저, 상기 어음역동범위 산출부 851에 대하여는 도 9를 참조하여 설명하기로 한다. First, the speech dynamic
도 9는 본 발명의 실시예에 따른 어음역동범위 산출부의 구성에 대하여 도시한 블록도이다. 9 is a block diagram showing the configuration of a speech dynamic range calculating unit according to an embodiment of the present invention.
상기 어음 역동범위 산출부 851는 테스트 파일의 어음역동범위를 산출하기 위해, 묵음 제거부 851a 와 히스토그램 레벨 산출부 851b를 포함할 수 있다. 테스트 파일이 본 발명의 실시 예에 따른 청력 검사 장치에 입력되면, 상기 묵음 제거부 851a는 해당 파일의 묵음(Pauses)를 제어할 수 있다. 이 때 묵음 제거는 250ms 이상 유지되는 묵음에 한하여 수행될 수 있다. 묵음 시간이 200ms 이상이 되면 비로소 어음 발성 시에 자연스럽게 나타나는 묵음의 범위를 벗어나는 것으로 판단되기 때문에, 묵음 제거 기준 시간은 250ms로 설정될 수 있다. The speech dynamic
이후, 상기 히스토그램 레벨 산출부 851b는 묵음이 제거된 데이터를 대상으로 여러 단계에 거쳐 누적 히스토그램 레벨(cumulative histogram levels)을 도출할 수 있다. 상기 히스토그램 레벨 산출부 851b는 녹음 데이터의 누적 히스토그램 레벨 도출 과정을 다음과 같이 수행할 수 있다. (1)녹음 데이터의 평균 실효값(root mean square) 레벨을 계산한 후에, 각 녹음 파일들을 65 dB SPL로 정규화한다. (2)중심주파수가 150~8,600 Hz의 범위를 가지는 21개의 임계 대역(critical bands)에서 신호 포락선(signal envelope)을 계산한다. 참고로, 이러한 21개의 주파수 대역 범위는 어음인지 지수를 계산할 때의 임계 대역 범위를 기준으로 할 수 있다. (3)매트랩을 이용하여 1,000분의 1초 단위로 계산되는 상승 여현창(raised cosine window)을 통해 신호 포락선을 부드럽게 곡선화한다. (4)곡선화된 신호 포락선을 창 길이(window length)가 50% 중첩되게 하여 부표본화하고 dB SPL 단위로 변환시킨다. (5) 누적 신호 포락선 분포 레벨을 데시벨 신호 포락선 히스토그램으로 변화하여 어음의 역동범위를 도출한다.Subsequently, the
참고로, 누적 히스토그램 레벨은 주파수 대역 내에서 어음의 누적신호 포락선의 분포를 보여줄 수 있는데, 예를 들어, 99% 누적 히스토그램 레벨(L99)은 측정된 어음 신호에서 최고치 레벨(peak level)을 포함하거나 그 이하의 99% 부분을 가리킬 수 있다. 30% 누적 히스토그램 레벨(L30)은 측정된 어음 신호에서 최소 레벨을 포함하거나 그 이상의 30% 부분을 가리킬 수 있다. 다시 말하면, 상기 L99는 어음의 최대 레벨을 말하며, L30은 어음의 최소 레벨을 말할 수 있다. (어음역동범위는 최대 레벨에서 최소 레벨을 뺀 값을 나타낸다(L99 ?? L30). 상기 기술한 내용과 같이 상기 어음역동범위 산출부 851는 테스트용 녹음 파일로부터 주파수 대역별 어음역동범위를 산출할 수 있다. For reference, the cumulative histogram level may show the distribution of the cumulative signal envelope of speech in the frequency band. For example, the 99% cumulative histogram level (L99) includes a peak level in the measured speech signal or It can point to 99% or less. The 30% cumulative histogram level L30 may include a minimum level of the measured speech signal or indicate a portion of 30% or more. In other words, the L99 refers to the maximum level of speech, and the L30 refers to the minimum level of speech. (The speech dynamic range represents the value obtained by subtracting the minimum level from the maximum level (L99 ?? L30).) As described above, the speech
상기 대역가청산출부 852는 상기 어음역동범위 산출부 851에 의해 산출된 어음역동범위를 기반으로 어음에너지의 최대레벨 및 최소레벨을 판단할 수 있다. 또한 상기 대역가청산출부 852는 주파수 대역별로 산출된 어음역동범위를 기반으로 대역가청함수를 따르는 대역가청값을 산출할 수 있다. 이 때 대역가청함수는 다음의 수학식 2를 따른다. The band
[수학식 2][Equation 2]
이 때, 상기 는 주파수대역 i 에서의 신호대잡음비(signal-to-noise ratio, SNR)를 데시벨(dB) 단위로 표현한 값을 의미하고, 상기 K 는 어음강도의 최대값에서 어음의 실효치 레벨(speech root-mean-square level)을 뺀 값을 의미하며, 상기 D 는 어음의 역동범위를 의미할 수 있다. At this time, remind Denotes a signal-to-noise ratio (SNR) expressed in frequency band i in decibels (dB), and K is a speech root-mean- at the maximum value of speech intensity. square level), and D may mean a dynamic range of speech.
이 때 대역가청값을 산출하기 위해 요구되는 검사 대상자의 가청역치는 가청역치 측정부(미도시)를 통해 산출될 수 있다. 예컨대, 상기 가청역치 측정부는 테스트용 녹음 파일의 재생에 따른 대상자의 반응 기록을 토대로 사용자의 가청역치 수준을 판단할 수 있다. 다양한 실시 예에 따라 상기 가청역치 측정부는 어음 뿐 아니라 순음 청력에 대한 검사자료를 토대로 사용자의 가청역치 수준을 판단할 수 있다. At this time, the audible threshold of the test subject required to calculate the band audible value may be calculated through an audible threshold measurement unit (not shown). For example, the audible threshold measurement unit may determine a user's audible threshold level based on a reaction record of a subject according to reproduction of a test recording file. According to various embodiments of the present disclosure, the audible threshold measurement unit may determine a user's audible threshold level based on test data on not only speech but also pure tone hearing.
상기 주파수 중요도 산출부 853는 테스트 파일에 대한 주파수 중요도를 산출하는 기능을 수행할 수 있다. 상기 주파수 중요도 산출부 853는 이미 수행된 검사 결과를 토대로 어음의 주파수대역 및 어음역동범위에 대응하는 검사 대상자의 인식률을 토대로 주파수 중요도를 산출할 수 있다. 그리고 상기 주파수 중요도 산출부 853는 테스트 파일에 녹음된 언어 종류, 성별 종류 및 어음 종류별로 주파수 중요도를 다르게 산출할 수 있다. 예컨대, 상기 주파수 중요도 산출부는 영어 문장에 대하여 4050Hz이상의 고주파영역에 대응하는 주파수중요도를 한국어 문장에서의 주파수 중요도에 비해 0.2 높은 값으로 산출할 수 있다. 이 때 주파수 중요도 산출부 853에서 산출하는 주파수 중요도의 전제 대역에 대한 합은 1(또는 100%)로 설정될 수 있다. The
이 밖에도 다양한 실시 예에 따라 상기 주파수 중요도 산출부 853는 기 설정된 기본 주파수 중요도(예, 영어 기준으로 산출된 주파수 중요도)에 대한 증가분 또는 감소분으로 주파수 중요도를 산출할 수 있다.In addition, according to various embodiments, the
상기 테스트 파일 종류 확인부 854는 테스트 파일의 종류를 확인할 수 있다. 구체적으로 상기 테스트 파일 종류 확인부 854는 테스트 파일을 녹음한 목소리의 성별이 여자인지 또는 남자인지 여부를 확인할 수 있다. 또한 상기 테스트파일 종류 확인부 854는 테스트 파일의 언어 종류가 한국어인지 또는 외국어인지 여부를 확인할 수 있다. 또한 테스트파일 종류 확인부 854는 어음 종류가 담화인지, 문장인지 또는 단음절인지 여부를 판단할 수 있다. 상기 테스트 파일 종류 확인부 854는 테스트 파일이 장치에 입력되면 자체적으로 해당 파일을 모의 재생하여 기록된 신호정보를 분석하고, 이에 따라 테스트 파일의 종류를 판단할 수 있다. 또는 상기 테스트 파일 종류 확인부 854는 테스트 파일에 대하여 기 부여된 식별 값을 판단하는 방법으로 어음 종류, 언어 종류 등을 판단할 수 있다. The test file
상기 주파수 중요도 적용부 855는 확인된 테스트 파일의 종류 정보에 기반하여 해당하는 주파수 중요도을 적용할 수 있다. 예를 들어, 테스트 파일이 한국어임이 확인되면, 상기 주파수 중요도 적용부 855는 주파수중요도를 설정함에 있어, 상기 주파수 중요도 산출부 853에서 산출되고 저장부 810에 저장된 정보인 한국어 대응 주파수중요도 값을 적용하도록 제어할 수 있다. The frequency
어음인지능력 판단부 856는 청력검사 대상자의 어음명료지수 및 어음인지도를 산출할 수 있다. 이 때 상기 어음인지 능력 판단부 856는 어음명료지수를 산출할 시, 하기의 수학식 1에 기반하여 어음명료지수를 산출할 수 있다. The speech recognition
[수학식 1] [Equation 1]
상기 SII는 어음명료지수(0과 1사이의 범위로 나타낼 수 있음)이고, 상기 K 는 주파수대역(frequency band)의 전체 숫자를 의미하고, 상기 는 주파수대역 k 에서의 대역가청함수(band-audibility function, BAF)를 의미하며, 상기 는 주파수대역 k 에서의 주파수중요함수(band-importance function, BIF)를 의미한다. The SII is a speech intelligibility index (which can be expressed in a range between 0 and 1), and K is the total number of frequency bands, and the Denotes a band-audibility function (BAF) in the frequency band k, wherein Denotes a band-importance function (BIF) in the frequency band k.
상기 어음인지 능력 판단부 856는 산출된 어음명료지수에 기반하여 어음인지도를 산출할 수 있다. 상기 어음인지 능력 판단부 856는 어음명료지수에 전달함수를 적용하여 어음인지도의 대략적인 추정치를 산출할 수 있다. 어음명료지수와 어음인지도의 상관관계를 나타내는 전달함수에 관하여는 도 3에서 설명하였으므로 생략하기로 한다. The speech recognition
도 10은 본 발명의 실시 에에 따른 청력 검사 장치에서의 청력 검사 데이터를 산출하는 과정에 대하여 도시한 순서도이다. 10 is a flowchart illustrating a process of calculating hearing test data in the hearing test device according to an embodiment of the present invention.
도 11은 도 10의 101동작 이전 단계에서 수행될 수 있는 주파수별 어음에너지 산출에 대하여 도시한 순서도이다. FIG. 11 is a flow chart illustrating calculation of speech energy for each frequency that may be performed in a step before
도 10을 참조하여 설명하면, 제어부 850는 대역가청값을 산출하는 101동작을 수행할 수 있고, 이후 상기 제어부 850는 주파수 중요도를 적용하는 103동작을 수행할 수 있다. 이후 상기 제어부 850는 상기 주파수 중요도 및 대역가청값을 기반으로 어음명료지수를 산출하는 105동작을 수행할 수 있다. Referring to FIG. 10, the
상기 대역가청값과 주파수 중요도는 모두 21개의 주파수 대역에 대응하여 설정될 수 있다. 상기 제어부 850는 어음명료지수를 산출할 시, 먼저는 동일 주파수에 대응하는 대역가청값과 주파수중요도를 곱하여 주파수별 어음명료지수를 산출하고, 이후 산출된 어음명료지수들을 전체 더하는 방식으로 최종 어음명료지수를 산출할 수 있다. 이후 상기 제어부 850는 산출된 어음명료지수를 기반으로 어음인지도를 산출하는 107동작을 수행할 수 있다. 어음인지도 산출 과정은 생략될 수도 있다. 그리고 어음인지도 산출동작은 어음명료지수와 어음인지도와의 관계식인 전달함수를 이용하여 산출될 수 있다. 각 어음명료지수를 산출하기 위해 요구되는 각 데이터 및 전달함수에 관한 설명은 도 2 및 도 3에 대한 설명에서 다루었으므로 생략하기로 한다. The band audible value and the frequency importance can all be set corresponding to 21 frequency bands. When calculating the speech intelligibility index, the
그리고 본 발명에서는 다수의 대역 각각에 대응하는 대역가청값을 산출하기 위해 요구되는 정보인 어음역동범위(또는 어음에너지)를 해당 주파수 대역별(예, 21개의 대역)로 산출할 수 있다. 주파수 대역별 어음역동범위 산출에 관한 동작에 대하여, 도 11을 참조하여 설명하기로 한다. In the present invention, speech dynamic range (or speech energy), which is information required to calculate a band audible value corresponding to each of a plurality of bands, may be calculated for each frequency band (eg, 21 bands). The operation of calculating the speech dynamic range for each frequency band will be described with reference to FIG. 11.
도 11을 참조하면, 제어부 850는 테스트 파일의 입력을 확인하는 111동작을 수행할 수 있다. 이후 상기 제어부 850(예, 묵음 제거부 851a)는 입력된 해당 파일에서 묵음을 제거하는 113동작을 수행할 수 있다. 이 때 제어부 850는 일반적인 어음 발성에 필수적으로 요구되는 묵음과 분별하기 위해 250ms이상 유지되는 묵음에 한하여 제거를 수행할 수 있다. Referring to FIG. 11, the
이후 제어부 850(예, 히스토그램 레벨 산출부 851b)는 묵음이 제거된 데이터를 가지고 다수의 임계 대역에서의 신호 포락선을 계산하는 1153동작을 수행할 수 있다. 이 때 임계 대역은 중심 주파수가 150~8600Hz의 범위를 갖는 21개의 영역으로 설정될 수 있다. Thereafter, the controller 850 (eg, the
이후 상기 제어부 850는 상기 신호 포락선을 곡선화하는 117동작을 수행할 수 있다. 이후 상기 제어부 850는 곡선화된 신호 포락선의 부표본화 및 단위 변환을 수행하는 119동작을 수행할 수 있다. Thereafter, the
그리고 이후 상기 제어부 850는 누적 신호 포락선 분포 레벨을 데시벨 신호 포락선 히스토그램으로 변환하는 121동작을 수행함을 통해 21개의 주파수 대역별 어음역동범위를 산출할 수 있다. Thereafter, the
앞서 본 발명의 실시 예에 따른 청력 검사 장치를 통해 어음인지능력을 측정하는 동작에 대하여 살펴보았다. 그러나 본 발명은 이에 한정되지 않고, 보다 다양한 실시 예에 따라 어음인지 결과에 대한 통계를 기반으로 주파수중요도를 산출하는 동작을 수행할 수 있다. Previously, an operation of measuring speech recognition ability through a hearing test apparatus according to an embodiment of the present invention was described. However, the present invention is not limited thereto, and according to various embodiments, an operation for calculating frequency importance may be performed based on statistics on speech recognition results.
구체적으로 예를 들면, 상기 제어부 850는 다수의 청력 검사 대상자들의 테스트 파일에 대한 어음인지 결과를 기반으로 기 분류되어 있는 주파수대역별 사용자의 어음명료지수를 추출할 수 있다. 주파수대역별 어음명료지수는 total SII(어음명료지수)가 산출되기 전 단계에서 계산되므로, 별도의 연산과정 없이 추출될 수 있다. 이 때 상기 제어부 850는 total 어음명료지수의 결과가 평균값인(어음인지 능력이 정상인 것으로 판단되는) 청력 검사 대상자들의 주파수대역별 어음명료지수들만을 통계 대상으로 선정할 수 있다. 이후 상기 제어부 850는 동일한 테스트 파일에 대한 어음명료지수들끼리 분류할 수 있다. 그리고 상기 제어부 850는 동일 테스트 파일에 대하여, 부분 어음명료지수가 높은 주파수 대역을 인식률이 높은 주파수 대역으로 판단하고 해당 대역의 주파수중요도에 가중치를 더 부여할 수 있다. 예를 들어, 1대역, 2대역에 대한 기존의 주파수 중요도가 각각 50%와 50%로 설정되어 있는 상태에서, 통계 결과 1대역에 대한 청력 검사 대상자들의 어음명료지수가 일정 값 이상 더 높게 산출되었다고 할 때, 상기 제어부 850는 1대역에 대한 중요도를 일정 값(예, 1%) 높게 설정할 수 있다. 그리고 중요도 증가분과 중요도 감소분의 값은 같아야 하므로, 특정 대역에서 중요도가 증가되면, 나머지 대역들에서는 증가된 중요도 크기만큼 중요도가 감소될 수 있다. 즉, 1대역에서 중요도가 1%증가함에 따라 2대역에서는 중요도가 1% 감소될 수 있다. 만약, 21개의 대역 중 1개의 대역에서만 중요도 증가가 20% 이루어지게 되면, 나머지 대역(20개의 대역)은 증가분을 각각 동일하게 나누어 중요도가 감소될 수 있으며, 이 경우, 나머지 20개 대역에서의 주파수 중요도는 각각 1%씩 감소될 수 있다. Specifically, for example, the
다양한 실시 예에 따라 상기 제어부 850는 테스트 파일이 입력되는 즉시, 해당 파일의 녹음 내용(예, 주파수대역)을 분석하여 목소리의 성별을 확인하는 동작을 수행할 수 있다. 또는 상기 제어부 850는 테스트 파일이 출력되어 청력 검사 대상자에게 제공될 시, 출력되는 사운드의 주파수를 분석 및 음성인식을 수행하여, 어음 속성(어음 종류(단음절, 문장, 담화), 성별, 언어 종류 등)을 판단할 수 있다. 그리고 이에 따라 상기 제어부 850(예, 주파수 중요도 적용부 855)는 분석된 테스트 파일 종류에 대응하는 주파수 중요도를 적용할 수 있다. According to various embodiments of the present disclosure, as soon as a test file is input, the
상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 당업자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다. 요컨대 본 발명이 의도하는 효과를 달성하기 위해 도면에 도시된 모든 기능 블록을 별도로 포함하거나 도면에 도시된 모든 순서를 도시된 순서 그대로 따라야만 하는 것은 아니며, 그렇지 않더라도 얼마든지 청구항에 기재된 본 발명의 기술적 범위에 속할 수 있음에 주의한다.Although the present invention has been described in detail with reference to the above-mentioned examples, those skilled in the art can make modifications, alterations and modifications to the examples without departing from the scope of the present invention. In short, in order to achieve the intended effect of the present invention, it is not necessary to separately include all the functional blocks shown in the drawings or to follow all the order shown in the drawings in the order shown, and even if not, any number of technical aspects of the present invention described in the claims Note that it can fall within the scope.
810 : 저장부
820 : 입력부
830 : 표시부
840 : 오디오처리부
850 : 제어부
851 : 어음역동범위 산출부
852 : 대역가청 산출부
853 : 주파수 중요도 산출부
854 : 테스트 파일 종류 확인부
855 : 주파수 중요도 적용부
856 : 어음인지능력 판단부 810: storage unit
820: input unit
830: display unit
840: audio processing unit
850: control unit
851: Speech dynamic range calculator
852: Band audible calculator
853: frequency importance calculator
854: test file type confirmation unit
855: frequency importance section
856: speech recognition ability judgment unit
Claims (11)
상기 청력 검사 장치의 제어부에 의해, 테스트 파일에 대한 주파수별 어음역동범위를 산출하는 동작;
상기 제어부에 의해, 상기 산출된 어음역동범위를 기반으로 주파수별 대역가청함수를 따르는 대역가청값을 산출하는 동작;
상기 제어부에 의해, 상기 대역 가청값을 산출한 동일 주파수에 대한 주파수 중요도를 산출하는 동작; 및
상기 제어부에 의해, 상기 대역가청값과 상기 주파수 중요도를 기반으로 어음명료지수를 산출하는 동작;을 포함하되,
상기 테스트 파일에 대한 주파수별 어음역동범위를 산출하는 동작은
상기 제어부에 의해, 테스트용 파일에서 데이터 내의 묵음을 제거하는 동작;
상기 제어부에 의해, 상기 묵음이 제거된 데이터의 평균 실효값 레벨을 계산한 후, 각 녹음 파일들을 일정 dB SPL로 정규화하는 동작;
상기 제어부에 의해, 다수의 임계 대역에서 신호 포락선을 계산하는 동작;
상기 제어부에 의해, 상기 신호 포락선을 곡선화하는 동작;
상기 제어부에 의해, 곡선화된 신호 포락선을 부표본화하고 단위 변환하는 동작; 및
상기 제어부에 의해, 누적 신호 포락선 분포 레벨을 데시벨 신호 포락선 히스토그램으로 변환하여 어음의 역동범위를 산출하는 동작;을 포함하는 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법.In the hearing test method of the hearing test device,
Calculating a speech dynamic range for each frequency of a test file by a control unit of the hearing test apparatus;
Calculating, by the control unit, a band audible value that follows a band audible function for each frequency based on the calculated speech dynamic range;
Calculating, by the control unit, frequency importance for the same frequency from which the band audible value is calculated; And
Including, by the control unit, calculating a speech intelligibility index based on the band audible value and the frequency importance;
The operation of calculating the speech dynamic range for each frequency of the test file is
Removing silence in the data from the test file by the control unit;
Calculating, by the control unit, an average effective value level of the data from which the silence is removed, and then normalizing each recording file to a certain dB SPL;
Calculating, by the control unit, a signal envelope in a plurality of threshold bands;
Curving the signal envelope by the control unit;
Sub-sampling and unit-converting the curved signal envelope by the control unit; And
And calculating, by the control unit, a cumulative signal envelope distribution level into a decibel signal envelope histogram to calculate a dynamic range of speech.
상기 신호 포락선을 계산하는 동작은
상기 묵음이 제거된 데이터에 대하여 중심 주파수가 150~8600Hz의 범위를 갖는 21개의 주파수 대역에 대하여 신호 포락선을 계산하는 동작인 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법. According to claim 1,
The operation of calculating the signal envelope is
Hearing test method based on the calculation of speech energy for each frequency, characterized in that the operation of calculating a signal envelope for 21 frequency bands having a center frequency of 150 to 8600 Hz with respect to the silenced data.
상기 어음명료지수는 하기 수학식 1에 기반하여 산출되고,
[수학식 1]
상기 SII는 어음명료지수이고, 상기 K 는 주파수대역(frequency band)의 전체 숫자를 의미하고, 상기 는 주파수대역 k 에서의 대역가청함수(band-audibility function, BAF)를 의미하며, 상기 는 주파수대역 k 에서의 주파수중요함수(band-importance function, BIF)를 의미하는 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법.According to claim 1,
The speech intelligibility index is calculated based on Equation 1 below,
[Equation 1]
The SII is a speech intelligibility index, the K refers to the total number of frequency bands, and the Denotes a band-audibility function (BAF) in the frequency band k, wherein Is a frequency-important function in the frequency band k (band-importance function, BIF).
상기 데이터 내의 묵음을 제거하는 동작은
묵음 유지 기간이 250ms 이상이 되는 경우에 한하여 해당 묵음을 제거하는 동작인 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법. According to claim 1,
The operation of removing silence in the data is
A hearing inspection method based on calculating speech energy for each frequency, characterized in that it is an operation to remove the silence only when the duration of silence is 250 ms or more.
상기 신호 포락선을 곡선화하는 동작은
1000분의 1초 단위로 계산되는 상승 여현창(raised cosine window)을 통해 포락선을 곡선화하는 동작이고,
상기 곡선화된 신호 포락선을 부표본화하고 단위 변환하는 동작은
상기 곡선화된 신호 포락선을 창 길이(window length)가 50% 중첩되게 하여 부표본화하고 dB SPL 단위로 변환하는 동작인 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법. According to claim 1,
The operation of curving the signal envelope is
This is an operation to curve the envelope through a raised cosine window, calculated in 1000ths of a second,
The operation of sub-sampling and converting the curved signal envelope
A method of hearing evaluation based on speech energy calculation for each frequency, characterized in that the curved signal envelope is sub-sampled by overlapping the window length by 50% and converted into dB SPL units.
상기 대역가청함수는
주어진 주파수대역에서 청자의 청력역치를 기준으로 청자가 들을 수 있는 어음에너지의 비율을 의미하며, 하기 수학식 2를 따르고,
[수학식 2]
상기 는 주파수대역 i 에서의 신호대잡음비(signal-to-noise ratio, SNR)를 데시벨(dB) 단위로 표현한 값을 의미하고, 상기 K 는 어음강도의 최대값에서 어음의 실효치 레벨(speech root-mean-square level)을 뺀 값을 의미하며, 상기 D 는 어음의 역동범위를 의미하는 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법.According to claim 1,
The band audible function
The ratio of speech energy that can be heard by a listener based on the listener's hearing threshold in a given frequency band, follows Equation 2,
[Equation 2]
remind Denotes a signal-to-noise ratio (SNR) expressed in frequency band i in decibels (dB), and K is a speech root-mean- at the maximum value of speech intensity. square level), and D is a hearing test method based on calculating speech energy for each frequency, characterized in that it means a dynamic range of speech.
상기 주파수별 어음에너지 산출 기반의 청력 검사 방법은,
상기 제어부에 의해, 상기 어음명료지수에 전달함수를 적용하여 어음인지도를 산출하는 동작을 더 포함하고, 상기 어음인지도는 다음의 수학식 3에 따라 산출되고,
[수학식 3]
상기 S는 어음인지도, 상기 P는 화자와 청자의 발화와 듣기능력의 숙련도, 상기 A는 어음명료지수 값, 상기 Q와 N은 피팅(fitting) 상수를 의미하는 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법.According to claim 1,
The hearing test method based on the calculation of speech energy for each frequency,
The controller further includes an operation of calculating a speech recognition map by applying a transfer function to the speech intelligibility index, wherein the speech recognition map is calculated according to Equation 3 below,
[Equation 3]
The S is speech, the P is the proficiency of the speaker and listener's speech and listening ability, the A is the speech intelligibility index value, and the Q and N are the fitting energy calculations for each frequency, Based hearing test method.
상기 주파수 중요도를 산출하는 동작은
상기 테스트 파일에 녹음된 어음의 종류 및 목소리 성별에 따라 주파수 중요도를 산출하며, 상기 어음의 종류는 단음절, 문장 및 담화의 3가지로 구분되는 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법.According to claim 1,
The operation for calculating the frequency importance is
A frequency-based speech energy calculation-based hearing test method characterized in that the frequency importance is calculated according to the type of speech recorded in the test file and the gender of the voice. .
상기 주파수 중요도를 산출하는 동작은
상기 테스트 파일이 재생됨에 따라, 상기 테스트 파일에 녹음된 소리의 주파수 대역을 판단하여 목소리의 성별 및 어음의 종류를 판단하고, 판단된 성별 및 어음의 종류에 대응하는 주파수 중요도를 적용하는 동작을 포함하는 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법.The method of claim 8,
The operation for calculating the frequency importance is
As the test file is reproduced, determining the frequency band of the sound recorded in the test file to determine the gender and speech type of the voice, and applying frequency importance corresponding to the determined gender and speech type Hearing test method based on the calculation of speech energy by frequency, characterized in that.
상기 주파수 중요도를 산출하는 동작은
어음인지 능력이 정상인 것으로 판단되는 청력 검사 대상자들의 주파수 대역별 어음명료지수를 기반으로 어음명료지수 수치가 기 설정값 이상 높게 산출된 주파수 대역의 주파수 중요도를 증가 설정하는 동작을 포함하는 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 방법. According to claim 1,
The operation for calculating the frequency importance is
And an operation of increasing and setting the frequency importance of the frequency band in which the speech intelligibility index value is higher than a preset value based on the speech intelligibility index for each frequency band of the hearing test subjects judged to have normal speech recognition ability Hearing test method based on calculation of speech energy by frequency.
상기 산출된 어음역동범위를 기반으로 주파수별 대역가청함수를 따르는 대역가청값을 산출하는 대역 가정 산출부;
상기 대역 가청값을 산출한 동일 주파수에 대한 주파수 중요도를 산출하는 주파수 중요도 산출부; 및
상기 대역가청값과 상기 주파수 중요도를 기반으로 어음명료지수를 산출하는 어음 인지능력 판단부;를 포함하는 것을 특징으로 하는 주파수별 어음에너지 산출 기반의 청력 검사 장치.
Calculate the speech dynamic range for each frequency for the test file, remove the silence in the data from the test file, calculate the average effective value level of the data from which the silence is removed, and normalize each recording file to a certain dB SPL Then, the signal envelope is calculated in a plurality of critical bands, the signal envelope is curved, the sampled curve is subsampled, and then the units are converted, and the cumulative signal envelope distribution level is converted into a decibel signal envelope histogram to reverse the speech. Speech dynamic range calculation unit for calculating a range;
A band assumption calculator for calculating a band audible value that follows a band audible function for each frequency based on the calculated speech dynamic range;
A frequency importance calculator for calculating frequency importance for the same frequency from which the band audible value is calculated; And
And a speech recognition capability determination unit that calculates a speech intelligibility index based on the band audible value and the frequency importance.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180055330A KR102110285B1 (en) | 2018-05-15 | 2018-05-15 | Hearing test method and apparatus based on speech dynamic range by frequency band |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180055330A KR102110285B1 (en) | 2018-05-15 | 2018-05-15 | Hearing test method and apparatus based on speech dynamic range by frequency band |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190130784A KR20190130784A (en) | 2019-11-25 |
KR102110285B1 true KR102110285B1 (en) | 2020-05-13 |
Family
ID=68730752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180055330A KR102110285B1 (en) | 2018-05-15 | 2018-05-15 | Hearing test method and apparatus based on speech dynamic range by frequency band |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102110285B1 (en) |
-
2018
- 2018-05-15 KR KR1020180055330A patent/KR102110285B1/en active IP Right Grant
Non-Patent Citations (3)
Title |
---|
논문(1) |
논문(2) |
논문(3) |
Also Published As
Publication number | Publication date |
---|---|
KR20190130784A (en) | 2019-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Falk et al. | Characterization of atypical vocal source excitation, temporal dynamics and prosody for objective measurement of dysarthric word intelligibility | |
Phatak et al. | Consonant confusions in white noise | |
US7890323B2 (en) | Digital filtering method, digital filtering equipment, digital filtering program, and recording medium and recorded device which are readable on computer | |
Moore | Aspects of auditory processing related to speech perception | |
US20140309992A1 (en) | Method for detecting, identifying, and enhancing formant frequencies in voiced speech | |
Boothroyd et al. | The hearing aid input: A phonemic approach to assessing the spectral distribution of speech | |
Irino et al. | Comparison of performance with voiced and whispered speech in word recognition and mean-formant-frequency discrimination | |
Berisha et al. | Towards a clinical tool for automatic intelligibility assessment | |
KR20130083730A (en) | Multimedia playing apparatus for outputting modulated sound according to hearing characteristic of a user and method for performing thereof | |
Krishnamoorthy | An overview of subjective and objective quality measures for noisy speech enhancement algorithms | |
Harrison | Variability of formant measurements | |
Richard et al. | Comparison of objective and subjective methods for evaluating speech quality and intelligibility recorded through bone conduction and in-ear microphones | |
KR102110284B1 (en) | Apparatus and method for audiometry based on korean characteristics | |
Elbashti et al. | Digitized speech characteristics in patients with maxillectomy defects | |
Ireland et al. | Adaptive multi-rate compression effects on vowel analysis | |
KR102110285B1 (en) | Hearing test method and apparatus based on speech dynamic range by frequency band | |
Young et al. | Evaluation of noise excitation as a method for detection of hypernasality | |
Martens et al. | Automated assessment and treatment of speech rate and intonation in dysarthria | |
Blamey et al. | Predicting speech perception from the audiogram and vice versa | |
Sahoo et al. | Analyzing the vocal tract characteristics for out-of-breath speech | |
Bapineedu et al. | Analysis of Lombard speech using excitation source information. | |
Rao et al. | Speech enhancement for listeners with hearing loss based on a model for vowel coding in the auditory midbrain | |
Tiwari et al. | Speech enhancement using noise estimation with dynamic quantile tracking | |
Liu et al. | Auditory detection of non-speech and speech stimuli in noise: Effects of listeners' native language background | |
US10129659B2 (en) | Dialog enhancement complemented with frequency transposition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |