KR101682796B1 - Method for listening intelligibility using syllable-type-based phoneme weighting techniques in noisy environments, and recording medium thereof - Google Patents
Method for listening intelligibility using syllable-type-based phoneme weighting techniques in noisy environments, and recording medium thereof Download PDFInfo
- Publication number
- KR101682796B1 KR101682796B1 KR1020150029729A KR20150029729A KR101682796B1 KR 101682796 B1 KR101682796 B1 KR 101682796B1 KR 1020150029729 A KR1020150029729 A KR 1020150029729A KR 20150029729 A KR20150029729 A KR 20150029729A KR 101682796 B1 KR101682796 B1 KR 101682796B1
- Authority
- KR
- South Korea
- Prior art keywords
- syllable
- power
- consonant
- speech
- type
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000002708 enhancing effect Effects 0.000 claims abstract description 12
- 238000010606 normalization Methods 0.000 claims abstract description 6
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000001965 increasing effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
본 발명은 소음 환경에서 음절 형태 기반 음소 가중 기법을 이용한 음성의 명료도 향상 방법에 있어서, 음성 신호로부터 음절을 검출하는 단계, 검출된 음절을 분석하여 음절 형태를 분류하는 단계, 주변 소음으로부터 추정된 소음 환경에서 음절 형태별로 자음의 전력을 각각 다르게 조절하는 단계 및 전력 정규화를 통해 자음의 전력을 강화한 음성 신호와, 그렇지 않은 음성 신호의 전력을 같게 하여 출력하는 단계를 포함한다. 본 발명에 의하면 음절 형태를 기반으로 음소를 가중함으로써, 소음 환경에서 명료도를 향상시킬 수 있는 효과가 있다. A method for enhancing speech intelligibility using a syllable-form based phoneme weighting technique in a noisy environment, the method comprising the steps of: detecting a syllable from a speech signal; classifying the syllable form by analyzing the detected syllable; Adjusting the power of each consonant according to the syllable type in the environment, and outputting the power of the voice signal having the power of the consonant and the power of the voice signal not having the power equalized through power normalization. According to the present invention, it is possible to improve intelligibility in a noisy environment by weighting phonemes based on the syllable form.
Description
본 발명은 소음 환경에서 음절 형태 기반의 음소 가중 기법에 관한 것이다.
The present invention relates to phoneme weighting techniques based on syllable form in a noisy environment.
강연회장이나 기차역 등에서 청취자에게 전달되는 강연 음성이나 안내방송 음성은 주변 소음에 의해 음성의 명료도(intelligibility)가 크게 저하될 수 있다. 이러한 상황은 TV 시청, 휴대폰 음성 통화 등의 경우에도 발생한다. 주변 소음이 존재하는 청취 환경에서는 음성신호가 주변 소음에 의해 마스킹되어 청취자가 일부 음성신호를 인지하기 어려우며 특히, 청각 장애자와 노인에게 영향이 더 크다. 마스킹된 음성신호는 청취자가 일부 음성신호를 인지하기 어려운 상황이므로 음성출력 단에서 음성신호를 강화시켜 음성의 명료도를 향상시키는 기법이 필요하다.Speech or announcement speech delivered to a listener at a lecture hall or a train station may greatly reduce the intelligibility of speech due to ambient noise. This situation also occurs in the case of watching a TV or making a mobile phone voice call. In a listening environment where ambient noise is present, the voice signal is masked by ambient noise, making it difficult for the listener to perceive some voice signals, especially for the hearing impaired and the elderly. Since the masked speech signal is difficult for the listener to recognize some speech signals, a technique for enhancing the clarity of the speech by enhancing the speech signal at the speech output stage is needed.
소음 환경에서 음성의 명료도 향상을 위해서 음성개선(speech enhancement) 즉, 잡음감쇄(noise suppression)에 대해 연구가 이루어져 왔지만, 소음을 직접적으로 통제할 수 없는 즉, 청취자가 소음감쇄 기기를 착용하지 않은 일반적인 상황에서는 적용할 수 없다.Speech enhancement, or noise suppression, has been studied to improve the intelligibility of speech in a noisy environment. However, it has been reported that noise can not be directly controlled, that is, when a listener is not wearing a noise attenuator It is not applicable in the situation.
일반적으로, 음성의 명료도를 향상시키기 위해 신호대잡음비(signal-to-noise ratio, SNR)나 스피커 볼륨을 높이는 방법은 명료도와 관련이 없는 출력 음성의 모든 성분이 일정하게 증가하게 되는 문제점이 있으며, 음질이 저하되거나 왜곡되는 현상이 발생할 수 있고, 청취자의 피로감과 거부감을 유발시키므로 좋은 방법이 아니다.In general, the method of increasing the signal-to-noise ratio (SNR) or the speaker volume in order to improve the clarity of the voice has a problem that all components of the output voice unrelated to the clarity are constantly increased, May be degraded or distorted, which may cause a fatigue and a sense of rejection of the listener.
또 다른 방법으로는 자음의 전력(power)을 강화시키는 것이다. 자음은 음성의 명료도 관점에서 모음보다 더 중요한 정보를 전달하며, 자음은 모음에 비해 전력이 작아 소음 환경에서 청취하는데 어려움을 겪는다. Another method is to enhance the power of consonants. Consonants convey more important information than vowels in terms of clarity of speech, and consonants are less powerful than vowels, making it difficult to listen in a noisy environment.
자음의 전력을 강화시키기 위해서는 자모음비(consonant-vowel intensity ratio, CVR) 기법을 이용하여 해결할 수 있다. CVR은 모음에 대한 자음의 전력비로서 자음의 음압레벨(sound pressure level, SPL)을 증가시키며, CVR 레벨이 증가할수록 자음 청취에 유리하다고 알려져 있다. 그러나 CVR 기법을 통한 단순한 자음의 강화는 음성의 명료도를 향상시키는데 크게 도움을 주지 않을 수 있다. 대부분 CVR 레벨이 증가하면 자음의 청취 능력이 향상한다는 의견이 지배적이지만, CVR 기법에 따른 단어 인지도(word recognition score)의 효과에 대한 의견은 현재까지도 일치를 보지 못하고 있다. The consonant-vowel intensity ratio (CVR) technique can be used to enhance the power of consonants. The CVR increases the sound pressure level (SPL) of the consonant as a power ratio of the consonant to the vowel, and is known to be advantageous for consonant listening as the CVR level increases. However, the enhancement of simple consonants through the CVR technique may not significantly improve speech intelligibility. Although the opinion that the listening ability of consonants improves with increasing CVR level is mostly dominant, opinions on the effect of word recognition score according to CVR technique are still not consistent.
국내에서는 CVR 기법에 따른 단어 인지도의 효과를 확인하기 위한 관련된 연구에서 한국어에서 청취가 어려운 자음을 몇몇 모음과 결합한 자음-모음 (consonant-vowel, CV) 음절을 CVR 기법을 통해 인지도의 변화를 확인해본 결과, CVR 레벨이 증가해도 인지도 차이는 크게 개선되지 않는다. 이는 자음 중 몇몇 자음만 인지도 개선에 효과가 있으며, 자음의 전력을 과도하게 강화시킨 CVR 기법의 적용은 모든 청취자에게 인지도 개선에 반드시 도움을 주는 것이 아님을 의미한다. 자음만을 강화하는 CVR 기법이 인지도 개선에 대한 효과가 여러 측면에서 관찰하는데 어려움이 있으므로 근본적으로 인간의 청각 지각 특성을 이용하여 인지도가 어떻게 변하는지 고려할 필요가 있다.In a related study to confirm the effect of word recognition according to the CVR technique in Korea, consonant-vowel (CV) syllable which combines consonants difficult to hear in Korean with several vowels was examined by CVR As a result, the awareness difference does not improve significantly with increasing CVR levels. This means that only some consonants of consonants are effective in improving awareness, and applying the CVR technique which over-reinforces consonant power does not necessarily help to improve awareness of all listeners. It is difficult to observe the effect of the CVR technique which enhances consonant only in many aspects. Therefore, it is necessary to consider how the awareness changes by using human auditory perception characteristics fundamentally.
한국어에서 모음은 주로 저주파수 영역에 분포하며 음성 에너지와 관련성이 높고, 자음은 고주파수 대역에 주로 분포하며 명료도에 큰 영향을 미친다. 그러나 자음의 주파수는 후행하는 단모음에 따라서 주파수 범위가 다르게 나타난다. 예를 들어, 자음 /ㅅ/의 평균 중심 주파수는 약 6,200 Hz, /ㅆ/는 약 6,600 Hz에 나타나지만, 단모음 /오/, /우/, /어/, /아/, /으/, /애/, /이/ 이 후행되었을 때 /ㅅ/의 주파수 범위는 4,044~6,461 Hz 이고 /ㅆ/은 4,357~6,767 Hz이다. In Korean, the vowels are mainly distributed in the low frequency region, are highly related to the voice energy, and the consonants are mainly distributed in the high frequency band and have a great influence on the intelligibility. However, the frequencies of the consonants are different in frequency range depending on the trailing short vowels. For example, the average center frequency of the consonant / ㅅ / is about 6,200 Hz, and / ㅆ / is about 6,600 Hz, but the short center / 오 / When / / is / is followed, the frequency range of / ㅅ / is 4,044 to 6,461 Hz and / ㅆ / is 4,357 to 6,767 Hz.
이러한 음향학적인 단서에서 인지하기 어려운 고주파수 영역에 해당하는 자음일지라도 모음에 따라서 청취자의 인지도가 변할 수 있다는 의미이므로 모음도 음성의 명료도에 고려해야 할 음소이다. 따라서 한국어의 음절형태에서 음소가 2개 이상으로 구성되는 자음-모음-자음(consonant-vowel-consonant, CVC), CV, 모음-자음(vowel-consonant, VC) 그리고 모음(vowel, V) 등 음절형태별 주파수 영역이 다르므로 인지도가 변할 수 있다.
The vowel is a phoneme that should be considered in the clarity of the voice, since it means that the awareness of the listener can be changed according to the vowel even if it is a consonant corresponding to the high frequency region which is difficult to be perceived in such an acoustical cue. Therefore, consonant-vowel-consonant (CVC), CV, vowel-consonant (VC) and vowel (V) syllables composed of two or more phonemes in Korean syllable form Since the frequency range of each type is different, the awareness may vary.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 모든 자음의 전력을 일률적으로 강화시키는 기존의 자모음비(consonant-vowel intensity ratio, CVR) 기법에 비해, 청취자의 인지도를 고려하여 자음-모음-자음(consonant-vowel-consonant, CVC), 자음-모음(consonant-vowel,CV), 모음-자음(vowel-consonant, VC), 그리고 모음(vowel, V) 등 음절형태별로 자음의 전력을 각각 다르게 강화함으로써, 소음 환경에서의 명료한 청취를 위한 음절 형태 기반 음소 가중 방법을 제공하는데 그 목적이 있다.SUMMARY OF THE INVENTION It is an object of the present invention to provide a consonant-vowel intensity ratio (CVR) technique that uniformly enhances the power of all consonants, Consonant-vowel-consonant (CVC), consonant-vowel (CV), vowel-consonant (VC), and vowel The present invention aims to provide a syllable form based phoneme weighting method for a clear listening in a noisy environment.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
The objects of the present invention are not limited to the above-mentioned objects, and other objects not mentioned can be clearly understood by those skilled in the art from the following description.
이와 같은 목적을 달성하기 위한 본 발명은 소음 환경에서 음절 형태 기반 음소 가중 기법을 이용한 음성의 명료도 향상 방법에 있어서, 음성 신호로부터 음절을 검출하는 단계, 검출된 음절을 분석하여 음절 형태를 분류하는 단계, 주변 소음으로부터 추정된 소음 환경에서 음절 형태별로 자음의 전력을 각각 다르게 조절하는 단계 및 전력 정규화를 통해 자음의 전력을 강화한 음성 신호와, 그렇지 않은 음성 신호의 전력을 같게 하여 출력하는 단계를 포함한다. According to an aspect of the present invention, there is provided a method for enhancing the intelligibility of a speech using a syllable type based phoneme weighting technique in a noisy environment, comprising: detecting a syllable from a speech signal; classifying the syllable type by analyzing the detected syllable Adjusting the power of the consonants according to the syllable type in the noise environment estimated from the ambient noise, and outputting the power of the voice signal having the power of the consonant enhanced and the power of the voice signal not having the power equalized through power normalization .
상기 음절 형태는 자음-모음-자음(consonant-vowel-consonant, CVC), 자음-모음(consonant-vowel, CV), 모음-자음(vowel-consonant, VC) 및 모음(vowel, V)을 포함할 수 있다. The syllable forms include consonant-vowel-consonant (CVC), consonant-vowel (CV), vowel-consonant (VC) and vowel .
본 발명의 일 실시예에서 단음절 어음 인지도 평가 결과를 기반으로 상기 각 음절 형태의 등급 기대치를 구하고, 음절형태별 인지도 등급 기대치를 이용하여 자음의 전력을 각각 다르게 조절할 수 있다. In the embodiment of the present invention, the rating expectation values of the syllable types are obtained based on the evaluation result of the monosyllable speech recognition, and the power of the consonants can be adjusted by using the recognition degree expectation value for each syllable type.
X는 각각의 음절형태 V, VC, CVC 그리고 CV의 등급을 나타내는 랜덤변수이고, E[X]는 등급 기대치라고 할 때, 음절형태별 음소 가중을 위한 SPL(Sound Pressure Level) 조절치(dB) y는, (수학식 3)으로 나타낼 수 있다. X is a random variable indicating the grade of each syllable form V, VC, CVC and CV, and E [X] is the SPL (sound pressure level) adjustment value (dB) for phoneme weighting Quot; (3). &Quot; (3) "
각 음절형태별 다르게 적용될 가중치 범위는 yCV와 yV 간의 동적 범위(dynamic range) △CW에 의해 결정되며, (수학식 4)로 나타낼 수 있다. Each syllable, each type differently applied weight range is determined by the dynamic range (dynamic range) between the △ CW y y CV and V, (Equation 4).
상수 a는, (수학식 5)와 같이 나타낼 수 있다. The constant a, (5). &Quot; (5) "
(수학식 6)으로 나타낼 수 있으며, 상수 b는 상기 △Pc와 평균적으로 같아지도록, (수학식 7)로 나타낼 수 있다. Can be represented by (Equation 6), b is a constant to be equal and the average △ P c, (7). &Quot; (7) "
본 발명의 일 실시예에서 상기 △CW는 12 [dB]일 수 있다.
In one embodiment of the present invention, the [Delta] CW may be 12 [dB].
본 발명에 의하면 음절 형태를 기반으로 음소를 가중함으로써, 소음 환경에서 명료도를 향상시킬 수 있는 효과가 있다. 즉, 본 발명에 의하면 기존의 CVR 기법에 비해 성능이 우수하며 음성의 명료도가 향상되는 효과가 있다.
According to the present invention, it is possible to improve intelligibility in a noisy environment by weighting phonemes based on the syllable form. That is, according to the present invention, the performance is superior to that of the conventional CVR technique and the speech intelligibility is improved.
도 1은 음성의 명료도 향상을 위한 CVR 기법을 나타낸 블록도이다.
도 2는 본 발명의 일 실시예에 따른 음절 형태 기반 음소 가중 기법을 이용한 음성의 명료도 향상 방법을 보여주는 블록도이다.
도 3은 본 발명의 일 실시예에 따른 음절형태별 등급 기대치를 나타낸 도표이다.
도 4는 본 발명의 일 실시예에 따른 음절형태별 음소의 음압 레벨 증가치를 나타낸 도표이다. FIG. 1 is a block diagram showing a CVR technique for improving speech intelligibility.
FIG. 2 is a block diagram illustrating a method for enhancing the intelligibility of speech using a syllable type based phoneme weighting technique according to an embodiment of the present invention. Referring to FIG.
FIG. 3 is a chart showing a grade expectation value according to an embodiment of the present invention.
FIG. 4 is a graph showing a sound pressure level increase value of a phoneme according to an embodiment of the present invention.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.While the invention is susceptible to various modifications and alternative forms, specific embodiments thereof are shown by way of example in the drawings and will herein be described in detail. It is to be understood, however, that the invention is not to be limited to the specific embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used in this application is used only to describe a specific embodiment and is not intended to limit the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In the present application, the terms "comprises" or "having" and the like are used to specify that there is a feature, a number, a step, an operation, an element, a component or a combination thereof described in the specification, But do not preclude the presence or addition of one or more other features, integers, steps, operations, elements, components, or combinations thereof.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 갖는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries are to be interpreted as having a meaning consistent with the contextual meaning of the related art and are to be interpreted in an ideal or overly formal sense unless expressly defined in the present application Do not.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.In the following description of the present invention with reference to the accompanying drawings, the same components are denoted by the same reference numerals regardless of the reference numerals, and redundant explanations thereof will be omitted. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the following description, well-known functions or constructions are not described in detail since they would obscure the invention in unnecessary detail.
본 발명에서 음절 형태 기반 음소 가중 기법을 이용한 음성의 명료도 향상 방법을 수행하는 주체는 음성을 출력하는 제반 시스템이라고 할 수 있으며, 또는 음성을 출력하는 시스템 또는 장치를 전반적으로 제어하는 제어부나 프로세서(processor)일 수 있다. 즉, 본 발명의 음절 형태 기반 음소 가중 기법을 이용한 음성의 명료도 향상 방법은 일종의 소프트웨어인 알고리즘으로 구성되며, 소프트웨어는 음성 출력 시스템, 음성 출력 장치의 제어부 또는 프로세서(processor)에서 실행될 수 있다.In the present invention, the subject performing the speech intelligibility enhancement method using the syllable type based phoneme weighting method may be a system for outputting speech, or may be a system for controlling a system or an apparatus for outputting speech, ). That is, the method of enhancing the intelligibility of the speech using the syllable type based phoneme weighting technique of the present invention is composed of an algorithm which is a kind of software, and the software can be executed in a sound output system, a control unit of the sound output apparatus, or a processor.
도 1은 음성의 명료도 향상을 위한 CVR 기법을 나타낸 블록도이다. FIG. 1 is a block diagram showing a CVR technique for improving speech intelligibility.
도 1을 참조하면, 소음 환경에서 명료한 청취를 위한 기존의 CVR(consonant-vowel intensity ratio) 기법은 주변 소음으로부터 소음을 추정하고(120), 음성출력 단에서 자음을 검출하여(110), 모든 자음의 전력을 소음의 크기에 따라 비례하여 일률적으로 강화시킨다(130). 예를 들어, 추정한 소음 정도에 따라 소음의 크기가 작으면 +3 dB, 소음의 크기가 크면 +12 dB 만큼 일률적으로 자음의 전력을 증가시킨다. Referring to FIG. 1, a conventional consonant-vowel intensity ratio (CVR) technique for clear listening in a noisy environment estimates
그 후, 전력 정규화(140)를 통해 자음의 전력을 강화한 음성 신호와 아무 처리도 하지 않은 음성신호의 전력을 같게 함으로써, 신호의 전체 전력을 동일하게 하여 형평성을 유지한다. Thereafter, power of the consonant is increased by the
CVR 기법에서 자음 강화를 위하여, 자음 신호의 전력 Pc에서 자음 신호 xc에 가중치(weight)를 적용하여, 강화된 자음 신호의 전력 P'c가 도출될 수 있도록 그 가중치를 계산한다. In the CVR technique, a weight is applied to the consonant signal x c in the power P c of the consonant signal to calculate the weight so that the power P ' c of the enhanced consonant signal can be derived.
원래 자음 신호에 곱할 가중치를 α라고 하면, xc 대신 αxc를 대입하면 다음 수학식 1과 같이 표현된다. Speaking of the original α a weight multiplied to the consonant signal, x c Substituting instead αx c is expressed as formula (1).
여기서, 가중치 α는 다음 수학식 2와 같이 구할 수 있다.Here, the weight value? Can be obtained by the following equation (2).
여기서, △Pc는 자음의 SPL 증가치, 즉 P'c-Pc이다.
Here, ΔP c is the SPL increase value of the consonant, that is, P ' c -P c .
소음 환경에서 명료한 청취를 위한 모든 자음의 전력을 일률적으로 강화시키는 기존의 CVR 기법과 달리, 본 발명에서는 음절형태별로 자음의 전력을 각각 다르게 강화시키는 교정 가중(corrective weighting, CW) 기법을 제안한다. Unlike the conventional CVR technique which uniformly enhances the power of all consonants for clear listening in a noisy environment, the present invention proposes a corrective weighting (CW) technique for enhancing the power of each consonant separately for each syllable type .
도 2는 본 발명의 일 실시예에 따른 음절 형태 기반 음소 가중 기법을 이용한 음성의 명료도 향상 방법을 보여주는 블록도이다. FIG. 2 is a block diagram illustrating a method for enhancing the intelligibility of speech using a syllable type based phoneme weighting technique according to an embodiment of the present invention. Referring to FIG.
도 2를 참조하면, 본 발명의 음절 형태 기반 음소 가중 기법은, 먼저 음성 신호로부터 음절을 검출한다(210). Referring to FIG. 2, the syllable type based phoneme weighting method of the present invention first detects a syllable from a speech signal (210).
그리고, 검출된 음절을 분석하여 음절 형태를 분류한다(220). Then, the detected syllable is analyzed to sort syllable types (220).
그리고, 주변 소음으로부터 소음을 추정한다(230).Then, noise is estimated from ambient noise (230).
그리고, 추정된 소음 환경에서 음절 형태별로 자음의 전력을 각각 다르게 조절한다(240).Then, the power of the consonants is adjusted differently according to the syllable type in the estimated noise environment (240).
그 후, 전력 정규화(250)를 통해 자음의 전력을 강화한 음성 신호와, 그렇지 않은 음성 신호의 전력을 같게 하여 출력한다. Thereafter, the
본 발명은 청취자의 인지도를 고려하여 자음-모음-자음(consonant-vowel-consonant, CVC), 자음-모음(consonant-vowel, CV), 모음-자음(vowel-consonant, VC), 그리고 모음(vowel, V) 등 음절형태별로 자음의 전력을 각각 다르게 강화함으로써, 소음 환경에서의 명료한 청취를 위한 음절 형태 기반 음소 가중 방법을 제공한다. The present invention is based on consonant-vowel-consonant (CVC), consonant-vowel (CV), vowel-consonant (VC), vowel- , And V), thereby providing a syllable-form-based phoneme-weighting method for clear listening in a noisy environment.
본 발명의 음절 형태 기반 음소 가중 기법을 위해, 한국어 형태소 및 어휘 사용 빈도의 분석에서 빈도수를 고려하여 남녀 각각 250개의 검사용 어음을 선정하여 실험한 결과, 남녀 각각 250개의 각 음절형태에 대한 단음절 어음인지도 평가를 11개의 등급으로 분류한다. 등급이 1에 근접할수록 인지도가 높은 상위권 등급의 음절이며 등급이 11로 갈수록 인지도가 낮은 음절이다. 상위권 등급에서는 각 음절형태마다 균일하게 분포되어 있지만 하위권 등급에서는 CVC와 CV가 보다 많이 분포되어 있다. 따라서, CVC와 CV는 명료도가 좋지 않은 음절 형태이므로, 다른 음절 형태에 비해 자음의 전력을 더 강화시킬 필요가 있다. For the syllable form-based phoneme weighting technique of the present invention, 250 test notes were selected from the analysis of the frequency of use of Korean morpheme and vocabulary in consideration of the frequency, and as a result, The recognition rating is classified into 11 grades. As the grade approaches 1, it is a syllable of the highest rank with a high recognition rate. In the upper class, the syllables are uniformly distributed, but in the lower class, CVC and CV are more distributed. Therefore, since CVC and CV are syllable forms with low clarity, it is necessary to further strengthen the power of consonants compared to other syllable forms.
본 발명에서는 단음절 어음 인지도 평가 결과를 기반으로 각 음절 형태의 등급 기대치를 구할 수 있으며, 그 결과를 다음 도 3의 도표에서 확인할 수 있다. In the present invention, the grade expectation value of each syllable form can be obtained based on the evaluation result of the monosyllabic pronunciation recognition, and the result can be confirmed in the chart of FIG.
도 3은 본 발명의 일 실시예에 따른 음절형태별 등급 기대치를 나타낸 도표이다. FIG. 3 is a chart showing a grade expectation value according to an embodiment of the present invention.
음절형태별 음소 가중을 위한 SPL(Sound Pressure Level) 조절치(dB) y는 선형적으로 결정되며, 다음 수학식 3과 같이 나타낼 수 있다.The SPL (Sound Pressure Level) adjustment value (dB) y for the phoneme weighting by the syllable type is determined linearly and can be expressed by the following equation (3).
여기서, X는 각각의 음절형태 V, VC, CVC 그리고 CV의 등급을 나타내는 랜덤변수이고, E[X]는 등급 기대치이다. Where X is a random variable representing the grade of each syllable form V, VC, CVC, and CV, and E [X] is the grade expectation.
그리고, 각 음절형태별 다르게 적용될 가중치 범위는 yCV와 yV 간의 동적 범위(dynamic range) △CW에 의해 결정된다. And, each syllable each type differently applied weight range is determined by the dynamic range (dynamic range) between the CW △ y and y V CV.
여기서, △CW를 실험적으로 구한 결과, 12 dB이다. Here,? CW is experimentally obtained and is 12 dB.
그리고, 음절형태별 등급 기대치에 곱할 상수 a는 다음 수학식 5와 같다. Then, a constant a to be multiplied by the grade expectation for each syllable type is expressed by Equation (5).
여기서, 상수 b는 수학식 2의 △Pc와 평균적으로 같아지도록 다음과 같이 구한다. Here, the constant b is obtained as follows so as to be equal to ΔP c in Equation 2 on average.
도 4는 본 발명의 일 실시예에 따른 음절형태별 음소의 음압 레벨 증가치를 나타낸 도표이다. FIG. 4 is a graph showing a sound pressure level increase value of a phoneme according to an embodiment of the present invention.
도 4를 참조하면, 음절형태별 SPL 증가치를 계산한 결과가 정리되어 있으며, VC, CVC, CV 음절형태별 SPL 증가치가 서로 다르다는 것을 알 수 있다. Referring to FIG. 4, the results of calculation of the SPL increase value by the syllable type are summarized, and it is understood that the SPL increase values by the VC, CVC, and CV syllable types are different from each other.
음절형태 V의 SPL 증가치를 조절하여 다음 수학식 8가 같이 △CW를 12 dB가 되도록 하면, yV는 -3.78 dB가 된다.Adjusting the SPL increase in syllable form V so that? CW is 12 dB as in Equation 8 below, then yV is -3.78 dB.
한편, 본 발명의 실시예에 따른 소음 환경에서 음절 형태 기반 음소 가중 기법을 이용한 음성의 명료도 향상 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.Meanwhile, the method of enhancing the intelligibility of speech using the syllable type based phoneme weighting technique in the noisy environment according to the embodiment of the present invention can be implemented as a computer readable code on a computer readable recording medium. A computer-readable recording medium includes all kinds of recording apparatuses in which data that can be read by a computer system is stored.
예컨대, 컴퓨터가 읽을 수 있는 기록매체로는 롬(ROM), 램(RAM), 시디-롬(CD-ROM), 자기 테이프, 하드디스크, 플로피디스크, 이동식 저장장치, 비휘발성 메모리(Flash Memory), 광 데이터 저장장치 등이 있다.For example, the computer-readable recording medium includes a ROM, a RAM, a CD-ROM, a magnetic tape, a hard disk, a floppy disk, a removable storage device, a nonvolatile memory, , And optical data storage devices.
또한, 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
In addition, the computer readable recording medium may be distributed and executed in a computer system connected to a computer communication network, and may be stored and executed as a code readable in a distributed manner.
이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.
While the present invention has been described with reference to several preferred embodiments, these embodiments are illustrative and not restrictive. It will be understood by those skilled in the art that various changes and modifications may be made therein without departing from the spirit of the invention and the scope of the appended claims.
210 음절 검출 220 음절형태 분류
230 소음 추정 240 음소전력 조절
250 전력 정규화210
230
250 Power normalization
Claims (9)
음성 신호로부터 음절을 검출하는 단계;
검출된 음절을 분석하여 음절 형태를 분류하는 단계;
주변 소음으로부터 추정된 소음 환경에서 음절 형태별로 자음의 전력을 각각 다르게 조절하는 단계; 및
전력 정규화를 통해 자음의 전력을 강화한 음성 신호와, 그렇지 않은 음성 신호의 전력을 같게 하여 출력하는 단계를 포함하되,
상기 음절 형태는 자음-모음-자음(consonant-vowel-consonant, CVC), 자음-모음(consonant-vowel, CV), 모음-자음(vowel-consonant, VC) 및 모음(vowel, V)을 포함하며,
상기 주변 소음으로부터 추정된 소음 환경에서 음절 형태별로 자음의 전력을 각각 다르게 조절하는 단계에서,
단음절 어음 인지도 평가 결과를 기반으로 상기 각 음절 형태의 음절형태별 인지도 등급 기대치를 구하고,
상기 음절형태별 인지도 등급 기대치를 이용하여 자음의 전력을 각각 다르게 조절하는 것을 특징으로 하는 음절 형태 기반 음소 가중 기법을 이용한 음성의 명료도 향상 방법.
A method for enhancing speech intelligibility using a syllable form based phoneme weighting technique in a noisy environment,
Detecting a syllable from a speech signal;
Analyzing the detected syllable and classifying the syllable form;
Adjusting the powers of the consonants differently according to syllable forms in a noise environment estimated from ambient noise; And
Outputting power of a voice signal in which power of a consonant is enhanced through power normalization and power of a voice signal not having the same power,
The syllable form includes a consonant-vowel-consonant (CVC), a consonant-vowel (CV), a vowel-consonant (VC), and a vowel ,
In the step of adjusting the powers of the consonants according to syllable types in the noise environment estimated from the ambient noise,
Based on the evaluation result of the monosyllabic speech recognition, the recognition degree expectation value for each syllable type is obtained,
Wherein the power of the consonants is adjusted differently by using the recognition expectancy of the syllable type according to the syllable type based phoneme weighting technique.
X는 각각의 음절형태 V, VC, CVC 그리고 CV의 등급을 나타내는 랜덤변수이고, E[X]는 등급 기대치라고 할 때,
상기 각 음절 형태의 음절형태별 음소 가중치를 위한 SPL(Sound Pressure Level) 조절치(dB) y는,
(수학식 3)으로 나타낼 수 있는 것을 특징으로 하는 음절 형태 기반 음소 가중 기법을 이용한 음성의 명료도 향상 방법.
The method according to claim 1,
X is a random variable indicating the grade of each syllable form V, VC, CVC and CV, and E [X]
The SPL (Sound Pressure Level) adjustment value (dB) y for the phoneme weight by the syllable type of each syllable type,
(Equation 3). ≪ / RTI >< RTI ID = 0.0 >
각 음절형태별로 다르게 적용될 음절형태별 음소 가중치 범위는 yCV와 yV 간의 동적 범위(dynamic range) △CW에 의해 결정되며,
(수학식 4)로 나타낼 수 있는 것을 특징으로 하는 음절 형태 기반 음소 가중 기법을 이용한 음성의 명료도 향상 방법.
The method of claim 4,
Each syllable by type different syllable phoneme format specific weight range to be applied is determined by the dynamic range (dynamic range) between the △ CW y y CV and V,
(4). ≪ / RTI > A method for enhancing the intelligibility of speech using a syllable type based phoneme weighting technique.
상수 a는,
(수학식 5)와 같이 나타낼 수 있는 것을 특징으로 하는 음절 형태 기반 음소 가중 기법을 이용한 음성의 명료도 향상 방법.
The method of claim 5,
The constant a,
(Equation 5). ≪ / RTI > In the method of enhancing the intelligibility of speech using the syllable-form-based phoneme weighting technique,
상기 △CW는 12 [dB]인 것임을 특징으로 하는 음절 형태 기반 음소 가중 기법을 이용한 음성의 명료도 향상 방법.
The method of claim 5,
And [Delta] CW is 12 [dB]. A method for improving intelligibility of speech using a syllable form-based phoneme weighting technique.
A computer-readable recording medium having recorded thereon a program capable of causing a computer to execute the method according to claim 1, claim 4, claim 6 or claim 8.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150029729A KR101682796B1 (en) | 2015-03-03 | 2015-03-03 | Method for listening intelligibility using syllable-type-based phoneme weighting techniques in noisy environments, and recording medium thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150029729A KR101682796B1 (en) | 2015-03-03 | 2015-03-03 | Method for listening intelligibility using syllable-type-based phoneme weighting techniques in noisy environments, and recording medium thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160106951A KR20160106951A (en) | 2016-09-13 |
KR101682796B1 true KR101682796B1 (en) | 2016-12-05 |
Family
ID=56946485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150029729A KR101682796B1 (en) | 2015-03-03 | 2015-03-03 | Method for listening intelligibility using syllable-type-based phoneme weighting techniques in noisy environments, and recording medium thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101682796B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10992273B2 (en) | 2018-09-03 | 2021-04-27 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110570875A (en) * | 2018-06-05 | 2019-12-13 | 塞舌尔商元鼎音讯股份有限公司 | Method for detecting environmental noise to change playing voice frequency and voice playing device |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014209182A (en) * | 2013-03-27 | 2014-11-06 | パナソニック株式会社 | Sound emphasizing device and method |
JP2014232245A (en) * | 2013-05-30 | 2014-12-11 | 日本電信電話株式会社 | Sound clarifying device, method, and program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7813931B2 (en) | 2005-04-20 | 2010-10-12 | QNX Software Systems, Co. | System for improving speech quality and intelligibility with bandwidth compression/expansion |
-
2015
- 2015-03-03 KR KR1020150029729A patent/KR101682796B1/en active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014209182A (en) * | 2013-03-27 | 2014-11-06 | パナソニック株式会社 | Sound emphasizing device and method |
JP2014232245A (en) * | 2013-05-30 | 2014-12-11 | 日本電信電話株式会社 | Sound clarifying device, method, and program |
Non-Patent Citations (1)
Title |
---|
L. Hickson et al., ‘Consonant preception in quiet: Effect of increasing the consonant-vowel ratio with compression amplification’, Journal of the American Academy Audiology, Vol.8, No.5, pp.322~332. 1* |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10992273B2 (en) | 2018-09-03 | 2021-04-27 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
Also Published As
Publication number | Publication date |
---|---|
KR20160106951A (en) | 2016-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10628484B2 (en) | Vibrational devices as sound sensors | |
US10586557B2 (en) | Voice activity detector for audio signals | |
US9779721B2 (en) | Speech processing using identified phoneme clases and ambient noise | |
Ma et al. | Objective measures for predicting speech intelligibility in noisy conditions based on new band-importance functions | |
CN102016995B (en) | An apparatus for processing an audio signal and method thereof | |
CN112424863B (en) | Voice perception audio system and method | |
US8126176B2 (en) | Hearing aid | |
US10867620B2 (en) | Sibilance detection and mitigation | |
US8582792B2 (en) | Method and hearing aid for enhancing the accuracy of sounds heard by a hearing-impaired listener | |
US9384759B2 (en) | Voice activity detection and pitch estimation | |
EP2808868B1 (en) | Method of processing a voice segment and hearing aid | |
CN112086093A (en) | Automatic speech recognition system for countering audio attack based on perception | |
US9749741B1 (en) | Systems and methods for reducing intermodulation distortion | |
US9119007B2 (en) | Method of and hearing aid for enhancing the accuracy of sounds heard by a hearing-impaired listener | |
EP3757993B1 (en) | Pre-processing for automatic speech recognition | |
Dekens et al. | Body conducted speech enhancement by equalization and signal fusion | |
EP2823481A2 (en) | Formant based speech reconstruction from noisy signals | |
JP4876245B2 (en) | Consonant processing device, voice information transmission device, and consonant processing method | |
US11367457B2 (en) | Method for detecting ambient noise to change the playing voice frequency and sound playing device thereof | |
Jokinen et al. | Signal-to-noise ratio adaptive post-filtering method for intelligibility enhancement of telephone speech | |
EP2151820B1 (en) | Method for bias compensation for cepstro-temporal smoothing of spectral filter gains | |
KR101682796B1 (en) | Method for listening intelligibility using syllable-type-based phoneme weighting techniques in noisy environments, and recording medium thereof | |
JP2007065285A (en) | Speech signal processing method, device, and program | |
US10964307B2 (en) | Method for adjusting voice frequency and sound playing device thereof | |
Koutsogiannaki et al. | Can modified casual speech reach the intelligibility of clear speech? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
FPAY | Annual fee payment |
Payment date: 20191029 Year of fee payment: 4 |