Nothing Special   »   [go: up one dir, main page]

KR100809368B1 - Voice Color Conversion System using Glottal waveform - Google Patents

Voice Color Conversion System using Glottal waveform Download PDF

Info

Publication number
KR100809368B1
KR100809368B1 KR1020060075140A KR20060075140A KR100809368B1 KR 100809368 B1 KR100809368 B1 KR 100809368B1 KR 1020060075140 A KR1020060075140 A KR 1020060075140A KR 20060075140 A KR20060075140 A KR 20060075140A KR 100809368 B1 KR100809368 B1 KR 100809368B1
Authority
KR
South Korea
Prior art keywords
vocal
wave
speaker
tone
conversion
Prior art date
Application number
KR1020060075140A
Other languages
Korean (ko)
Other versions
KR20080013524A (en
Inventor
오영환
배재현
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020060075140A priority Critical patent/KR100809368B1/en
Priority to PCT/KR2006/004478 priority patent/WO2008018653A1/en
Publication of KR20080013524A publication Critical patent/KR20080013524A/en
Application granted granted Critical
Publication of KR100809368B1 publication Critical patent/KR100809368B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은 음성의 다양한 음색표현이 가능한 화자변환에 관한 것으로서, 보다 구체적으로는 음성의 음색을 나타내는 성대파의 변환을 통하여 발화상황에 맞는 다양한 음색의 변환음을 생성할 수 있는 화자변환을 위한 성대파 음색 변환방법 및 변환시스템에 관한 것이다.The present invention relates to a speaker conversion capable of expressing various tones of speech, and more specifically, to a speaker conversion capable of generating conversion sounds of various tones suitable for a utterance situation by converting a vocal chord wave representing voice tones. A method for converting a long-wave tone and a conversion system.

본 발명의 음색 변환방법은 크게 원시화자의 음성의 성대파의 신호를 분석하는 성대파 신호 분석단계; 상기 분석된 성대파의 신호를 변환하는 성대파 신호 변환단계; 상기 변환된 성대파의 신호를 합성하는 재합성 단계; 를 포함하여 구성되는 것을 특징으로 한다. The tone conversion method of the present invention includes a vocal wave signal analysis step of analyzing a vocal wave signal of a speech of a primitive speaker largely; A vocal wave signal converting step of converting the analyzed vocal wave signal; Resynthesizing the synthesized signal of the converted vocal wave; Characterized in that comprises a.

한편, 본 발명의 음색 변환시스템은, 원시화자의 음성의 성대파를 추출하기 위한 성대파 추출수단; 상기 추출된 성대파로부터 음색 파라미터를 추출하는 음색 파라미터 추출수단; 상기 음색 파라미터를 이용하여 성대파를 변환하는 성대파 변환수단; 및 상기 변환된 성대파를 이용하여 변환음성을 생성하는 변환음성 생성수단; 을 포함하여 구성되는 것을 특징으로 한다.On the other hand, the tone conversion system of the present invention, the vocal cord wave extraction means for extracting the vocal cords of the speech of the primitive speaker; Tone parameter extracting means for extracting a tone parameter from the extracted vocal cords; Vocal wave converting means for converting vocal wave using the timbre parameter; And converted speech generating means for generating a converted speech using the converted vocal wave. Characterized in that comprises a.

상기 구성에 의한 본 발명은 화자변환을 위한 성대파 음색 변환방법 및 변환시스템으로 원시화자의 발성당시의 상황, 문맥상 감정상태 등에 따라 원시화자의 음성을 다양한 음색의 목적화자 음성으로 변환할 수 있는 작용효과를 갖는다.The present invention by the above configuration is a method and conversion system for the vocal cord wave tone conversion for the speaker conversion can convert the primitive speaker's voice to the object speaker voice of various tones according to the situation at the time of primitive speaker's speech, the emotional state of the context, etc. It has an effect.

원시화자, 목적화자, 일반화자, 음색 변환방법, 음색 특징 파라미터, 음색변환시스템 Primitive speaker, object speaker, general speaker, tone conversion method, tone feature parameter, tone conversion system

Description

성대파를 이용한 음색 변환 시스템{Voice Color Conversion System using Glottal waveform}Voice Color Conversion System using Glottal waveform

도 1은 사람이 발화할 때 음성이 생성되는 메카니즘을 설명하기 위한 개념도이다.1 is a conceptual diagram illustrating a mechanism in which speech is generated when a person speaks.

도 2는 본 발명의 다양한 음색표현이 가능한 화자변환을 위한 성대파변환의 흐름도를 나타내는 도면이다.FIG. 2 is a flowchart illustrating a vocal wave conversion for speaker conversion capable of various tone expressions according to the present invention.

도 3은 본 발명에서 이용하는 LF 모델에 의한 성대파와 그 미분된 파형을 나타내는 도면이다.3 is a diagram showing a vocal cord wave and its derivative waveform by the LF model used in the present invention.

도 4는 본 발명에서 이용하는 KLGLOT88 모델에 의해 미분된 성대파를 나타내는 도면이다.4 is a diagram illustrating a vocal cord wave differentiated by the KLGLOT88 model used in the present invention.

도 5는 본 발명에서 성대파의 음색변환을 위해 사용하는 성대파의 특징 파라미터를 도시한 테이블이다.5 is a table showing characteristic parameters of the vocal cords used for the tone conversion of the vocal cords in the present invention.

도 6은 본 발명의 원시화자, 목적화자, 및 일반화자 음색 DB에서 음색 데이터의 저장방식을 나타내는 도면이다.6 is a diagram illustrating a storage method of tone data in a primitive speaker, an object speaker, and a general speaker tone DB of the present invention.

도 7은 본 발명의 여러 음색에 대한 NAQ 파라미터 값의 분포를 나타낸 그래프이다.7 is a graph showing the distribution of NAQ parameter values for the various tones of the present invention.

도 8은 본 발명의 여러 음색별 성대파의 변화를 보여주는 설명도이다.8 is an explanatory diagram showing changes in vocal chord waves for various tones of the present invention.

도 9는 본 발명의 성대파 신호 변환단계에서 처리과정을 나타내는 흐름도이다. 9 is a flowchart illustrating a process in the vocal wave signal conversion step of the present invention.

도 10은 본 발명의 성대파 신호 변환을 처리하는 시스템을 설명하기 위한 블록개념도이다. 10 is a block diagram for explaining a system for processing vocal wave signal conversion according to the present invention.

본 발명은 음성의 다양한 음색표현이 가능한 화자변환에 관한 것으로서, 보다 구체적으로는 음성의 음색을 나타내는 성대파의 변환을 통하여 발화상황에 맞는 다양한 음색의 변환음을 생성할 수 있는 화자변환을 위한 성대파 음색 변환방법에 관한 것이다. The present invention relates to a speaker conversion capable of expressing various tones of speech, and more specifically, to a speaker conversion capable of generating conversion sounds of various tones suitable for a utterance situation by converting a vocal chord wave representing voice tones. It relates to a method for converting long-wave tone.

도 1은 사람이 발음을 할 때 음성이 생성되는 과정을 설명하기 위한 것이다. 사람이 발음을 하면 기관지에서 나온 공기가 성대를 지나면서 성대파(Glottal Wave)가 만들어진다. 이때 사람은 숨을 내쉬는 동안 발음을 하게 되므로 날숨에 의한 잡음(기식음)이 성대파에 포함된다. 이 성대파가 성도(Vocal Tract)를 지나면서 조음현상을 일어나게 하며, 마지막으로 입술을 통하여 공기 중으로 방사(Lip Radiation)되면서 음성이 생성되는 것이다. 본 발명은 사람이 발음을 할 때 생성되는 음성이 성대를 지나며 생성하는 성대파의 변환에 관한 것으로, 발성당시의 주위환경, 감정 등에 따라 성대파의 모양이 바뀌게 되며 이를 통하여 여러 가지 음색의 음성이 생성이 가능하다는 점에 착안한 것이다.1 is for explaining a process of generating a voice when a person pronounces. When a person pronounces, the air from the bronchus passes through the vocal cords, creating a spectral wave. At this time, the person is pronounced during the exhalation, so the noise caused by the exhalation (phrasing sound) is included in the vocal cords. This vocal wave causes articulation as it passes through the vocal tract, and finally, voice is generated as it is radiated into the air through the lips. The present invention relates to the conversion of the vocal cords that the voice generated when a person pronounces through the vocal cords, the shape of the vocal cords is changed according to the surrounding environment, emotions, etc. at the time of speech, and the voice of various tones The idea is that it can be created.

특정인(이하 '목적화자'라 함)의 음성을 흉내 내기 위한 기존의 방법으로는 전문 성우가 그 사람의 음성을 흉내 내는 방법과, 컴퓨터를 이용하여 목적화자의 음성으로 변환하는 방법이 있다. Conventional methods for mimicking the voice of a specific person (hereinafter referred to as the 'object speaker') include a method in which a professional voice actor mimics the person's voice and converts it into a target speaker's voice using a computer.

위 방법 중 전문 성우를 이용하는 경우에는 목적화자 음성의 특정부분에 대해 운율적인 특징은 어느 정도 모사가 가능하나, 다양하고 자연스러운 음색을 표현하기에는 무리가 있다. In the case of using the professional voice actor of the above methods, the rhyme characteristic of a specific part of the target speaker's voice can be simulated to some extent, but it is difficult to express various natural tones.

그리고 컴퓨터를 이용하여 임의의 발화자(이하 '원시화자'라 함)의 음성을 목적화자의 음성으로 변환하는 화자 변환 방법의 경우, HMM(Hidden Markov Model)이나 GMM(Gaussian Mixture Model) 그리고 신경망(Neural Network)을 이용하는 방법이 있다.In the case of a speaker conversion method of converting a voice of an arbitrary talker (hereinafter, referred to as a 'native speaker') into a target speaker's voice using a computer, HMM (Hidden Markov Model), GMM (Gaussian Mixture Model), and Neural network Network).

종래의 HMM과 GMM 및 신경망을 이용하는 방법은 먼저 원시화자와 목적화자의 음성에서 LPC(Linear Prediction Coefficient), LSP(Line Spectral Pair), MFCC(Mel-Frequency Cepstral Coefficient), 및HNM(Harmonic and Noise Model) 특징과 같은 음성의 성도(Vocal Tract) 특징 파라미터를 추출하고, 각각의 화자에 대한 특징 파라미터를 이용하여 HMM이나 GMM 모델을 각각 학습시키고, 각각의 학습된 모델들 간의 변환 함수를 구하여 원시화자의 성도특징을 목적화자의 성도특징으로 변환하는 방식이다. 또한 운율의 경우에는 목적화자의 운율을 모델링하여 이를 변환된 음성에 그대로 씌워주는 방법이 주로 사용된다. 목적화자의 운율을 흉내 내기 위한 방법으로는 원시화자와 목적화자의 피치히스토그램을 만들고 그 히스토그램에 매칭되는 여기신호(Excitation Signal)를 사용하는 방법이 있다. 성대파의 경우 목적화자의 기본주파수 정보를 제외한 여기신호를 변환음성에 그대로 사용한다. Conventional methods of using HMM, GMM, and neural networks include linear prediction coefficients (LPC), line spectral pairs (LPS), mel-frequency cepstral coefficients (MFCC), and harmonic and noise models. ) Extract Vocal Tract feature parameters such as features, train the HMM or GMM models using the feature parameters for each speaker, and obtain the conversion function between the trained models. It is a method of converting saints 'characteristics into saints' characteristics of the object speaker. In addition, in the case of rhyme, a method of modeling the rhyme of the target speaker and using it on the converted voice is mainly used. As a method for simulating the rhyme of the object speaker, a pitch histogram of the primitive speaker and the object speaker is made and an excitation signal matching the histogram is used. In the case of a vocal cord wave, the excitation signal except for the fundamental frequency information of the target speaker is used as it is for the converted voice.

그러나 종래의 화자 변환방법은 운율과 성도특성은 변환방법이 존재하나, 음색을 나타내는 성대특성의 경우 목적화자의 여기신호를 그대로 이용함으로써, 주어진 여기신호에 담긴 음색을 그대로 사용할 수밖에 없다는 문제점이 있다.However, in the conventional speaker conversion method, there is a conversion method between the rhyme and the vocal trait characteristics, but in the case of the vocal cord characteristic representing the timbre, the excitation signal of the target speaker is used as it is, so that the timbre contained in the given excitation signal is used as it is.

이러한 방식은 상황에 따른 다양한 음색을 제대로 표현하기 어렵고, 원시화자가 발성할 당시의 감정, 환경, 문맥에 따른 음색의 변화가 반영되지 못하고, 처음 주어진 일정한 음색으로만 변환가능하다. 따라서 종래의 방법만으로는 특정한 상황에 맞는 감정 및 화자의 상태를 나타낼 수 있는 다양한 음색의 변환음성을 만들 수 없다는 문제점을 안고 있는 것이다.This method is difficult to properly express various tones according to the situation, and does not reflect the change of the tone according to the emotion, environment, and context at the time of primitive utterance, and can be converted only to the given tone. Therefore, the conventional method alone has a problem in that it is not possible to make a conversion voice of various tones that can express the emotion and the speaker's state appropriate to a specific situation.

본 발명의 목적은 상기와 같이 특정인의 목소리를 극히 유사하게 생성하기 위한 것으로, 그 사람이나 그의 목소리를 흉내 내는 전문 성우에 의존하지 않고 특정인물의 음성을 과학적으로 생성하며, 시간과 장소에 구애받음 없이 특정인의 감정에 따른 다양한 음색의 음성을 생성하는 성대파 음색 변환방법을 제공하는 것이다.An object of the present invention is to produce a specific person's voice in a very similar manner as described above, and scientifically generates a specific person's voice without depending on the person or a professional voice actor mimicking his or her voice, regardless of time and place. The present invention provides a method for converting a vocal chord wave to generate voices of various tones according to a particular person's emotion.

본 발명의 또 다른 목적은 기존의 화자변환방식의 문제점인 한 가지 음색만을 가진 변환음을 생성하는 것을 지양하고 상황에 따른 다양한 음색의 변환음을 생성할 수 있는 방법을 제공하는 것이다. Still another object of the present invention is to provide a method for generating conversion sounds of various tones according to a situation, rather than generating conversion sounds having only one tone, which is a problem of the conventional speaker conversion method.

상기한 바와 같은 목적을 달성하기 위한 본 발명에 의한 화자변환을 위한 성대파 음색 변환방법은, 원시화자의 음성의 성대파의 신호를 분석하는 성대파 신호 분석단계; 상기 분석된 성대파의 신호를 변환하는 성대파 신호 변환단계; 및 상기 변환된 성대파의 신호를 합성하는 재합성 단계; 를 포함하여 구성되는 것을 특징으로 한다. According to the present invention, there is provided a vocal wave wave tone conversion method for speaker conversion, comprising: a vocal wave signal analyzing step of analyzing a vocal wave signal of a speech of a primitive speaker; A vocal wave signal converting step of converting the analyzed vocal wave signal; And resynthesizing the signal of the converted vocal cords. Characterized in that comprises a.

그리고 상기 성대파 신호 분석단계는, 상기 원시화자의 음성으로부터 성대파를 추출하는 성대파 추출단계; 및 상기 추출된 성대파의 음색 특징 파라미터를 추출하는 음색 특징 파라미터 추출단계; 로 구성되는 것을 특징으로 한다.And the vocal wave signal analyzing step includes: extracting the vocal cords from the voice of the primitive speaker; And a tone feature parameter extraction step of extracting a tone feature parameter of the extracted vocal cords. Characterized in that consists of.

또한, 상기 성대파 신호 변환단계는, 상기 원시화자의 음성으로부터 여러 음색별 성대파 특징 파라미터를 데이터베이스화 하여 상기 원시화자 음색 DB를 구축하는 단계; 및 상기 목적화자의 음성으로부터 여러 음색별 성대파 특징 파라미터를 데이터베이스화 하여 상기 목적화자 음색 DB를 구축하는 단계; 를 포함하는 것을 특징으로 한다. 여기서 상기 성대파 신호 변환단계는, 다양한 일반화자의 음성으로부터 여러 음색별 성대파 특징 파라미터를 데이터베이스화 하여 상기 일반화자 음색 DB를 구축하는 단계; 를 더 포함하는 것을 특징으로 한다. 또한 여기서 상기 성대파 신호 변환단계는, 상기 원시화자 음색 DB, 목적화자 음색 DB 및 일반화자 음색 DB에 저장된 각 음색의 특징 파라미터 변화량을 참조하여 상기 각 음색 DB간의 대응관계를 구축하는 단계; 를 더 포함하는 것을 특징으로 한다. The vocal wave signal converting step may include: constructing the primitive speaker tone DB by databaseting a vocal wave feature parameter for each tone from a voice of the primitive speaker; And constructing the destination speaker tone DB by databaseing the vocal chord wave feature parameters for each tone from the voice of the object speaker. Characterized in that it comprises a. Here, the step of converting the vocal wave signal comprises: constructing the general narrator tone DB by databaseting vocal wave characteristic parameters for various tones from voices of various general speakers; It characterized in that it further comprises. The voice wave signal converting step may include: establishing a correspondence relationship between each tone DB by referring to a feature parameter variation amount of each tone stored in the primitive speaker tone DB, the target speaker tone DB, and the general speaker tone DB; It characterized in that it further comprises.

한편, 상기 특징 파라미터는 성대가 열려있는 구간을 나타내는 OQ, 성대가 닫혀있는 구간을 나타내는 CQ, 유효 여기값 EE(Effective Excitation), 및 신호의 크기 E 0 인 것이 바람직하며, 상기 특징 파라미터의 변화량은 다음 식으로 정의되는 NAQ 파라미터인 것을 특징으로 한다.The feature parameter may be an OQ indicating an open section of the vocal cords, a CQ indicating a section in which the vocal cords are closed, an effective excitation value EE (Effective Excitation), and a magnitude of the signal E 0 . It is characterized in that the NAQ parameter defined by the following equation.

Figure 112006056942534-pat00001
Figure 112006056942534-pat00001

한편, 본 발명의 또 다른 측면으로서 화자변환을 위하여 음색을 변환하는 음색 변환시스템에 관한 본 발명은, 원시화자의 음성의 성대파를 추출하기 위한 성대파 추출수단; 상기 추출된 성대파로부터 음색 파라미터를 추출하는 음색 파라미터 추출수단; 상기 음색 파라미터를 이용하여 성대파를 변환하는 성대파 변환수단; 및 상기 변환된 성대파를 이용하여 변환음성을 생성하는 변환음성 생성수단; 을 포함하여 구성되는 것을 특징으로 한다.On the other hand, according to another aspect of the present invention, the present invention relates to a tone conversion system for converting a tone for speaker conversion, including: a vocal wave extraction means for extracting a vocal wave of a primitive speaker's voice; Tone parameter extracting means for extracting a tone parameter from the extracted vocal cords; Vocal wave converting means for converting vocal wave using the timbre parameter; And converted speech generating means for generating a converted speech using the converted vocal wave. Characterized in that comprises a.

바람직하게 상기 성대파 추출수단은 A/D 컨버터 및 입력버퍼를 포함하며, 상기 성대파 음색파라미터 추출수단 및 성대파 변환수단은 명령어 기억장치 및 주제어기를 포함하고, 상기 변환음성 생성수단은 D/A 컨버터 및 출력버퍼를 포함하는 것을 특징으로 한다. 나아가 상기 성대파 음색 변환시스템은 원시화자, 목적화자, 및 일반화자의 음색 DB가 저장된 기억장치를 더 포함하는 것을 특징으로 한다.Preferably, the vocal wave extracting means includes an A / D converter and an input buffer, and the vocal wave wave tone parameter extracting means and the vocal wave converting means include a command memory device and a main controller, and the converted speech generating means is a D / A. It characterized in that it comprises a converter and an output buffer. Furthermore, the vocal cord wave tone conversion system further includes a memory device in which the tone DB of the primitive speaker, the target speaker, and the general speaker is stored.

이하, 상기한 바와 같은 구성을 가지는 본 발명에 의한 화자변환을 위한 성대파 음색 변환방법을 첨부된 도면을 참고하여 상세하게 설명한다.Hereinafter, a method for converting a vocal wave tones for speaker conversion according to the present invention having the above configuration will be described in detail with reference to the accompanying drawings.

도 2는 본 발명의 다양한 음색표현이 가능한 화자변환을 위한 성대파변환의 흐름도를 나타내는 도면이다. 본 발명은 상기 도 2에서 보는 바와 같이 크게 원시화자의 성대파 신호 분석단계, 성대파 신호 변환단계, 그리고 재합성단계로 구성된다. FIG. 2 is a flowchart illustrating a vocal wave conversion for speaker conversion capable of various tone expressions according to the present invention. As shown in FIG. 2, the present invention is largely composed of a primitive vocal wave signal analysis step, a vocal wave signal conversion step, and a resynthesis step.

상기 성대파 신호 분석단계는 다시 입력된 원시화자의 음성신호로부터 성대파를 추출하는 단계와 추출된 성대파로부터 다양한 음색을 나타내는 파라미터를 추출하는 단계로 나누어 구성된다. 다음으로 성대파 신호 변환단계는 상기 추출된 성대파 음색 파라미터를 각종 음색 DB의 데이터를 이용하여 성대파 신호로 변환한다. 이 때 참조되는 음색 DB는 원시화자 음색 DB, 목적화자 음색 DB, 및 일반화자 음색 DB로 구성된다. The vocal wave signal analyzing step is divided into a step of extracting the vocal cords from the inputted speech signal of the primitive speaker and a step of extracting parameters representing various tones from the extracted vocal cords. Next, the vocal wave signal converting step converts the extracted vocal wave signal to a vocal wave signal using data of various tone DBs. The tone DB referred here is composed of a primitive speaker tone DB, a target speaker tone DB, and a general speaker tone DB.

상기 목적화자 음색DB는 목적화자만이 가지는 고유의 음색을 나타내는 모델로, 각 음색별로 목적화자의 특징 파라미터를 모아놓은 데이터베이스이다. 일반화자 음색 DB는 다수의 일반인을 화자로 하여 여러 가지 음색에 대한 특징 파라미터를 추출하여 모아놓은 데이터베이스이다. The target speaker tone DB is a model representing a unique tone owned only by the target speaker, and is a database in which characteristic parameters of the target speaker are collected for each tone tone. General speaker tone DB is a database that extracts and collects feature parameters for various tones using a large number of ordinary people as speakers.

성대파 신호 변환단계는 목적화자의 음색모델과 일반화자의 음색모델을 가중 결합한 음색 특징파라미터를 이용하여 성대파 신호 분석단계에서 추출된 원시화자의 음색 특징파라미터를 변환하여 목적화자의 음색이 고려된 성대파로 변환하는 단계이다. In the vocal wave signal conversion step, the vocal vocal cords of the target speaker are considered by converting the tone characteristic parameters of the primitive speaker extracted in the vocal wave signal analysis step by using the tone feature parameters of the target speaker's tone model and the general speaker's tone model. Convert to wave.

재합성단계는 HMM 등을 이용한 성도특징 변환 파라미터와 성대파 신호 변환단계에서 나온 음색 변환된 성대파를 이용하여 음성을 재구성하여 최종 변환음을 생성한다.In the resynthesis step, the voice is reconstructed using the vocal trait conversion parameter using HMM and the voice-converted vocal wave resulting from the vocal wave signal conversion step to generate the final conversion sound.

한편 상기 성대파 신호 분석단계에서는 샘플링 과정을 거쳐 디지털 신호로 변경된 입력신호로부터 성대파를 추출하고, 추출된 상기 성대파로부터 음색을 나타내는 특징파라미터를 추출한다. 성대파 추출 시에는 음성에서 성도특성을 최대한 제거하여, 성대파만 남도록 한다. 상기 성대파는 음성의 선형분석(Linear Prediction) 알고리즘을 사용하여 여기신호(Excitation Signal)를 역필터링(Inverse Filtering)하여 구할 수 있다. 추출된 상기 성대파를 분석하기 위하여 상기 성대파를 시간 축에 따라 한번 미분하여 상기 성대파의 미분된 파형(Glottal Derivative Signal)을 구한다. On the other hand, in the vocal wave signal analysis step, the vocal cord wave is extracted from the input signal changed into a digital signal through a sampling process, and feature parameters representing a tone tone are extracted from the extracted vocal cord wave. When extracting the vocal cords, vocal traits are removed from the voice as much as possible, leaving only the vocal cords. The vocal cords can be obtained by inverse filtering of an excitation signal using a linear analysis algorithm of speech. In order to analyze the extracted vocal cords, the vocal cords are differentiated once along the time axis to obtain a differentiated waveform of the vocal cords.

도 3은 본 발명에서 이용하는 LF 모델에 의한 성대파와 그 미분된 파형을 나타내는 도면이다. 추출되어진 미분된 성대파형은 LF (Liljencrants-Fant) 모델을 이용하여 모델링하며 다음 식으로 표현된다. 3 is a diagram showing a vocal cord wave and its derivative waveform by the LF model used in the present invention. The extracted differential vocal cord waveform is modeled using LF (Liljencrants-Fant) model and is expressed by the following equation.

Figure 112007071357071-pat00020
(1)
Figure 112007071357071-pat00020
(One)

여기서, E0 는 성대파 신호를 나타내는 것으로 성대가 최대한 열렸을 때 성대파 신호의 측정값을 나타내고, EE 는 유효 여기값(Effective Excitation)으로 성대가 닫히는 최대속도이며, Te 는 성대가 열려있는 시간, Tc 는 성대가 닫히는 시간 , T0 는 성대가 열렸다 닫히는 주기를 나타낸다. 도 3을 자세히 설명하면, 성대파 신호(glottal wave)와, 그 아래에 미분된 성대파(derivatine glottal wave), 즉, 성대가 열리는 속도를 나타내고 있다. 더욱 상세하게, 상기 도 3(아래 도면 참조)에서 시각 Tp는 성대가 열리는 속도가 양수에서 음수로 전환되는 지점으로 0~Tp구간은 성대가 열리는 속도가 계속 양수(>0)인 구간이고, 그 이후 구간부터는 성대가 점점 닫히는 구간이다. 따라서 시간 Tp에서 성대가 최대한 열려진 상대가 되며, 이 때, 위 도면의 성대파 신호를 보면 U0로 최대치를 가지므로 상기 도면의 U0는 본 발명의 성대파 신호인 E0로 참조될 수 있음은 물론이다. Where E 0 represents the vocal vocal wave signal, which indicates the measured value of the vocal vocal wave signal when the vocal cord is opened as much as possible , EE is the maximum velocity at which the vocal cord is closed by the effective excitation, and Te is the time when the vocal cord is open, Tc is the time when the vocal cords are closed, and T 0 is the cycle of opening and closing the vocal cords. Referring to FIG. 3 in detail, it shows a glottal wave and a derivative glodital wave (derivatine glottal wave) below it, that is, the speed at which the vocal cords open. More specifically, in FIG. 3 (see the drawing below), the time Tp is a point where the speed of opening the vocal cords is changed from positive to negative, and a section 0 to Tp is a section in which the speed of opening the vocal cords is positive (> 0). After that, the vocal cords are gradually closed. In Therefore, the vocal cords at the time Tp and the maximum open contact, and in this case, because the look of sex onion signal of the figure above, of the maximum value to U 0 U 0 of the drawings may be referred to as the E 0 St. onion signal of the present invention Of course.

성대파 표현을 위하여 상기 LF 모델 외에 KLGLOT88모델이 사용될 수 있으며, 이는 아래의 식으로 표현된다.In addition to the LF model, the KLGLOT88 model may be used to represent the vocal wave, which is represented by the following equation.

Figure 112006056942534-pat00003
(2)
Figure 112006056942534-pat00003
(2)

여기서, ab는 성대파 진폭(voicing amplitude; AV)과 O q에 의한 식으로 정의되며 다시 아래와 같이 표현된다.Here, a and b are defined by voicing amplitude ( AV ) and O q , and are expressed as follows.

Figure 112006056942534-pat00004
(3)
Figure 112006056942534-pat00004
(3)

이때 AV는 LF모델의 E 0와 동일한 파라미터이며, O q 또한 LF모델의 OQ와 같은 파라미터이고, T 0 는 성대파의 기본주기를 나타낸다. At this time, AV is the same parameter as E 0 of the LF model, O q is the same parameter as the OQ of the LF model, and T 0 represents the basic period of the vocal wave.

도 4는 상기 KLGLOT88 모델로 미분된 성대파의 파형을 나타낸 것이다. 상기 도 3 및 도 4에 의하면 각각에 적용된 모델식이 다르더라도 동일한 특징 파라미터를 사용하므로 파형의 윤곽은 동일 또는 유사함을 알 수 있다.4 shows waveforms of vocal cords differentiated with the KLGLOT88 model. 3 and 4, even though the model equations applied to each are different, the same feature parameters are used, and thus the contours of the waveforms are the same or similar.

도 5는 본 발명에서 성대파의 음색변환을 위해 사용하는 성대파의 특징 파라미터를 나타낸 것이다. 상기 특징 파라미터는 성대가 열려있는 구간을 나타내는 OQ, 성대가 닫혀있는 구간을 나타내는 CQ, 유효 여기값 EE(Effective Excitation), 및 신호의 크기 E 0 이며, 다양한 음색을 표현하는제 필요하다. 상기 특징 파라미터는 도 3 또는 도 4를 이용하여 미분된 성대파를 LF 모델에 맞추는 과정에서 구할 수 있으며, LF모델로 미분된 성대파를 모델링 한 후에는 미분된 성대파의 특징 파라미터와 실제 미분된 성대파와 모델간의 차이를 나타내는 에러신호를 구할 수 있 다.Figure 5 shows the characteristic parameters of the vocal cords used for the tone conversion of the vocal cords in the present invention. The characteristic parameters may include an OQ representing an open vocal cord, a CQ representing an closed vocal cord, an effective excitation value EE, and the magnitude of the signal E 0. It is necessary to express various tones. The characteristic parameters may be obtained in the process of fitting the differentiated vocal wave to the LF model using FIG. 3 or FIG. 4. After modeling the differentiated vocal wave with the LF model, the characteristic parameter of the differentiated vocal wave is actually differentiated An error signal representing the difference between the vocal cords and the model can be obtained.

도 6은 본 발명에서 원시화자, 목적화자, 및 일반화자 음색 DB 내의 음색 데이터의 저장방식을 설명하기 위한 도면이다. 여기서 목적화자 음색 DB는 목적화자의 실제 음성을 위에서 기술한 신호 분석단계에서 분석한 성대파 특징 파라미터와 에러신호를 각 음색별로 저장하고 있는 데이터베이스이며, 일반화자 음색 DB는 다수의 화자들의 실제 음성을 대상으로 위에서 기술한 신호 분석단계를 이용하여 분석한 성대파 특징 파라미터와 에러신호를 음색별로 저장하고 있는 데이터베이스이다. 성대파로 나타낼 수 있는 음색에는 숨소리(breathy voice), 긴장한 목소리(tense voice), 정상 목소리(normal voice)가 대표적이며, 목적화자와 일반화자 음색 DB에는 이를 기준으로 여러 음색에 대한 특징 파라미터를 도 6에 나타낸 테이블의 형식으로 저장한다. 숨소리의 경우 OQ와 CQ가 명확히 나눠지지 않으며, EE 지점이 편평하게 나타난다. 긴장한 목소리의 경우 EE지점이 매우 뾰족하게 나타나며, CQ가 OQ에 비해 월등히 길게 나타난다. 정상 목소리의 경우 평균적인 OQ, CQ, 및 EE를 가진다. 변환된 성대파의 생성 시 위에서 기술한 OQ, CQ, EE, 및 E 0 등을 조절하여 나타낼 수 있다. 그리고 이들 특징 파라미터의 조절로 다양한 음색을 표현할 수 있음은 물론이다. 원시화자 음색 DB는 실제 발화자인 원시화자의 다양한 음색을 저장하고 있는 데이터베이스로서 원시화자의 발화당시의 상황, 감정 등에 따라 분류되어 있다. 상기 세 가지 음색 DB는 각 상황에 따른 음색을 기준으로 각 음색마다 서로 대응을 시켜놓는다. 그리고 상기 대응관계는 파라미터 변화량의 히스 토그램을 구하여 대응시킨다. 이러한 매핑을 이용하여 원시화자의 다양한 음색을 목적화자 및 일반화자 음색 DB로부터 목적화자에 알맞는 음색으로 추출할 수 있다. 위에서 설명한 세 가지 음색 DB는 그 음색 번호에 따라 서로 대응되는 음색이 되도록 구성한다.FIG. 6 is a diagram for describing a storage method of tone data in a primitive speaker, an object speaker, and a general speaker tone DB in the present invention. Here, the target speaker tone DB is a database that stores the vocal wave characteristic parameters and error signals analyzed for each tone by analyzing the actual voice of the target speaker in the above-described signal analysis step. It is a database that stores the vocal wave characteristic parameters and error signals analyzed using the above-described signal analysis step for each tone. The voices that can be represented by the vocal chords are typical of the breath voice, the tension voice, and the normal voice. Save it in the format shown in the table. In the case of breath, OQ and CQ are not clearly divided, and the EE point is flat. In the case of nervous voices, the EE point is very sharp, and CQ is much longer than OQ. Normal voices have an average OQ, CQ, and EE. When generating the converted vocal cords, the above-described OQ, CQ, EE, and E 0 may be adjusted. And, of course, it is possible to express various tones by adjusting these feature parameters. The primitive speaker tone DB is a database that stores various tones of the primitive speaker, who is the actual speaker, and is classified according to the situation and emotions of the primitive speaker at the time of utterance. The three tones DB correspond to each other based on the tone according to each situation. The correspondence is obtained by matching a histogram of the amount of parameter change. Using this mapping, various tones of the primitive speaker can be extracted from the destination speaker and the general speaker tone DB into a tone suitable for the object speaker. The three tones DB described above are configured to correspond to each other according to the tones number.

이하에서는 원시화자, 목적화자, 및 일반화자에 공통된 음색끼리의 대응관계를 보이기 위하여 여러 음색에 대하여 위 여러 화자들에 공통된 특성을 나타냄을 설명한다. 본 발명에서는 이를 위하여 NAQ 파라미터를 도입한다. NAQ 파라미터는 상기 열거한 성대파 특징 파라미터의 조합으로 표현할 수 있으며, 이는 아래의 간단한 산술식으로 표현된다.Hereinafter, in order to show correspondences between the tones common to the primitive speaker, the object speaker, and the general speaker, the characteristics common to the various speakers are described. The present invention introduces a NAQ parameter for this purpose. The NAQ parameter can be expressed as a combination of the above-listed vocal wave feature parameters, which is represented by the following simple arithmetic expression.

Figure 112006056942534-pat00005
(4)
Figure 112006056942534-pat00005
(4)

즉, 도 5에서 보인 성대파 파형으로부터 상기 열거한 성대파 특징 파라미터를 추출하며 상기 식 (4)를 이용하여 NAQ 파라미터를 생성하여 그 분포를 보임으로써 상기 열거한 성대파 특징 파라미터들간의 대응관계를 파악할 수 있다.That is, the above-mentioned vocal wave characteristic parameters are extracted from the vocal wave waveforms shown in FIG. 5 and the NAQ parameters are generated using Equation (4) to show the distribution thereof. I can figure it out.

도 7은 성대파 특징 파라미터를 조합하여 만든 NAQ 파라미터의 분포를 상자-수염 분포로 표시한 것으로, 13명의 화자에 대해 각각 숨소리(Bre), 일반(Nor), 긴장된(Pre)의 3가지 음색으로 발음하게 한 후, 그 성대파를 분석하고, NAQ 파라미터의 분포를 나타낸 그림이다. 상기 도 7에 의하면 공통된 음색에 대해 NAQ 파라미터의 크기가 일정하게 분포함을 알 수 있으며, 이를 통해 각 음색에 대한 파라미터 값의 변화량이 일정한 경향을 나타낸다고 말할 수 있다. 따라서 이와 같은 음색의 특성으로부터 각 음색 별로 화자간의 대응관계를 설정할 수 있는 것이다.FIG. 7 shows the distribution of NAQ parameters created by combining the vocal wave characteristics parameters in a box-beard distribution. The three voices of 13 speakers, namely, breath, nor, and tension, are shown in FIG. After pronunciation, analyze the vocal cords and show the distribution of NAQ parameters. Referring to FIG. 7, it can be seen that the size of NAQ parameters is uniformly distributed with respect to a common tone, and thus, it can be said that the amount of change in parameter values for each tone is constant. Therefore, it is possible to set the correspondence relationship between the speakers for each tone from the characteristics of the tone.

도 8은 3가지 음색에 대하여 미분된 성대파의 파형을 나타낸 그림으로서 각 음색에 대하여 OQ, CQ, 및 EE 특징 파라미터의 변화를 볼 수 있다. 상기 도 8에 의하면 숨소리(breathy voice)의 경우 OQ와 CQ의 구분이 모호하게 나타나고, EE 지점이 완만한 모양을 그리는 반면 긴장된 목소리(pressed voice)의 경우 상대적으로 OQ보다 CQ가 길어지며, EE지점이 매우 날카롭고 뾰족하게 나타나는 특징을 갖는다.FIG. 8 is a diagram illustrating waveforms of differential vocal cords for three timbres, and changes in OQ, CQ, and EE characteristic parameters for each timbre can be seen. According to FIG. 8, the distinction between OQ and CQ appears vaguely in the case of breath voice, while the EE point shows a gentle shape, while in the case of the compressed voice, the CQ is relatively longer than the OQ, and the EE point It has the characteristic of appearing very sharp and pointed.

성대파 신호 변환단계에서는 목적화자의 음색DB에서 원하는 음색에 맞는 성대파 특징 파라미터와 에러신호를 추출하여 파라미터 값을 변화시켜 원하는 음색의 목적화자 성대파 모델을 생성한다. 만약 수집된 목적화자의 음색 DB에서 원하는 음색이 없는 경우에는 일반화자 음색 DB에서 원하는 음색의 특징 파라미터와 정상음색의 특징 파라미터를 찾은 후, 두 가지 음색간의 특징 파라미터 변화량을 구한다. 그 후, 목적화자 음색 DB에서 정상적인 평이한 음색의 성대파 특징 파라미터에 구해진 특징 파라미터 변화량을 적용함으로써, 목적화자의 원하는 음색을 표현하는 성대파 모델을 생성한다. 생성된 성대파 모델에 대하여 기존의 운율 변환단계에서 구해진 기본주파수, 지속시간, 에너지 파라미터와 결합하여 실제 성대파(g(t))를 생성한다. 생성된 성대파에 대하여 사람이 음성을 발화할 때 입술에서의 방사효과를 나타내는 (r(t))를 통과시키고, 기존의 성도특성 변환단계에서 구해진 성도 특성 파라미터로 구성된 선형예측(Linear Prediction) 필터(v(t))를 통과시킴으로써 최종적으로 목적화자의 원하는 음성(s(t))을 생성한다. In the vocal wave signal conversion step, a vocal wave feature parameter and an error signal suitable for a desired tone are extracted from a tone DB of the target speaker, and a parameter value is changed to generate a target speaker vocal wave model of a desired tone. If there are no desired tones in the collected tone of the target speaker, the feature parameters of the desired tone and the normal tone are found in the general toneer DB. Thereafter, a vocal chord wave model representing the desired tone of the target speaker is generated by applying the characteristic parameter variation amount obtained from the vocal chord wave feature parameter of the normal plain tone in the target toneer DB. The generated vocal wave model is combined with the fundamental frequency, duration, and energy parameters obtained in the existing rhyme conversion step to generate an actual vocal wave ( g (t) ). Linear Prediction filter consisting of vocal trait parameters obtained from the vocal trait conversion step, passing ( r (t) ) representing the radiation effect on the lips when a person utters voice on the generated vocal cords Passing ( v (t) ) finally produces the desired voice s (t) of the destination speaker.

도 9는 상기에서 설명한 본 발명의 성대파 신호 변환 단계의 처리과정을 나 타내는 흐름도이며, 이는 아래의 식으로 표현된다.9 is a flowchart showing a process of the vocal wave signal conversion step of the present invention described above, which is represented by the following equation.

Figure 112006056942534-pat00006
(5)
Figure 112006056942534-pat00006
(5)

여기서,

Figure 112006056942534-pat00007
는 콘볼루션(Convolution)을 나타낸다.here,
Figure 112006056942534-pat00007
Denotes convolution.

아래의 식은 방사효과를 나타내는 필터(r(t))에 관한 식이다.The following equation is for the filter ( r (t) ) showing the radiation effect.

Figure 112006056942534-pat00008
(6)
Figure 112006056942534-pat00008
(6)

상기 신호 변환단계를 거쳐 최종 생성된 음성은 목적화자의 목소리를 그대로 재현하면서 다양한 음색을 표현할 수 있어 한 가지 음색으로만 표현이 가능했던 종래의 화자 변환시스템에 비해 풍부한 변환음성을 제공할 수 있다.The voice finally generated by the signal conversion step can provide a variety of voices while reproducing the voice of the target speaker as it is, can provide a rich conversion voice compared to the conventional speaker conversion system that could be represented by only one voice.

도 10은 본 발명의 성대파 신호 변환을 처리하는 시스템을 설명하기 위한 블록개념도이다. 상기 도 10에서 보는 바와 같이, 화자의 음성이 A/D 컨버터 및 입력버퍼에 입력되어 성대파가 추출 처리되며, 상기 추출된 성대파 음색은 명령어 기억장치 및 주제어기에 의해 성대파 음색 파라미터가 추출되어 성대파로 변환되고, 다시 D/A 컨버터와 출력버퍼를 통하여 최종 음성으로 출력되는 구성을 갖는다.10 is a block diagram for explaining a system for processing vocal wave signal conversion according to the present invention. As shown in FIG. 10, the voice of the speaker is input to the A / D converter and the input buffer to extract the vocal cords, and the extracted vocal cords are extracted by the command memory and the main controller. It is converted into vocal wave and is output as final voice through D / A converter and output buffer.

본 발명의 화자변환을 위한 성대파 음색 변환방법은 원시화자의 발성당시의 상황, 문맥상 감정상태 등에 따라 원시화자의 음성을 다양한 음색의 목적화자 음성으로 변환할 수 있는 작용효과를 갖는다.The vocal cord wave conversion method for speaker conversion of the present invention has an effect of converting a primitive speaker's voice into a target speaker's voice of various tones according to the situation at the time of primitive speaker's speech, the emotional state of the context, and the like.

또한 본 발명은 애니메이션, 영화, 연극, CF 등 상황에 따라 풍부하고 다양 한 음색의 음성이 필요한 곳에 적절히 사용될 수 있으므로 그 응용분야가 매우 넓다.In addition, the present invention can be appropriately used in the place where a rich and diverse voices according to the situation, such as animation, film, theater, CF, etc., its application field is very wide.

또한 본 발명은 목적화자가 부재 시 또는 목적화자의 발성이 불가능한 경우 사용되는 특정 전문 성우의 성대모사 또한 용이하게 대체할 수 있으며, 일반화자의 음색 DB의 조합으로 가상의 목소리를 임의로 생성해 낼 수 있으므로 다양한 가상 캐릭터의 음성을 사용할 수 있는 작용효과가 있다.In addition, the present invention can easily replace the vocal cord simulation of a specific professional voice actor used in the absence of the target speaker or when the target speaker's voice is not possible, and a virtual voice can be arbitrarily generated by combining the tone DB of the general speaker. There is an effect that can use the voice of various virtual characters.

Claims (12)

화자변환을 위하여 음색을 변환하는 방법에 있어서,In the method of converting the tone for speaker conversion, 상기 음색 변환방법은,The tone conversion method, 원시화자의 음성의 성대파의 신호를 분석하는 성대파 신호 분석단계;A vocal cord wave signal analyzing step of analyzing a vocal cord wave of a speech of a primitive speaker; 상기 원시화자의 음성으로부터 여러 음색별 성대파 특징 파라미터를 데이터베이스화한 상기 원시화자 음색 DB, 및 목적화자의 음성으로부터 여러 음색별 성대파 특징 파라미터를 데이터베이스한 상기 목적화자 음색 DB를 이용하여 상기 원시화자의 음색에서 상기 목적화자의 음색을 가진 성대파 신호로 변환하는 성대파 신호 변환단계; The primitive speaker using the primitive speaker timbre DB, which has database of the vocal wave feature parameters of different tones from the voice of the primitive speaker; Converting a vocal wave signal into a vocal wave signal having a tone of the object speaker ; 상기 변환된 성대파의 신호를 합성하는 재합성 단계;Resynthesizing the synthesized signal of the converted vocal wave; 를 포함하여 구성되는 것을 특징으로 하는 화자변환을 위한 성대파 음색 변환방법.Sungdae wave tone conversion method for the speaker conversion, characterized in that comprises a. 제 1항에 있어서,The method of claim 1, 상기 성대파 신호 분석단계는,The vocal wave signal analysis step, 상기 원시화자의 음성으로부터 성대파를 추출하는 성대파 추출단계; 및A vocal cord wave extraction step of extracting vocal cords from the voice of the primitive speaker; And 상기 추출된 성대파의 음색 특징 파라미터를 추출하는 음색 특징 파라미터 추출단계; A tone feature parameter extraction step of extracting a tone feature parameter of the extracted vocal cords; 로 구성되는 것을 특징으로 하는 화자변환을 위한 성대파 음색 변환방법.The vocal cord wave conversion method for speaker conversion, characterized in that consisting of. 삭제delete 제 1항에 있어서,The method of claim 1, 상기 성대파 신호 변환단계는, The vocal wave signal conversion step, 다양한 일반화자의 음성으로부터 여러 음색별 성대파 특징 파라미터를 데이터베이스화 하여 상기 일반화자 음색 DB를 구축하는 단계; Constructing the general speaker timbre DB by databaseting the vocal chord wave feature parameters for various tones from voices of various general speakers; 를 더 포함하는 것을 특징으로 하는 화자변환을 위한 성대파 음색 변환방법.The vocal cord wave conversion method for the speaker conversion, characterized in that it further comprises. 제 4항에 있어서,The method of claim 4, wherein 상기 성대파 신호 변환단계는, The vocal wave signal conversion step, 상기 원시화자 음색 DB, 목적화자 음색 DB 및 일반화자 음색 DB에 저장된 각 음색의 특징 파라미터 변화량을 참조하여 상기 각 음색 DB간의 대응관계를 구축하는 단계; Establishing a correspondence relationship between each tone DB by referring to a feature parameter change amount of each tone stored in the primitive speaker tone DB, the target speaker tone DB, and the general speaker tone DB; 를 더 포함하는 것을 특징으로 하는 화자변환을 위한 성대파 음색 변환방법.The vocal cord wave conversion method for the speaker conversion, characterized in that it further comprises. 제 5항에 있어서,The method of claim 5, 상기 특징 파라미터는 성대가 열려있는 구간을 나타내는 OQ, 성대가 닫혀있는 구간을 나타내는 CQ, 유효 여기값 EE(Effective Excitation), 및 신호의 크기 E 0 인 것을 특징으로 하는 화자변환을 위한 성대파 음색 변환방법.The characteristic parameters are OQ indicating an open section of the vocal cords, CQ indicating a section in which the vocal cords are closed, an effective excitation value EE (Effective Excitation), and a magnitude of the signal E 0 . Way. 제 5항 또는 제 6항에 있어서,The method according to claim 5 or 6, 상기 특징 파라미터의 변화량은 다음 식으로 정의되는 NAQ 파라미터인 것을 특징으로 하는 화자변환을 위한 성대파 음색 변환방법.The variation amount of the feature parameter is a vocal chord wave tone conversion method for a speaker, characterized in that the NAQ parameter defined by the following equation.
Figure 112007071357071-pat00009
Figure 112007071357071-pat00009
(E0 : 신호의 크기(성대가 최대한 열렸을 때의 성대파 신호), T0 : 성대가 열렸다 닫히는 주기, EE : 유효여기값(Effective Excitation))(E 0 : signal size (vocal wave signal when the vocal cords are opened as far as possible), T 0 : cycle of opening and closing the vocal cords, EE: effective excitation)
화자변환을 위하여 음색을 변환하는 음색 변환시스템에 있어서,In the tone conversion system for converting the tone for speaker conversion, 상기 음색 변환시스템은,The tone conversion system, 원시화자의 음성의 성대파를 추출하기 위한 성대파 추출수단;Vocal cord wave extraction means for extracting vocal cords of the primitive speaker's voice; 상기 추출된 성대파로부터 음색 파라미터를 추출하는 음색 파라미터 추출수 단;A tone parameter extraction step for extracting a tone parameter from the extracted vocal cords; 상기 음색 파라미터를 이용하여 성대파를 변환하는 성대파 변환수단; 및 Vocal wave converting means for converting vocal wave using the timbre parameter; And 상기 변환된 성대파를 이용하여 변환음성을 생성하는 변환음성 생성수단;Converted speech generating means for generating a converted speech using the converted vocal wave; 을 포함하여 구성되는 것을 특징으로 하는 화자변환을 위한 성대파 음색 변환시스템.Sungdae wave tone conversion system for speaker conversion, characterized in that comprising a. 제 8항에 있어서,The method of claim 8, 상기 성대파 추출수단은 A/D 컨버터 및 입력버퍼를 포함하는 것을 특징으로 하는 화자변환을 위한 성대파 음색 변환시스템.The vocal wave extracting means includes an A / D converter and an input buffer. 제 8항에 있어서,The method of claim 8, 상기 성대파 음색파라미터 추출수단 및 성대파 변환수단은 명령어 기억장치 및 주제어기를 포함하는 것을 특징으로 하는 화자변환을 위한 성대파 음색 변환시스템.The vocal wave wave tone parameter extracting means and the vocal wave wave converting means include a command memory device and a main controller. 제 8항에 있어서,The method of claim 8, 상기 변환음성 생성수단은 D/A 컨버터 및 출력버퍼를 포함하는 것을 특징으 로 하는 화자변환을 위한 성대파 음색 변환시스템.And said converted speech generating means comprises a D / A converter and an output buffer. 제 8항에 있어서,The method of claim 8, 상기 성대파 음색 변환시스템은 원시화자, 목적화자, 및 일반화자의 음색 DB가 저장된 기억장치를 더 포함하는 것을 특징으로 하는 화자변환을 위한 성대파 음색 변환시스템.The vocal wave wave tone conversion system further includes a memory device in which the tone DB of the primitive speaker, the object speaker, and the general speaker is stored.
KR1020060075140A 2006-08-09 2006-08-09 Voice Color Conversion System using Glottal waveform KR100809368B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020060075140A KR100809368B1 (en) 2006-08-09 2006-08-09 Voice Color Conversion System using Glottal waveform
PCT/KR2006/004478 WO2008018653A1 (en) 2006-08-09 2006-10-31 Voice color conversion system using glottal waveform

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060075140A KR100809368B1 (en) 2006-08-09 2006-08-09 Voice Color Conversion System using Glottal waveform

Publications (2)

Publication Number Publication Date
KR20080013524A KR20080013524A (en) 2008-02-13
KR100809368B1 true KR100809368B1 (en) 2008-03-05

Family

ID=39033161

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060075140A KR100809368B1 (en) 2006-08-09 2006-08-09 Voice Color Conversion System using Glottal waveform

Country Status (2)

Country Link
KR (1) KR100809368B1 (en)
WO (1) WO2008018653A1 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2215632B1 (en) * 2008-09-19 2011-03-16 Asociacion Centro de Tecnologias de Interaccion Visual y Comunicaciones Vicomtech Method, device and computer program code means for voice conversion
WO2014058270A1 (en) 2012-10-12 2014-04-17 Samsung Electronics Co., Ltd. Voice converting apparatus and method for converting user voice thereof
CN103730117A (en) * 2012-10-12 2014-04-16 中兴通讯股份有限公司 Self-adaptation intelligent voice device and method
US9613620B2 (en) * 2014-07-03 2017-04-04 Google Inc. Methods and systems for voice conversion
CN109147758B (en) * 2018-09-12 2020-02-14 科大讯飞股份有限公司 Speaker voice conversion method and device
GB202208937D0 (en) 2022-06-17 2022-08-10 Provost Fellows Scholars And The Other Members Of Board Of Trinity College Dublin Glottal features extraction using neural networks

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0881465A (en) * 1989-01-23 1996-03-26 Fujisawa Pharmaceut Co Ltd Use of pyrazolopyridine compound
JP2002012107A (en) * 2000-07-03 2002-01-15 Nippon Light Metal Co Ltd Bumper stay
JP2003022843A (en) * 2001-05-02 2003-01-24 Ngk Insulators Ltd Evaluation method for electrode body and lithium secondary battery using the same
US6615174B1 (en) 1997-01-27 2003-09-02 Microsoft Corporation Voice conversion system and methodology
KR20040061709A (en) * 2002-12-31 2004-07-07 (주) 코아보이스 Voice Color Converter using Transforming Vocal Tract Characteristic and Method
US6950799B2 (en) 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles
KR20060040002A (en) * 2004-11-04 2006-05-10 한국전자통신연구원 Apparatus for speech recognition and method therefor
JP2008002003A (en) * 2006-06-21 2008-01-10 Toray Ind Inc Ground fabric for airbag and method for producing the ground fabric

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0881465A (en) * 1989-01-23 1996-03-26 Fujisawa Pharmaceut Co Ltd Use of pyrazolopyridine compound
US6615174B1 (en) 1997-01-27 2003-09-02 Microsoft Corporation Voice conversion system and methodology
JP2002012107A (en) * 2000-07-03 2002-01-15 Nippon Light Metal Co Ltd Bumper stay
JP2003022843A (en) * 2001-05-02 2003-01-24 Ngk Insulators Ltd Evaluation method for electrode body and lithium secondary battery using the same
US6950799B2 (en) 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles
KR20040061709A (en) * 2002-12-31 2004-07-07 (주) 코아보이스 Voice Color Converter using Transforming Vocal Tract Characteristic and Method
KR20060040002A (en) * 2004-11-04 2006-05-10 한국전자통신연구원 Apparatus for speech recognition and method therefor
JP2008002003A (en) * 2006-06-21 2008-01-10 Toray Ind Inc Ground fabric for airbag and method for producing the ground fabric

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
10-2006-0040002
20-0212107
20-0322843
KAIN,A. et al. 'Spectral voice conversion for text-to-speech synthesis' in Proc. ICASSP, 1998, pp.285-288
STYLIANOU,Y. et al. 'Continuous probabilistic transform for voice conversion' in IEEE Trans. on Speech and Audio Processing, Vol.6, No.2, March 1998
공개실용신안공보 88-1465
특2002-0032836

Also Published As

Publication number Publication date
KR20080013524A (en) 2008-02-13
WO2008018653A1 (en) 2008-02-14

Similar Documents

Publication Publication Date Title
Drugman et al. Glottal source processing: From analysis to applications
JP4355772B2 (en) Force conversion device, speech conversion device, speech synthesis device, speech conversion method, speech synthesis method, and program
JP2004522186A (en) Speech synthesis of speech synthesizer
KR100809368B1 (en) Voice Color Conversion System using Glottal waveform
JP2002023775A (en) Improvement of expressive power for voice synthesis
Alku et al. Closed phase covariance analysis based on constrained linear prediction for glottal inverse filtering
Přibil et al. GMM-based speaker gender and age classification after voice conversion
McLoughlin et al. Reconstruction of continuous voiced speech from whispers.
CN114093386A (en) Education-oriented multi-dimensional singing evaluation method
Narendra et al. Estimation of the glottal source from coded telephone speech using deep neural networks
CN105474307A (en) Quantitative F0 pattern generation device and method, and model learning device and method for generating F0 pattern
Yadav et al. Prosodic mapping using neural networks for emotion conversion in Hindi language
JPH0641557A (en) Method of apparatus for speech synthesis
CN114170999A (en) Voice conversion method, device, electronic equipment and storage medium
CN117012230A (en) Evaluation model for singing pronunciation and character biting
KR101560833B1 (en) Apparatus and method for recognizing emotion using a voice signal
Burkhardt et al. How should Pepper sound-Preliminary investigations on robot vocalizations
Sousa et al. The harmonic and noise information of the glottal pulses in speech
Bhuyan et al. Comparative study of voice conversion framework with line spectral frequency and Mel-Frequency Cepstral Coefficients as features using artficial neural networks
Wang et al. Beijing opera synthesis based on straight algorithm and deep learning
Qavi et al. Voice morphing based on spectral features and prosodic modification
Rao et al. Voice transformation by mapping the features at syllable level
Del Pozo Voice source and duration modelling for voice conversion and speech repair
Yathigiri et al. Voice transformation using pitch and spectral mapping
i Barrobes Voice Conversion applied to Text-to-Speech systems

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130130

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20131226

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150922

Year of fee payment: 8

R401 Registration of restoration
FPAY Annual fee payment

Payment date: 20160128

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170125

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180129

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee