KR100460411B1 - A Telephone Method with Soft Sound using Accent Control of Voice Signals - Google Patents
A Telephone Method with Soft Sound using Accent Control of Voice Signals Download PDFInfo
- Publication number
- KR100460411B1 KR100460411B1 KR10-2002-0086167A KR20020086167A KR100460411B1 KR 100460411 B1 KR100460411 B1 KR 100460411B1 KR 20020086167 A KR20020086167 A KR 20020086167A KR 100460411 B1 KR100460411 B1 KR 100460411B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- soft
- sound
- phone
- party
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 12
- 238000003825 pressing Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000002996 emotional effect Effects 0.000 claims 1
- 239000000284 extract Substances 0.000 claims 1
- 238000004891 communication Methods 0.000 abstract description 5
- 230000001939 inductive effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 11
- 206010044565 Tremor Diseases 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000035882 stress Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/02—Constructional features of telephone sets
- H04M1/19—Arrangements of transmitters, receivers, or complete sets to prevent eavesdropping, to attenuate local noise or to prevent undesired transmission; Mouthpieces or receivers specially adapted therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6016—Substation equipment, e.g. for use by subscribers including speech amplifiers in the receiver circuit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 실생활에서 통신용으로 아주 널리 사용되고 있는 전화기의 기능을 개선하는 방법에 관한 것이다. 상대방으로부터 걸려오는 전화의 목소리는 각양각색이다. 상대방이 보이지 않기 때문에 급한 목소리, 욕하는 소리, 사투리가 섞인 소리 등등으로 수신자의 감정을 불쾌하게 만든다. 이럴 때에 필요한 전화기가 바로 부드러운 소리(소프트사운드, soft-sound) 전화기인데, 수신자가 전화기에 부착된 소프트사운드-키보턴(또는 특정 키보턴)을 누르면 상대방의 목소리의 억양이 범위를 벗어나지 않고 부드러운 목소리로 들리도록 발명한 것이다.The present invention relates to a method for improving the function of a telephone which is very widely used for communication in real life. The voice of the call from the other party is different. Because the other party is invisible, the person's feelings are offended by a rushing voice, a swearing voice, a mixed dialect, etc. The phone you need is a soft-sound (soft-sound) phone. When the receiver presses the soft-sound key (or certain key button) attached to the phone, the voice of the other party's voice does not go out of range. Invented to sound as.
부드러운 소리 전화기는 전화기를 통해 수신되는 상대방의 목소리 정보를 분석하여 상대방의 의미정보는 그대로 두고, 개성을 나타내는 억양 정보는 조절함으로서 마치 목소리의 톤이 특정범위를 벗어나지 않아서 부드럽고 관대한 소리의 청취기능을 구현한 것이다.Soft voice The phone analyzes the other party's voice information received through the phone, leaving the other party's semantic information intact, and adjusting the accent information indicating personality, so that the tone of the voice does not exceed a certain range so that it can listen smoothly and generously. It is an implementation.
특히, 불특정 다수의 고객을 전화 통신으로 영접하는 관련 서비스업 종사자들은 고객의 다양한 목소리의 형태로 인해 스트레스를 많이 받게 된다. 이러한 경우에도 소프트사운드 전화기능은 고객 목소리의 억양을 차분하게 만들어 주기 때문에 목소리 관련 분야에 종사하는 직업인들의 스트레스를 어느 정도 해소시켜줄 수 있다.In particular, related service workers who receive a large number of unspecified customers by telephone communication are stressed by the various types of voices of customers. Even in this case, the soft sound phone function calms the intonation of the customer's voice and can relieve some of the stress of professionals in the voice-related field.
부드러운 소리 전화기는 상대방이 빨리 말하거나 억양이 강한 사투리로 말을 할때 수신자의 취향에 따라 소프트사운드 전화기능을 선택할 수 있기 때문에 부드럽고 차분한 소리로 상대방의 말을 청취할 수 있다. 또한 소프트사운드 기능이 부가된 전화기는 보이지 않는 상대방에게 수신자가 현재 청취하고 있는 억양을 측음을 통해 알려주기 때문에 목소리를 차분히 발성하도록 유도하는 특성이 있다. 따라서 다급하고 퉁명스러운 사회의 전화예절 분위기를 차분하고 밝게 개선시키는 효과가 있다.Soft sound The phone can listen to the other party's words softly and calmly because it can select the soft sound call function according to the recipient's preference when the other person speaks quickly or speaks with a strong accent dialect. In addition, the phone with the soft sound function has a characteristic of inducing the voice to be quietly spoken by informing the invisible counterpart that the receiver is currently listening to through the side tone. Therefore, it is effective to calm and brighten the atmosphere of the telephone etiquette of the urgent and blunt society.
Description
본 발명은 전화망을 이용한 인터넷통화, 일반전화, 휴대폰 등에서 전화 통화하는 방법을 새로이 개선하는 것으로서 음성통신 또는 오디오 신호처리 분야에서 발성변환기술로 분류할 수 있다.The present invention is to improve the method of making a telephone call in the Internet call, general telephone, mobile phone, etc. using the telephone network can be classified as voice conversion technology in the field of voice communication or audio signal processing.
현재 사용되고 있는 기존의 전화망에 연결되는 전화기들은 1도와 같이 상대방에서 말하는 목소리를 그대로 수화기를 통해 전달해주고 있다. 이러한 방식은 상대방의 목소리에 담겨져 있는 보이지 않는 성격이나 딱딱함이 그대로 수신 측에 전달되어 수신자가 때로는 불쾌감이나 스트레스를 많이 느끼게 되는 단점이 있다. 본 발명은 이러한 단점을 개선하고자 한다.Telephones connected to the existing telephone network currently used are transmitting the voice of the other party through the handset as shown in FIG. This method has the disadvantage that the invisible personality or the hardness contained in the other party's voice is transmitted to the receiver as it is, so that the receiver sometimes feels a lot of discomfort or stress. The present invention seeks to remedy this drawback.
본 발명은 전화기의 수화기에서 들리는 상대방의 목소리를 디지털 발성처리기술을 적용하여, 억양이 강하지 않고 부드러운 소리(소프트사운드, soft-sound)로 통화하는 방식을 새로이 제안하는 것이다. 사람의 목소리는 허파에서 나오는 공기가 성대에서 떨림으로서 진동 소리가 발생하게 되고, 이 떨림이 성도를 통해서 나을 때, 공명이 발생하면서 생성된다. 목소리 중에서 성대의 떨림 소리의 주기나 발성습관은 발성자의 개성을 나타내게 되고, 성도의 공명특성은 메시지의 의미를 전달하는 음운정보를 주로 나타내게 된다. 이처럼 메지지의 의미를 나타내는 성도의 공명특성은 그대로 보존하면서 발성자의 개성을 나타내는 억양정보를 필요시에 조절함으로서, 목소리가 부드럽고 정답게 들리는 원리를 전화통화에 적용하여 발명한 것이다.The present invention newly proposes a method of calling a voice of the other party heard from the telephone receiver of a telephone with a soft sound (soft-sound) without strong intonation by applying digital speech processing technology. The human voice is generated by the vibration of the air from the lungs as it trembles in the vocal cords, and when this tremor is picked up through the saints, resonance occurs. The vocal vocal tremor and vocal habits of the voice represent the personality of the vocalists, and the resonance characteristics of the vocal tracts represent phonological information that conveys the meaning of the message. In this way, the resonance characteristic of the saints representing the meaning of the message is preserved as it is, and by adjusting the intonation information indicating the personality of the speaker as necessary, the invention invented by applying the principle that the voice is soft and sound to the telephone call.
도 1은 소프트사운드 전화기의 원리1 is a principle of a soft sound telephone
도 2는 목소리의 분석 및 합성 방식2 is a voice analysis and synthesis scheme
도 3은 억양변환 처리용 하드웨어 구성의 일예3 is an example of a hardware configuration for intonation conversion processing
도 4는 소프트사운드 전화기에 대한 기능처리의 일예4 is an example of functional processing for a soft sound telephone;
[기본구성][Basic configuration]
휴대폰이나 유선전화기와 같은 전화 단말기를 통해 우리가 말을 하게 되면, 음파신호가 디지털 처리기술로 압축되어, 전화중계기를 통해 상대방 전화기에 전달된다. 상대방 전화기에서는 디지털 신호의 압축을 풀고 음파로 변환하여 우리의 귀에 말을 전달해 주고 있다. 이처럼 대부분의 전화기에는 음성신호를 압축 또는 복원하는 고성능 컴퓨터 칩이 내장되어있었어, 문자서비스와 같은 다양한 서비스도 함께 제공하고 있다.When we talk through a phone terminal such as a mobile phone or a landline phone, the sound wave signal is compressed by digital processing technology and transmitted to the other party's phone through a telephone repeater. The other side of the phone decompresses the digital signal, converts it into sound waves, and delivers it to our ears. As such, most phones have a high-performance computer chip that compresses or recovers voice signals, and provides various services such as text service.
소프트사운드 전화기는 도 1과 같이 기존의 전화기 기능(102)에 소프트사운드의 기능(104)을 첨가한 것이다. 전화기의 벨이 울려서 송수화기를 들면 상대방의 소리(107)가 들리게 되고, 상대방의 소리가 급하거나 불명료하게 들린다면, 소프트사운드-키보턴(101)을 누르게 된다. 소프트사운드-키보턴은 별도의 키보턴으로 장착되었거나 또는 임의 숫자-보턴을 누르는 방법이다. 소프트사운드-키보턴을 누르면 상대방의 목소리가 일례로 필요시에 억양이 조절되도록 하여(108) 말소리를 부드럽고 정답게 청취하도록 해준다. 반면, 이때 소프트사운드-키보턴(101)을 한번 더 누르게 되면 상대방 목소리의 원래 억양변화의 상태로 다시 복귀된다.The soft sound telephone adds the soft sound function 104 to the existing telephone function 102 as shown in FIG. When the phone rings and the handset is lifted, the other party's sound 107 is heard. If the other party's sound is urgent or indistinct, the soft sound-keyboard 101 is pressed. A soft sound-keyboard is a separate keyboard or is a way of pressing a random number-button. Pressing the soft sound-keyboard allows the other's voice to be controlled, for example, when the intonation is controlled (108), allowing the user to listen softly and accurately. On the other hand, when the soft sound-keyboard 101 is pressed once again, it returns to the state of the original intonation change of the other party's voice.
소프트사운드 전화기는 도 2와 같이, 기존 전화기에 내장된 컴퓨터 칩내에, 목소리를 신호처리 분석하여 의미정보와 음색특성은 유지하면서 그 억양정보를 조절함으로서 목소리가 부드럽게 들리도록 하는 첨단 처리기능을 추가한 것이다. 즉, 목소리는 성대의 떨림과 목구멍에서의 공명에 의해 소리가 발생하는데, 이러한 목소리의 생성원리를 이용하여 목소리의 특징은 그대로 두고(206) 말하는 억양정보만을 추출하여 변경하고(205) 합성하면(207), 부드러우면서 정다운 목소리(208)로 바뀌게 된다. 소프트사운드 전화기의 핵심기술은 사람의 목소리에서 말뜻을 나타내는 음운정보와 개성을 나타내는 운율정보를 자동으로 분류(202)하여 발성자의 개성과 의미정보를 보존(206)하면서, 동시에 억양정보를 변경(205)함으로써, 목소리의 부드러운 특성(208)을 증대시켰다는 점이다.As shown in Fig. 2, the soft sound telephone adds an advanced processing function to make the voice sound smooth by adjusting the intonation information while maintaining the semantic information and tone characteristics by analyzing the voice signal processing in the computer chip built into the existing telephone. will be. That is, the voice is generated by the tremors of the vocal cords and the resonance in the throat. Using the principle of generating the voice, the voice characteristic is kept as it is (206). 207), a soft and gentle voice 208. The core technology of the soft sound phone automatically classifies the phonological information and the rhyme information indicating personality in the human voice (202) to preserve the personality and semantic information of the speaker (206) while simultaneously changing the intonation information (205). By increasing the soft characteristic 208 of the voice.
[하드웨어 장치의 구성][Configuration of Hardware Device]
마이크로폰이나 전화라인 등으로부터 들어오는 아날로그 형태의 목소리 신호(300)를 입력 받아서 부드러운 목소리로 발성 처리하는 하드웨어 장치의 일례는 도 3과 같다. 아날로그 형태로 입력된 목소리 신호파형(300)은 증폭기(301)에서 증폭된 다음에 앨리어징(aliasing)효과를 제거하기 위해 저역통과여파기(302)를 통과한다. 그리고 양자화(quantization) 및 부호화(coding)를 수행하는 아날로그-디지털 변환기(304)를 통과함으로서 선형펄스부호변조(PCM) 형태의 디지털 신호로 바뀌어서, 범용 CPU나 디지털 신호처리기(DSP)에 입력된다.An example of a hardware device that receives an analog voice signal 300 from a microphone, a telephone line, or the like and processes the voice signal with a soft voice is illustrated in FIG. 3. The voice signal waveform 300 input in the analog form is amplified by the amplifier 301 and then passed through the low pass filter 302 to eliminate the aliasing effect. By passing through the analog-to-digital converter 304 that performs quantization and coding, the signal is converted into a digital signal in the form of a linear pulse code modulation (PCM) and input to a general purpose CPU or a digital signal processor (DSP).
신호처리될 때는 이 컴퓨터 처리기(304)가 대내외에 설치된 주변장치(309)를 참고할 수도 있고, 또한 입력 디지털 신호나 처리 결과를 저장하기 위해 주변 메모리(305)를 참고할 수도 있다.When the signal is processed, the computer processor 304 may refer to a peripheral device 309 installed both inside and outside, and may also refer to the peripheral memory 305 to store input digital signals or processing results.
CPU에서 소프트웨어나 펌웨어에 의해 억양변환 처리된 디지털 신호는 디지털-아날로그 변환기(308)를 통해 표본화된 아날로그 신호형태로 변환된다. 이 신호를 저역통과 여파기(307)에 통과시키면 양자화 잡음이 제거된 아날로그 신호가 되고, 적당한 레벨이 되도록 증폭하면(306) 전화 수화기나 스피커 등을 통해서 들을 수 있는 아날로그 신호(310)가 된다.The digital signal that is processed into the intonation by the software or firmware by the CPU is converted into a sampled analog signal through the digital-to-analog converter 308. Passing this signal through the low pass filter 307 results in an analog signal from which quantization noise has been removed, and when amplified to an appropriate level (306), the signal becomes an analog signal 310 that can be heard through a telephone receiver, a speaker, or the like.
[소프트웨어 처리과정][Software Process]
소프트사운드 전화기는 기존 전화기의 기능을 수행하는 CPU칩에 소프트사운드 기능의 소프트웨어나 펌웨어를 추가한 것이다. 전화통화가 이루어 졌을 때, 소프트사운드 키보턴(또는 임의의 키보턴)이 눌러졌는지를 파악하고, 눌러지지 않았다면 기존 전화기와 같이 일반적인 목소리 통신(420)을 수행하게 된다. 소프트사운드 키보턴은 소프트웨어 토글스위치 형태로 구성되며 한번 누르면 켜지고, 다시 누르면 꺼지게 된다.A soft sound phone is a software that adds soft sound software or firmware to a CPU chip that functions as a traditional phone. When a telephone call is made, it is determined whether the soft sound key button (or any key button) is pressed, and if it is not pressed, general voice communication 420 is performed like the existing telephone. The soft sound key button is configured as a software toggle switch, which is turned on once by pressing it and turned off by pressing it again.
소프트사운드 전화기능이 시작되면 아날로그-디지털 변환기(ADC)에서 입력된 데이터 표본(401)값이 한 프레임단위로 동시에 처리된다. 먼저 현재 프레임에 있는 데이터 값이 유성음 구간인지 아닌지를 파악하고, 유성음 구간이 아니면(404) 링버퍼의 점유율(Buffer Rate, BR)을 계산하게 된다. 상대방의 목소리가 부드럽게 들리도록 하기 위해서는 상대방의 실제 목소리 발성속도보다 다르게 들리도록 해야 하는데, 처리된 데이터를 대기시키는데 필요한 메모리 버퍼를 링버퍼(409)라고 한다.When the soft sound telephony function is started, the data sample 401 input from the analog-to-digital converter (ADC) is processed simultaneously in units of one frame. First, it is determined whether the data value in the current frame is the voiced sound interval, and if it is not the voiced sound interval (404), the occupancy ratio (Buffer Rate, BR) of the ring buffer is calculated. In order for the other party's voice to be heard softly, the other party's voice should be heard differently than the actual voice vocalization speed. The memory buffer required to wait for the processed data is called a ring buffer 409.
링버퍼의 점유율(BR)은 소프트사운드 기능에서 처리된 데이터가 링버퍼에서 대기되는 시간비율을 나타내는데, 현 프레임이 비유성음 구간이고 링버퍼에 대기하고 있는 시간이 정해진 시간의 점유율(예 0.8<BR<1.2)을 벗어났다면, 발성속도를 변경하기 위해 지속시간조절(416)을 수행하게 된다. 이렇게 함으로써 소프트사운드 기능이 수행될 때 야기되는 발성시간의 변동을 해소할 수 있게 된다. 즉, 유성음구간(418)에서만이 데이터가 부드러운 소리로 발성되도록 처리하지만, 이때 발성속도가 원래의 발성에 비해 다를 수가 있기 때문에, 비유성음 구간에서 발성속도를 조절하여 전체적인 시간지연을 해소하게 한 것이다.The occupancy rate of the ring buffer (BR) represents the time rate at which the data processed by the soft sound function is waited in the ring buffer. The occupancy ratio of the time when the current frame is a non-voiced sound and the waiting time in the ring buffer is determined (for example, 0.8 <BR). <1.2), the duration adjustment 416 may be performed to change the voice speed. This makes it possible to eliminate fluctuations in the uttering time caused when the soft sound function is performed. That is, only the voiced sound section 418 processes the data so that the sound is soft, but at this time, since the voice speed may be different from that of the original voice, the voice delay is adjusted in the non-voice sound section to eliminate the overall time delay. .
현재의 프레임이 유성음 구간인지 비유성음 구간인지를 측정하는 방법(403)은 음성처리 교재(참고문헌1,3,4)에 많이 제안되어져 있으며, 일례로 에너지 레벨을 측정하여 쉽게 파악할 수 있다. 즉, 현재 프레임의 평균 에너지가 정해진 문턱 값을 초과하여 일례로 5프레임(100ms) 이상 지속된다면 이 구간은 유성음 구간이 된다.A method 403 for measuring whether the current frame is a voiced sound section or a non-voiced sound section has been proposed in the speech processing textbooks (Refs. 1, 3, 4). For example, the energy level can be easily measured. That is, if the average energy of the current frame exceeds a predetermined threshold and lasts 5 frames (100 ms), for example, this section becomes a voiced sound section.
현재의 프레임의 데이터가 유성음 구간(418)이라면 이 데이터에 대해 소프트사운드 기능처리를 수행하게 된다. 소프트사운드 기능은 현 프레임의 데이터에서 피치억양을 검출(406)하고, 프레임 단위로 피치-억양변화도(PAC, Pitch Accent Contour)를 고려하여, PAC가 정해진(일예로 1.5배) 변화범위를 벗어나면(419), 피치억양을 변경시킨다(407).If the data of the current frame is the voiced sound section 418, the soft sound function processing is performed on the data. The soft sound function detects the pitch intonation in the data of the current frame (406) and considers the pitch accent gradient (PAC) in units of frames, so that the PAC is out of the range of change (e.g. 1.5 times). Surface 419 changes the pitch intonation (407).
피치억양의 변경은 유성음의 한 블록단위로 처리하는데, 연속적으로 검출되는 유성음 프레임의 한 블록구간을 나타낸다. 유성음 한 블록에 대해 피치-억양변경(407)은 피치주기 단위로 수행하였고, 일예로 PAC가 정해진 변화범위를 초과하였다면, 피치주기가 주어진 최대의 범위이내에서 유지되도록 하기 위해 피치변경을 수행한다. 피치주기를 변경하는 방법은 지금까지 많이 제안되어져 있다(참고문헌1,2). 일예로 시간 영역에서 피치주기 단위로 음성파형을 넓게 분절한 다음에 변경된 피치주기 단위로 중첩시켜서 파형을 재구성하는 PSOLA(Pitch Synchronous Overwrap and Add) 피치변경법이 있다(참고문헌2).The change of the pitch intonation is processed in units of one block of voiced sound, which represents one block section of the voiced sound frame which is continuously detected. For a block of voiced sound, the pitch-inhibition change 407 is performed in units of pitch periods. For example, if the PAC exceeds a predetermined change range, the pitch change is performed to maintain the pitch period within a given maximum range. Many methods for changing the pitch period have been proposed so far (Refs. 1 and 2). For example, a pitch synchronous overlap and add (PSOLA) pitch change method for reconstructing a waveform by broadly segmenting a speech waveform in a pitch period unit in a time domain and then superimposing the changed waveform unit in a pitch period unit (Ref. 2).
이때 피치주기를 정확히 검출해야 하는데, 음성신호의 피치주기 검출법은 최근 40년간 수많은 방법들이 제안되어 있다(참고문헌1,4). 일예로 피치검출은 자기상관함수법이 주로 사용되고 있으며, 인근 음성파형들 간의 상관관계를 계산하여 반복적인 파형의 주기를 검출하는 방법이 있다(참고문헌1).At this time, it is necessary to accurately detect the pitch period, a number of methods have been proposed in recent years for the pitch period detection method of speech signals (Refs. 1 and 4). For example, the pitch detection is mainly used for the autocorrelation function, and there is a method for detecting the period of the repetitive waveform by calculating the correlation between adjacent voice waveforms (Ref. 1).
이렇게 처리된 데이터들은 파형의 진폭이 자연스럽지 못하고 부자연스럽게 되므로, 진폭의 변화가 자연스럽게 이어지도록 하는 에너지 진폭변화 조절(408)을 수행해야 한다. 일예로 에너지 진폭의 변경은 피치주기 단위로 처리하며, 한 피치주기의 평균 에너지 진폭을 파형에 곱함으로서 수행한다.Since the processed data becomes unnatural and unnatural in the waveform, it is necessary to perform an energy amplitude change control 408 so that the change in amplitude naturally follows. For example, the change in energy amplitude is processed in units of pitch periods, and is performed by multiplying the waveform by the average energy amplitude of one pitch period.
이렇게 처리 완료된 음성 데이터들은 링버퍼에 저장시키고(409), 저장된 순서에 따라서 디지털-아날로그 변환기(DAC)를 통해 음성 데이터 표본 단위로 수화기나 스피커를 통해 출력한다(410). 여기서 소프트사운드 전화기의 기능은 실시간으로 처리된다. 즉, 아날로그-디지털 변환기(ADC)에서 한 프레임의 데이터를 받고(401)나서부터 그 다음 프레임의 데이터를 받아올 때까지 소프트사운드 전화기능의 처리(410)가 끝날 수 있도록 해야만 한다.The processed voice data is stored in a ring buffer (409), and output through a handset or a speaker in units of voice data through a digital-to-analog converter (DAC) according to the stored order (410). The function of the soft sound phone is handled in real time. That is, the processing of the soft sound telephony function 410 must be completed until the data of one frame is received from the analog-to-digital converter (ADC) 401 until the data of the next frame is received.
[참고문헌][references]
[1] 배명진, 이상효, 디지털 음성분석 , 동영출판사, 1998.[1] Myung-Jin Bae, Sang-Hyo Lee, Digital Speech Analysis , Dong Young Publishers, 1998.
[2] 배명진, 디지털 음성합성 , 동영출판사, 1998.[2] Bae Myung-jin, Digital Speech Synthesis , Dong Young Publishing Co., 1998.
[3] 배명진, 디지털 음성부호화 , 동영출판사, 1996.[3] Myung-Jin Bae, Digital Voice Coding , Dong Young Publishers, 1996.
[4] Rabiner and Schefer, Digital Signal Processing of Speech Signals , Prentice Hall, 1978.[4] Rabiner and Schefer, Digital Signal Processing of Speech Signals , Prentice Hall, 1978.
본 발명은 기술적으로 볼 때 인간의 오감을 보조하는 기술의 하나이다. 누구나 나이가 들면 감각기능이 노화되어 큰 억양변화의 소리를 싫어하는데, 부드러운 소리의 소프트사운드 전화기는 이러한 감각기능을 보완해주는 복지기술의 실용화라는 점이 특이하다. 따라서 노인이나 장애인에게 제공할 수 있는 복지국가용 통신기술로서 그 응용성이 독특하다.Technically, the present invention is one of technologies that assist the five senses of human beings. As everyone ages, the sensational functions become aging and they hate the sound of large intonation changes. The soft sound phone is unique in that it is the practical use of welfare technology to complement these sensational functions. Therefore, its applicability is unique as a communication technology for the welfare state that can be provided to the elderly or the disabled.
그리고 이 소프트사운드 전화기는 정감이 넘치는 사회를 이루는데 필요한 핵심기술이다. 사회는 고도로 첨단화되고, 인간은 점차 고립화되기 때문에 일상의 전화 통화에서 조차 상대를 배려하지 않는 일방적인 대화가 아주 보편화되고 있다. 이러한 사회의 분위기를 부드러운 소리 전화기를 통해 바꿀 수 있다. 상대방의 급하고 변화무상한 일방적인 목소리를 부드럽고 다정하게 말하도록 분위기를 바꿔줌으로서 자칫하면 감정이 유발될 수 있는 분위기를 차분하게 안정시켜 줄 수 있기 때문이다.And this soft sound phone is a key technology for building a society of emotion. Since society is highly advanced and humans are increasingly isolated, one-sided conversations are becoming very common, even in everyday phone calls. The atmosphere of this society can be changed through a soft sound phone. By changing the mood to speak softly and tenderly to the other person's urgent and changing one-sided voice, it can calm and calm the mood that can cause emotion.
또한 소프트사운드 전화기에 적용한 발성변환 기술은 대화의 내용을 기록하는 전문 속기사의 보조시스템으로 활용할 수 있고, 영어듣기 능력을 키워나가는 어학 학습기에 적용할 수 있는 등의 실용성 있는 발명기술이다. 따라서 이 소프트사운드 전화기는 실생활에 다양하게 활용할 수 있는 기술로서 그 파급 효가가 아주 크다.In addition, the voice conversion technology applied to the soft sound phone is a practical invention technology that can be used as an auxiliary system of a professional shorthand for recording the contents of a conversation, and can be applied to a language learner to develop English listening ability. Therefore, this soft sound phone is a technology that can be utilized in various ways in real life, and its effect is very large.
Claims (1)
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0086167A KR100460411B1 (en) | 2002-12-28 | 2002-12-28 | A Telephone Method with Soft Sound using Accent Control of Voice Signals |
PCT/KR2003/001237 WO2004059948A1 (en) | 2002-12-28 | 2003-06-24 | Soft sound phone |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0086167A KR100460411B1 (en) | 2002-12-28 | 2002-12-28 | A Telephone Method with Soft Sound using Accent Control of Voice Signals |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20030012835A KR20030012835A (en) | 2003-02-12 |
KR100460411B1 true KR100460411B1 (en) | 2004-12-08 |
Family
ID=27730021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2002-0086167A KR100460411B1 (en) | 2002-12-28 | 2002-12-28 | A Telephone Method with Soft Sound using Accent Control of Voice Signals |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR100460411B1 (en) |
WO (1) | WO2004059948A1 (en) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10149199A (en) * | 1996-11-19 | 1998-06-02 | Sony Corp | Voice encoding method, voice decoding method, voice encoder, voice decoder, telephon system, pitch converting method and medium |
JP2001086200A (en) * | 1999-09-09 | 2001-03-30 | Matsushita Electric Ind Co Ltd | Portable telephone system and method for changing and setting frequency characteristic of receiving signal |
-
2002
- 2002-12-28 KR KR10-2002-0086167A patent/KR100460411B1/en not_active IP Right Cessation
-
2003
- 2003-06-24 WO PCT/KR2003/001237 patent/WO2004059948A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2004059948A1 (en) | 2004-07-15 |
KR20030012835A (en) | 2003-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230230572A1 (en) | End-to-end speech conversion | |
US8401856B2 (en) | Automatic normalization of spoken syllable duration | |
US7539614B2 (en) | System and method for audio signal processing using different gain factors for voiced and unvoiced phonemes | |
US6999922B2 (en) | Synchronization and overlap method and system for single buffer speech compression and expansion | |
JPH0644195B2 (en) | Speech analysis and synthesis system having energy normalization and unvoiced frame suppression function and method thereof | |
Nakagiri et al. | Improving body transmitted unvoiced speech with statistical voice conversion | |
JPS60247697A (en) | Voice recognition responder | |
US8340972B2 (en) | Psychoacoustic method and system to impose a preferred talking rate through auditory feedback rate adjustment | |
JP3553828B2 (en) | Voice storage and playback method and voice storage and playback device | |
KR20030031936A (en) | Mutiple Speech Synthesizer using Pitch Alteration Method | |
US6975984B2 (en) | Electrolaryngeal speech enhancement for telephony | |
KR100460411B1 (en) | A Telephone Method with Soft Sound using Accent Control of Voice Signals | |
KR100542976B1 (en) | A headphone apparatus with soft-sound funtion using prosody control of speech signal | |
CN109672787A (en) | A kind of device intelligence based reminding method | |
KR100533217B1 (en) | A headphone apparatus with gentle function using signal processing for prosody control of speech signals | |
KR20030011045A (en) | A Telephone with Gentle Function using Prosody Control of Voice Speech Signals | |
JPH11331328A (en) | Handfree telephone system | |
JPH10240283A (en) | Voice processor and telephone system | |
JPWO2007015319A1 (en) | Audio output device, audio communication device, and audio output method | |
JP2000276190A (en) | Voice call device requiring no phonation | |
KR101151746B1 (en) | Noise suppressor for audio signal recording and method apparatus | |
KR20030024721A (en) | A Soft Sound Method to Warmly Playback Sounds Recorded from Voice-Pen. | |
JP4005166B2 (en) | Audio signal processing circuit | |
KR20030058920A (en) | A Gentle Voice-Pen Method in Order to Playback Gently Sounds Recorded with It. | |
Passos | Transformation of whispering voice to pseudo-real voice for unvoiced telephony and communication aid for voice-handicapped persons |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
N231 | Notification of change of applicant | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121123 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20131017 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20140930 Year of fee payment: 11 |
|
LAPS | Lapse due to unpaid annual fee |