KR20050027272A - Speech communication unit and method for error mitigation of speech frames - Google Patents
Speech communication unit and method for error mitigation of speech frames Download PDFInfo
- Publication number
- KR20050027272A KR20050027272A KR1020057001824A KR20057001824A KR20050027272A KR 20050027272 A KR20050027272 A KR 20050027272A KR 1020057001824 A KR1020057001824 A KR 1020057001824A KR 20057001824 A KR20057001824 A KR 20057001824A KR 20050027272 A KR20050027272 A KR 20050027272A
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- frame
- transmission path
- communication unit
- error
- Prior art date
Links
- 238000004891 communication Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims description 45
- 230000000116 mitigating effect Effects 0.000 title claims description 19
- 230000005540 biological transmission Effects 0.000 claims abstract description 68
- 230000005284 excitation Effects 0.000 claims description 20
- 238000012937 correction Methods 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 2
- 230000001747 exhibiting effect Effects 0.000 claims 1
- 230000007246 mechanism Effects 0.000 abstract description 9
- 239000013598 vector Substances 0.000 description 25
- 238000012545 processing Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 14
- 230000007774 longterm Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000003139 buffering effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 208000032369 Primary transmission Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/0078—Avoidance of errors by organising the transmitted data in a format specifically designed to deal with errors, e.g. location
- H04L1/0083—Formatting with frames or packets; Protocol or part of protocol for error control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L27/00—Modulated-carrier systems
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
Abstract
Description
본 발명은 스피치 통신 유닛들에서 스피치 코덱들의 성능을 개선시키기 위한 스피치(speech) 부호화 및 방법들에 관한 것이다. 본 발명은 스피치 코덱들에서 에러 경감에 이용할 수 있지만, 여기에 제한되지 않는다.The present invention relates to speech coding and methods for improving the performance of speech codecs in speech communication units. The present invention can be used for error mitigation in speech codecs, but is not limited thereto.
개인 이동 무선 사용자들에 대한 이동 통신 세계화 시스템(GSM) 셀방식 전화 통신 표준 및 지상 중계 무선(TETRA)(TErrestrial Trunked RAdio) 시스템용 글로벌 시스템 같은 많은 현재 음성 통신 시스템들은 스피치 패턴들을 부호화 및 복호화하기 위하여 스피치-처리 유닛들을 사용한다. 상기 통신 시스템들에서, 전송 유닛의 스피치 부호기는 아날로그 스피치 패턴을 전송에 적당한 디지탈 포맷으로 전환시킨다. 수신 유닛의 스피치 복호기는 수신된 디지탈 스피치 신호를 가청 아날로그 스피치 패턴으로 전환시킨다.Many current voice communication systems, such as the Global System for Mobile Communications Globalization System (GSM) cellular telephony for personal mobile wireless users and the Global System for Terrestrial Trunked RAdio (TETRA) systems, are used to encode and decode speech patterns. Use speech-processing units. In such communication systems, the speech encoder of the transmission unit converts the analog speech pattern into a digital format suitable for transmission. The speech decoder of the receiving unit converts the received digital speech signal into an audible analog speech pattern.
상기 무선 음성 통신 시스템들에 대한 주파수 스펙트럼이 중요한 리소스이기 때문에, 주파수 대역당 사용자들의 수를 최대화하기 위하여, 상기 스피치 신호들에 의해 사용된 채널 대역폭을 제한하는 것이 바람직하다. 그래서, 스피치 부호화 기술들 사용의 제 1 목적은 충실도(fidelity) 손실없이 압축 기술들의 사용에 의해, 가능한한 스피치 패턴들의 점유된 용량을 줄이는 것이다.Since the frequency spectrum for the wireless voice communication systems is an important resource, it is desirable to limit the channel bandwidth used by the speech signals in order to maximize the number of users per frequency band. Thus, a first purpose of using speech coding techniques is to reduce the occupied capacity of speech patterns as much as possible by the use of compression techniques without loss of fidelity.
음성 및 데이터 통신 시스템들의 환경에서, 다른 방법은 유사한 데이터 신호들과 비교할 때 스피치 신호들상에 실질적으로 적은 보호를 제공하는 것이다. 이런 방법은 데이터 패킷들보다 스피치 패킷내에 비교적 많은 에러들을 유발하고 전체적인 스피치 패킷들의 손상 위험성을 증가시킨다.In the context of voice and data communication systems, another approach is to provide substantially less protection on speech signals when compared to similar data signals. This approach causes relatively more errors in the speech packet than the data packets and increases the risk of corruption of the overall speech packets.
스피치 복호기들에서, 에러 경감 기술들을 사용하여, 하기의 이벤트시 스피치 통신 유닛의 성능을 개선하는 것이 일반적이다.In speech decoders, it is common to use error mitigation techniques to improve the performance of the speech communication unit in the following event.
상기 이벤트는 (ⅰ) 수신된 스피치 프레임내에 너무 많은 비트 에러들이 제공되거나;The event may (i) provide too many bit errors in the received speech frame;
(ⅱ) 네트워크 바탕 인터넷 프로토콜(IP)내의 데이터 패킷(스피치 정보를 포함할 수 있음)이 손실되는 경우이다.(Ii) Data packets (which may include speech information) in the network-based Internet Protocol (IP) are lost.
"불량-프레임" 경감 기술들은 에러에서 수신된 프레임들의 가청 효과를 최소화하기 위하여 필요하고, 여기서 "에러 수신"이 에러들과 함께 수신되거나 전혀 수신되지 않는 것을 의미하기 위하여 여기에서 취해진다. 이들 기술들은 사일런스(silence) 또는 노이즈 중 하나를 복호화된 스피치로 주입하기보다 손실 스피치 프레임의 평가치를 재생한다. 상기 기술들은 통상적으로 스피치의 통계적 정적 특성들을 이용하는 것을 포함한다. 에러의 단일 프레임은 일반적으로 상기 프레임을 이전 프레임으로부터의 에너지, 피치(pitch), 스펙트럼 및 음성을 포함하는 유사한 파라미터들로 대체함으로써 적당히 평가된다. 그러나, 스피치는 진정으로 변동이 없고, 예를 들어 스피치 시작들 및 파열음들은 매우 짧은 이벤트들이다. 따라서, 이런 간단한 "대체" 기술은 때때로 비정상을 유발하므로, 바람직하지 않은 가공물들을 형성한다. "Bad-frame" mitigation techniques are necessary to minimize the audible effect of frames received in an error, where "error reception" is taken here to mean either received with errors or not received at all. These techniques reproduce an estimate of the lost speech frame rather than injecting either silence or noise into the decoded speech. The techniques typically include using the statistical static properties of speech. A single frame of error is generally adequately evaluated by replacing the frame with similar parameters including energy, pitch, spectrum and speech from the previous frame. However, speech is truly unchanged, for example speech starts and burst sounds are very short events. Thus, this simple "alternate" technique sometimes causes abnormalities, thus forming undesirable workpieces.
이상적인 세상에서, 전송 중단의 어느 한 측면으로부터 데이터를 내삽하는 것이 바람직하다. 즉, 불량-프레임 시퀀스 다음의 데이터를 취하는 것뿐만 아니라 그 이전 데이터를 취하고, 그 사이에 내삽하는 것이 바람직하다. 그러나, 상기 방법은 바람직하지 않은 지연을 도입하기 때문에 음성 통신 시스템들에서 허용되지 않는다.In an ideal world, it would be desirable to interpolate data from either aspect of transmission interruption. That is, it is desirable not only to take data after a bad-frame sequence, but also to take previous data and interpolate between them. However, the method is not allowed in voice communication systems because it introduces an undesirable delay.
몇몇 불량-프레임들이 수신되면, 그 때 스피치 신호들의 에너지는 종종 몇 프레임들 후 제로로 감소된다. 종종 "음성" 파라미터는 스피치가 발음되는지 않되는지에 따라 반복되는 변화에 이용할 수 있기 때문에 포함된다. 원리적으로, 발음된 스피치는 주기적인 성분을 단지 반복시키기 위해 바람직하다. 대조하여, 발음되지 않은 스피치에 대하여, 너무 주기적이지 않게 유사한 오디오 스펙트럼 및 유사한 에너지를 생성하는 것이 바람직하다.If several bad-frames are received, then the energy of the speech signals is often reduced to zero after several frames. Often the "voice" parameter is included because it is available for repeated changes depending on whether speech is spoken or not. In principle, pronounced speech is preferred for merely repeating periodic components. In contrast, for unpronounced speech, it is desirable to produce similar audio spectrum and similar energy not too periodically.
본 발명의 발명자들은 불량-프레임 경감 방법으로서 간단한 "대체" 프레임 메커니즘을 사용하는 것의 제한들을 인식하고 이해하였다. 특히, 발명자들은 희귀한 경우만 프레임을 진정으로 적당한 프레임으로 대체하는 것이 인식된다. 또한, 만약 다수의 프레임들이 빈약한 품질의 무선 통신 링크상에서 주로 발생할 수 있는 에러를 수신하면, 대체 프레임 메커니즘은 보다 덜 허용된다. The inventors of the present invention have recognized and understood the limitations of using a simple "alternative" frame mechanism as a bad-frame mitigation method. In particular, the inventors are recognized to replace a frame with a truly suitable frame only in rare cases. Also, if multiple frames receive an error that can occur primarily on poor quality wireless communication links, the alternative frame mechanism is less permissible.
도 1은 본 발명의 바람직한 실시예의 다양한 개념들을 지원하기 위하여 제공된 스피치 부호기를 포함하는 무선 통신 유닛의 블록도.1 is a block diagram of a wireless communication unit including a speech encoder provided to support various concepts of a preferred embodiment of the present invention.
도 2는 본 발명의 바람직한 실시예의 다양한 발명의 개념들을 지원하기 위하여 적응된 부호 여기 선형 예측 스피치 부호기(code exited linear predictive speech corder)의 블록도.2 is a block diagram of a code exited linear predictive speech corder adapted to support various inventive concepts of a preferred embodiment of the present invention.
도 3은 본 발명의 바람직한 실시예에 따라, 대체 프레임들이 다수의 다른 프레임들로부터 선택되도록, 대안적인 가상 전송 경로에 의해 지시된 참조 메커니즘의 사용을 도시한 도면.3 illustrates the use of a reference mechanism indicated by an alternative virtual transmission path such that replacement frames are selected from a number of other frames, in accordance with a preferred embodiment of the present invention.
도 4는 본 발명의 바람직한 실시예에 따라, 주 전송 경로에서 발생하는 다중 에러들을 처리하기 위하여, 대안적인 가상 전송 경로의 개선된 사용을 도시한 도면.4 illustrates an improved use of an alternative virtual transmission path to handle multiple errors occurring in the primary transmission path, in accordance with a preferred embodiment of the present invention.
따라서, 상기된 적어도 몇몇의 단점들을 제거하기 위하여, 상기 스피치 코덱들을 사용할 때 개선된 에러 경감 기술을 제공할 필요가 발생한다.Thus, there is a need to provide an improved error mitigation technique when using the speech codecs to eliminate at least some of the disadvantages described above.
본 발명의 제 1 측면에서, 스피치 통신 유닛은 청구항 제 1 항에 따라 제공된다.In a first aspect of the invention, a speech communication unit is provided according to claim 1.
본 발명의 제 2 측면에서, 스피치 통신 유닛은 청구항 제 11 항에 따라 제공된다.In a second aspect of the invention, a speech communication unit is provided according to claim 11.
본 발명의 제 3 측면에 따라, 음성 통신 유닛에서 불량-프레임 에러 경감을 수행하는 방법은 청구항 제 13 항에 따라 제공된다.According to a third aspect of the invention, a method for performing bad-frame error mitigation in a voice communication unit is provided according to claim 13.
본 발명의 제 4 측면에서, 스피치 통신 유닛은 청구항 제 14 항에 따라 제공된다.In a fourth aspect of the invention, a speech communication unit is provided according to claim 14.
본 발명의 제 5 측면에서, 무선 통신 시스템은 청구항 제 15 항에 따라 제공된다.In a fifth aspect of the invention, a wireless communication system is provided according to claim 15.
본 발명의 다른 측면들은 종속항들에서 한정된다.Other aspects of the invention are defined in the dependent claims.
요약하여, 본 발명의 목적은 현재 불량-프레임 에러 경감 기술들과 연관된 상기된 몇가지 단점들을 적어도 경감시키는 불량-프레임 에러 경감을 수행하는 스피치 코덱 및 방법을 포함하는 통신 유닛을 제공하는 것이다. 이것은 만약 전송 경로상 스피치 프레임이 에러로 수신되면, 전송 경로상에 스피치 프레임들을 전송하고 스피치 복호기에 의해 사용될 대안적인 대체 스피치 프레임들을 가리키기 위한 가상 전송 경로상에 전송되는 참조/포인터를 사용하므로써 달성된다. 이상적으로 다른 에러 통계치, 예를 들어 분리된 FEC 방법을 사용하는 부가적인 가상 전송 경로를 사용하므로써, 참조/포인터는 그것이 참고하는 스피치 프레임과 동일한 에러들에 영향을 받지 않을 것이다. 또한, 버퍼링 기술은 참고될 선택된 스피치 프레임에 유사한 특성들을 나타내는 이전에 전송된 다수의 스피치 프레임들로부터 대안적인 스피치 프레임을 선택하기 위하여 부호기에서 사용된다.In summary, it is an object of the present invention to provide a communication unit comprising a speech codec and method for performing bad-frame error mitigation that at least alleviates some of the above-mentioned disadvantages associated with current bad-frame error mitigation techniques. This is accomplished by using a reference / pointer transmitted on the virtual transmission path to send speech frames on the transmission path and to point to alternative alternative speech frames to be used by the speech decoder if a speech frame is received in error on the transmission path. do. Ideally by using different error statistics, for example an additional virtual transmission path using a separate FEC method, the reference / pointer will not be affected by the same errors as the speech frame it refers to. In addition, a buffering technique is used in the encoder to select an alternative speech frame from a plurality of previously transmitted speech frames that exhibit similar characteristics to the selected speech frame to be referenced.
본 발명의 예시적인 실시예들은 첨부 도면들을 참조하여 바로 기술될 것이다.Exemplary embodiments of the invention will be described immediately with reference to the accompanying drawings.
도 1을 지금 참조하여, 본 발명의 바람직한 실시예들의 본 발명의 개념들을 지원하기 위하여 적응된 이동국(MS)(100)으로 이후 불리는 무선 가입자 유닛의 블록도가 도시된다. MS(100)는 MS(100)내의 수신기 및 전송기 체인 사이의 절연(isolation)을 제공하는 이중 필터(duplex filter), 안테나 스위치 또는 순환 장치(circulator)에 바람직하게 결합된 안테나(102)를 구비한다.Referring now to FIG. 1, shown is a block diagram of a wireless subscriber unit, hereinafter referred to as a mobile station (MS) 100, adapted to support the inventive concepts of preferred embodiments of the present invention. The MS 100 has an antenna 102 that is preferably coupled to a duplex filter, antenna switch, or circulator that provides isolation between the receiver and transmitter chains within the MS 100. .
종래에 공지된 바와 같이, 수신기 체인은 통상적으로 스캐닝 수신기 프론트-엔드 회로(106)를 포함한다(수신, 필터링 및 중간 또는 기저-대역 주파수 변환을 효과적으로 제공함). 스캐닝 프론트-엔드 회로는 단일 처리 기능부(108)에 직렬로 접속된다. 신호 처리 기능으로부터의 출력은 스피치 처리 유닛(130)을 통하여 스피커 같은 적당한 출력 장치(110)에 제공된다.As is known in the art, the receiver chain typically includes a scanning receiver front-end circuit 106 (which effectively provides reception, filtering and intermediate or base-band frequency conversion). The scanning front-end circuit is connected in series to a single processing function 108. The output from the signal processing function is provided via a speech processing unit 130 to a suitable output device 110, such as a speaker.
스피치 처리 유닛(130)은 전송 매체를 통하여 전송하기에 적당한 포맷으로 사용자의 스피치를 부호화하기 위하여 스피치 부호화 기능부(134)를 포함한다. 스피치-처리 유닛(130)은 출력 장치(스피커)(110)를 통하여 출력하기에 적당한 포맷으로 수신된 스피치를 복호화하기 위하여 스피치 복호화 기능부(132)를 포함한다. 스피치-처리 유닛(130)은 제어기(114)를 통하여 메모리 유닛(116), 및 타이머(118)에 동작가능하게 결합된다. 특히, 스피치-처리 유닛(130)의 동작은 본 발명의 바람직한 실시예의 본 발명의 개념들을 지원하기 위하여 제공되었다. 특히, 스피치-처리 유닛(130)은 이전에 전송된 다수의 스피치 프레임들로부터 대체 스피치 프레임을 선택하기 위하여 제공되었다. 스피치 처리 유닛(130), 또는 신호 처리기(108)는 그 때 대안적인 가상 전송 경로의 참조/포인터 신호(선택된 대체 스피치 프레임을 가리킴)를 주 전송 경로에 전송하는 것을 가리킨다. 스피치-처리 유닛(130)의 적응은 도 2를 참조하여 추가로 기술된다. The speech processing unit 130 includes a speech encoding function 134 to encode the speech of the user in a format suitable for transmission over the transmission medium. Speech-processing unit 130 includes speech decoding function 132 to decode the received speech in a format suitable for output via output device (speaker) 110. Speech-processing unit 130 is operatively coupled to memory unit 116, and timer 118 via controller 114. In particular, the operation of speech-processing unit 130 has been provided to support the inventive concepts of the preferred embodiment of the present invention. In particular, speech-processing unit 130 has been provided for selecting an alternate speech frame from a plurality of previously transmitted speech frames. Speech processing unit 130, or signal processor 108, then refers to transmitting the reference / pointer signal (indicative of the selected alternate speech frame) of the alternative virtual transmission path to the primary transmission path. Adaptation of the speech-processing unit 130 is further described with reference to FIG. 2.
완료를 위하여, 수신기 체인은 수신된 신호 세기 지시기(RSSI) 회로(112)( 비록 RSSI 회로 112가 수신기 체인내의 어떤 곳에 배치되면, 스캐닝 수신기 프론트 엔드 106에 결함되는 것이 도시됨)를 포함한다. RSSI 회로는 전체 가입자 유닛 제어를 유지하기 위한 제어기(114)에 결합된다. 제어기(114)는 스캐닝 수신기 프론트-엔드 회로(106) 및 신호 처리 기능부(108)(일반적으로 DSP에 의해 실현됨)에 또한 결합된다. 그러므로 제어기(114)는 복구된 정보로부터 비트 에러 속도(BER) 또는 프레임 에러 속도(FER)를 수신할 수 있다. 제어기(114)는 복호화/부호화 기능들과 같은 동작 상황들을 저장하기 위하여 메모리 장치(116)에 결합된다. 타이머(118)는 일반적으로 MS(100)내의 동작 타이밍들(시간-종속 신호들의 전송 또는 수신)을 제어하기 위하여 제어기(114)에 결합된다. 본 발명의 환경에서, 타이머(118)는 전송(부호화) 경로 및/또는 수신(복호화) 경로에서 스피치 신호들의 타이밍을 가리킨다.To complete, the receiver chain includes a received signal strength indicator (RSSI) circuit 112 (although the RSSI circuit 112 is shown defective at the scanning receiver front end 106 if placed somewhere in the receiver chain). The RSSI circuit is coupled to the controller 114 for maintaining overall subscriber unit control. The controller 114 is also coupled to the scanning receiver front-end circuit 106 and the signal processing function 108 (generally realized by the DSP). Thus, the controller 114 may receive a bit error rate (BER) or frame error rate (FER) from the recovered information. The controller 114 is coupled to the memory device 116 to store operating situations such as decryption / encoding functions. The timer 118 is generally coupled to the controller 114 to control the operating timings (transmission or reception of time-dependent signals) within the MS 100. In the context of the present invention, timer 118 indicates the timing of speech signals in the transmit (encoded) path and / or receive (decoded) path.
전송 체인과 관련하여, 이것은 필수적으로 스피치 부호기(134)를 통하여 전송기/변조 회로(122)로 직렬로 결합된 마이크로폰 변환기와 같은 입력 장치(120)를 포함한다. 그후, 안테나(102)로부터 방사될 임의의 전송 신호는 전력 증폭기(124)를 통하여 통과된다. 전송/변조 회로(122) 및 전력 증폭기(124)는 제어기에 동작가능하게 응답하고, 전력 증폭기로부터의 출력은 듀플렉스 필터 또는 전달기(104)에 결합된다. 전송기/변조 회로(122) 및 스캐닝 수신기 프론트-엔드 회로(106)는 주파수 업컨버션(up-conversion) 및 주파수 다운 컨버션(down-conversion) 기능들(도시되지 않음)을 포함한다. In the context of a transmission chain, this essentially includes an input device 120 such as a microphone converter coupled in series via a speech encoder 134 to a transmitter / modulation circuit 122. Thereafter, any transmit signal to be radiated from antenna 102 is passed through power amplifier 124. The transmit / modulation circuit 122 and the power amplifier 124 are operatively responsive to the controller, and the output from the power amplifier is coupled to the duplex filter or transmitter 104. Transmitter / modulation circuitry 122 and scanning receiver front-end circuitry 106 include frequency up-conversion and frequency down-conversion functions (not shown).
물론, MS(100)내의 다양한 구성 요소들은 본 발명의 개념들을 사용할 수 있도록 임의의 적당한 기능 토포로지에 배열될 수 있다. 게다가, MS(100)내의 다양한 구성 요소들은 이산 또는 집적 구성 요소 형태로 실현되고, 궁극적인 구조는 단순히 임의의 선택이다. Of course, the various components within the MS 100 may be arranged in any suitable functional topology to enable use of the concepts of the present invention. In addition, the various components in the MS 100 are realized in discrete or integrated component form, and the ultimate structure is simply any choice.
스피치 신호들의 바람직한 버퍼링 또는 처리가 스피치 처리 기능을 수행하는 소프트웨어 처리기(또는 디지탈 신호 처리기(DSP))를 이용하여 소프트웨어, 펌웨어 또는 하드웨어로 실현될 수 있는 것은 본 발명의 고려 사항안에 있다. It is within the consideration of the present invention that the preferred buffering or processing of speech signals can be realized in software, firmware or hardware using a software processor (or digital signal processor (DSP)) that performs the speech processing function.
도 2를 참조하여, 부호 여기 선형 예측(CELP) 스피치 부호기(134)의 블록도는 본 발명의 바람직한 실시예에 따라 도시된다. 분석될 음향 입력 신호는 마이크로폰(202)에서 스피치 부호기(134)에 인가된다. 입력 신호는 필터(204)에 인가된다. 필터(204)는 일반적으로 대역 통과 필터 특성들을 나타낼 것이다. 그러나, 만약 스피치 대역폭이 이미 적당하면, 필터(204)는 직접적인 유선 접속을 포함할 수 있다.Referring to FIG. 2, a block diagram of a sign excited linear prediction (CELP) speech encoder 134 is shown in accordance with a preferred embodiment of the present invention. The acoustic input signal to be analyzed is applied to the speech encoder 134 in the microphone 202. The input signal is applied to the filter 204. The filter 204 will generally exhibit band pass filter characteristics. However, if speech bandwidth is already adequate, filter 204 may include a direct wired connection.
필터(204)로부터의 아날로그 스피치 신호는 N 펄스 샘플들의 시퀀스로 전환되고, 각각의 펄스 샘플의 크기는 종래 기술에서 공지된 바와 같이, 그 때 아날로그 대 디지탈(A/D) 컨버터(208)의 디지탈 부호에 의해 표현된다. 샘플 클럭(SC)은 프레임 클럭(FC)과 함께 생성된다.The analog speech signal from the filter 204 is converted into a sequence of N pulse samples, and the magnitude of each pulse sample is then known in the art, then the digital of the analog to digital (A / D) converter 208. It is represented by a sign. The sample clock SC is generated together with the frame clock FC.
입력 스피치 벡터 s(n)로서 표현될 수 있는 A/D(208)의 디지탈 출력은 계수 분석기(210)에 인가된다. 이 입력 스피치 벡터 s(n)는 종래 기술에서 공지된 바와 같이, 프레임들, 즉 프레임 클럭(FC)에 의해 결정되는 길이인 시간의 블록들에서 반복적으로 얻어진다. The digital output of the A / D 208, which can be represented as the input speech vector s (n), is applied to the coefficient analyzer 210. This input speech vector s (n) is obtained repeatedly in frames, i.e. blocks of time, length determined by the frame clock FC, as is known in the art.
스피치의 각각의 블록에 대하여, 한 세트의 선형 예측 부호화(LPC) 파라미터들은 계수 분석기(210)에 의해 본 발명의 바람직한 실시예에 따라 형성된다. 생성된 스피치 부호기 파라미터들은 LPC 파라미터들, 장기 예측기(LTP) 파라미터들, 여기 이득 인자(G2)(가장 우수한 확률론적 부호록 여기 부호워드 Ⅰ와 함께)를 포함한다. 상기 스피치 부호화 파라미터들은 멀티플렉서(250)에 인가되고 복호기에서 스피치 합성에 의해 사용하기 위해 채널을 통해 전송된다. 입력 스피치 n(s)는 또한 감산기(230)에 인가되고, 그 기능은 후에 기술된다.For each block of speech, a set of linear prediction coding (LPC) parameters are formed by coefficient analyzer 210 in accordance with a preferred embodiment of the present invention. The generated speech encoder parameters include LPC parameters, long term predictor (LTP) parameters, excitation gain factor G 2 (along with the best stochastic code excitation codeword I). The speech coding parameters are applied to the multiplexer 250 and transmitted over the channel for use by speech synthesis in the decoder. Input speech n (s) is also applied to subtractor 230, the function of which is described later.
도 2에 종래 CELP 부호기내에서, 부호록 검색 제어기(240)는 가장 우수한 인덱스들(indice)을 선택하고 블록(214)내의 확률론적 부호록 및 블록(216)내의 적응성 부호록으로부터 입력 스피치 샘플을 나타내기 위하여 사용된 합산된 선택 여기 벡터의 최대 웨이팅 에러를 형성한다. 확률론적 부호록(214) 및 적응성 부호록(216)의 출력은 각각의 이득 기능부들(222 및 218)에 입력된다. 이득 조절 출력들은 종래 기술에서 공지된 바와 같이 합산기(220)에서 합산되고 LPC 필터(224)에 입력된다.In the conventional CELP coder of FIG. 2, the codebook search controller 240 selects the best indices and takes input speech samples from the probabilistic codebook in block 214 and the adaptive codebook in block 216. Form the maximum weighting error of the summed select excitation vector used to represent. The outputs of the probabilistic code list 214 and the adaptive code list 216 are input to the gain functions 222 and 218, respectively. Gain adjustment outputs are summed in summer 220 and input to LPC filter 224 as is known in the art.
첫째로, 적응성 부호록 또는 장기 예측기 구성 요소는 1(n)이 계산된다. 이것은 지연 및 이득 인자 'G1'를 특징으로 한다.First, the adaptive code book or long term predictor component is 1 (n) calculated. This is characterized by the delay and gain factor 'G 1 '.
각각의 확률론적 부호록 여기 벡터 ui(n)에 대하여, 재구성된 스피치 벡터 s'i(n)는 입력 스피치 벡터 s(n)에 비교를 위하여 생성된다. 이득 블록(222)은 여기 이득 인자 'G2'를 스케일하고 합산 블록(220)은 적응성 부호록 구성 요소에 부가한다. 상기 이득은 계수 분석기(210)에 의해 미리 계산되고 모든 여기 벡터들을 분석하기 위하여 사용되거나 부호록 검색 제어기(240)에 의해 생성된 가장 우수한 여기 부호워드 Ⅰ에 대한 검색과 함께 최적화될 수 있다.For each stochastic code excitation vector u i (n), a reconstructed speech vector s' i (n) is generated for comparison to the input speech vector s (n). Gain block 222 scales the excitation gain factor 'G 2 ' and summing block 220 adds to the adaptive code block component. The gain can be optimized with a search for the best excitation codeword I, precomputed by coefficient analyzer 210 and used to analyze all excitation vectors or generated by codelock search controller 240.
스케일 여기 신호 G11(n) + G2ui(n)은 재구성된 스피치 벡터 s'i(n)을 생성하기 위하여 단기 예측기(STP) 필터를 구성하는 선형 예측 부호화 필터(224)에 의해 필터된다. i 번째 여기 부호 백터에 대한 재구성된 스피치 벡터 s'i(n)는 감산기(230)에서 이들 두 개의 신호들을 감산함으로써 입력 스피치 벡터 s(n)의 동일한 벡터와 비교된다.The scale excitation signal G 1 1 (n) + G 2 u i (n) is generated by a linear prediction coding filter 224 constituting a short-term predictor (STP) filter to produce a reconstructed speech vector s' i (n). Is filtered. The reconstructed speech vector s' i (n) for the ith excitation vector is compared with the same vector of the input speech vector s (n) by subtracting these two signals in subtractor 230.
차 벡터 ei(n)는 스피치의 블록들 및 재구성된 블록들 사이의 차이를 나타낸다. 차 벡터는 계수 분석기(210)에 의해 생성된 웨이팅 필터 파라미터들(WTP)을 사용하여 웨이팅 필터(232)에 의해 지각적으로 웨이팅된다. 예측 웨이팅은 에러가 인간 귀에 매우 지각적으로 중요한 주파수들 및 다른 주파수들을 강조시킨다.The difference vector e i (n) represents the difference between the blocks of speech and the reconstructed blocks. The difference vector is perceptually weighted by the weighting filter 232 using the weighting filter parameters WTP generated by the coefficient analyzer 210. Predictive weighting highlights frequencies and other frequencies where errors are very perceptually important to the human ear.
부호록 검색 제어기(240)내의 에너지 계산기 기능은 웨이팅 차이 벡터 e'i(n)의 에너지를 계산한다. 부호록 검색 제어기는 최소 에러를 생성하는 여기 벡터를 결정하기 위하여 이전 에러 신호들에 대하여 제공된 여기 벡터 u'i(n)에 대한 i 번째 에러 신호를 비교한다. 최소 에러를 가진 i 번째 여기 벡터의 부호는 가장 우수한 여기 부호 Ⅰ로서 채널을 통하여 출력된다.The energy calculator function in the code list search controller 240 calculates the energy of the weighting difference vector e ' i (n). The codebook search controller compares the i th error signal for the excitation vector u ' i (n) provided for the previous error signals to determine the excitation vector that produces the minimum error. The sign of the i th excitation vector with the least error is output through the channel as the best excitation sign I.
스케일링된 여기 Gi1(n) + G2uⅠ(n)의 복사본은 미래 사용을 위하여 (216)의 장기 예측기 메모리내에 저장된다.A copy of the scaled excitation G i 1 (n) + G 2 u I (n) is stored in the long term predictor memory of 216 for future use.
대안으로, 부호록 검색 제어기(240)는 미리 결정된 에러 임계치에 부합하는 것 같은 몇몇 미리 결정된 참조를 가진 에러 신호를 제공하는 특정 부호워드를 결정할 수 있다. Alternatively, codelock search controller 240 may determine a particular codeword that provides an error signal with some predetermined reference, such as meeting a predetermined error threshold.
통상적인 스피치 부호화 유닛 기능의 보다 상세한 설명은 1994년 John Wiley에 의해 발표된 A.M.Kondoz에 의한 "낮은 비트 속도 시스템들에 대한 디지탈 스피치 부호화"에서 발견될 수 있다.A more detailed description of a typical speech coding unit function can be found in "Digital Speech Coding for Low Bit Rate Systems" by A.M.Kondoz, published by John Wiley in 1994.
본 발명의 바람직한 실시예에서, 에러 경감 기술은 멀티플렉서(250) 다음의 스피치 프레임들에 인가된다. 본 발명은 주 전송 경로(281)상 부호기로부터 전송된 이전에 부호화된 스피치 프레임에 하나의 포인터를 전송하기 위하여 사용되는 다른, 바람직하게 평행한 가상 전송 경로(282)를 이용한다.In a preferred embodiment of the present invention, the error mitigation technique is applied to speech frames following multiplexer 250. The present invention utilizes another, preferably parallel virtual transmission path 282 used to transmit one pointer to a previously encoded speech frame transmitted from an encoder on the main transmission path 281.
본 발명의 환경에서, 표현 '가상"은 스피치 통신을 지원하는 주 전송 경로외에 부호기로부터 복호기로 제공된 전송 경로로서 정의된다. '가상' 전송 경로는 동일한 비트 스트림, 또는 시분할 멀티플렉싱 방법에서 동일한 시간 프레임 또는 다중 프레임내에, 또는 다른 통신 루트, 예를 들어 VoIP 시스템을 통하여 배치될 수 있다. 이상적으로 다른 에러 통계치들, 예를 들어 분리된 FEC 방법을 사용하여 부가적인 전송 경로를 이용함으로써, 참조/포인터는 참고하는 스피치 프레임과 동일한 에러들에 영향을 받지 않을 것이다. In the context of the present invention, the expression 'virtual' is defined as a transmission path provided from the encoder to the decoder in addition to the main transmission path supporting speech communication.The 'virtual' transmission path is the same time frame or in the same time frame or time division multiplexing method. It can be placed in multiple frames or through another communication route, eg a VoIP system, ideally by using an additional transmission path using other error statistics, for example a separate FEC method, the reference / pointer You will not be affected by the same errors as the speech frame you reference.
공지된 부호화 장치들에 대한 한가지 주목할 만한 차이는 멀티플렉싱 동작 다음 제 2 최소화 섹션이 있다는 것이다. 상기 회로는 버퍼에 홀딩된 스피치 파라미터 데이터를 평가하고 현재 스피치 프레임에 가장 근접한 것을 선택한다.One notable difference to known encoding devices is that there is a second minimization section following the multiplexing operation. The circuit evaluates the speech parameter data held in the buffer and selects the one closest to the current speech frame.
하나의 개선된 실시예에서, 병렬 가상 전송 경로는 스피치 부호기에 의해 주 전송 경로에 사용된 것과 다른 순방향 에러 수정(FEC) 보호를 사용한다. 이런 방식에서, 독립적인 FEC 경로를 사용함으로써, 스피치 데이터 패킷은 다른 에러 통계치들로부터 고통받는다. 메인 및 병렬 가상 전송 경로들 사이의 이런 차이는 에러들에 대한 강건함을 개선시킨다.In one improved embodiment, the parallel virtual transmission path uses forward error correction (FEC) protection that is different from that used for the main transmission path by the speech encoder. In this way, by using independent FEC paths, speech data packets suffer from other error statistics. This difference between the main and parallel virtual transmission paths improves the robustness to errors.
멀티플렉서(250)는 이전에 멀티플렉싱된 프레임들을 홀딩하는 버퍼(260)에 데이터 패킷들/프레임들을 출력한다. 디멀티플렉서(270)는 버퍼(260)에 홀딩된 멀티플렉스된 신호의 버퍼 프레임들을 평가한다. 이것과 관련하여, 디멀티플렉서(270)는 LPC 파라미터들(272)로부터 여기 파라미터들(274)을 분리한다. 여기 파라미터들을 생성하기 위하여 사용된 장기 예측기의 메모리가 프레임의 시작시 장기 예측기(216)와 동일하여야 하는 것이 주의된다.The multiplexer 250 outputs data packets / frames to a buffer 260 that holds previously multiplexed frames. Demultiplexer 270 evaluates buffer frames of the multiplexed signal held in buffer 260. In this regard, demultiplexer 270 separates excitation parameters 274 from LPC parameters 272. Note that the memory of the long term predictor used to generate the excitation parameters should be the same as the long term predictor 216 at the start of the frame.
멀티플렉스된 스피치의 각각의 블록에 대하여, 그러므로 현재 프레임들 및 이전 프레임들에 대한 한세트의 선형 예측 부호화(LPC) 파라미터들이 생성된다. 본 발명의 바람직한 실시예에서, 각각의 양자화된 LPC 파라미터들 및 여기 파라미터들은 버퍼링된 데이터의 j 번째 이전 프레임에 대한 재구성된 스피치 벡터들 s'j(n)를 형성한다. 이들은 감산기(262)에서 이들 두 개의 신호들을 감산함으로써 이전에 버퍼링된 스피치 벡터들과 비교된다.For each block of multiplexed speech, therefore, a set of linear predictive coding (LPC) parameters are generated for current frames and previous frames. In a preferred embodiment of the present invention, each quantized LPC parameters and excitation parameters form reconstructed speech vectors s' j (n) for the j th previous frame of buffered data. These are compared to previously buffered speech vectors by subtracting these two signals in subtractor 262.
차 벡터 ej(n)는 스피치의 본래 버퍼 블록들 및 이전에 버퍼링된 블록들 사이의 차를 나타낸다. 상기 차 벡터는 LPC 웨이팅 필터(264)에 의해 퍼센트적으로 웨이팅된다. 지시된 바와 같이, 지각적인 웨이팅은 인간 귀에 지각적으로 보다 중요한 에러를 가진 상기 주파수, 다른 주파수들을 감쇠시킨다.The difference vector e j (n) represents the difference between the original buffer blocks of the speech and the previously buffered blocks. The difference vector is weighted percent by LPC weighting filter 264. As indicated, perceptual weighting attenuates the frequency, other frequencies, with perceptually more significant errors in the human ear.
부호 검색 제어기(266) 내부의 에너지 계산기 기능은 웨이팅 차 벡터 e'j(n)의 에너지를 계산한다. 부호록 검색 제어기(266)는 최소 에러를 생성하는 여기 벡터를 결정하기 위하여 이전 에러 신호들에 대해 제공된 여기 벡터 uj(n)에 대한 j 번째 에러 신호를 비교한다. 부호록 검색 제어기(266)는 최소 웨이팅된 에러를 제공하기 위하여 '가장 우수한 프레임 데이터에 대한 인덱스'을 선택한다. 그 다음 부호기는 주 전송 경로의 각각의 스피치 프레임 및 그 자체 사이에서 최소 웨이팅된 에러를 제공할 때 결정된 이전 프레임에 대한 '포인터'를 복호기에 전송한다.An energy calculator function inside the sign search controller 266 calculates the energy of the weighting difference vector e ' j (n). The code list search controller 266 compares the j th error signal for the excitation vector u j (n) provided for the previous error signals to determine the excitation vector that produces the minimum error. The code list search controller 266 selects an 'index to the best frame data' to provide the minimum weighted error. The encoder then sends a 'pointer' to the decoder for the previous frame determined when providing the minimum weighted error between each speech frame of the main transmission path and itself.
필수적으로, 참조된 스피치 프레임(이상적으로 현재 전송된 프레임으로부터 시간 또는 프레임 번호적으로 별도)은 지각적으로 웨이팅된 에러 분별시 부호기에 의해 부호화되었던 프레임과 가장 밀접하게 유사한 스피치의 현재 이동 윈도우내의 프레임을 구성한다. 그러므로, 그것은 만약 프레임이 에러로 수신되면 에러 경감 과정에 사용하기 위한 현재 프레임에 가장 우수한 매칭(포인터)을 나타낸다. 이런 표현, 또는 포인터는 도 3에 관하여 보다 상세히 기술된다.Essentially, the referenced speech frame (ideally separate from the currently transmitted frame by time or frame number) is the frame in the current moving window of speech that is most closely similar to the frame that was encoded by the encoder upon perceptually weighted error discrimination. Configure Therefore, it represents the best match (pointer) to the current frame for use in the error mitigation process if the frame is received in error. This representation, or pointer, is described in more detail with respect to FIG. 3.
도 3을 참조하여, 버퍼 타이밍 다이어그램(300)은 본 발명의 바람직한 처리를 도시한다. 타이밍 다이어그램은 에러인 것으로 결정되고 스피치 복호기에서 수신되었던 프레임 0 310을 도시한다. 그 다음 복호기는 프레임 0 310을 대체하기 위해 가장 적당한 프레임을 결정하기 위하여 대안 가상 전송 경로를 평가한다. 도 3에 도시된 바와 같이, 대안적인 가상 전송 경로는 프레임 0 310의 바람직한 대체시 프레임 -4 320에 대한 포인트를 포함한다. 프레임 0 310을 프레임 -4 320으로 대체함으로써, 스피치 복호화 과정시 스피치 품질상에 최소 효과를 가진다.Referring to Figure 3, buffer timing diagram 300 illustrates a preferred process of the present invention. The timing diagram shows frame 0 310 which was determined to be an error and was received at the speech decoder. The decoder then evaluates the alternative virtual transmission path to determine the most suitable frame to replace frame 0 310. As shown in FIG. 3, an alternative virtual transmission path includes points for frame-4 320 in a preferred replacement of frame 0 310. By replacing frame 0 310 with frame -4 320, it has a minimal effect on speech quality during speech decoding.
본 발명의 발명자들은 바로 전 프레임들이 통상적으로 동일한 말한 사람(즉, 스피치 프레임들은 유사한 피치 및 포맷 위치들을 나타낼 것이다)에 의해 모두 말해졌다는 사실을 인식하고 이용했다. 그러므로, 유사한 이전 스피치 프레임이 현재 스피치 프레임에 발견될 수 있을 가능성이 높다.The inventors of the present invention have recognized and used the fact that the preceding frames were all typically spoken by the same speaker (ie, speech frames would represent similar pitch and format positions). Therefore, there is a high likelihood that similar previous speech frames may be found in the current speech frame.
본 발명의 바람직한 실시예에 따라, 최소 지각적인 에러는 메모리내의 각각의 프레임에 대해 파라미터들의 세트들을 제공하면, 버퍼링된 프레임들의 각각에 대하여 웨이팅 세그먼트 신호-대-노이즈(SEGSNR) 또는 평균 웨이팅된 SNR을 평가함으로써 발견된다. 바람직하게, 세그먼트는 스피치 코덱 서브-프레임 레벨로 정의된다.In accordance with a preferred embodiment of the present invention, the least perceptual error provides a set of parameters for each frame in memory, whereby a weighted segment signal-to-noise (SEGSNR) or average weighted SNR for each buffered frame Is found by evaluating. Preferably, the segment is defined at the speech codec sub-frame level.
이런 결정은 부호기에서 수행된다. 작은 피치 에러(pitch error)가 있는 경우, 그것은 매우 다른 SEGSNR 값들이 나타날 수 있다는 것이 고려된다. 이것은 소스 스피치 및 버퍼링된 신호가 빠르게 다른 위상으로 이동될 수 있기 때문이다. 그래서, 본 발명의 개선된 실시예에서, 서브 샘플 해상도(일반적으로 1/3 또는 1/4 샘플들)를 사용하여 버퍼링된 프레임들에 대한 피치 기간, 즉 +/- 5% 정도로 검색하는 것이 제안되고 가장 높은 SEGSNR 값을 얻는다.This decision is made at the encoder. If there is a small pitch error, it is considered that very different SEGSNR values may appear. This is because the source speech and the buffered signal can be quickly shifted out of phase. Thus, in an improved embodiment of the present invention, it is proposed to search for pitch periods, ie +/- 5%, for frames buffered using subsample resolution (typically 1/3 or 1/4 samples). To get the highest SEGSNR value.
본 발명의 다른 개선점에서, 만약 프레임 자체가 에러로 수신되면, 프레임의 불량 수신이 자체인 것을 경감시키기 위하여 사용된 프레임은 도 4에 도시된 에러로 수신된 현재 프레임에 대한 스피치 정보의 가장 우수한 소스이다. 따라서, 도 4는 다중 에러들이 처리되는 방법을 가리키는 타이밍 도면을 도시한다. 프레임 0 410으로부터의 데이터는 에러로 공지된다. 제안된 에러 경감 과정은 적당한 대체로서 데이터 프레임 4 420을 가리키는 대안적인 가상 전송 경로를 사용한다. 그러나, 데이터 프레임 -4 420은 에러로 결정된다. 상기 경우, 포인터는 변조된 프레임 -4 420에 대해 가장 유사한 프레임인 하나의 프레임으로서 프레임 -6 430으로부터의 데이터를 가리킨다. 그러므로, 프레임 -6 450은 프레임 -4 420을 대체하기 위하여 사용되고 프레임 -1 410을 대체하기에 적당한다. 이런 방식으로, 다중 프레임 에러들은 메모리를 벗어난 참조들의 문제를 극복하도록 조절될 수 있다.In another refinement of the invention, if the frame itself is received in error, the frame used to mitigate the bad reception of the frame itself is the best source of speech information for the current frame received with the error shown in FIG. to be. Thus, Figure 4 shows a timing diagram indicating how multiple errors are handled. Data from frame 0 410 is known as an error. The proposed error mitigation process uses an alternative virtual transmission path pointing to data frame 4 420 as a suitable replacement. However, data frame-4420 is determined to be an error. In this case, the pointer points to the data from frame -6 430 as one frame that is the most similar frame to modulated frame -4 420. Therefore, frame-6450 is used to replace frame-4420 and is suitable to replace frame-1410. In this way, multiple frame errors can be adjusted to overcome the problem of out of memory references.
이것은 궁극적으로 효과적으로 저장 윈도우 밖으로 인도하는 참조들(포인터들)을 유발할 수 있다. 그러나, 이것은 만약 윈도우내의 에러 값들이 다중 참조들에 대한 필요성을 제거함으로써 업데이트되면 문제로서 요구되지 않는다. This can ultimately lead to references (pointers) that effectively lead out of the storage window. However, this is not required as a problem if the error values in the window are updated by removing the need for multiple references.
선택적으로, 만약 대체된 프레임들이 버퍼내에 저장되면, 프레임 -4 420이 현재 프레임이기 이전에, 버퍼는 항상 이용할 수 있는 데이터만을 포함하도록, 버퍼내의 프레임 -6 430(그래서 프레임 -2)에 의해 대체된다. Optionally, if replaced frames are stored in the buffer, before frame -4 420 is the current frame, the buffer is replaced by frame -6 430 (so frame -2) in the buffer, so that the buffer always contains only available data. do.
요약하여, 참조 또는 포인터는 주 비트 스트림에 대한 다른 비트 스트림의 복호기에 전송된다. 참조 또는 포인터는 현재 전송된 프레임과 가장 우수하게 매칭하는 이전에 전송된 프레임을 가리킨다. 참조 또는 포인터는 병렬 비트 스트림으로 바람직하게 전송된다. 만약 프레임이 스피치 복호기에서 에러로 수신되면, 참조 또는 포인터는 프레임 대체 에러 경감 과정에서 사용된다. 따라서, 프레임 경감은 공지된 바로 전 또는 그 다음 연속하는 프레임 대체 메커니즘을 다수의 프레임들로부터의 임의의 프레임으로 연장함으로써 개선된다. 이것과 관련하여, 상기 처리에서 사용된 프레임들의 수는 최소 웨이팅된 에러 프레임을 결정하기 위하여 요구된 버퍼링/저장 메커니즘 및/또는 처리 전력에 의해서만 제한된다. In summary, a reference or pointer is sent to the decoder of another bit stream for the main bit stream. The reference or pointer points to a previously transmitted frame that best matches the currently transmitted frame. The reference or pointer is preferably transmitted in a parallel bit stream. If a frame is received as an error in the speech decoder, a reference or pointer is used in the frame replacement error mitigation process. Thus, frame alleviation is improved by extending the immediately preceding or next successive frame replacement mechanism known to any frame from multiple frames. In this regard, the number of frames used in the process is limited only by the buffering / storage mechanism and / or processing power required to determine the minimum weighted error frame.
지시된 바와 같이, 스피치 부호기의 스피치 파라미터들의 버퍼링/저장 처리는 프레임들의 수 이상 수행된다. 예를 들어, <12 kb/sec의 GSM 향상 풀 속도(EFR) 코덱의 경우, 3 초의 스피치에 대한 저장은 단지 5 kbyte이다. 가장 어려운 임무는 일백 오십 가능 프레임들로부터 가장 밀접한 프레임 매칭을 식별하는 것이다. 따라서, 본 발명의 일실시예에서, 상기된 최소 웨이팅된 에러 선택 기술은 스피치 부호기 프레임의 파라미터들 모두 보다 오히려, 합성 스피치로부터 유도된 파라미터들의 서브세트들 또는 파라미터들에 인가될 수 있다. 다른 말로, 합성된 스피치 프레임(부호기 및 복호기 모두에서 계산된 합성 스피치로부터 유도된 스피치 파라미터)의 에너지 및 LPC 필터 파라미터들(LSF)은 메모리 및 계산 과정을 절약하기 위하여 정밀한 부호기 파라미터들보다 오히려 참조(또는 포인터됨)될 수 있다.As indicated, the buffering / storing process of speech parameters of the speech encoder is performed over the number of frames. For example, for a GSM Enhanced Full Rate (EFR) codec of <12 kb / sec, the storage for 3 seconds of speech is only 5 kbytes. The most difficult task is to identify the closest frame match from one hundred fifty possible frames. Thus, in one embodiment of the present invention, the minimum weighted error selection technique described above may be applied to a subset or parameters of parameters derived from synthesized speech, rather than all of the parameters of a speech encoder frame. In other words, the energy and LPC filter parameters (LSF) of the synthesized speech frame (speech parameter derived from the synthesized speech calculated in both the encoder and the decoder) are referenced rather than precise encoder parameters in order to save memory and computation. Or pointers).
이것과 관련하여, 스피치 프레임이 많은 파라미터들을 포함하기 때문에, 제안된 기술은 임의의 수의 파라미터들에 인가될 수 있다. CELP 부호기에서 상기 파라미터들의 실시예들은 다음과 같다 :In this regard, since the speech frame contains many parameters, the proposed technique can be applied to any number of parameters. Embodiments of the parameters in the CELP encoder are as follows:
(1) LPC 파라미터들을 나타내는 라인 스펙트럴 쌍들(LSP);(1) line spectral pairs (LSP) representing LPC parameters;
(2) 서브프레임-1에 대해 뒤진 장기 예측기(LTP) 래그(lag);(2) long term predictor (LTP) lag lagging for subframe-1;
(3) 서브프레임-1에 대한 LTP 이득;(3) LTP gain for subframe-1;
(4) 서브프레임-1에 대한 부호록 인덱스;(4) codelock index for subframe-1;
(5) 서브프레임-1에 대한 부호록 이득;(5) codelock gain for subframe-1;
(6) 서브프레임-2에 대한 장기 예측기 래그;(6) long term predictor lag for subframe-2;
(7) 서브프레임-2에 대한 LTP 이득;(7) LTP gain for subframe-2;
(8) 서브프레임-2에 대한 부호록 인덱스;(8) codelock index for subframe-2;
(9) 프레임-2에 대한 부호록 이득;(9) codelock gain for frame-2;
(10) 서브프레임-3에 대한 장기 예측기 래그;(10) long term predictor lag for subframe-3;
(11) 서브프레임-3에 대한 LTP 이득;(11) LTP gain for subframe-3;
(12) 서브프레임-3에 대한 부호록 인덱스;(12) codelock index for subframe-3;
(13) 서브프레임-3에 대한 부호록 이득;(13) codelock gain for subframe-3;
(14) 서브프레임-4에 대한 장기 예측기 래그;(14) long term predictor lag for subframe-4;
(15) 서브프레임-4에 대한 LTP 이득;(15) LTP gain for subframe-4;
(16) 서브프레임-4에 대한 부호록 인덱스; 또는(16) codelock index for subframe-4; or
(17) 서브프레임-4에 대한 부호록 이득. (17) Codelock gain for subframe-4.
포인터가 파라미터들의 전체 세트보다 오히려, 현재 프레임의 것에 매칭하도록 이전 프레임들로부터 LSP의 세트를 참조함으로써 전송될 수 있는 것은 본 발명의 고려 사항내에 있다. 선택적으로, 상기 다수의 파라미터들의 각각에 대한 포인터를 가지는 것은 가능하다. It is within the consideration of the present invention that a pointer can be sent by referring to the set of LSPs from previous frames to match that of the current frame rather than the entire set of parameters. Optionally, it is possible to have a pointer to each of the plurality of parameters.
무선 통신 시스템에서, 병렬 가상 전송 경로는 데이터 비용 중 보호되지 않은 비트들내에서 블록 부호화 참조 워드를 전송하는 것을 포함한다(여기서, 7 개의 비트들은 대략 2.5 초와 같은 128 프레임 버퍼를 지원하기에 충분하다). 이것은 2 비트 에러 수정까지 제공하는 15 비트의 BCH 블록 부호로 부호화될 수 있다(75 비트/초의 등가 속도를 가짐).In a wireless communication system, a parallel virtual transmission path involves transmitting a block coded reference word in unprotected bits of data cost (where seven bits are sufficient to support a 128 frame buffer, such as approximately 2.5 seconds). Do). It can be coded with a 15 bit BCH block code that provides up to 2 bit error correction (with an equivalent rate of 75 bits / sec).
선택적으로, 대안적인 가상 전송 경로가 에러 수정 및 에러 검출 기능들의 결합을 제공할 수 있다는 것이 고려된다. 에러 검출은 참조의 빈약한 수신이 불량 경감을 유발하기 때문에 유용하다. 잘못되게 수신된 참조 워드의 경우, 상기 방법은 이전 프레임 반복를 디폴트할 수 있다. 75 비트/초의 채널 속도는 무시할 수 있는 감도 손실을 유발하는 22.8 Kbit/sec 내지 22.725 Kbit/sec의 GSM 풀-속도 채널의 그로스 비트-속도만을 감소시킨다. Optionally, it is contemplated that alternative virtual transmission paths may provide a combination of error correction and error detection functions. Error detection is useful because poor reception of a reference causes poor alleviation. In the case of an incorrectly received reference word, the method may default to the previous frame repetition. The channel rate of 75 bits / sec reduces only the gross bit-rate of GSM full-rate channels of 22.8 Kbit / sec to 22.725 Kbit / sec, resulting in negligible loss of sensitivity.
인터넷 프로토콜(VoIP) 통신 링크를 통한 음성 같은 다른 실시예에서, 대안적인 가상 전송 경로는 다중 패킷 스트림들을 전송함으로써 달성할 수 있다. 이런 환경에서, 이것이 패킷 드롭핑(packet dropping) 가능성들을 증가시키기 때문에 총 트래픽이 실질적으로 증가하지 않는 것은 바람직하다. In other embodiments, such as voice over an Internet Protocol (VoIP) communication link, an alternative virtual transport path may be achieved by sending multiple packet streams. In this environment, it is desirable that the total traffic does not increase substantially because this increases the probability of packet dropping.
바람직한 메커니즘은 전송들이 발생하고 스피치가 고정되지 않은 경우에만 상기된 바와 같이 이전 프레임들에 대한 참조를 전송한다. 스피치가 고정될 때, 및 종래 기술들이 비교적 잘 작동할 때, 참조들은 전송되지 않는다. 이런 방식에서 패킷 네트워크는 과도하게 오버로드되지 않고, 성능 이득들(performance gains)의 대부분은 달성된다. 스피치 신호가 얼마나 정적인지의 정도는 손실 패킷의 경우에서 재생된 품질을 개선하기 위하여 조절될 수 있는 변수로서 생성될 수 있다.The preferred mechanism sends a reference to previous frames as described above only if transmissions occur and speech is not fixed. When speech is fixed, and when the prior art works relatively well, references are not sent. In this way the packet network is not overloaded and most of the performance gains are achieved. The degree to which the speech signal is static can be generated as a variable that can be adjusted to improve the reproduced quality in case of lost packets.
복호기 기능성은 실질적으로 부호기의 역(멀티플렉서 다음 부가적인 회로 없이)이고, 그러므로 여기에 상세히 기술되지 않는다. 통상적인 스피치 복호화 유닛의 기능성 설명은 또한 1994년 John Wiley에 의해 발표된 A.M.Kondoz에 의한 "저속 비트 통신 시스템들에 대한 디지탈 스피치 부호화"에서 발견될 수 있다. 복호기에서, 복호기는 그것이 불량-프레임을 결정할 때까지 표준 복호화 처리를 따른다. 불량-프레임이 검출될 때, 복호기는 각각의 참조/포인터에 의해 지시된 대안적인 프레임을 결정하기 위하여 대안적인 가상 전송 경로를 평가한다. 그 다음 복호기는 참조/포인터 전송에 의해 표시된 바와 같이 '유사한' 프레임을 검색한다. 이전에 지시된 프레임은 스피치를 합성하기 위하여 수신된 프레임을 대체하기 위해 사용된다.The decoder functionality is substantially the inverse of the encoder (without additional circuitry following the multiplexer) and therefore is not described in detail here. A functional description of a typical speech decoding unit can also be found in "Digital Speech Encoding for Slow Bit Communication Systems" by A.M.Kondoz, published by John Wiley in 1994. In the decoder, the decoder follows the standard decoding process until it determines a bad-frame. When a bad-frame is detected, the decoder evaluates the alternative virtual transmission path to determine the alternative frame indicated by each reference / pointer. The decoder then searches for 'similar' frames as indicated by the reference / pointer transmission. The previously indicated frame is used to replace the received frame to synthesize speech.
바람직하게, 여기에 기술된 본 발명의 개념들은 이미 구성된 FEC 방법으로부터 비트들을 얻음으로써 종래 코덱들에 개장될 수 있다.Advantageously, the inventive concepts described herein can be retrofitted into conventional codecs by obtaining bits from an already configured FEC method.
임의의 스피치 처리 회로가 상기된 본 발명의 개념으로부터 바람직한 것은 본 발명의 범위내에 있다. It is within the scope of the present invention that any speech processing circuit is preferred from the inventive concept described above.
상기된 불량-프레임 에러 경감 메커니즘은 적어도 하기와 같은 장점을 제공하는 것이 이해될 것이다 :It will be appreciated that the bad-frame error mitigation mechanism described above provides at least the following advantages:
(1) 보다 정확한 프레임 메커니즘이 제공되어, 복구된 스피치 프레임들에서 가청할 수 있는 바람직하지 않은 강고물의 위험성을 감소시킨다.(1) A more accurate frame mechanism is provided, which reduces the risk of undesirable hardening that may be audible in recovered speech frames.
(2) 대안적인 가상 전송 경로는 예를 들어 이미 구성된 FEC 방법으로부터 비트들을 얻음으로써 종래 코덱들에 개장될 수 있다.(2) An alternative virtual transmission path can be retrofitted to conventional codecs, for example by obtaining bits from an already configured FEC method.
(3) 전이들이 발생하고 스피치가 고정되지 않을 경우만 이전 프레임들에 대한 참조들이 전송될 때, 종래 불량-프레임 에러 경감 기술들은 사용되어, 본 발명에서 요구된 임의의 부가적인 데이터를 경감한다.(3) When references to previous frames are sent only when transitions occur and speech is not fixed, conventional bad-frame error mitigation techniques are used to mitigate any additional data required by the present invention.
(4) 이런 방법에서 참조된 프레임들과 주어진 프레임에 대해 수신된 데이터를 교차-참조함으로써, 잘못 수신된 파라미터들은 검출될 수 있다.(4) By cross-referencing the frames referred to in this method with the data received for a given frame, erroneously received parameters can be detected.
바람직한 실시예가 본 발명의 애플리케이션에서 CELP 부호기에 대해 논의하였지만, 전송 에러들이 발생할 수 있는 다른 스피치 처리 유닛이 여기에 포함된 본 발명의 개념들로부터 바람직할 수 있다는 것이 본 발명자들에 의해 예상된다. 여기에 기술된 본 발명의 개념들은 범용 이동 원격 통신 시스템(UMTS) 유닛들, 이동 통신 세계화 시스템에 대한 글로벌 시스템(GSM), 지상 중계 무선(TETRA) 통신 유닛들, 정보 및 시그널링 표준의 디지탈 상호교환(DIIS), 인터넷 프로토콜을 통한 음성(VoIP) 유닛들 등 같은 무선 통신 유닛들에 대한 스피치 처리 유닛에서 특정 용도를 발견한다.Although the preferred embodiment has discussed the CELP encoder in the application of the present invention, it is contemplated by the inventors that other speech processing units in which transmission errors may occur may be desirable from the inventive concepts contained herein. The concepts of the invention described herein include the Universal Interchange of Mobile Telecommunications System (UMTS) units, Global System for Mobile Communications Globalization System (GSM), Terrestrial Relay Radio (TETRA) communication units, Information and Signaling Standards. A particular use is found in speech processing units for wireless communication units such as (DIIS), voice over voice (VoIP) units, and the like.
본 발명의 장치Device of the Invention
스피치 통신 유닛은 입력 스피치 신호를 나타낼 수 있는 스피치 부호기를 포함한다. 스피치 부호기는 스피치 복호기에 다수의 스피치 프레임들을 전송하기 위한 전송 경로를 포함한다. 스피치 부호기는 전송 경로에서 전송된 다수의 스피치 프레임들에 대한 하나 이상의 참조들을 전송하기 위한 가상 전송 경로를 더 포함한다. 하나 이상의 참조들은 프레임이 에러로 수신될 때 대체 프레임으로서 사용될 전송 경로상에 전송된 다수의 스피치 프레임들내의 대안적인 스피치 프레임에 관한 것이다. The speech communication unit includes a speech encoder that can represent an input speech signal. The speech encoder includes a transmission path for transmitting a number of speech frames to the speech decoder. The speech encoder further includes a virtual transmission path for transmitting one or more references to the plurality of speech frames transmitted in the transmission path. One or more references relate to alternative speech frames in a number of speech frames transmitted on a transmission path to be used as replacement frames when the frame is received in error.
스피치 통신 유닛, 예를 들어 스피치 부호기를 포함하는 상기 스피치 통신 유닛은 가상 전송 경로상 다수의 스피치 프레임들을 수신하기 위하여 제공된 스피치 복호기를 포함한다. 하나 이상의 참조들은 프레임이 에러로 수신될 때 대체 프레임으로서 사용될 전송 경로상에 수신된 다수의 스피치 프레임들내의 대안적인 프레임에 관한 것이다.A speech communication unit comprising a speech communication unit, for example a speech encoder, comprises a speech decoder provided for receiving a plurality of speech frames on a virtual transmission path. One or more references relate to an alternative frame in multiple speech frames received on a transmission path to be used as a replacement frame when the frame is received in error.
본 발명의 방법Method of the invention
불량-프레임 에러 경감을 수행하는 방법은 스위치 통신 유닛의 스피치 부호기에 의해 전송 경로상 다수의 스피치 프레임들을 스피치 복호기에 전송하는 단계를 포함한다. 스피치 부호기는 가상 전송 경로상에서 전송 경로에 전송된 다수의 스피치 프레임들에 대한 하나 이상의 참조들을 전송한다. 하나 이상의 참조들은 프레임이 에러로 수신될 때 대체 프레임으로서 사용될 전송 경로상에 전송되는 다수의 스피치 프레임들내의 대안적인 스피치 프레임에 관한 것이다. A method of performing bad-frame error mitigation comprises transmitting a plurality of speech frames on a transmission path to a speech decoder by a speech encoder of a switch communication unit. The speech encoder transmits one or more references to multiple speech frames transmitted on the transmission path on the virtual transmission path. One or more references relate to alternative speech frames in a number of speech frames transmitted on a transmission path to be used as replacement frames when the frame is received in error.
이런 방식에서, 다수의 스피치 프레임들로부터 개선된 대체 프레임은 스피치 프레임이 에러로 수신될 때 선택될 수 있다. In this way, an improved replacement frame from multiple speech frames can be selected when the speech frame is received in error.
따라서, 불량-프레임 에러 경감 기술, 및 연관된 스피치 통신 유닛들 및 회로들은 공지된 에러 경감 기술들이 가지는 상기된 적어도 몇몇의 단점들을 실질적으로 제거하는 것이 기술되었다.Thus, a bad-frame error mitigation technique, and associated speech communication units and circuits, have been described that substantially eliminate at least some of the disadvantages noted above with known error mitigation techniques.
Claims (15)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0217729.3 | 2002-07-31 | ||
GB0217729A GB2391440B (en) | 2002-07-31 | 2002-07-31 | Speech communication unit and method for error mitigation of speech frames |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20050027272A true KR20050027272A (en) | 2005-03-18 |
Family
ID=9941443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020057001824A KR20050027272A (en) | 2002-07-31 | 2003-05-12 | Speech communication unit and method for error mitigation of speech frames |
Country Status (7)
Country | Link |
---|---|
EP (1) | EP1527440A1 (en) |
JP (1) | JP2005534984A (en) |
KR (1) | KR20050027272A (en) |
CN (1) | CN100349395C (en) |
AU (1) | AU2003240644A1 (en) |
GB (1) | GB2391440B (en) |
WO (1) | WO2004015690A1 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102007018484B4 (en) | 2007-03-20 | 2009-06-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for transmitting a sequence of data packets and decoder and apparatus for decoding a sequence of data packets |
EP2523189B1 (en) * | 2010-01-08 | 2014-09-03 | Nippon Telegraph And Telephone Corporation | Encoding method, decoding method, encoder apparatus, decoder apparatus, program and recording medium |
US20150326884A1 (en) * | 2014-05-12 | 2015-11-12 | Silicon Image, Inc. | Error Detection and Mitigation in Video Channels |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI98164C (en) * | 1994-01-24 | 1997-04-25 | Nokia Mobile Phones Ltd | Processing of speech coder parameters in a telecommunication system receiver |
FI950917A (en) * | 1995-02-28 | 1996-08-29 | Nokia Telecommunications Oy | Processing of speech coding parameters in a telecommunication system |
US5917835A (en) * | 1996-04-12 | 1999-06-29 | Progressive Networks, Inc. | Error mitigation and correction in the delivery of on demand audio |
US6636829B1 (en) * | 1999-09-22 | 2003-10-21 | Mindspeed Technologies, Inc. | Speech communication system and method for handling lost frames |
-
2002
- 2002-07-31 GB GB0217729A patent/GB2391440B/en not_active Expired - Lifetime
-
2003
- 2003-05-12 AU AU2003240644A patent/AU2003240644A1/en not_active Abandoned
- 2003-05-12 EP EP03730037A patent/EP1527440A1/en not_active Withdrawn
- 2003-05-12 CN CNB038182726A patent/CN100349395C/en not_active Expired - Lifetime
- 2003-05-12 JP JP2004526664A patent/JP2005534984A/en active Pending
- 2003-05-12 WO PCT/EP2003/005076 patent/WO2004015690A1/en active Application Filing
- 2003-05-12 KR KR1020057001824A patent/KR20050027272A/en not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
AU2003240644A1 (en) | 2004-02-25 |
WO2004015690A1 (en) | 2004-02-19 |
EP1527440A1 (en) | 2005-05-04 |
CN100349395C (en) | 2007-11-14 |
CN1672193A (en) | 2005-09-21 |
GB0217729D0 (en) | 2002-09-11 |
GB2391440A (en) | 2004-02-04 |
GB2391440B (en) | 2005-02-16 |
JP2005534984A (en) | 2005-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101960200B1 (en) | System and method of redundancy based packet transmission error recovery | |
US9047863B2 (en) | Systems, methods, apparatus, and computer-readable media for criticality threshold control | |
KR100643116B1 (en) | Transmission system with improved speech encoder and operating method thereof | |
US6968309B1 (en) | Method and system for speech frame error concealment in speech decoding | |
US6940967B2 (en) | Multirate speech codecs | |
JP4842472B2 (en) | Method and apparatus for providing feedback from a decoder to an encoder to improve the performance of a predictive speech coder under frame erasure conditions | |
JPH07311596A (en) | Generation method of linear prediction coefficient signal | |
JPH07311597A (en) | Composition method of audio signal | |
AU739176B2 (en) | An information coding method and devices utilizing error correction and error detection | |
US8787490B2 (en) | Transmitting data in a communication system | |
JPH07325594A (en) | Operating method of parameter-signal adaptor used in decoder | |
CA2293165A1 (en) | Method for transmitting data in wireless speech channels | |
US7502735B2 (en) | Speech signal transmission apparatus and method that multiplex and packetize coded information | |
JP4414705B2 (en) | Excitation signal encoding apparatus and excitation signal encoding method | |
JPH09506187A (en) | Adaptive error control for ADPCM speech coder | |
KR20050027272A (en) | Speech communication unit and method for error mitigation of speech frames | |
KR101164834B1 (en) | Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate | |
JP3071388B2 (en) | Variable rate speech coding | |
US20050102136A1 (en) | Speech codecs | |
Choudhary et al. | Study and performance of amr codecs for gsm | |
JP4597360B2 (en) | Speech decoding apparatus and speech decoding method | |
JP2001249691A (en) | Voice encoding device and voice decoding device | |
JPWO2003021573A1 (en) | Codec |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |