CN101502089B - 进行音频会议的方法、音频会议装置和编码器之间的切换方法 - Google Patents
进行音频会议的方法、音频会议装置和编码器之间的切换方法 Download PDFInfo
- Publication number
- CN101502089B CN101502089B CN2006800555047A CN200680055504A CN101502089B CN 101502089 B CN101502089 B CN 101502089B CN 2006800555047 A CN2006800555047 A CN 2006800555047A CN 200680055504 A CN200680055504 A CN 200680055504A CN 101502089 B CN101502089 B CN 101502089B
- Authority
- CN
- China
- Prior art keywords
- group
- encoder
- audio
- audio data
- data stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000004891 communication Methods 0.000 claims abstract description 52
- 101100434459 Arabidopsis thaliana ADS1 gene Proteins 0.000 claims description 41
- 101100388296 Arabidopsis thaliana DTX51 gene Proteins 0.000 claims description 41
- 230000008859 change Effects 0.000 claims description 41
- 101100434460 Arabidopsis thaliana ADS2 gene Proteins 0.000 claims description 31
- 101100434462 Arabidopsis thaliana ADS3 gene Proteins 0.000 claims description 31
- 238000006243 chemical reaction Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims 2
- 230000008569 process Effects 0.000 abstract description 9
- 238000011156 evaluation Methods 0.000 abstract description 3
- 230000005236 sound signal Effects 0.000 description 121
- 238000003199 nucleic acid amplification method Methods 0.000 description 77
- 230000003321 amplification Effects 0.000 description 76
- 230000000694 effects Effects 0.000 description 27
- 101000598030 Homo sapiens Talin-2 Proteins 0.000 description 22
- 102100036980 Talin-2 Human genes 0.000 description 22
- 230000002349 favourable effect Effects 0.000 description 22
- 230000005540 biological transmission Effects 0.000 description 16
- 101000598025 Homo sapiens Talin-1 Proteins 0.000 description 15
- 102100036977 Talin-1 Human genes 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 15
- 238000001914 filtration Methods 0.000 description 9
- 230000007704 transition Effects 0.000 description 9
- 230000003044 adaptive effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 239000000203 mixture Substances 0.000 description 6
- 238000009434 installation Methods 0.000 description 5
- 230000004069 differentiation Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000002045 lasting effect Effects 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 235000003801 Castanea crenata Nutrition 0.000 description 1
- 244000209117 Castanea crenata Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 101100110010 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) asd-4 gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 201000009216 atrial heart septal defect 4 Diseases 0.000 description 1
- 208000008840 atrial septal defect 4 Diseases 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000005056 compaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011437 continuous method Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Telephonic Communication Services (AREA)
- Quality & Reliability (AREA)
Abstract
本发明涉及进行一种音频会议的一种方法和一种音频会议装置,其中对于输送音频数据流检测相应地配属一个音频数据流的分类信息。对应于所述音频数据流一个评估结果把所述音频数据流配属到至少三个在该结果方面同类的组。组统一地信号处理单独的音频数据流,并且叠加信号处理过的音频数据流以构成向通信终端装置输出的音频会议数据流。此外本发明还涉及进行音频会议的音频会议装置和一个对音频数据连接在第一编码器与第二编码器之间切换的方法,其中,主要的是所述编码器为编码过程采用由音频数据历史影响的编码参数,并且如此地切换从所述第一编码器到所述第二编码器的音频数据连接:在所述切换的框架内使第二编码器的编码参数与第一编码器的参数一致,并且在出现所述编码参数的一致时向第二编码器切换所述音频连接。
Description
语音会议系统允许多个语音终端装置被连接到一个电话会议,从而把通过其余参与者的语音终端装置的相应麦克风接收的音频信号作为用于音频输出的混合音频会议信号向该相应的参与者传送。在此,为向一个参与者输出所确定的、混合的会议信号,在下文中也称为混合信号,在此主要的是所有邻近音频信号的叠加,然而往往没有该参与者的音频信号,因为这是其对所述会议作的自己所讲出的那部分,不需要自己去听并且甚至于通常不应当听,因为自己去听会出现一种不希望出现的自己发音的回音效果,这会使得该参与者感觉干扰。从而往往为一个电话会议的N个参与者的每个构成一个专用的混合信号,其中把该电话会议的其它参与者的(N-1)个语音信号处理成专用的混合信号。这对于所述语音会议系统被证明是高计算耗费的,并且对参与该电话会议的听众带来语音理解性方面的缺点,因为相应的混合信号例如还可能包含带有背景噪音的音频信号,其中所述多个音频信号的背景噪音可被叠加使得其可被明显地感觉到,并且有损于有效音频信号(也就是所述参与者之一所的讲的句子)的可理解性。
为了降低计算耗费和背景噪音,尤其是在有较大数量的参与者的电话会议的情况下可能合理的是,不叠加N个参与者的所有(N-1)个语音信号而是只叠加该N个参与者的子集,尤其是一个M个语音活跃参与者的子集,其中M<N。在产生所述混合信号时可以忽略其余的、相当程度上不活跃的参与者,从而只进行M个语音活跃音频信号的叠加。这种做法所基于的前提是,在一个由一名主持人主持的、组织良好的电话会议中只有少数参与者同时讲话而其余参与者在时间上相继发言。
对于一种包交换的通信系统,从2001年7月Prasad、Kuri、Jamadagni、Dagale、Ravindranth发表的论文“Automatic Addition andDeflection of clients in VoIP Conrrencing”,IEEE Symposium onComputers and Communications,Hammamet,Tunesien公知这样一种方法:其中测定各个会议参与者的音频能量,借助于所述音频能量把数量M个会议参加者包括在一个混合信号中,而并且其余的会议参加者不包括进所述混合信号中。该方法的特征尤其在于,对于每个会议参与者在相应的会议参与者的一个终端单独地构成所述混合信号,并且每个参与者都可以自己通过一个参与者界面适配所述混合的M个信号的音量。然而这要求一种高的传输带宽。此外在该文献中说明了一个M=4的上限。
那么如果,如在上段所述的方法的情况下,所述活跃和不活跃的参与者的集合被动态地构成,并且在时间流程上根据所述语音会议上的音频信号被适配于当前的和变化的活跃性情况,从而在从所述混合信号中取出一个此前一直活跃而现在不活跃的音频信号,或者向所述混合信号添加在此前不包括在内的不活跃而现在活跃的音频信号的情况下,在混合信号的音质方面是不利的。例如,可以造成背景噪音的一种突然出现和/或突然消失,只要一个参与者的音频信号有这样的背景噪音,且在一个时间期间把该音频信号确定为活跃的而在另一个时间期间把该音频信号确定为不活跃的。此外,一种过冲效应和过冲音频信号斩波可能以一种所谓的语音削波形式出现,所述语音削波可作为视为活跃的音频信号的错误组成的结果而被产生。
此外,如果语音会议系统的信道是被动态地产生的,不同的输入信号被动态地混合并且被连接到动态地变换中的目标参与者,从而用于编码要传输的混合信号的带有状态的方法例如在从一个原来的编码器向另一个编码器切换时可能导致编码错误,或者在参与者终端装置上解码时可能导致解码错误,这就可能损害语音质量。例如这可能出现在一个在此之前不活跃的参与者成为一个活跃的参与者且为其启动一个新的单独的编码器和会议信道并且借助该单独的编码器为该参与者构成一个单独的混合信号时。从而对于该参与者的结果是所接收的已编码的混合信号在一个时间点起由另一个编码器根据所述混合信号的另一种组成来形成。从而一个接收的参与者终端装置的解码器会接收原来的编码器的编码的混合信号直到一个时间点,并且接着接收另一个编码器的编码的混合信号。在过渡时间中,这可导致在该参与者终端装置的音频输出的质量上的不利影响。
本发明的任务是针对现有技术提出一种改进的方法和一种改进的装置,以能够最佳地进行音频会议。
该任务通过一种进行音频会议的方法和音频会议装置以及通过用于在编码器之间切换的切换方法和另外的音频会议装置完成。
在用于进行音频会议的本发明方法中,其中由通信装置向所述音频会议输送音频数据流并且对于所述音频数据流检测到分别配属给音频数据流的分类信息,根据所述分类信息的评估(Auswertung)结果把所述音频数据流配属到至少三个在该结果方面同类的组。组统一地(gruppeneinheitlich)信号处理单独的音频数据流,并且将信号处理过的音频数据流叠加,以构成向通信终端装置输出的音频会议数据流。
在此,尤其是针对一种线路交换或者面向包的传输,所述音频数据流是编码的音频信号,其中所述音频信号优选表示借助于麦克风在所述通信装置上拾取的语音信号。所述通信装置可以涉及语音装置或者涉及视频或多媒体终端装置,其中可以把所述视频或多媒体数据的音频部分看作音频数据流。
所述音频数据流的信号处理和/或叠加可以直接地针对以编码了的形式存在的音频数据流进行也可以针对音频信号中解码了的音频数据流进行。在采用音频信号的情况下,一个音频数据流的解码可以借助于一个CODEC(coding and encoding)解码器进行。在信号处理和/或叠加这样解码的音频信号以后,借助于编码器通过另一个或者同一个CODEC把所述音频信号转换成向所述通信终端装置传输的音频数据流。
评估分类信息尤其理解为与参考值的一种比较,其中所述评估的一个结果例如是所述分类信息低于一个第一参考值却高于一个第二参考值的信息。此外,评估所述分类信息时,可以相互分开地考虑所述音频数据流的分类信息,也可以将其相互关联。此外,所述分类信息的分析可以基于不同逻辑的、彼此逻辑连接的检验步骤。此外,可以不同地加权所述检验步骤,从而例如可以通过不满足检验步骤的检验标准向确定的组中强加配置。
向三个关于所述结果同类的(homogene)组的中的配属例如用两个参考值如此地进行:把其分类信息在第一和第二参考值之下的所有音频数据流配属给第一组,把其分类信息在第一和第二参考值之上的所有音频数据流配属给第二组,并且把其分类信息在第一和第二参考值之间的所有音频数据流配属给第三组。
同类或者说一致表示的是那些配属给一个组的、提供相同的比较结果或者说评估结果的所有音频数据流。
在能够降低信号处理的复杂性方面,该方法是有利的,因为根据组的数量只实施少的不同信号处理。此外在接收所述叠加的音频数据流时可以改善语音理解性,因为可以在叠加时突出认为重要的音频数据流,例如相应的音频数据流的音量的改变,音调的改变、相位的改变或者其它的音频参数,并且反之衰减或者在其它方面处理认为不重要的音频数据流。
为此,在本发明的一个有利的扩展中可以在检测音频数据流之一的分类信息的框架内检测至少一个再现该音频数据流的特性的量。该量例如代表音频电平、音量电平、音频能量,并且可以借助于测量和/或信号分析来确定。所确定的量可以优选地借助于易于实施的比较运算器与参考值比较,从而可以把所述音频数据流例如划分成高声的、低声的和完全静音的音频数据流。
优选的是,这样一种音频参数的确定已经可以在由CODEC解码相应的音频数据流时进行,因为在不同的音频数据的信号处理前和在叠加前解码本来也要进行。以此方式,可以把一个音频会议系统的已有的部件——CODEC——用于实施本发明的部分方法步骤。
另一个要用于编组所述音频数据流的量例如是一种语音概率值,所述语音概率值表示一个时段上在一个时间间隔上所确定的语音活跃性和语音不活跃性之间的关系。与分析音量电平一起,可以得到仅一次或者很少语音活跃的发言者与在一个较长的时间间隔上(但是间或有短的停顿)语音活跃的发言者之间准确区别的语音概率值。
在这样的分析时,如果不只是分析再现所述音频数据流的特征的量的绝对值,而是在分析时同时把所述量的相互关系在所述分析的结果中一起加以考虑,是尤其有利的。从而例如可以构成两个最高活跃性的音频数据流的一个组,而与所有的音频数据流到底传输的是低声的语音还是高声的语音无关。这样一种音频数据流的分类可以通过相互比较所述音频数据流之间的分类信息来确定,或者通过对于与所述分类信息的比较动态地匹配所述绝对参考值来确定。
在根据本发明的方法的一个有利的扩展中,所述组统一的信号处理可以包括组特定地衰减或者负放大所述音频数据流。从而可以实现在音频会议中的不希望的贡献(例如作为音频信号只包含背景噪音和背景嘈杂音的音频数据流)的信号电平抑制。由于人类的听觉只能够感觉到音量的明显变化,并且从而高花费的、个体差异的衰减可能完全感觉不到,就此方面而言,针对组特定的衰减的编组是有利的。与此相反,每个组的衰减系数优选可以自由配置,或者可以动态地改变,以能够灵活地响应譬如在所述音频会议中的参与者数量的不同影响。
此外,除了衰减以外,还可能的是,以类似的方式也对音频数据流进行组特定的放大,这样可以普遍地谈及信号强度校正。
此外,尤其是在所述音频会议的通信终端装置上采用立体声输出时,可以对所述音频数据流在其解码了的音频信号的相位方面进行组统一地处理,从而使被认为重要的音频数据流的音频信号出现在一个可虚拟感觉的立体声分布的中心,而对认为不重要的音频数据流的音频信号在其相位上进行双声道地信号处理,处理的方式是使其在可虚拟地感觉的立体声层面中的位置由接听的会议参加者感觉到好像它被设置在所述可虚拟感觉的立体声层面的左或者右边缘。
在本发明的一个有利的扩展中,评估所述分类信息可以包含评定单独地配属给所述音频数据流之一的、可预给定的组预选,从而可以视所述组预选而定地强加(erzwung)对一个预选择的组的配属,尽管例如在单独评估音频活跃性比较时会得出不同的组归属性。例如在实际的音频会议中往往表明,发起所述音频会议的那个参与者在该音频会议期间也承担主持人的任务。从而,与该参与者是否在一个时段没有对音频会议做出语音贡献无关地把它分到一个优先的组,应当是合理的,因为往往重要的是,所述音频会议的主持人即使在低声发言时也要由该音频会议的所有参与者清楚地理解。
所述组的预选例如可通过用于控制所述音频会议的图解使用者表面进行,通过所述图解使用者表面可以向所述会议的参与者指定不同的角色。作为可供选择的替代方案,这些角色还可以通过用相应使用的语音终端装置输入进行。例如一个角色是“静音切换”,该角色把一个参与者分类为关闭其麦克风并且只是去听。另一个可设想的角色是“排他”,其中只有标识为“排他”的发言者的音频数据流流入所述音频会议的叠加的混合信号,以及借助于衰减完全地抑制其它的参与者的音频数据流。
此外可以向所述音频数据流指定优先级,其中同样地在划分成组时评估所述优先级。普遍地考虑时可以在划分成组时检验多个标准,其中将所述评估结果彼此进行逻辑连接。例如,一方面可以考虑音频活跃性,与单个参与者的组预选一起进行并且在注意所分配的优先级条件下。
分类信息的细节可以优选地直接从音频数据流或者其解码了的音频信号中确定。其它的分类信息可以通过询问配置得出,其中可以静态地进行所述配置或者例如通过控制所述音频会议的浏览器应用软件动态地进行。
优选的是,所述分类信息的检测和评估以及分组在所述音频会议的时间间隔上进行,从而可以在进行所述音频会议时在时间进程中把所述音频数据流配属给不同的组。由此可以例如根据所述音频数据流的当前发生的语音活跃性对所述组划分进行适配,使得在划分成活跃的发言者和不活跃的听者时在相应的时间点在很大程度上总是进行相应于实际情况的划分。在用语音数据包或者按所谓的帧传输的情况下,一个时间间隔例如刚好对应于一个语音数据包或帧或者其整数倍。
在本发明的一个有利的扩展中,在一个时间间隔中分类信息的检测和评估可以在把在前的时间间隔的分类信息评估考虑在内的条件下进行。从而可以防止,在首次不活跃情况中就已经把一个到此时为止活跃的参与者分到一个新组中,尽管这仅仅涉及短的发言暂停的可能性很大。通过把在前的时间间隔的分类信息评估考虑在内可以优选地实现一种滞后,其中可以滞后地进行从活跃组的编组向不活跃组的编组的过渡,滞后到识别经过了不活跃性的一个或者多个时间间隔以后。借助于该做法可以确保,不太频繁地针对音频数据流改变组归属性并且可以在该时间进程上把组变换的数量保持得很小。
在本发明的另一个有利的实施方式中,在识别从在第一时间间隔中的初始组到第二时间间隔中的第二组的、所述音频数据流之一的变换的配属时,预定时段的音频数据流可以既不配属给初始组也不配属给另外的组,而是音频数据流单独地被处理。如果例如特征在于通过借助于很小地衰减所述音频数据流的信号处理向初始组的配属和通过借助于强地减所述音频数据流的信号处理向所述另外的组的配属,可以达到把衰减以音频数据流单独的方式在该时段上从为初始组规定的、小的第一衰减向为另外的组规定的强的、第二衰减按照单调函数上升地改变和/或按离散的步骤改变。从而可以实现:在衰减过程中不进行突然的、可明显感觉到的改变,而是实现两个衰减之间的平缓的过渡。
这样,例如在组变换时可以把音频数据流动态地从例如-94dB(dB:分贝)提高至-15dB,使得不进行生硬的、可察觉的过渡。由此,尤其可以确保不突然出现或者不突然消失一个发言者的背景噪音。优选的是,可以例如借助于配置自由地调节放大值或者衰减值。
优选的是,可以对于音频信号上升沿非常快地进行从高的衰减到小的衰减的变换,从而不丢失语音有效信息。相反,对于音频信号下降沿,有利的可以是,从低的衰减至高的衰减的变换时进行有中间步骤的、慢的衰减系数的变换,以负责音频数据流的平缓的消隐。
在其中按组分类音频数据流的根据本发明的方法中,可能有利的是,针对要输出至通信终端装置的音频会议数据流还为降低编码花费而评估该编组信息。从而例如可以将正好同一经叠加的音频数据流传输给静音切换的音频数据流的组的音频数据流,因为可以把所述音频会议数据流限制为活跃的音频数据流的叠加。
相对于此可能有意义的是,相应地向配属给活跃参与者的组传输经音频数据流单独地(audiodatenstromindividuell)叠加了的音频会议数据,其中滤除出其自己的语音部分。从而在此本来对每个音频数据流都需要一个自己的CODEC以产生相应的音频会议数据流,而对于上述的情况下为了传输一个公共的音频会议数据流可以为多个音频数据流只使用一个CODEC。
因为,在上述的本发明的有利的扩展中,时间上动态地改变所述组归属性,所以可以为了节省CODEC在变换所述组归属性时向另一个Dodec加裁一个音频数据流。然而,至少在带有状态的CODEC的情况下,这样的切换产生不希望地和/或非自然地作用的声效应,这种声效应明显降低音频会议数据流的质量。
该问题在根据本发明的切换方法中被解决,其中在一个第一编码器与一个第二编码器之间,在存在于所述第一编码器与解码器之间的音频数据连接中,尤其是为了进行具有上述特征的音频会议,通过所述第一编码器(尤其是一个音频会议装置)向所述解码器(尤其是一个通信终端装置)输送编码了的音频数据。在此所述第一编码器的特征为,通过该编码器在采用由音频数据历史影响的编码参数的条件下借助于编码和/或信号处理由向所述第一编码器输送的第一音频输入信号产生编码了的音频数据。此外,这两个编码器之一的编码参数在一个当前的时段总是相关地由当前时段的输送的音频信号以及通过至少一个在前的时段的音频输入信号构成。在该切换方法中如此地切换从所述第一编码器至第二编码器的音频数据连接:在切换的框架内使所述第二编码器的编码参数与第一编码器的编码参数一致并且随着所述编码参数进入一致把所述音频连接切换到第二编码器。
以此方式可以达到,在从第一编码器切换到第二编码器时完全不会有质量损失,因为这两个编码器在切换时间点具有相同的、影响编码过程的编码参数。从而所述解码器通过一种连续的方法得到编码了的音频数据,其中在信号变化曲线中不会出现任何不连续性。同样可能的是,在解码器中提供的、基于在前的时段的解码参数从而继续有效并且能够在切换所述编码器后继续由解码器使用。从而可以阻止由于所述编码器的切换造成的解码错误。
该切换方法尤其是对压缩的CODEC是有利,因为在许多公知的压缩编码方法中把在前的时段考虑在内以达到一种高的压缩系数。
作为可供选择的替代方案,达到这两个编码器的编码参数的一致可以在一个当前的时段或者在一个将来的时段进行,其中从而所述切换过程可以持续在多个时段上。
有利的是,可在实现编码参数一致和切换到第二编码器上以后释放第一编码器的资源,因为这两个编码器产生同一音频数据。从而可以减少一个音频会议装置中同时使用的编码器的数量并且从而明显降低所述音频会议装置的计算复杂性。
在根据本发明的切换方法的一个有利的实施方式中,可以在从第一编码器到第二编码器的音频数据连接的切换的框架内如此地改变第一音频输入信号:使得把所述第二编码器在一个将来的时段中带入所述第一编码器相同的状态。这有利的是如此达到的:其中在真正地最终的编码器切换之前把向所述第二编码器输送的音频输入信号同样地向所述第一编码器输送。以此方式这两个编码器的第一音频输入信号相同,从而在经历了一个优选此前已知数目的时段以后平衡编码所述编码参数,直到在一个时段它们相同为止。从该时间点起,现在可以切换到第二编码器上并且去激活(deaktiviert)和/或释放第一编码器。
在根据本发明的切换方法的、替换的有利实施方式中可以在从第一编码器到第二编码器的音频数据连接的切换的框架内如此地改变所述第二编码器的状态:检测第一编码器的编码参数,并且将其设定为所述第二编码器的编码参数。该过程优选的是在一个时段结束时进行或者在两个时段之间进行,从而在下个时段时就可以切换到所述第二编码器上。
为了能够实际上没有质量缺陷地进行切换过程,所述第一编码器和所述第二编码器尤其可以采用相同的编码算法,其中优选的是所述编码器的配置相同。以此方式,在切换时所述解码器不会感受所述第一与第二编码器之间的变换并且可以用其解码算法无改变地继续工作。
在编码参数一致性的方面要指出的是,在此涉及很大程度的一致性,其中至少对音频数据质量有最大影响的那些编码参数是相似和/或相同的。本发明并不必须要求在全范围内编码参数完全的一致性,只要这对音频数据质量或者对语音理解性没有可感觉到的负面作用。
下面参照附图详细说明本发明的实施例。
附图中
图1示出一个根据本发明的音频会议装置的方框图,
图2示出一个包含在所述音频会议装置中的分类装置,
图3示出三个音频数据流在各个时间进程上的函数曲线,它们涉及所述音频数据流之一的音频信号、由此得出的编组配属的曲线和放大系数的曲线。
图4-7示出音频数据流的函数曲线,它们关于编组配属的时间上的进程和放大系数的曲线,而
图8-12示出一些方框图,用以说明在一个音频会议的框架内实施所述切换方法的不同方法状态。
在图1中是一个音频会议装置的示意图。其中从一个图中未示出的通信终端装置输送的音频数据流ADS1、ADS2、ADS3、ADS4被输送到所述音频会议装置的一个解码装置DEKOD。在此四个音频数据流的限制只是举例,并且扩展在图中由作为省略号的三个点表示。在解码装置DEKOD中借助于解码器D1、D2、D3、D4把输入的音频数据流ADS1-ADS4转换成解码了的音频信号AS1、AS2、AS3、AS4。这些音频信号AS1至AS4被输送到一个会议处理装置KVE,在该会议处理装置中进行音频信号AS1至AS4的处理,从而产生要输出的音频会议信号。该音频会议信号输送到一个编码装置KOD,所述编码装置包含一个数量的编码器K1、K2、K3、K4和可能的其它解码器。该编码装置KOD把所述音频会议信号编码成音频会议数据流KADS1、KADS2、KADS3、KADS4,这些音频会议数据流被相应地输送到所述通信装置。所述会议处理装置KVF尤其包含三个相互连接的部件,所述三个相互连接的部件进行输入的音频信号AS1至AS4的处理和分析。它们尤其是一个编组装置GE、一个放大装置VE作为根据本发明的信号处理单元和一个作为根据本发明的叠加装置的混合装置MIX。
编组单元GE在此被设置用于构成音频数据流的同类的组并且例如给相应的音频信号AS1至AS4分配说明编组的编组信息GIAS1、GIAS2、GIAS3、GIAS4或者说把这样的编组信息GIAS1、GIAS2、GIAS3、GIAS4刻画在相应的音频信号AS1至AS4上,其中把该编组信息GIAS1至GIAS4与音频信号AS1至AS4一起向放大单元VE输送。此外所述放大单元VE设置用于通过应用放大系数或者衰减系数对音频数据流ASD1至ASD4或者其所属的音频信号AS1至AS4进行信号处理。为了在音频会议的框架内构成由音频信号AS1至AS4构成的叠加的音频信号在此采用混合装置MIX。作为所述音频会议装置的另一个部件在图1中示出一个作为根据本发明的分类信息检测单元的分类装置KLASS,其输入端施加以音频信号AS1至AS4。所述分类装置KLASS的详细考虑在以后的段落中借助于图2说明。
在此,分类装置KLASS设置用于在求值或者分析输入音频信号AS1至AS4的情况下进行音频信号AS1至AS4的编组或者说分类,并且还进行音频数据流ADS1至ADS4在分类信息评估同类组方面的编组或者说分类,并且把这些信息借助于一个编组信息GI提供给编组单元GE。此外分类装置KLASS向放大装置VE提供一种放大系数信息VI,用之说明,应当在何种程度上放大或者衰减相应的音频信号组,尤其是应当以什么样的系数放大或者衰减。
下面参照图1进一步地说明根据本发明的进行一个音频会议的方法的过程。在此向所述会议装置输送N个音频数据流,其中在下面仅考虑音频数据流ADS1至ADS4。在此要注意,尽管所有的音频数据流ADS1至ADS4都传输语音有效信息,然而在语义的角度上,只有少的音频数据流对音频会议含有积极的贡献。从而例如可以是,在所述音频会议内在一个时间点只有一个活跃的发言者,而所有其它的参与者都在倾听并且不活跃。此外要区分的是,倾听的参与者在有的情况下也由于提供背景噪音对所述音频会议也有可听见的贡献,这些背景噪音通过一个或者多个音频数据流ADS1至ADS4向所述音频会议传输。此外,还可以有静音切换的音频会议参与者,所述音频会议参与者应当可以用一种可静态或者动态改变的配置完全地静音切换,尽管通过其相应的音频数据流传输音频信号。此外,还可以通过触发一种静音切换功能标记通过一个通信装置的主动静音切换实现:抵达音频会议的音频数据流实际上不含任何语音信息和/或声音信息。
现在,按时段借助于解码装置DEKOD把音频数据流ADS1至ADS4变换成音频信号AS1至AS4,其中把后者提供给会议处理装置KVE以及分类装置KLSS。分类装置KLSS在相应的时段中检测和/或确定相应的音频信号AS1至AS4(并且与此类似的还有所配属的音频数据流ADS1至ADS4)所配属的分类信息。这尤其是相应的音频信号AS1至AS4的信号音量、最大脉冲或者信号能量。那么所检测的分类信息的分析就可以由分类单元KLASS如下地进行:借助于所述信号音量构成音频信号或者说音频数据流的组。在此,例如可以确定活跃的发言者的一个第一组,其中包含所有同时语音活跃(sprachaktiven)的会议参与者。此外,作为另一个组构成一个很少语音活跃的参与者的第二组,其中在相应的时段中主要相关的是背景噪音。此外作为第三组可以构造一个静音切换的参与者的组,这些参与者借助于一种配置永久地设定为不活跃的,所述配置同样适于作为分类信息。在这样一种分类的情况下从而会构成三个同类的组,也就是一个活跃参与者的第一组、一个不活跃参与者的第二组和一个静音切换参与者的第三组。在相应的组中总是只存在根据所检测的分类信息可以被分配到相应的组中的音频数据流。
音频信号AS1至AS4或者音频数据流ADS1至ADS4的组归属性在通过分类装置KLSS借助于编组信息GI确定以后向编组单元GE传输,从而所述编组单元可以根据编组信息GI对音频信号AS1至AS4进行一个编组。此外所述分类信息KLSS向放大装置VE提供放大系数信息VI,其中可以为每个组设定一个单独的放大系数值以在一个信号处理的框架内使用。例如可以针对所述活跃的发言者的组而设定:完全不进行借助于放大或者衰减的信号处理,并且从而该组的音频信号保持不改变。相反可以针对不活跃的参与者的组统一地设定一个负放大,例如减半音量,以便较轻声地接收主要被视为干扰噪音的声音信号。对于静音切换的参与者的所述第三组可以按组统一地确定一个非常高的衰减,从而在采用这种处理以后在混合信号中完全不能或者几乎不能识别出可感觉到的信号。
现在放大装置VE对音频信号AS1至AS4使用基于由编组单元GE传输的编组信息GIAS1至GIAS4事先配置或者动态地确定的组特定的放大系数,并且从而对应于其编组加权相应的组的音频信号AS1至AS4。该加权借助于单独的信号处理对相应的音频信号AS1至AS4单独地进行。接着通过混合装置MIX借助于混合或者叠加把该加权信号处理了的音频信号处理成多个音频会议信号,在通过编码装置KOD编码以后把它作为相应的音频会议数据流KADS1至KADS4输送给所述音频会议的通信装置。
该做法的优点尤其是,以此方式可以不妨碍甚至放大地把认为重要的、所述音频会议的贡献提供给所述音频会议数据流,与之相对的是,可以衰减或者滤除认为不重要的音频信号。从而该方法向相应的接收通信装置提供混合的音频会议信号的语音清晰性和语音理解性。
对于所示的装置的一个可供选择的替代方案还省去一个详尽的编组单元GE(图中未示出)。在这种情况下所述放大装置VE可以共同地评估编组信息GI和放大系数信息VI,并且以此为基础进行所述音频信号AS1至AS4的组特定的放大。此外,替代地可以在音频信号AS1至AS4的音频通道外部设置一个编组单元GE(图中未示出),因为改变音频信号AS1至AS4不是为了实现本发明所必需的。
此外,作为图示的装置的一种可供选择的替代方案,分类装置KLASS还可以把音频数据流ADS1至ADS4直接用作输入信号,与前面所说明的音频信号AS1至AS4的评估相反。此外,有利的可以是,一方面把音频数据流ADS1至ADS4、另一方面把解码了的音频信号AS1至AS4共同地向分类装置KLASS提供,因为可以一方面评估音频数据流ADS1至ADS4中的信令信息,与音频信号AS1至AS4的信号分析一起进行。
在分类装置KLSASS中的分类除了绝对值的分析以外尤其还通过在音频信号AS1至AS4之间加以关联(Inbeziehungsetzen)和/或通过同样可以重视的全局框架条件进行。
在音频信号AS1至AS4之间加以关联在此例如理解为考虑音频信号AS1至AS4之间的相对关系,其中尤其有利的是,例如所有的音频信号都有一个低的电平,也还是可以编组成不同的组,所述音频信号AS1至AS4的相对最大音量的那个例如被设置到活跃的发言者的组,与之相反的是,在纯绝对值判断时也可能会把所有的音频信号配属进一个共同的组。
所述全局框架条件尤其是一个组集合的最大值上限,其中如果要把多于所允许包含的组成员的音频数据流配属给一个组,可以把一个或者多个音频数据流配属给一个代替的组。
下面参照图2准确地考虑分类装置KLASS。
在图2中示意地示出分类装置KLASS的分析装置部件。分类装置KLASS的输入还是音频信号AS1、AS2和没有示出的其它音频信号,例如AS3和AS4。对于相应的音频信号AS1、AS2,......调入不同的分析装置部件。这尤其是每音频信号提供的一个信号能量确定单元SIGNE和一个活跃性确定单元AKTE。此外在图2中对于每个音频信号示出一个优先级确定单元PRIO,所述优先级确定单元被配属给每个音频信号AS1或者AS2并注意所述音频信号的组预选或者说预定的优先级。其它的分析相应音频信号的部件由部件PRIOE、SIGNE和AKTE下面作为删节号的三个点指代。
相应的分析装置的结果共同地对所有的音频信号AS1、AS2、......被输送到作为根据本发明的评估单元的评估装置BWE。现在借助于分析装置输送的关于优先级、关于相应的信号能量和关于相应的音频活跃性的信息来确定信号在确定的时段要配属给什么组。从而可以得出,例如音频信号AS1根据由评估装置BWE的一个评估配属给活跃的发言者的一个组,而音频信号AS2配属给不活跃的参与者的一个组。对于每个时段重新地进行所述分析,其中对于一个当前的时段连同包括时间上在前的时段的可能的分析结果。
现在通过评估装置BWE借助于编组信息GI把关于组归属性的信息传输到图2中未示出的编组单元GE。此外评估装置BWE向未示出的放大装置VE传输组特定的放大系数信息VE。放大系数信息VE一方面受组归属性影响,另一方面受加在分类装置KLASS上的音频信号的数量影响。从而,取决于会议参与者的数量,视有多少会议参与者参加所述音频会议而异规定不同的放大系数,可能是合理的。例如在小的会议可以只进行两个不同放大系数的区分——对该音频会议的所有活跃的和少活跃的参与者0dB的放大,和对于完全不活跃的或者说静音切换的参与者借助于设定-94dB的放大的完全静音切换。与之相对,在一个音频会议的较大参与者数量的情况下,进行一种细化的放大调节是合理的。在此例如可以继续无衰减地处理活跃的发言者-用0dB放大-,而在背景中作用的低声的发言者例如其音量被减半,以及只部分地活跃的不活跃参与者受四倍的衰减处理。
可以配置或者说为所述会议预给定组的数量。举例地在下面说明两个可能的实施方式。在此,在一个第一实施方式中进行一种分类:第一组包含音频会议的活跃的发言者,第二组包含背景发言者而第三组包含所述音频会议的、静音切换的或者不活跃的参与者。在此,活跃发言者与背景发言者之间的区分例如可以根据一个预先给定的优先级进行,然而也可以通过一个或者多个时段的音量或者信号能量的信号处理进行。一个第二实施可能性例如是细分为作为第一组的第一活跃的发言者、作为第二组的第二活跃的发言者、作为第三组的其他活跃的发言者、作为第四组的背景发言者和作为第五组的不活跃的或者静音切换了的参与者。在这样一种细化编组的情况下可以进行组之间的变换,而可能在音频会议数据流中没有可感觉的改变,因为基于高的细化性,放大系数的分级可以只借助于很小的改变来进行。
组之间的变换可以在所考虑的每个时段中针对音频数据流进行。然而在此还可以附加地注意一种迟滞,通过所述迟滞在一定情况下延时地进行从一个组到另一个组的变换,其方式是,检验是否在多个时段上存在编入另一个组的编组。所述的组预选例如是把一个音频主持人永久地配属到活跃参与者的组中,从而在所述音频会议的每个时间其可以满音量地参与。参与者的优先级化例如可以借助于在通信终端装置或者数据终端装置上的配置进行,尤其是通过在工作站计算机上的控制所述音频会议的应用软件进行。优选的是,可以为了控制会议在一个所谓的浏览器上设置一个网页,借助于该网页可以向各个参与者指派角色。例如可以向单个参与者配属持续的不活跃性,从而该参与者可以只作为听众参加所述语音会议。这种优先级的指定可能也可以在进行所述音频会议的进程中由所述主持人动态地改变。
一种借助于衰减或者说负放大所述组成员的信号处理尤其有利的优点是,对语音会议有积极贡献的参与者保持得可以明显感觉到,而只产生干扰噪音的其他参与者可以被轻衰减或者也可能被强衰减。然而因为接通或者关断有背景噪音的参与者对于一起倾听的会议参与者会有一种令人不舒服的效果,因为背景噪音会从一个瞬间到另一瞬间出现或者重新消失,所以在从活跃的到完全不活跃的参与者的变换的情况下让参与者逐步地通过多个组是合理的,其中各个组以不同的衰减系数为特征。因此,参与者从一个时段到另一个时段地从不受衰减的组逐步地经过轻衰减的组过渡到非常强衰减的组。对于所述会议参与者由此在混合之后中得出混合的音频会议信号,其中缓慢地消隐一个参与者的背景噪音。
相反,如果一个此前静音切换了的参与者突然活跃了,则必须相对快地进行向一个活跃组的过渡,因为不然的话就会丢失该参与者的语音有效信息。从而例如可以通过评估相应的音频数据流的滤波了的信号能量而进行一种举动,(图2中未示出),其方式是通过具有不同的滤波系数的一阶FIR滤波器(FIR:有限脉冲响应)对于信号的上升沿和下降沿进行所述滤波和/或平滑。滤波后的音频信号与参考值的比较从而可以提供向不同组的编组。只有滤波了的音频信号降低到一定的阈值以下(这由于所述滤波可能在后面的时段之一才进行)才把音频信号改分类进一个说明所述参与者的不活跃性的组。
从而可以这样地扩展图2:基于所述音频能量和音频活跃性通过另一个部件确定平滑了的和/或滤波了的音频能量并且在此基础上进行所述分类信息的确定。
在下列图中示出音频输入信号和分类信息的各种不同的信号曲线。
在图3中针对音频会议的三个参与者TLN1、TLN2、TLN3示意地示出提供在时间轴上的函数曲线,例如对每个参与者TLN1、TLN2、TLN3给出一个信号能量SIGE1、SIGE2、SIGE3的曲线、具有分类信息KLASS1、KLASS2、KLASS3的函数以及关于设定的音频信号放大量V1、V2、V3的函数。
从第一参与者TLN1的音频数流确定的信号能量SIGE1的曲线特点是,直到时间点T7没有任何信号出现,而在时间点T7和T8之间出现一种不同于零的信号能量。在时间点T8与T9之间所述第一参与者TLN1的音频数据流重新不包含任何语音信息,从而在该时间间隔上信号能量SIGE1重新是零。相反的是,在时间点T9所述第一参与者TLN1重新活跃,这通过信号能量曲线SIGE1的摆动作用。
参与者TLN2以在其音频数据流上很大程度上不活跃为特征,从而该信号能量SIGE2在很大程度上是零。只在时段T1至T3以及T5至T6信号能量SIGE2的曲线有小幅度的小摆动。这例如可以通过借助于所述音频数据流传输的低声的语音或者通过出现背景噪音达到。
参与者TLN3除了在时段T2至T4之外持续地不活跃并有零的信号能量SIGE3。只在时段T2至T4该第三参与者TLN3参与所述音频会议,这在信号能量SIGE3的的信号变化曲线上由曲线的摆动指代。
对于图3假定的是,如此地配置所述音频会议装置:使得只设定两个放大系数级别。它们是活跃的发言者的0dB放大系数和对不活跃的发言者或背景发言者的-30dB的放大系数。在此这些值只是举例并且优选系统范围地或者可单独配置。在该例中进行至三个组K1,K2和K3的分类。在此,所述第一组K1代表活跃的发言者或者对其期望是以最高的概率重新活跃的参与者。第二组K2含有在一个时段或者很少活跃或者至少到在前的一个时间点曾经活跃的参与者。第三组K3代表一个完全不活跃的参与者,与其他的音频会议参与者相比其具有低的价值。
因为本例中只有三个音频会议TLN1、TLN2、TLN3参与所述音频会议,第一组K1和第二组K2的最大组密度(Gruppenstaerke)设定为一个单个参与者。从而得到,把在一个时间点配属给第一组K1的活跃的参与者可能改分类进一个第二组K2,尽管他还继续活跃,只要其他会议参与者之一给出一个较高声的语音信号并且其作用在相应信号能量的较高电平上。
初始情况是所有三个参与者TLN1、TLN2、TLN3都是不活跃的。在此至三个组K1、K2、K3的分类的基础状态是第一参与者TLN1预分类进一个第一组K1、而第二参与者TLN1配属给一个第二组K2。第三参与者T2在该初始状态配属给第三组K3。例如,这可以对应于一个事先确定的优先级。根据该编组方式把对于第一参与者TLN1的音频数据流的初始放大系数设定为0dB,而同时把对于其他两个参与者TLN2、TLN3的放大系数设定为-30dB。
在本实施例中,所述分类信息对应于一个信号能量的高度,如其在曲线SIGE1、SIGE2、SIGE3中所示的那样。所检测的分类信息用一个图中未示出的评估使之相互关联,从而可以根据所述评估进行向组K1至K3中的划分。
因为从时间点T1起通过经所述第二参与者TLN2的音频数据流的传输涉及不同于零的语音信号,并且这可以借助于信号能量曲线SIGE2识别出,因此现在把该第二参与者TLN2配属进组K1,因为作为单个的参与者他满足针对该组K1的分类信息,即超过信号能量的某一阈值。基于该组K1中的参与者的最大组密度,接着把第一参与者TLN1从其直到此前为止的组K1配属到下一个组K2。第三参与者TLN3可以保留在组K3中。
到时间点T2,现在除了第二参与者TLN2之外第三参与者TLN3也语音活跃了,其中其语音信号能量电平尽可能远地明显高于第二参与者TLN2的语音信号能量水平。考虑信号能量曲线SIGE2和SIGE3时,表明第三参与者TLN3占优势地以比第二参与者TLN2的曲线大的幅度运行,其中信号能量曲线SIGE2的单个摆动超过第三参与者TLN3的信号能量值。在其中现在第二参与者TLN2具有最高的信号能量的时段,把该参与者TLN2配属给最高组K1。在此情况下由于最大组密度是一,把另一个活跃的参与者TLN3配属到第二组K2中。如果相反作用反转,从而第三参与者TLN3具有比第二参与者TLN2的信号能量高的信号能量,就把三参与者TLN3配属给第一组K1,而把第二参与者TLN2配属给第二组K2。与之相对的是把完全不活跃的参与者TLN1分类进最低的组级别K3。
图3中非常细化地示出用于分析所述音频数据流或者所述信号能量的时段细分,从而所述分类KLASS1、KLASS2、KLASS3和放大V1、V2、V3的曲线可表现为具有一种连续的变化曲线,尽管实际上只在离散的时间点才进行根据本发明的评估或者说分类信息评估,从而只在离散的时间点才进行按时段的分析。
按照参与者TLN2和TLN3至组K1和K2中的切分,现在还相应于所述组划分设定放大系数。这样根据其编组将第二参与者TLN2的放大系数V2在0dB的放大系数与-30dB的放大系数之间切换。与第二参与者TLN2类似并且交互地,对第三参与者TLN3同样设置成放大系数在0dB与-30dB的之间切换,所述切换取决于其在组K1或者K2中的编组。
在时间点T3所述第二参与者TLN2的语音信号结束以后,第三参与者TLN3短暂地语音活跃。从而把该第三参与者TLN3配属进最高优先级的组K1,而第二参与者TLN2纳入下个可提供的组K2。第一参与者TLN1如在前的时段中那样保留在组K3中。
自时间点T4起三个会议参与者都不语音活跃。在本例中这意味着,所有三个参与者都停留在直到此时为止分配的组中。这对于第一参与者TLN1是组K3,对于第二参与者TLN2是组K2,而对于第三参与者TLN3是组K1。在一个图中未示出的、可供选择的替代方案中可以与之不同地把所有参与者TLN1、TLN2、TLN3配属给不活跃的第三组K3。
在图3中所述时间曲线还接着出现三个时段,其中相应地各一个参与者语音活跃,而其他参与者完全不输出语音。在所有的三个情况下所述音频会议系统的反应都得出,把相应的语音活跃的参与者配属给组K1,以及把到此时为止配属到组K1中的参与者分类进组K2。一个已经配属到组K3中的参与者保留在该组中,并且一个配属给组K2的参与者,只要其语音不活跃,就配属给组K3。
在图3可以看出,以什么方式进行分类信息的评估或者说分析,并且可以如何取决于此进行音频数据流的信号处理。由于该例中很少的参与者数,把所述组密度相应地确定为一个组成员,其中在其它的实施方式中较大的组密度可能是合理的,至少对于一些组是合理的。
下面借助于图4至7在函数图的框架内说明分类信息和放大的进一步的时间函数流程。在此,在这些图中取消了表示音频活跃性的曲线。此外图4至7与图3的区别还在于只示出所述音频会议的参与者的曲线并且各个时段取在时间轴t上可以明确地识别出的段。
在图4至7中分四个级别进行分类。一个级别代表所述活跃的发言者的组并且用ACT标注。另一个组代表音频会议的背景发言者并且用HG标注。一个第三组用INACT标注并且代表所述语音会议的不活跃的参与者。此外还存在一个第四组MUTE,其代表持续地静音切换的参与者。一个参与者或者其音频数据流编组进一个对应的类型在分类曲线K的y轴上画出。x轴代表时间轴t,其中只在离散的时间点进行所述分类的分析或者说评估。
在分类信息曲线K下方在一个分开的图中画出放大率V,其中时间轴t同样地画在该图的x轴上并且对应于分类曲线K的时间轴t。作为y轴标出放大系数,所述放大系数对于图4至图7标为G1、G2、G3和G4。在此例如放大系数G1代表一个0dB的放大,放大系数G2代表一个-6dB的放大,放大系数G3代表一个-15dB的放大并且放大系数G4代表一个-94dB的放大,其中还是对所述会议的音频信号的衰减采用负的放大系数。然而这些放大系数值只是举例性的并且可以视实施方式而异被适配,按系统范围静态地配置或者会议单独地调节。
在图4中示出针对有少的参与者的音频会议的音频会议参与者的分类K和放大V的变化曲线。由于其少的参与者,如此地配置所述音频会议装置:可以只设定两个放大系数。它们是对于编组进组ACT、HG和INACT的放大系数G1以及对于编组进静音切换的参与者MUTE的组的放大系数G4。
在从时间点START至时间点ENDE的观察时间间隔中取决于其本身是否语音活跃的尤其是相关所检测的所述音频会议的其它会议参与者的语音活跃性,现在把所考虑的参与者配属给组ACT、HG、INACT、MUTE。从而例如在一个第一时段得出至活跃发言者ACT的组的配属。相对于此,在一个第二时段得出至不活跃的发言者INACT的组的配属。在时间曲线上现在根据所述参与者的语音活跃性变换至所述组的配属。此外在一个第四时段中所考虑的参与者从活跃切换到静音,这由至分类曲线K中的组MUTE的配属表示。这例如可以发生在其中所述参与者操作静音切换输入麦克风的按键的情况下。
从分类K得出的、加在所述参与者的音频信号上的放大,现在对于该时段在放大V的曲线上示出。在此,根据前文所述的针对编组ACT、HG和INACT的框架条件采取放大G1。只在其间把所述参与者配属给组MUTE的所述第四时段中,通过当前的音频数据流的音频会议装置采用放大系数G4。根据前述的-94dB的值,这在一定程度上对应于所述音频数据流的静音切换。在所述的当前情况下在有少的参与者的会议中不采用放大值G2和G3,因为看起来不需要放大系数的非常细的区分。与此相对的是在图5中接着说明所述放大系数的一种细的分解。
在图5中对每个编组级ACT、HG、INACT、MUTE刚好分配一个放大系数。从而对组ACT的组成员配属放大系数G1。对HG的组成员配属放大系数G2。对组INACT和MUTE进行对应的配属,向他们配属组G3或者G4。在此情况下,如在图5中可见,放大系数V的曲线刚好与分类信息K的曲线进程相符。
在图6和7现在示出图5中所示的时间进程的其它实施方式。在此尤其注意放大系数的突然的变换可以在通信参与者处对语音质量有可能的负面作用。这就是为什么参照图6和图7说明一种在两个放大系数之间的一种平缓的过渡。看起来是这样的,在从第一组向第二组中变换时在一个短的时段不把所述参与者配属给所述组,而是短时间地无组归属性地管理。这在曲线K中由虚线表示。在此时间期间可以把所述放大系数从起始放大系数到目标放大系数持续而稳定地改变。从而在图6中在曲线V中得出一个持续的曲线,其中在两个放大系数值之间例如存在一个直接的直线连接,借助于此改变所述放大系数。从而得出所述放大系数的连续变化曲线,这对音频会议的语音质量起有利的作用。
在图7中示出一个类似的实施方式,其与图6的区别是:在一个放大系数至另外的放大系数的过渡中,所述放大系数的改变用离散的步骤进行。通过限制为离散的放大系数值可以降低放大适配的复杂性。
此外在一定的情况下的有利的是,在不同的时段进行放大适配,视是否涉及两个直接相邻的放大系数之间的阶跃而定,也就是例如是否涉及在0、-6、-15、-94dB的分级的情况下从-6dB到-15dB的变换,或者是否涉及所述放大系数的明显的改变而异,也就是说例如从-6dB到-94dB的变换。此外可以注意,是涉及沿衰减的方向还是沿放大的方向的改变,其中就得出的音频质量而言,可能有利的是,沿衰减方向的放大系数的改变进行得比沿正放大方向的放大系数的改变要缓慢。以此方式,尽管就一个参与者突然变得语音活跃而言进行了快速的语音通道接入,仍然可以产生一个同类的语音图。
在由此可以降低所述音频会议装置的复杂性的方面,根据一种分类划分成同类的组是有利的。这尤其是在向所述通信终端装置输出的不活跃的语音会议数据流借助于其配属给音频数据流的通信终端装置由组一致(gruppenkonform)地叠加的、经信号处理的音频数据流构成时是有利的,从而对所有配属到一个组的参与者只需要进行一次编码并且只需要进行一次叠加,并且可以向所述组的所有参与者提供该编码和叠加的结果。
优选的是,可以根据所述音频会议的大小进行相应的组的分类或者说编组和放大性能设定。这样例如可以借助于预配置的列表定义,对于多少会议参与者应当构成多少个组。以此方式例如可以达到,对于3个参与者的会议应当把所有的参与者分类进一个组,而在有4-8个参与者的会议应当提供三个组,而在多于9个的组提供五个组。优选的是,时间特性曲线中的过渡动态地进行,从而在对一个有8个参与者的会议接收另一个参与者时也进行从划分成三个组到划分成五个组的过渡。
与之类似地优选的是,还依据会议参与者的数量动态地适配所述放大系数值,从而对于4-8个参与者、4-5个参与者分三个组的编组的情况下采用与6-8个参与者不同的放大系数值。
本发明即使在音频会议的所有参与者只能够分类进一个单个组(例如一个活跃的发言者的组)时也尤其是有利的。以此方式,可以优选地对于有少的参与者的会议实现:混合所有的参与者音频信号,其中所有的音频信号都受相同的信号处理,或者不受信号处理。从而在一方面得出对现有系统的兼容性,另一个方面对于这样的有少的参与者的会议得出很低的复杂性。此外,如前文所述,在超过一个预先给定的会议参与者数时提高所述组的数量。
在本发明的一个实施方式中,优选的是,可以借助于通过具有有限脉冲响应的滤波器(所谓的FIR滤波器)滤波所述音频数据流,把所述音频数据流之一的经衰减和/或平滑的信号能量确定为分类信息。例如可以借助于用在信号能量上的低通滤波器来实现得出所述会议参与者的关于新编组的迟缓的行为。作为可供选择的替代方案或者附加地,例如可以采用一阶FIR滤波器,优选的是具有不同的所谓袭扰系数(Attack-Koeffizient)和释放系数(Release-Koeffizient),从而向有较低衰减的较高类别的变换可以进行得比在相反情况下快速,因为FIR滤波器允许信号能量在多个时段上缓慢地下降。
参照图1-7说明的实施方式尤其是有利的,因为可以动态地进行音量适配或者很大程度上的信号处理,从而提高音频会议的参与者的语音理解性。此外因为音频数据流的编组且只考虑少量的组,所以把复杂性保持得较低。此外可以借助地以下各图说明的做法降低了音频会议装置中的处理复杂性,因为可以降低同时使用的CODEC的数量。下面说明如何可以节省CODEC。
图8-12用示意图示出方框图,以在一个音频会议的框架内阐述根据本发明的切换方法的不同方法状态。所述音频会议示例为有其通信终端装置EG1、EG2、EG3、EG4、EG5的五个参与者。在此每个通信终端装置EG1、EG2、EG3、EG4、EG5包含一个解码器D1、D2、D3、D4、D5用于转化所接收的音频数据AD1、AD2、AD3、AD4,所述接收的音频数据由有其编码器K1、K2、K3、K4的音频会议装置的编码装置KOD传输。在此,所述通信终端装置EG1、EG2、EG3、EG4、EG5例如是语音终端装置譬如电话或者在工作平台计算机上的电话应用软件,其还分别附加地具有没有示出的编码器,用于从借助于一个麦克风接收的语音信号产生音频数据并且面向包或者线路交换地向所述音频会议装置提供。
所述音频会议装置具有一个没有示出的解码装置以把由所述通信终端装置EG1、EG2、EG3、EG4、EG5提供的音频数据变换成音频信号AS和由“+”号指代的混合装置以混合或者叠加该音频信号AS。一定的情况下,视所述参与者的音频活跃性而定,还进行前文所述的、所述通信终端装置EG1、EG2、EG3、EG4、EG5或者其音频数据或者音频信号AS向同类组的划分。此外在一定的情况下事先加权所述音频信号并且借助于在信号特性曲线中的信号处理改变所述音频信号,例如衰减或者放大(图中未示出)。作为所述混合装置的结果,得出部分特定地针对在所述通信终端装置EG1、EG2、EW3、EG4、EG5之一上输出并且部分共同地针对向所述通信终端装置EG1、EG2、EG3、EG4、EG5的多个输出而形成的混合音频信号MIXA、MIXB、MIXC、MIXD。
在术语方面,在音频信号的符号“AS”上通过通信终端装置EG1、EG2、EG3、EG4、EG5的下标符号表明相应的音频信号从哪个通信终端装置EG1、EG2、EG3、EG4、EG5起源。一个由编码参数代表的、编码器K1、K2、K3、K4之一的状态的值量(Wertemenge)称为ZA、ZB、ZC、ZD。其中在图8-11中刚好活跃的状态ZA、ZB、ZC、ZD作为下标对相应的编码器K1、K2、K3、K4进行说明,也就是说例如K1ZA、K2ZB。在此,作为一种影响状态的编码参数,一方面理解为声音的同义语的参数,然而尤其还在编码过程的框架中理解为计算的中间结果。
编码参数在图中没有进一步示出,并且例如是CODEC的调节参数的一个或者多个列表。所有编码参数的所有列表内容的值量,包括编码计算的中间结果在该实施例中在此称为状态,其中至少一个列表内容的改变或者中间结果的改变称为状态变换。
一个相应于编码器状态的状态,也就是编码参数的值量,还在通信终端装置EG1、EG2、EG3、EG4、EG5的解码器D1、D2、D3、D4、D5处得出。在此也把该状态作为解码器标号的下标说明,其中一个相应于编码器的解码器状态用该状态标号后的一个撇号表示。也就是说,与编码器K1连接的解码器D1从而称为解码器D1ZA,,其中所述编码器K1又处于状态ZA并且因此称为编码器K1ZA。
优选的是如此实施所述编码器和解码器:使之能够让时间上在先的分析值进入一个当前的语音段的分析中。在一个实施方式中,所述编码器和解码器采用CELP方法(CELP:代码本激励线性预测)。一个例子是根据ITU(ITU:国际电信联盟)推荐的G.728的CODEC。
一个状态例如代表一个存储的编码参数列表和编码计算的中间结果,所述编码计算的中间结果基于在前的音频信号时段的分析而得到并且用于改善当前的音频信号时段的编码/解码。丢失这样的对相应的CODEC所述需要的编码参数和/或中间结果或者这些值的一个非算法一致的改变,在此会在向通信终端装置的输出时对所产生的音频信号产生负面的并且通常可感觉得到的影响,因为这些编码参数和中间结果正是为在减少要传输的数据的条件下达到至少比不采用历史的编码参数在相同传输带宽时所能达到的要好的语音质量而引入的。
在图8-12中编码器与解码器之间的连接表示为在这些部件之间的直线,其中沿所述传输的方向的传输方向由箭头表明。在此这些连接可以基于面向包的和/或线路交换原理。
图8表示所有后续各图的初始状态。在通信终端装置EG1、EG2、EG4、EG5之间建立的音频会议中通信终端装置EG1、EG2、EG3的参与者分类为活跃的发言者,而通信终端装置EG4、EG5的参与者是纯听众。所述活跃的发言者的组的最大组密度例如对于图8-10是数量3。纯听众的组在其数量上不受限制。针对活跃的发言者的通信终端装置EG1、EG2、EG3构成相应地单独混合的会议信号,其中滤除为之确定所述混合音频信号的通信终端装置的参与者的语音部分(图中未示出)。针对所述第一通信终端装置EG1的单独的混合音频信号是MIXA,针对所述第二通信终端装置EG2是MIXB,并且针对所述第三通信终端装置EG3是MIXC。在此,所述混合音频信号MIXA优选的是所接收的、由通信终端装置EG2和EG3提供的音频信号的叠加。所述混合音频信号MIXB优选是所接收的、通信终端装置EG1和EG3的音频信号的叠加,而所述混合音频信号MIXC是所接收的、由通信终端装置EG1和EG2提供的音频信号ASEG1和ASEG2的叠加。此外,还构成所有活跃的参与者的所有音频信号的叠加,也就是ASEG1+ASEG2+ASEG3,在此方面,该语汇中“+”解释为叠加运算,其中经叠加的混合音频信号称为MIXD。
向编码器K1输送混合音频信号MIXA,从而所述编码器在一个确定的时间点具有根据状态ZA的编码参数。类似地对于编码器K2通过施加混合信号MIXB得出状态ZB,对于编码器K3通过施加混合信号MIXC得出状态ZC,并且对于编码器K4通过施加混合信号MIXD得出状态ZD。编码器K1、K2、K3、K4产生音频数据流AD1、AD2、AD3、AD4,其中这些数码对应于编码器K1、K2、K3、K4。所述音频数据流AD1、AD2、AD3现在分别单独地向通信终端装置EG1、EG2、EG3传输,接着相应的解码器D1、D2、D3进行解码并且采取属于相应状态ZA、ZB、ZC的解码器状态ZA’、ZB’、ZC’。
向编码器K4输送作为音频信号叠加的ASEG1+ASEG2+ASEG3混合信号MIXD,该编码器接着采取代表该编码参数的状态ZD。现在向两个通信终端装置EG4、EG5输送由编码器K4产生的音频信号AD4,其中其单独的解码器D4或者D5相应采取相应相同的解码器状态ZD’。
下面参照图9,从在图8中所示的系统状态出发,说明通信终端装置EG2的参与者的语音活跃性的变换,其中此前看作是活跃的发言者的、通信终端装置EG2的参与者变得不活跃,并且被配属给不活跃的参与者的对应的组。现在出现这样的可能性:类似于这两个此前不活跃的、通信终端装置EG4和EG5的参与者的组成,也通过共同产生的音频数据提供通信终端装置EG2的新的不活跃参与者。然而。如果不采用根据本发明的切换方法,在编码器K4的输出端上的解码器D2的解码器输入端的、突然的、直接的切换只可能带来语音质量的损害,因为具有状态ZD的编码器K4具有与编码器K2的状态ZB不同的状态并且解码器D2的状态ZB’也不对应于解码器K4的状态。
借助于根据本发明的方法的一个实施方式,现在如此地改变编码器K2的状态ZB并且从而也改变解码器D2的状态ZB’:使得状态ZB接近状态ZD并且状态ZB’接近状态ZD’。进行这些状态对的相互协调,然后可以把编码器K4的输出信号输送到解码器D2的输入端,而不会出现可感觉得到的质量损失。
如在图9中所示,把标以符号MIXD的、向编码器K4输送的同一混合音频信号自一个时段起并且在所有后续的时段中,同样地向编码器K2输送。此外,这两个编码器K2和K4在该时段基于其存储的、从此前的时段的音频信号变化曲线得出的编码参数具有不同的状态ZB和ZD。然而如果由此出发:对于CODEC譬如编码器K2和K4,进一步过去的时段具有比当前的或者刚刚过去的时段对编码参数小得多的影响,则得出:该编码参数并且从而编码器K2的状态ZB接近于编码器K4的编码参数的值,直到一个将来的时段,准确地或者在考虑容差的条件下产生可能很大程度的编码参数相互一致并且从而也产生编码器K2和K4的状态ZB和ZD的相互一致。
这在图10所基于的时段中是满足的。在该时段,编码器K2的状态ZB接近在同一时段编码器K4采取的状态ZD,从而可以把解码器D2的输入端切换到编码器K4的输出端而没有质量问题。根据本发明,在当前的时段或者在将来的时段如此地切换用于通信终端装置EG2的音频连接:使得从作为音频连接起始源的编码器K2切换到编码器K4。通信终端装置EG2并且从而解码器D2因此通过所述音频连接得到所述输送的音频数据AD4,正如通信终端装置EG4和EG5那样。解码器D2采取的状态继续与解码器D4和D5的相应状态ZD’相互一致。
为了节省编码装置KOD中的计算费用和编码资源,可以去激活、释放或者去除编码器K2。从而混合信号MIXB的输送也同样可以被结束。这两者都在图10中通过划掉符号MIXB和K2表示。
上面说明的切换方法尤其对动态组成的编码装置是有利的,其中编码器动态地分配音频会议的音频信号并且从而也能够又动态地被释放。以此可以借助于切换到一个替代的编码器上在一定的情况下节省一个编码器。然而在可由此降低编码装置中的处理耗费方面节省或者去激活一个编码器尤其是有利的,尤其是在使用对计算功率有高的要求的复杂CODEC的情况下。
在图11中示出一个从图8所采取的方法状态出发的、根据本发明的切换方法的另一个实施方式。在此,活跃的发言者的组的最大组密度例如是4。纯听众的组没有限制。在此通信终端装置EG5的参与者变得活跃并且因此需要产生其中叠加其余通信终端装置EG1、EG2、EG3、EG4的所有音频部分的、特定的混合音频信号。因此,在编码装置KOD中产生或者激活一个新的、特定为至通信终端装置EG5的音频连接而设置的编码器K5,向该编码器输送以具有音频信号ASEG1+ASEG2+ASEG3+ASEG4的叠加的混合信号MIXE。基于新产生所述编码器K5并且从而也基于其新的状态ZE,把它与用实线的矩形示出的编码器K1至K4相区别地在图11中用虚线的矩形示出。
如果只产生编码器K5,而不适配其编码参数并且从而不适配其状态,就会在解码器D5中产生其解码参数的不连续性,这种不连续性会造成语音质量降低或者造成解码错误。为了对之加以避免,用下面说明的方法步骤达到:尽管延伸向解码器D5的音频连接突然从编码器K4切换到编码器K5,解码器D5的状态也继续连续地被改变并且从而其解码参数继续连续地被改变。
达到这点是通过:在产生混合信号MIXE和编码器K5以后,检测编码器K4的编码参数并且从而检测编码器K4的状态,并且在同一时段为K5设定之。这优选借助于一个在图11中由从编码器K4向编码器K5的箭头表示的拷贝过程CP进行。从而编码器K5没有延迟地采取状态ZD并且基于该状态编码所进入的混合信号MIXE。尽管从而编码器K5的编码过程突然地开始,然而在通信终端装置D5的解码器D5上感觉不到不连续性的表现,只要同样地在同一个时段进行所述音频连接的切换,使得把由编码器K5产生的音频数据AD5向解码器D5传输。这现在在图12中示出。在音频连接的切换时间点解码器D5具有状态ZD’。因为这对应于编码器K4和K5的状态ZD,从而所述解码过程不受从编码器K4至编码器K5的切换干扰,从而在通过解码器D5解码时完全没有可察觉的错误。由于最终地切换到了K5并且由于至解码器D5的连接,在图12中现在把编码器K5示出作为实线的矩形了。
在图12中采取的、编码器K5的状态ZD和解码器D5的状态ZD’只对切换时间点成立。与之相对的是,取决于混合信号MIXE,在接着的时段编码器K5可以采取特定的状态。并且解码器D5与之对应地同样采取与解码器D4不同的状态。
结合参照图8-12说明的做法,可以动态地接通和关闭编码装置的编码器,其方式是,其它的编码器接管编码任务,并且通信终端装置的编码器和解码器之间的音频连接被切换。
除了典型的音频会议之外同样可以设想在其它电话业务中的应用并且部分地进行音频信号的变换,在所述其它电话业务中多个参与者有时同时得到相同的音频信号有时得到不同的音频信号。这例如是公告业务,其中向许多参与者播放公告例如广告消息或者一个等待旋律。在此,可能临时向多个参与者通过一个共同的编码器传输共同的信号,其中例如通过接通到一个所谓的呼叫中心代理来激活一个参与者特定的编码器并且将音频连接切换至该编码器。从而可以为播放同样的公告和曲调来达到减少同时启动的编码器。
Claims (21)
1.进行音频会议的方法,其中,
-由通信装置向所述音频会议输送音频数据流(ADS1、ADS2、ADS3、ADS4),
-对于所述音频数据流(ADS1、ADS2、ADS3、ADS4)检测分别配属给一个音频数据流(ADS1、ADS2、ADS3、ADS4)的分类信息(SIGE1、SIGE2、SIGE3),
-相应于对所述分类信息(SIGE1、SIGE2、SIGE3)的评估的结果把所述音频数据流(ADS1、ADS2、ADS3、ADS4)配属到至少三个在该结果(GI)方面同类的组(ACT、HG、INACT、MUTE),
-对单独的音频数据流(ADS1、ADS2、ADS3、ADS4)组统一地进行信号处理,
-叠加经信号处理过的音频数据流(ADS1、ADS2、ADS3、ADS4),以构成向通信终端装置输出的音频会议数据流(KADS1、KADS2、KADS3、KADS4),
其特征在于,
所述组统一的信号处理包含组特定地衰减(V1、V2、V3、V)所述音频数据流(ADS1、ADS2、ADS3、ADS4)。
2.如权利要求1所述的方法,
其特征在于,
在检测所述音频数据流(ADS1、ADS2、ADS3、ADS4)之一的分类信息(SIGE1、SIGE2、SIGE3)之一的框架内,检测至少一个再现该音频数据流(ADS1、ADS2、ADS3、ADS4)特性的量。
3.如权利要求1或2所述的方法,
其特征在于,
为了配属到同类的组(ACT、HG、INACT、MUTE),通过与参考值的比较来评估所述音频数据流(ADS1、ADS2、ADS3、ADS4)的分类信息(SIGE1、SIGE2、SIGE3)。
4.如权利要求1或2所述的方法,
其特征在于,
所述组特定地衰减(V1、V2、V3、V)所述组(ACT、HG、INACT、MUTE)之一的所述音频数据流(ADS1、ADS2、ADS3、ADS4)根据参与所述音频会议的通信装置的数量来进行。
5.如权利要求1或2所述的方法,
其特征在于,
所述分类信息(SIGE1、SIGE2、SIGE3)的所述评估包含估算单独地配属给所述音频数据流(ADS1、ADS2、ADS3、ADS4)之一的、可预给定的组预选,从而视所述组预选而定地强加对预选的组(ACT、HG、INACT、MUTE)的配属。
6.如权利要求3所述的方法,
其特征在于,
所述分类信息(SIGE1、SIGE2、SIGE3)的所述评估包含估算配属给组(ACT、HG、INACT、MUTE)的音频数据流(ADS1、ADS2、ADS3、ADS4)的数量,并且由于该数量超过被配属给一个组(ACT、HG、INACT、MUTE)的音频数据流(ADS1、ADS2、ADS3、ADS4)的最大阈值而强加向一个代替的组(ACT、HG、INACT、MUTE)中的配属。
7.如权利要求1或2所述的方法,
其特征在于,
-所述至少三个组中的第一个(ACT)代表所述音频会议的语音活跃的参与者的音频数据流(ADS1、ADS2、ADS3、ADS4),
-所述至少三个组中的第二个(HG)代表所述音频会议的少语音活跃的参与者的音频数据流(ADS1、ADS2、ADS3、ADS4),
-所述至少三个组中的第三个(INACT+MUTE)代表所述音频会议的、主要倾听的参与者的音频数据流(ADS1、ADS2、ADS3、ADS4)。
8.如权利要求7所述的方法,
其特征在于,
在评估所述分类信息(SIGE1、SIGE2、SIGE3)的框架内,把所述第三组(INACT+MUTE)的音频数据流(ADS1、ADS2、ADS3、ADS4)细分成不活跃的参与者的第四组(INACT)和静音切换的倾听者的第五组(MUTE)。
9.如权利要求7所述的方法,
其特征在于,
在评估所述分类信息(SIGE1、SIGE2、SIGE3)的框架内,把所述第一组(ACT)的音频数据流(ADS1、ADS2、ADS3、ADS4)细分成具有特别优先特性的发言者的第六组、具有少优先特性的发言者的第七组和没有优先特性的其它发言者的第八组。
10.如权利要求2所述的方法,
其特征在于,
检测所述至少一个再现所述音频数据流(ADS1、ADS2、ADS3、ADS4)之一的特性的量由解码器(D1、D2、D3、D4)在解码相应音频数据流(ADS1、ADS2、ADS3、ADS4)的框架内进行。
11.如权利要求1或2所述的方法,
其特征在于,
所述分类信息(SIGE1、SIGE2、SIGE3)的检测和评估相应地在时间间隔期间进行。
12.如权利要求1或2所述的方法,
其特征在于,
所述分类信息(SIGE1、SIGE2、SIGE3)在时间间隔中的检测和评估在包含在前的时间间隔的分类信息(SIGE1、SIGE2、SIGE3)的评估的条件下进行。
13.如权利要求1或2所述的方法,
其特征在于,
只有当在多个时间间隔上在相应研究的时间间隔中识别出向另外的组(ACT、HG、INACT、MUTE)的配属时,才进行所述音频数据流(ADS1、ADS2、ADS3、ADS4)之一从在第一时间间隔中的初始的组(ACT、HG、INACT、MUTE)向在第二时间间隔中的另外的组(ACT、HG、INACT、MUTE)的、变换的配属。
14.如权利要求1或2所述的方法,
其特征在于,
在所述音频数据流(ADS1、ADS2、ADS3、ADS4)之一从在第一时间间隔中的初始的组(ACT、HG、INACT、MUTE)向在第二时间间隔中的另外的组(ACT、HG、INACT、MUTE)的、变换的配属被识别时,所述音频数据流(ADS1、ADS2、ADS3、ADS4)在一个预定的时段中既不配属给该初始的组也不配属给该另外的组(ACT、HG、INACT、MUTE),而是将衰减以音频数据流单独的方式、从为初始的组(ACT、HG、INACT、MUTE)设置的第一衰减向为该另外的组(ACT、HG、INACT、MUTE)设置的第二衰减、按照单调函数连续地和/或以离散的步骤在所述时段上改变。
15.用于由通信装置输送的音频数据流(ADS1、ADS2、ADS3、ADS4)的音频会议装置,包括
-分类信息检测单元(KLASS),其用于检测相应地配属给音频数据流(ADS1、ADS2、ADS3、ADS4)的分类信息(SIGE1、SIGE2、SIGE3),
-评估单元(BWE),其用于评估所述分类信息(SIGE1、SIGE2、SIGE3),
-编组单元(GE),其用于相应于所述评估的结果(GI)把所述音频数据流(ADS1、ADS2、ADS3、ADS4)配属到至少三个在所述评估的结果方面同类的组(ACT、HG、INACT、MUTE),
-信号处理单元(VE),其用于组统一地信号处理单独的音频数据流(ADS1、ADS2、ADS3、ADS4),和
-叠加单元(MIX),其用于通过叠加经信号处理过的音频数据流(ADS1、ADS2、ADS3、ADS4)以构成向所述通信终端装置输出的音频会议数据流(KADS1、KADS2、KADS3、KADS4),
其特征在于,
所述信号处理单元(VE)被构造为使得组统一的信号处理包含组特定地衰减(V1、V2、V3、V)所述音频数据流(ADS1、ADS2、ADS3、ADS4)。
16.在第一编码器(K2、K4)与解码器(D2、D5)之间存在音频数据连接的情况下在第一编码器(K2、K4)与第二编码器(K4、K5)之间进行切换的方法,其中,
-通过所述第一编码器(K2、K4)向所述解码器(D2、D5)输送经编码的音频数据(AD2、AD4),
-通过该第一编码器(K2、K4)在采用由音频数据历史影响的编码参数的条件下借助于编码向所述第一编码器(K2、K4)输送的第一音频输入信号(MIXB、MIXD)来产生经编码的音频数据(AD2、AD4),并且
-第一编码器(K2、K4)和第二编码器(K4、K5)之一的编码参数在当前的时段相应地、相关地由当前时段的输送的音频输入信号(MIXB、MIXD)以及通过至少一个在前的时段的音频输入信号(MIXB、MIXD)来构成,
其特征在于,
以如下方式切换从所述第一编码器(K2、K4)至第二编码器(K4、K5)的音频数据连接:在所述切换的框架内使所述第二编码器(K4、K5)的编码参数与所述第一编码器(K2、K4)的编码参数一致并且随着所述编码参数进入一致将所述音频连接切换到所述第二编码器(K4、K5)。
17.如权利要求16所述的方法,
其特征在于,
在从第一编码器(K2、K4)到第二编码器(K4、K5)的音频数据连接切换的框架内,如下地改变所述第一音频输入信号(MIXB、MIXD):将所述第二编码器(K4、K5)带入所述第一编码器(K2、K4)的同一状态。
18.如权利要求16或17所述的方法,
其特征在于,
在从第一编码器(K2、K4)到第二编码器(K4、K5)的音频数据连接切换的框架内,如下地改变所述第一音频输入信号(MIXB、MIXD):将加在第二编码器(K4、K5)上的第二音频输入信号作为第一音频输入信号(MIXB、MIXD)向所述第一编码器(K2、K4)输送。
19.如权利要求16或17所述的方法,
其特征在于,
在从第一编码器(K2、K4)到第二编码器(K4、K5)的音频数据连接切换的框架内,如下地改变第二编码器(K4、K5)的状态:检测第一编码器(K2、K4)的编码参数,并且将其设定为所述第二编码器(K4、K5)的编码参数。
20.如权利要求16所述的方法,其特征在于,所述方法用于如权利要求1至14中任一项所述来进行音频会议。
21.音频会议装置,
其特征在于,
用于实施如方法权利要求16至20中任一项所述的切换方法的装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2006/007495 WO2008011902A1 (de) | 2006-07-28 | 2006-07-28 | Verfahren zum durchführen einer audiokonferenz, audiokonferenzeinrichtung und umschalteverfahren zwischen kodierern |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101502089A CN101502089A (zh) | 2009-08-05 |
CN101502089B true CN101502089B (zh) | 2013-07-03 |
Family
ID=37826103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800555047A Expired - Fee Related CN101502089B (zh) | 2006-07-28 | 2006-07-28 | 进行音频会议的方法、音频会议装置和编码器之间的切换方法 |
Country Status (4)
Country | Link |
---|---|
US (5) | US8885804B2 (zh) |
EP (1) | EP2047669B1 (zh) |
CN (1) | CN101502089B (zh) |
WO (1) | WO2008011902A1 (zh) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008011902A1 (de) * | 2006-07-28 | 2008-01-31 | Siemens Aktiengesellschaft | Verfahren zum durchführen einer audiokonferenz, audiokonferenzeinrichtung und umschalteverfahren zwischen kodierern |
CN101513030A (zh) * | 2006-08-30 | 2009-08-19 | 日本电气株式会社 | 语音混合方法、多点会议服务器和利用该方法的程序 |
US7973857B2 (en) * | 2006-12-27 | 2011-07-05 | Nokia Corporation | Teleconference group formation using context information |
US8503651B2 (en) * | 2006-12-27 | 2013-08-06 | Nokia Corporation | Teleconferencing configuration based on proximity information |
US8243631B2 (en) * | 2006-12-27 | 2012-08-14 | Nokia Corporation | Detecting devices in overlapping audio space |
US9172796B2 (en) * | 2007-03-14 | 2015-10-27 | Cisco Technology, Inc. | Location based mixer priorities in conferences |
US7782802B2 (en) * | 2007-12-26 | 2010-08-24 | Microsoft Corporation | Optimizing conferencing performance |
CN101466043B (zh) * | 2008-12-30 | 2010-12-15 | 华为终端有限公司 | 一种多路音频信号处理的方法、设备及系统 |
CN102598644B (zh) * | 2009-11-06 | 2015-05-27 | 飞思卡尔半导体公司 | 会议电话系统以及方法 |
US20130298040A1 (en) * | 2010-04-30 | 2013-11-07 | American Teleconferencing Services, Ltd. | Systems, Methods, and Computer Programs for Providing Simultaneous Online Conferences |
CN101982981B (zh) * | 2010-11-12 | 2012-02-01 | 福州大学 | 数字电视传输流的分类检测装置 |
TWI716169B (zh) * | 2010-12-03 | 2021-01-11 | 美商杜比實驗室特許公司 | 音頻解碼裝置、音頻解碼方法及音頻編碼方法 |
US8924206B2 (en) * | 2011-11-04 | 2014-12-30 | Htc Corporation | Electrical apparatus and voice signals receiving method thereof |
US8681203B1 (en) | 2012-08-20 | 2014-03-25 | Google Inc. | Automatic mute control for video conferencing |
US20140278380A1 (en) * | 2013-03-14 | 2014-09-18 | Dolby Laboratories Licensing Corporation | Spectral and Spatial Modification of Noise Captured During Teleconferencing |
AU2014306170B2 (en) | 2013-08-05 | 2018-07-19 | Genesys Cloud Services, Inc. | Encoding of participants in a conference setting |
WO2015130509A1 (en) | 2014-02-28 | 2015-09-03 | Dolby Laboratories Licensing Corporation | Perceptual continuity using change blindness in conferencing |
JP6276132B2 (ja) * | 2014-07-30 | 2018-02-07 | 株式会社東芝 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
WO2016035731A1 (ja) * | 2014-09-04 | 2016-03-10 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
CN104539816B (zh) * | 2014-12-25 | 2017-08-01 | 广州华多网络科技有限公司 | 一种多方语音通话的智能混音方法及装置 |
US9837100B2 (en) * | 2015-05-05 | 2017-12-05 | Getgo, Inc. | Ambient sound rendering for online meetings |
CN104869004B (zh) * | 2015-05-15 | 2017-07-25 | 百度在线网络技术(北京)有限公司 | 音频数据处理方法和装置 |
US10218854B2 (en) * | 2015-11-06 | 2019-02-26 | Cloud9 Technologies, LLC | Sound modification for close proximity shared communications path devices |
US10116898B2 (en) | 2016-11-18 | 2018-10-30 | Facebook, Inc. | Interface for a video call |
US10079994B2 (en) * | 2016-11-18 | 2018-09-18 | Facebook, Inc. | Methods and systems for displaying relevant participants in a video communication |
CN108234421B (zh) * | 2016-12-21 | 2019-03-01 | 视联动力信息技术股份有限公司 | 一种视联网终端与互联网终端音频数据互通的方法与系统 |
US20180300100A1 (en) * | 2017-04-17 | 2018-10-18 | Facebook, Inc. | Audio effects based on social networking data |
CN110663258B (zh) * | 2017-05-19 | 2021-08-03 | 铁三角有限公司 | 语音信号处理装置 |
US10887422B2 (en) | 2017-06-02 | 2021-01-05 | Facebook, Inc. | Selectively enabling users to access media effects associated with events |
US10771621B2 (en) * | 2017-10-31 | 2020-09-08 | Cisco Technology, Inc. | Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications |
JP7206688B2 (ja) * | 2018-08-16 | 2023-01-18 | 富士フイルムビジネスイノベーション株式会社 | 遠隔会議システムおよび端末装置 |
CN110300322B (zh) | 2019-04-24 | 2021-07-13 | 网宿科技股份有限公司 | 一种屏幕录制的方法、客户端和终端设备 |
GB2593672A (en) * | 2020-03-23 | 2021-10-06 | Nokia Technologies Oy | Switching between audio instances |
CN111554312A (zh) * | 2020-05-15 | 2020-08-18 | 西安万像电子科技有限公司 | 控制音频编码类型的方法、装置和系统 |
US11356794B1 (en) | 2021-03-15 | 2022-06-07 | International Business Machines Corporation | Audio input source identification |
US11689666B2 (en) * | 2021-06-23 | 2023-06-27 | Cisco Technology, Inc. | Proactive audio optimization for conferences |
US12047536B1 (en) * | 2021-06-30 | 2024-07-23 | Amazon Technologies, Inc. | Automatic input device selection for media conferences |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002091724A1 (en) * | 2001-05-03 | 2002-11-14 | Raytheon Company | Teleconferencing system |
CN1443006A (zh) * | 2003-01-16 | 2003-09-17 | 浙江南望图像信息产业有限公司 | 一种智能控制视频会议的混音系统及控制会议进程的方法 |
WO2003103263A1 (en) * | 2002-05-29 | 2003-12-11 | Intel Corporation | Conference server dynamically determining information streams to be received by a conference bridge |
CN1805489A (zh) * | 2005-01-10 | 2006-07-19 | 华为技术有限公司 | 一种会场当前说话者上报的实现方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2284968A (en) * | 1993-12-18 | 1995-06-21 | Ibm | Audio conferencing system |
EP1388080A4 (en) | 2001-05-10 | 2006-10-25 | Polycom Israel Ltd | CONTROL UNIT FOR MULTIPOINT AUDIO / MULTIMEDIA SYSTEM |
US7362349B2 (en) * | 2002-07-10 | 2008-04-22 | Seiko Epson Corporation | Multi-participant conference system with controllable content delivery using a client monitor back-channel |
WO2005099243A1 (ja) * | 2004-04-09 | 2005-10-20 | Nec Corporation | 音声通信方法及び装置 |
EP1596395A3 (en) * | 2004-05-07 | 2007-02-07 | Yamaha Corporation | Signal level adjustment apparatus and control method for the adjustment apparatus |
WO2008011902A1 (de) | 2006-07-28 | 2008-01-31 | Siemens Aktiengesellschaft | Verfahren zum durchführen einer audiokonferenz, audiokonferenzeinrichtung und umschalteverfahren zwischen kodierern |
-
2006
- 2006-07-28 WO PCT/EP2006/007495 patent/WO2008011902A1/de active Application Filing
- 2006-07-28 EP EP06776487.8A patent/EP2047669B1/de not_active Ceased
- 2006-07-28 US US12/309,719 patent/US8885804B2/en active Active
- 2006-07-28 CN CN2006800555047A patent/CN101502089B/zh not_active Expired - Fee Related
-
2013
- 2013-11-13 US US14/078,869 patent/US9661145B2/en active Active
-
2014
- 2014-10-02 US US14/504,795 patent/US9674365B2/en active Active
-
2017
- 2017-04-14 US US15/487,485 patent/US10244120B2/en active Active
-
2019
- 2019-01-31 US US16/263,147 patent/US10574828B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002091724A1 (en) * | 2001-05-03 | 2002-11-14 | Raytheon Company | Teleconferencing system |
WO2003103263A1 (en) * | 2002-05-29 | 2003-12-11 | Intel Corporation | Conference server dynamically determining information streams to be received by a conference bridge |
CN1443006A (zh) * | 2003-01-16 | 2003-09-17 | 浙江南望图像信息产业有限公司 | 一种智能控制视频会议的混音系统及控制会议进程的方法 |
CN1805489A (zh) * | 2005-01-10 | 2006-07-19 | 华为技术有限公司 | 一种会场当前说话者上报的实现方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
US10244120B2 (en) | 2019-03-26 |
US20170221499A1 (en) | 2017-08-03 |
EP2047669A1 (de) | 2009-04-15 |
US20150016597A1 (en) | 2015-01-15 |
US8885804B2 (en) | 2014-11-11 |
US10574828B2 (en) | 2020-02-25 |
US20140122093A1 (en) | 2014-05-01 |
EP2047669B1 (de) | 2014-05-21 |
WO2008011902A1 (de) | 2008-01-31 |
US20100020954A1 (en) | 2010-01-28 |
US9674365B2 (en) | 2017-06-06 |
US9661145B2 (en) | 2017-05-23 |
CN101502089A (zh) | 2009-08-05 |
US20190174001A1 (en) | 2019-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101502089B (zh) | 进行音频会议的方法、音频会议装置和编码器之间的切换方法 | |
US7567270B2 (en) | Audio data control | |
US7742587B2 (en) | Telecommunications and conference calling device, system and method | |
US9654644B2 (en) | Placement of sound signals in a 2D or 3D audio conference | |
CN100446529C (zh) | 电信会议安排 | |
CN101473637B (zh) | 音频混合 | |
EP2901668B1 (en) | Method for improving perceptual continuity in a spatial teleconferencing system | |
CN102461139A (zh) | 增强的通信桥接器 | |
CN105304079A (zh) | 一种多方通话的多模式语音合成方法与系统 | |
EP2436176A1 (en) | Spatial audio mixing arrangement | |
US7945006B2 (en) | Data-driven method and apparatus for real-time mixing of multichannel signals in a media server | |
US9258429B2 (en) | Encoder adaption in teleconferencing system | |
US8219400B2 (en) | Stereo to mono conversion for voice conferencing | |
CN102457700A (zh) | 音频数据传输方法及系统 | |
CN101502043B (zh) | 用于实施语音会议的方法和语音会议系统 | |
EP3031048B1 (en) | Encoding of participants in a conference setting | |
CN204231472U (zh) | 一种带特征识别的智能会议电话机 | |
Faadhilah et al. | Comparison of audio quality of teleconferencing applications using subjective test | |
CN204231480U (zh) | 一种智能会议电话机 | |
CN118677990A (zh) | 音频传输方法、装置、设备、存储介质、程序产品 | |
James et al. | Corpuscular Streaming and Parametric Modification Paradigm for Spatial Audio Teleconferencing | |
Arnault et al. | On-The-Fly Auditory Masking for Scalable VoIP Bridges | |
Hardman et al. | Internet/Mbone Audio | |
Sivonen et al. | Correction to “Binaural Loudness for Artificial-Head Measurements in Directional Sound Fields” | |
Thorpe | A noise annoys an oyster: evaluating the subjective effectiveness of single-input noise reduction techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
ASS | Succession or assignment of patent right |
Owner name: SIEMENS ENTPR COMM GMBH + CO. K. Free format text: FORMER OWNER: SIEMENS AG Effective date: 20120328 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20120328 Address after: Munich, Germany Applicant after: SIEMENS ENTERPRISE COMMUNICATIONS GmbH & Co.KG Address before: Munich, Germany Applicant before: Siemens AG |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130703 |
|
CF01 | Termination of patent right due to non-payment of annual fee |