CN1157710C - 会话数据开采 - Google Patents
会话数据开采 Download PDFInfo
- Publication number
- CN1157710C CN1157710C CNB001227025A CN00122702A CN1157710C CN 1157710 C CN1157710 C CN 1157710C CN B001227025 A CNB001227025 A CN B001227025A CN 00122702 A CN00122702 A CN 00122702A CN 1157710 C CN1157710 C CN 1157710C
- Authority
- CN
- China
- Prior art keywords
- user
- emotional state
- voice
- audio system
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000605 extraction Methods 0.000 title description 7
- 241001269238 Data Species 0.000 title description 2
- 238000000034 method Methods 0.000 claims abstract description 108
- 238000007418 data mining Methods 0.000 claims abstract description 24
- 230000002996 emotional effect Effects 0.000 claims description 90
- 238000012545 processing Methods 0.000 claims description 49
- 230000004044 response Effects 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 15
- 230000004048 modification Effects 0.000 claims description 9
- 238000012986 modification Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 238000011160 research Methods 0.000 claims description 7
- 208000027534 Emotional disease Diseases 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 claims description 4
- 238000007726 management method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 10
- 210000002105 tongue Anatomy 0.000 description 10
- 230000009471 action Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 235000014214 soft drink Nutrition 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- CDBYLPFSWZWCQE-UHFFFAOYSA-L Sodium Carbonate Chemical compound [Na+].[Na+].[O-]C([O-])=O CDBYLPFSWZWCQE-UHFFFAOYSA-L 0.000 description 1
- 208000003028 Stuttering Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009313 farming Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
一种用于收集和话音系统用户的话音相关的数据的方法包括:和用户进行对话,捕获并数字化用户的语音波形,从数字化语音波形中提取至少一个声学特征以及在数据仓库中以利用随后的数据开采的形式存储与声学特征对应的属性数据以及标识标记。在该方法的一种替代形式中,在带有或不带有存储用于随后的数据开采的数据下,可利用用户属性实时修改话音系统的行为。
Description
本发明涉及面向话音的系统,具体地涉及一种便利数据开采的面向声学的方法和设备以及一种用于加工话音系统的响应成为话音系统用户的声学鉴定状态的面向声学的方法和设备。
数据开采是近来日益普及的一种跨学科领域。它指的是使用各种以无监督方式或极小监督方式从数据中提取信息的方法。“无监督”指的是其中不存在事先标注的技术;允许其自己推导出各个类。声音是簇集的,并由人明白推导出那些类。在交易、风险和欺诈管理中使用数据开采。
在数据开采(data mining)领域中,普遍认同更多数据更好。从而,从事数据开采的公司频繁地编辑或获取用户数据库。这些数据库可基于邮购史、过去顾客史、信用史等。预计顾客的电子商务以及其互联网习性很快地也会提供一种顾客数据库基础。可以从对交易或事件的人工或自动编码处理中得到所存储信息的特性。交易的一个例子可以是某给定人在某些条件下在某给定价格下购买某给定产品,或者,某给定人对某邮寄目录作出响应。事件的一个例子可包括某人在某日出交通事件,或者某家庭在上个月搬入。
传统上把数据开采所运算的数据存储在数据仓库里。一旦确定出商务对象,检查该数据仓库以选择有关特征,评估数据的品质,并把数据转换到适用于预定分析的分析模型中。接着可施加诸如预测建模、数据库分段、连接分析和偏差检测之类的技术,以便输出目标、进行预报和检查。在确认后,可以导出结果模型。
当前,常常在电话上通过话务员或交互式话音响应(IVR)系统进行各种各样的交易。大家知道,作为这种交易中的通信方式的话音携带着有关用户的各种属性的信息,诸如性别、年龄、母语、口音、方言、社会经济条件、教育程度和情绪状态。这些参数中的一个或多个对于参与数据开采的各个人可能是有用的。目前,这些交易中所含有的数据上所发现的不可多得的内容或者全都丢失给数据开采者,或者为了有效地应用必须进行人工检索。
从而,现有技术需要一种用于收集数据仓库中的和话音系统用户的话音相关的数据的方法,其可有效地和自动地使用利用话音系统(例如电话、商亭等)的交易中所得到的数据。还要求该方法实现成实时的、带有或不带有数据仓库存储的,以允许由诸如交互式话音响应系统等的话音系统进行“飞行中”的修改。
解决现有技术中所确定的需求的本发明提供一种方法,用于收集数据仓库中和话音系统用户的话音相关的数据。该方法包括步骤:和话音系统用户进行会话,捕获语音波形,数字化该语音波形,从数字化的语音波形中提取至少一个声学特征,以及在数据仓库中存储和声学特征对应的属性数据。可通过话务员和话音操纵机器系统中的至少一种进行和话音系统用户的会话。所捕获的语音波形是和会话期间话音系统用户说出的发音相关的。语音波形的数字化提供数字化语音波形。从数字化波形中提取至少一个声学特征,并且和至少一个诸如用户性别、年龄、口音、母语、方言、社会经济类别、教育程度和情绪状态的用户属性相关。存储在数据仓库里的该属性数据对应于声学特征,该声学特征和至少一个用户属性相关并且和至少一个标识标记一起存储。在数据仓库中以便利随后的数据开采的形式存储该数据。
本发明还提供一种把话音系统响应加工成话音系统用户的声学鉴定状态的方法。该方法包括通过该话音系统和话音系统用户进行对话的步骤。该方法还包括如前面所讨论的捕获语音波形并数字化该语音波形的步骤。此外,还如上述那样,该方法包括从数字化语音波形提取声学特征的步骤。最后,该方法包括根据至少一个用户属性修改该话音系统的行为的步骤,其中所述至少一个用户属性和至少一个声学特征相关。
本发明还包括一种可由机器读的程序存储部件,其有形地嵌有可由该机器执行的用于实现上述方法之一的指令程序。
本发明还提供一种设备,用于收集和用户的话音相关的数据。该设备包括一个对话管理单元,一个声频捕获模块,一个声学前端,一个处理模块以及一个数据仓库。该对话管理单元进行与用户的会话。该声频捕获模块和该对话管理单元相连接,并捕获与会话期间由用户说出的发音相关的语音波形。
该声学前端和该声频捕获模块相连接,并配置成接收及数字化该语音波形以提供数字化语音波形,而且配置成从数字化语音波形中提取至少一个和至少一个用户属性相关的声学特征。该至少一个用户属性可包括上面对各方法讨论的至少一个用户属性。
该处理模块和该声学前端相连并分析至少一个声学特征以确定至少一个用户属性。该数据仓库和该处理模块相连,并以随后的数据开采的格式存储该至少一个用户属性。
本发明还提供一种用于和用户交互的可实时修改的话音系统。该系统包括一个上述讨论类型的对话管理单元,一个上述讨论类型的声频捕获模块以及一个上述讨论类型的声学前端。此外,该话音系统还包括一个上述讨论类型的处理模块。该处理模型配置成根据该至少一个用户属性来修改该话音系统的行为。
为了更好理解本发明以及它的其它和更多的优点,请在结合各附图下参阅下述说明,而在附属权利要求书中指出本发明的范围。
图1是依据本发明的用于收集和用户的话音相关的数据的设备图;
图2是依据本发明的用于和用户交互的可实时修改的话音系统图;
图3是依据本发明的用于在数据仓库中收集和话音系统用户的话音相关的数据的方法的流程图;
图4描述图3中所示方法的某些细节,它们也可应用于图5;
图5是依据本发明的用于把话音系统响应加工成话音系统用户的声学鉴定状态的方法的流程图;以及
图6描述图5方法的某些细节。
现参照图1,其描述依据本发明的用于收集和用户的话音相关的数据的设备。该设备概括地用100标示。该设备包括一个与用户104进行会话的对话管理单元102。设备100还包括一个和对话管理单元102连接的并在会话期间捕获与用户104说出的发音相关的语音波形的声频捕获模块106。如本文中所使用的那样,应把会话广义地理解成包括第一人和/或者第二人、或者一个机器或者第二人与机器的组合之间的任何交互,该会话包括至少一些语音。
设备100还包括一个声学前端108,前端108和声频捕获模块106相连并被配置成接收及数字化该语音波形,从而提供数字化语音波形。此外,声学前端108还配置成从该数字化语音波形提取至少一个和用户104的至少一个用户属性相关的声学特征。该至少一个用户属性可包括下述中的至少一个:用户的性别、用户的年龄、用户的口音、用户的母语、用户的方言、用户的社会经济类别、用户的教育水平以及用户的情绪状态。对话管理单元102可使用从声学前端108得到的诸如MEL逆谱的声学特征,从而若需要时二者之间可以有直接连接。
设备100还包括一个和声学前端108连接的处理模块110,其分析该至少一个声学特征以确定至少一个用户属性。此外,设备100还包括一个和处理模块110连接的数据仓库112,其在随后的数据开采的形式下存储该至少一个用户属性以及至少一个标识标记。在本文的其它处讨论标识标记。
用户的性别可以通过对用户话音音调分类或者通过对特征组的简单聚类得到确定。在后一种方法中,建立和一种给定性别的大量说话人相关的话音声纹,然后借助这二组模型进行说话人的分类。以类似于性别分类的方式通过年龄组的分类可以确定用户的年龄。尽管可靠性有限,可以以这种方式区分各种年龄类别,例如,儿童、青少年、成人和老年人。
从声学特征中确定口音在技术上是周知的。例如,Lincoln等于1998年国际口语处理年会[以下称为ICSLP’98],Sidney,Australia提出的论文“A Comparison of Two Unsupervised Approaches to AccentIdentification”叙述了各种有用的技术。可以以基本上等同于口音分类的方式确定用户的母语。可以增添说话人的母语的有关元数据以定义每种口音/母语模型。
即,在创造用于各种母语的模型时,可以使用一个或多个以该语言作为他们的母语的说话人。在ICSLP’98上由Matrouf等提出的论文“Language Identification Incorporating Lexical Information”中讨论了各种语言识别的技术。
可以从口音以及某给定方言中的专用的关键字或习语的使用确定用户的方言。例如,在法语中,为数字90选用“nonante”而不是选用“Quatre Vingt Dix”可以标明该说话人为比利时或瑞士血统,而不是法国人或加拿大人。进而,随后为数字80选用“qutre-vingt”而不选用“octante”或“Huitante”可标明该人是比利时人而不是瑞士人,在美式英语中,选用“grocery sack”而不选用“grocery bag”可标识某个人来自于中西部而不是来自于中大西洋部。美语中中西部和中大西洋部不同的另一个例子是,在中西部对软饮料选用“pop”,而在中大西洋部为该相应的软饮料选用“soda”。在国际环境下,使用“holiday”以代替“vacation”可标明某人为英国而不是美国血统。本段中所讨论的操作可利用后面讨论的语音识别器126实现。
用户的社会经济分类可包括诸如用户的种族背景、用户的人种背景及用户的经济类型等因素,例如,兰领、白领-中产阶级或富人。可以通过训练时刻带注释的口音和方言以及通过检查用户用词选择对此作出确定,尽管其可靠性只是中等的,确信这些技术可充分了解用户背景,从而对数据开采是有用的。
以类似于社会经济分类的方式,可通过词的选择以及口音确定用户的教育等级;同样只能期待局部可靠性,但对于数据开采目的是足够的。
从声学特征中确定用户的情绪状态在技术上是周知的。可以识别的情绪类型包括:激怒、忍怒、惊慌、恐惧、焦急、悲哀、得意、失望、高兴、感兴趣、厌烦、害羞、轻视、慌乱、厌恶和傲慢。下述在ICSLP’98上提交的论文都描述了从有关的声学特征中确定情绪状态的示例方法:Pereira和Watson的“Some Acoustic Characteristics of Emotion”,Amir和Ron的“Towards an Automatic Classification of Emotions in Speech”,以及Whiteside的“Simulated Emotions:An Acoustic study of Voice andPerturbation Measures.”
声频捕获模块106可包括例如模数转换器板、交互话音响应系统和麦克风中的至少一个。对话管理单元102可包括一个电话交互话音响应系统,例如用于实现声频捕获的同一系统。备择地,对话管理单元可以简单地是一个对话务员的声学接口。对话管理单元102可包括自然语言理解(NLO)、自然语言生成(NLG)、有限状态语法(FSG)和/或用于代替或辅助话务员的对用户进行机器提示的文本至语音的合成(TTS)。处理模块110可在IVR的处理器部分中实现,或者可由一个单独的带有适当软件的用计算机实现。另外,可以利用诸如专用集成电路(ASIC)的专用电路实现处理模块,或者用采用分离元件的或采用分离及集成元件组合的专用电路实现。
处理模块110可包括一个情绪状态分类器114。分类器114可进而包括一个情绪状态分类模块116以及一个情绪状态原型数据库118。
处理模块110还包括一个说话人聚类器及分类器120。部件120还可包括一个说话人聚类及分类模块122和一个说话人类别数据库124。
处理模块110还可包括一个语音识别器126,后者进而可包括一个语音识别模块128和一个语音原型、语言模型及语法数据库130。语音识别器126可以是对话管理单元102的一部分,或者,例如是处理模块的实现内的一个独立部件。此外,处理模块110可包括一个口音识别器132,后者进而包括一个口音识别模块134和一个口音数据库136。
处理模块110可包括部件114、120、126和132中的任一部件;可包括所有这些部件或它们的任何组合。
设备100还可包括一个后处理器138,其和数据仓库112连接并且配置成译出用户的发音并对用户发音进行关键字识别。尽管在图1中是按一个独立物示出的,后处理器可以是处理模块110的一部分或者是处理模块110的任何子部件。例如,它可实现成是语音识别器126的一部分。可以按专用电路或带有适当软件模块组的通用计算机上的一部分,把后处理器138实现成IVR的处理器部分。后处理器138可使用语音识别器126。后处理器138还可包括一个语义模块(未示出)以解释短语的含义。语音识别器126可使用该语义模块以指示某列表中某些译码侯选物是无意义的并应丢弃/或用有意义的候选物代替。
声学前端108如技术上周知可以典型地是一个八维加能量前端。但应理解,可采用13、24或任何其它数量的维数。例如可以在带有10ms重叠的25ms的帧组上计算MEL逆谱以及三角(deleta)参数和双三角参数,即,一次和二次微商。如图1中所示,可把这些声学特征提供给说话人聚类器及分类器120、语音识别器126和口音识别器132。
可以由声学前端108提取其它类型的声学特征。可把它们标示成情绪状态特征,例如平均运行音调(pitch)、运行音调方差、音调跳动、运行能量方差、语音速率、摆振(shimmer)、基频以及基频中的偏差。音调跳动指的是音调的一阶导数中符号的改变次数。摆振是能量跳动。可把这些特征从声学前端108提供到情绪状态分类器114。上述包括MEL逆谱和情绪状态特征在内的声学特征可看成是原始的即未处理的特征。
可通过IVR等译出用户询问。可首先例如在说话人聚类器和分类器120中,通过和文本无关的说话人分类系统处理语音特征。这允许根据其话音的声学类似性对说话人分类。在1996年2月2日提交的美国专利申请S.N.60/011,058,1997年1月28日提交的美国专利申请S.N.08/787,031(现为1999年4月20日颁布的美国专利5,895,447),1997年1月28日提交的美国专利申请S.N.08/788,471以及1997年1月28日提交的美国专利申请S.N.08/787,029中公开这样的系统的实现和使用,所有这些专利申请都共同转让给国际商用机器公司,这些公开都特意与本文相结合供用于各种参考。对说话人的分类可以是受监视的或不受监视的。在受监视的情况下,根据外部信息事先决定类别。典型地,这种分类可区分男与女、成人与儿童、母语说话人与非母语说话人等等。该分类处理的标示构成处理过的特征。该处理的结果可提供给情绪状态分类器114,并且可与训练期间用于根据对某给定类观测到的均值把情绪状态特征归一化成中性情绪状态。该归一化情绪状态特征由输出情绪状态估计的情绪状态分类器114使用。该输出也被当成是处理过的特征的一部分。概言之,情绪状态分类器114可根据语音聚类器及分类器120生成的每个类归一化情绪状态特征。可按如下归一化一个特征。令Xo为额定频率。并令Xi为测出频率·归一化特征则由Xi减Xo给出。该量可为正、为负或为零,通常是无量纲的。
语音识别器126可改录来自用户的询问。这可以是与说话人无关的或者与类别相关的大词汇量连续语音识别,或者,系统可简单到是一个关键字识别器以检测出(例如)危害等。这类系统是技术中周知的。输出可以是完整的句子,但也可得到精细颗粒;例如,各识别出的词的时间校准。该带时间印记的改录也可当作一部分处理过的特征,在后面根据本发明的方法会进一步作出说明。这样,可以译出并存储事务的每个阶段中的会话。如图1中所示,适当的数据从说话人聚类器及分类器120传送到情绪状态分类器114和语音识别器126。如所提及,有可能利用用户104的输入语音进行口音、方言及语言识别。可根据具有要识别的不同口音的几个说话人的语音训练连续语音识别器。每个训练说话人还带有一个口音向量,该向量的各个维代表与每个lefeme的每个状态有关的最有可能的混合构件。可以根据这些口音向量之间的距离对说话人聚类,并且例如可通过说话人成员组的口音标识各聚类器。可以通过从用户的语音中提取口音向量并进行分类实现口音识别。如所述,可以根据用户104使用的词汇和词序列估计方言、社会经济类别等。通过专家语言知识可以编辑要检测的适当关键字、句子或语法错误。口音、社会经济背景、性别、年龄等是一部分处理过的特征。如图1中所示,任何用实箭头指示的处理过的特征可存储在数据仓库112中。此外,在数据仓库112中还可存储用虚线指示的原始特征。
在完成事务后,可在数据仓库112中存储任何处理过的或原始的特征,并把它们和其它已收集的数据关联起来。然后施加传统的数据开采技术。这样的技术是已知的,例如在Alex Berson和Stephen J.Smith所著的由McGraw Hill出版社于1977年出版的“Data Warehousing,Data Mining and OAAP”一书中以及在Cabena等著的由Prentice Hall出版社于1998年出版的“Discovering Date Mining”一书中所描述的。对于给定的商用目的,例如目标营销(target marketing),通过应用适当的开采方法可自动地得到预测模型或分类器。数据仓库112中存储的所有数据可以以一种便利随后的数据开采的格式存储。业内人士知道用于要被开采的数据的各种适当格式,例如上述二本参考书籍中所描述。商用目的例如可包括检查对提出购买某给定产品或服务敏感的用户,检查对自动系统存在问题从而应转到话务员的用户,以及检查对服务生气并应转到上级主管的用户。用户104可以是使用设备100的某商业顾客,或者可以是其它类型机构,例如非赢利机构、政府部门等的客户。
通过各种模型可以提取各种特征并且可动态地回送决策。后面会对此进一步讨论。
现参照图2,其描述依据本发明的并概括地用200表示的一个用于和用户交互的可实时修改的话音系统。图2中类似于图1中的部件的各部件用递增了100的相似参考数表示。系统200可包括一个与前面的讨论类似的对话管理单元202。具体地,如图2中所建议,单元202可以是一个话务员或管理人员、IVR或者话音用户接口(VUI)。系统200还可包括一个和上述讨论类似的声频捕获模块206以及一个亦和上述讨论类似的声学前端208。和设备100一样,单元202在需要时可和声学前端208直接连接,以便使用由前端208确定的MEL逆谱或其它声学特征。此外,系统200包括一个与上述讨论类似的但具有一些现要说明的附加特性的处理模块210。处理模块210可包括一个实行用户204的动态分类的动态分类模块240。从而,处理模块210配置成根据至少一个用户属性修改话音系统200的行为,所述至少一个用户属性是根据从用户的语音中提取的至少一个声学特征确定的。系统200还包括一个商用逻辑单元242,后者和对话管理单元202、动态分类模块240连接并供选择地和声学前端208连接。该商用逻辑单元可按IVR或VUI的处理部分实现,可以是适当编程的通用计算机的一部分,或者可以是专用电路。目前认为处理模块110、210(包括模块240)最好按通用计算机实现并且商用逻辑242最好在交互话音响应系统中的处理器部分中实现。如粗线244所建议那样,动态分类模块可配置成向商用逻辑单元242和对话管理单元202提供反馈,该反馈可以是实时反馈。
可以如所示选用地设置数据仓库212和后处理器238,它们可按上面对数据收集设备100讨论的那样运行。然而,要强调的是,在本发明的可实时修改的话音系统200中,数据仓库是选用的,并且若需要该系统在可局限于由线244指示的对部件240、242、202所讨论的实时反馈上。
通过如和对话管理单元202连接的反馈线244所示那样提示话务员,处理模块210可以修改,至少部分地,系统200的行为。例如,当检测到用户204的生气情绪状态时可以警告话务员并提醒对用户204使用缓和的词组,或把该用户转到更高层的管理人员。另外,处理模块210可修改系统200的商用逻辑242。例如当处理模块210和商用逻辑单元242都是IVR系统的一部分时,这是可做到的。后面会进一步讨论商用逻辑的修改例子,其中可包括根据系统200检测到的用户属性修改对用户204的营销报价。
如所述,处理模块210及其各子部件以和图1的处理模块110基本相同的方式运行。然而要注意到由图2中的虚线和箭头示出的语音识别模块228的输出对商用逻辑242的反馈的选项。
应注意在本申请中,包括说明书和各附图中,术语“心情”被认为是等同于术语“情绪状态”。
现转到图3,其中描述用于在数据仓库中收集和话音系统用户的话音相关的数据的一种方法的流程图。在框302处启动后,该方法包括按照框304经过话务员和话音操纵机器系统中的至少一种和该话音系统的用户进行会话的步骤。按照框306,该方法还包括捕获语音波形,该波形是和会话期间话音系统用户说出的发音相关的。按照框308,该方法还包括数字化该语音波形以提供数字化语音波形的步骤。按照框310,该方法还包括从数字化语音波形提供至少一个和至少一个用户属性相关的声学特征的步骤。该至少一个声学特征可以是上面讨论的任何特征,例如MEL逆谱或任一种情绪状态特征。用户属性可包括上面讨论的任何用户属性,即,性别、年龄、口音和其余上述属性。最后,按照框316该方法可包括在数据仓库中以利于随后的数据开采的形式存储和声学特征对应的属性数据以及至少一个标识标记的步骤,其中所述声学特征和至少一个用户属性相关。可以使用任何所需类型的标识标记;该术语是广泛理解的。例如,该标识标记可以是时间印记,其对应于某给定时间进行的某会话的各种特性,从而标识该给定的事务;该标识标记可以是标识号或姓名等,以标识该用户;或者,该标识标记可以是任何其它与用于数据开采过程中的属性数据相关的信息条目。
如判定框320所示,可以为多次附加的会话重复框304、306、308、310和316中的上述各步骤,以提供包括属性数据和标识标记的存储数据的集合。这可重复多次直至对数据开采存在充分的数据。接着,如框322中所示,可开采该存储数据集合以提供所需的信息,例如用于修改该话音系统的基础商用逻辑的信息。
如所述,按照框316,存储步骤可包括在其中所存储的至少一个标识标记是时间印记。收集的数据越多,可建立的各种模型越好。数据收集可以注释,这可能通过使用已经训练过的用于识别各条目的现有分类器组或者仅通过估计所需条目的翻译器的注解。也可使用这二种技术的组合。上面讨论的多次附加会话最好是和多个不同的用户进行的,从而可具有来自大量说话人的数据。
按照框310的提取步骤可包括提取基频、基频中的偏差、平均运行音调、运行音调方差、音调跳动、运行能量方差、语音速率以及摆振中的至少一个,以作为和用户的情绪状态相关的至少一个情绪状态特征。
按照框312,可以归一化提取出的特征,当这些特征是情绪状态的指示时相信这是特别有用的。前面已根据本发明的设备对此做了讨论。
按照框314,方法300还可包括处理至少一个声学特征以确定至少一个用户属性的附加步骤。在该情况下,得到处理过的各特征,及属性数据可以是属性值本身,例如,情绪状态的某个值。这不同于只存储原始数据的方法,在该情况下属性数据可简单地是各原始特征,即,上面讨论的MEL逆谱或情绪状态特征。从而,概言之,在框316中可存储原始声学特征(例如,波形、MEL逆谱、情绪状态特征)和处理过的声学特征(例如情绪状态的值(高兴、悲伤、迷惑)、会话翻译)中的一种或者原始及处理过的声学特征二者。
参照框318,在按照框314执行处理步骤中所使用的处理模块可在每次把附加属性存储到数据仓库中时自动地得到改进。即,可以利用每条新数据改进上面根据本发明的设备所讨论的聚类、分类和识别功能。
现参照图4,其中示出一些选用的子步骤,最好把它们和图3中示出连带在一起地执行。具体地,若需要,图3中的框310可包括至少提取MEL逆谱,如图4中的框310’内所示。在这种情况下,该方法还可包括下述步骤:根据MEL逆谱识别用户的语音(框314A),翻译语音(框314B)以及确定语音(框314C)。可以为词的选择和词汇集中的至少一个确定语音,以便确定用户的教育水平、用户的社会经济类别及用户的方言之中的至少一个。根据需要还可确定和词的选择以及词汇集相关的其它用户属性。在另一种意义上,可把步骤314A、314B和314C当成是图3的处理框314的子步骤。
回到图3,该流程的结束可由框324表示。
现参照图5,其中描述代表一种依据本发明的用于把话音系统响应加工成话音系统用户的声学确定状态的方法的流程图400。在从框402开始后,按照框404,该方法包括通过该话音系统和话音系统用户进行会话的步骤。按照框406,该方法还包括捕获与会话期间该话音系统用户说的发音相关的语音波形的步骤。此外,按照框408,该方法包括数字化语音波形的步骤以提供数字化语音波形的步骤。而且,按照框410,该方法包括从该数字化语音波形提取至少一个和至少一个用户属性相关的声学特征的步骤。该至少一个用户属性可包括上面讨论的任何用户属性。可以理解框402-410类似于图3中的框302-310。
最后,按照框415,该方法可包括根据该至少一个用户属性修改该话音系统的行为。与不带有修改的话音系统的预定响应相比,话音系统行为的修改可包括实时改变话音系统的商用逻辑和实时修改话音系统响应中的至少一种。应参照上面对本发明的设备的讨论。例如,话音系统响应的实时修改可把烦恼用户转给话务员。
按照框410的提取步骤可包括提取任何上述的情绪状态特征,或者提取前面讨论的任何其它特征。按照框412,该方法可选用地包括归一化声学特征的附加步骤,具体地当声学特征是情绪状态特征的情况下。依据框416,该方法可选用地包括在数据仓库中存储对应于声学特征的属性数据以及至少一个标识标记的附加步骤,其中所述声学特征和至少一个用户属性相关。该存储可以用有利于随后的数据开采的形式,并且可包括原始状态或处理过状态中的一种状态。该步骤基本上类似于上面对由流程图300所代表的方法中的有关讨论。应理解,按照框414,可利用一个处理模块处理特征以确定所需的属性。在该情况下,属性数据可以是属性本身;当未进行处理时,属性数据可以是原始声学特征。尽管图5中描述的方法可限制成修改话音系统的行为,若需要也可进行框418的改进步骤、由判定框420控制的重复以及数据开采步骤(即,如图3中描述的方法那样)。框424表示该方法的结束。
如流程图300所代表的方法那样,流程图400所代表的方法可根据对用户语音的翻译确定某些用户属性。从而,在框410的提取步骤中,可包括至少MEL逆谱的提取。重新参照图4,这是在框410’中实现的。其它的步骤可包括:基于MEL逆谱对用户语音的识别(框414A);对语音的翻译(框414B);以及为词的选择和词汇集中的至少一个检查语音(框414C),从而确定用户的教育水平、用户的社会经济类别和用户的方言中的至少一种。如前面那样,可确定其它与词选择的词汇集相关的用户属性。
现参照图6,其中描述和流程图400的方法的某些方面相关的某些细节。具体地,在依据流程图400的方法的某些实施例中,按照图6中的框414D,处理步骤414可包括检查情绪状态特征以确定用户的情绪状态。此外,按照图6中的框415A,行为修改框415可包括采取行动以响应于先前确定的情绪状态。这样,可以检查情绪状态特征以判定用户是否为快活(即高兴)的情绪状态还是处于厌恶、轻视、害怕和生气的情绪状态中的至少一种状态下。当发现用户处于快活情绪状态时,如框415A中采取的动作那样,可向他或她提出至少一种产品或服务。替代地,当发现用户处于快活情绪状态时,可对该用户进行营销研究,以作为框415A中采取的动作。
仍参照图6,在利用情绪状态特征判定情绪状态的情况下,按照框426可以确定不同于情绪状态特征的特征以判定情绪状态之外的属性,并且接着按照框428在框415A中采取的动作可改变成响应于与情绪状态不同的属性。例如,当向快活的用户提出产品和服务中的至少一个时,可根据至少一个不同于情绪状态的用户属性而修改提出的产品或服务。替代地,当该快活的用户受到营销研究时,可修改该营销研究以响应于至少一个不同于情绪状态的用户属性。例如,假定要向一个愉快的用户提出产品和服务中的一种,可检查语言类型以判定用户来自钓鲈鱼很流行的美国南部的农区地区,此外若需要还可检查音调以判断定其为男性。然后可对该人提议提供钓鲈鱼的设备及录像带。或者,假定把要进行营销研究的快活的对象判定成来自富有的城市地区并受过良好教育的中年女性。该营销研究可修改成向她询问其对高级化妆品、时装购买爱好或时髦度假胜地。
如所述,可以检查情绪状态特征以判定用户是否处于厌恶、轻视、害怕和生气的情绪状态之中的一种状态下。若利用IVR系统进行该方法,并且检测出这样的情绪状态,则框415A应构造成响应于用户的这种被检测出的情绪状态把该用户从IVR切换到话务员上。替代地,在采用混合式交互话音响应系统的情况下,若检测出类似的情绪状态,在框415A中采取的行动应把该用户从低层话务员切换到高层管理人员上以响应于用户的这种情绪状态。
另外,可以检查情绪状态特征以判定用户是否处于迷惑情绪状态。这可以利用技术上已知的方法,例如上面讨论的ICSLP’98中叙述的方法来达到。例如可通过推迟对问题的回答、结结巴巴、重复、不说话等表现出迷惑。这样,语音识别和翻译是有价值的。当检测出迷惑情绪状态时,框415A中采取的行动应响应于该迷惑情绪状态把用户从基本上自动的IVR系统转到话务员上。
本发明还包括一种可由机器读的程序存储部件,其有形地嵌有可由该机器执行的指令程序,用于实现本文中公开的任何方法的各方法步骤或者这些方法的任何步骤子集。例如,在由通用计算机或IVR系统的处理器部分常规地执行各方法步骤的某子集的场合,可在软盘、CD-ROM等上写入适当的程序指令。在流程图300中示出的方法里,这些方法步骤应包括读出对应于语音波形的数字数据,其中所述语音波形和在话音系统用户与话务员及话音操纵机器系统之中的至少一个会话期间由该话音系统用户说出的发音相关。用于附加步骤的程序指令应包括实现框310和316中所描述的任务或者所需的任何其它框的任务的指令。
类似地,对于流程图400中描述的方法,要通过程序指令执行的第一步骤应包括读出和语音波形对应的数字数据,其中所述语音波形和在话音系统用户与话务员及话音操纵机器系统之中的至少一个会话期间由该话音系统用户说出的发音相关。在该程序指令组中带有的附加方法步骤应该例如是框410和框415中的方法步骤,如前面所述,或者,实际上是本文中讨论的任何其他方法步骤。
应该理解,可以通过本发明的模型提取特征并动态地回送决策。除了已经叙述的这些例子之外,当诸如顾客的用户害怕地说话时,话务员可出于各种原因,例如保证交易不是强迫的,可以侦听通话。此外,可以检测出用户(或者,操作员)的气愤,除了修改自动式或混合式IVR系统的响应之外,其还可用于质量控制,例如用作估评和训练顾客服务机构的手段。
本发明可扩充到声信息之外的别的信息。例如,可包括伴有或不伴有声频数据的视频信息。从而,要求进行会话的方法步骤应替代地进行视频交易。视频信息可帮助识别或分类用户属性。可以自然地通过可视电话、商亭中的摄象机、计算机上的摄象机等收集这样的数据。诸如微笑、大笑、哭等的属性和情绪状态可得到识别。此外,可以标记和某些可视觉确定的用户属性或情绪状态相对应的话音部分。这应能建立一个训练数据库,该数据库对于建立用于只通过声学数据识别用户属性的各种自动技术应是有用的。从而,可以在只从视觉确定的用户属性、只从声学确定的用户属性或二者上进行数据开采。
可以根据共同的人类经验从外观上确定用户属性,即,红脸意味愤怒或窘迫,微笑意味高兴或快活的心情,泪水意味着悲伤。此外,可以和视频及声学数据一起得到适当的生物统计数据。另外,同时可得到多于一个人的数据。例如可同时监视父母和孩子,或者,也可同时监视寻找房子或汽车的一对夫妇。可以检测到对一大堆食品高兴的孩子,同时还检测出对这样的选择不悦的父母。当太太选择购买昂贵的珠宝时,丈夫可能是生气的,而妻子是高兴的。替代地,当丈夫的选择是购买昂贵的一组高尔夫球棍时,丈夫是高兴的而他的妻子不高兴。
如所述,可以使用时间印记,作为一种和用户属性数据一起存储的标记。这允许研究在一天的不同时刻人们如何响应,或者观察人们在人生的不同阶段的演变,例如从儿童长大成青少年然后是成人,或者人们变老时对成年时的兴趣的改变。还可跟踪和绘出亲属间的相似性。另外,可被跟踪的一个用户属性是疲劳。这样的系统例如可安装在汽车、火车、飞机或长途载重车里以监视操作员的疲劳,并提示操作员换班并休息,或者大声放音乐以使操作员保持清醒。Zadrozny和Kanevsky的标题为“防止睡觉的汽车上对话系统”的共同转让的美国专利申请09/078,807(1998年5月4日提交)特意作为本文的参考资料。
应注意本文中讨论的话音系统可包括对计算机等通话的电话系统、公用电话亭。术语“声学特征”是广义理解的,并且如所讨论那样可包括原始特征或处理过的特征,或者二者。例如,当声学特征是MEL逆谱时,一些处理过的特征可包括关键词、句子部分等。某些关键字例如可以是不能接收的脏词,应把它们去掉,并导致召来管理人员,或导致对雇员的处分。还应强调,在用于进行话音系统的实时修改的设备和方法中,在数据仓库里存储带有标记的属性是供选用的,不是必须进行的。
当训练模型时,话务员在对不同的用户属性作出受教育的猜测时可注释数据。替代地,可以利用一组已训练过的现有分类器自动地完成注释。也可采用这两种技术的组合。所存储的标记除了本文中讨论的时间印记和其它项目之外可包括交易事件或结果,或者任何其它有用信息。流程图400描述的方法也可用于借助话务员的现场会话,以人工地改变由话务员使用的商用逻辑,或者当注意生气和其它不希望的情况时自动地召来管理人员。
尽管说明了目前认为是本发明的各种优选实施例,业内人士可意识到可在不背离本发明的实质的情况下对本发明作出各种改变和修改,并且本发明的范围内的所有这样的改变和修改是受到权利保护的。
Claims (43)
1.一种用于在数据仓库中收集和话音系统用户的话音相关的数据的方法,所述方法包括步骤:
(a)通过话务员和话音操纵机器系统中的至少一个进行与话音系统用户的会话;
(b)捕获与所述会话期间由该话音系统用户说出的发音相关的语音波形;
(c)数字化所述语音波形以提供数字化语音波形;
(d)从所述数字化语音波形中提取至少一个和至少一个用户属性相关的声学特征,所述至少一个用户属性包括下述中的至少一个:
(d-1)用户的性别;
(d-2)用户的年龄;
(d-3)用户的口音;
(d-4)用户的母语;
(d-5)用户的方言;
(d-6)用户的社会经济类别;
(d-7)用户的教育水平;以及
(d-8)用户的情绪状态;以及
(e)在数据仓库中以利于随后对其进行数据开采的形式存储和所述声学特征对应的属性数据以及至少一个标识标记,其中所述声学特征和所述至少一个用户属性相关。
2.权利要求1的方法,还包括下述附加的步骤:
(f)为多次与其它用户的其它会话重复步骤(a)-(e),以提供包括属性数据和标识标记的存储数据的集合;以及
(g)开采存储数据集合,以提供用于修改话音系统的基础商用逻辑的信息。
3.权利要求1的方法,其中步骤(e)包括存储包含时间印记的至少一个标识标记。
4.权利要求1的方法,其中步骤(d)包括提取基频、基频中的偏差、平均运行音调、运行音调方差、音调跳动、运行能量方差、语音速率以及摆振中的至少一个,以作为和用户的情绪状态相关的至少一个情绪状态特征。
5.权利要求4的方法,还包括归一化所述至少一个情绪状态特征的附加步骤。
6.权利要求1的方法,还包括处理所述至少一个声学特征以确定所述至少一个用户属性的附加步骤,其中步骤(e)中的所述属性数据至少包括所述用户属性的一个值。
7.权利要求6的方法,还包括响应在数据仓库中存储附加的属性自动改进所述处理步骤的附加步骤。
8.权利要求1的方法,其中步骤(e)包括把所述属性数据存储为至少一个实质上原始的声学特征。
9.权利要求1的方法,其中步骤(d)包括至少提取MEL逆谱,其中还包括基于所述MEL逆谱识别用户的语音、翻译所述语音以及从词选择和词汇集中之一检查所述语音以确定用户的教育水平、用户的社会经济类别及用户的方言中的至少一个附加步骤。
10.一种用于把话音系统响应加工成从声学上确定的话音系统用户的状态的方法,所述方法包括步骤:
(a)通过话音系统和该话音系统用户进行会话;
(b)捕获与所述会话期间由该话音系统用户说出的发音相关的语音波形;
(c)数字化所述语音波形以提供数字化语音波形;
(d)从所述数字化语音波形中提取至少一个和至少一个用户属性相关的声学特征,所述至少一个用户属性包括下述中的至少一个:
(d-1)用户的性别;
(d-2)用户的年龄;
(d-3)用户的口音;
(d-4)用户的母语;
(d-5)用户的方言;
(d-6)用户的社会经济类别;
(d-7)用户的教育水平;以及
(d-8)用户的情绪状态;以及
(e)根据所述至少一个用户属性修改该话音系统的行为。
11.权利要求10的方法,其中步骤(e)中的所述修改至少包括下述之一:
实时改变话音系统的商用逻辑;以及
和不带有所述修改的话音系统的期待响应相对比,实时地修改话音系统响应。
12.权利要求10的方法,其中步骤(d)包括提取基频、基频中的偏差、平均运行音调、运行音调方差、音调跳动、运行能量方差、语音速率以及摆振中的至少一个,以作为和用户的情绪状态相关的至少一个情绪状态的特征。
13.权利要求12的方法,还包括归一化所述至少一个情绪状态特征的附加步骤。
14.权利要求10的方法,其中步骤(d)包括至少提取MEL逆谱,其中还包括基于所述MEL逆谱识别用户的语音、翻译所述语音以及从词选择和词汇集中之一检查所述语音以确定用户的教育水平、用户的社会经济类别及用户的方言中的至少一个附加步骤。
15.权利要求12的方法,还包括检查所述至少一个情绪状态特征以判定该用户是否处于快活情绪状态的附加步骤;
其中步骤(e)包括响应于所述快活情绪状态向该用户至少提出一种产品和一种服务中的至少一种。
16.权利要求15的方法,还包括下述附加步骤:
确定至少一个和情绪状态不同的用户属性;以及
响应于所述至少一个和情绪状态不同的用户属性而修改所述一种产品和一种服务中的至少一种。
17.权利要求12的方法,还包括检查所述至少一个情绪状态特征以判定该用户是否处于快活情绪状态的附加步骤;
其中步骤(e)包括响应所述快活情绪状态至少对该用户进行营销研究。
18.权利要求17的方法,还包括下述附加步骤:
确定至少一个不同于情绪状态的用户属性;以及
响应于所述至少一个不同于情绪状态的用户属性而修改所述市场研究。
19.权利要求12的方法,其中所述话音系统实质上是自动交互话音响应(IVR)系统,该方法还包括检查所述至少一个情绪状态特征以判定用户是否处于厌恶、轻视、害怕和生气的情绪状态中的至少一种状态下的附加步骤;
其中步骤(e)包括响应于所述厌恶、轻视、害怕和生气情绪状态中的至少一种状态至少把所述用户从所述IVR转到话务员上。
20.权利要求12的方法,其中所述话音系统是混合式交互话音响应(IVR)系统,该方法还包括检查所述至少一个情绪状态特征以判定用户是否处于厌恶、轻视、害怕和生气情绪状态中的至少一种状态下的附加步骤;
其中步骤(e)包括响应于所述厌恶、轻视、害怕和生气情绪状态中的至少一种状态至少把所述用户从低层话务员转到高层管理人员。
21.权利要求12的方法,其中所述话音系统实质上是自动交互话音响应(IVR)系统,该方法还包括检查所述至少一个情绪状态特征以判定用户是否处于迷惑情绪状态下的附加步骤;
其中步骤(e)包括响应于所述迷惑情绪状态把所述用户从所述IVR转到话务员。
22.权利要求10的方法,还包括附加步骤:
(f)在数据仓库中以利于随后对其进行数据开采的形式存储和所述声学特征对应的属性数据以及至少一个标识标记,其中所述声学特征和所述至少一个用户属性相关。
23.一种用于收集和用户的话音相关的数据的设备,所述设备包括:
(a)一个和用户进行会话的对话管理单元;
(b)一个和所述对话管理单元连接并捕获与会话期间由该用户说出的发音相关的语音波形的声频捕获模块。
(c)一个声学前端,其和所述声频捕获模块连接并配置成:
接收并数字化语音波形以提供数字化语音波形;以及
从数字化语音波形中提取至少一个和至少一个用户属性相关的声学特征,所述至少一个用户属性包括下述中的至少一个:
(c-1)用户的性别;
(c-2)用户的年龄;
(c-3)用户的口音;
(c-4)用户的母语;
(c-5)用户的方言;
(c-6)用户的社会经济类别;
(c-7)用户的教育水平;以及
(c-8)用户的情绪状态;
(d)一个和所述声学前端连接并分析所述至少一个声学特征以确定所述至少一个用户属性的处理模块;以及
(e)一个和所述处理模块连接并以利于随后对其进行数据开采的形式存储所述至少一个用户属性以及至少一个标识标记的数据仓库。
24.权利要求23的设备,其中所述声频捕获模块由模数转换器板、交互话音响应(IVR)系统和麦克风中之一构成。
25.权利要求23的设备,其中所述对话管理单元由电话交互话音响应(IVR)系统构成。
26.权利要求25的设备,其中所述处理模块由所述IVR的处理器部分构成。
27.权利要求23的设备,其中所述处理模块由带有适当软件的独立通用计算机构成。
28.权利要求23的设备,其中所述处理模块由专用电路构成。
29.权利要求23的设备,其中所述处理模块包括至少一个情绪状态分类器。
30.权利要求29的设备,其中所述处理模块还包括至少:
一个说话人聚类器及分类器;
一个语音识别器;以及
一个口音识别器。
31.权利要求30的设备,还包括一个和所述数据仓库连接并配置成译出用户的发音和在其上进行关键词确定的后处理器。
32.一种用于和用户交互的可实时修改的话音系统,所述系统包括:
(a)一个和用户进行会话的对话管理单元;
(b)一个和所述对话管理单元连接并捕获与会话期间由该用户说出的发音相关的语音波形的声频捕获模块。
(c)一个声学前端,其和所述声频捕获模块连接并配置成:
接收并数字化语音波形以提供数字化语音波形;以及
从数字化语音波形提取至少一个和至少一个用户属性相关的声学特征,所述至少一个用户属性包括下述中的至少一个:
(c-1)用户的性别;
(c-2)用户的年龄;
(c-3)用户的口音;
(c-4)用户的母语;
(c-5)用户的方言;
(c-6)用户的社会经济类别;
(c-7)用户的教育水平;以及
(c-8)用户的情绪状态;以及
(d)一个和所述声学前端连接并分析所述至少一个声学特征以确定所述至少一个用户属性的处理模块;
其中所述处理模块根据所述至少一个用户属性修改该话音系统的行为。
33.权利要求32的系统,其中所述处理模块通过提示话务员至少部分地修改该话音系统的行为。
34.权利要求32的系统,其中所述处理模块由交互话音响应(IVR)系统的处理器部分构成,并且其中所述处理器模块通过修改IVR的商用逻辑至少部分地修改该话音系统的行为。
35.权利要求32的系统,其中所述声频捕获模块由模数转换器板、交互话音响应(IVR)系统和麦克风中之一构成。
36.权利要求32的系统,其中所述对话管理单元由电话交互话音响应(IVR)系统构成。
37.权利要求36的系统,其中所述处理模块由所述IVR的处理器部分构成。
38.权利要求32的系统,其中所述处理模块由带有适当软件的独立通用计算机构成。
39.权利要求32的系统,其中所述处理模块由专用电路构成。
40.权利要求32的系统,其中所述处理模块包括至少一个情绪状态分类器。
41.权利要求40的系统,其中所述处理模块至少还包括:
一个说话人聚类器及分类器,
一个语音识别器;以及
一个口音识别器。
42.权利要求41的系统,还包括一个和所述数据仓库连接并配置成译出用户的发音和在其上进行关键词确定的后处理器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/371,400 US6665644B1 (en) | 1999-08-10 | 1999-08-10 | Conversational data mining |
US09/371,400 | 1999-08-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1283843A CN1283843A (zh) | 2001-02-14 |
CN1157710C true CN1157710C (zh) | 2004-07-14 |
Family
ID=23463836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB001227025A Expired - Lifetime CN1157710C (zh) | 1999-08-10 | 2000-08-08 | 会话数据开采 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6665644B1 (zh) |
EP (1) | EP1076329B1 (zh) |
CN (1) | CN1157710C (zh) |
AT (1) | ATE341071T1 (zh) |
CA (1) | CA2311439C (zh) |
DE (1) | DE60030920T2 (zh) |
Families Citing this family (262)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6191585B1 (en) * | 1996-05-03 | 2001-02-20 | Digital Control, Inc. | Tracking the positional relationship between a boring tool and one or more buried lines using a composite magnetic signal |
JP3842497B2 (ja) * | 1999-10-22 | 2006-11-08 | アルパイン株式会社 | 音声処理装置 |
US7107218B1 (en) * | 1999-10-29 | 2006-09-12 | British Telecommunications Public Limited Company | Method and apparatus for processing queries |
GB9926134D0 (en) * | 1999-11-05 | 2000-01-12 | Ibm | Interactive voice response system |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7899180B2 (en) | 2000-01-13 | 2011-03-01 | Verint Systems Inc. | System and method for analysing communications streams |
GB0000735D0 (en) | 2000-01-13 | 2000-03-08 | Eyretel Ltd | System and method for analysing communication streams |
US6871140B1 (en) * | 2000-02-25 | 2005-03-22 | Costar Group, Inc. | System and method for collection, distribution, and use of information in connection with commercial real estate |
WO2003050799A1 (en) * | 2001-12-12 | 2003-06-19 | International Business Machines Corporation | Method and system for non-intrusive speaker verification using behavior models |
US7917366B1 (en) * | 2000-03-24 | 2011-03-29 | Exaudios Technologies | System and method for determining a personal SHG profile by voice analysis |
US7096185B2 (en) * | 2000-03-31 | 2006-08-22 | United Video Properties, Inc. | User speech interfaces for interactive media guidance applications |
US6424935B1 (en) * | 2000-07-31 | 2002-07-23 | Micron Technology, Inc. | Two-way speech recognition and dialect system |
US7664673B1 (en) * | 2000-09-18 | 2010-02-16 | Aol Llc | Smart transfer |
US7325190B1 (en) | 2000-10-02 | 2008-01-29 | Boehmer Tiffany D | Interface system and method of building rules and constraints for a resource scheduling system |
US20090132316A1 (en) * | 2000-10-23 | 2009-05-21 | Costar Group, Inc. | System and method for associating aerial images, map features, and information |
US6728679B1 (en) * | 2000-10-30 | 2004-04-27 | Koninklijke Philips Electronics N.V. | Self-updating user interface/entertainment device that simulates personal interaction |
US6937986B2 (en) * | 2000-12-28 | 2005-08-30 | Comverse, Inc. | Automatic dynamic speech recognition vocabulary based on external sources of information |
US6964023B2 (en) * | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
GB0103381D0 (en) | 2001-02-12 | 2001-03-28 | Eyretel Ltd | Packet data recording method and system |
US8180643B1 (en) * | 2001-02-15 | 2012-05-15 | West Corporation | Script compliance using speech recognition and compilation and transmission of voice and text records to clients |
US7174297B2 (en) * | 2001-03-09 | 2007-02-06 | Bevocal, Inc. | System, method and computer program product for a dynamically configurable voice portal |
EP1246164A1 (en) * | 2001-03-30 | 2002-10-02 | Sony France S.A. | Sound characterisation and/or identification based on prosodic listening |
US8015042B2 (en) | 2001-04-02 | 2011-09-06 | Verint Americas Inc. | Methods for long-range contact center staff planning utilizing discrete event simulation |
US6952732B2 (en) | 2001-04-30 | 2005-10-04 | Blue Pumpkin Software, Inc. | Method and apparatus for multi-contact scheduling |
US6959405B2 (en) | 2001-04-18 | 2005-10-25 | Blue Pumpkin Software, Inc. | Method and system for concurrent error identification in resource scheduling |
JP2002366166A (ja) * | 2001-06-11 | 2002-12-20 | Pioneer Electronic Corp | コンテンツ提供システム及び方法、並びにそのためのコンピュータプログラム |
EP1280137B1 (en) * | 2001-07-24 | 2004-12-29 | Sony International (Europe) GmbH | Method for speaker identification |
DE60108373T2 (de) * | 2001-08-02 | 2005-12-22 | Sony International (Europe) Gmbh | Verfahren zur Detektion von Emotionen in Sprachsignalen unter Verwendung von Sprecheridentifikation |
GB2388739B (en) * | 2001-11-03 | 2004-06-02 | Dremedia Ltd | Time ordered indexing of an information stream |
GB2388738B (en) * | 2001-11-03 | 2004-06-02 | Dremedia Ltd | Time ordered indexing of audio data |
DE10154423A1 (de) * | 2001-11-06 | 2003-05-15 | Deutsche Telekom Ag | Verfahren für einen sprachgesteuerten Zugang zu einem Informationssystem und sprachgesteuerte Benutzerschnittstelle |
US7054817B2 (en) * | 2002-01-25 | 2006-05-30 | Canon Europa N.V. | User interface for speech model generation and testing |
US7219138B2 (en) | 2002-01-31 | 2007-05-15 | Witness Systems, Inc. | Method, apparatus, and system for capturing data exchanged between a server and a user |
US7882212B1 (en) * | 2002-01-28 | 2011-02-01 | Verint Systems Inc. | Methods and devices for archiving recorded interactions and retrieving stored recorded interactions |
US7149788B1 (en) | 2002-01-28 | 2006-12-12 | Witness Systems, Inc. | Method and system for providing access to captured multimedia data from a multimedia player |
US9008300B2 (en) | 2002-01-28 | 2015-04-14 | Verint Americas Inc | Complex recording trigger |
US7424715B1 (en) | 2002-01-28 | 2008-09-09 | Verint Americas Inc. | Method and system for presenting events associated with recorded data exchanged between a server and a user |
DE10220521B4 (de) * | 2002-05-08 | 2005-11-24 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen |
US7277913B2 (en) * | 2002-05-09 | 2007-10-02 | Sun Microsystems, Inc. | Persistent queuing for distributed file systems |
US7092972B2 (en) * | 2002-05-09 | 2006-08-15 | Sun Microsystems, Inc. | Delta transfers in distributed file systems |
US20030212763A1 (en) * | 2002-05-09 | 2003-11-13 | Ravi Kashyap | Distributed configuration-managed file synchronization systems |
US20070061413A1 (en) * | 2005-09-15 | 2007-03-15 | Larsen Eric J | System and method for obtaining user information from voices |
US20070260517A1 (en) * | 2006-05-08 | 2007-11-08 | Gary Zalewski | Profile detection |
US20070261077A1 (en) * | 2006-05-08 | 2007-11-08 | Gary Zalewski | Using audio/visual environment to select ads on game platform |
GB0219493D0 (en) | 2002-08-21 | 2002-10-02 | Eyretel Plc | Method and system for communications monitoring |
US20040073425A1 (en) * | 2002-10-11 | 2004-04-15 | Das Sharmistha Sarkar | Arrangement for real-time automatic recognition of accented speech |
US8959019B2 (en) | 2002-10-31 | 2015-02-17 | Promptu Systems Corporation | Efficient empirical determination, computation, and use of acoustic confusability measures |
US20040107097A1 (en) * | 2002-12-02 | 2004-06-03 | General Motors Corporation | Method and system for voice recognition through dialect identification |
US7389228B2 (en) | 2002-12-16 | 2008-06-17 | International Business Machines Corporation | Speaker adaptation of vocabulary for speech recognition |
US7634478B2 (en) * | 2003-12-02 | 2009-12-15 | Microsoft Corporation | Metadata driven intelligent data navigation |
US7313561B2 (en) | 2003-03-12 | 2007-12-25 | Microsoft Corporation | Model definition schema |
US7275024B2 (en) * | 2003-03-12 | 2007-09-25 | Microsoft Corporation | Automatic generation of a dimensional model for business analytics from an object model for online transaction processing |
US7546226B1 (en) * | 2003-03-12 | 2009-06-09 | Microsoft Corporation | Architecture for automating analytical view of business applications |
US20050010415A1 (en) * | 2003-05-24 | 2005-01-13 | Hagen David A. | Artificial intelligence dialogue processor |
US7340398B2 (en) * | 2003-08-21 | 2008-03-04 | Hewlett-Packard Development Company, L.P. | Selective sampling for sound signal classification |
US8447027B2 (en) | 2004-01-30 | 2013-05-21 | Hewlett-Packard Development Company, L.P. | System and method for language variation guided operator selection |
US7349527B2 (en) | 2004-01-30 | 2008-03-25 | Hewlett-Packard Development Company, L.P. | System and method for extracting demographic information |
US7899698B2 (en) * | 2004-03-19 | 2011-03-01 | Accenture Global Services Limited | Real-time sales support and learning tool |
US7022907B2 (en) * | 2004-03-25 | 2006-04-04 | Microsoft Corporation | Automatic music mood detection |
US8086462B1 (en) * | 2004-09-09 | 2011-12-27 | At&T Intellectual Property Ii, L.P. | Automatic detection, summarization and reporting of business intelligence highlights from automated dialog systems |
DE102004056164A1 (de) * | 2004-11-18 | 2006-05-24 | Deutsche Telekom Ag | Verfahren zur Dialogsteuerung und danach arbeitendes Dialogsystem |
US7562117B2 (en) | 2005-09-09 | 2009-07-14 | Outland Research, Llc | System, method and computer program product for collaborative broadcast media |
US20070189544A1 (en) | 2005-01-15 | 2007-08-16 | Outland Research, Llc | Ambient sound responsive media player |
US20060184800A1 (en) * | 2005-02-16 | 2006-08-17 | Outland Research, Llc | Method and apparatus for using age and/or gender recognition techniques to customize a user interface |
KR100678212B1 (ko) * | 2005-03-11 | 2007-02-02 | 삼성전자주식회사 | 휴대단말기의 감정정보 제어방법 |
US7995717B2 (en) * | 2005-05-18 | 2011-08-09 | Mattersight Corporation | Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto |
US8094790B2 (en) | 2005-05-18 | 2012-01-10 | Mattersight Corporation | Method and software for training a customer service representative by analysis of a telephonic interaction between a customer and a contact center |
US8094803B2 (en) | 2005-05-18 | 2012-01-10 | Mattersight Corporation | Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto |
US7912720B1 (en) * | 2005-07-20 | 2011-03-22 | At&T Intellectual Property Ii, L.P. | System and method for building emotional machines |
WO2007017853A1 (en) * | 2005-08-08 | 2007-02-15 | Nice Systems Ltd. | Apparatus and methods for the detection of emotions in audio interactions |
US20070038633A1 (en) * | 2005-08-10 | 2007-02-15 | International Business Machines Corporation | Method and system for executing procedures in mixed-initiative mode |
US20140125455A1 (en) * | 2005-09-01 | 2014-05-08 | Memphis Technologies, Inc. | Systems and algorithms for classification of user based on their personal features |
US8122259B2 (en) * | 2005-09-01 | 2012-02-21 | Bricom Technologies Ltd | Systems and algorithms for stateless biometric recognition |
US8645985B2 (en) | 2005-09-15 | 2014-02-04 | Sony Computer Entertainment Inc. | System and method for detecting user attention |
US8616973B2 (en) * | 2005-09-15 | 2013-12-31 | Sony Computer Entertainment Inc. | System and method for control by audible device |
US7917148B2 (en) | 2005-09-23 | 2011-03-29 | Outland Research, Llc | Social musical media rating system and method for localized establishments |
US8176101B2 (en) | 2006-02-07 | 2012-05-08 | Google Inc. | Collaborative rejection of media for physical establishments |
US20070121873A1 (en) * | 2005-11-18 | 2007-05-31 | Medlin Jennifer P | Methods, systems, and products for managing communications |
DE602005015984D1 (de) * | 2005-11-25 | 2009-09-24 | Swisscom Ag | Verfahren zur Personalisierung eines Dienstes |
US7396990B2 (en) | 2005-12-09 | 2008-07-08 | Microsoft Corporation | Automatic music mood detection |
US7773731B2 (en) * | 2005-12-14 | 2010-08-10 | At&T Intellectual Property I, L. P. | Methods, systems, and products for dynamically-changing IVR architectures |
US7577664B2 (en) * | 2005-12-16 | 2009-08-18 | At&T Intellectual Property I, L.P. | Methods, systems, and products for searching interactive menu prompting system architectures |
US7552098B1 (en) | 2005-12-30 | 2009-06-23 | At&T Corporation | Methods to distribute multi-class classification learning on several processors |
US20070158128A1 (en) * | 2006-01-11 | 2007-07-12 | International Business Machines Corporation | Controlling driver behavior and motor vehicle restriction control |
US7853006B1 (en) | 2006-02-22 | 2010-12-14 | Verint Americas Inc. | Systems and methods for scheduling call center agents using quality data and correlation-based discovery |
US7864946B1 (en) | 2006-02-22 | 2011-01-04 | Verint Americas Inc. | Systems and methods for scheduling call center agents using quality data and correlation-based discovery |
US8112306B2 (en) | 2006-02-22 | 2012-02-07 | Verint Americas, Inc. | System and method for facilitating triggers and workflows in workforce optimization |
US8112298B2 (en) | 2006-02-22 | 2012-02-07 | Verint Americas, Inc. | Systems and methods for workforce optimization |
US8160233B2 (en) | 2006-02-22 | 2012-04-17 | Verint Americas Inc. | System and method for detecting and displaying business transactions |
US8108237B2 (en) | 2006-02-22 | 2012-01-31 | Verint Americas, Inc. | Systems for integrating contact center monitoring, training and scheduling |
US9129290B2 (en) * | 2006-02-22 | 2015-09-08 | 24/7 Customer, Inc. | Apparatus and method for predicting customer behavior |
US8117064B2 (en) | 2006-02-22 | 2012-02-14 | Verint Americas, Inc. | Systems and methods for workforce optimization and analytics |
US8670552B2 (en) | 2006-02-22 | 2014-03-11 | Verint Systems, Inc. | System and method for integrated display of multiple types of call agent data |
US7599861B2 (en) | 2006-03-02 | 2009-10-06 | Convergys Customer Management Group, Inc. | System and method for closed loop decisionmaking in an automated care system |
US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
US7961856B2 (en) * | 2006-03-17 | 2011-06-14 | At&T Intellectual Property I, L. P. | Methods, systems, and products for processing responses in prompting systems |
US8050392B2 (en) * | 2006-03-17 | 2011-11-01 | At&T Intellectual Property I, L.P. | Methods systems, and products for processing responses in prompting systems |
JP4745094B2 (ja) * | 2006-03-20 | 2011-08-10 | 富士通株式会社 | クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム |
US7734783B1 (en) | 2006-03-21 | 2010-06-08 | Verint Americas Inc. | Systems and methods for determining allocations for distributed multi-site contact centers |
US8126134B1 (en) | 2006-03-30 | 2012-02-28 | Verint Americas, Inc. | Systems and methods for scheduling of outbound agents |
US7701972B1 (en) | 2006-03-31 | 2010-04-20 | Verint Americas Inc. | Internet protocol analyzing |
US7995612B2 (en) | 2006-03-31 | 2011-08-09 | Verint Americas, Inc. | Systems and methods for capturing communication signals [32-bit or 128-bit addresses] |
US7680264B2 (en) | 2006-03-31 | 2010-03-16 | Verint Americas Inc. | Systems and methods for endpoint recording using a conference bridge |
US7774854B1 (en) | 2006-03-31 | 2010-08-10 | Verint Americas Inc. | Systems and methods for protecting information |
US7826608B1 (en) | 2006-03-31 | 2010-11-02 | Verint Americas Inc. | Systems and methods for calculating workforce staffing statistics |
US8204056B2 (en) | 2006-03-31 | 2012-06-19 | Verint Americas, Inc. | Systems and methods for endpoint recording using a media application server |
US8130938B2 (en) | 2006-03-31 | 2012-03-06 | Verint Americas, Inc. | Systems and methods for endpoint recording using recorders |
US7852994B1 (en) | 2006-03-31 | 2010-12-14 | Verint Americas Inc. | Systems and methods for recording audio |
US7672746B1 (en) | 2006-03-31 | 2010-03-02 | Verint Americas Inc. | Systems and methods for automatic scheduling of a workforce |
US8594313B2 (en) | 2006-03-31 | 2013-11-26 | Verint Systems, Inc. | Systems and methods for endpoint recording using phones |
US8442033B2 (en) * | 2006-03-31 | 2013-05-14 | Verint Americas, Inc. | Distributed voice over internet protocol recording |
US7822018B2 (en) | 2006-03-31 | 2010-10-26 | Verint Americas Inc. | Duplicate media stream |
US8254262B1 (en) | 2006-03-31 | 2012-08-28 | Verint Americas, Inc. | Passive recording and load balancing |
US7792278B2 (en) | 2006-03-31 | 2010-09-07 | Verint Americas Inc. | Integration of contact center surveys |
US8000465B2 (en) | 2006-03-31 | 2011-08-16 | Verint Americas, Inc. | Systems and methods for endpoint recording using gateways |
US8155275B1 (en) | 2006-04-03 | 2012-04-10 | Verint Americas, Inc. | Systems and methods for managing alarms from recorders |
US20070255630A1 (en) * | 2006-04-17 | 2007-11-01 | Gary Zalewski | System and method for using user's visual environment to select advertising |
US20070243930A1 (en) * | 2006-04-12 | 2007-10-18 | Gary Zalewski | System and method for using user's audio environment to select advertising |
US20070244751A1 (en) * | 2006-04-17 | 2007-10-18 | Gary Zalewski | Using visual environment to select ads on game platform |
US8331549B2 (en) | 2006-05-01 | 2012-12-11 | Verint Americas Inc. | System and method for integrated workforce and quality management |
US8396732B1 (en) | 2006-05-08 | 2013-03-12 | Verint Americas Inc. | System and method for integrated workforce and analytics |
US7817795B2 (en) | 2006-05-10 | 2010-10-19 | Verint Americas, Inc. | Systems and methods for data synchronization in a customer center |
US20080059177A1 (en) * | 2006-05-19 | 2008-03-06 | Jamey Poirier | Enhancement of simultaneous multi-user real-time speech recognition system |
US7809663B1 (en) | 2006-05-22 | 2010-10-05 | Convergys Cmg Utah, Inc. | System and method for supporting the utilization of machine language |
US8379830B1 (en) | 2006-05-22 | 2013-02-19 | Convergys Customer Management Delaware Llc | System and method for automated customer service with contingent live interaction |
US7660406B2 (en) | 2006-06-27 | 2010-02-09 | Verint Americas Inc. | Systems and methods for integrating outsourcers |
US7660407B2 (en) | 2006-06-27 | 2010-02-09 | Verint Americas Inc. | Systems and methods for scheduling contact center agents |
US7903568B2 (en) | 2006-06-29 | 2011-03-08 | Verint Americas Inc. | Systems and methods for providing recording as a network service |
US7660307B2 (en) | 2006-06-29 | 2010-02-09 | Verint Americas Inc. | Systems and methods for providing recording as a network service |
US7853800B2 (en) | 2006-06-30 | 2010-12-14 | Verint Americas Inc. | Systems and methods for a secure recording environment |
US7769176B2 (en) | 2006-06-30 | 2010-08-03 | Verint Americas Inc. | Systems and methods for a secure recording environment |
US7966397B2 (en) | 2006-06-30 | 2011-06-21 | Verint Americas Inc. | Distributive data capture |
US7881471B2 (en) | 2006-06-30 | 2011-02-01 | Verint Systems Inc. | Systems and methods for recording an encrypted interaction |
US7953621B2 (en) | 2006-06-30 | 2011-05-31 | Verint Americas Inc. | Systems and methods for displaying agent activity exceptions |
US8131578B2 (en) | 2006-06-30 | 2012-03-06 | Verint Americas Inc. | Systems and methods for automatic scheduling of a workforce |
US7848524B2 (en) | 2006-06-30 | 2010-12-07 | Verint Americas Inc. | Systems and methods for a secure recording environment |
US20080010067A1 (en) * | 2006-07-07 | 2008-01-10 | Chaudhari Upendra V | Target specific data filter to speed processing |
JP2008022493A (ja) * | 2006-07-14 | 2008-01-31 | Fujitsu Ltd | 受付支援システムとそのプログラム |
US20080027725A1 (en) * | 2006-07-26 | 2008-01-31 | Microsoft Corporation | Automatic Accent Detection With Limited Manually Labeled Data |
US20080086690A1 (en) * | 2006-09-21 | 2008-04-10 | Ashish Verma | Method and System for Hybrid Call Handling |
US7953750B1 (en) | 2006-09-28 | 2011-05-31 | Verint Americas, Inc. | Systems and methods for storing and searching data in a customer center environment |
US7930314B2 (en) | 2006-09-28 | 2011-04-19 | Verint Americas Inc. | Systems and methods for storing and searching data in a customer center environment |
US7899176B1 (en) | 2006-09-29 | 2011-03-01 | Verint Americas Inc. | Systems and methods for discovering customer center information |
US8837697B2 (en) | 2006-09-29 | 2014-09-16 | Verint Americas Inc. | Call control presence and recording |
US7899178B2 (en) | 2006-09-29 | 2011-03-01 | Verint Americas Inc. | Recording invocation of communication sessions |
US7752043B2 (en) | 2006-09-29 | 2010-07-06 | Verint Americas Inc. | Multi-pass speech analytics |
US8005676B2 (en) | 2006-09-29 | 2011-08-23 | Verint Americas, Inc. | Speech analysis using statistical learning |
US8068602B1 (en) | 2006-09-29 | 2011-11-29 | Verint Americas, Inc. | Systems and methods for recording using virtual machines |
US8199886B2 (en) | 2006-09-29 | 2012-06-12 | Verint Americas, Inc. | Call control recording |
US7991613B2 (en) | 2006-09-29 | 2011-08-02 | Verint Americas Inc. | Analyzing audio components and generating text with integrated additional session information |
US7570755B2 (en) | 2006-09-29 | 2009-08-04 | Verint Americas Inc. | Routine communication sessions for recording |
US7920482B2 (en) | 2006-09-29 | 2011-04-05 | Verint Americas Inc. | Systems and methods for monitoring information corresponding to communication sessions |
US7885813B2 (en) | 2006-09-29 | 2011-02-08 | Verint Systems Inc. | Systems and methods for analyzing communication sessions |
US8645179B2 (en) | 2006-09-29 | 2014-02-04 | Verint Americas Inc. | Systems and methods of partial shift swapping |
US7881216B2 (en) | 2006-09-29 | 2011-02-01 | Verint Systems Inc. | Systems and methods for analyzing communication sessions using fragments |
US7873156B1 (en) | 2006-09-29 | 2011-01-18 | Verint Americas Inc. | Systems and methods for analyzing contact center interactions |
US7965828B2 (en) | 2006-09-29 | 2011-06-21 | Verint Americas Inc. | Call control presence |
US8130925B2 (en) | 2006-12-08 | 2012-03-06 | Verint Americas, Inc. | Systems and methods for recording |
US8280011B2 (en) | 2006-12-08 | 2012-10-02 | Verint Americas, Inc. | Recording in a distributed environment |
US8130926B2 (en) | 2006-12-08 | 2012-03-06 | Verint Americas, Inc. | Systems and methods for recording data |
DE102006055864A1 (de) * | 2006-11-22 | 2008-05-29 | Deutsche Telekom Ag | Verfahren zur Dialoganpassung und Dialogsystem zur Durchführung |
US20100217591A1 (en) * | 2007-01-09 | 2010-08-26 | Avraham Shpigel | Vowel recognition system and method in speech to text applictions |
CN101242452B (zh) | 2007-02-05 | 2013-01-23 | 国际商业机器公司 | 用于自动生成声音文档以及提供声音文档的方法和系统 |
US20110022395A1 (en) * | 2007-02-15 | 2011-01-27 | Noise Free Wireless Inc. | Machine for Emotion Detection (MED) in a communications device |
US20080201158A1 (en) | 2007-02-15 | 2008-08-21 | Johnson Mark D | System and method for visitation management in a controlled-access environment |
US8542802B2 (en) | 2007-02-15 | 2013-09-24 | Global Tel*Link Corporation | System and method for three-way call detection |
US8886537B2 (en) * | 2007-03-20 | 2014-11-11 | Nuance Communications, Inc. | Method and system for text-to-speech synthesis with personalized voice |
EP2045798B1 (en) * | 2007-03-29 | 2014-12-03 | Panasonic Intellectual Property Corporation of America | Keyword extracting device |
US8023639B2 (en) | 2007-03-30 | 2011-09-20 | Mattersight Corporation | Method and system determining the complexity of a telephonic communication received by a contact center |
US8170184B2 (en) | 2007-03-30 | 2012-05-01 | Verint Americas, Inc. | Systems and methods for recording resource association in a recording environment |
US8743730B2 (en) | 2007-03-30 | 2014-06-03 | Verint Americas Inc. | Systems and methods for recording resource association for a communications environment |
US8437465B1 (en) | 2007-03-30 | 2013-05-07 | Verint Americas, Inc. | Systems and methods for capturing communications data |
US9106737B2 (en) | 2007-03-30 | 2015-08-11 | Verint Americas, Inc. | Systems and methods for recording resource association for recording |
US8718262B2 (en) | 2007-03-30 | 2014-05-06 | Mattersight Corporation | Method and system for automatically routing a telephonic communication base on analytic attributes associated with prior telephonic communication |
US7869586B2 (en) | 2007-03-30 | 2011-01-11 | Eloyalty Corporation | Method and system for aggregating and analyzing data relating to a plurality of interactions between a customer and a contact center and generating business process analytics |
US8315901B2 (en) | 2007-05-30 | 2012-11-20 | Verint Systems Inc. | Systems and methods of automatically scheduling a workforce |
US7949526B2 (en) * | 2007-06-04 | 2011-05-24 | Microsoft Corporation | Voice aware demographic personalization |
GB2451907B (en) * | 2007-08-17 | 2010-11-03 | Fluency Voice Technology Ltd | Device for modifying and improving the behaviour of speech recognition systems |
US8312379B2 (en) * | 2007-08-22 | 2012-11-13 | International Business Machines Corporation | Methods, systems, and computer program products for editing using an interface |
US8260619B1 (en) | 2008-08-22 | 2012-09-04 | Convergys Cmg Utah, Inc. | Method and system for creating natural language understanding grammars |
US10419611B2 (en) | 2007-09-28 | 2019-09-17 | Mattersight Corporation | System and methods for determining trends in electronic communications |
WO2009049262A1 (en) * | 2007-10-11 | 2009-04-16 | Honda Motor Co., Ltd. | Text categorization with knowledge transfer from heterogeneous datasets |
FR2923319B1 (fr) * | 2007-11-06 | 2012-11-16 | Alcatel Lucent | Dispositif et procede d'obtention de contextes d'utilisateurs de terminaux de communication, a partir de signaux audio captes dans leur environnement |
US8126723B1 (en) | 2007-12-19 | 2012-02-28 | Convergys Cmg Utah, Inc. | System and method for improving tuning using caller provided satisfaction scores |
CN101241699B (zh) * | 2008-03-14 | 2012-07-18 | 北京交通大学 | 一种远程汉语教学中的说话人确认方法 |
US7475344B1 (en) | 2008-05-04 | 2009-01-06 | International Business Machines Corporation | Genders-usage assistant for composition of electronic documents, emails, or letters |
CA2665014C (en) | 2008-05-23 | 2020-05-26 | Accenture Global Services Gmbh | Recognition processing of a plurality of streaming voice signals for determination of responsive action thereto |
CA2665055C (en) * | 2008-05-23 | 2018-03-06 | Accenture Global Services Gmbh | Treatment processing of a plurality of streaming voice signals for determination of responsive action thereto |
US8401155B1 (en) | 2008-05-23 | 2013-03-19 | Verint Americas, Inc. | Systems and methods for secure recording in a customer center environment |
CA2665009C (en) * | 2008-05-23 | 2018-11-27 | Accenture Global Services Gmbh | System for handling a plurality of streaming voice signals for determination of responsive action thereto |
US8219397B2 (en) * | 2008-06-10 | 2012-07-10 | Nuance Communications, Inc. | Data processing system for autonomously building speech identification and tagging data |
EP2172895A1 (en) * | 2008-10-02 | 2010-04-07 | Vodafone Holding GmbH | Providing information within the scope of a voice communication connection |
CA2685779A1 (en) * | 2008-11-19 | 2010-05-19 | David N. Fernandes | Automated sound segment selection method and system |
US8630726B2 (en) | 2009-02-12 | 2014-01-14 | Value-Added Communications, Inc. | System and method for detecting three-way call circumvention attempts |
US9225838B2 (en) | 2009-02-12 | 2015-12-29 | Value-Added Communications, Inc. | System and method for detecting three-way call circumvention attempts |
US8719016B1 (en) | 2009-04-07 | 2014-05-06 | Verint Americas Inc. | Speech analytics system and system and method for determining structured speech |
US20110044447A1 (en) * | 2009-08-21 | 2011-02-24 | Nexidia Inc. | Trend discovery in audio signals |
US9438741B2 (en) * | 2009-09-30 | 2016-09-06 | Nuance Communications, Inc. | Spoken tags for telecom web platforms in a social network |
US10115065B1 (en) | 2009-10-30 | 2018-10-30 | Verint Americas Inc. | Systems and methods for automatic scheduling of a workforce |
US20110276326A1 (en) * | 2010-05-06 | 2011-11-10 | Motorola, Inc. | Method and system for operational improvements in dispatch console systems in a multi-source environment |
US8417530B1 (en) * | 2010-08-20 | 2013-04-09 | Google Inc. | Accent-influenced search results |
US20120155663A1 (en) * | 2010-12-16 | 2012-06-21 | Nice Systems Ltd. | Fast speaker hunting in lawful interception systems |
US8769009B2 (en) | 2011-02-18 | 2014-07-01 | International Business Machines Corporation | Virtual communication techniques |
JP5250066B2 (ja) * | 2011-03-04 | 2013-07-31 | 東芝テック株式会社 | 情報処理装置およびプログラム |
US8798995B1 (en) | 2011-09-23 | 2014-08-05 | Amazon Technologies, Inc. | Key word determinations from voice data |
US8825533B2 (en) | 2012-02-01 | 2014-09-02 | International Business Machines Corporation | Intelligent dialogue amongst competitive user applications |
CN103377432A (zh) * | 2012-04-16 | 2013-10-30 | 殷程 | 智能客服营销分析系统 |
WO2013184667A1 (en) | 2012-06-05 | 2013-12-12 | Rank Miner, Inc. | System, method and apparatus for voice analytics of recorded audio |
CN102802114B (zh) * | 2012-06-20 | 2015-02-18 | 北京语言大学 | 利用语音进行座席筛选的方法及系统 |
US8914285B2 (en) * | 2012-07-17 | 2014-12-16 | Nice-Systems Ltd | Predicting a sales success probability score from a distance vector between speech of a customer and speech of an organization representative |
US9245428B2 (en) | 2012-08-02 | 2016-01-26 | Immersion Corporation | Systems and methods for haptic remote control gaming |
US9564125B2 (en) * | 2012-11-13 | 2017-02-07 | GM Global Technology Operations LLC | Methods and systems for adapting a speech system based on user characteristics |
US9601111B2 (en) * | 2012-11-13 | 2017-03-21 | GM Global Technology Operations LLC | Methods and systems for adapting speech systems |
US9507755B1 (en) | 2012-11-20 | 2016-11-29 | Micro Strategy Incorporated | Selecting content for presentation |
US9105042B2 (en) | 2013-02-07 | 2015-08-11 | Verizon Patent And Licensing Inc. | Customer sentiment analysis using recorded conversation |
US9734819B2 (en) | 2013-02-21 | 2017-08-15 | Google Technology Holdings LLC | Recognizing accented speech |
US9191510B2 (en) | 2013-03-14 | 2015-11-17 | Mattersight Corporation | Methods and system for analyzing multichannel electronic communication data |
US20150287410A1 (en) * | 2013-03-15 | 2015-10-08 | Google Inc. | Speech and semantic parsing for content selection |
CN103310788B (zh) * | 2013-05-23 | 2016-03-16 | 北京云知声信息技术有限公司 | 一种语音信息识别方法及系统 |
US20140358538A1 (en) * | 2013-05-28 | 2014-12-04 | GM Global Technology Operations LLC | Methods and systems for shaping dialog of speech systems |
US9215510B2 (en) | 2013-12-06 | 2015-12-15 | Rovi Guides, Inc. | Systems and methods for automatically tagging a media asset based on verbal input and playback adjustments |
CN103680518A (zh) * | 2013-12-20 | 2014-03-26 | 上海电机学院 | 基于虚拟仪器技术的语音性别识别方法及系统 |
CN103778917B (zh) * | 2014-01-10 | 2017-01-04 | 厦门快商通信息技术有限公司 | 一种在电话满意度调查中检测身份冒充的系统与方法 |
US9363378B1 (en) | 2014-03-19 | 2016-06-07 | Noble Systems Corporation | Processing stored voice messages to identify non-semantic message characteristics |
EP3210096B1 (en) * | 2014-10-21 | 2019-05-15 | Robert Bosch GmbH | Method and system for automation of response selection and composition in dialog systems |
CN105744090A (zh) | 2014-12-09 | 2016-07-06 | 阿里巴巴集团控股有限公司 | 语音信息处理方法及装置 |
US9722965B2 (en) * | 2015-01-29 | 2017-08-01 | International Business Machines Corporation | Smartphone indicator for conversation nonproductivity |
US9552810B2 (en) | 2015-03-31 | 2017-01-24 | International Business Machines Corporation | Customizable and individualized speech recognition settings interface for users with language accents |
WO2016209888A1 (en) | 2015-06-22 | 2016-12-29 | Rita Singh | Processing speech signals in voice-based profiling |
CN105206269A (zh) * | 2015-08-14 | 2015-12-30 | 百度在线网络技术(北京)有限公司 | 一种语音处理方法和装置 |
US10706873B2 (en) * | 2015-09-18 | 2020-07-07 | Sri International | Real-time speaker state analytics platform |
US10043517B2 (en) | 2015-12-09 | 2018-08-07 | International Business Machines Corporation | Audio-based event interaction analytics |
CN105513597B (zh) * | 2015-12-30 | 2018-07-10 | 百度在线网络技术(北京)有限公司 | 声纹认证处理方法及装置 |
US10572961B2 (en) | 2016-03-15 | 2020-02-25 | Global Tel*Link Corporation | Detection and prevention of inmate to inmate message relay |
US9609121B1 (en) | 2016-04-07 | 2017-03-28 | Global Tel*Link Corporation | System and method for third party monitoring of voice and video calls |
US10915819B2 (en) | 2016-07-01 | 2021-02-09 | International Business Machines Corporation | Automatic real-time identification and presentation of analogies to clarify a concept |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
CN107886955B (zh) * | 2016-09-29 | 2021-10-26 | 百度在线网络技术(北京)有限公司 | 一种语音会话样本的身份识别方法、装置及设备 |
CN106534598A (zh) * | 2016-10-28 | 2017-03-22 | 广东亿迅科技有限公司 | 一种基于情感识别的呼叫平台排队系统及其实现方法 |
US10096319B1 (en) * | 2017-03-13 | 2018-10-09 | Amazon Technologies, Inc. | Voice-based determination of physical and emotional characteristics of users |
US10027797B1 (en) | 2017-05-10 | 2018-07-17 | Global Tel*Link Corporation | Alarm control for inmate call monitoring |
US10225396B2 (en) | 2017-05-18 | 2019-03-05 | Global Tel*Link Corporation | Third party monitoring of a activity within a monitoring platform |
US10860786B2 (en) | 2017-06-01 | 2020-12-08 | Global Tel*Link Corporation | System and method for analyzing and investigating communication data from a controlled environment |
US9930088B1 (en) | 2017-06-22 | 2018-03-27 | Global Tel*Link Corporation | Utilizing VoIP codec negotiation during a controlled environment call |
JP6863179B2 (ja) * | 2017-08-29 | 2021-04-21 | 沖電気工業株式会社 | 顧客の苦情検知機能を備えたコールセンタシステム、コールセンタ装置、対話方法、およびそのプログラム |
CN107919137A (zh) * | 2017-10-25 | 2018-04-17 | 平安普惠企业管理有限公司 | 远程审批方法、装置、设备及可读存储介质 |
US10135977B1 (en) * | 2017-11-24 | 2018-11-20 | Nice Ltd. | Systems and methods for optimization of interactive voice recognition systems |
EP3576084B1 (de) | 2018-05-29 | 2020-09-30 | Christoph Neumann | Effiziente dialoggestaltung |
US20190385711A1 (en) | 2018-06-19 | 2019-12-19 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
JP2021529382A (ja) | 2018-06-19 | 2021-10-28 | エリプシス・ヘルス・インコーポレイテッド | 精神的健康評価のためのシステム及び方法 |
CN109147800A (zh) | 2018-08-30 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 应答方法和装置 |
CN109036436A (zh) * | 2018-09-18 | 2018-12-18 | 广州势必可赢网络科技有限公司 | 一种声纹数据库建立方法、声纹识别方法、装置及系统 |
US11195507B2 (en) * | 2018-10-04 | 2021-12-07 | Rovi Guides, Inc. | Translating between spoken languages with emotion in audio and video media streams |
US10770072B2 (en) | 2018-12-10 | 2020-09-08 | International Business Machines Corporation | Cognitive triggering of human interaction strategies to facilitate collaboration, productivity, and learning |
US11152005B2 (en) * | 2019-09-11 | 2021-10-19 | VIQ Solutions Inc. | Parallel processing framework for voice to text digital media |
CN110648670B (zh) * | 2019-10-22 | 2021-11-26 | 中信银行股份有限公司 | 欺诈识别方法、装置、电子设备及计算机可读存储介质 |
US12086563B1 (en) * | 2020-08-05 | 2024-09-10 | Rachel Lea Ballantyne Draelos | Systems and methods for constructing a narrative of an interaction with a subject |
CN113257225B (zh) * | 2021-05-31 | 2021-11-02 | 之江实验室 | 一种融合词汇及音素发音特征的情感语音合成方法及系统 |
EP4202738A1 (de) * | 2021-12-22 | 2023-06-28 | Deutsche Telekom AG | Nutzeridentifikation anhand einer spracheingabe |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4093821A (en) * | 1977-06-14 | 1978-06-06 | John Decatur Williamson | Speech analyzer for analyzing pitch or frequency perturbations in individual speech pattern to determine the emotional state of the person |
EP0574951B1 (en) * | 1992-06-18 | 2000-04-05 | Seiko Epson Corporation | Speech recognition system |
IL108401A (en) * | 1994-01-21 | 1996-12-05 | Hashavshevet Manufacture 1988 | Method and apparatus for indicating the emotional state of a person |
US6052441A (en) * | 1995-01-11 | 2000-04-18 | Fujitsu Limited | Voice response service apparatus |
US5918222A (en) * | 1995-03-17 | 1999-06-29 | Kabushiki Kaisha Toshiba | Information disclosing apparatus and multi-modal information input/output system |
ES2180819T3 (es) * | 1995-12-04 | 2003-02-16 | Jared C Bernstein | Metodo y aparato para informacion combinada a partir de señales de voz para interaccion adaptable en enseñanza y ensayos. |
US5895447A (en) | 1996-02-02 | 1999-04-20 | International Business Machines Corporation | Speech recognition using thresholded speaker class model selection or model adaptation |
US6026397A (en) * | 1996-05-22 | 2000-02-15 | Electronic Data Systems Corporation | Data analysis system and method |
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
JP2000507021A (ja) * | 1997-01-09 | 2000-06-06 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | モジュール式会話構造に基づくような両面音声の形態における人間―機械会話を実行する方法および装置 |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US6014647A (en) * | 1997-07-08 | 2000-01-11 | Nizzari; Marcia M. | Customer interaction tracking |
US6151601A (en) * | 1997-11-12 | 2000-11-21 | Ncr Corporation | Computer architecture and method for collecting, analyzing and/or transforming internet and/or electronic commerce data for storage into a data storage area |
JP3886024B2 (ja) * | 1997-11-19 | 2007-02-28 | 富士通株式会社 | 音声認識装置及びそれを用いた情報処理装置 |
-
1999
- 1999-08-10 US US09/371,400 patent/US6665644B1/en not_active Expired - Lifetime
-
2000
- 2000-06-13 CA CA002311439A patent/CA2311439C/en not_active Expired - Lifetime
- 2000-07-28 DE DE60030920T patent/DE60030920T2/de not_active Expired - Lifetime
- 2000-07-28 EP EP00306483A patent/EP1076329B1/en not_active Expired - Lifetime
- 2000-07-28 AT AT00306483T patent/ATE341071T1/de not_active IP Right Cessation
- 2000-08-08 CN CNB001227025A patent/CN1157710C/zh not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE60030920D1 (de) | 2006-11-09 |
US6665644B1 (en) | 2003-12-16 |
ATE341071T1 (de) | 2006-10-15 |
EP1076329B1 (en) | 2006-09-27 |
CA2311439C (en) | 2007-05-22 |
DE60030920T2 (de) | 2007-04-05 |
EP1076329A2 (en) | 2001-02-14 |
CN1283843A (zh) | 2001-02-14 |
EP1076329A3 (en) | 2003-10-01 |
CA2311439A1 (en) | 2001-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1157710C (zh) | 会话数据开采 | |
Shaqra et al. | Recognizing emotion from speech based on age and gender using hierarchical models | |
WO2020119630A1 (zh) | 一种多模态客户满意度综合评价系统、方法 | |
Cao et al. | Speaker-sensitive emotion recognition via ranking: Studies on acted and spontaneous speech | |
CN1310207C (zh) | 使用多模式输入进行多模式焦点检测,参考歧义解析和语气分类的系统和方法 | |
US5621857A (en) | Method and system for identifying and recognizing speech | |
Gupta et al. | Two-stream emotion recognition for call center monitoring. | |
CN108877769B (zh) | 识别方言种类的方法和装置 | |
Levitan et al. | Combining Acoustic-Prosodic, Lexical, and Phonotactic Features for Automatic Deception Detection. | |
CN106599110A (zh) | 基于人工智能的语音搜索方法及装置 | |
Lee et al. | On natural language call routing | |
López-Cózar et al. | Enhancement of emotion detection in spoken dialogue systems by combining several information sources | |
Atassi et al. | Analysis of high-level features for vocal emotion recognition | |
Jia et al. | A deep learning system for sentiment analysis of service calls | |
Duduka et al. | A neural network approach to accent classification | |
CN115147067A (zh) | 一种基于深度学习智能招聘人才的方法 | |
Malla et al. | A DFC taxonomy of Speech emotion recognition based on convolutional neural network from speech signal | |
Jauk et al. | Acoustic feature prediction from semantic features for expressive speech using deep neural networks | |
Lee et al. | A study on natural language call routing | |
Gordon et al. | Automated story capture from conversational speech | |
Ehlen et al. | A Meeting Browser that Learns. | |
Varma et al. | Speech emotion recognition using deep learning | |
Zhang et al. | Deep learning based emotion recognition from Chinese speech | |
Hoseini | Persian speech emotion recognition approach based on multilayer perceptron | |
Merkx | Modelling multi-modal language learning: from sentences to words |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term |
Granted publication date: 20040714 |
|
CX01 | Expiry of patent term |