CN103207886A - 用于从对话中提取闲谈部分的闲谈提取系统、方法和程序 - Google Patents
用于从对话中提取闲谈部分的闲谈提取系统、方法和程序 Download PDFInfo
- Publication number
- CN103207886A CN103207886A CN2013100115551A CN201310011555A CN103207886A CN 103207886 A CN103207886 A CN 103207886A CN 2013100115551 A CN2013100115551 A CN 2013100115551A CN 201310011555 A CN201310011555 A CN 201310011555A CN 103207886 A CN103207886 A CN 103207886A
- Authority
- CN
- China
- Prior art keywords
- mentioned
- corpus
- word
- value
- lower limit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种从对话中提取闲谈部分的闲谈提取系统、方法以及程序。该从对话中提取闲谈部分的闲谈提取系统,包含:第一语料库,其包含多个领域的文档;第二语料库,其仅包含对话所属的领域的文档,决定部,其针对第二语料库所包含的各单词,将第一语料库的idf值和第二语料库的idf值分别处于第一规定阈值以下的单词决定为下限对象词;评分计算部,其针对第二语料库所包含的各单词计算tf-idf值作为评分,并且针对下限对象单词使用作为下限的常数来代替tf-idf值;分离部,其从作为对话内容的文本数据中一边偏移规定长度的窗口,一边依次分离处理对象的区间;以及提取部,其提取已分离的区间所包含的单词的评分的平均值大于第二规定阈值的区间作为闲谈部分。
Description
技术领域
本发明涉及用于从对话中提取闲谈部分的技术,更详细而言,涉及改良或应用由tf-idf(term frequency-inverse document frequency:词频-逆向文档频率)代表的特征词检测技术,提取较难作为特定的主题来定义·分类的闲谈部分的闲谈提取系统、方法以及程序。
背景技术
在业务分析中,分析客服中心、营业厅的营业担当者与顾客的电话对话的需求日渐提高。尤其是对闲谈、闲聊这样的与业务、事务无关的部分的分析,而不是某种商品的说明、提问这样的普通的对话部分的分析,引人关注。这是由于考虑到只有这样的闲谈部分才包含顾客的兴趣、家人构成、职业等在业务上可利用的有用信息。因此,重要的是从对话数据提取闲谈部分,并据此制作顾客的资料(profiling)并进行分类,用于下一次营业活动。
此外,存在很多从对话数据、文档数据检测出主题并分类,把包含各种主题的数据按主题进行分段的研究。例如非专利文献1公开了潜在狄利克雷分配法。在这里,潜在狄利克雷分配法是能表现在一个文档中包含多个主题的文档生成过程的概率模型,并且是把文档认为是单词的集合,以单词为单位分割主题的方法。
另外,非专利文献2和专利文献1公开了用于检测伴随时间经过的主题的变化的方法。为此,在非专利文献2中,公开了导入复合主题模型(compound topic model:CTM);另外,专利文献1公开了使用混合分布模型来表现主题的生成模型,并一边激烈地忘掉过去的数据时间,一边在线学习主题的生成模型。
另外,非专利文献3公开了实时取得利用团体(community)表现的新出现主题的主题检测技术。在该主题检测技术中,按照考虑了源的影响力的老化理论把单词(term)的生命周期模型化。
另外,存在专利文献2,作为推定以对话内容为对象的话题的现有技术。专利文献2公开了这样的技术,基于每个话题的单词特征量,把对话文本中多个单词出现的比例较高的话题推定为对话文本的话题,其中,单词特征量是表示特定话题中更多使用哪个名词的尺度。
上述非专利文献1~3和专利文献1这些现有技术的前提在于把主题模型化,或至少数据的部分(单词)由一个以上特定主题构成,并根据某些潜在模型产生该部分(单词)。因此,不言而喻,把闲谈直接模型化是困难的,定义并分类闲谈作为特定主题本身是困难的,因此为了检测闲谈,不能利用上述现有技术。另外,由于该闲谈的性质,也较难利用需要文本原稿和确定了该文本原稿的内容的话题这样的学习数据的专利文献2的技术。
此外,在专利文献3这一现有技术的说明中,作为从文档提取重要词句的技术,介绍了tf-idf模型。根据该说明,在tf-idf模型中,在多个文档中出现的用语重要度较低、相反地,越是出现文档数量少的用语重要度越高这样的思想下,在包含作为对象的文档的语料库之中,按各用语求出包含该用语的文档数,并把其倒数作为语料库内的用语重要度,并把语料库内的用语重要度与作为文档内重要度的tf之积tf-idf作为用语重要度。因此,可考虑在提取闲谈部分中利用tf-idf模型。即,由于闲谈部分可以说是与作为普通对话的业务、事务无关系的部分,期待idf值变高,且可以考虑把tf-idf值作为其提取的指标。此外,idf的一般性定义为:在包含作为对象的文档的语料库中,包含成为对象的用语的文档所占比例的倒数的对数。
在先技术文献:
专利文献
专利文献1:日本特开2005-352613号公报
专利文献2:日本特开2003-323424号公报
专利文献3日本特开2003-50807号公报
非专利文献
非专利文献1:Blei,D.M.,Ng,A.Y.,和Jordan,M.L,″Latent Dirichlet Allocation″,Journal of Machine Learning Research,Vol.3,pp.993-1022,2003.
非专利文献2:Knights D.,Mozer,M.C.,和Nicolov N.,″TopicDrift with Compound Topic Models″,AAAI,242-245,2009.
非专利文献3:Cataldi,M.等,″Emerging Topic Detection on Twitterbased on Temporal and Social Terms Evaluation″,MDMKDD′10,2010.
发明内容
然而,已知的是,可比较高速地处理tf-idf值,另一方面,单词的特异性提取,特别是低频率单词的特异性提取较不稳定。在利用对话的一定区间内的单词的tf-idf的平均值作为闲谈提取指标的情况下,由于累积效果,精度进一步恶化。因此,可以考虑通过利用包含多种主题的、并因此尺寸较大的一般性语料库来代替对象领域的语料库,求出正确的tf-idf值。但是,一般性语料库的利用与判断是否为对象领域特有的主题、或者是否为闲谈这样的目的不相称。例如,对象领域为金融的情况下,“指定价格”这样的用语并不是特别少见的单词,但对一般人来说是特异的单词,所以应该为较小值的idf值变大,不恰当地加上了较大的权重。
另外,也可以考虑利用铺垫(flooring)技术来解决上述精度的问题。即,能通过在对象领域的语料库中把一定程度小的idf值设成极端低的权重来改善精度。但在这里,对于闲谈检测这样的目的,也不能得到预想的效果。原因在于,在简单的铺垫技术的应用中,由于不能识别在对象领域的语料库中以一定程度高频率出现、但是也兼备作为闲谈的特征的单词,对该单词也加上了极端低的权重。
并且,在以往的tf-idf模型中,虽然利用文档内的出现频率(tf)求出文档内的重要度,但在闲谈检测这样的目的中,单词的出现频率并不一定表示重要度。
本发明是鉴于上述现有技术的问题点而做出的,本发明的目的在于,改良或应用由tf-idf代表的特征词检测技术,导出用于提取闲谈部分的新指标,并基于该指标的闲谈部分的提取技术。另外,本发明的目的在于,提供一种能利用不花费计算成本的指标,实现高精度地实施闲谈部分的检测,而无需学习数据的闲谈提取系统、方法、以及程序。
为了解决上述现有技术的问题,本发明提供一种具有以下特征的闲谈提取系统。本发明的闲谈提取系统包含:第一语料库,其包含多个领域的文档;第二语料库,其仅包含上述对话所属的领域的文档,决定部,其针对上述第二语料库所包含的各单词,将第一语料库的idf值和第二语料库的idf值分别在第一规定阈值以下的单词决定为下限对象词;评分计算部,其针对上述第二语料库所包含的各单词计算tf-idf值作为评分,针对上述下限对象单词使用作为下限的常数来代替tf-idf值;分离部,其从作为上述对话内容的文本数据中一边偏移规定长度的窗口,一边依次分离处理对象的区间;以及提取部,其提取已分离的上述区间所包含的单词的上述评分的平均值大于第二规定阈值的区间作为闲谈部分。
优选的是,上述对话是顾客与营业担当者间的对话,上述第二语料库由顾客的说话部分的集合即顾客用语料库、以及营业担当者的说话部分的集合即担当者用语料库构成,上述评分计算部,代替各单词w的TF值,使用上述单词w的上述顾客用语料库的出现频率CF(w)相对于该单词w的上述担当者用语料库的出现频率SF(w)的比例。
更优选的是,利用公式(CF(w)+1)/(CF(w)+SF(w))求出上述比例。
另外,优选的是,上述决定部还针对上述第二语料库所包含的各单词,决定第一语料库的idf值和第二语料库的idf值分别在第三规定阈值以上的单词作为上限对象词,上述评分计算部对上述上限对象单词使用作为上限的常数代替tf-idf值。
另外,也可以是,上述决定部针对上述第二语料库所包含的各单词,决定第一语料库的相互信息量的值和第二语料库的相互信息量的值分别在第四规定阈值以下的单词作为下限对象词,上述评分计算部利用相互信息量代替idf值,并针对上述下限对象单词使用作为下限的常数代替相互信息量。
或者,也可以是,上述决定部针对上述第二语料库所包含的各单词,决定第一语料库的卡方值和第二语料库的卡方值分别在第五规定阈值以下的单词作为下限对象词,上述评分计算部利用卡方值代替idf值,并针对上述下限对象单词使用作为下限的常数代替卡方值。
以上,以闲谈提取系统说明了本发明。但是,本发明也能够作为利用这样的闲谈提取系统,从实施的对话中提取闲谈部分的闲谈提取方法、以及使信息处理装置执行这样的方法的闲谈提取程序来把握。
根据本发明,以不花费计算成本的tf-idf作为闲谈检测的指标的基础,并且准备包含多个领域的文档的一般性语料库、和仅包含分析对象的对话所属领域的文档的对象领域的语料库这两个语料库,并仅在两个语料库的idf值变低的情况下实施铺垫,所以可高精度地实施闲谈部分的检测。并且,相比营业担当者的说话部分,在顾客的说话部分中出现作为闲谈部分可被识别的单词的频率较高这样的考虑之下,如果利用其出现频率比来代替出现频率(tf),则可更高精度地实施闲谈部分的检测。根据各实施方式的记载可了解本发明的其他效果。
附图说明
图1示出适于实现本申请发明的实施方式的闲谈提取系统200的信息处理装置的硬件构成的一例。
图2是本发明实施方式的闲谈提取系统200的功能框图。
图3是示出本发明实施方式的区间分离处理的概念图。
图4是示出计算每个单词的特征量rf-idf的计算处理流程的流程图。
图5是示出本发明实施方式的闲谈部分的检测处理流程的流程图。
图6是示出应用了本发明的闲谈检测的实验结果的图。
具体实施方式
以下,基于附图详细说明用于实施本申请发明的实施方式,以下的实施方式并不限定权利要求书的发明,另外,在发明的解决手段中,实施方式中说明的特征的组合并不一定全部都是必需的。此外,在实施方式说明中相同要素始终附带相同的附图标记。
图1是示出了适于实施本发明的计算机50的硬件构成的一例的图。计算机50包含与总线2连接的主CPU(中央处理装置)1和主存储器4。优选的是,CPU1是基于32位或64位架构的处理器,例如可使用英特尔公司的Core i(商标)系列、Core 2(商标)系列、Atom(商标)系列、Xeon(商标)系列、Pentium(注册商标)系列、Celeron(注册商标)系列、AMD公司的Phenom(商标)系列、Athlon(商标)系列、Turion(商标)系列或Sempron(商标)。
另外,硬盘装置13、30以及CD-ROM(Compact Disc Read OnlyMemory:光盘只读存储器)装置26、29、软盘装置20、MO(MagnetOptical:光磁盘)装置28、DVD(Digital Versatile Disk:数字多功能光盘)装置31这样的可移除存储器(可更换记录介质的外部存储系统)经由软盘控制器19、IDE(Integrated Drive Electronics:电子集成驱动器)控制器25、SCSI(Small Computer System Interface:小型计算机系统接口)控制器27等连接到总线2。软盘、MO、CD-ROM、DVD-ROM这样的存储介质插入到可移除存储器中。
在这些存储介质或硬盘装置13、30、ROM14中能记录与操作系统协作提供命令给CPU1、并用于实施本发明的计算机程序的代码。即,在上面说明的各种存储装置中,能记录安装到计算机50中并使计算机50作为本发明实施方式的后述闲谈提取系统200起作用的闲谈提取程序、以及后述的一般性语料库、对象领域的语料库等数据。
上述闲谈提取程序包含决定模块、评分计算模块、分离模块、以及提取模块。这些模块推动CPU1工作,使计算机50分别作为分别后述的决定部225、评分计算部230、分离部245、以及提取部250起作用。计算机程序也能压缩并分成多个,记录在多个介质中。
计算机50经由键盘/鼠标控制器5,接收来自键盘6、鼠标7这样的输入装置的输入。计算机50经由音频控制器21,接收来自麦克风24的输入,并输出来自扬声器23的声音。计算机50经由图形控制器8与用于向用户显示视觉数据的显示装置11连接。计算机50可经由网络适配器18(以太网(注册商标)卡或令牌环卡)等与网络连接,并与其他计算机等进行通信。
通过以上的说明,容易理解的是,计算机50由通常的个人电脑、工作站、大型机等信息处理装置或它们的组合实现。此外,上面说明的构成要素为例示,并不是所有构成要素都是本发明的必要构成要素。
图2是本发明实施方式的从对话中提取闲谈部分的闲谈提取系统200的功能框图。在该图中,闲谈提取系统200包括第一语料库存储部205、第二语料库存储部210、决定部225、评分计算部230、统计词典存储部235、对话数据存储部240、分离部245、以及提取部250。
第一语料库存储部205存储包含多个领域的文档的一般性语料库。如上所述,若仅利用分析对象即对话所属的对象领域的语料库进行铺垫,那么就连在对象领域的语料库中以一定程度高频率出现但也兼备作为闲谈的特征的单词也加上了极端低的权重。例如,虽然PC关联用语、“喜欢”等评价用语在金融等业务、事务中以高频率出现并在对象领域的语料库中示出低idf值,但对于识别闲谈区间来说是有用的。另一方面,在包含多个领域的文档的、并因此与对象领域的语料库相比具有充分的文档数的一般性语料库中,虽然高频率地出现上述用语,但并不一定示出低idf值。因此,在本申请的发明中,准备一般性语料库,把具有这样特征的用语从铺垫对象排除。该方法的详细内容将与后述的决定部225和评分计算部230关联起来说明。
作为包含多个领域的文档的一般性语料库,优选的是具有充分尺寸并包含多种主题的语料库,例如可利用维基百科(wikipedia)、twitter(推特)等互联网上的信息。此外,利用维基百科的情况下,一个用语的条目页相当于求idf时的“一个文档”。另外,利用twitter的情况下,一条信息相当于求idf时的“一个文档”。
第二语料库存储部210存储对象领域的语料库,其仅包含分析对象的对话所属领域文档。对象领域的语料库可以是利用声音识别或人工把客服中心或营业厅的顾客与营业担当者的对话转换成文本的语料库。而且,第二语料库存储部210以对话为单位,且按每个说话者分开存储对话数据。即,第二语料库存储部210由第一说话者(顾客)的说话部分的集合即顾客用语料库215、和第二说话者(担当者)的说话部分的集合即担当者用语料库220构成。另外,各语料库215、220以对话为单位而不作为单一的数据来保持各自的说话部分的集合。
此外,包含顾客用语料库215和担当者用语料库220这两方的对象领域的语料库中的“一个文档”的意思是由顾客的一连串说话部分和对应的营业担当者的一连串说话部分构成的一个对话。另一方面,顾客用语料库215或担当者用语料库220中的每一个的“一个文档”的意思是仅由顾客的一连串说话部分或营业担当者的一连串说话部分构成的一个对话。
此外,存储在第一语料库存储部205和第二语料库存储部210中的语料库都指由单词列构成的文本数据。由于在日语等一些语言中单词之间没有空格等表示边界的标志,利用词素分析等程序预先分割成单词。而且,声音识别的情况下一般以单词为单位输出结果,所以没有必要提取进行这样的单词提取。另外,虽然语料库也可被赋予词类、修饰关系、以及领域(主题)这样的附加信息,但在这里不需要这样的附加信息。
决定部225针对存储在第二语料库存储部210中的对象领域的语料库所包含的各单词w,决定存储在第一语料库存储部205中的一般性语料库的idf值IDFg(w)、存储在第二语料库存储部210中的对象领域的语料库的idf值IDFt(w)均为规定阈值θ1以下的单词作为铺垫的下限对象词Vshared。如上所述,在对象领域的语料库中以一定程度高频率出现并也兼备作为闲谈的特征的单词在一般性语料库中不一定示出低idf值。因此,在本申请的发明中,不仅是对象领域的语料库,在一般性语料库中,也把idf值在规定阈值以下作为设定铺垫的下限对象词Vshared的条件。由此,回避了过度的铺垫。
此外,利用下列公式求出各语料库的idf值。
[公式1]
在上面的公式中,D表示在各语料库中包含的文档数,DF(w)表示在各语料库内的文档中包含单词w的文档数。
评分计算部230针对存储在第二语料库存储部210中的对象领域的语料库所包含的各单词w,计算tf-idf值作为评分score(w)。但针对由决定部225决定作为下限对象词Vshared的单词,评分计算部230使用作为下限的常数μ来代替tf-idf值。用公式表示针对单词w的评分score(w)如下。
[公式2]
在上面的公式中,D表示在对象领域的语料库中包含的文档数,DF(w)表示在对象领域的语料库内的文档中包含单词w的文档数,CF(w)表示顾客用语料库215内的单词w的单词频率。
更优选的是,评分计算部230使用顾客用语料库215的出现频率CF(w)相对于担当者用语料库220的出现频率SF(w)的比例,即出现频率比RF(w)来代替上面的公式中的tf值(CF(w)),计算新的特征量rf-idf。这基于如下考虑:相比营业担当者的说话部分,在顾客的说话部分中出现作为闲谈部分可被识别的单词的频率较高。该情况下,利用下列公式表示针对单词w的评分score(w)。
[公式3]
在上面的公式中,作为一个例子,可利用下列公式求出出现频率比RF(w)。
[公式4]
此外,当出现频率比RF(w)的值变小的单词间的评分score(w)之差变重要的情况下,也可把上面的公式的左边的值的对数作为出现频率比RF(w)。评分计算部230把算出的每个单词的评分score(w)存储到统计词典存储部235中。
对话数据存储部240以单词为单位划分并存储作为分析对象的对话内容的文本数据。一般来说,声音识别结果以单词为单位划分,所以利用声音识别取得文本数据的情况下没有必要提取单词。另一方面,利用记录取得文本数据的情况下,利用词素分析从文本数据提取单词。词素分析技术是已知的,由于也存在市场上出售的程序,在这里省略说明。
分离部245从对话数据存储部240读出文本数据,一边偏移规定长度的窗口,一边依次分离处理对象的区间。在图3中示出表示区间分离处理的概念图。在图3中,一个个“-”表示说话的单词,上层302表示顾客的一连串说话,下层304表示对应的营业担当者的一连串说话。如图3所示,通过逐个单词地偏移规定长度L(在图3中示出的例子中L=12个单词)的窗口,依次分离处理对象的区间(若假设矩形306为第i个区间,则利用把矩形306偏移了一个单词的矩形308分离第i+1个区间)。
此外,要以准确的位置检测出闲谈区间的话,处理对象的区间短一些较好。但是,在另一方面,若闲谈区间过短,则这一次闲谈的判定结果被偶然地影响的可能性变高。因此,优选的是,窗口的规定长度L为平均说话长度的数倍~10倍左右。
提取部250参照存储在统计词典存储部235中的每个单词的评分score(w),计算出由分离部245分离的区间所包含单词的评分score(w)的平均值,提取计算出的平均值大于规定阈值θ2的区间作为闲谈部分。提取部250的判定公式如下。
[公式5]
在上面的公式中,Si表示分离出的区间所包含的单词列,|Si|表示该单词列所包含的单词数。
此外,使用附带了作为正确的解释信息的“闲谈”标签的少量开发用数据,分别预先设定铺垫的下限对象词Vshared时使用的规定阈值θ1、下限对象词Vshared的评分Score(w)值μ、以及使用于闲谈判定的规定阈值θ2,从而针对该数据,上述的闲谈检测方法的检测结果精度最好。
在这里,作为表示检测结果精度的指标,存在precision、recall、f-measure(F值)这三种。recall是评价检测失败的指标,precision是评价过剩检测的指标,这两个指标为若提高一方则另一方下降的、精度相反的指标。因此,作为考虑了这两个指标的均衡的指标,通常存在由下列公式定义的f-measure。
[公式6]
然而,过剩检测和检测失败这两方都在容许范围内这样的值并不一定是f-measure的最适合值的期望值。因此,优选选择与每个应用的目的相应的精度的指标。例如如果重视检测失败较少,则先设定recall>90%这样的目标,并在满足该目标的范围内设定precision变得最好的阈值θ1、θ2、下限对象词Vshared的评分score(w)值μ。
此外,到这里为止,以tf-idf的值为基础说明了本申请发明的闲谈提取技术。然而,作为闲谈提取的指标的基础,本申请发明的闲谈提取技术也可利用其他特征词检测技术,即相互信息量、卡方值。相互信息量、卡方值是表示类别(特定文档)与单词的依存度的尺度,这些值越大的单词被视为是在类别(特定文档)中特征性的单词。因此,能把这些值作为idf值的替代来利用。
即,决定部225针对存储在第二语料库存储部210中的对象领域的语料库所包含的各单词w,决定存储在第一语料库存储部205中的一般性语料库的相互信息量Ig(U;D)的值、存储在第二语料库存储部210中的对象领域的语料库的相互信息量It(U;D)的值均为规定阈值以下的单词作为铺垫的下限对象词Vshared。另外,评分计算部230利用相互信息量It(U;D)代替idf值,并针对下限对象单词Vshared使用作为下限的常数。
此外,使用表示某单词t的出现的概率变量U和表示某文档d的出现的概率变量D,由下列公式定义相互信息量I(U;D)。在这里,U取1或0这样的值,U=1时表示出现单词t的现象,U=0时表示不出现单词t的现象。同样地,D也取1或0这样的值,D=1时表示文档为d,D=0时表示文档不是d这样的现象。
[公式7]
在上面的公式中,在下标t(term)中代入具体的单词,在下标d(document)中代入具体的文档。
另外,决定部225针对存储在第二语料库存储部210中的对象领域的语料库所包含的各单词w,决定存储在第一语料库存储部205中的一般性语料库的卡方值χ2 g(t;d)的值、存储在第二语料库存储部210中的对象领域的语料库的卡方值χ2 t(t;d)的值均为规定阈值以下的单词作为铺垫的下限对象词Vshared。另外,评分计算部230利用卡方值χ2(t;d)代替idf值,并针对下限对象单词Vshared使用作为下限的常数。
此外,使用实际的文档数Nij、在假定某单词与某文档为独立的情况下期待的文档数Eij,利用下列公式定义卡方值χ2(t;d)。在这里,i(=et)取1或0这样的值,取1时表示出现单词t的现象,取0时表示不出现单词t的现象。同样地,j(=ec)取1或0这样的值,取1时表示文档为d,取0时表示文档不是d这样的现象。
[公式8]
在上面的公式中,在下标t(term)中代入具体的单词,在下标d(document)中代入具体的文档。
即使在利用相互信息量或卡方值的情况下,也使用附带了作为正确的解释信息的“闲谈”标签的少量开发用数据,预先设定各种阈值和作为下限的常数,从而针对该数据,上述的闲谈检测方法的检测结果精度最好。
然后,参照图4和图5,说明本发明实施方式的闲谈部分的检测处理的流程。图4是示出计算每个单词的特征量rf-idf的计算处理流程的流程图。图5是示出闲谈部分的检测处理流程的流程图。
在图4中示出的计算处理从步骤400开始,闲谈提取系统200访问对象领域的语料库210,并针对对象领域的语料库210所包含的各单词wi求出对象领域的语料库210的idf值IDFt(w)、顾客用语料库215的出现频率CF(w)、以及担当者用语料库220的出现频率SF(w)。接着,闲谈提取系统200访问一般语料库205,并针对上述各单词wi求出一般语料库205的idf值IDFg(w)(步骤405)。此外,在步骤400和步骤405中,按照公式1计算idf值。
接着,闲谈提取系统200针对上述各单词wi判定在步骤400求出的IDFt(wi)和在步骤405求出的IDFg(wi)是否均小于规定的阈值θ1(步骤410)。接着,闲谈提取系统200决定判定为IDFt(wi)和IDFg(wi)均小于规定的阈值θ1(步骤410:是)的所有单词wi作为下限对象词VShared,设定固定值μ为下限对象词VShared的单词wi的评分score(wi)(其中wi∈VShared),并将其存储在统计词典存储部235中(步骤415)。
另一方面,针对判定为IDFt(wi)和IDFg(wi)的至少一方为规定阈值θ1以上(步骤410:否)的单词wi,闲谈提取系统200使用在步骤400求出的出现频率CF(w)、SF(w),按照公式4计算出现频率比RF(wi)(步骤420)。接着,针对除了下限对象词VShared的各单词,闲谈提取系统200设定IDFt(wi)与RF(wi)之积为score(wi),并将其存储在统计词典存储部235中(步骤425)。然后,处理结束。
在图5中示出的闲谈部分的检测处理从步骤500开始,闲谈提取系统200设定用来判定是否为闲谈部分的单位长度即区间长度L(单词数),并把1代入区间索引P中(步骤505)。接着,闲谈提取系统200从存储在对话数据存储部240中的文本数据的前端起,依次选择从单词wp至单词wp+L-1的单词列(“窗口”)(步骤510)。接着,针对选择的单词列,闲谈提取系统200参照统计词典存储部235,并计算出选择的单词列中所包含的单词的score(wi)的总和Tscore(步骤515),进而利用下列公式求出移动平均值。
[公式9]
其中,i=m×p,…,p
在上面的公式中,m为移动平均窗口的宽度。
接着,闲谈提取系统200判定计算出的移动平均值是否大于规定的阈值θ(步骤520)。Tscore为规定的阈值θ以下的情况下(步骤520:否),闲谈提取系统200判定为以现在的区间索引P识别的区间不是闲谈部分(步骤530)。另一方面,Tscore大于规定的阈值θ情况下(步骤520:是),闲谈提取系统200判定为以现在的区间索引P识别的区间是闲谈部分(步骤530)。接着,闲谈提取系统200将区间索引P增加1(步骤535),并判断是否可以从存储在对话数据存储部240中的文本数据中选择下一个单词列(步骤540)。可选择的情况下(步骤540:是),处理返回到步骤510。另一方面,不能选择的情况下(步骤540:否),处理结束。
实验结果
参照图6说明本发明的实验结果。此外,实验的条件如下。
1.一般性语料库:大约1个月量的twitter
2.对象领域的语料库:金融公司营业厅的电话对话
-大约1000个电话
-利用声音识别转换成文本(没有错误修正)
3.作为基础利用的特征词检测技术:tf-idf
4.比较方法
A.baseline:使用通常的tf-idf作为评分值
B.Shared word flooring(1):针对使用两种语料库求出的下限对象词VShared,把规定的常数μ作为评分值,针对其他单词,使用通常的tf-idf作为评分值
C.(1)+Frequency ratio weighting:在上述方法B的基础之上,把利用出现频率比rf来代替tf值的rf-idf作为评分值使用
在图6的表中示出的数值为分别针对上述precision、recall、f-measure(F值)这3种精度的值,表示值较大精度较好。与通常的把tf-idf作为评分值的方法A相比,应用了本发明的方法B和方法C的任一方法均示出了改善了精度的值。特别是针对F值,引人注目的是,在把新的特征量rf-idf值为评分值的方法C中,可以看出显著的改善。
以上,使用实施方式进行了本发明的说明,但本发明的技术范围不限定于上述实施方式记载的范围内。本领域技术人员可以理解,可对上述实施方式施加各种变更或改良。例如,决定部225还可针对对象领域的语料库所包含的各单词,决定一般性语料库的idf值和对象领域的语料库的idf值均在第三规定阈值以上的单词作为上限对象词。然后,评分计算部230可对上限对象单词使用作为上限的常数来代替tf-idf值。此外,使用附带了“闲谈”标签的少量开发用数据,并预先设定第三规定阈值或作为上限的常数,从而针对该数据,上述闲谈检测方法的检测结果的精度最好。因此,施加了这样的变更或改良的方式当然也包含在本发明的技术性的范围内。
此外,需要留意的是,只要是没有特别明确表示“之前”、“在先”等,并且不是把前面处理的输出使用在后面的处理,就可以以任意顺序实现在权利要求书、说明书、以及附图中示出的装置、系统、程序、以及方法的操作、顺序、步骤以及阶段等各处理的执行顺序。另外,需要留意的是,即使把前面处理的输出在后面的处理使用的情况下,也有可能出现在前面的处理与后面的处理之间插入其他处理的情况,或者即使记载了在前面的处理与后面的处理之间有其他处理,也有可能出现变更为把前面的处理紧挨在后面的处理的前面执行的情况。对于权利要求书、说明书、以及附图中的操作流程,即使为了方便期间使用了“首先,”、“然后,”、“接着,”等进行了说明,但并不意味着必须以该顺序实施。
Claims (10)
1.一种从对话中提取闲谈部分的闲谈提取系统,包含:
第一语料库,其包含多个领域的文档;
第二语料库,其仅包含上述对话所属的领域的文档,
决定部,其针对上述第二语料库所包含的各单词,将第一语料库的idf值和第二语料库的idf值分别处于第一规定阈值以下的单词决定为下限对象词;
评分计算部,其针对上述第二语料库所包含的各单词计算tf-idf值作为评分,并且针对上述下限对象单词使用作为下限的常数来代替tf-idf值;
分离部,其从作为上述对话内容的文本数据中一边偏移规定长度的窗口,一边依次分离处理对象的区间;以及
提取部,其提取已分离的上述区间所包含的单词的上述评分的平均值大于第二规定阈值的区间作为闲谈部分。
2.根据权利要求1所述的闲谈提取系统,其中,
上述对话是顾客与营业担当者间的对话,上述第二语料库由顾客的说话部分的集合即顾客用语料库、以及营业担当者的说话部分的集合即担当者用语料库构成,上述评分计算部,代替各单词w的TF值,使用上述单词w的上述顾客用语料库的出现频率CF(w)相对于该单词w的上述负责人用语料库的出现频率SF(w)的比例。
3.根据权利要求2所述的闲谈提取系统,其中,
利用公式(CF(w)+1)/(CF(w)+SF(w))求出上述比例。
4.根据权利要求1所述的闲谈提取系统,其中,
上述决定部还针对上述第二语料库所包含的各单词,将第一语料库的idf值和第二语料库的idf值分别处于第三规定阈值以上的单词决定为上限对象词,上述评分计算部对上述上限对象单词使用作为上限的常数代替tf-idf值。
5.根据权利要求1所述的闲谈提取系统,其中,
上述决定部针对上述第二语料库所包含的各单词,将第一语料库的相互信息量的值和第二语料库的相互信息量的值分别处于第四规定阈值以下的单词决定为下限对象词,上述评分计算部利用相互信息量代替idf值,并针对上述下限对象单词使用作为下限的常数代替相互信息量。
6.根据权利要求1所述的闲谈提取系统,其中,
上述决定部针对上述第二语料库所包含的各单词,决定第一语料库的卡方值和第二语料库的卡方值分别在第五规定阈值以下的单词作为下限对象词,上述评分计算部利用卡方值代替idf值,并针对上述下限对象单词使用作为下限的常数代替卡方值。
7.一种闲谈提取方法,其利用计算机的运算处理从对话中提取闲谈部分,上述计算机可访问包含多个领域的文档的第一语料库、以及仅包含上述对话所属的领域的文档的第二语料库,
所述闲谈提取方法包含:
决定步骤,上述计算机针对上述第二语料库所包含的各单词,将第一语料库的idf值和第二语料库的idf值分别处于第一规定阈值以下的单词决定为下限对象词;
存储步骤,上述计算机针对上述第二语料库所包含的各单词计算tf-idf值作为评分,并针对上述下限对象单词使用作为下限的常数来代替tf-idf值,计算上述评分并存储在统计词典存储部中;
分离步骤,上述计算机从作为上述对话内容的文本数据中一边偏移规定长度的窗口,一边依次分离处理对象的区间;以及
提取步骤,上述计算机参照存储在上述统计词典存储部中的信息,求出已分离的上述区间所包含的单词的上述评分的平均值,并提取该平均值大于第二规定阈值的区间作为闲谈部分。
8.根据权利要求7所述的闲谈提取方法,其中,
上述对话是顾客与营业担当者间的对话,上述第二语料库由顾客的说话部分的集合即顾客用语料库、以及营业担当者的说话部分的集合即担当者用语料库构成,上述计算机,代替各单词w的TF值,使用上述单词w的上述顾客用语料库的出现频率CF(w)相对于该单词w的上述担当者用语料库的出现频率SF(w)的比例。
9.一种从对话中提取闲谈部分的闲谈提取程序,上述程序使计算机执行如下步骤,其中,该计算机可访问包含多个领域的文档的第一语料库、以及仅包含上述对话所属的领域的文档的第二语料库,所述步骤为:
决定步骤,针对上述第二语料库所包含的各单词,将第一语料库的idf值和第二语料库的idf值分别在第一规定阈值以下的单词决定为下限对象词;
存储步骤,针对上述第二语料库所包含的各单词计算tf-idf值作为评分,并针对上述下限对象单词使用作为下限的常数来代替tf-idf值,计算上述评分并存储在统计词典存储部中;
分离步骤,从作为上述对话内容的文本数据中一边偏移规定长度的窗口,一边依次分离处理对象的区间;以及
提取步骤,参照存储在上述统计词典存储部中的信息,求出已分离的上述区间所包含的单词的上述评分的平均值,并提取该平均值大于第二规定阈值的区间作为闲谈部分。
10.根据权利要求9所述的闲谈提取程序,其中,
上述对话是顾客与营业担当者间的对话,上述第二语料库由顾客的说话部分的集合即顾客用语料库、以及营业担当者的说话部分的集合即担当者用语料库构成,上述计算机,代替各单词w的TF值,使用上述单词w的上述顾客用语料库的出现频率CF(w)相对于该单词w的上述担当者用语料库的出现频率SF(w)的比例。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012-004802 | 2012-01-13 | ||
JP2012004802A JP5775466B2 (ja) | 2012-01-13 | 2012-01-13 | 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103207886A true CN103207886A (zh) | 2013-07-17 |
CN103207886B CN103207886B (zh) | 2016-05-25 |
Family
ID=48693304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310011555.1A Expired - Fee Related CN103207886B (zh) | 2012-01-13 | 2013-01-11 | 用于从对话中提取闲谈部分的闲谈提取系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9002843B2 (zh) |
JP (1) | JP5775466B2 (zh) |
CN (1) | CN103207886B (zh) |
DE (1) | DE102012224488A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391521A (zh) * | 2016-05-17 | 2017-11-24 | 谷歌公司 | 基于消息分类自动扩增消息交换话题 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6107513B2 (ja) * | 2013-07-29 | 2017-04-05 | 富士通株式会社 | 情報処理システム、情報処理方法、および情報処理プログラム |
US9830386B2 (en) * | 2014-12-30 | 2017-11-28 | Facebook, Inc. | Determining trending topics in social media |
CN105653598B (zh) * | 2015-12-22 | 2019-07-09 | 北京奇虎科技有限公司 | 一种关联新闻的确定方法以及装置 |
US10733221B2 (en) * | 2016-03-30 | 2020-08-04 | Microsoft Technology Licensing, Llc | Scalable mining of trending insights from text |
US11490232B2 (en) | 2016-08-01 | 2022-11-01 | Microsoft Technology Licensing, Llc | Location-based conversation identifier |
US10003692B2 (en) | 2016-10-20 | 2018-06-19 | Avaya Inc. | System initiated dialog adjustment |
CN106502990A (zh) * | 2016-10-27 | 2017-03-15 | 广东工业大学 | 一种微博特征项提取方法和改进tf‑idf归一化方法 |
TWI603320B (zh) * | 2016-12-29 | 2017-10-21 | 大仁科技大學 | 全域對話系統 |
US10642889B2 (en) * | 2017-02-20 | 2020-05-05 | Gong I.O Ltd. | Unsupervised automated topic detection, segmentation and labeling of conversations |
CN107885722B (zh) * | 2017-10-31 | 2021-05-25 | 北京奇艺世纪科技有限公司 | 一种关键词抽取方法和装置 |
CN108170666A (zh) * | 2017-11-29 | 2018-06-15 | 同济大学 | 一种基于tf-idf关键词提取的改进方法 |
CN110020421A (zh) * | 2018-01-10 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 通讯软件的会话信息摘要方法及系统、设备和存储介质 |
CN109684465B (zh) * | 2018-12-30 | 2022-12-06 | 广西财经学院 | 基于项集权值比较的模式挖掘和混合扩展的文本检索方法 |
GB201821318D0 (en) | 2018-12-31 | 2019-02-13 | Transversal Ltd | A system and method for identifying newly trending topics in a data stream |
GB201821327D0 (en) | 2018-12-31 | 2019-02-13 | Transversal Ltd | A system and method for discriminating removing boilerplate text in documents comprising structured labelled text elements |
CN110427626B (zh) * | 2019-07-31 | 2022-12-09 | 北京明略软件系统有限公司 | 关键词的提取方法及装置 |
CN111476025B (zh) * | 2020-02-28 | 2021-01-08 | 开普云信息科技股份有限公司 | 一种面向政府领域新词自动发现的实现方法、分析模型及其系统 |
WO2022031134A1 (en) * | 2020-08-07 | 2022-02-10 | Seegene, Inc. | Server for managing chat room, method therefor and computer recordable medium storing computer program for performing such a method |
EP3975181B1 (en) * | 2020-09-29 | 2023-02-22 | Bull Sas | Assessment of the quality of a communication session over a telecommunication network |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080300872A1 (en) * | 2007-05-31 | 2008-12-04 | Microsoft Corporation | Scalable summaries of audio or visual content |
CN101496002A (zh) * | 2005-05-13 | 2009-07-29 | 微软公司 | 利用在线会话的内容选择广告内容和/或其他相关信息以供显示的系统和方法 |
CN101599071A (zh) * | 2009-07-10 | 2009-12-09 | 华中科技大学 | 对话文本主题的自动提取方法 |
US20100290699A1 (en) * | 2009-05-15 | 2010-11-18 | Google Inc. | Landmarks from Digital Photo Collections |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3597697B2 (ja) * | 1998-03-20 | 2004-12-08 | 富士通株式会社 | 文書要約装置およびその方法 |
JP4349480B2 (ja) | 2001-05-30 | 2009-10-21 | ヒューレット・パッカード・カンパニー | 重要句・文抽出方法及び装置 |
JP3956354B2 (ja) | 2002-04-30 | 2007-08-08 | 日本放送協会 | 話題推定装置及び話題推定プログラム |
JP4254623B2 (ja) | 2004-06-09 | 2009-04-15 | 日本電気株式会社 | トピック分析方法及びその装置並びにプログラム |
JP4589910B2 (ja) * | 2006-12-12 | 2010-12-01 | ヤフー株式会社 | 会話記録ブログ化装置 |
US8280886B2 (en) * | 2008-02-13 | 2012-10-02 | Fujitsu Limited | Determining candidate terms related to terms of a query |
US8549016B2 (en) * | 2008-11-14 | 2013-10-01 | Palo Alto Research Center Incorporated | System and method for providing robust topic identification in social indexes |
JP2011070291A (ja) * | 2009-09-24 | 2011-04-07 | Nec Biglobe Ltd | トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム |
JP5405507B2 (ja) * | 2011-02-17 | 2014-02-05 | 日本電信電話株式会社 | 具体主題の有無判定装置、方法、及びプログラム |
CA2832909C (en) * | 2011-06-22 | 2016-12-20 | Rogers Communications Inc. | System and method for matching comment data to text data |
US8650198B2 (en) * | 2011-08-15 | 2014-02-11 | Lockheed Martin Corporation | Systems and methods for facilitating the gathering of open source intelligence |
-
2012
- 2012-01-13 JP JP2012004802A patent/JP5775466B2/ja not_active Expired - Fee Related
- 2012-12-28 DE DE102012224488A patent/DE102012224488A1/de not_active Ceased
-
2013
- 2013-01-11 CN CN201310011555.1A patent/CN103207886B/zh not_active Expired - Fee Related
- 2013-01-14 US US13/740,473 patent/US9002843B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101496002A (zh) * | 2005-05-13 | 2009-07-29 | 微软公司 | 利用在线会话的内容选择广告内容和/或其他相关信息以供显示的系统和方法 |
US20080300872A1 (en) * | 2007-05-31 | 2008-12-04 | Microsoft Corporation | Scalable summaries of audio or visual content |
US20100290699A1 (en) * | 2009-05-15 | 2010-11-18 | Google Inc. | Landmarks from Digital Photo Collections |
CN101599071A (zh) * | 2009-07-10 | 2009-12-09 | 华中科技大学 | 对话文本主题的自动提取方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391521A (zh) * | 2016-05-17 | 2017-11-24 | 谷歌公司 | 基于消息分类自动扩增消息交换话题 |
US10769155B2 (en) | 2016-05-17 | 2020-09-08 | Google Llc | Automatically augmenting message exchange threads based on tone of message |
CN107391521B (zh) * | 2016-05-17 | 2021-02-02 | 谷歌有限责任公司 | 基于消息分类自动扩增消息交换话题 |
US11222030B2 (en) | 2016-05-17 | 2022-01-11 | Google Llc | Automatically augmenting message exchange threads based on tone of message |
US11762865B2 (en) | 2016-05-17 | 2023-09-19 | Google Llc | Automatically augmenting message exchange threads based on tone of message |
US12093270B2 (en) | 2016-05-17 | 2024-09-17 | Google Llc | Automatically augmenting message exchange threads based on tone of message |
Also Published As
Publication number | Publication date |
---|---|
DE102012224488A1 (de) | 2013-07-18 |
CN103207886B (zh) | 2016-05-25 |
JP5775466B2 (ja) | 2015-09-09 |
JP2013145429A (ja) | 2013-07-25 |
US9002843B2 (en) | 2015-04-07 |
US20130185308A1 (en) | 2013-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103207886A (zh) | 用于从对话中提取闲谈部分的闲谈提取系统、方法和程序 | |
CN108269125B (zh) | 评论信息质量评估方法及系统、评论信息处理方法及系统 | |
US20190243850A1 (en) | Perspective data analysis and management | |
EP2378475A1 (en) | Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction | |
US20140195897A1 (en) | Text Summarization | |
Karkali et al. | Efficient online novelty detection in news streams | |
CN101833549B (zh) | 文本分析设备、方法和程序 | |
US20140172415A1 (en) | Apparatus, system, and method of providing sentiment analysis result based on text | |
WO2017107805A1 (zh) | 确定商品对象标题文本的方法及装置 | |
US20130159348A1 (en) | Computer-Implemented Systems and Methods for Taxonomy Development | |
US9633008B1 (en) | Cognitive presentation advisor | |
US9754023B2 (en) | Stochastic document clustering using rare features | |
US9064009B2 (en) | Attribute cloud | |
JP7280705B2 (ja) | 機械学習装置、プログラム及び機械学習方法 | |
Jia et al. | Concise comparative summaries (CCS) of large text corpora with a human experiment | |
Van Balen et al. | Corpus Analysis Tools for Computational Hook Discovery. | |
US10042913B2 (en) | Perspective data analysis and management | |
CN106227720B (zh) | 一种app软件用户评论模式识别方法 | |
AU2024205513A1 (en) | Systems and methods for analysis explainability | |
US9626433B2 (en) | Supporting acquisition of information | |
KR102078541B1 (ko) | 이슈 관심도 기반의 뉴스 가치 평가 장치 및 방법, 이를 기록한 기록매체 | |
Gata et al. | Twitter in analysis of policy sentiments of the omnibus law work creative design | |
He et al. | Developing a workflow approach for mining online social media data | |
US20220114202A1 (en) | Summary generation apparatus, control method, and system | |
CN115392220A (zh) | 一种满意度数值的确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160525 Termination date: 20210111 |
|
CF01 | Termination of patent right due to non-payment of annual fee |