CN103678355B - 文本挖掘方法和文本挖掘装置 - Google Patents
文本挖掘方法和文本挖掘装置 Download PDFInfo
- Publication number
- CN103678355B CN103678355B CN201210335708.3A CN201210335708A CN103678355B CN 103678355 B CN103678355 B CN 103678355B CN 201210335708 A CN201210335708 A CN 201210335708A CN 103678355 B CN103678355 B CN 103678355B
- Authority
- CN
- China
- Prior art keywords
- document
- score value
- word
- value sequence
- text mining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000005065 mining Methods 0.000 title claims abstract description 45
- 238000011524 similarity measure Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 230000006854 communication Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000010415 tropism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Creation or modification of classes or clusters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及文本挖掘方法和文本挖掘装置。文本挖掘方法包括:提取文档中的多个关键词;计算代表每个关键词的特定属性的分值;按照多个关键词在文档中的出现顺序对计算出的分值进行排列,以得到代表文档的分值序列;以及利用分值序列进行与文本挖掘相关联的操作。
Description
技术领域
本发明涉及文本处理领域,具体涉及文本挖掘方法和文本挖掘装置。
背景技术
自从新的媒体产生了越来越多的文本信息(如微博)以来,文本挖掘已成为热门课题。所使用的最流行的语言模型是矢量空间模型。现存的技术主要存在两个问题。第一个问题是数据稀疏。第二个问题是丢失了长距离词语依赖性。
鉴于此,需要一种能够解决上述技术问题的技术方案。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的一个主要目的在于,提供一种文本挖掘方法和文本挖掘装置。
根据本发明的一个方面,提供了一种文本挖掘方法,包括:提取文档中的多个关键词;计算代表每个关键词的特定属性的分值;按照多个关键词在文档中的出现顺序对计算出的分值进行排列,以得到代表文档的分值序列;以及利用分值序列进行与文本挖掘相关联的操作。
根据本发明的另一个方面,提供了一种文本挖掘装置,包括:关键词提取单元,被配置用于提取文档中的多个关键词;分值计算单元,被配置用于计算代表每个关键词的特定属性的分值;分值排列单元,被配置用于按照多个关键词在文档中的出现顺序对计算出的分值进行排列,以得到代表文档的分值序列;以及操作执行单元,被配置用于利用分值序列进行与文本挖掘相关联的操作。
另外,本发明的实施例还提供了用于实现上述方法的计算机程序。
此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1是示出根据本发明的实施例的文本挖掘方法的流程图;
图2是示出根据本发明的实施例的文本挖掘装置的框图;
图3是示出根据本发明的另一个实施例的文本挖掘装置的框图;
图4是示出根据本发明的又一个实施例的文本挖掘装置的框图;以及
图5是示出可以用于实施本发明的文本挖掘方法和文本挖掘装置的计算设备的举例的结构图。
具体实施方式
下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
图1示出了根据本发明的实施例的文本挖掘方法100的流程图。
如图1所示,在步骤S102中,可以提取文档中的多个关键词。对于不同的任务而言,所要提取的关键词可能会有所不同。例如,如果要对文档进行分类,则所要提取的关键词可以是更有含义的词语。如果要对本文进行观点分析,则所要提取的关键词可以是表达情感的词语。
可选地,在如图1所示的方法100中,在提取文档中的多个关键词的步骤S102之前还可以先对文档进行分割。例如,可以利用任意适当的通用分割器对文档进行分割,然后从分割后得到的各个词汇中提取关键词。但是,可以理解到,可以不对文档进行分割,而在步骤S102中直接从文档中提取关键词。
在步骤S104中,可以计算代表每个关键词的特定属性的分值。关于代表特定属性,稍后将描述几种示例。
在步骤S106中,可以按照多个关键词在文档中的出现顺序对计算出的分值进行排列,以得到代表文档的分值序列。例如,如果特定关键词在文档中出现在第一位,则代表该关键词的特定属性的分值在分值序列中被排在第一位。
在步骤S108中,可以利用分值序列进行与文本挖掘相关联的操作。
具体而言,在将文档转换为分值序列之后,可以将分值序列应用于多种任务,例如,在文档分类、聚类以及信息检索等任务。在这些任务中,可能涉及到文档之间相似度计算和倾向性判断。
例如,在文档分类中,可以通过相似度计算确定文档所属的类别。在信息检索中,可以通过计算输入查询和文档的相似度来得到检索结果。
倾向性预测是指根据文档中前n个倾向性已知的词汇(或句子),可以对第n+1个词(或句子)的倾向性进行预测。例如,在将文档转换为分值之后,可以根据前n个分值来预测第n+1个分值所对应的词(或句子)的倾向性。
在需要计算相似度的情况下,可以通过计算分别对应于两个文档的分值序列之间的距离来计算两个文档之间的相似度。以下将描述相似度计算的一个示例。
假设要计算文档TX和文档TY之间的相似度。通过计算分值并按照分值所对应的关键词在文档中出现的顺序对分值进行排序,分别得到代表文档TX的分值序列X{x1,x2,……,xn}、以及代表文档TY的分值序列Y{y1,y2,……,ym}。
例如,可以根据以下公式来计算分值序列X和分值序列Y之间的距离。
D(0,0):=0
其中,i=1,2,……,n,j=1,2,……,m。此外,在上述公式中,以i代表xi,以j代表yj,以0表示相应分值序列在第一个分值之前的空位。
此外,wi表示插入代价,例如,可以取wi=1,wd表示删除代价,可以取wd=1,wr表示替换代价。在传统的方法中,wr可以取1。在根据本发明的一个实施例中,可以根据所比较的两个分值的位置差异以及两个分值的大小差异来计算替换代价wr。位置差异是指,一个分值在其相应序列中的位置与另一个分值在其相应序列中的位置之间的差异。分值的大小差异是指,一个分值的大小与另一个分值的大小之间的差异。位置差异越大,则替换代价wr越大。同理,分值的大小差异越大,则替换代价wr越大。只要符合上述规则,则可以按照任意适当方式来构建替换代价wr的计算公式。
例如,可以采用如下公式:
此外,还可以采用如下公式:
其中,max w表示最大距离。
接下来,通过计算分别对应于两个文档的分值序列之间的距离D(X,Y)来计算所述两个文档之间的相似度。例如,可以采用如下公式:
Sim(TX,TY)=D(X,Y)
以下描述代表每个关键词的特定属性的分值的示例。
假定某一文档为文档群中的一篇文档,则该文档的特定属性例如可以是关键词在该文档群中的统计重要性。可以按照任意适当方式来计算统计重要性,如词频反文档频率(term frequency–inverse document frequency,TF-IDF)、术语度(termhood)、词语倾向性等等。
对于不同的任务而言,计算分值的方法可能会有所不同。以下将以词频反文档频率为例来进行描述。
首先计算逆文档频率,如下:
其中,|D|表示总的文档数。DF(wi)表示文档频率,即,表示词汇wi至少出现了一次的文档的数量。
然后计算词频反文档频率,如下:
TFIDF(wi)=TF(wi)·IDF(wi)
其中,TF(wi)表示词频,即,表示词汇wi在相应文档中出现的次数。IDF(wi)表示逆文档频率,可以通过文档频率来计算得到。TFIDF(wi)表示词频反文档频率。
这样,在该示例性中,统计重要性为词频(TF)与逆向文档频率(IDF)之积。
接下来,用每个关键词的相应TFIDF(wi)代表该词语,按照关键词在文档中出现的先后顺序,排列这些TFIDF(wi),从而将文本转换为以TFIDF(wi)为分值的分值序列。
以下,将以原始文档“XYZ系统是一套以线形时序逻辑为基础的CASE环境系统,其核心是时序逻辑语XYZ。”为例来描述将文档转换为分值序列的过程。
首先,对上述原始文档进行分割,分割结果如下:XYZ/系统/是/一/套/以/线形/时序/逻辑/为/基础/的/CASE/环境/系统/,/其/核心/是/时序/逻辑/语/XYZ/。/
接下来,根据分割结果,提取关键词如下:XYZ/系统/线形/时序/逻辑/基础/CASE/环境/系统/核心/时序/逻辑/语/XYZ/
在上面提取关键词的过程中,仅去除了停用词。换句话说,此处将停用词之外的所有词汇作为关键词。通过之前的描述可以理解到,根据不同的任务,可以提取不同的关键词,而不限于去掉停用词的这种方式。
接下来,用与关键词对应的TF-IDF值表示关键词,如下:XYZ【5.38】系统【880.19】线形【45.40】时序【839.97】逻辑【1604.43】基础【337.56】CASE【82.95】环境【959.11】系统【880.19】核心【405.74】时序【839.97】逻辑【1604.43】语【352.48】XYZ【5.38】。
接下来,按照各个关键词在文档中出现的先后顺序来排列上述分值,得到以下分值序列:{5.38,880.19,45.40,839.97,1604.43,337.56,82.95,959.11,880.19,405.74,839.97,1604.43,352.48,5.38}。
这样,将上述的原始文档转换为分值序列,分值序列中的每个元素为相应关键词的分值。
尽管在该示例中,将TF-IDF值用作表示关键词的特定属性的分值,但是可以理解到,针对不同的任务可以采用不同的分值,例如,还可以采用词频、术语度Termhood、词语倾向性Oi等作为分值。
术语度Termhood(wi)可采用下述公式计算:
DF(wi)表示文档频率,即,有词汇wi出现的文档的数量。f(wi)表示词汇wi在文档群中出现的总频率,即词汇wi出现的总的频率。DF(wj)越小,f(wi)越大,则术语度Termhood(wi)越大。
此外,词语倾向性Oi计算公式如下:
Fi(P)为词语wi在正例集中出现的频率,Fi(N)为词语wi在负例集中出现的频率,Fi为词语wi出现的总频率。
图2是示出根据本发明的实施例的文本挖掘装置200的框图。
如图2所示,文本挖掘装置200可以包括关键词提取单元202、分值计算单元204、分值排列单元206和操作执行单元208。
关键词提取单元202可以提取文档中的多个关键词。
分值计算单元204可以计算代表关键词提取单元202所提取的每个关键词的特定属性的分值。
分值排列单元206可以按照关键词提取单元202所提取的多个关键词在文档中的出现顺序对分值计算单元204计算出的分值进行排列,以得到代表文档的分值序列。
操作执行单元208可以利用分值排列单元206排列出的分值序列进行与文本挖掘相关联的操作。
如上所述,在一些与文本挖掘相关联的操作中,可能涉及到文档之间的相似度的计算。图3示出了适应于这种情况的根据本发明的另一个实施例的文本挖掘装置200’的框图。
图3所示的文本挖掘装置200’与图2所示的文本挖掘装置200的区别在于,操作执行单元208可以包括相似度计算子单元208-2。
相似度计算子单元208-2可以通过计算分别对应于两个文档的分值序列之间的距离来计算两个文档之间的相似度。
例如,在计算分值序列之间的距离时,相似度计算子单元208-2可以根据所比较的两个分值的位置差异以及两个分值的大小差异来计算替换代价。
例如,文档可以是文档群中的一篇文档,特定属性可以是关键词在文档群中的统计重要性。
例如,统计重要性可以是文档频率(TF)与逆向文档频率(IDF)之积。
图4是示出根据本发明的又一个实施例的文本挖掘装置200”的框图。
图4所示的文本挖掘装置200”与图2所示的文本挖掘装置200的区别在于,文本挖掘装置200”可以包括文档分割单元210。
文档分割单元210可以在关键词提取单元202提取文档中的多个关键词之前对文档进行分割。在这种情况下,关键词提取单元202可以基于文档分割单元210的分割来提取关键词。
之前参照附图1描述的内容也适用于文本挖掘装置200、200’和200”,为了清楚起见,在此不再赘述。
本发明的优势之一在于,将文档转换为分值序列,并且分值序列中的各分值是按照词汇在文档中出现的先后顺序排列的。因此,离散的和无序的数据可以变为按照词汇在文档中出现的先后顺序排列的分值序列。通过利用该相互增强策略可以改善文档处理的性能。
根据本发明,提出了一种基于分值序列的新的模型。通过利用关键词的统计重要性来标识和表示关键词。用分值序列表示文档。序列中的每个元素表示词语及其相应分值。基于语言模型的分值序列使得可以计算相互之间没有共同词语的两个文档之间的相似度。因此,保留了词语顺序信息。所提出的技术可以应用于很多领域,如文档分类、聚类和信息检索。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图13所示的通用计算机1300安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图5中,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中,也根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 501、ROM 502和RAM 503经由总线504彼此链路。输入/输出接口505也链路到总线504。
下述部件链路到输入/输出接口505:输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要,驱动器510也可链路到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。
本领域的普通技术人员应理解,在此所例举的是示例性的,本发明并不局限于此。
在本说明书中,“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开,以清楚地描述本发明。因此,不应将其视为具有任何限定性的含义。
作为一个示例,上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合,并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。
作为一个示例,在通过软件或固件实现的情况下,可以从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用,与其他实施方式中的特征相组合,或替代其他实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
本发明及其优点,但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此,所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。
基于以上的说明,可知公开至少公开了以下技术方案:
附记1.一种文本挖掘方法,包括:
提取文档中的多个关键词;
计算代表每个关键词的特定属性的分值;
按照所述多个关键词在所述文档中的出现顺序对计算出的分值进行排列,以得到代表所述文档的分值序列;以及
利用所述分值序列进行与文本挖掘相关联的操作。
附记2.根据附记1所述的方法,还包括:
通过计算分别对应于两个文档的所述分值序列之间的距离来计算所述两个文档之间的相似度。
附记3.根据附记2所述的方法,其中:
在计算所述分值序列之间的距离时,根据所比较的两个分值的位置差异以及所述两个分值的大小差异来计算替换代价。
附记4.根据附记1至3中任一项所述的方法,其中:
所述文档为文档群中的一篇文档,所述特定属性为所述关键词在所述文档群中的统计重要性。
附记5.根据附记4所述的方法,其中:
所述统计重要性为词频与逆向文档频率之积、词频、术语度以及词语倾向性之一。
附记6.根据附记1至5中任一项所述的方法,其中,在所述提取文档中的多个关键词的步骤之前还包括:
对所述文档进行分割。
附记7.一种文本挖掘装置,包括:
关键词提取单元,被配置用于提取文档中的多个关键词;
分值计算单元,被配置用于计算代表每个关键词的特定属性的分值;
分值排列单元,被配置用于按照所述多个关键词在所述文档中的出现顺序对计算出的分值进行排列,以得到代表所述文档的分值序列;以及
操作执行单元,被配置用于利用所述分值序列进行与文本挖掘相关联的操作。
附记8.根据附记7所述的装置,其中,所述操作执行单元包括:
相似度计算子单元,被配置用于通过计算分别对应于两个文档的所述分值序列之间的距离来计算所述两个文档之间的相似度。
附记9.根据附记8所述的装置,其中,所述相似度计算子单元被配置用于在计算所述分值序列之间的距离时,根据所比较的两个分值的位置差异以及所述两个分值的大小差异来计算替换代价。
附记10.根据附记7至9中任一项所述的装置,其中,所述文档为文档群中的一篇文档,所述特定属性为所述关键词在所述文档群中的统计重要性。
附记11.根据附记10所述的装置,其中,所述统计重要性为词频与逆向文档频率之积、词频、术语度以及词语倾向性之一。
附记12.根据附记7至11中任一项所述的装置,还包括:
文档分割单元,被配置用于在所述关键词提取单元提取所述文档中的所述多个关键词之前对所述文档进行分割。
附记13.一种用于实现附记7至12中任一项所述的方法的计算机程序。
附记14.一种计算机可读介质形式的计算机程序产品,其上记录有用于实现附记7至12中任一项所述的方法的计算机程序代码。
Claims (10)
1.一种文本挖掘方法,包括:
提取文档中的多个关键词;
计算代表每个关键词的特定属性的分值;
将所述文档转换为分值序列,其中,按照所述多个关键词在所述文档中出现的先后顺序对计算出的分值进行排列,以得到保留关键词顺序信息的代表所述文档的分值序列;以及
利用所述分值序列进行与文本挖掘相关联的操作。
2.根据权利要求1所述的方法,其中,所述利用所述分值序列进行与文本挖掘相关联的操作的步骤包括:
通过计算分别对应于两个文档的所述分值序列之间的距离来计算所述两个文档之间的相似度。
3.根据权利要求2所述的方法,其中:
在计算所述分值序列之间的距离时,根据所比较的两个分值的位置差异以及所述两个分值的大小差异来计算替换代价。
4.根据权利要求1至3中任一项所述的方法,其中:
所述文档为文档群中的一篇文档,所述特定属性为所述关键词在所述文档群中的统计重要性。
5.根据权利要求4所述的方法,其中:
所述统计重要性为词频与逆向文档频率之积、词频、术语度以及词语倾向性之一。
6.一种文本挖掘装置,包括:
关键词提取单元,被配置用于提取文档中的多个关键词;
分值计算单元,被配置用于计算代表每个关键词的特定属性的分值;
分值排列单元,被配置成将所述文档转换为分值序列,其中,按照所述多个关键词在所述文档中出现的先后顺序对计算出的分值进行排列,以得到保留关键词顺序信息的代表所述文档的分值序列;以及
操作执行单元,被配置用于利用所述分值序列进行与文本挖掘相关联的操作。
7.根据权利要求6所述的装置,其中,所述操作执行单元包括:
相似度计算子单元,被配置用于通过计算分别对应于两个文档的所述分值序列之间的距离来计算所述两个文档之间的相似度。
8.根据权利要求7所述的装置,其中,所述相似度计算子单元被配置用于在计算所述分值序列之间的距离时,根据所比较的两个分值的位置差异以及所述两个分值的大小差异来计算替换代价。
9.根据权利要求6至8中任一项所述的装置,其中,所述文档为文档群中的一篇文档,所述特定属性为所述关键词在所述文档群中的统计重要性。
10.根据权利要求9所述的装置,其中,所述统计重要性为词频与逆向文档频率之积、词频、术语度以及词语倾向性之一。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210335708.3A CN103678355B (zh) | 2012-09-11 | 2012-09-11 | 文本挖掘方法和文本挖掘装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210335708.3A CN103678355B (zh) | 2012-09-11 | 2012-09-11 | 文本挖掘方法和文本挖掘装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103678355A CN103678355A (zh) | 2014-03-26 |
CN103678355B true CN103678355B (zh) | 2017-03-01 |
Family
ID=50315948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210335708.3A Expired - Fee Related CN103678355B (zh) | 2012-09-11 | 2012-09-11 | 文本挖掘方法和文本挖掘装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103678355B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105630769B (zh) * | 2015-12-24 | 2019-04-12 | 东软集团股份有限公司 | 文档主题词提取方法及装置 |
CN109299270B (zh) * | 2018-10-30 | 2021-09-28 | 云南电网有限责任公司信息中心 | 一种基于卷积神经网络的文本数据无监督聚类方法 |
CN110321562B (zh) * | 2019-06-28 | 2023-06-02 | 广州探迹科技有限公司 | 一种基于bert的短文本匹配方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079026A (zh) * | 2007-07-02 | 2007-11-28 | 北京百问百答网络技术有限公司 | 文本相似度、词义相似度计算方法和系统及应用系统 |
CN101196904A (zh) * | 2007-11-09 | 2008-06-11 | 清华大学 | 一种基于词频和多元文法的新闻关键词抽取方法 |
CN102289523A (zh) * | 2011-09-20 | 2011-12-21 | 北京金和软件股份有限公司 | 一种文本智能提取标签的方法 |
CN102622338A (zh) * | 2012-02-24 | 2012-08-01 | 北京工业大学 | 一种短文本间语义距离的计算机辅助计算方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6978275B2 (en) * | 2001-08-31 | 2005-12-20 | Hewlett-Packard Development Company, L.P. | Method and system for mining a document containing dirty text |
-
2012
- 2012-09-11 CN CN201210335708.3A patent/CN103678355B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079026A (zh) * | 2007-07-02 | 2007-11-28 | 北京百问百答网络技术有限公司 | 文本相似度、词义相似度计算方法和系统及应用系统 |
CN101196904A (zh) * | 2007-11-09 | 2008-06-11 | 清华大学 | 一种基于词频和多元文法的新闻关键词抽取方法 |
CN102289523A (zh) * | 2011-09-20 | 2011-12-21 | 北京金和软件股份有限公司 | 一种文本智能提取标签的方法 |
CN102622338A (zh) * | 2012-02-24 | 2012-08-01 | 北京工业大学 | 一种短文本间语义距离的计算机辅助计算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103678355A (zh) | 2014-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khuc et al. | Towards building large-scale distributed systems for twitter sentiment analysis | |
US20110302168A1 (en) | Graphical models for representing text documents for computer analysis | |
CN109726298B (zh) | 适用于科技文献的知识图谱构建方法、系统、终端及介质 | |
CN110555203B (zh) | 文本复述方法、装置、服务器及存储介质 | |
US8732173B2 (en) | Classification hierarchy regeneration system, classification hierarchy regeneration method, and classification hierarchy regeneration program | |
CN109657053B (zh) | 多文本摘要生成方法、装置、服务器及存储介质 | |
CN112541338A (zh) | 相似文本匹配方法、装置、电子设备及计算机存储介质 | |
CN105159998A (zh) | 一种基于文档聚类关键词计算方法 | |
WO2016162879A1 (en) | Text mining system and tool | |
CN112256842B (zh) | 用于文本聚类的方法、电子设备和存储介质 | |
CN102346761A (zh) | 信息处理装置、关连语句提供方法和程序 | |
US9984064B2 (en) | Reduction of memory usage in feature generation | |
CN103678436A (zh) | 信息处理系统和信息处理方法 | |
CA2789052A1 (en) | Methods and systems for investigation of compositions of ontological subjects | |
CN105404619A (zh) | 一种基于相似度的语义Web服务聚类标注方法 | |
CN114357117A (zh) | 事务信息查询方法、装置、计算机设备及存储介质 | |
CN105378717A (zh) | 用于对社交媒体的用户分类的方法、计算机程序和计算机 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
KR102560521B1 (ko) | 지식 그래프 생성 방법 및 장치 | |
CN109766408A (zh) | 综合词位置因素和词频因素的文本关键词权重计算方法 | |
CN103678355B (zh) | 文本挖掘方法和文本挖掘装置 | |
CN111737461B (zh) | 文本的处理方法、装置、电子设备及计算机可读存储介质 | |
US9715514B2 (en) | K-ary tree to binary tree conversion through complete height balanced technique | |
CN112015895B (zh) | 一种专利文本分类方法及装置 | |
CN111339778B (zh) | 文本处理方法、装置、存储介质和处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170301 Termination date: 20180911 |