CN102591976A - 基于句子级别的文本特征提取方法和文档拷贝检测系统 - Google Patents
基于句子级别的文本特征提取方法和文档拷贝检测系统 Download PDFInfo
- Publication number
- CN102591976A CN102591976A CN2012100009187A CN201210000918A CN102591976A CN 102591976 A CN102591976 A CN 102591976A CN 2012100009187 A CN2012100009187 A CN 2012100009187A CN 201210000918 A CN201210000918 A CN 201210000918A CN 102591976 A CN102591976 A CN 102591976A
- Authority
- CN
- China
- Prior art keywords
- sentence
- document
- subsystem
- copy detection
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title description 17
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 239000000284 extract Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000008520 organization Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于拷贝检测技术领域,具体为一种基于句子级别的文本特征提取方法和文档拷贝检测系统。本发明提出的基于句子级别的文本特征提取方法,选取一定数量的具有最低逆向文件频率的常见词汇作为先行词,以抽取改进的Shingle特征,用以表示整个句子;本还提出基于句子级别的文档拷贝检测系统,该系统包括文档读取子系统、断句子系统、特征提取子系统、拷贝检测子系统和序列匹配子系统,可以高速准确地找出文档集合中包含部分拷贝的文档对,并定位互为拷贝的范围。
Description
技术领域
本发明属于拷贝检测技术领域,具体涉及一种基于句子级别的文本特征提取方法和文档拷贝检测系统。
背景技术
随着互联网时代的发展,信息呈现出爆炸式增长的趋势。由于数字文档本身易于被复制的特点,导致网络中出现了大数量的重复的网页和文档。这些重复的信息对基于Web信息的应用来说,造成了严重的负担。因此,对于拷贝检测问题的研究,在近年来逐渐成为了信息检索领域的一个研究热点。
现有的研究工作主要着眼于如何进行文档级别的拷贝检测。文档级别拷贝检测的研究成果在普通的网页的拷贝检测中取得了不错的成果。但目前仍存在一些问题,无法用现有的针对文档级别的方法来解决。
两个较为典型的例子分别为文档中抄袭部分和引用部分的拷贝检测。由于抄袭通常不会是文档级别的抄袭,而是段落级别和句子级别的抄袭,即将他人文章中的部分段落或句子抄入自己的文章中。因此抄袭的检测无法使用文档级别的拷贝检测方法有效地检测出来。而对于文档中的引用也存在相同的问题。在文章或是新闻中出现引用时,引用的通常是几句话或是一个短小的文字段落,因此两个文档之间的相似度不会高,因而也无法使用文档级别的拷贝检测方法有效地检测出来。
除了以上的问题之外,在网页的拷贝检测中还存在一些不能使用文档级别拷贝检测方法解决的问题,如分页新闻以及论坛中帖子(Thread)等的拷贝检测。这些问题的一个共同特点是,两个文档之中只是部分互为拷贝,这些部分拷贝需要基于更细粒度的句子级别拷贝检测的方法才能被有效地检测出来。这类问题的解决方法通常分为两个步骤:首先进行句子级别的拷贝检测,即将文档中互为拷贝的句子对检测出来;然后,通过对互为拷贝的句子进行序列匹配(即将上一步中得到的互为拷贝的句子对,按照文档集中起来,并从中找出互为拷贝的连续的序列),从而将文档间互为拷贝的部分检测并定位出来。如图1所示,文档1中第i1个句子到第j1个句子的部分与文档2中第m1个句子到第n1个句子的部分互为拷贝,而同时文档1中第i2个句子到第j2个句子的部分与文档2中第m2个句子到第n2个句子的部分互为拷贝,这样就将句子级别的拷贝检测提高到了段落的级别。
可以看出算法第一步中的句子级别的拷贝检测将直接影响到整个任务的精度和效率。因此有必要对句子级别的拷贝检测进行更详细的研究。同时如何实现一个可以高速准确地找出文档集中包含部分拷贝的文档对,并定位互为拷贝的范围的文档拷贝检测系统也是本发明的研究内容之一。
发明内容
本发明的目的在于提出一种算法精度和效率高的文本特征提取方法,以及相应的文档拷贝检测系统。
本发明提出的文本特征提取方法,是一种改进型的基于句子级别的文本特征提取方法,称为Low-IDF-Sig算法。该算法可以高效地从句子中提取出可以很好地表示整个句子核心内容的Low-IDF-Sig特征。本发明在句子级别的GoldenSet实验集上对本发明的Low-IDF-Sig方法,以及现在已有的文档级别上较有代表性的方法(包括Shingling算法、SpotSig算法以及I-Match算法)进行了综合性的评测。
本发明提出的文档拷贝检测系统,是一种基于倒排索引进行剪枝的可以高速准确地找出文档集中包含部分拷贝的文档对,并定位互为拷贝的范围的文档拷贝检测系统。
接下来将对上述两个方面分别进行说明。
一、Low-IDF-Sig特征提取方法
该算法选取一定数量的具有最低逆向文件频率(inverse document frequency,IDF)的常见词汇作为先行词,以抽取改进的Shingle特征,用以表示整个句子。
一个Low-IDF-Sig特征si可以表示为一条紧跟在一个先行词ai后的具有固定长度ci的词链,该词链的取词间隔为一个固定值dj。使用标记ai(di,ci)表示一个先行词为ai,词链长度为ci,取词间隔为di的Low-IDF-Sig特征si。举例来说,is(2,3)表示的Low-IDF-Sig特征在句子中每次出现is时进行提取,其中提取的间隔为2,词链长度为3,假设is在文中出现的位置为1的话,则位置3,5,7处的词被提取出来作为词链的组成部分,如果在前一先行词的词链范围内出现了其他的先行词的情况下,有可能出现两个特征部分重叠的情况。
Low-IDF-Sig特征提取方法的具体步骤如下:
(1)给定先行词集合A,词链长度c,取词间隔d;
(2)遍历句子中的每个词,若词汇出现在先行词集合中,词汇当前位置为p,则提取p+0*d, p+1*d, p+2*d…p+c*d处的词形成一个特征;
(3)对句子中的每个词重复步骤(2),直到没有更多词汇,从而将句子转换为一个有权特征集合。
一个利用Low-IDF-Sig进行特征抽取的例子如下:
考虑如下的句子:“As we are taking your candidature ahead we would like to highlight that INTEL as an organization believes and practices high standards of ethical behavior from every potential candidate.”
假设我们从逆向文件频率表中获得了前五个具有最低的逆向文件词频的单词{as, to, that, of, from}作为先行词,并以ci=2作为词链的长度,di=1作为取词间隔,则我们可以将上面的句子变为如下的由Low-IDF-Sig特征组成的集合:S = {as:we:are, to:highlight:that, that:intel:as, as:an:organization, of:ethical:behavior, from:every:potential}。可以看出上述集合已经很好地覆盖到了整个句子的核心内容。
Low-IDF-Sig特征作为改进型SpotSig算法,与SpotSig算法主要存在以下几个差别:
(1)Low-IDF-Sig特征在选取先行词时,总是从作为外部资源的一个逆向文件频率表中选取具有最低逆向文件频率的前n个常见词作为Low-IDF-Sig特征的先行词;但为了保证每个句子至少有一个特征,我们简单地选取句子中的第一个词作为一个特殊的先行词;
(2)Low-IDF-Sig特征在构成Shingle时,词链中不仅包括先行词后提取的词,同时也包括先行词本身;
(3)SpotSig算法在选取构成词链的词语时,简单地跳过了所有的停止词,即停止词不会出现在如何一条词链中。SpotSig的理由是停止词本身的语义信息较少,对于文档级别的文本来说可以忽略。但我们在实验中发现,对于文本长度较短的句子而言,停止词的信息量仍对整个句子可以产生较大的影响,因此不应该简单地跳过所有的停止词。在Low-IDF-Sig算法中,本发明在选取构成词链的词语时,只跳过少部分的停止词,这部分的停止词包括部分的冠词与介词。原因是,在实验中发现两个互为拷贝的句子,可能会使用不同的冠词或介词,但仍然表示相同的意义。
本发明通过实验证明Low-IDF-Sig特征提取算法的表现优于其他类似方法。
表1 各特征在GoldenSet上的综合表现
注:特征算法名字后的括号中的内容表示其参数。对于I-Match表示其IDF范围,其他表示先行词数量。
表1中显示了各个特征在GoldenSet上的综合表现。从表中可以看出3-Shingles在F1 Score一项上取得了所有特征中最高的0.960,但对比Low-IDF-Sig(50)的F1 Score来说,优势并不明显。而且在空间占用上,Low-IDF-Sig(50)具有明显的优势,仅为3-Shingles的三分之一。从时间占用上可以看出无论是索引阶段的用时还是相似度计算阶段的用时,Low-IDF-Sig(50)都明显少于3-Shingles。特别是相似度计算阶段的用时仅为3-Shingles的1/11。3-Shingles在这一阶段用时过长的原因在于存在某些特征过于常见,即索引中该特征对应的句子过多,根据本发明第四节中的介绍,假设该特征对应的句子数为n的话,则这n个句子互相需要进行两两比较,则需要n2级别次比较。因此当句子数增长时,这部分的时间可能出现n2级别的增长。因此3-Shingles不适合大规模的部分拷贝检测任务。而I-Match尽管在时间与空间的占用上比Low-IDF-Sig(50)要少,但F1 Score却明显低于Low-IDF-Sig(50),因此仅仅适合于对算法效率要求相当高,而对精度要求不高的任务中。另外还可以发现Low-IDF-Sig(50)在空间、时间占用以及F1 Score上均要优于SpotSig。同时还可以发现SpotSig在GoldenSet上抽取出的特征总数要多于Low-IDF-Sig(50),也就是说SpotSig平均用于表示每个句子的特征要多于Low-IDF-Sig(50),但其F1 Score却低于Low-IDF-Sig(50)。因此,可以发现SpotSig抽取出的特征未能有效地表现句子的核心内容,Low-IDF-Sig要比SpotSig更适合于句子级别的特征抽取任务。最后从表中可以看出,Low-IDF-Sig算法在先行词从50增长到500时,F1 Score只是略微上升,但其空间、时间占用却有明显的上升。
综上所述,在同时考虑到算法的精度、效率以及空间占用的情况下,先行词数量为50、相似度阈值为0.6的Low-IDF-Sig特征可以很好地用于句子级别的文本表示,适用于部分拷贝检测任务。
二、基于句子级别的文档拷贝检测系统
系统组成如图2所示,一个完整的基于句子级别的文档拷贝检测系统由文档读取子系统,断句子系统,特征提取子系统,拷贝检测子系统,序列匹配子系统组成。各个子系统的说明如下。
所述文档读取子系统,以文档集合作为输入,单个的文档为输出,用于读取文档集合中的文档,并将单个的文档输出到后续的断句子系统中。文档读取子系统可根据文档集合的形式替换实现。如当文档集合为XML文档时,使用XML文档读取子系统。系统的后继子系统为断句子系统。
所述断句子系统,以文档读取子系统输出的单个文档为输入,单个的句子为输出,用于读取文档并断句后输出文本表示的句子。具体实现时可以使用多种断句方法,如以标准的标点符号:句号、感叹号等作为断句依据。系统的后继子系统为特征提取子系统。
所述特征提取子系统,以断句子系统输出的单个句子为输入,句子的特征向量表示以及倒排索引为输出,用于将句子文本转换为特征向量表示,并加入倒排索引中。具体实现时可以使用多种特征提取方法,如本文之前提出的Low-IDF-Sig特征提取方法。系统的后继子系统为拷贝检测子系统。
所述拷贝检测子系统,以特征提取子系统输出的句子的特征向量表示以及倒排索引为输入,互为拷贝的句子对集合为输出,用于根据倒排索引找出互为拷贝的句子对。具体实现时可使用不同的相似度算法,并可使用不同的剪枝算法。系统的后继子系统为序列匹配子系统。
所述序列匹配子系统,以拷贝检测子系统输出的互为拷贝的句子对集合为输入,互为拷贝的段落序列集合为输出,用于将句子对集合按照文档组织起来,并找出互为拷贝的序列。
本发明中,组成系统的各个部分的灵活性很强,可以根据需求灵活地替换实现。其中又以特征提取子系统和拷贝检测子系统的灵活性最高。
特征提取子系统可使用的实现包括:3-Shingles实现,I-Match实现,SpotSig实现,Low-IDF-Sig实现。
拷贝检测子系统默认使用常见的Jaccard相似度作为本发明的相似度计算方法。假设两个句子经过前述的转换,变为了两个由Low-IDF-Sig特征组成的集合:A和B。注意到同一个Low-IDF-Sig特征可能在一个句子中出现多次,因此A和B实际上是一个带有权重的集合(multi-set),它们间的相似度定义为:
其中,freqA(sj)表示特征sj在带权重集合A中出现的频率。同样,freqB(sj)表示特征sj在带权重集合B中出现的频率。但根据需求可以使用其他向量相似度算法实现,如余弦相似度实现等。
该系统的处理流程如图2所示,首先由文档读取子系统从文档集合中获取一个文档,由断句子系统将文档转换为句子的集合,然后由特征提取子系统将句子转换为特征向量,并加入倒排索引中;当对所有文档都进行过上述处理后,由拷贝检测子系统分析倒排索引和句子向量集合,找出互为拷贝的句子对;最后由序列匹配子系统将句子对按照文档整理,匹配文档中互为拷贝的序列,并产生最后的结果。
附图说明
图1为段落级别互为拷贝的例子。
图2为基于句子级别的文档拷贝检测系统的组成及处理流程。
具体实施方式
假设文档集中有两篇论文,分别为P1和P2。其中P2中的第3段是抄袭P1中第2段的,P1中这一段的范围为S3-S5,P2中则为S6-S8。则文档集合D输入文档读取子系统中后被分为两个单独的文档P1和P2;而两个文档输入断句子系统中后被切分为句子的集合;特征提取子系统将句子从文本表示转换为特征向量的集合并将其加入倒排索引中;拷贝检测子系统利用倒排索引进行拷贝检测,此时发现如下的互为拷贝的句子对(P1S3, P2S6), (P1S4, P2S7), (P1S5, P2S8);序列匹配子系统将上述拷贝对整理起来后,输出(P1[S3-S5], P2[S6-S8]),即文档集合中的P1中的第3句到第5句和P2中的第6句到第8句互为拷贝。
如上所述,论文P1和P2在文档级别上的相似度并不高,使用文档级别的拷贝检测方法无法将其检测出来。但使用本发明提出的方法和系统可以有效地找出这个文档对中包含的互为拷贝的段落信息。
结论:本发明提出了一种高效的句子级别的文本特征提取算法--Low-IDF-Sig算法,该算法的F1 Score仅比3-Shingles略低1%,但算法的空间占用仅为3-Shingles的29%,同时索引阶段用时仅为3-Shingles的37%,而相似度计算阶段的用时更是仅为3-Shingles的8.6%。因此该算法极适合于句子级别的特征提取。本发明还以此算法为基础提出了一个高效灵活的句子级别的文本拷贝检测系统。
Claims (3)
1.一种基于句子级别的文本特征提取方法,选取一定数量的具有最低逆向文件频率的常见词汇作为先行词,以抽取改进的Shingle特征,用以表示整个句子; 设一个Low-IDF-Sig特征si表示为一条紧跟在一个先行词ai后的具有固定长度ci的词链,该词链的取词间隔为一个固定值dj ;使用标记ai(di,ci)表示一个先行词为ai,词链长度为ci,取词间隔为di的Low-IDF-Sig特征si;具体步骤如下:
(1)给定先行词集合A,词链长度c,取词间隔d;
(2)遍历句子中的每个词,若词汇出现在先行词集合中,词汇当前位置为p,则提取p+0*d, p+1*d, p+2*d…p+c*d处的词形成一个特征;
(3)对句子中的每个词重复步骤(2),直到没有更多词汇,从而将句子转换为一个有权特征集合。
2.一种基于句子级别的文档拷贝检测系统,其特征在于由文档读取子系统、断句子系统、特征提取子系统、拷贝检测子系统、序列匹配子系统组成;其中:
所述文档读取子系统,以文档集合作为输入,单个的文档为输出,用于读取文档集合中的文档,并将单个的文档输出到后续的断句子系统中;
所述断句子系统,以文档读取子系统输出的单个文档为输入,单个的句子为输出,用于读取文档并断句后输出文本表示的句子;
所述特征提取子系统,以断句子系统输出的单个句子为输入,句子的特征向量表示以及倒排索引为输出,用于将句子文本转换为特征向量表示,并加入倒排索引中;
所述拷贝检测子系统,以特征提取子系统输出的句子的特征向量表示以及倒排索引为输入,互为拷贝的句子对集合为输出,用于根据倒排索引找出互为拷贝的句子对;
所述序列匹配子系统,以拷贝检测子系统输出的互为拷贝的句子对集合为输入,互为拷贝的段落序列集合为输出,用于将句子对集合按照文档组织起来,并找出互为拷贝的序列;
文档拷贝检测系统处理流程为:首先由文档读取子系统从文档集合中获取一个文档,由断句子系统将文档转换为句子的集合,然后由特征提取子系统将句子转换为特征向量,并加入倒排索引中;当对所有文档都进行过上述处理后,由拷贝检测子系统分析倒排索引和句子向量集合,找出互为拷贝的句子对;最后由序列匹配子系统将句子对按照文档整理,匹配文档中互为拷贝的序列,并产生最后的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100009187A CN102591976A (zh) | 2012-01-04 | 2012-01-04 | 基于句子级别的文本特征提取方法和文档拷贝检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100009187A CN102591976A (zh) | 2012-01-04 | 2012-01-04 | 基于句子级别的文本特征提取方法和文档拷贝检测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102591976A true CN102591976A (zh) | 2012-07-18 |
Family
ID=46480614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012100009187A Pending CN102591976A (zh) | 2012-01-04 | 2012-01-04 | 基于句子级别的文本特征提取方法和文档拷贝检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102591976A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104484376A (zh) * | 2014-12-05 | 2015-04-01 | 北京国双科技有限公司 | 实时显示数据的方法及装置 |
CN106484768A (zh) * | 2016-09-09 | 2017-03-08 | 天津海量信息技术股份有限公司 | 文本内容显著性区域的局部特征抽取方法及系统 |
CN107402945A (zh) * | 2017-03-15 | 2017-11-28 | 阿里巴巴集团控股有限公司 | 词库生成方法及装置、短文本检测方法及装置 |
CN107704732A (zh) * | 2017-08-30 | 2018-02-16 | 上海掌门科技有限公司 | 一种用于生成作品指纹的方法与设备 |
CN112764809A (zh) * | 2021-01-25 | 2021-05-07 | 广西大学 | 基于编码特征的sql代码抄袭检测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100788440B1 (ko) * | 2006-06-29 | 2007-12-24 | 중앙대학교 산학협력단 | 도용 패턴에 기반한 복사 감지시스템 |
CN101833579A (zh) * | 2010-05-11 | 2010-09-15 | 同方知网(北京)技术有限公司 | 一种自动检测学术不端文献的方法及系统 |
CN102081598A (zh) * | 2011-01-27 | 2011-06-01 | 北京邮电大学 | 一种检测文本重复的方法 |
-
2012
- 2012-01-04 CN CN2012100009187A patent/CN102591976A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100788440B1 (ko) * | 2006-06-29 | 2007-12-24 | 중앙대학교 산학협력단 | 도용 패턴에 기반한 복사 감지시스템 |
CN101833579A (zh) * | 2010-05-11 | 2010-09-15 | 同方知网(北京)技术有限公司 | 一种自动检测学术不端文献的方法及系统 |
CN102081598A (zh) * | 2011-01-27 | 2011-06-01 | 北京邮电大学 | 一种检测文本重复的方法 |
Non-Patent Citations (4)
Title |
---|
俞昊旻等: "基于Low-IDF-SIG的句子重复检测", 《中文信息学报》 * |
冷强奎等: "基于句子相似度的论文抄袭检测模型研究", 《计算机工程与应用》 * |
卢小康等: "一种句子级别的中文文本复制检测方法", 《杭州电子科技大学学报》 * |
张奇等: "一种新的句子相似度度量及其在文本自动摘要中的应用", 《中文信息学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104484376A (zh) * | 2014-12-05 | 2015-04-01 | 北京国双科技有限公司 | 实时显示数据的方法及装置 |
CN106484768A (zh) * | 2016-09-09 | 2017-03-08 | 天津海量信息技术股份有限公司 | 文本内容显著性区域的局部特征抽取方法及系统 |
CN106484768B (zh) * | 2016-09-09 | 2019-12-31 | 天津海量信息技术股份有限公司 | 文本内容显著性区域的局部特征抽取方法及系统 |
CN107402945A (zh) * | 2017-03-15 | 2017-11-28 | 阿里巴巴集团控股有限公司 | 词库生成方法及装置、短文本检测方法及装置 |
CN107402945B (zh) * | 2017-03-15 | 2020-07-10 | 阿里巴巴集团控股有限公司 | 词库生成方法及装置、短文本检测方法及装置 |
CN107704732A (zh) * | 2017-08-30 | 2018-02-16 | 上海掌门科技有限公司 | 一种用于生成作品指纹的方法与设备 |
CN112764809A (zh) * | 2021-01-25 | 2021-05-07 | 广西大学 | 基于编码特征的sql代码抄袭检测方法及系统 |
CN112764809B (zh) * | 2021-01-25 | 2022-07-05 | 广西大学 | 基于编码特征的sql代码抄袭检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dunietz et al. | A new entity salience task with millions of training examples | |
CN103092956B (zh) | 社交网络平台上话题关键词自适应扩充的方法及系统 | |
CN103049435A (zh) | 文本细粒度情感分析方法及装置 | |
Al-Kabi et al. | A prototype for a standard arabic sentiment analysis corpus. | |
CN103853834B (zh) | 基于文本结构分析的Web文档摘要的生成方法 | |
CN101127042A (zh) | 一种基于语言模型的情感分类方法 | |
CN103617158A (zh) | 一种对话文本情感摘要的生成方法 | |
CN105426390A (zh) | 一种基于图像识别的试题搜索方法和系统 | |
CN103744953A (zh) | 一种基于中文文本情感识别的网络热点挖掘方法 | |
CN102662923A (zh) | 一种基于机器学习的本体实例学习方法 | |
CN102591976A (zh) | 基于句子级别的文本特征提取方法和文档拷贝检测系统 | |
CN105608075A (zh) | 一种相关知识点的获取方法及系统 | |
CN103473217A (zh) | 从文本中抽取关键词的方法和装置 | |
CN109086355A (zh) | 基于新闻主题词的热点关联关系分析方法及系统 | |
CN104268230A (zh) | 一种基于异质图随机游走的中文微博客观点探测方法 | |
CN112989816B (zh) | 文本内容质量评估方法及系统 | |
Nodarakis et al. | Using hadoop for large scale analysis on twitter: A technical report | |
Zhao et al. | Towards events detection from microblog messages | |
Tahrat et al. | Text2geo: from textual data to geospatial information | |
Peng et al. | Research on tree kernel-based personal relation extraction | |
Rouces et al. | Generating a gold standard for a Swedish sentiment lexicon | |
Wachsmuth et al. | Back to the roots of genres: Text classification by language function | |
Mulatkar et al. | Sentiment classification in Hindi | |
Lin et al. | Combining a segmentation-like approach and a density-based approach in content extraction | |
Ali et al. | Preprocessing of text for emotion detection and sentiment analysis of Hindi movie reviews |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120718 |