CN107122340B - 一种基于同义词分析的科技项目申报书的相似度检测方法 - Google Patents
一种基于同义词分析的科技项目申报书的相似度检测方法 Download PDFInfo
- Publication number
- CN107122340B CN107122340B CN201710202607.1A CN201710202607A CN107122340B CN 107122340 B CN107122340 B CN 107122340B CN 201710202607 A CN201710202607 A CN 201710202607A CN 107122340 B CN107122340 B CN 107122340B
- Authority
- CN
- China
- Prior art keywords
- dictionary
- text
- synonym
- science
- entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 46
- 238000004458 analytical method Methods 0.000 title claims abstract description 26
- 238000001514 detection method Methods 0.000 title claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000005259 measurement Methods 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 3
- 230000009849 deactivation Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于同义词分析的科技项目申报书的相似度检测方法,本发明结合了同义词分析和向量模型来计算科技项目申报书之间的相似性通过同义词分析技术对词典进行同义词分析,建立起同义词词典;针对科技项目申报书格式的特殊性,对科技项目申报书进行文本分块处理。再通过分词算法对文本块进行分析处理。在申报科技项目申报书项目的环节,通过自然语言处理、建立同义词林、分词等技术对科技项目申报书的全文、段落、句子进行了分词处理,对分析结果进行处理建立起特征权值向量,通过同义词分析和TF‑IDF模型对文本进行分析,建立特征权值向量空间,解决了向量空间模型无法处理语义的缺陷,提高了中文文本相似性度检测的准确性。
Description
技术领域
本发明属于自然语言处理领域,主要是用于科技项目申报书的相似度检测。
背景技术
近年来,随着中央对于科研项目投入了大量的经费和财力支持,国内的科技事业也在蓬勃发展,与此同时产生了科技项目申报书的抄袭和重复申报等问题,严重阻碍了科技事业的健康发展。本发明针对科技项目申报书的抄袭和重复申报现象发明了一种中文文本相似度的检测方法,能够帮助项目申报中心有效甄别出存在严重抄袭现象的科技项目申报书。
文本相似性的检测在上世纪70年代首次被提出,相关学者首先提出了基于属性计数的计算方法来计算程序复制的相似度。随着自然语言领域和人工智能领域的领域不断发展,有学者根据文本中字符串的匹配方式设计了一种自然语言的查重算法;又有学者根据字符串后缀树查找字符串最大子串的思想提出了新的查重算法。相关学者提出了一种新的分析模型:向量空间模型。这种模型被提出以后就成功地应用到了相关的文本相似性分析系统当中。广义的空间向量模型并没有考虑到语义上的关系,这是该模型的一大缺陷。此后相关学者又提出字符间的编辑距离的文本相似度计算方法来对文本进行相似度的检测。该算法在处理英文上的文本相似性具有较好的效果,但是在处理中文文本相似性上却无法得到尽如人意的效果。
发明内容
本发明针对目前的研究现状,针对科技项目申报书的抄袭和重复情况,提出了一种基于同义词分析的科技项目申报书相似度检测方法。本发明结合了同义词分析和向量模型来计算科技项目申报书之间的相似性通过同义词分析技术对词典进行同义词分析,建立起同义词词典;针对科技项目申报书格式的特殊性,对科技项目申报书进行文本分块处理。再通过分词算法对文本块进行分析处理。在申报科技项目申报书项目的环节,通过自然语言处理、建立同义词林、分词等技术对科技项目申报书的全文、段落、句子进行了分词处理,对分析结果进行处理建立起特征权值向量,通过同义词分析和TF-IDF模型对文本进行分析,建立特征权值向量空间,解决了向量空间模型无法处理语义的缺陷,提高了中文文本相似性度检测的准确性。
本发明方法的具体步骤是:
步骤一:输入中文基础词典和中文停用词典;其中中文基础词典涵盖了常用中文词条以及专业性词条;停用词典包含了对识别文本内容意义不大,但是出现频率很高的停用词条,如“我们”、“的”、“了”等。
步骤二:构建一个BP神经网络模型,将中文基础词典作为神经网络模型的输入层进行训练分析,挖掘出其中的同义词,将属于某个词的所有同义词放置在同一行,从而组成同义词词林T;以中文基础词典为基础建立起字典树。该字典树是一种树形结构,其根节点为空,每个节点对应一个字,通过从根节点出发向下依次遍历各个节点直至叶子节点或者标注有结束符号的中间节点均可组成为中文基础词典中的某个词;对中文基础词典进行同义词分析;
其中同义词分析方法,具体步骤如下:
步骤1:遍历中文基础词典,任取其中一个词条wk。
步骤2:从字典树根结点出发向下遍历搜索得到要查找的词条wk的第一个字对应的节点;然后继续在以该节点为根的子树中搜索词条wk的下一个字对应的节点;重复以上步骤,直至找到词条wk在字典树中的完整遍历路径,为该路径的最后一个节点分配一个唯一的同义词编号。
步骤3:在同义词林T中找到该词条wk的所有同义词,按步骤2所示方法在字典树中找到所有这些同义词的完整遍历路径,将这些完整遍历路径的最后一个节点标注为与词条wk的同义词编号相同的同义词编号。
步骤4:重复步骤1、步骤2、步骤3,直至中文基础词典的所有词条都在字典树中找到完整遍历路径并且最后一个节点都被分配了同义词编号。
步骤三:提取出某篇科技项目申报书Di中的文本内容并且剔除无意义的格式和符号;然后根据模板将科技项目申报书按照项目意义、项目内容、技术方案、创新点、现有基础、预期目标等文本块类型划分为不同的文本块,根据各个文本块的重要性为每个文本块赋予不同权值;对某篇科技项目申报书Di进行文本块划分处理后得到的文本块集,表示如下:
其中,表示科技项目申报书Di的文本块数量。按此方法对所有科技项目申报书进行预处理。
步骤四:根据字典树对每篇科技项目申报书Di的文本块进行分词处理,去除包含在停用词典中的停用词条,最后得到的每个词条都用其同义词编号表示。
步骤五:通过公式:
计算每篇科技项目申报书Di中每个词条wk的IDF值;其中:|D|表示所有科技项目申报书数量,|{t:wk∈Dt}|表示包含词条wk的科技项目申报书的数量;如果IDF值小于某个预先设定的阈值,则视wk为新的停用词条,将其加入停用词词典组成新的停用词词典,并在由步骤四获得的分词结果去除新的停用词条。
步骤六:为每篇科技项目申报书Di的每一个文本块构建特征权值向量特征权值向量的每个元素为词条wk的词频与其IDF值的乘积,即:
其中,Frequency(wk)为wk在中出现的次数;
步骤七:任取两篇科技项目申报书Di1,Di2,按下式计算属于同一个文本块类型j的两个文本块之间的相似度,即:
其中和为文本块对应的词条wk的特征权值向量元素;该公式中的m表示特征权值向量的元素数量;然后对两篇科技项目申报书之间的所有属于同一文本块类型的两个文本块之间的相似度进行加权处理,得到两篇科技项目申报书之间的整体相似度,公式如下:
其中Weight(Pj)表示文本块Pj的权值;该公式中的n表示文本块的总数量。
步骤八:对于任一科技项目申报书Di,选择与其整体相似度最大的科技项目申报书,作为科技项目申报书Di的查重结果输出。
本发明所提供的基于同义词分析的科技项目申报书的相似度检测方法由一系列功能模块组成,它们包括:中文基础词典的同义词分析模块,科技项目申报书预处理和分词模块,停用词统计推荐模块,建立特征权值向量模块,相似度计算模块。
中文基础词典的同义词分析模块:中文基础词典涵盖了常用词条以及专业性词条。在分词过程中,要结合中文基础词典和分词算法将中文文本分解成一组合理有效的词条。通常的中文分词算法都是没有考虑到语义和同义词。所以本方法采用BP神经网络模型对中文基础词典进行分析,找出该词典中的所有同义词。
科技项目申报书预处理和分词模块:对科技项目申报书进行文本提取。提取出文本以后,将文本进行文本分块处理。剔除无意义格式和符号,然后根据模板将科技项目申报书按照项目意义、项目内容、技术方案、创新点、现有基础、预期目标等文本块类型划分为不同的文本块。利用分词算法对处理过的文本块进行分词处理并将分词结果进行停用词过滤处理。
停用词统计推荐模块:当科技项目申报书分词结果足够大时,可以对这些分词结果进行停用词推荐处理,首先计算每一个词条的IDF值,如果IDF值小于某个预先设定的阈值,则将其视为新的停用词,并将其加入停用词词典组成新的停用词词典。然后基于新停用词对分词结果再次进行停用词过滤。
建立特征权值向量模块:利用TF-IDF模型统计出每篇科技项目申报书的各个文本块的词条词频和IDF值,并将词条词频和IDF值的乘积作为特征项建立起特征权值向量。
相似度计算模块:提取出任意两篇科技项目申报书对应的文本块特征权值向量,计算该两个特征权值向量空间之间的余弦值从而得出两篇科技项目申报书的整体相似度。对于任一科技项目申报书,选择与其整体相似度最大的科技项目申报书,作为它的查重结果输出。
本发明有益效果如下:
本发明提供的基于同义词分析的科技项目申报书的相似度检测方法能检测出某些通过改变语序和同义词替换等进行抄袭的情况。同时,本发明针对科技项目申报书结构的特殊性,对科技项目申报书进行分块处理,在计算整体相似度时为每个文本块分配不同的权重,从而使计算得到的整体相似度更有参考性。最后,本发明可根据分词结果产生新的停用词,根据新的停用词对分词结果再次过滤,这样可进一步消除对文本主题和语义无意义的词产生的干扰,从而提高相似度检测的准确度。
附图说明
图1相似度检测流程。
图2字典树
具体实施方式
下面结合附图和实例对本发明作进一步说明。
为叙述方便,定义相关符号如下:
L:基础词条语料库。
T:同义词词林。
Si:第i(i=1,2,...,n)个中文字符串。
Di:科技项目申报书库中第i(i=1,2,...,n)篇科技项目申报书。
|D|:文本库中的科技项目申报书总数。
科技项目申报书Di中第j(j=1,2,...,n)个文本块。
Vi:第i(i=1,2,...,n)个词向量。
wk:第k个词条。
|{t:wk∈Dt}|:包含词条wk的科技项目申报书个数。
Frequency(wk):词条wk的词频。
Weight(Pj):文本块Pj的权值。
科技项目申报书Di中的文本块j的文本特征向量。
科技项目申报书Di的文本块集。
中文字符串Si的分词结果集合。
步骤(1):输入中文基础词典和中文停用词典;其中中文基础词典涵盖了常用中文词条以及专业性词条;停用词典包课对识别文本内容意义不大、但是出现频率很高的词。
步骤(2):将中文基础词典视作基础词条语料库L,将L作为BP神经网络模型的输入,对语料库L进行同义词分析和分类。该模型主要有三层:输入层、隐藏层、输出层。输入层首先会把中文基础词典中的每一条词条转化成一个向量Vi,输入层的节点个数就是中文基础词典中的词条个数。隐藏层通过分析输入层的向量Vi,从而找出L中的所有同义词,将同义词进行分类并且输出同义词词林T。以中文基础词典为基础建立起字典树(如图2所示),字典树的根节点为空,除根节点外每一个节点都只包含一个字符;从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串;通过同义词词林T对中文基础词典进行同义词标注。
具体标注的方法如下所示:
1.遍历中文基础词典,取出其中一个词条wk;
2.从字典树根结点出发向下遍历搜索得到要查找的词条wk的第一个字对应的节点;然后继续在以该节点为根的子树中搜索词条wk的下一个字对应的节点;重复以上步骤,直至找到词条wk在字典树中的完整遍历路径,为该路径的最后一个节点分配一个唯一的同义词编号;
3.在同义词林T中找到该词条wk的所有同义词,按步骤(2)所示方法在字典树中找到所有这些同义词的完整遍历路径,将这些完整遍历路径的最后一个节点标注为与词条wk的同义词编号相同的同义词编号;
4.重复步骤(1)、步骤(2)、步骤(3),直至中文基础词典的所有词条都在字典树中找到完整遍历路径,并其最后一个节点都被分配了同义词编号;
步骤(3):在服务器端建立起单独的文本数据库,利用文本提取算法和文本处理算法对科技项目申报书进行文本提取和分段处理。在实际应用中,申报者所提供的科技项目申报书都是以doc或者docx格式上传的。因此要对库中的每篇科技项目申报书进行处理。为了消除无关格式和符号对相似度计算时带来干扰,要对文本中的无关字符和符号进行剔除。由于科技项目申报书通常都有固定的模板和格式,一般都包含项目意义、项目内容、技术方案、创新点、现有基础、预期目标等文本块类型,本发明按照固定的格式对科技项目申报书进行文本分块处理;根据各个文本块类型的重要性为每个文本块赋予不同权值。对Di进行后处理得到文本块集,其中第i个科技项目申报书Di的文本块集表示如下:
其中,表示科技项目申报书Di的文本块数量。
计算两篇科技项目申报书的相似度时,首先计算两篇科技项目申报书对应文本块之间的相似度,最后根据各个文本块的权值进行加权处理,得到两篇科技项目申报书的总体相似度。公式如下:
其中Weight(Pj)表示文本块Pj的权值;该公式中的n表示文本块的总数量;
步骤(4):对步骤(3)得到的文本块进行分词处理。本发明使用正向迭代最细粒度切分算法,结合同义词词典对中文字符串Si进行切分得到分词结果集合先以停用词词典为语料库建立起停用词字典树(如图2所示)。将分词结果集合中的每一条词条与停用词字典树进行匹配,若匹配到则将其视作停用词并且将其进行过滤。将处理完毕的文本存入到文本数据库中,每一条文本信息包括科技项目申报书id,段落id,文本内容以及经过停用词过滤处理的分词结果。
步骤(5):当样本足够大时,可以利用IDF统计模型对大量的科技项目申报书的分词结果进行分析。分析出某个词在整个文本库中表达文本意义的重要性。通过公式:
计算每个词条wk的IDF值。如果IDF值过低,说明此wk在大部分科技项目申报书中都出现,对于整个文本库的语义或者主题表达的重要性很低,所以可以将IDF值低的词条wk作为停用词进行推荐。当某个词被判定为停用词以后。当对停用词词典进行推荐更新以后,可以对步骤(4)得到的分词结果再一次进行停用词过滤。
步骤(6):步骤(4)中得到的分词结果经过同义词分析处理,同义词在该分词结果集合中具有相同的编号。用TF-IDF算法对该分词结果进行词条词频统计,并将每个词条的词频和IDF的乘积当成特征项建立起特征权值向量空间。根据步骤(3),已知:
表示科技项目申报书的某个文本块,特征项指出现在文本中且能够代表该文本内容的基本语言单位,主要是由词或者短语构成,文本可以表示为文本特征向量利用TF-IDF公式计算出文本块中词条wk的词频Frequency(wk)和每个词条wk的IDF值。并建立文本特征项。即:
其中Frequency(wk)为wk在中出现的次数;
步骤(7):根据步骤(6)中为每篇科技项目申报书的文本块建立的文本特征向量来计算相似度。可以采用计算向量间的余弦值来得到两个文本块之间的相似度。即:
其中和为文本块对应的词条wk的特征权值向量元素;该公式中m表示特征权值向量的元素数量。
步骤(8)按照上述公式计算出两篇科技项目申报书Di1,Di2之间对应文本块之间的相似度,对两篇科技项目申报书之间的所有属于同一文本块类型的两个文本块之间的相似度进行加权处理,得到两篇科技项目申报书之间的整体相似度,公式如下:
其中Weight(Pj)表示文本块Pj的权值;该公式中的n表示文本块的总数量。
步骤(9)对于任一科技项目申报书Di,选择与其整体相似度最大的科技项目申报书,作为科技项目申报书Di的查重结果输出。
整个相似度检测流程如图1所示。
Claims (1)
1.一种基于同义词分析的科技项目申报书的相似度检测方法,其特征在于包括如下步骤:
步骤一:输入中文基础词典和中文停用词典;
步骤二:构建一个BP神经网络模型,将中文基础词典作为神经网络模型的输入层进行训练分析,挖掘出其中的同义词,将属于某个词的所有同义词放置在同一行,从而组成同义词词林T;以中文基础词典为基础建立起字典树; 该字典树是一种树形结构,其根节点为空,每个节点对应一个字,通过从根节点出发向下依次遍历各个节点直至叶子节点或者标注有结束符号的中间节点均可组成为中文基础词典中的某个词;对中文基础词典进行同义词分析;
其中同义词分析方法,具体步骤如下:
步骤1:遍历中文基础词典,任取其中一个词条wk;
步骤2:从字典树根结点出发向下遍历搜索得到要查找的词条wk的第一个字对应的节点;然后继续在以该节点为根的子树中搜索词条wk的下一个字对应的节点;重复以上步骤,直至找到词条wk在字典树中的完整遍历路径,为该路径的最后一个节点分配一个唯一的同义词编号;
步骤3:在同义词林T中找到该词条wk的所有同义词,按步骤2所示方法在字典树中找到所有这些同义词的完整遍历路径,将这些完整遍历路径的最后一个节点标注为与词条wk的同义词编号相同的同义词编号;
步骤4:重复步骤1、步骤2、步骤3,直至中文基础词典的所有词条都在字典树中找到完整遍历路径并且最后一个节点都被分配了同义词编号;
步骤三:提取出某篇科技项目申报书Di中的文本内容并且剔除无意义的格式和符号;然后根据模板将科技项目申报书按照文本块类型划分为不同的文本块,根据各个文本块的重要性为每个文本块赋予不同权值;对科技项目申报书Di进行文本块划分处理后得到的文本块集,表示如下:
其中,表示科技项目申报书Di的文本块数量; 按此方法对所有科技项目申报书进行预处理;
步骤四:根据字典树对每篇科技项目申报书Di的文本块进行分词处理,去除包含在停用词典中的停用词条,最后得到的每个词条都用其同义词编号表示;
步骤五:通过公式:
计算每篇科技项目申报书Di中每个词条wk的IDF值;其中:|D|表示所有科技项目申报书数量,|{t:wk∈Dt}|表示包含词条wk的科技项目申报书的数量;如果IDF值小于某个预先设定的阈值,则视wk为新的停用词条,将其加入停用词词典组成新的停用词词典,并在由步骤四获得的分词结果去除新的停用词条;
步骤六:为每篇科技项目申报书Di的每一个文本块构建特征权值向量其中m表示特征权值向量的元素数量,特征权值向量的每个元素为词条wk的词频与其IDF值的乘积,即:
其中,Frequency(wk)为wk在中出现的次数;
步骤七:任取两篇科技项目申报书Di1,Di2,按下式计算属于同一个文本块类型j的两个文本块之间的相似度,即:
其中和为文本块对应的词条wk的特征权值向量元素;该公式中的m表示特征权值向量的元素数量;然后对两篇科技项目申报书之间的所有属于同一文本块类型的两个文本块之间的相似度进行加权处理,得到两篇科技项目申报书之间的整体相似度,公式如下:
其中Weight(Pj)表示文本块Pj的权值;该公式中的n表示文本块的总数量;
步骤八:对于任一科技项目申报书Di,选择与其整体相似度最大的科技项目申报书,作为科技项目申报书Di的查重结果输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710202607.1A CN107122340B (zh) | 2017-03-30 | 2017-03-30 | 一种基于同义词分析的科技项目申报书的相似度检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710202607.1A CN107122340B (zh) | 2017-03-30 | 2017-03-30 | 一种基于同义词分析的科技项目申报书的相似度检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107122340A CN107122340A (zh) | 2017-09-01 |
CN107122340B true CN107122340B (zh) | 2018-11-06 |
Family
ID=59717505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710202607.1A Active CN107122340B (zh) | 2017-03-30 | 2017-03-30 | 一种基于同义词分析的科技项目申报书的相似度检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107122340B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648783B (zh) * | 2018-03-12 | 2021-08-10 | 杭州电子科技大学 | 一种医技检查项目相似性快速判别方法 |
CN108846031B (zh) * | 2018-05-28 | 2022-05-13 | 同方知网数字出版技术股份有限公司 | 一种面向电力行业的项目相似性对比方法 |
CN108829780B (zh) * | 2018-05-31 | 2022-05-24 | 北京万方数据股份有限公司 | 文本检测方法、装置、计算设备及计算机可读存储介质 |
CN110019814B (zh) * | 2018-07-09 | 2021-07-27 | 暨南大学 | 一种基于数据挖掘与深度学习的新闻信息聚合方法 |
CN110033236A (zh) * | 2019-04-11 | 2019-07-19 | 国网山东省电力公司 | 一种基于并发任务的项目查重方法及系统 |
CN110390084B (zh) * | 2019-06-19 | 2021-01-26 | 平安国际智慧城市科技股份有限公司 | 文本查重方法、装置、设备及存储介质 |
CN110377886A (zh) * | 2019-06-19 | 2019-10-25 | 平安国际智慧城市科技股份有限公司 | 项目查重方法、装置、设备及存储介质 |
CN110532385A (zh) * | 2019-08-06 | 2019-12-03 | 镇江方略科技咨询有限公司 | 基于大数据的科技项目特征语句提取系统及其推荐方法 |
CN110928985A (zh) * | 2019-10-14 | 2020-03-27 | 广西壮族自治区科学技术情报研究所 | 一种基于深度学习算法自动提取近义词的科技项目查重方法 |
CN110852089B (zh) * | 2019-10-25 | 2023-01-20 | 国家电网有限公司 | 基于智能分词与深度学习的运维项目管理方法 |
CN111460090A (zh) * | 2020-03-04 | 2020-07-28 | 深圳壹账通智能科技有限公司 | 基于向量的文档检索方法、装置、计算机设备及存储介质 |
CN112199938B (zh) * | 2020-11-12 | 2023-11-14 | 深圳供电局有限公司 | 一种科技项目相似分析方法、计算机设备、存储介质 |
CN114490940A (zh) * | 2022-01-25 | 2022-05-13 | 中国人民解放军国防科技大学 | 一种自适应的项目查重方法及系统 |
CN114741474B (zh) * | 2022-04-20 | 2023-01-24 | 山东科迅信息技术有限公司 | 应用于项目申报系统中的数据处理方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4525936B2 (ja) * | 2004-03-18 | 2010-08-18 | 日本電気株式会社 | テキストマイニング装置、その方法及びプログラム |
CN103631858B (zh) * | 2013-10-24 | 2017-07-21 | 杭州电子科技大学 | 一种科技项目相似度计算方法 |
-
2017
- 2017-03-30 CN CN201710202607.1A patent/CN107122340B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107122340A (zh) | 2017-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107122340B (zh) | 一种基于同义词分析的科技项目申报书的相似度检测方法 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN109190117B (zh) | 一种基于词向量的短文本语义相似度计算方法 | |
CN104834735B (zh) | 一种基于词向量的文档摘要自动提取方法 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
JP6721179B2 (ja) | 因果関係認識装置及びそのためのコンピュータプログラム | |
CN109684642B (zh) | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 | |
CN108121829A (zh) | 面向软件缺陷的领域知识图谱自动化构建方法 | |
CN110209818B (zh) | 一种面向语义敏感词句的分析方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN107577671A (zh) | 一种基于多特征融合的主题词提取方法 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN101702167A (zh) | 一种基于互联网的模板抽取属性和评论词的方法 | |
CN112256939A (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN109344403A (zh) | 一种增强语义特征嵌入的文本表示方法 | |
Chader et al. | Sentiment Analysis for Arabizi: Application to Algerian Dialect. | |
Pal et al. | An approach to automatic text summarization using simplified lesk algorithm and wordnet | |
Ghanem et al. | Stemming effectiveness in clustering of Arabic documents | |
CN104794209B (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
KR20110017129A (ko) | 한국어 어휘의미망을 이용한 어의 중의성 해소 장치 및 방법 그리고 그를 위한 프로그램을 기록한 기록 매체 | |
Elbarougy et al. | Graph-Based Extractive Arabic Text Summarization Using Multiple Morphological Analyzers. | |
CN102722526B (zh) | 基于词性分类统计的重复网页和近似网页的识别方法 | |
Momtaz et al. | Graph-based Approach to Text Alignment for Plagiarism Detection in Persian Documents. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |