CN112836014A - 一种面向多领域跨学科的专家遴选方法 - Google Patents
一种面向多领域跨学科的专家遴选方法 Download PDFInfo
- Publication number
- CN112836014A CN112836014A CN202110133319.1A CN202110133319A CN112836014A CN 112836014 A CN112836014 A CN 112836014A CN 202110133319 A CN202110133319 A CN 202110133319A CN 112836014 A CN112836014 A CN 112836014A
- Authority
- CN
- China
- Prior art keywords
- paper
- word
- expert
- keywords
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 14
- 238000011160 research Methods 0.000 claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 23
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000000034 method Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000007405 data analysis Methods 0.000 claims 2
- 238000013507 mapping Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的目的在于提供一种面向多领域跨学科的专家遴选方法,将专家的多领域跨学科研究方向关键词作为专家特征,根据论文与专家研究方向关键词的匹配度,解决了由于论文内容涉及多领域跨学科无法匹配到合适专家的难题。该算法首先基于word2vec将论文与专家的研究方向关键词词语向量化,利于定量度量关键词之间的关系;其次,根据论文与专家的研究方向关键词词向量使用欧氏距离计算论文与专家之间的相似度;最后基于论文与专家的相似度计算专家匹配度,从而实现专家遴选。
Description
技术领域
本发明涉及信息管理技术领域,具体为一种面向多领域跨学科的专家遴选方法。
背景技术
随着科学技术的进步,许多新兴学科和交叉学科不断涌出,选出合适的评审专家不仅能够将论文准确匹配到适合的专家,还能够节省专家以及送审论文的时间。目前在单一学科中已经能匹配到符合需求的同行评审专家。但是在多领域跨学科中专家遴选仍然具有挑战性,在论文领域划分方面、专家研究方向方面存在一定难度,并且由于论文内容涉及跨学科,传统方法通过专家所属学科判断论文送审结果的正确性,不能较好地解决跨学科性问题,最终导致论文送审结果出现偏差。
基于此,本发明提出了将专家的多领域跨学科研究方向关键词作为专家特征,根据论文与专家研究方向关键词的匹配度,解决了由于论文内容涉及多领域跨学科无法匹配到合适专家的难题。因此,本发明提供了面向多领域跨学科的专家遴选算法,达到了多领域中匹配对应研究方向评审专家的目的,极大节省专家以及送审论文的时间。
发明内容
本发明为了解决在多领域跨学科中的专家遴选任务,提出的方法首先基于Word2vec将论文与专家的研究方向关键词词语向量化。其次,根据论文与专家的研究方向关键词词向量基于欧氏距离计算论文与专家之间的相似度。最后基于论文与专家的相似度计算专家匹配度,从而实现专家遴选。
一种面向多领域跨学科的专家遴选方法,包括以下几个步骤:
(1)对论文进行特征提取得到论文研究方向关键词;
(2)使用Word2vec将论文及专家的研究方向关键词向量化;
(3)对论文与专家的研究方向关键词词向量之间进行欧氏距离计算得到相似度矩阵;
(4)对上个步骤得到的词向量相似度矩阵分析得到专家遴选列表。
附图说明
图1为本发明一种面向多领域跨学科的专家遴选方法的流程图。
图2为本发明Word2vec技术中构建的CBOW模型图。
图3为欧氏距离与余弦相似度对比结果图。
图4在本发明在不同Seed参数下的结果图。
图5为本发明在不同Windows参数下的结果图。
图6为本发明在最优Word2vec模型参数下的结果图。
图7为本发明在不同论文总数下的结果图。
具体实施方式
为了使本发明的目的,技术方案和优点更加清楚,下面将结合附图和具体实施例对本发明作进一步的详细描述。
本发明涉及信息管理技术领域,具体为一种面向多领域跨学科的专家遴选方法。如图1所示,一种面向多领域跨学科的专家遴选方法,包括以下步骤:
(1)数据预处理:对论文进行特征提取得到论文研究方向关键词;
(2)词语向量化:使用Word2vec将论文及专家的研究方向关键词向量化;
(3)词向量相似度计算:对论文与专家的研究方向关键词词向量之间进行欧氏距离计算得到相似度矩阵;
(4)将步骤3得到的词向量相似度矩阵分析得到专家遴选列表;
数据预处理:对论文进行特征提取任务分为文本分词、去除停用词、文本特征提取三个部分。首先对论文摘要文本基于JIEBA文本分词方法进行分词处理,将文本中的语句划分为词语。文本分词前,论文摘要文本T可表示为关于语句的集合:T={S1,S2,……,Sq};
文本分词:其中Sq表示论文摘要文本T中第q个语句。然后将句子Sq所有分词情况的词语基于JIEBA自带词典构成有向无环图,采用动态规划查找m种形式中最大概率路径,得到句子Sq的最终分词形式。经过文本分词后,划分的论文摘要T可被表示为一个词语集合:Tjieba={W1,W2,……,Wk},其中,Wk表示论文摘要T经过JIEBA文本分词得到的词语集合Tjieba中第k个词语Wk。
去除停用词:文本在分词处理之后会出现一些无用的词,比如所有的标点符号、数字、以及例如“你”、“我”、“他”、“的”等词语或汉字,这些词语包含信息少,且出现频率高,占用较大空间,在后续算法中属于无用的输入词。因此,为了进一步文本特征选择的准确性与高效性,在文本特征提取前需要去除这些停用词。
文本特征提取:由于无法将整篇论文作为输入,本发明基于TF-IDF方法从论文摘要中提取出能够代表整篇论文的词语作为论文的研究方向关键词,仅对提取出的特征关键词进行分析,减小了算法中的数据维度。将词语集合Tlast={W1,W2,……,Wh}中每个词语都经过TF-IDF计算,按照结果大小选取摘要关键词。词语的TF-IDF计算公式为:其中,表示词语Wh的词频,表示词语Wh的逆文档频率。
词语向量化:提取出论文的关键词后,为定量度量论文与专家研究方向关键词之间的关系,本发明使用Word2vec模型处理文本数据,将论文与专家的研究方向关键词映射为K维的词向量。图2是本发明中构建的CBOW模型图。
词向量相似度计算:论文与专家的研究方向关键词转化为词向量后,为将论文与专家进行数值匹配,算法基于欧氏距离对论文和专家的研究方向关键词词向量之间进行相似度计算。本发明使用的欧氏距离相似度计算用于衡量论文与专家研究方向关键词词向量之间的绝对距离。因此,计算论文与专家研究方向关键词之间的欧氏距离dist的公式为其中,是论文摘要T通过文本特征提取的第n个论文研究方向关键词wdn对应的词向量,是第j个专家的第k个研究方向关键词edk对应的词向量。
图3是本发明使用欧氏距离与余弦相似度对比结果图。
本发明使用的专家数据库数据来自于Aminer系统筛选出的近三年毕业的1043个博士专家,其中包括了计算机、医学、马克思主义、物理、环境等多领域方面的专家。数据库中的每位专家都包含专家姓名,所属学科,所属院系和若干个关于研究方向的关键词等信息。论文关键词词库使用的是Word2vec的经典语料库,将研究方向关键词使用纯文本形式保存,进行规格化处理变为可用的关键词词库。
本发明最后使用专家遴选列表结果中遴选成功的论文数目及遴选准确率评价算法的正确性。通过改变Word2vec中的参数进行实验发现,参数设置不同会对算法结果产生影响。本发明提出的方法,在算法在所有Seed参数值下的遴选准确度较高,且在Seed参数为1时遴选实验结果最好,并且随着模型中Seed参数增大,专家遴选准确率降低。在所有Windows参数取值下的准确率均高于其他两种算法。并且Windows参数取值为5时,算法结果准确率更高。根据上述改变Seed和Windows取值的实验结果分析,选取参数的最优值。并且在选取的参数最优值的情况下,本发明方法的专家遴选准确率较高。通过实验结果表明,本发明的面向多领域跨学科的专家遴选方法的准确率达到90%以上,能够有效实现多领域跨学科的专家遴选。
上述实施例子为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例子的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.一种面向多领域跨学科的专家遴选方法,其特征在于,包括以下几个步骤:
步骤S1、对论文进行特征提取得到论文研究方向关键词;
步骤S2、使用Word2vec将论文及专家的研究方向关键词向量化;
步骤S3、对论文与专家的研究方向关键词词向量之间进行欧氏距离计算得到相似度矩阵;
步骤S4、对步骤S3得到的词向量相似度矩阵分析得到专家遴选列表。
2.对于权利要求1所述的面向多领域跨学科的专家遴选方法,其特征在于,步骤S1是首先对论文摘要文本进行分词,在去除停用词后,根据词语出现的词频高低来提取论文的研究方向关键词,具体步骤如下:
(1)首先基于JIEBA文本分词方法对摘要文本进行分词处理,将文本中的语句划分为词语,划分前的论文可表示为关于语句的集合:T={S1,S2,……,Sq},其中,Sq表示论文摘要文本T中第q个语句。在经过JIEBA分词后,论文摘要文本则可以表示为关于词语的集合:Tjieba={W1,W2,……,Wk},其中Wk表示论文摘要T经过JIEBA文本分词得到的词语集合Tjieba中第k个词语Wk;
(2)基于“哈工大停用词词表”去除词语集合Tjieba中的无用词语,同时可以根据具体情况在停用词表中自定义添加论文数据集中出现次数较多且无用的词语,得到论文摘要文本新的词语集合Tlast={W1,W2,……,Wh},其中,Wh表示摘要文本的词语集合Tjieba在去除停用词后的新词语集合Tlast中的第h个词语;
3.对于权利要求1所述的面向多领域跨学科的专家遴选方法,其特征在于,步骤S2使用Word2vec技术将论文及专家的研究方向关键词向量化,具体如下:
(1)将论文与专家的研究方向关键词映射为K维的词向量,
(2)论文与专家的研究方向关键词映射为数值向量后,论文与专家才能基于关键词相似度计算得到论文与专家研究方向的匹配度。
5.根据权利要求1所述的一种面向多领域跨学科的专家遴选算法,其特征在于,步骤S5将步骤S4得到的论文与专家研究方向关键词的词向量相似度矩阵进行数据分析返回给专家遴选系统得到专家遴选列表,以提高面向多领域跨学科的专家遴选方法的准确性和效率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110133319.1A CN112836014A (zh) | 2021-01-29 | 2021-01-29 | 一种面向多领域跨学科的专家遴选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110133319.1A CN112836014A (zh) | 2021-01-29 | 2021-01-29 | 一种面向多领域跨学科的专家遴选方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112836014A true CN112836014A (zh) | 2021-05-25 |
Family
ID=75932740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110133319.1A Pending CN112836014A (zh) | 2021-01-29 | 2021-01-29 | 一种面向多领域跨学科的专家遴选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836014A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117093670A (zh) * | 2023-07-18 | 2023-11-21 | 北京智信佳科技有限公司 | 一种论文智能推荐专家的实现方法 |
-
2021
- 2021-01-29 CN CN202110133319.1A patent/CN112836014A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117093670A (zh) * | 2023-07-18 | 2023-11-21 | 北京智信佳科技有限公司 | 一种论文智能推荐专家的实现方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shi et al. | Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval | |
He et al. | Cross-modal subspace learning via pairwise constraints | |
CN109508459B (zh) | 一种从新闻中提取主题和关键信息的方法 | |
Rezaei et al. | Multi-document extractive text summarization via deep learning approach | |
CN112818093A (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN108733647B (zh) | 一种基于高斯分布的词向量生成方法 | |
CN115098690B (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
Odeh et al. | Arabic text categorization algorithm using vector evaluation method | |
CN112051986A (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN113962293A (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
CN114048354A (zh) | 基于多元表征和度量学习的试题检索方法、装置及介质 | |
CN110990003B (zh) | 一种基于词嵌入技术的api推荐方法 | |
Pengcheng et al. | Fast Chinese calligraphic character recognition with large-scale data | |
CN113343680B (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
CN110347812A (zh) | 一种面向司法文本的搜索排序方法及系统 | |
CN114580557A (zh) | 基于语义分析的文献相似度确定方法及装置 | |
Yang et al. | Fast Multiview Anchor-Graph Clustering | |
CN112836014A (zh) | 一种面向多领域跨学科的专家遴选方法 | |
CN110674293B (zh) | 一种基于语义迁移的文本分类方法 | |
Pfahler et al. | Self-Supervised Pretraining of Graph Neural Network for the Retrieval of Related Mathematical Expressions in Scientific Articles | |
CN114298020B (zh) | 一种基于主题语义信息的关键词向量化方法及其应用 | |
Zhai et al. | TRIZ technical contradiction extraction method based on patent semantic space mapping | |
CN113722431B (zh) | 命名实体关系识别方法、装置、电子设备及存储介质 | |
Banerjee et al. | A novel centroid based sentence classification approach for extractive summarization of COVID-19 news reports | |
CN111723582B (zh) | 智能语义分类方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |