CN111813951A - 一种基于技术图谱的关键点识别方法 - Google Patents
一种基于技术图谱的关键点识别方法 Download PDFInfo
- Publication number
- CN111813951A CN111813951A CN202010559077.8A CN202010559077A CN111813951A CN 111813951 A CN111813951 A CN 111813951A CN 202010559077 A CN202010559077 A CN 202010559077A CN 111813951 A CN111813951 A CN 111813951A
- Authority
- CN
- China
- Prior art keywords
- technical
- papers
- centrality
- key
- indexes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000011160 research Methods 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000012847 principal component analysis method Methods 0.000 claims abstract description 3
- 238000013459 approach Methods 0.000 claims description 6
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000012827 research and development Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 11
- 238000005259 measurement Methods 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 5
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于技术图谱的关键点识别方法,包括:构建技术图谱;对所述技术图谱中的节点数据,进行中心度计算,得到关键节点;采用主成分分析法,对所述的节点数据的多个维度的技术指标进行简化;分析所述的关键节点与技术指标之间的关系,得到不同维度下的关键节点。与现有技术相比,本发明综合考虑了网络中心度指标和科技资源的文献计量,解决了识别技术图谱中关键节点指标的单一性和脱离实际等缺点,基于复杂网络技术的相关理论,对技术图谱的相关指标进行量化计算,有利于更加准确地识别关键节点,发现技术研究的走向或技术趋势性线索,为科技创新提供决策支持。
Description
技术领域
本发明涉及一种数据处理方法,尤其是涉及一种基于技术图谱的关键点识别方法。
背景技术
在技术图谱网络种,识别出网络中的关键节点,也即关键技术和热点技术,对于科创布局工作的展开有很大的辅助作用。传统的对于网络中的关键节点的讨论常存在于复杂网络的中心化问题和节点重要度评估上,通过实证方法度量网络的统计性质。单一运用上述某种测度指标或方法识别关键节点具有很强的片面性,每种测度指标或方法都只能从某一侧面反映节点在网络中的地位,不符合实际情况。在互联网飞速发展的时代,简单的测度指标组合无法满足现实需求,对识别关键点的准确性提出了更高的要求。
特别是现在网络的应用更加广泛,网络的应用具有更多的现实意义,单从理论角度的测量度指标不贴合实际,降低了识别关键节点的准确性。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于技术图谱的关键点识别方法,解决识别技术图谱中关键节点指标的单一性和脱离实际等问题。
本发明的目的可以通过以下技术方案来实现:
一种基于技术图谱的关键点识别方法,包括:
构建技术图谱;
对所述技术图谱中的节点数据,进行中心度计算,得到关键节点;
采用主成分分析法,对所述的节点数据的多个维度的技术指标进行简化;
分析所述的关键节点与技术指标之间的关系,得到不同维度下的关键节点。
所述的技术图谱根据多个网站和数据库的科技成果,采用实体、关系和属性的抽取方法,通过知识融合后构建。
所述的网站和数据库包括同方知网、国研网、自建资源库、研发机构数据、政策法规数据、行业动态数据、专利数据库、行业标准数据库中的至少一个。
所述的中心度包括度中心度、接近中心度和介数中心度。
所述的技术指标的维度包括项目水平维度、人才水平维度、科研成果水平维度。
所述的项目水平维度的技术指标包括项目总数、基金项目类别和科研经费投入。
所述的人才水平维度的技术指标包括人才平均年龄、人才平均学历和人才数量。
所述的科研成果水平维度中,科研成果包括论文、专利、和其他成果。
所述的论文相关的技术指标包括论文总数、被引总频次、核心期刊论文数、核心期刊被引总频次、基金论文数、基金被引总频次、核心期刊论文占比、核心期刊论文占比、总篇均被引频次、核心期刊篇均被引频次、基金篇均被引频次和H指数,专利相关的技术指标包括专利总数目和发明专利数目,其他成果相关的技术指标包括成果获奖、成果鉴定结果、标准数目、主编或副主编著作。
采用线性回归法分析所述的关键节点与技术指标之间的关系。
与现有技术相比,本发明综合考虑了网络中心度指标和科技资源的文献计量,解决了识别技术图谱中关键节点指标的单一性和脱离实际等缺点,基于复杂网络技术的相关理论,对技术图谱的相关指标进行量化计算,有利于更加准确地识别关键节点,发现技术研究的走向或技术趋势性线索,为科技创新提供决策支持。
附图说明
图1为本实施例基于技术图谱的关键点识别方法流程图;
图2为本实施例构建的技术图谱;
图3为本实施例各评价指标的累积贡献率曲线图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
如图1所示,一种基于技术图谱的关键点识别方法,包括以下步骤:
1)构建技术图谱
从同方知网、国研网、自建资源库、外部专家及研发机构数据,内部项目及科技成果数据,添加政策法规数据、行业动态数据、专利数据及行业标准数据中获取元数据,进行实体、关系和属性的抽取,对抽取的信息进行实体消歧和共指消解,抽取本体,构建技术图谱,如图2所示。
2)从复杂网络的统计指标角度考虑,基于度中心度、接近中心度、介数中心度等指标的大小来定位关键节点,具备高中介中心性和高频特性的节点,就是本领域内的关键技术,代表着这段时期的研究热点主题;
度中心度是一个节点与其他节点直接连接的总和。由于技术图谱的连接是有方向的,则可分为点入中心度和点出中心度。结合点入中心度和点出中心度综合考虑,节点的度中心度的计算公式为:其中u是一个节点,n是图中节点的个数,Xvu表示节点v与u之间之间是否直接相连。中心度是网络分析中刻画节点中心性的最直接度量指标,它反映了一个节点的凝聚力。一个节点的度中心性越高,该节点在网络中就越重要;
接近中心度是一个节点到所有其他节点的最短路径距离之和的倒数。它反映网络中某一节点与其他节点之间的接近程度。节点的接近中心度标准化计算公式为:其中u是一个节点,n是图中节点的个数,d(u,v)是另一个节点v与u之间最短的路径距离。由于技术图谱的连接是有方向的,则可分为入接近中心度和出接近中心度。入接近中心度反映节点的整合力,出接近中心度反映节点的辐射力;
介数中心度是经过一个节点的最短路径的数目。即一个结点担任其它任意两个结点之间最短路径的桥梁的次数。节点介数中心度计算公式为: 其中,u是一个节点,p是节点s和t之间最短路径的总数,p(u)是节点s和t之间通过节点u的最短路径数。一个结点充当“中介”的次数越高,它的介数中心度就越大,它在网络中起到“交通枢纽”的作用。
3)基于科技资源的文献计量,从科研投入、科研成果两个方面入手;
科研投入又分为科研项目和人才梯队,科研项目包括项目总数、基金项目和科研经费投入,人才梯队又包括人才平均年龄、人才平均学历和人才数量;
科研成果包括论文、专利、标准、专著和成果,其中,论文需要考虑的因素是论文总数、被引总频次、核心期刊论文数、核心期刊被引总频次、基金论文数、基金被引总频次、核心期刊论文占比、核心期刊论文占比、总篇均被引频次、核心期刊篇均被引频次、基金篇均被引频次和H指数,专利包括专利总数目和发明专利数目,成果包括成果获奖和成果鉴定,还有标准数目、主编或者副主编著作等;
4)通过主成分分析将2)和3)中定义的多维度的评估指标转化为相互独立的综合评估指标,消除评估指标间的相关性,简化评估节点关键性的指标数。
本发明对200项技术在科技资料中的共现关系构建了技术图谱,从网络拓扑结构、项目水平、人才水平和科研成果这几个维度来评估节点的关键性。分别计算每项技术对应的27项评估指标,构成一个200*27的矩阵,对该矩阵进行主成分分析,得到特征根、贡献率和累积贡献率,其累积贡献率如图3所示:
从图中可以看出,前5个主成分的累计贡献率达到90.79%。因此只选取前5个主成分可以充分代表27个评估指标所含的信息。通过计算前5个主成分对应的原指标权重值矩阵与评估指标矩阵的乘积,可以将评价矩阵约简为200*5。
5)利用线性回归表达式,以前5个主成分的贡献率作为主成分的权重,可以得到节点关键性的综合数值。基于4)的结果,得到评价节点关键性的综合函数:
Z=0.3284*y1+0.1531*y2+0.2157*y3+0.1196*y4+0.0911*y5
通过函数计算,对得到的数值进行排序,可以得到关键节点,在网络以醒目的颜色加以标记,便于识别。另外对于研究领域、作者、研究机构等主体构成的网络也可以采用这种方法来识别网络中的关键节点节点。
Claims (10)
1.一种基于技术图谱的关键点识别方法,其特征在于,包括:
构建技术图谱;
对所述技术图谱中的节点数据,进行中心度计算,得到关键节点;
采用主成分分析法,对所述的节点数据的多个维度的技术指标进行简化;
分析所述的关键节点与技术指标之间的关系,得到不同维度下的关键节点。
2.根据权利要求1所述的一种基于技术图谱的关键点识别方法,其特征在于,所述的技术图谱根据多个网站和数据库的科技成果,采用实体、关系和属性的抽取方法,通过知识融合后构建。
3.根据权利要求2所述的一种基于技术图谱的关键点识别方法,其特征在于,所述的网站和数据库包括同方知网、国研网、自建资源库、研发机构数据、政策法规数据、行业动态数据、专利数据库、行业标准数据库中的至少一个。
4.根据权利要求1所述的一种基于技术图谱的关键点识别方法,其特征在于,所述的中心度包括度中心度、接近中心度和介数中心度。
5.根据权利要求1所述的一种基于技术图谱的关键点识别方法,其特征在于,所述的技术指标的维度包括项目水平维度、人才水平维度、科研成果水平维度。
6.根据权利要求5所述的一种基于技术图谱的关键点识别方法,其特征在于,所述的项目水平维度的技术指标包括项目总数、基金项目类别和科研经费投入。
7.根据权利要求5所述的一种基于技术图谱的关键点识别方法,其特征在于,所述的人才水平维度的技术指标包括人才平均年龄、人才平均学历和人才数量。
8.根据权利要求5所述的一种基于技术图谱的关键点识别方法,其特征在于,所述的科研成果水平维度中,科研成果包括论文、专利、和其他成果。
9.根据权利要求8所述的一种基于技术图谱的关键点识别方法,其特征在于,所述的论文相关的技术指标包括论文总数、被引总频次、核心期刊论文数、核心期刊被引总频次、基金论文数、基金被引总频次、核心期刊论文占比、核心期刊论文占比、总篇均被引频次、核心期刊篇均被引频次、基金篇均被引频次和H指数,专利相关的技术指标包括专利总数目和发明专利数目,其他成果相关的技术指标包括成果获奖、成果鉴定结果、标准数目、主编或副主编著作。
10.根据权利要求1所述的一种基于技术图谱的关键点识别方法,其特征在于,采用线性回归法分析所述的关键节点与技术指标之间的关系。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010559077.8A CN111813951A (zh) | 2020-06-18 | 2020-06-18 | 一种基于技术图谱的关键点识别方法 |
PCT/CN2020/136036 WO2021253758A1 (zh) | 2020-06-18 | 2020-12-14 | 一种基于技术图谱的关键点识别方法 |
AU2020327352A AU2020327352B2 (en) | 2020-06-18 | 2020-12-14 | Key node identification method based on technology graph |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010559077.8A CN111813951A (zh) | 2020-06-18 | 2020-06-18 | 一种基于技术图谱的关键点识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111813951A true CN111813951A (zh) | 2020-10-23 |
Family
ID=72845160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010559077.8A Pending CN111813951A (zh) | 2020-06-18 | 2020-06-18 | 一种基于技术图谱的关键点识别方法 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN111813951A (zh) |
AU (1) | AU2020327352B2 (zh) |
WO (1) | WO2021253758A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021253758A1 (zh) * | 2020-06-18 | 2021-12-23 | 国网上海市电力公司 | 一种基于技术图谱的关键点识别方法 |
WO2023207013A1 (zh) * | 2022-04-26 | 2023-11-02 | 广州广电运通金融电子股份有限公司 | 一种基于图嵌入的关系图谱关键人员分析方法及系统 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114417837B (zh) * | 2022-01-19 | 2024-02-13 | 合肥工业大学 | 基于主题演化趋势的科技大数据流行性及前沿性度量方法 |
CN114567562B (zh) * | 2022-03-01 | 2024-02-06 | 重庆邮电大学 | 一种电网与通信网耦合网络关键节点识别的方法 |
CN116595192B (zh) * | 2023-05-18 | 2023-11-21 | 中国科学技术信息研究所 | 科技前沿信息获取方法、装置、电子设备和可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295692A (zh) * | 2016-08-05 | 2017-01-04 | 北京航空航天大学 | 基于降维与支持向量机的产品早期故障根原因识别方法 |
CN109446342A (zh) * | 2018-10-30 | 2019-03-08 | 沈阳师范大学 | 一种基于赫希曼指数的中小学教育知识图谱分析方法及系统 |
CN110490331A (zh) * | 2019-08-23 | 2019-11-22 | 北京明略软件系统有限公司 | 知识图谱中节点的处理方法及装置 |
WO2020048058A1 (zh) * | 2018-09-03 | 2020-03-12 | 平安科技(深圳)有限公司 | 基金知识推理方法、系统、计算机设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009076728A1 (en) * | 2007-12-17 | 2009-06-25 | Leximancer Pty Ltd | Methods for determining a path through concept nodes |
CN110032665B (zh) * | 2019-03-25 | 2023-11-17 | 创新先进技术有限公司 | 确定关系网络图中图节点向量的方法及装置 |
CN111813951A (zh) * | 2020-06-18 | 2020-10-23 | 国网上海市电力公司 | 一种基于技术图谱的关键点识别方法 |
-
2020
- 2020-06-18 CN CN202010559077.8A patent/CN111813951A/zh active Pending
- 2020-12-14 AU AU2020327352A patent/AU2020327352B2/en active Active
- 2020-12-14 WO PCT/CN2020/136036 patent/WO2021253758A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295692A (zh) * | 2016-08-05 | 2017-01-04 | 北京航空航天大学 | 基于降维与支持向量机的产品早期故障根原因识别方法 |
WO2020048058A1 (zh) * | 2018-09-03 | 2020-03-12 | 平安科技(深圳)有限公司 | 基金知识推理方法、系统、计算机设备和存储介质 |
CN109446342A (zh) * | 2018-10-30 | 2019-03-08 | 沈阳师范大学 | 一种基于赫希曼指数的中小学教育知识图谱分析方法及系统 |
CN110490331A (zh) * | 2019-08-23 | 2019-11-22 | 北京明略软件系统有限公司 | 知识图谱中节点的处理方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021253758A1 (zh) * | 2020-06-18 | 2021-12-23 | 国网上海市电力公司 | 一种基于技术图谱的关键点识别方法 |
WO2023207013A1 (zh) * | 2022-04-26 | 2023-11-02 | 广州广电运通金融电子股份有限公司 | 一种基于图嵌入的关系图谱关键人员分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
AU2020327352B2 (en) | 2023-01-05 |
AU2020327352A1 (en) | 2022-01-20 |
WO2021253758A1 (zh) | 2021-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111813951A (zh) | 一种基于技术图谱的关键点识别方法 | |
JP4920023B2 (ja) | オブジェクト間競合指標計算方法およびシステム | |
US10380265B2 (en) | Statistical process control and analytics for translation supply chain operational management | |
EP1788494A1 (en) | Tracking usage of data elements in electronic business communications | |
CN104081392A (zh) | 社会媒体配置文件的影响评分 | |
KR20160104064A (ko) | 복잡한 양자 또는 다자 상대방 관계를 탐색하기 위해 이용되는 다차원 재귀적 학습 과정 및 시스템 | |
CN105868956A (zh) | 一种数据处理方法及装置 | |
Qureshi et al. | OpenRank–a novel approach to rank universities using objective and publicly verifiable data sources | |
CN111143394A (zh) | 知识数据处理方法、装置、介质及电子设备 | |
CN113610626A (zh) | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 | |
Shi et al. | [Retracted] Research on Fast Recommendation Algorithm of Library Personalized Information Based on Density Clustering | |
CN112990575A (zh) | 基于知识图谱的产业发展路径预测方法及其装置 | |
CN117370326A (zh) | 一种数据评估方法、装置、电子设备及介质 | |
Qu et al. | Research on identification of key processes in machining process based on PageRank algorithm | |
CN112818221B (zh) | 实体的热度确定方法、装置、电子设备及存储介质 | |
Liu et al. | Application of master data classification model in enterprises | |
CN115827994A (zh) | 一种数据处理方法、装置、设备、存储介质 | |
Soheili et al. | An evaluation of information behaviour studies through the Scholarly Capital Model | |
Wang et al. | A data quality improvement method based on the greedy algorithm | |
Li et al. | Research on optimization of process parameters of traditional Chinese medicine based on data mining technology | |
Sikdar et al. | On the effectiveness of the scientific peer-review system: a case study of the Journal of High Energy Physics | |
KR102276448B1 (ko) | 특허분류코드를 활용한 발명패턴 분석시스템 및 이를 이용한 발명패턴 분석방법 | |
Martínez-Hernández et al. | Functional time series analysis and visualization based on records | |
Wijaya et al. | Analysis of dominant external factors on construction project overhead costs | |
Zhao | Smart home market analysis system based on data mining and KM algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |