CN115238040A - 一种钢铁材料学知识图谱构建方法及系统 - Google Patents
一种钢铁材料学知识图谱构建方法及系统 Download PDFInfo
- Publication number
- CN115238040A CN115238040A CN202210921904.2A CN202210921904A CN115238040A CN 115238040 A CN115238040 A CN 115238040A CN 202210921904 A CN202210921904 A CN 202210921904A CN 115238040 A CN115238040 A CN 115238040A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- entity
- core concept
- core
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种钢铁材料学知识图谱构建方法及系统,属于知识图谱构建技术领域,在钢铁材料学的众多文本信息中自动化确定领域内的核心概念词,并根据核心概念词自动获取相关的领域数据,利用TransE模型获取初始知识图谱中的实体向量,进而能自动进行实体向量融合与领域数据聚类,并且能够根据聚类结果更新核心概念层,并完成对知识图谱的更新,最终构建的钢铁材料学知识图谱能够对钢铁材料领域的知识数据进行简单清晰的表达,有助于提高钢铁材料领域知识的利用率。
Description
技术领域
本发明涉及知识图谱构建技术领域,特别是涉及一种钢铁材料学知识图谱构建方法及系统。
背景技术
目前,随着钢铁企业规模的不断扩大以及各种应用的逐渐增多,钢铁材料领域没有科学有效的知识表达和结构呈现方式,钢铁材料信息的应用是特定的、异构的和分散的,它们分散地存在于不同的数据源中,用户很难找到所需的信息。通常来讲,结构化知识大多存在于数据库中,半结构化和非结构化知识往往以段落或者文章形式留存在文献手册等资料中,且这些知识间关联性较弱,经常独立存在,要想获得简单清晰的表达知识仍然较为困难。
发明内容
本发明的目的是提供一种钢铁材料学知识图谱构建方法及系统,实现了对钢铁材料领域的知识数据进行简单清晰的表达,有助于提高钢铁材料领域知识的利用率。
为实现上述目的,本发明提供了如下方案:
一种钢铁材料学知识图谱构建方法,所述钢铁材料学知识图谱构建方法包括以下步骤:
获取钢铁材料学的文本信息,从各文本信息中选取若干个核心概念词,构建核心概念层;
根据所述核心概念层,获取与各核心概念词相关的领域数据,得到领域数据库;所述领域数据库中包括结构化的领域数据和非结构化的领域数据;
利用IDCNN-CRF模型对非结构化的所述领域数据进行实体提取和属性提取,得到结构化的领域数据;
根据结构化的领域数据和各领域数据的词间关系,构建初始知识图谱;所述初始知识图谱中包括若干个实体三元组,所述实体三元组包括头部实体、尾部实体和头尾关系;
利用TransE模型将各实体三元组转换为实体向量,计算各实体向量两两之间的相似度评分,并将相似度评分大于预设阈值的两个实体向量融合,得到融合知识图谱;
对所述融合知识图谱中的实体进行聚类,判断是否存在新的核心概念词,得到第一判断结果;
若所述第一判断结果为是,则将所述新的核心概念词更新到所述核心概念层中,并跳转到步骤“根据所述核心概念层,获取与各核心概念词相关的领域数据,得到领域数据库”;
若所述第一判断结果为否,则将所述融合知识图谱作为最终的钢铁材料学知识图谱。
可选地,所述获取钢铁材料学的文本信息,从各文本信息中选取若干个核心概念词,构建核心概念层,具体包括:
获取钢铁材料学的若干条文本信息;
对各所述文本信息进行分词处理,得到若干个词语,以及各所述词语的词性、各所述词语所属的文本信息和各所述词语在所属文本信息中的位置;
对各所述词语进行去重,并按照各所述词语的词性,对各所述词语进行过滤,保留词性为名词,机构团体,专用名词,动词和动名词的词语,作为保留词语集;
计算所述保留词语集中各词语的TF-IDF分数,并按照TF-IDF分数将各所述词语进行降序排序;
选择排名前topN个词语作为核心关键词;
根据各所述核心关键词在所属文本信息中的位置,在所述核心关键词前后分别记载的若干个词语中,选取出现频次大于其他词语出现频次的词语作为核心关联词;所述核心关键词和所述核心关联词共同组成核心概念词;
根据各核心概念词之间的词间关系,构建核心概念层;所述词间关系包括:上下关系、同义关系、属性关系、概念实例关系以及一般关系。
可选地,根据下式计算所述保留词语集中各词语的TF-IDF分数:
其中,Fm表示所述词语在各文本信息中出现的次数,N表示所述保留词语集中的词语数量,Dm表示包括所述词语的文本信息数量,i表示文本信息数量。
可选地,在所述利用IDCNN-CRF模型对非结构化的所述领域数据进行实体提取和属性提取之前,所述钢铁材料学知识图谱构建方法还包括:
针对任一非结构化的领域数据,利用分词算法对所述领域数据进行分词处理,根据各分词的词向量计算得到所述领域数据的句向量;
根据各非结构化的领域数据的句向量,利用k-means聚类算法对各非结构化的领域数据进行聚类,得到若干个聚类分堆;
分别在各聚类分堆中选取等比例的非结构化的领域数据作为人工标注集;所述人工标注集中包括若干个非结构化的领域数据以及各非结构化的领域数据每个字的标注标签;所述标注标签包括:实体、属性、属性值以及无关值;
将所述人工标注集,按照预设比例分为训练集、验证集和测试集;
利用所述训练集训练IDCNN-CRF模型,将非结构化的领域数据作为输入,将非结构化的领域数据每个字的标注标签作为目标输出,得到初始IDCNN-CRF模型;
利用所述验证集对所述初始IDCNN-CRF模型的超参数进行调整,得到调整IDCNN-CRF模型;
将所述测试集输入所述调整IDCNN-CRF模型中,根据所述调整IDCNN-CRF模型对非结构化的领域数据预测输出的每个字的标注标签和测试集中非结构化的领域数据每个字的标注标签计算评价指标;
若所述评价指标高于预设指标阈值,则利用所述调整IDCNN-CRF对非结构化的所述领域数据进行实体提取和属性提取,得到结构化的领域数据;
若所述评价指标低于预设指标阈值,则对人工标注集进行重新标注,并跳转指步骤“将非结构化的领域数据作为输入,将非结构化的领域数据每个字的标注标签作为目标输出,利用所述训练集训练IDCNN-CRF模型,得到初始IDCNN-CRF模型”。
可选地,所述TransE模型的损失函数如下式所示:
其中,S表示所述初始知识图谱的三元组集合;(Eh,El,Et)为三元组集合中的一个三元组,Eh为三元组中的头部实体,El为三元组中的头尾关系,Et为三元组中的尾部实体,(Eh`,El,Et`)为将三元组的头部实体和尾部实体随机替换后的负例三元组,γ表示为正确三元组和所述负例三元组的容许误差,||2表示L2范数,[]+表示合页损失函数,取非负结果。
可选地,根据下式计算各实体向量两两之间的相似度评分:
其中,EA和EB分别表示不同的实体向量,n为实体向量的维度。
对应于前述的钢铁材料学知识图谱构建方法,本发明还提供了一种钢铁材料学知识图谱构建系统,所述钢铁材料学知识图谱构建系统包括:
核心概念层确定模块,用于获取钢铁材料学的文本信息,从钢铁材料学的各文本信息中选取若干个核心概念词,确定核心概念层;
领域数据库构建模块,用于根据所述核心概念层,获取与各核心概念词相关的领域数据,得到领域数据库;所述领域数据库中包括结构化的领域数据和非结构化的领域数据;
结构化数据提取模块,用于利用IDCNN-CRF模型对非结构化的所述领域数据进行实体提取和属性提取,得到结构化的领域数据;
初始知识图谱构建模块,用于根据结构化的各领域数据和各领域数据之间的词间关系,构建初始知识图谱;所述初始知识图谱中包括若干个实体三元组,所述实体三元组包括头部实体、尾部实体和头尾关系;
实体向量融合模块,用于利用TransE模型将各实体三元组转换为实体向量,计算各实体向量两两之间的相似度评分,并将相似度评分大于预设阈值的两个实体向量融合,得到融合知识图谱;
领域数据聚类模块,用于对所述融合知识图谱中的实体进行聚类,判断是否存在新的核心概念词,得到第一判断结果;若所述第一判断结果为是,则调用核心概念层更新模块;若所述第一判断结果为否,则将所述融合知识图谱作为最终的钢铁材料学知识图谱;
核心概念层更新模块,用于将所述新的核心概念词更新到所述核心概念层中,并重新调用所述领域数据库构建模块。
可选地,所述核心概念层确定模块包括:
文本信息获取单元,用于获取钢铁材料学的若干条文本信息;
分词处理单元,用于对各所述文本信息进行分词处理,得到若干个词语,以及各所述词语的词性、各所述词语所属的文本信息和各所述词语在所属文本信息中的位置;
保留词语集确定单元,用于对各所述词语进行去重,并按照各所述词语的词性,对各所述词语进行过滤,保留词性为名词,机构团体,专用名词,动词和动名词的词语,作为保留词语集;
TF-IDF分数计算单元,用于计算所述保留词语集中各词语的TF-IDF分数,并按照TF-IDF分数将各所述词语进行降序排序;
核心关键词确定单元,用于选择排名前topN个词语作为核心关键词;
核心关联词确定单元,用于根据各所述核心关键词在所属文本信息中的位置,在所述核心关键词前后分别记载的若干个词语中,选取出现频次大于其他词语出现频次的词语作为核心关联词;所述核心关键词和所述核心关联词共同组成核心概念词;
核心概念层构建单元,用于根据各核心概念词之间的词间关系,构建核心概念层;所述词间关系包括:上下关系、同义关系、属性关系、概念实例关系以及一般关系。
可选地,根据下式计算所述保留词语集中各词语的TF-IDF分数:
其中,Fm表示所述词语在各文本信息中出现的次数,N表示所述保留词语集中的词语数量,Dm表示包括所述词语的文本信息数量,i表示文本信息数量。
可选地,根据下式计算各实体向量两两之间的相似度评分:
其中,EA和EB分别表示不同的实体向量,n为实体向量的维度。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的一种钢铁材料学知识图谱构建方法及系统,钢铁材料学知识图谱构建方法包括:获取钢铁材料学的文本信息,从各文本信息中选取若干个核心概念词,构建核心概念层;根据核心概念层,获取与各核心概念词相关的领域数据,得到领域数据库;利用IDCNN-CRF模型对非结构化的领域数据进行实体提取和属性提取,得到结构化的领域数据;根据结构化的各领域数据和各领域数据之间的词间关系,构建初始知识图谱;利用TransE模型将各实体三元组转换为实体向量,计算各实体向量两两之间的相似度评分,并将相似度评分大于预设阈值的两个实体向量融合,得到融合知识图谱;对融合知识图谱中的实体进行聚类,判断是否存在新的核心概念词,得到第一判断结果;第一判断结果为是时,则将新的概念词更新到核心概念层中,并重新确定领域数据库;否则将融合知识图谱作为最终的钢铁材料学知识图谱。本发明提供的钢铁材料学知识图谱构建方法及系统,在钢铁材料学的众多文本信息中自动化确定领域内的核心概念词,并根据核心概念词自动获取相关的领域数据,利用TransE模型获取初始知识图谱中的实体向量,进而能自动进行实体向量融合与领域数据聚类,并且能够根据聚类结果更新核心概念层,并完成对知识图谱的更新,最终构建的钢铁材料学知识图谱能够对钢铁材料领域的知识数据进行简单清晰的表达,有助于提高钢铁材料领域知识的利用率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种钢铁材料学知识图谱构建方法的流程图;
图2为本发明实施例1提供的知识图谱构建方法中核心概念层的示意图;
图3为本发明实施例2提供的一种钢铁材料学知识图谱构建系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种钢铁材料学知识图谱构建方法及系统,提高了钢铁材料领域知识的利用率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1:
本实施例提供了一种钢铁材料学知识图谱构建方法,如图1所示的流程图,钢铁材料学知识图谱构建方法包括以下步骤:
S1、获取钢铁材料学的文本信息,从各文本信息中选取若干个核心概念词,构建核心概念层;具体包括:
S11、获取钢铁材料学的若干条文本信息;文本信息可以为来自知网或其他学术网站关于钢材领域综述的文章摘要与互联网上的与钢材领域相关的百科数据。获取到的信息统一转换为TXT格式保存,并将处理过的TXT文本信息放入指定的位置保存。
本实施例在知网中以《钢铁材料》为关键词进行搜索共收集了34篇综述文章,在互联网上收集到了38种有关钢材牌号的百度百科数据,总计72个文本信息。
S12、对各所述文本信息进行分词处理,得到若干个词语,以及各所述词语的词性、各所述词语所属的文本信息和各所述词语在所属文本信息中的位置;分词处理的结果是带有词性标注的字符串,解析字符串并以结构体存储,结构体包含<词语,词语所在文件名称,词长,词性,位置信息>;之后使用停用词表,尽可能多的去除不符合本领域概念的词语最终得到处理后的本体数据集S。
本实施例对72个文本信息按1-72进行标号并利用hanlp对各文本信息进行分词并进行词性标注,采用的停用词表包含的词的个数为1893个,最后得到的本体数据集S包含6489个结构体,例如<组织特点,2,4,n,39>,其中2代表“组织特点”该词位于72个文档中的第2个,4代表词长,n代表名词,39代表该词在该文本信息中位于第39个。
S13、对各所述词语进行去重,并按照各所述词语的词性,对各所述词语进行过滤,保留词性为名词,机构团体,专用名词,动词和动名词的词语,作为保留词语集;对本体数据集S进行词性筛选,保留名词(n),机构团体(nt),其他专名(nz),动词(v),动名词(vn)这5个词性的词语,总数为N,去重得到m个候选关键词集D,D=[t1,t2,...,tm];
本实施例中,最终得到的总数为3280个,去重得到1370个。
S14、计算所述保留词语集中各词语的TF-IDF分数,并按照TF-IDF分数将各所述词语进行降序排序;本实施例中,根据下式计算所述保留词语集中各词语的TF-IDF分数:
其中,Fm表示所述词语在各文本信息中出现的次数,N表示所述保留词语集中的词语数量,Dm表示包括所述词语的文本信息数量,i表示文本信息数量。
S15、选择排名前topN个词语作为核心关键词;由于一些生僻词的IDF(反文档频率)会比较高,因此需要人工去除一些生僻字,最终得到排名前topN个词语作为核心关键词。
本实施例选取topN为20,得到的结果依次为:钢材牌号,类型,化学成分,工艺参数,力学性能,碳元素,硅元素,抗拉强度,锰元素,屈服强度,磷元素,伸长率,断面压缩率,硫元素,用途,标准,宏观性能,交货状态,产品规格,其他名称,并确定钢材牌号为主题词。
S16、根据各所述核心关键词在所属文本信息中的位置,在所述核心关键词前后分别记载的若干个词语中,选取出现频次大于其他词语出现频次的词语作为核心关联词;所述核心关键词和所述核心关联词共同组成核心概念词;对每一个核心关键词的关联词选择时,该核心关键词在多个文档中有多处存在,选择该核心关键词所有位置左右的词语中词频最高的前两个词语作为核心关联词;本实施例中选择词间距离为3,得到的核心关联词包括:镍元素,铬元素,分类依据,生产设备,优质钢,普通钢,碳钢,合金钢,结构钢,工具钢,特殊性能钢,不锈钢,易切削钢,马氏体钢。
S17、根据各核心概念词之间的词间关系,构建如图2所示的核心概念层;所述词间关系包括:上下关系、同义关系、属性关系、整体与局部关系、概念实例关系以及一般关系。
上下关系主要是根据范围确定父概念与子概念;同义关系主要指概念上相同或者相似的表达,主要从字面表示的不同对同一个概念或者本体进行抽取;属性关系为实体及其特征之间的关系。整体与局部关系它们之间是部分是整体形成不可缺少的一部分;概念与实例关系主要是指上层概念与下级具体实例之间的关系;但并不是所有的关系都能归结到这5种关系上来,其他无法明确归类的关系在本实施例中统一称为一般关系。
本实施例中各核心概念词之间的词间关系如表1所示:
表1
S2、根据所述核心概念层,获取与各核心概念词相关的领域数据,得到领域数据库;本实施例中,从互联网上获取钢铁材料领域与步骤S1获取的核心概念层中各核心概念词有关的领域数据,对领域数据根据核心概念词进行分类从而构建领域数据库;所述领域数据库中包括结构化的领域数据和非结构化的领域数据。
S3、利用IDCNN-CRF模型对非结构化的所述领域数据进行实体提取和属性提取,得到结构化的领域数据。IDCNN-CRF模型应用IDCNN作为编码器来为句子的每一个字生成每个标签的概率,之后利用CRF模型加入了对标签转移概率的约束,能通过邻近标签的关系获得一个最优的预测序列从而对句子的实体进行标注,并对句子中的实体和属性进行提取,得到结构化数据。
S4、根据结构化的领域数据和各领域数据的词间关系,构建初始知识图谱;所述初始知识图谱中包括若干个实体三元组,所述实体三元组包括头部实体、尾部实体和头尾关系;本实施例中,建立的初始知识图谱的规模如表2所示:
表2
主题词总数 | 节点总数 | 关系总数 | 本体类数 | 关系类数 |
16452 | 73942 | 318714 | 34 | 4 |
表中主题词总数为根据主题词获取的领域数据个数,本实施例中主题词为钢材牌号;节点总数为头部实体和尾部实体的总数,也是领域数据的总数;关系总数是指各节点之间的关系数量,每个实体都有至少一条关系。
S5、利用TransE模型将各实体三元组转换为实体向量;
本实施例中,利用知识表示模型TransE在保留语义信息的基础上,将实体和关系进行向量化表示,所述TransE模型的损失函数如下式所示:
其中,S表示所述初始知识图谱的三元组集合;(Eh,El,Et)为三元组集合中的一个三元组,Eh为三元组中的头部实体,El为三元组中的头尾关系,Et为三元组中的尾部实体,(Eh`,El,Et`)为将三元组的头部实体和尾部实体随机替换后的负例三元组,γ表示为正确三元组和所述负例三元组的容许误差,||2表示求L2范数,[]+表示合页损失函数,取非负结果。
S6、计算各实体向量两两之间的相似度评分,并将相似度评分大于预设阈值的两个实体向量融合,得到融合知识图谱;
本实施例中,根据下式计算各实体向量两两之间的相似度评分:
其中,EA和EB分别表示不同的实体向量,n为实体向量的维度。
本实施例中,很多个钢材牌号由于各种标准导致的牌号名称各不相同,通过此方法可以有效的对相同的牌号进行融合,比如Q275D与U12759代表同一种钢,U12759执行的为中国ISC标准,二者的实体间相似度评分为0.965,阈值p为0.9,最终可以将二者融合,通过此步骤得到的融合知识图谱的规模如表3所示:
表3
主题词(牌号)总数 | 节点总数 | 关系总数 |
11881 | 66849 | 247784 |
S7、对所述融合知识图谱中的实体进行聚类。
S8、判断聚类后是否存在新的核心概念词,得到第一判断结果;若所述第一判断结果为是,则执行步骤S9,否则执行步骤S10。
本实施例中,聚类中心根据肘部法选取,并在聚类后出现了新的类别,即出现了新的核心概念词,如标准说明,锻钢,铸钢,专业用钢四类。
S9、将所述新的核心概念词更新到所述核心概念层中,并跳转到步骤S2“根据所述核心概念层,获取与各核心概念词相关的领域数据,得到领域数据库”。
在本实施例中,经过人工的审核确认,将S7聚类后出现的新的类别词如标准说明,锻钢,铸钢,专业用钢,作为核心概念词添加到核心概念层中,核心概念层中的核心概念词数量由34变为38,重新跳转到步骤S2,重复步骤S2~S8,最终得到的知识图谱的规模如表4所示:
表4
主题词(牌号)总数 | 节点总数 | 关系总数 | 本体类数 | 关系类数 |
11881 | 66849 | 247784 | 38 | 4 |
S10、将所述融合知识图谱作为最终的钢铁材料学知识图谱。
在一些实施方式中,在所述步骤S3利用IDCNN-CRF模型对非结构化的所述领域数据进行实体提取和属性提取之前,所述钢铁材料学知识图谱构建方法还包括对IDCNN-CRF进行训练调整的步骤A1~A9:
A1、针对任一非结构化的领域数据,利用分词算法对所述领域数据进行分词处理,根据各分词的词向量计算得到所述领域数据的句向量;
本实施例中,利用hanlp提供的中文分词方法对非结构化的领域数据进行分词处理,并使用前文所提到的停用词表去除其中的停用词,利用word2vec得到128维的词向量,将一个领域数据包含的所有词相加,然后归一化最终得到句向量,维度同样为128。
A2、根据各非结构化的领域数据的句向量,利用k-means聚类算法对各非结构化的领域数据进行聚类,得到若干个聚类分堆;本实施例中将得到的句向量利用K-means方法对句向量之间的欧氏距离进行聚类分析,聚类中心的个数采用肘部法得到,最终聚类中心的个数为15。
A3、分别在各聚类分堆中选取等比例的非结构化的领域数据作为人工标注集;所述人工标注集中包括若干个非结构化的领域数据以及各非结构化的领域数据每个字的标注标签;所述标注标签包括:实体、属性、属性值以及无关值;本实施例中,根据聚类结果在每个类别堆中取1/8的句子得到人工标注集。本实施例中收集到的非结构化的领域数据共8731条,最终得到的人工标注集中的领域数据为1100条。
对人工标注集中的领域数据进行人工标注,得到标注样本。比如领域数据为“Y12号钢材属于硫系易切削钢,交货状态抗拉强度500Mpa”的文本,则进行人工标注后的结果为“Y/B-G1/I-G2/I-G钢/O材/O属/O于/O硫/B-G系/B-G易/B-G切/B-G削/B-G钢/B-G,/O交/O货/O状/O态/O抗/B-P拉/I-P强/I-P度/I-P5/B-N0/I-N0/I-NM/I-Np/I-Na/I-N”。G、P、N分别表示实体、属性、属性值三类实体,O表示不关心的其他类。
A4、将所述人工标注集,按照预设比例分为训练集、验证集和测试集;将标注样本按照8:1:1切分训练集,验证集和测试集;
A5、利用所述训练集训练IDCNN-CRF模型,将非结构化的领域数据作为输入,将非结构化的领域数据每个字的标注标签作为目标输出,得到初始IDCNN-CRF模型;
训练IDCNN-CRF模型,对于一个句子序列X=(x1,x2,...,xn),对于预测标签序列Y=(y1,y2,...,yn)而言,它的分数函数为:
其中,s(X,Y)为对句子序列X=(x1,x2,...,xn),预测标签序列为Y=(y1,y2,...,yn)的得分,P是IDCNN的输出得分矩阵,表示第xi个词预测标签为yi的得分,A为转移分数矩阵,为标签yi转移到标签yi+1的得分。
预测序列Y产生的概率为:
模型的损失函数为:
A6、利用所述验证集对所述初始IDCNN-CRF模型的超参数进行调整,得到调整IDCNN-CRF模型;在本实施例中,模型的超参数设置如下,最长的句子最长长度max_len为100,词向量编码长度embedding_dim为128,drop_rate取值0.5,drop_rate为网络中的参数,网络训练时随机屏蔽50%的神经元,防止过拟合。
A7、将所述测试集输入所述调整IDCNN-CRF模型中,根据所述调整IDCNN-CRF模型对非结构化的领域数据预测输出的每个字的标注标签和测试集中非结构化的领域数据每个字的标注标签计算评价指标;
利用验证集调整好模型的超参数之后,得到评价指标准确率与召回率与F1值,公式如下:
式中:R(i)表示模型对钢材牌号i预测的替代牌号集合;T(i)表示在测试集中钢材牌号i的替代牌号集合。
若指标未达到阈值,继续在根据上面的聚类分析得到的类别语料中进行人工标注,重新训练模型,直到达到阈值;当达到阈值,则可以利用该模型预测未标注的非结构化的领域数据,抽取句子中的实体和属性最终得到结构化的领域数据;
本实施例中最终在测试集得到的评价指标如表5所示:
表5
Moudle | 准确率P | 召回率R | F1值 |
IDCNN_CRF | 84.90% | 80.55% | 82.62% |
模型在测试集的准确率P,召回率R与F1值均超过阈值80%,因此无需进一步标注数据,得到最终的IDCNN-CRF模型进行实体抽取和属性抽取。
A8、若所述评价指标高于预设指标阈值,则利用所述调整IDCNN-CRF对非结构化的所述领域数据进行实体提取和属性提取,得到结构化的领域数据;
A9、若所述评价指标低于预设指标阈值,则对人工标注集进行重新标注,并跳转指步骤A5“利用所述训练集训练IDCNN-CRF模型,将非结构化的领域数据作为输入,将非结构化的领域数据每个字的标注标签作为目标输出,得到初始IDCNN-CRF模型”。
实施例2:
如图3所示的结构示意图,对应于实施例1所提供的一种钢铁材料学知识图谱构建方法,本实施例提供了一种钢铁材料学知识图谱构建系统,钢铁材料学知识图谱构建系统包括:
核心概念层确定模块1,用于获取钢铁材料学的文本信息,从钢铁材料学的各文本信息中选取若干个核心概念词,确定核心概念层;
领域数据库构建模块2,用于根据所述核心概念层,获取与各核心概念词相关的领域数据,得到领域数据库;所述领域数据库中包括结构化的领域数据和非结构化的领域数据;
结构化数据提取模块3,用于利用IDCNN-CRF模型对非结构化的所述领域数据进行实体提取和属性提取,得到结构化的领域数据;
初始知识图谱构建模块4,用于根据结构化的各领域数据和各领域数据之间的词间关系,构建初始知识图谱;所述初始知识图谱中包括若干个实体三元组,所述实体三元组包括头部实体、尾部实体和头尾关系;
实体向量融合模块5,用于利用TransE模型将各实体三元组转换为实体向量,计算各实体向量两两之间的相似度评分,并将相似度评分大于预设阈值的两个实体向量融合,得到融合知识图谱;
领域数据聚类模块6,用于对所述融合知识图谱中的实体进行聚类,判断是否存在新的核心概念词,得到第一判断结果;若所述第一判断结果为是,则调用核心概念层更新模块7;若所述第一判断结果为否,则将所述融合知识图谱作为最终的钢铁材料学知识图谱;
核心概念层更新模块7,用于将所述新的核心概念词更新到所述核心概念层中,并重新调用所述领域数据库构建模块2。
本实施例中,所述核心概念层确定模块1包括:
文本信息获取单元11,用于获取钢铁材料学的若干条文本信息;
分词处理单元12,用于对各所述文本信息进行分词处理,得到若干个词语,以及各所述词语的词性、各所述词语所属的文本信息和各所述词语在所属文本信息中的位置;
保留词语集确定单元13,用于对各所述词语进行去重,并按照各所述词语的词性,对各所述词语进行过滤,保留词性为名词,机构团体,专用名词,动词和动名词的词语,作为保留词语集;
TF-IDF分数计算单元14,用于计算所述保留词语集中各词语的TF-IDF分数,并按照TF-IDF分数将各所述词语进行降序排序;
核心关键词确定单元15,用于选择排名前topN个词语作为核心关键词;
核心关联词确定单元16,用于根据各所述核心关键词在所属文本信息中的位置,在所述核心关键词前后分别记载的若干个词语中,选取出现频次大于其他词语出现频次的词语作为核心关联词;所述核心关键词和所述核心关联词共同组成核心概念词;
核心概念层构建单元17,用于根据各核心概念词之间的词间关系,构建核心概念层;所述词间关系包括:上下关系、同义关系、属性关系、概念实例关系以及一般关系。
本实施例中,根据下式计算所述保留词语集中各词语的TF-IDF分数:
其中,Fm表示所述词语在各文本信息中出现的次数,N表示所述保留词语集中的词语数量,Dm表示包括所述词语的文本信息数量,i表示文本信息数量。
本实施例中,根据下式计算各实体向量两两之间的相似度评分:
其中,EA和EB分别表示不同的实体向量,n为实体向量的维度。
本文中应用了具体个例,但以上描述仅是对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;本领域的技术人员应该理解,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种钢铁材料学知识图谱构建方法,其特征在于,所述钢铁材料学知识图谱构建方法包括:
获取钢铁材料学的文本信息,从各文本信息中选取若干个核心概念词,构建核心概念层;
根据所述核心概念层,获取与各核心概念词相关的领域数据,得到领域数据库;所述领域数据库中包括结构化的领域数据和非结构化的领域数据;
利用IDCNN-CRF模型对非结构化的所述领域数据进行实体提取和属性提取,得到结构化的领域数据;
根据结构化的各领域数据和各领域数据之间的词间关系,构建初始知识图谱;所述初始知识图谱中包括若干个实体三元组,所述实体三元组包括头部实体、尾部实体和头尾关系;
利用TransE模型将各实体三元组转换为实体向量,计算各实体向量两两之间的相似度评分,并将相似度评分大于预设阈值的两个实体向量融合,得到融合知识图谱;
对所述融合知识图谱中的实体进行聚类,判断是否存在新的核心概念词,得到第一判断结果;
若所述第一判断结果为是,则将所述新的核心概念词更新到所述核心概念层中,并跳转到步骤“根据所述核心概念层,获取与各核心概念词相关的领域数据,得到领域数据库”;
若所述第一判断结果为否,则将所述融合知识图谱作为最终的钢铁材料学知识图谱。
2.根据权利要求1所述的钢铁材料学知识图谱构建方法,其特征在于,所述获取钢铁材料学的文本信息,从各文本信息中选取若干个核心概念词,构建核心概念层,具体包括:
获取钢铁材料学的若干条文本信息;
对各所述文本信息进行分词处理,得到若干个词语,以及各所述词语的词性、各所述词语所属的文本信息和各所述词语在所属文本信息中的位置;
对各所述词语进行去重,并按照各所述词语的词性,对各所述词语进行过滤,保留词性为名词,机构团体,专用名词,动词和动名词的词语,作为保留词语集;
计算所述保留词语集中各词语的TF-IDF分数,并按照TF-IDF分数将各所述词语进行降序排序;
选择排名前topN个词语作为核心关键词;
根据各所述核心关键词在所属文本信息中的位置,在所述核心关键词前后分别记载的若干个词语中,选取出现频次大于其他词语出现频次的词语作为核心关联词;所述核心关键词和所述核心关联词共同组成核心概念词;
根据各核心概念词之间的词间关系,构建核心概念层;所述词间关系包括:上下关系、同义关系、属性关系、概念实例关系以及一般关系。
4.根据权利要求1所述的钢铁材料学知识图谱构建方法,其特征在于,在所述利用IDCNN-CRF模型对非结构化的所述领域数据进行实体提取和属性提取之前,所述钢铁材料学知识图谱构建方法还包括:
针对任一非结构化的领域数据,利用分词算法对所述领域数据进行分词处理,根据各分词的词向量计算得到所述领域数据的句向量;
根据各非结构化的领域数据的句向量,利用k-means聚类算法对各非结构化的领域数据进行聚类,得到若干个聚类分堆;
分别在各聚类分堆中选取等比例的非结构化的领域数据作为人工标注集;所述人工标注集中包括若干个非结构化的领域数据以及各非结构化的领域数据每个字的标注标签;所述标注标签包括:实体、属性、属性值以及无关值;
将所述人工标注集,按照预设比例分为训练集、验证集和测试集;
利用所述训练集训练IDCNN-CRF模型,将非结构化的领域数据作为输入,将非结构化的领域数据每个字的标注标签作为目标输出,得到初始IDCNN-CRF模型;
利用所述验证集对所述初始IDCNN-CRF模型的超参数进行调整,得到调整IDCNN-CRF模型;
将所述测试集输入所述调整IDCNN-CRF模型中,根据所述调整IDCNN-CRF模型对非结构化的领域数据预测输出的每个字的标注标签和测试集中非结构化的领域数据每个字的标注标签计算评价指标;
若所述评价指标高于预设指标阈值,则利用所述调整IDCNN-CRF对非结构化的所述领域数据进行实体提取和属性提取,得到结构化的领域数据;
若所述评价指标低于预设指标阈值,则对人工标注集进行重新标注,并跳转指步骤“将非结构化的领域数据作为输入,将非结构化的领域数据每个字的标注标签作为目标输出,利用所述训练集训练IDCNN-CRF模型,得到初始IDCNN-CRF模型”。
7.一种钢铁材料学知识图谱构建系统,其特征在于,所述钢铁材料学知识图谱构建系统包括:
核心概念层确定模块,用于获取钢铁材料学的文本信息,从钢铁材料学的各文本信息中选取若干个核心概念词,确定核心概念层;
领域数据库构建模块,用于根据所述核心概念层,获取与各核心概念词相关的领域数据,得到领域数据库;所述领域数据库中包括结构化的领域数据和非结构化的领域数据;
结构化数据提取模块,用于利用IDCNN-CRF模型对非结构化的所述领域数据进行实体提取和属性提取,得到结构化的领域数据;
初始知识图谱构建模块,用于根据结构化的各领域数据和各领域数据对应的核心概念词之间的词间关系,构建初始知识图谱;所述初始知识图谱中包括若干个实体三元组,所述实体三元组包括头部实体、尾部实体和头尾关系;
实体向量融合模块,用于利用TransE模型将各实体三元组转换为实体向量,计算各实体向量两两之间的相似度评分,并将相似度评分大于预设阈值的两个实体向量融合,得到融合知识图谱;
领域数据聚类模块,用于对所述融合知识图谱中的实体进行聚类,判断是否存在新的核心概念词,得到第一判断结果;若所述第一判断结果为是,则调用核心概念层更新模块;若所述第一判断结果为否,则将所述融合知识图谱作为最终的钢铁材料学知识图谱;
核心概念层更新模块,用于将所述新的核心概念词更新到所述核心概念层中,并重新调用所述领域数据库构建模块。
8.根据权利要求7所述的钢铁材料学知识图谱构建系统,其特征在于,所述核心概念层确定模块包括:
文本信息获取单元,用于获取钢铁材料学的若干条文本信息;
分词处理单元,用于对各所述文本信息进行分词处理,得到若干个词语,以及各所述词语的词性、各所述词语所属的文本信息和各所述词语在所属文本信息中的位置;
保留词语集确定单元,用于对各所述词语进行去重,并按照各所述词语的词性,对各所述词语进行过滤,保留词性为名词,机构团体,专用名词,动词和动名词的词语,作为保留词语集;
TF-IDF分数计算单元,用于计算所述保留词语集中各词语的TF-IDF分数,并按照TF-IDF分数将各所述词语进行降序排序;
核心关键词确定单元,用于选择排名前topN个词语作为核心关键词;
核心关联词确定单元,用于根据各所述核心关键词在所属文本信息中的位置,在所述核心关键词前后分别记载的若干个词语中,选取出现频次大于其他词语出现频次的词语作为核心关联词;所述核心关键词和所述核心关联词共同组成核心概念词;
核心概念层构建单元,用于根据各核心概念词之间的词间关系,构建核心概念层;所述词间关系包括:上下关系、同义关系、属性关系、概念实例关系以及一般关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210921904.2A CN115238040A (zh) | 2022-08-02 | 2022-08-02 | 一种钢铁材料学知识图谱构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210921904.2A CN115238040A (zh) | 2022-08-02 | 2022-08-02 | 一种钢铁材料学知识图谱构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115238040A true CN115238040A (zh) | 2022-10-25 |
Family
ID=83676964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210921904.2A Pending CN115238040A (zh) | 2022-08-02 | 2022-08-02 | 一种钢铁材料学知识图谱构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115238040A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116450856A (zh) * | 2023-06-19 | 2023-07-18 | 航天宏图信息技术股份有限公司 | 气象海洋非结构化文本知识构建方法、装置及电子设备 |
CN116701665A (zh) * | 2023-08-08 | 2023-09-05 | 滨州医学院 | 基于深度学习的中医古籍知识图谱构建方法 |
CN118277638A (zh) * | 2024-05-29 | 2024-07-02 | 天津建设发展集团股份公司 | 企业信息管理方法及系统 |
-
2022
- 2022-08-02 CN CN202210921904.2A patent/CN115238040A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116450856A (zh) * | 2023-06-19 | 2023-07-18 | 航天宏图信息技术股份有限公司 | 气象海洋非结构化文本知识构建方法、装置及电子设备 |
CN116450856B (zh) * | 2023-06-19 | 2023-09-12 | 航天宏图信息技术股份有限公司 | 气象海洋非结构化文本知识构建方法、装置及电子设备 |
CN116701665A (zh) * | 2023-08-08 | 2023-09-05 | 滨州医学院 | 基于深度学习的中医古籍知识图谱构建方法 |
CN118277638A (zh) * | 2024-05-29 | 2024-07-02 | 天津建设发展集团股份公司 | 企业信息管理方法及系统 |
CN118277638B (zh) * | 2024-05-29 | 2024-10-22 | 天津建设发展集团股份公司 | 企业信息管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9971974B2 (en) | Methods and systems for knowledge discovery | |
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
Sebastiani | Classification of text, automatic | |
CN113806563B (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
CN115238040A (zh) | 一种钢铁材料学知识图谱构建方法及系统 | |
WO2024131111A1 (zh) | 一种智能写作方法、装置、设备及非易失性可读存储介质 | |
CN107180026B (zh) | 一种基于词嵌入语义映射的事件短语学习方法及装置 | |
Qu et al. | Improved Bayes method based on TF-IDF feature and grade factor feature for chinese information classification | |
CN113196277A (zh) | 用于检索自然语言文档的系统 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
US20140089246A1 (en) | Methods and systems for knowledge discovery | |
Kaur et al. | Comparative analysis of algorithmic approaches for auto-coding with ICD-10-AM and ACHI | |
CN115292450A (zh) | 一种基于信息抽取的数据分类分级领域知识库构建方法 | |
Atwan et al. | The effect of using light stemming for Arabic text classification | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
Tahrat et al. | Text2geo: from textual data to geospatial information | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
El Kah et al. | Arabic authorship attribution on Twitter: what is really matters? | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
CN116502637A (zh) | 一种结合上下文语义的文本关键词提取方法 | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
Ni'mah et al. | Autonomy Stemmer Algorithm for Legal and Illegal Affix Detection use Finite-State Automata Method | |
CN118761406B (zh) | 一种hazop命名实体识别与实体关系抽取方法 | |
CN117312565B (zh) | 一种基于关系融合与表示学习的文献作者姓名消歧方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |