CN109033166A - 一种人物属性抽取训练数据集构建方法 - Google Patents
一种人物属性抽取训练数据集构建方法 Download PDFInfo
- Publication number
- CN109033166A CN109033166A CN201810636331.2A CN201810636331A CN109033166A CN 109033166 A CN109033166 A CN 109033166A CN 201810636331 A CN201810636331 A CN 201810636331A CN 109033166 A CN109033166 A CN 109033166A
- Authority
- CN
- China
- Prior art keywords
- sentence
- attribute
- character attribute
- character
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 42
- 238000010276 construction Methods 0.000 title claims abstract description 14
- 238000000605 extraction Methods 0.000 title description 17
- 239000000284 extract Substances 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000005516 engineering process Methods 0.000 claims abstract description 8
- 238000001914 filtration Methods 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 abstract description 2
- 238000013480 data collection Methods 0.000 abstract 1
- 230000011218 segmentation Effects 0.000 abstract 1
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002939 deleterious effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种人物属性抽取训练数据集构建方法。首先,下载HTML页面中的文本数据内容,提取描述人物正文内容和属性信息的信息框数据,并进行编码存储和语句切分;然后,对切分后的语句,选取既包含人物名称、人物属性值内容的语句构建人物属性抽取语料数据集;最后,提取人物属性抽取语料数据集中的所有动词,基于信息熵的方法对所有动词进行排序,提取排名靠前的动词作为属性触发词,把人物属性抽取语料数据集中不包含属性触发词的语句删除掉,剩下的语句就组成了人物属性抽取训练数据集。本发明综合利用的网页数据采集、词性分析、词语信息熵计算等技术自动构建人物属性抽取训练数据集,对提高训练数据集构建的效率具有重要意义。
Description
技术领域
本发明涉及一种人物属性抽取训练数据集构建方法,它可以为人物属性各种抽取算法构建模型训练所需的标注数据,适用于网络信息抽取、信息检索等。属于数据挖掘、信息检索技术领域。
背景技术
随着互联网的迅速发展,人们越来越依赖从网上获取所需的知识和信息。然而,网络中的数据都以非结构化形式进行展示,人们很难从如此大规模的非结构化数据中快速找到所需的信息。因此,许多信息抽取算法被提出来,这些算法自动从非结构化数据中抽取出结构化的数据。其中一个重要的信息抽取算法就是人物属性抽取算法,人物属性抽取算法主要用来从给定的文本语句中自动抽取出描述人物各种属性的信息,例如人物的出生地、出生日期、职业、工作单位等。要保证人物属性抽取算法能够准确抽取出用户所需的数据,就需要构建一个大规模的训练数据集对属性抽取算法进行有效地训练。
然而,目前大部分的人物属性抽取训练数据集构建方法都主要依赖于人工标注,这些方法不仅效率低而且对使用者造成极大的物质和人力负担。因此,需要提出一个自动构建人物属性抽取训练数据集的方法,自动收集网络上的人物属性数据,识别其中包含人物属性的语句,进而构建一个训练数据集,为人物属性抽取算法的训练提供数据集。
发明内容
本发明要解决的技术问题:克服现有训练数据集构建技术主要依赖于人工标注的不足,提出一种人物属性抽取训练数据集构建方法。该方法在偏重数据集构建效率的基础上,充分考虑了网络数据中人物属性描述语句的特点,提高了人物属性抽取训练数据集的质量。
本发明的技术解决方案:一种人物属性抽取训练数据集构建方法,它包括网络数据采集、人物属性语料产生、人物属性语料过滤3个部分。网络数据采集部分负责从维基百科网站采集包含人物属性信息的文本数据,并对采集的数据进行预处理。人物属性语料产生部分负责识别采集的文本数据中包含人物属性信息的语句,这些语句组成了人物属性语料。人物属性语料过滤部分负责过滤掉数据集中不包含有效的属性信息的噪音语句,剩下的语句就构成了人物属性抽取训练数据集。
本发明一种人物属性抽取训练数据集构建方法,其具体步骤如下:
步骤一:网络数据采集
在中文维基百科网站中,下载中文人物页面,然后解析页面的内容,保存页面中左侧和右侧信息框里的两部分文本数据,页面左侧的文本数据主要是描述人物详细信息的正文内容,右侧信息框主要描述人物的各种属性及相应的属性值内容,然后将左侧正文内容数据全部以UTF-8格式进行编码,并以句子为单位进行切分;
步骤二:人物属性语料产生
针对步骤一中切分后的语句,选取包含人物名称的句子作为候选语句,然后遍历信息框中各行的属性值内容,如果候选语句包含有信息框中的任何一条属性值内容,则该候选语句被选取出来作为人物属性语料的一条语句。
步骤三:人物属性语料过滤
针对步骤二中得到的人物属性语料中的语句,提取数据集中所有语句中的动词,根据动词在训练数据集中的出现情况进行排序,选取排名靠前的动词作为属性触发词,然后删除掉人物属性语料中不包含属性触发词的语句,剩下的语句就组成了人物属性抽取训练数据集。
其中,在步骤一中所述的信息框位于网页HTML代码中的class里包含 infobox的table标签中,而描述人物详细信息的正文内容位于网页HTML代码中id为mw-content-text的div标签下的段落里,采用开源工具哈工大语言技术平台LTP对人物正文内容进行句子切分。
其中,在步骤二中所述的信息框属性遍历中,信息框为一个包含两列的数据表格,表格中每一行对应一个属性,第一列表示属性类别名称,第二列表示属性值内容,如果信息框中的属性值内容所在单元格中的语句包含标点符号,则按照标点符号对该语句进行切分,切分后的每个部分称为该行所表示的属性类别的一个属性值。
其中,在步骤三中所述的动词排序中,利用哈工大信息检索实验室的LTP 语言技术平台对语句中的词语进行词性标注,提取出所有的动词进行排序,排序方法采用基于熵的排序技术,该技术主要根据词语在人物属性语料数据集中的分布情况来进行排序,如果一个词语在许多的语句中都出现,则该词语的排名靠后。
本发明与现有技术相比的优点在于:目前的人物属性抽取训练数据集的构建主要利用人工标注方法,人工收集一些句子,然后对每个句子人工判断该句子是否包含了一个人名以及与该人物相关的一个属性信息。这种方法不仅使得数据集规模过小,而且参与标注人员的主观判断都对训练数据集的质量造成影响。本发明提出了一种人物属性抽取训练数据集构建方法,自动从维基百科网站下载人物介绍页面,利用自然语言处理技术提取描述人物属性的语句,然后利用基于熵的排序方法过滤掉噪音语句,最终自动构建一个人物属性抽取训练数据集,可以为人物属性抽取算法提供大规模的高质量的训练数据。
附图说明
图1是维基百科人物介绍页面。
图2是本发明所述方法流程示意图。
具体实施方式
下面结合附图及本发明的实施方式对本发明的方法作进一步详细的说明。
如图2所示,本发明一种人物属性抽取训练数据集构建方法,具体实现步骤如下:
步骤一:网络数据采集
在中文维基百科网站中,利用网络爬虫工具下载中文人物页面,然后解析页面的内容,再进行预处理。主要过程是:
(1)根据网页HTML解析网页内容,在人物介绍页面里,主要保存两个部分的内容用于构建人物属性抽取训练数据集,即保存描述人物的正文内容和描述人物属性的表格内容,例如图1表示介绍影星施一公的页面,左侧部分就是描述该人物的具体内容,右侧的信息框表格介绍了施一公的主要属性类别及属性值,表格的第一列表示属性类别的名称,第二列表示各个属性类别的属性值。信息框位于网页HTML代码中的class里包含infobox的table标签中,而描述人物详细信息的正文内容位于网页HTML代码中id为mw-content-text的 div标签下的段落里。
(2)保存描述人物的正文内容以及信息框表格中的内容,本方法中,主要构建十三种属性类别的训练语句,这十三种属性类别是:教育情况、专业、学历、姓名、中学、政党、出生年月、入党时间、工作、出生地、工作单位、民族、性别。信息框表格中属于这十三种属性类别的行被保存下来,保存下来的表格称为属性框。然后将左侧正文内容数据全部以UTF-8格式进行编码,采用开源工具哈工大语言技术平台LTP对人物描述正文内容进行句子切分。
步骤二:人物属性语料产生
针对步骤一中的人物描述正文内容的切分语句,选取其中包含人物属性的语句构建人物属性语料集,主要过程为:
1)挑选人物描述正文内容文本切分后的语句中包含该网页人物名字的语句,如果人物名称太长,则包含人物名字简称的语句也被挑选保留下来。
2)遍历属性框中的第二列,这一列表示属性值,如果属性框中某一行的属性值内容语句包含标点符号,则把该行的属性值内容语句按照标点符号进行切分,切分后的每一部分都当做一个属性值,例如对于某一个属性表格里人物姓名这个属性类别所在的行,其属性值内容语句为“科比●布莱恩特”,则基于符号“●”把该属性值内容语句划分为两个属性值“科比”和“布莱恩特”。对保留下来的每条语句,如果这条语句包含属性表格第二列中任何一行中的任何一个属性值内容,则保留该语句,并将其添加到训练语料数据集中。这些被保留下来的语句就组成了初步的人物属性抽取训练语料数据集 P={p1,p2,…,pm},其中pi表示数据集中的第i条语句,m表示语句总数,在下一步将对该数据集进行过滤。
步骤三:人物属性语料过滤
对于第二步中构建的训练数据集,其中有些语句可能并不是描述一个人的属性信息,这些语句会对属性抽取算法的性能造成不好的影响,需要过滤掉这些语句,本发明的人物属性语料过滤过程为:
1)对第二步构建的训练语料数据集中的每一条语句,利用哈工大信息检索实验室的LTP语言技术平台对语句中的词语进行词性标注,提取出所有语句中所有的动词组成词语集合W={w1,w2,…,wn},其中wi表示集合里的第i个动词,n表示所有动词的个数。
2)针对每个词语wi(0<i<n+1,i为整数),为训练语料数据集中每条语句pj(0<j<m+1,j为整数)构建一个向量表示其中里面每个元素xk(0<k<n+1,k为整数)的取值为0或1,如果词语集合W中第k个词语wk语句pj中出现且wk不等于词语wi,则xk取值为1,否则xk取值为0。然后基于构建的语句向量,计算词语wi的熵值Ei,计算公式如下
其中Si,j表示两条语句pi和pj之间的相似度,α表示人物属性语料中所有语句对之间相似度的平均值。
3)依据熵值Ei大小对词语集合W里所有的动词进行排序,选取前5%的动词作为人物属性触发词。然后对训练语料数据集P的语句进行过滤,如果一条语句不包含任何一个触发词,则该条语句从训练语料数据集P中被删除掉。最后,训练语料数据集P剩下的语句就组成了人物属性抽取训练数据集。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种人物属性抽取训练数据集构建方法,其特征在于:所述方法具体步骤如下:
步骤一:网络数据采集
在中文维基百科网站中,下载中文人物页面,然后解析页面的内容,保存页面中左侧和右侧信息框里的两部分文本数据,页面左侧的文本数据主要是描述人物详细信息的正文内容,右侧信息框主要描述人物的各种属性及相应的属性值内容,然后将左侧正文内容数据全部以UTF-8格式进行编码,并以句子为单位进行切分;
步骤二:人物属性语料产生
针对步骤一中切分后的语句,选取包含人物名称的句子作为候选语句,然后遍历信息框中各行的属性值内容,如果候选语句包含有信息框中的任何一条属性值内容,则该候选语句被选取出来作为人物属性语料的一条语句;
步骤三:人物属性语料过滤
针对步骤二中得到的人物属性语料中的语句,提取数据集中所有语句中的动词,根据动词在训练数据集中的出现情况进行排序,选取排名靠前的动词作为属性触发词,然后删除掉人物属性语料中不包含属性触发词的语句,剩下的语句就组成了人物属性抽取训练数据集。
2.根据权利要求1所述的一种人物属性抽取训练数据集构建方法,其特征在于:在步骤一中所述的信息框位于网页HTML代码中的class里包含infobox的table标签中,而描述人物详细信息的正文内容位于网页HTML代码中id为mw-content-text的div标签下的段落里,采用开源工具哈工大语言技术平台LTP对人物正文内容进行句子切分。
3.根据权利要求1所述的一种人物属性抽取训练数据集构建方法,其特征在于:在步骤二中所述的信息框属性遍历中,信息框为一个包含两列的数据表格,表格中每一行对应一个属性,第一列表示属性类别名称,第二列表示属性值内容,如果信息框中的属性值内容所在单元格中的语句包含标点符号,则按照标点符号对该语句进行切分,切分后的每个部分称为该行所表示的属性类别的一个属性值。
4.根据权利要求1所述的一种人物属性抽取训练数据集构建方法,其特征在于:在步骤三中所述的动词排序中,利用哈工大信息检索实验室的LTP语言技术平台对语句中的词语进行词性标注,提取出所有的动词进行排序,排序方法采用基于熵的排序技术,该技术主要根据词语在人物属性语料数据集中的分布情况来进行排序,如果一个词语在许多的语句中都出现,则该词语的排名靠后。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810636331.2A CN109033166B (zh) | 2018-06-20 | 2018-06-20 | 一种人物属性抽取训练数据集构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810636331.2A CN109033166B (zh) | 2018-06-20 | 2018-06-20 | 一种人物属性抽取训练数据集构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109033166A true CN109033166A (zh) | 2018-12-18 |
CN109033166B CN109033166B (zh) | 2022-01-07 |
Family
ID=64609738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810636331.2A Expired - Fee Related CN109033166B (zh) | 2018-06-20 | 2018-06-20 | 一种人物属性抽取训练数据集构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109033166B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110193A (zh) * | 2019-04-24 | 2019-08-09 | 北京百炼智能科技有限公司 | 一种信息处理方法、装置及计算机可读存储介质 |
CN111538849A (zh) * | 2020-04-29 | 2020-08-14 | 华中科技大学 | 一种基于深度学习的人物关系图谱构建方法及系统 |
CN112101004A (zh) * | 2020-09-23 | 2020-12-18 | 电子科技大学 | 基于条件随机场与句法分析的通用网页人物信息提取方法 |
CN114169317A (zh) * | 2021-12-12 | 2022-03-11 | 海南港航控股有限公司 | 一种基于规则的人物属性提取方法和系统 |
WO2023040808A1 (zh) * | 2021-09-18 | 2023-03-23 | 华为技术有限公司 | 一种网页检索方法及相关设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411621A (zh) * | 2011-11-22 | 2012-04-11 | 华中师范大学 | 一种基于云模型的中文面向查询的多文档自动文摘方法 |
CN102693245A (zh) * | 2011-03-22 | 2012-09-26 | 日电(中国)有限公司 | 属性提取和聚类设备及方法 |
US20130013289A1 (en) * | 2011-07-07 | 2013-01-10 | Korea Advanced Institute Of Science And Technology | Method of Extracting Experience Sentence and Classifying Verb in Blog |
CN103336806A (zh) * | 2013-06-24 | 2013-10-02 | 北京工业大学 | 一种基于词出现间距的内在与外在模式熵差的关键词排序方法 |
CN103824115A (zh) * | 2014-02-28 | 2014-05-28 | 中国科学院计算技术研究所 | 面向开放网络知识库的实体间关系推断方法及系统 |
CN104657750A (zh) * | 2015-03-23 | 2015-05-27 | 苏州大学张家港工业技术研究院 | 一种用于人物关系抽取的方法和装置 |
CN105608070A (zh) * | 2015-12-21 | 2016-05-25 | 中国科学院信息工程研究所 | 一种面向新闻标题的人物关系抽取方法 |
CN106777275A (zh) * | 2016-12-29 | 2017-05-31 | 北京理工大学 | 基于多粒度语义块的实体属性和属性值提取方法 |
CN107590119A (zh) * | 2016-07-07 | 2018-01-16 | 北京国双科技有限公司 | 人物属性信息抽取方法及装置 |
-
2018
- 2018-06-20 CN CN201810636331.2A patent/CN109033166B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693245A (zh) * | 2011-03-22 | 2012-09-26 | 日电(中国)有限公司 | 属性提取和聚类设备及方法 |
US20130013289A1 (en) * | 2011-07-07 | 2013-01-10 | Korea Advanced Institute Of Science And Technology | Method of Extracting Experience Sentence and Classifying Verb in Blog |
CN102411621A (zh) * | 2011-11-22 | 2012-04-11 | 华中师范大学 | 一种基于云模型的中文面向查询的多文档自动文摘方法 |
CN103336806A (zh) * | 2013-06-24 | 2013-10-02 | 北京工业大学 | 一种基于词出现间距的内在与外在模式熵差的关键词排序方法 |
CN103824115A (zh) * | 2014-02-28 | 2014-05-28 | 中国科学院计算技术研究所 | 面向开放网络知识库的实体间关系推断方法及系统 |
CN104657750A (zh) * | 2015-03-23 | 2015-05-27 | 苏州大学张家港工业技术研究院 | 一种用于人物关系抽取的方法和装置 |
CN105608070A (zh) * | 2015-12-21 | 2016-05-25 | 中国科学院信息工程研究所 | 一种面向新闻标题的人物关系抽取方法 |
CN107590119A (zh) * | 2016-07-07 | 2018-01-16 | 北京国双科技有限公司 | 人物属性信息抽取方法及装置 |
CN106777275A (zh) * | 2016-12-29 | 2017-05-31 | 北京理工大学 | 基于多粒度语义块的实体属性和属性值提取方法 |
Non-Patent Citations (1)
Title |
---|
郑智彬: "面向属性发现的协同迭代搜索系统研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110193A (zh) * | 2019-04-24 | 2019-08-09 | 北京百炼智能科技有限公司 | 一种信息处理方法、装置及计算机可读存储介质 |
CN110110193B (zh) * | 2019-04-24 | 2021-04-30 | 北京百炼智能科技有限公司 | 一种信息处理方法、装置及计算机可读存储介质 |
CN111538849A (zh) * | 2020-04-29 | 2020-08-14 | 华中科技大学 | 一种基于深度学习的人物关系图谱构建方法及系统 |
CN111538849B (zh) * | 2020-04-29 | 2023-04-07 | 华中科技大学 | 一种基于深度学习的人物关系图谱构建方法及系统 |
CN112101004A (zh) * | 2020-09-23 | 2020-12-18 | 电子科技大学 | 基于条件随机场与句法分析的通用网页人物信息提取方法 |
CN112101004B (zh) * | 2020-09-23 | 2023-03-21 | 电子科技大学 | 基于条件随机场与句法分析的通用网页人物信息提取方法 |
WO2023040808A1 (zh) * | 2021-09-18 | 2023-03-23 | 华为技术有限公司 | 一种网页检索方法及相关设备 |
CN114169317A (zh) * | 2021-12-12 | 2022-03-11 | 海南港航控股有限公司 | 一种基于规则的人物属性提取方法和系统 |
CN114169317B (zh) * | 2021-12-12 | 2023-02-14 | 海南港航控股有限公司 | 一种基于规则的人物属性提取方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109033166B (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033166A (zh) | 一种人物属性抽取训练数据集构建方法 | |
CN104408093B (zh) | 一种新闻事件要素抽取方法与装置 | |
CN106951438A (zh) | 一种面向开放域的事件抽取系统及方法 | |
CN103077164A (zh) | 文本分析方法及文本分析器 | |
CN103324626B (zh) | 一种建立多粒度词典的方法、分词的方法及其装置 | |
CN103116578A (zh) | 一种融合句法树和统计机器翻译技术的翻译方法与装置 | |
CN109635288A (zh) | 一种基于深度神经网络的简历抽取方法 | |
CN106126619A (zh) | 一种基于视频内容的视频检索方法及系统 | |
CN105975454A (zh) | 一种网页文本的中文分词方法和装置 | |
CN108038205A (zh) | 针对中文微博的观点分析原型系统 | |
CN105975453A (zh) | 评论标签提取方法和装置 | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
CN111581376A (zh) | 一种知识图谱自动构建系统及方法 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN106897559A (zh) | 一种面向多数据源的症状体征类实体识别方法及装置 | |
CN106033462A (zh) | 一种新词发现方法及系统 | |
CN108920447B (zh) | 一种面向特定领域的中文事件抽取方法 | |
Kanan et al. | Extracting named entities using named entity recognizer for arabic news articles | |
CN107797994A (zh) | 基于约束条件随机场的越南语名词组块识别方法 | |
CN104699797A (zh) | 一种网页数据结构化解析方法和装置 | |
CN106202255A (zh) | 融合实体特性的越南语命名实体识别方法 | |
CN105989058A (zh) | 一种汉语新闻摘要生成系统及方法 | |
CN113407842B (zh) | 模型训练方法、主题推荐理由的获取方法及系统、电子设备 | |
CN113157860B (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
CN111191413B (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220107 |
|
CF01 | Termination of patent right due to non-payment of annual fee |