CN114970495A - 人名消歧方法、装置、电子设备及存储介质 - Google Patents
人名消歧方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114970495A CN114970495A CN202210567647.7A CN202210567647A CN114970495A CN 114970495 A CN114970495 A CN 114970495A CN 202210567647 A CN202210567647 A CN 202210567647A CN 114970495 A CN114970495 A CN 114970495A
- Authority
- CN
- China
- Prior art keywords
- enterprises
- graph
- enterprise
- association relationship
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000003062 neural network model Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims description 29
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 abstract description 9
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开涉及一种人名消歧方法、装置、电子设备及存储介质,涉及信息分析领域,该方法包括:上述技术方案中,首先获取两个企业的关联关系图,其中,两个企业在该关联关系图中对应于不同的节点,两个企业之间的不同关联关系在该关联关系图中对应于不同的边,且该关联关系图中的每个边具有相应的边权重,然后将获取的关联关系图输入指定的图神经网络模型,以获得表示两个企业之间存在链接可能性大小的预测值,根据获得的预测值,预测两个企业中的相应同名人员是否是同一人并获得对应的预测结果,并且根据获得的预测结果,对两个企业中的相应同名人员进行人名消歧。避免使用人工策略导致的准确率低的问题,增加了进行企业信息分析时人名消歧的准确率。
Description
技术领域
本公开涉及信息分析领域,尤其涉及一种人名消歧方法、装置、电子设备及存储介质。
背景技术
人名消歧是企业信息分析中的难题,例如在工商公开信息中,企业的相关人员,通常仅包含人员姓名,不包含人员的唯一身份识别代码,因此当两家企业同时出现两个相同的人名时,难以判断两人是否为同一人。传统方法中解决人名消歧一般依赖人为设定策略进行关系判断,判断的准确性受限于人工策略的完备程度。并且,由于企业信息的复杂性,人工策略难以深入利用企业的多维度信息,导致结果准确率较低,难以确认同名人员的身份。
发明内容
本公开的目的是提供一种人名消歧方法、装置、电子设备及存储介质,用以解决同名人员身份确认的问题。
为了实现上述目的,本公开的第一方面,提供一种人名消歧方法,包括:
获取所述两个企业的关联关系图,其中,所述两个企业在所述关联关系图中对应于不同的节点,所述两个企业之间的不同关联关系在所述关联关系图中对应于不同的边,且所述关联关系图中的每个边具有相应的边权重;
将获取的关联关系图输入指定的图神经网络模型,以获得表示所述两个企业之间存在链接可能性大小的预测值;
根据获得的所述预测值,预测所述两个企业中的相应同名人员是否是同一人并获得对应的预测结果;以及
根据获得的所述预测结果,对所述两个企业中的所述相应同名人员进行人名消歧。
可选地,所述获取所述两个企业的关联关系图,包括:
获取所述两个企业之间关联关系的同构图。
可选地,所述将获取的关联关系图输入指定的图神经网络模型,以获得表示所述两个企业之间存在链接可能性大小的预测值,包括:
将获取的所述关联关系图输入所述指定的图神经网络模型后,先获取所述两个企业各自的节点表示,再根据获得的节点表示计算表示所述两个企业之间存在链接可能性大小的预测值。
可选地,所述获取所述两个企业的关联关系图,包括以下至少之一:
在原有企业关联关系图谱包括所述两个企业的情况下,直接从所述原有企业关联关系图谱中提取所述两个企业的关联关系图;
在所述两个企业中的一个或两个没有包含在所述原有企业关联关系图谱中,且所述两个企业中没有包含在所述原有企业关联关系图谱中的企业在所述原有企业关联关系图谱中都有关联企业的情况下,先将所述两个企业中没有包含在所述原有企业关联关系图谱中的企业作为新增节点添加到所述原有企业关联关系图谱中,并将对应的新增边和边权重也添加到所述原有企业关联关系图谱中,再从修改后的企业关联关系图谱中提取所述两个企业的关联关系图。
可选地,还包括:
在所述两个企业中没有包含在所述原有企业关联关系图谱中的企业在所述原有企业关联关系图谱中没有关联企业的情况下,确定所述两个企业不相关,且所述两个企业中的相应同名人员不是同一人。
可选地,所述同名人员在所述两个企业中有以下身份中的至少之一:企业的高监董、企业的投资人、企业的实际控股人。
可选地,所述图神经网络模型的训练方法包括:
获取多个样本企业对,其中,每个样本企业对中的两个企业之间都有同名人员;
获取所述多个样本企业对中每个样本企业对中的两个企业的企业关联关系图,以作为对应的训练数据;以及
利用获取的训练数据训练图神经网络,以得到所述图神经网络模型。
本公开的第二方面,提供一种人名消歧装置,包括:
获取模块,用于获取所述两个企业的关联关系图,其中,所述两个企业在所述关联关系图中对应于不同的节点,所述两个企业之间的不同关联关系在所述关联关系图中对应于不同的边,且所述关联关系图中的每个边具有相应的边权重;
输入模块,用于将获取的关联关系图输入指定的图神经网络模型,以获得表示所述两个企业之间存在链接可能性大小的预测值;
预测模块,用于根据获得的所述预测值,预测所述两个企业中的相应同名人员是否是同一人并获得对应的预测结果;以及
消歧模块,用于根据获得的所述预测结果,对所述两个企业中的所述相应同名人员进行人名消歧。
本公开的第三方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面中任一项所述方法的步骤。
本公开的第四方面,提供一种非临时性计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现第一方面中任一项所述方法的步骤。
上述技术方案中,首先获取两个企业的关联关系图,其中,两个企业在该关联关系图中对应于不同的节点,两个企业之间的不同关联关系在该关联关系图中对应于不同的边,且该关联关系图中的每个边具有相应的边权重,然后将获取的关联关系图输入指定的图神经网络模型,以获得表示两个企业之间存在链接可能性大小的预测值,根据获得的预测值,预测两个企业中的相应同名人员是否是同一人并获得对应的预测结果,并且根据获得的预测结果,对两个企业中的相应同名人员进行人名消歧。通过上述技术方案,建立了企业之间的关联关系图,并且企业之间的边存在相应的边权重,通过输入完成训练的图神经网络模型,利用预测值判断同名人是否为同一人,能够基于待预测的两个企业已公开的各个维度的信息对这两个企业中的同名人员进行识别,避免了由于使用人工策略导致的准确率低的问题,增加了在进行企业信息分析时人名消歧的准确率。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据本公开一示例性实施例示出的一种人名消歧方法的流程图。
图2是根据本公开一示例性实施例示出的一种图神经网络模型的训练方法的流程图。
图3是根据一示例性实施例示出的一种人名消歧装置框图。
图4是根据一示例性实施例示出的一种电子设备的框图。
图5是根据一示例性实施例示出的又一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
需要说明的是,本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
在介绍本公开提供的人名消歧方法的之前,首先对该方法涉及的应用场景进行介绍,可以理解的是,在工商公开信息中,对于企业的相关人员,比如企业的高监董、企业的投资人、企业的实际控股人等,官方通常仅会披露人员姓名,并不会披露人员的唯一身份识别代码,如身份证件号码,因此两家企业出现相同人名时,难以判断两人是否为同一人。例如,当企业A和企业B中都存在名为张三的一名企业的投资人,但是无法得知企业A的张三和企业B的张三是否为同一自然人。因此,在两个企业中出现两个同名人员时,如何识别这两个同名人员是否为同一个人,是目前亟需解决的问题,为了解决上述问题,本公开提供了一种人名消歧方法,下面对该人名消歧方法进行说明。
图1是根据本公开一示例性实施例示出的一种人名消歧方法的流程图,如图1所示,该人名消歧方法,可以包括以下步骤。
在步骤S101中,获取两个企业的关联关系图,其中,两个企业在该关联关系图中对应于不同的节点,两个企业之间的不同关联关系在该关联关系图中对应于不同的边,且该关联关系图中的每个边具有相应的边权重。
示例的,两个企业为待预测的两个企业,其中,这两个企业的信息包括这两个企业的具体信息,例如可以包括以下信息中的一种或多种:投资关系、联系电话、行业、地理位置、人员信息、法人信息、固定信息等等,其中人员信息例如可以包括企业的高监董、企业的投资人、企业的实际控股人等。根据这两个企业之间的关系,从企业关联关系图谱中可以获取到两个企业的关联关系图,并且这两个企业在该关联关系图中以节点的形式表示,两个企业之间的关系以边的形式表现,并且,两个企业之间的不同关联关系对应不同的边,且每个边存在相应的边权重,例如,两个企业地理位置都在北京市,则表示该地理位置关系的边的边权重可以为0.1。
在步骤S102中,将获取的关联关系图输入指定的图神经网络模型,以获得表示两个企业之间存在链接可能性大小的预测值。
可以理解的是,将根据待预测的两个企业获取的关联关系图导入完成训练的图神经网络模型后,可以得到两个企业之间存在链接可能性大小的预测值,由于该关联关系图可以包括两个企业之间的多个维度信息,因此该图神经网络模型输出的该预测值能够表征两个企业之间的在多个维度上的关联性的高低。
在步骤S103中,根据获得的预测值,预测两个企业中的相应同名人员是否是同一人并获得对应的预测结果。
其中,同名人员在两个企业中有以下身份中的至少之一:企业的高监董、企业的投资人、企业的实际控股人。该预测值能够在一定程度上表征两个企业之间的同名人员的关系,该预测值越高,表示两个企业之间的同名人员越可能是同一人,反之则表示同名人员越不可能是同一人。
在步骤S104中,根据获得的预测结果,对两个企业中的相应同名人员进行人名消歧。
其中,根据预测值得到预测结果后,可以进行相应的消歧,例如在两个企业的信息中标注该同名人员为同一人或不是同一人,并对标注后的两个企业的信息进行公布。
通过上述方式,能够有效的消除相同人名带来的歧义,节约筛选同名人员的时间,如果两个企业中的同名人员为同一人,则能够增加两个企业之间的关联关系,如果两个企业中的同名人员为不同人,则能够减少两个企业之间的关联关系。
上述技术方案中,首先获取两个企业的关联关系图,其中,两个企业在该关联关系图中对应于不同的节点,两个企业之间的不同关联关系在该关联关系图中对应于不同的边,且该关联关系图中的每个边具有相应的边权重,然后将获取的关联关系图输入指定的图神经网络模型,以获得表示两个企业之间存在链接可能性大小的预测值,根据获得的预测值,预测两个企业中的相应同名人员是否是同一人并获得对应的预测结果,并且根据获得的预测结果,对两个企业中的相应同名人员进行人名消歧。通过上述技术方案,建立了企业之间的关联关系图,并且企业之间的边存在相应的边权重,通过输入完成训练的图神经网络模型,利用预测值判断同名人是否为同一人,能够基于待预测的两个企业已公开的各个维度的信息对这两个企业中的同名人员进行识别,避免了由于使用人工策略导致的准确率低的问题,增加了在进行企业信息分析时人名消歧的准确率。
可选地,步骤S101可以包括:获取两个企业之间关联关系的同构图。
可以理解的是,同构图是指图中的节点类型和关系类型都仅有一种,如在本方案中,企业关联关系图中,只存在一种节点类型,即企业,只存在一种边的类型,即企业和企业之间的边;由于同构图形式的关联关系图结构简单,因此在引入新的企业之间的关系也较容易,新增企业关系可以通过增加边权重的方法实现,比如两个企业在地理位置上的距离,可以通过同构图把距离转化为边权重。
可选地,步骤S102,可以包括:将获取的关联关系图输入指定的图神经网络模型后,先获取两个企业各自的节点表示,再根据获得的节点表示计算表示两个企业之间存在链接可能性大小的预测值。
示例地,在将获取的关联关系图输入指定的图神经网络模型的过程中,会获取两个企业各自的节点表示,该图神经网络模型的任务为关系预测任务,即预测两个企业之间的同名人员的关系。基于该关联关系图,可以确定当前输入的两个企业之间存在的某种关系,该关系可以由关联关系图谱中的一条边或多条边连接。在一种实施方式中,可以基于以下算法,计算出两个企业之间存在链接可能性大小的预测值:
其中,u,v分别表示两个企业的节点表示,即两个企业对应的两个节点,和表示u和v的数据输入该初始图形神经网络模型后得到的两个企业的向量表示,该向量表示能够以向量形式表征两个企业在多个维度的关系。表示计算预测值的算法,可以根据实际需要采用任意计算预测值的算法,例如余弦距离、欧氏距离等,本公开不在具体限定。例如,当该算法是余弦距离时,预测值越趋近于1表示两个节点对应的两个企业中同名人员越有可能是同一人,预测值越趋近于-1表示两个节点对应的两个企业中同名人员有可能不是同一人,因此可以根据预测值来确定两个企业中的相应同名人员是不是同一人,得到预测结果,可以设定一个趋近1但是小于1的第一阈值,以及趋近-1但大于-1的第二阈值,当预测值大于第一阈值的情况下,得到的预测结果为两个企业中的相应同名人员是同一人,当预测值小于第二阈值的情况下,得到的预测结果为两个企业中的相应同名人员不是同一人,该第一阈值和第二阈值的具体数值可以根据实际需要来设置;当该算法是欧式距离时,预测值越趋近于0表示两个节点对应的两个企业中同名人员越有可能是同一人,预测值越趋近于无穷大表示两个节点对应的两个企业中同名人员有可能不是同一人,因此可以根据预测值来确定两个企业中的相应同名人员是不是同一人,得到预测结果,可以设定一个趋近0且大于0的第三阈值,以及趋近无穷大的第四阈值,当预测值小于第三阈值的情况下,得到的预测结果为两个企业中的相应同名人员是同一人,当预测值大于第四阈值的情况下,得到的预测结果为两个企业中的相应同名人员不是同一人,该第三阈值和第四阈值的具体数值可以根据实际需要来设置。
可选地,该人名消歧方法还可以包括:在两个企业中没有包含在该原有企业关联关系图谱中的企业在该原有企业关联关系图谱中没有关联企业的情况下,确定两个企业不相关,且两个企业中的相应同名人员不是同一人。
可选地,步骤S102,包括以下至少之一:
在原有企业关联关系图谱包括两个企业的情况下,直接从原有企业关联关系图谱中提取两个企业的关联关系图;
在两个企业中的一个或两个没有包含在原有企业关联关系图谱中,且两个企业中没有包含在原有企业关联关系图谱中的企业在该原有企业关联关系图谱中都有关联企业的情况下,先将两个企业中没有包含在原有企业关联关系图谱中的企业作为新增节点添加到该原有企业关联关系图谱中,并将对应的新增边和边权重也添加到该原有企业关联关系图谱中,再从修改后的企业关联关系图谱中提取两个企业的关联关系图。
可以理解的是,如,当两个企业中,其中的第一企业不在原有企业关联关系图谱中时,将第一企业作为新增节点添加到原有企业关联关系图谱中,然后通过查找与该第一企业存在关联关系的第二企业,其中关联关系可以是上述的投资关系、联系电话、行业、地理位置、人员名单、法人信息、固定信息等,人员名单可以包括上述企业的高监董、企业的投资人、企业的实际控股人中的至少一种,根据该关联关系,以原企业关联关系图谱的构图方式将该第一企业加入其中,包括依据第一企业与第二企业之间的关系为第一企业与第二企业添加边以及边权重,得到修改后的企业关联关系图谱,然后即可从更新后的企业关联关系图谱中提取两个企业的关联关系图;如果第一企业在该企业关联关系图谱中不存在有关联关系的第二企业,则无法添加到该企业关联关系图谱中,此时可以认为两个企业不相关,确定两个企业的同名人员为不同自然人。如果两个企业均不在原有企业关联关系图谱中,则可以分别针对这两个企业,按照与上述在原有企业关联关系图谱中添加第一企业的方法,将两个企业添加到原有企业关联关系图谱中,并基于修改后的企业关联关系图谱中提取两个企业的关联关系图。
可选地,图2是根据本公开一示例性实施例示出的一种图神经网络模型的训练方法的流程图,如图2所示,该图神经网络模型的训练方法包括:
在步骤S105中,获取多个样本企业对,其中,每个样本企业对中的两个企业之间都有同名人员。
在步骤S106中,获取多个样本企业对中每个样本企业对中的两个企业的企业关联关系图,以作为对应的训练数据。
在步骤S107中,利用获取的训练数据训练图神经网络,以得到该图神经网络模型。
可以理解的是,对于该图神经网络,需要通过训练数据对其进行训练,训练数据可以包括多个样本企业对的数据,每个样本企业对的数据可以包括上述的投资关系、联系电话、行业、地理位置、人员名单、法人信息、固定信息等多个维度的信息,该人员名单可以包括上述企业的高监董、企业的投资人、企业的实际控股人中的至少一种,并且每个样本企业对中的两个企业之间都有同名人员,并且同名人员的关系已知。
其中,在将训练数据输入该图形神经网络的过程中,每个训练数据的企业对中的两个企业作为两个节点,训练任务为关系预测任务,即预测训练的企业对中的两个企业中的同名人员的关系。上述的训练数据中的各个企业也可以预先建立企业关联关系图谱,或者也可以生成虚构的多个关系已知的企业的数据作为训练数据,并建立相应的企业关联关系图谱,或者可以从前文所述的原有企业关联关系图谱中获取一部分企业的关联关系图谱。基于得到的企业关联关系图谱,关系可以得到各个企业对中两个企业的关联关系图,其中包含了边连接和边权重,从而将各个企业对中两个企业的关联关系图输入该图形神经网络,对该图形神经网络进行训练以得到图神经网络模型。
示例的,该多个样本企业对的可以分为正样本和负样本,其中正样本为同名人员为同一自然人的两个企业组成的企业对,负样本为同名人员是不同自然人的两个企业组成的企业对。通过该正样本的企业关联关系图和负样本的企业关联关系图,对该图神经网络进行训练即可得到图神经网络模型。其中该图神经网络的训练任务可以为关系预测任务,预测目标为正样本和负样本中企业对的正负关系,即基于正样本的企业关联关系图对正样本的企业对中两个企业的同名人员的关系进行预测,以及基于负样本的企业关联关系图对负样本的企业对中两个企业的同名人员的关系进行预测,预测的方法与上述步骤102中所示的方法相同,可以将正样本或负样本的关联关系图输入图神经网络后,先获取正样本或负样本对应的两个企业各自的节点表示,再根据获得的节点表示计算表示两个企业之间存在链接可能性大小的预测值,该预测值的计算方法可以利用上述公式(1)所示的方法进行计算。在得到预测值后基于预测值来确定预测结果,基于正样本和负样本的同名人员的已知关系来确定预测结果是否准确,并对图神经网络的参数进行修正,并重复上述过程直至图神经网络的准确率满足一定条件时得到该图神经网络模型。其中,该图神经网络模型可以采用GNN(Graph Neural Network,图形神经网络)、GCN(Graph Convolutional Network,图卷积网络)、GAT(Graph Attention Network图注意力网络)等网络结构。
可选地,在上述图形神经网络的训练过程中,可以利用负采样方式确定多个训练数据中的企业对的预测值的损失函数,其中,负采样方式即训练一个关系预测模型时,需要比较两个相连接节点之间的相似度得分差异,例如,给定两个节点a,b,由一条边连接节点a,b,一个完成训练的模型希望节点a和b之间的相似度得分要高于a和从一个任意噪声分布b’~Pn(b)中所采样的节点b’之间的相似度得分。可以利用交叉熵损失、贝叶斯个性化排序损失、间隔损失等损失函数来完成。
当损失函数满足预设的收敛条件(例如损失函数小于一定的阈值时),表示预测的准确率满足一定条件并趋于稳定,可以表示完成图神经网络模型的训练,当损失函数不满足预设的收敛条件时,则通过调整该图神经网络的参数并继续通过样本企业对进行训练来完善模型。
通过上述技术方案,利用完成训练的图神经网络模型,基于目标企业对的数据对该企业对中的同名自然人进行识别,通过预测值判断同名人员是否为同一人,能够基于待预测的两个企业已公开的各个维度的信息对这两个企业中的同名人员进行自动化预测,避免了由于使用人工策略导致的准确率低的问题,提高了在进行企业信息分析时人名消歧的准确率。
图3是根据一示例性实施例示出的一种人名消歧装置框图。如图3所示,该人名消歧装置300包括:
获取模块301,用于获取两个企业的关联关系图,其中,两个企业在该关联关系图中对应于不同的节点,两个企业之间的不同关联关系在该关联关系图中对应于不同的边,且该关联关系图中的每个边具有相应的边权重。
输入模块302,用于将获取的关联关系图输入指定的图神经网络模型,以获得表示两个企业之间存在链接可能性大小的预测值。
预测模块303,用于根据获得的预测值,预测两个企业中的相应同名人员是否是同一人并获得对应的预测结果。
消歧模块304,用于根据获得的预测结果,对两个企业中的相应同名人员进行人名消歧。
上述技术方案中,首先获取两个企业的关联关系图,其中,两个企业在该关联关系图中对应于不同的节点,两个企业之间的不同关联关系在该关联关系图中对应于不同的边,且该关联关系图中的每个边具有相应的边权重,然后将获取的关联关系图输入指定的图神经网络模型,以获得表示两个企业之间存在链接可能性大小的预测值,根据获得的预测值,预测两个企业中的相应同名人员是否是同一人并获得对应的预测结果,并且根据获得的预测结果,对两个企业中的相应同名人员进行人名消歧。通过上述技术方案,建立了企业之间的关联关系图,并且企业之间的边存在相应的边权重,通过输入完成训练的图神经网络模型,利用预测值判断同名人是否为同一人,能够基于待预测的两个企业已公开的各个维度的信息对这两个企业中的同名人员进行识别,避免了由于使用人工策略导致的准确率低的问题,增加了在进行企业信息分析时人名消歧的准确率。
可选地,该人名消歧装置300,可以用于:同名人员在两个企业中有以下身份中的至少之一:企业的高监董、企业的投资人、企业的实际控股人。
可选地,该人名消歧装置300,还可以用于:在两个企业中没有包含在该原有企业关联关系图谱中的企业在该原有企业关联关系图谱中没有关联企业的情况下,确定两个企业不相关,且两个企业中的相应同名人员不是同一人。
可选地,该获取模块301,可以用于:获取两个企业之间关联关系的同构图。
可选地,该输入模块302,可以用于:将获取的关联关系图输入指定的图神经网络模型后,先获取两个企业各自的节点表示,再根据获得的节点表示计算表示两个企业之间存在链接可能性大小的预测值。
可选地,该人名消歧装置还可以用于:在两个企业中没有包含在该原有企业关联关系图谱中的企业在该原有企业关联关系图谱中没有关联企业的情况下,确定两个企业不相关,且两个企业中的相应同名人员不是同一人。
可选地,该输入模块302,用于以下至少之一:
在原有企业关联关系图谱包括两个企业的情况下,直接从原有企业关联关系图谱中提取两个企业的关联关系图;
在两个企业中的一个或两个没有包含在原有企业关联关系图谱中,且两个企业中没有包含在原有企业关联关系图谱中的企业在该原有企业关联关系图谱中都有关联企业的情况下,先将两个企业中没有包含在原有企业关联关系图谱中的企业作为新增节点添加到该原有企业关联关系图谱中,并将对应的新增边和边权重也添加到该原有企业关联关系图谱中,再从修改后的企业关联关系图谱中提取两个企业的关联关系图。
可选地,该人名消歧装置300,还可以用于:
获取多个样本企业对,其中,每个样本企业对中的两个企业之间都有同名人员。
获取多个样本企业对中每个样本企业对中的两个企业的企业关联关系图,以作为对应的训练数据。
利用获取的训练数据训练图神经网络,以得到该图神经网络模型。
通过上述技术方案,利用完成训练的图神经网络模型,基于目标企业对的数据对该企业对中的同名自然人进行识别,通过预测值判断同名人员是否为同一人,能够基于待预测的两个企业已公开的各个维度的信息对这两个企业中的同名人员进行自动化预测,避免了由于使用人工策略导致的准确率低的问题,提高了在进行企业信息分析时人名消歧的准确率。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的一种人名消歧方法的步骤。
图4是根据一示例性实施例示出的一种电子设备400的框图。如图4所示,该电子设备400可以包括:处理器401,存储器402。该电子设备400还可以包括多媒体组件403,输入/输出(I/O)接口404,以及通信组件405中的一者或多者。
其中,处理器401用于控制该电子设备400的整体操作,以完成上述的人名消歧方法中的全部或部分步骤。存储器402用于存储各种类型的数据以支持在该电子设备400的操作,这些数据例如可以包括用于在该电子设备400上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口404为处理器401和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件405用于该电子设备400与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件405可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的人名消歧方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的人名消歧方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器402,上述程序指令可由电子设备400的处理器401执行以完成上述的人名消歧方法。
图5是根据一示例性实施例示出的一种电子设备500的框图。例如,电子设备500可以被提供为一服务器。参照图5,电子设备500包括处理器522,其数量可以为一个或多个,以及存储器532,用于存储可由处理器522执行的计算机程序。存储器532中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器522可以被配置为执行该计算机程序,以执行上述的人名消歧方法。
另外,电子设备500还可以包括电源组件526和通信组件550,该电源组件526可以被配置为执行电子设备500的电源管理,该通信组件550可以被配置为实现电子设备500的通信,例如,有线或无线通信。此外,该电子设备500还可以包括输入/输出(I/O)接口558。电子设备500可以操作基于存储在存储器532的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的人名消歧方法的步骤。例如,该非临时性计算机可读存储介质可以为上述包括程序指令的存储器532,上述程序指令可由电子设备500的处理器522执行以完成上述的人名消歧方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的人名消歧方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (10)
1.一种人名消歧方法,包括:在两个企业之间有同名人员的情况下,
获取所述两个企业的关联关系图,其中,所述两个企业在所述关联关系图中对应于不同的节点,所述两个企业之间的不同关联关系在所述关联关系图中对应于不同的边,且所述关联关系图中的每个边具有相应的边权重;
将获取的关联关系图输入指定的图神经网络模型,以获得表示所述两个企业之间存在链接可能性大小的预测值;
根据获得的所述预测值,预测所述两个企业中的相应同名人员是否是同一人并获得对应的预测结果;以及
根据获得的所述预测结果,对所述两个企业中的所述相应同名人员进行人名消歧。
2.根据权利要求1所述的方法,其中,所述获取所述两个企业的关联关系图,包括:
获取所述两个企业之间关联关系的同构图。
3.根据权利要求1所述的方法,其中,所述将获取的关联关系图输入指定的图神经网络模型,以获得表示所述两个企业之间存在链接可能性大小的预测值,包括:
将获取的所述关联关系图输入所述指定的图神经网络模型后,先获取所述两个企业各自的节点表示,再根据获得的节点表示计算表示所述两个企业之间存在链接可能性大小的预测值。
4.根据权利要求1所述的方法,其中,所述获取所述两个企业的关联关系图,包括以下至少之一:
在原有企业关联关系图谱包括所述两个企业的情况下,直接从所述原有企业关联关系图谱中提取所述两个企业的关联关系图;
在所述两个企业中的一个或两个没有包含在所述原有企业关联关系图谱中,且所述两个企业中没有包含在所述原有企业关联关系图谱中的企业在所述原有企业关联关系图谱中都有关联企业的情况下,先将所述两个企业中没有包含在所述原有企业关联关系图谱中的企业作为新增节点添加到所述原有企业关联关系图谱中,并将对应的新增边和边权重也添加到所述原有企业关联关系图谱中,再从修改后的企业关联关系图谱中提取所述两个企业的关联关系图。
5.根据权利要求4所述的方法,还包括:
在所述两个企业中没有包含在所述原有企业关联关系图谱中的企业在所述原有企业关联关系图谱中没有关联企业的情况下,确定所述两个企业不相关,且所述两个企业中的相应同名人员不是同一人。
6.根据权利要求1所述的方法,其中,所述同名人员在所述两个企业中有以下身份中的至少之一:企业的高监董、企业的投资人、企业的实际控股人。
7.根据权利要求1所述的方法,其中,所述图神经网络模型的训练方法包括:
获取多个样本企业对,其中,每个样本企业对中的两个企业之间都有同名人员;
获取所述多个样本企业对中每个样本企业对中的两个企业的企业关联关系图,以作为对应的训练数据;以及
利用获取的训练数据训练图神经网络,以得到所述图神经网络模型。
8.一种人名消歧装置,其特征在于,包括:
获取模块,用于获取所述两个企业的关联关系图,其中,所述两个企业在所述关联关系图中对应于不同的节点,所述两个企业之间的不同关联关系在所述关联关系图中对应于不同的边,且所述关联关系图中的每个边具有相应的边权重;
输入模块,用于将获取的关联关系图输入指定的图神经网络模型,以获得表示所述两个企业之间存在链接可能性大小的预测值;
预测模块,用于根据获得的所述预测值,预测所述两个企业中的相应同名人员是否是同一人并获得对应的预测结果;以及
消歧模块,用于根据获得的所述预测结果,对所述两个企业中的所述相应同名人员进行人名消歧。
9.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述的人名消歧方法的步骤。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-7中任一项所述的人名消歧方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210567647.7A CN114970495A (zh) | 2022-05-23 | 2022-05-23 | 人名消歧方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210567647.7A CN114970495A (zh) | 2022-05-23 | 2022-05-23 | 人名消歧方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114970495A true CN114970495A (zh) | 2022-08-30 |
Family
ID=82984298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210567647.7A Withdrawn CN114970495A (zh) | 2022-05-23 | 2022-05-23 | 人名消歧方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114970495A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115563377A (zh) * | 2022-09-22 | 2023-01-03 | 盐城金堤科技有限公司 | 企业的确定方法、装置、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110968701A (zh) * | 2019-11-05 | 2020-04-07 | 量子数聚(北京)科技有限公司 | 用于图神经网络的关系图谱建立方法以及装置、设备 |
CN113326377A (zh) * | 2021-06-02 | 2021-08-31 | 上海生腾数据科技有限公司 | 一种基于企业关联关系的人名消歧方法及系统 |
CN113609346A (zh) * | 2021-10-08 | 2021-11-05 | 企查查科技有限公司 | 基于企业关联关系的自然人人名消歧方法、设备和介质 |
-
2022
- 2022-05-23 CN CN202210567647.7A patent/CN114970495A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110968701A (zh) * | 2019-11-05 | 2020-04-07 | 量子数聚(北京)科技有限公司 | 用于图神经网络的关系图谱建立方法以及装置、设备 |
CN113326377A (zh) * | 2021-06-02 | 2021-08-31 | 上海生腾数据科技有限公司 | 一种基于企业关联关系的人名消歧方法及系统 |
CN113609346A (zh) * | 2021-10-08 | 2021-11-05 | 企查查科技有限公司 | 基于企业关联关系的自然人人名消歧方法、设备和介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115563377A (zh) * | 2022-09-22 | 2023-01-03 | 盐城金堤科技有限公司 | 企业的确定方法、装置、存储介质及电子设备 |
CN115563377B (zh) * | 2022-09-22 | 2024-05-17 | 盐城天眼察微科技有限公司 | 企业的确定方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110166943B (zh) | 终端位置信息的处理方法 | |
CN108491720B (zh) | 一种应用识别方法、系统以及相关设备 | |
US10157228B2 (en) | Communication system including a confidence level for a contact type and method of using same | |
CN108682421B (zh) | 一种语音识别方法、终端设备及计算机可读存储介质 | |
CN112468658B (zh) | 语音质量检测方法、装置、计算机设备及存储介质 | |
CN110348471B (zh) | 异常对象识别方法、装置、介质及电子设备 | |
CN111294730B (zh) | 一种网络问题投诉信息处理的方法及装置 | |
CN112770265B (zh) | 一种行人身份信息获取方法、系统、服务器和存储介质 | |
CN110807547A (zh) | 家庭人口结构的预测方法及系统 | |
KR102086936B1 (ko) | 사용자 데이터 공유 방법 및 디바이스 | |
CN112395390A (zh) | 意图识别模型的训练语料生成方法及其相关设备 | |
CN113240071A (zh) | 图神经网络处理方法、装置、计算机设备及存储介质 | |
CN110807546A (zh) | 社区网格人口变化预警方法及系统 | |
CN110876072A (zh) | 一种批量注册用户识别方法、存储介质、电子设备及系统 | |
CN114970495A (zh) | 人名消歧方法、装置、电子设备及存储介质 | |
CN111400520B (zh) | 人脸识别库的构建方法、人脸支付方法、装置和系统 | |
CN112947959A (zh) | 一种ai服务平台的更新方法、装置、服务器及存储介质 | |
CN104378329A (zh) | 安全验证的方法、装置及系统 | |
US20230029312A1 (en) | Similarity-based search for fraud prevention | |
CN112560961B (zh) | 基于图聚类的目标识别方法、装置、电子设备及存储介质 | |
CN112307075B (zh) | 用户关系识别方法及装置 | |
CN116032599A (zh) | 网络安全漏洞风险评估方法、装置及存储介质 | |
CN115563377A (zh) | 企业的确定方法、装置、存储介质及电子设备 | |
CN111815339B (zh) | 一种营销信息推送方法及设备 | |
CN108256818A (zh) | 薪资计算方法、应用服务器及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220830 |