Nothing Special   »   [go: up one dir, main page]

CN110287237B - 一种基于社会网络结构分析社团数据挖掘方法 - Google Patents

一种基于社会网络结构分析社团数据挖掘方法 Download PDF

Info

Publication number
CN110287237B
CN110287237B CN201910555784.7A CN201910555784A CN110287237B CN 110287237 B CN110287237 B CN 110287237B CN 201910555784 A CN201910555784 A CN 201910555784A CN 110287237 B CN110287237 B CN 110287237B
Authority
CN
China
Prior art keywords
community data
community
data
nodes
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910555784.7A
Other languages
English (en)
Other versions
CN110287237A (zh
Inventor
叶鹏
罗皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Chengshu Information Technology Co ltd
Original Assignee
Shanghai Chengshu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Chengshu Information Technology Co ltd filed Critical Shanghai Chengshu Information Technology Co ltd
Priority to CN201910555784.7A priority Critical patent/CN110287237B/zh
Publication of CN110287237A publication Critical patent/CN110287237A/zh
Application granted granted Critical
Publication of CN110287237B publication Critical patent/CN110287237B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于社会网络结构分析高效社团数据挖掘方法,包括如下步骤:S1,将社会网络数据进行收集,并执行社会网络数据标准化,检查数据通信网络连通状态,建立初始化社团数据;S2,通过数据通信网络对社团数据进行归类搜索,并且对归类搜索后的社团数据进行归类判定;S3,分配尚未有明确划分的社团数据节点,并且调整重叠的社团数据节点;S4,对社团数据进行检测,并将检测后的社团数据进行社团数据划分,输出最终社团数据挖掘结果。

Description

一种基于社会网络结构分析社团数据挖掘方法
技术领域
本发明涉及计算机数据挖掘领域,尤其涉及一种基于社会网络结构分析社团数据挖掘方法。
背景技术
随着网络科学的发展,社会网络的研究已经成为一个热点问题,引起了越来越多研究者的注意,比如在线社交网络、犯罪网络、经济网络、通讯网络、合作网络和能源网络等等,社会网络分析是研究一组行动者的关系的研究方法。一组行动者可以是人、社区、群体、组织、国家等,他们的关系模式反映出的现象或数据是网络分析的焦点。从社会网络的角度出发,人在社会环境中的相互作用可以表达为基于关系的一种模式或规则,而基于这种关系的有规律模式反映了社会结构,这种结构的量化分析是社会网络分析的出发点。社会网络分析已经成为重要的研究思想,涉及了多个学科和研究领域,例如:数据挖掘领域、知识管理、数据可视化、统计分析、社会资本、小世界理论、信息传播等。
社团发现是社会网络分析中的一类NP难问题,构建数学模型或物理模型是主流的分析技术,这些技术已经取得了较大的进展,有的方法已经在社交网络上得到了应用。Pattanayak等人(Pattanayak et al.Community detection in social networks basedon fire propagation[J],Swarm and Evoluationary Computation,2019.)使用火灾传播模型研究了社会网络的社团发现方法。Seyed等人(Seyed et al,Community detection insocial networks using user frequent pattern mining[J],Knowledge andInformation Systems,2018)基于用户在社交网络上的活跃的频率模式的深度挖掘对社团模式进行分析。Hamzeh等人(Hamzeh et al.,Community detection in dynamic socialnetworks:Alocal evolutionary approach,Journal ofInformation,2016.)使用局部进化策略模型,结合全局和局部信息研究了动态社会网络的社团侦测问题。李振等人(ZhenLi et al.,Efficient Community Detection in Heterogeneous Social Networks,Mathematical Problems in Engineering,2016)使用正则化的非负矩阵分解模型结合连边等有效信息提出一种有效的社会网络社团识别方法。Pourkazemi等人(Pourkazemi etal.,Community detection in social network by using a multi-objectiveevolutionary algorithm,Intelligent DataAnalysis,2017.)使用多目标进化算法-粒子群优化算法,它同时优化两个目标函数,这两个目标函数表示网络的一个划分,并使用一个变异运算符来处理高维的问题,在社会网络的社团划分中取得了较好的结果。
网络科学方法在社会网络中已经得到了广泛的应用,社团识别的另外一种方法就是通过给节点的重要性打分来辅助进行。比如著名的Pagerank排序算法(张丽等人,N-stepPageRank for web search,Advanced Information Retriever,2007),在PageRank中,两点之间的权重取决于“出点”的度数,那么就需要把度数换算成某人可能转发该文章的概率,这个概率会取决于文章内容与其标签的关联度,取决于这个人关注的人数(即看到该文章的微博)等等。另外一个常用的就是介数中心性(),其实就是评估一个点到其它点的距离,其核心在于如果从这个点开始传播,有多大的概率可以到达社区中所有的人。K-means算法()充分利用社交网络中的联系的强弱、频繁程度、以及互动内容来研究人与人之间的关系实现社团划分,来实现真实场景下的社交圈子识别。K-Means算法的思想是初始随机给定K个聚类中心,按照距离最近原则把待分类的样本点分到各个聚类,然后按平均法重新计算各个聚类的质心,确定新的聚类中心,反复迭代直至满足停机规则。
在上述社会网络的社团识别算法中,不管是基于数学模型、物理模型或节点重要性排序算法,都存在着不同程度的缺点,其中核心问题就是很多算法只适用于小规模网络,很难在大规模的社会网络中实现;大部分方法需要人工设定一些参数,并且模型比较复杂,直接结果就是其它领域的研究人员很难理解模型的意义,限制了算法的推广和应用。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于社会网络结构分析社团数据挖掘方法。
为了实现本发明的上述目的,本发明提供了一种基于社会网络结构分析社团数据挖掘方法,包括如下步骤:
S1,将社会网络数据进行收集,并执行社会网络数据标准化,检查数据通信网络连通状态,建立初始化社团数据;
S2,通过数据通信网络对社团数据进行归类搜索,并且对归类搜索后的社团数据进行归类判定;
S3,分配尚未有明确划分的社团数据节点,并且调整重叠的社团数据节点;
S4,对社团数据进行检测,并将检测后的社团数据进行社团数据划分,输出最终社团数据挖掘结果。
优选的,所述S1包括:
S1-1,对社会网络数据进行标准化为无权、无环的单向邻接列表,存储为标准的文本格式;
S1-2,检验社团数据传输网络是否为连通网络,如果是则执行S1-3,如果不是则分别提取不同的社团数据网络的连通部分以及社团数据网络的孤立点,再执行S1-3;
S1-3,提取每一个连通片中连接度最高的
Figure GDA0003026134760000031
个节点,n为网络中节点的个数,取整数;以各自对应的连接列表成员作为初始化的社团。
优选的,所述S2包括:
S2-1,从社团数据网络中搜索稠密类型社团数据;从每一个初始社团数据出发,检验是否满足稠密类型社团数据的量化定义,如果满足则输出该社团为稠密类型社团数据;如果不满足则继续执行下一步;
S2-2,从社团数据网络中搜索常规类型社团数据,对剩下的不确定性社团数据检验是否满足常规类型社团数据的量化定义,如果满足则输出该社团为常规类型社团数据;如果不满足则继续执行下一步;
S2-3,从社团数据网络中搜索稀疏类型社团数据;对剩下的未定性社团数据检验是否满足稀疏类型社团数据的量化定义,如果满足则输出该社团为稀疏类型社团数据;如果不满足则继续执行下一步;
S2-4,对所述稠密类型社团、常规类型社团和稀疏类型社团进行定量分析,在观察社会网络结构特征的基础上,从社团数据相关的连边数量进行量化后应用到大规模的社交网络进行社团数据挖掘。
优选的,所述S3包括:
S3-1,分配尚未有明确划分的社团数据节点;对还没有划分到社团数据中的节点,根据社团数据成员的连接属性,分配到已有的社团数据中去;
S3-2,调整重叠的社团数据节点;根据最后输出的所有社团,检验发现的重叠节点的成员属性是否为真,如果为假,则相应调整重叠节点的归属;在结构设计中,考虑到社团数据节点重叠的状态,通过量化定义社团数据节点的重叠属性,做到了对重叠节点有效识别。
优选的,所述S4包括:
S4-1,对社团数据检测,对最终生成的社团数据,根据社团数据类型的量化定义,检验是否满足预设条件,如果满足则输出,如果不满足则返回S3直到社团数据节点不再发生变化;
S4-2,将挖掘后的社团数据输出结果;整合全部社团数据连通片中的检测结果,生成最终的社团数据划分。
优选的,所述S2还包括:社团数据网络形成的社团数据类型的量化定义:
(a)稠密类型社团数据:
对一个具有n个节点,m条边的社团数据网络,如果一组节点具有社团数据结构,且满足如下条件:
Figure GDA0003026134760000051
则该社团为一个稠密类型社团数据,0.618为黄金分割率,
Figure GDA0003026134760000052
为n个节点全连接所对应的边数;
(b)常规类型社团数据:
对一个具有n个节点,m条边的社团数据网络,如果一组节点具有社团结构,且满足如下条件:
Figure GDA0003026134760000053
则该社团数据为一个常规类型社团数据;
(c)稀疏类型社团数据:
对一个具有n个节点,m条边的社团数据网络,如果一组节点具有社团数据结构,且满足如下条件:
n-1≤m≤(1+0.618)×n
则该社团数据为一个稀疏类型社团数据。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明提出了一种基于社会网络结构分析的高效社团挖掘方法,该方法的核心就是对社团复杂构型的探索和发现。在充分理解社团构型的基础上,定义了稠密类型社团,常规类型社团和稀疏类型社团。
1)本发明使用在充分调研复杂社会网络的社团构型基础上,针对网络中存在的社团构型,定义了三种不同类型的社团结构,然后从网络中寻找符合三种构型社团结构,不需要复杂的数学或物理公式,简单易懂,不需要具备数学或物理知识也可以理解应用。
2)本发明使用在充分调研复杂社会网络的社团构型基础上,基于对构型的理解从社团构型角度解决已有算法无法实现对大规模网络的进行有效的社团划分的问题,并从结构上保证了重叠社团的存在。
3)本发明使用了定量的分析技术,明确的界定了不同类型的社团结构特征,有效的排除了不确定性,解决了参数设定对分析结果的扰动干扰。
4)本发明收集了大量的网络拓扑类型,在进行充分的调查分析之后,提取了不同类型社团的结构特征,可以对各种不同类型的社团结构进行提取,解决了已有技术的缺陷。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明总体工作流程图;
图2是本发明社团数据结构图;
图3是本发明另一社团数据结构图;
图4是本发明另一社团数据结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在大规模社会网络中准确的识别社会团体是目前的热点研究问题,具有重大的研究价值。现有关于社团发现的算法研究多停留在理论层面,适用于一些小规模的、特殊构型的网络,然而如果将其推广到大规模,复杂构型的社会网络,就很难有效识别真实社团。特别是在社会网络中,社团重叠是常见的现象,但现有的主流提取方法大多不能有效识别重叠社团。
此外,现有提取方法普遍存在的一个问题就是需要设定模型参数,而模型参数的设定对最终划分结果影响通常比较大,无法形成鲁棒的、稳定可靠的社团划分。
最后,现有挖掘提取方法对于稠密连接的社团结构的识别效果都比较好,但是社团结构千变万化,构型的复杂程度远超过我们的想象,也就是很多人没有真正理解网络科学中“大则不同”的核心理念,而是将社会网络看作是图论的简单推广,然而我们都知道,图论的方法在网络科学中基本上已经不能使用了。
本发明提出了一种基于社会网络结构分析社团数据挖掘方法,所采用的具体技术方案包括如下步骤:
1)数据标准化。对社会网络数据进行标准化为无权、无环的单向邻接列表,存储为标准的文本格式。
2)网络连通性分析。检验网络是否为连通网络,如果是则执行下一步,如果不是则分别提取不同的连通部分以及孤立点,再执行社团挖掘。
3)社团初始化。提取每一个连通片中连接度最高的
Figure GDA0003026134760000071
个节点(n为网络中节点的个数,取整数),以它们所各自对应的连接列表成员作为初始化的社团。例如,如果社团中有36个节点,则取度数最大的前6个节点所对应的连接列表成员作为6个初始的社团。如果设节点1是度数最大的节点,且与节点1相连接的节点有2,5,8,9,10,14,18,19,20,26,30,31,32,则邻接列表[1,2,5,8,9,10,14,18,19,20,26,30,31,32]就是第一个初始化的社团。通过这种初始化手段,可以极大的提高搜索效率,节省运行时间。
4)从网络中搜索稠密类型社团。从每一个初始社团出发,检验它是否满足稠密类型社团的量化定义,如果满足则输出该社团为稠密类型社团;如果不满足则继续执行下一步;
5)从网络中搜索常规类型社团。对剩下的不确定性社团,检验它是否满足常规类型社团的量化定义,如果满足则输出该社团为常规类型社团;如果不满足则继续执行下一步;
6)从网络中搜索稀疏类型社团。对剩下的未定性社团,检验它是否满足稀疏类型社团的量化定义,如果满足则输出该社团为稀疏类型社团;如果不满足则继续执行下一步;
4),5),6)中提出的稠密类型社团、常规类型社团和稀疏类型社团三种构型,都是能够定量分析的,是在观察大量社会网络结构特征的基础上提出来的,并且仅从社团相关的连边数量来量化,简单易懂,易于实现,从根本上解决了复杂数学、物理模型给其它专业技术人员带来的理解和应用困难问题。同时由于算法复杂度底,精度高,可以应用到大规模的社交网络中,进而发现那些感兴趣的社会团体,解决了网络规模的限制。
7)分配尚未有明确划分的节点。对还没有划分到社团中的节点,根据社团成员的连接属性,将它们分配到已有的社团中去。
8)调整重叠节点。根据最后输出的所有社团,检验发现的重叠节点的成员属性是否为真,如果为假,则相应调整重叠节点的归属。在结构设计中,我们充分考虑到节点重叠问题,通过量化定义节点的重叠属性,做到了对重叠节点有效识别。
9)社团检测。对最终生成的社团,根据社团构型的量化定义,检验是否满足定义,如果满足则输出,如果不满足则返回7)直到社团成员不再发生变化为止。
10)输出结果。整合所有连通片中的检测结果,生成最终的社团划分。
由于社团构型的识别仅仅是基于三种不同类型社团结构的量化定义,所以整个算法不需要设定任何参数,当算法迭代结束即可输出鲁棒的结果,有效解决了参数选择对算法结果带来的较大扰动。另外,在社团构型的设定时,我们就考虑到了社团的复杂类型,我们的分类,不仅包括较大的稠密连接社团,也包括较小的稀疏连接社团,不同类型的结构均有体现,因此有效的保证了社团结构的多样性,解决了现有方法中仅关注稠密连接社团的问题。
以上就是我们所提出的一种基于社会网络结构分析的高效社团挖掘技术方案,该方案的流程可以参看附图1,附图1概括了整个方法的主要步骤。技术方案中的涉及的三类社团结构构型可以参看附图2至4,附图2至4给出了三种构型的示意图。
本发明的基于社会网络结构分析的高效社团挖掘方法给出具体的实施步骤:
步骤(1):数据标准化。
首先将非标准网络转化为标准网络,即将那些加权、双向,带自环的网络转换为无权,无向不带自环的网络。然后从网络邻接数据中提取邻接列表,构成输入列表,通常是以.txt文件存储,也可以输入m行2列以网络连边形式的连接矩阵(m是网络中连边的数量)。
步骤(2):网络连通性分析。
现实网络中不是所有网络都是连通的,为了使算法适用于所有的网络结构,首先需要检验网络的连通性。如果网络是连通的,则可以直接执行下面的算法;如果网络不是连通的,则需要提取所有的连通片以及孤立点,然后在分别在不同的连通片上执行下面的算法,挖掘社团结构。
步骤(3):社团初始化。
在大规模的社会网络中挖掘社团结构是一个困难问题,为了提高算法效率,减少算法复杂度,我们设计了一种社团初始化方法,即从每一个连通片中提取连接度最高的
Figure GDA0003026134760000101
个节点(n为网络中节点的个数,取整数),作为种子节点,以这些种子节点为核心,构建
Figure GDA0003026134760000102
个初始社团,每一个社团中,都是以该种子节点多对应的邻接列表中的成员为基础进行社团初始化。这种初始化方法的优势在于,基本上可以将连通网络中的绝大部分成员分配到至少一个初始社团中去,可以大大减少运行时间,加快算法的收敛进程。
社团结构定义:
如果一组节点内部连接的边数大于其与其它任何社团之间的连边数,则我们说这组节点具有社团结构。
社会网络三种不同社团类型的量化定义:
(a)稠密类型社团:
对一个具有n个节点,m条边的社会网络,如果一组节点具有社团结构,且满足如下条件:
Figure GDA0003026134760000103
则我们称该社团为一个稠密类型社团,0.618为黄金分割率,
Figure GDA0003026134760000104
为n个节点全连接所对应的边数。
(b)常规类型社团:
对一个具有n个节点,m条边的社会网络,如果一组节点具有社团结构,且满足如下条件:
Figure GDA0003026134760000105
则我们称该社团为一个常规类型社团。
(c)稀疏类型社团:
对一个具有n个节点,m条边的社会网络,如果一组节点具有社团结构,且满足如下条件:
n-1≤m≤(1+0.618)×n
则我们称该社团为一个稀疏类型社团。
步骤(4):从网络中搜索稠密类型社团。
从每一个初始社团出发,根据稠密类型社团的量化定义,检验它是否是稠密类型社团,如果是,则检测它是否满足社团结构定义,如果是则输出为稠密类型社团;如果不满足则继续执行下一步;直到所有初始社团全部鉴定完毕。
步骤(5):从网络中搜索常规类型社团。
将上一步提取的稠密类型社团从初始社团中提取出来之后,对初始社团中剩下的部分,根据常规类型社团的量化定义,继续搜索常规类型社团,如果某个社团符合常规类型社团的量化定义,则输出它为常规类型社团,如果不满足则继续进行下一步。
步骤(6):从网络中搜索稀疏类型社团。
将提取的常规类型社团从初始社团中剔除之后,如果还有初始社团存在,则继续进行分类。
对剩下的部分,根据稀疏类型社团的量化定义,继续搜索稀疏类型社团,如果某个社团符合稀疏类型社团的量化定义,则输出它为稀疏类型社团,直到所有初始化全部划分完毕。
步骤(7):未分配节点的分配。
在三类社团结构划分完毕之后,检测是否还有节点没有被分配,如果存在则根据节点的连接属性,将它分配到与其连接最多的社团中去。
步骤(8):重叠节点的分配。
在第7步完成之后,三类社团构型的划分基本完成,但是还不够精确,需要进一步调整。首先就是重叠节点问题,根据节点的重叠属性,检验目前发现的重叠节点是否为真,如果为真,则保留,如果为假,则根据节点属性将其重新分配到相应的归属社团中去。
步骤(9):社团结构的重新检测。
由于第7,8步对社团成员进行了一定的的调整,所以,需要对新生成的社团进行重新检测,如果满足社团结构的定义则保留,如果不满足则将其所对应节点归结为未分配节点,返回第7步继续循环操作,直到社团成员不再发生任何变化为止。
步骤(10):输出结果。
根据社团构型,分别输出稠密类型社团、常规类型社团和稀疏类型社团,以及连通片、孤立点、重叠节点等相关运算结果。
我们的算法不包含任何参数,是确定性的社团划分算法,具有简单易懂,适用性强,辨识度高,能发现不同构型的社团结构,鲁棒性、精确性高的特点,对目前大规模社会网络的模式识别具有较高的实用价值。
提出的一种基于社会网络结构分析的高效社团挖掘技术,相对于目前主流的社会网络社团发现方法具有比较明显的优势。
1)从技术上来看,首先,采用简单的结构量化分析即可实现社团的有效识别,解决了复杂模型对技术的推广与应用带来的较大阻碍。其次,无参数的设计提高了算法的鲁棒性与可靠性。此外,对复杂网络结构的分析,保证了社团构型的多样性,最后,社团的初始化技术,有效降低了算法的时间复杂度,确保其可以推广到大规模的社会网络中。
2)从经济上来看,人们在日常的生产生活当中产生了海量的大数据,对这些大数据索构建的社会网络进行有效分析,挖掘潜在的社会群体,对社会的生产、销售都有巨大的指导意义,如何从社会网络中挖掘潜在的客户群体,精准的投放广告,如何构建鲁棒的电力网络结构,确保不会因为某个局部(社团)故障导致大规模的影响正常的经济生产等等。
3)从社会效益来说,对社会网络的结构进行精准分析,发现隐藏的社团结构,对我们维护社会稳定,制定高效产业政策,法律法规都可以提供有利的技术支持。例如,通过有效的社团发现算法,可以从海量的社交网络上发现不同的兴趣团体,客户群体,甚至是犯罪组织等等。这些都对社会的发展具有很好的推动作用。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (5)

1.一种基于社会网络结构分析社团数据挖掘方法,其特征在于,包括如下步骤:
S1,将社会网络数据进行收集,并执行社会网络数据标准化,检查数据通信网络连通状态,建立初始化社团数据;
S2,通过数据通信网络对社团数据进行归类搜索,并且对归类搜索后的社团数据进行归类判定;
S3,分配尚未有明确划分的社团数据节点,并且调整重叠的社团数据节点;
S4,对社团数据进行检测,并将检测后的社团数据进行社团数据划分,输出最终社团数据挖掘结果;
其中,所述S2包括:
S2-1,从社团数据网络中搜索稠密类型社团数据;从每一个初始社团数据出发,检验是否满足稠密类型社团数据的量化定义,如果满足则输出该社团为稠密类型社团数据;如果不满足则继续执行下一步;
S2-2,从社团数据网络中搜索常规类型社团数据,对剩下的不确定性社团数据检验是否满足常规类型社团数据的量化定义,如果满足则输出该社团为常规类型社团数据;如果不满足则继续执行下一步;
S2-3,从社团数据网络中搜索稀疏类型社团数据;对剩下的未定性社团数据检验是否满足稀疏类型社团数据的量化定义,如果满足则输出该社团为稀疏类型社团数据;如果不满足则继续执行下一步;
S2-4,对所述稠密类型社团、常规类型社团和稀疏类型社团进行定量分析,在观察社会网络结构特征的基础上,从社团数据相关的连边数量进行量化后应用到大规模的社交网络进行社团数据挖掘。
2.根据权利要求1所述的基于社会网络结构分析社团数据挖掘方法,其特征在于,所述S1包括:
S1-1,对社会网络数据进行标准化为无权、无环的单向邻接列表,存储为标准的文本格式;
S1-2,检验社团数据传输网络是否为连通网络,如果是则执行S1-3,如果不是则分别提取不同的社团数据网络的连通部分以及社团数据网络的孤立点,再执行S1-3;
S1-3,提取每一个连通片中连接度最高的
Figure FDA0003026134750000021
个节点,n为网络中节点的个数,取整数;以各自对应的连接列表成员作为初始化的社团。
3.根据权利要求1所述的基于社会网络结构分析社团数据挖掘方法,其特征在于,所述S3包括:
S3-1,分配尚未有明确划分的社团数据节点;对还没有划分到社团数据中的节点,根据社团数据成员的连接属性,分配到已有的社团数据中去;
S3-2,调整重叠的社团数据节点;根据最后输出的所有社团,检验发现的重叠节点的成员属性是否为真,如果为假,则相应调整重叠节点的归属;在结构设计中,考虑到社团数据节点重叠的状态,通过量化定义社团数据节点的重叠属性,做到了对重叠节点有效识别。
4.根据权利要求1所述的基于社会网络结构分析社团数据挖掘方法,其特征在于,所述S4包括:
S4-1,对社团数据检测,对最终生成的社团数据,根据社团数据类型的量化定义,检验是否满足预设条件,如果满足则输出,如果不满足则返回S3直到社团数据节点不再发生变化;
S4-2,将挖掘后的社团数据输出结果;整合全部社团数据连通片中的检测结果,生成最终的社团数据划分。
5.根据权利要求1所述的基于社会网络结构分析社团数据挖掘方法,其特征在于,所述S2还包括:社团数据网络形成的社团数据类型的量化定义:
(a)稠密类型社团数据:
对一个具有n个节点,m条边的社团数据网络,如果一组节点具有社团数据结构,且满足如下条件:
Figure FDA0003026134750000031
则该社团为一个稠密类型社团数据,0.618为黄金分割率,
Figure FDA0003026134750000032
为n个节点全连接所对应的边数;
(b)常规类型社团数据:
对一个具有n个节点,m条边的社团数据网络,如果一组节点具有社团结构,且满足如下条件:
Figure FDA0003026134750000033
则该社团数据为一个常规类型社团数据;
(c)稀疏类型社团数据:
对一个具有n个节点,m条边的社团数据网络,如果一组节点具有社团数据结构,且满足如下条件:
n-1≤m≤(1+0.618)×n
则该社团数据为一个稀疏类型社团数据。
CN201910555784.7A 2019-06-25 2019-06-25 一种基于社会网络结构分析社团数据挖掘方法 Expired - Fee Related CN110287237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910555784.7A CN110287237B (zh) 2019-06-25 2019-06-25 一种基于社会网络结构分析社团数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910555784.7A CN110287237B (zh) 2019-06-25 2019-06-25 一种基于社会网络结构分析社团数据挖掘方法

Publications (2)

Publication Number Publication Date
CN110287237A CN110287237A (zh) 2019-09-27
CN110287237B true CN110287237B (zh) 2021-07-09

Family

ID=68005699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910555784.7A Expired - Fee Related CN110287237B (zh) 2019-06-25 2019-06-25 一种基于社会网络结构分析社团数据挖掘方法

Country Status (1)

Country Link
CN (1) CN110287237B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626890B (zh) * 2020-06-03 2023-08-01 四川大学 一种基于销售信息网络的显著社团发现方法
CN112653765B (zh) * 2020-12-24 2024-06-25 南京审计大学 一种基于社区重叠和内嵌分析的资源配置的方法和装置
CN113095151B (zh) * 2021-03-18 2023-04-18 新疆大学 基于信号分解与复杂网络的滚动轴承未知故障检测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345531A (zh) * 2013-07-26 2013-10-09 苏州大学 一种复杂网络中网络社团的确定方法及装置
CN103810260A (zh) * 2014-01-27 2014-05-21 西安理工大学 基于拓扑特性的复杂网络社团发现方法
CN105162648A (zh) * 2015-08-04 2015-12-16 电子科技大学 基于骨干网络扩展的社团检测方法
CN106055568A (zh) * 2016-05-18 2016-10-26 安徽大学 一种基于单步添加团的社交网络的朋友自动分组方法
CN107133877A (zh) * 2017-06-06 2017-09-05 安徽师范大学 网络中重叠社团的挖掘方法
CN107222334A (zh) * 2017-05-24 2017-09-29 南京大学 适用于社交网络的基于核心三角的局部社团发现方法
CN109859065A (zh) * 2019-02-28 2019-06-07 桂林理工大学 基于谱聚类的多目标复杂网络社区发现方法
CN109978705A (zh) * 2019-02-26 2019-07-05 华中科技大学 一种基于极大团枚举的社交网络中社团发现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11979309B2 (en) * 2015-11-30 2024-05-07 International Business Machines Corporation System and method for discovering ad-hoc communities over large-scale implicit networks by wave relaxation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345531A (zh) * 2013-07-26 2013-10-09 苏州大学 一种复杂网络中网络社团的确定方法及装置
CN103810260A (zh) * 2014-01-27 2014-05-21 西安理工大学 基于拓扑特性的复杂网络社团发现方法
CN105162648A (zh) * 2015-08-04 2015-12-16 电子科技大学 基于骨干网络扩展的社团检测方法
CN106055568A (zh) * 2016-05-18 2016-10-26 安徽大学 一种基于单步添加团的社交网络的朋友自动分组方法
CN107222334A (zh) * 2017-05-24 2017-09-29 南京大学 适用于社交网络的基于核心三角的局部社团发现方法
CN107133877A (zh) * 2017-06-06 2017-09-05 安徽师范大学 网络中重叠社团的挖掘方法
CN109978705A (zh) * 2019-02-26 2019-07-05 华中科技大学 一种基于极大团枚举的社交网络中社团发现方法
CN109859065A (zh) * 2019-02-28 2019-06-07 桂林理工大学 基于谱聚类的多目标复杂网络社区发现方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Community Detection in Sparse Random Networks;Verzelen N et al.;《 Annals of Applied Probability An Official Journal of the Institute of Mathematical Stats》;20131231;全文 *
Dynamic partitioning of social networks;Yuan M et al.;《Social Networks》;20131231;全文 *
基于节点动态连接度的网络社团划分算法;贾珺 等;《复杂系统与复杂性科学》;20161231;第56-61页 *

Also Published As

Publication number Publication date
CN110287237A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
Chen et al. Data quality of electricity consumption data in a smart grid environment
Shi et al. Event detection and identification of influential spreaders in social media data streams
CN110287237B (zh) 一种基于社会网络结构分析社团数据挖掘方法
CN111090643B (zh) 一种基于数据分析系统下的海量用电数据挖掘方法
Wang et al. Spatial colocation pattern discovery incorporating fuzzy theory
CN113836707B (zh) 基于加速属性网络嵌入算法的电力系统社区探测方法和装置
CN106296315A (zh) 基于用户用电数据的情境感知系统
CN102982236B (zh) 一种通过网络用户建模的观点预测方法
Guo et al. Electromagnetic environment portrait based on big data mining
US11836637B2 (en) Construction method of human-object-space interaction model based on knowledge graph
Lei et al. Mining spatial co-location patterns by the fuzzy technology
CN113191656B (zh) 一种基于数据关联分析的低压配电网设备负荷与拓扑联动方法
CN113094448B (zh) 住宅空置状态的分析方法及分析装置、电子设备
Liu et al. Community detection based on topic distance in social tagging networks
Shen et al. Developer cooperation relationship and attribute similarity based community detection in software ecosystem
CN106816871B (zh) 一种电力系统状态相似性分析方法
Bhat et al. A density-based approach for mining overlapping communities from social network interactions
Chen et al. Research and application of cluster analysis algorithm
Guo et al. Multisource target data fusion tracking method for heterogeneous network based on data mining
Wang et al. Hierarchical community detection in social networks based on micro-community and minimum spanning tree
Li et al. Research on Big Data Text Clustering Algorithm Based on Swarm Intelligence
CN114793200B (zh) 一种基于电力物联网网络结构的重要物联节点识别方法
Zhang et al. A Community Detection Approach for Academic Social Network: the Case of the Cross-Strait Academic Conference Network
Gu et al. Analysis of Power User Behavior Based on Big Data Technology: A Review
Tang et al. A method for telecom user portrait modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210709