1. 引言
在线评分系统涵盖众多用户及对象,用户可以在包含电影、书籍和网站的广泛数据库中选择并进行互动。例如,用户给电影的评分会直接决定人们对该电影质量的感知[1]。然而,一些用户可能会提供高质量的评分,而其他用户则可能进行恶意评分。因此,明确定义用户声誉,以区分正常与恶意的评分,成为一个亟待解决的问题。本文旨在通过系统回顾和分析现有文献,明确各种声誉评估方法的优劣和适用场景。
为准确通过用户评级识别对象质量,我们定义用户声誉为基于历史评级行为在系统中建立的信任度。由于用户声誉缺乏明确定义,评分系统易受误导和操纵[2]。恶意用户可能会误导评分系统,对低质量对象进行高评分[3] [4],从而误导其他用户并影响系统的整体评价[5]。显然,将用户声誉作为一个指标,有助于有效区分正常评分和恶意评分,减少误导。此外,考虑用户声誉的角色还有助于筛选异常用户,提高评价的准确性。
用户评分行为是一个多维度的现象,受物品的内在质量、个人的评分倾向、物品的流行程度以及用户对物品进行评分的频次等多种因素的综合影响。Fu等[6]的研究表明,随着时间的推移,“高度活跃”的用户在评分时趋于更加严格,倾向于给出较低的评分。这可能意味着,随着用户在评分系统中参与度的提高,其评价标准可能会变得更加严格和精细。Dai等[7]则强调了个人偏好在用户评分形成中的关键作用,他们指出,由于个人偏见和心理因素的影响,即使是相同的物品也可能获得不同的评分。Liu等[8]的研究进一步揭示了用户评分行为与物品流行度之间的显著相关性。研究发现,“低度”用户更倾向于评价那些已经广受欢迎的物品,而“高度”用户则更可能选择评价那些尚未广为人知的物品。此外,Liu和Jia [9]的实证研究确认了用户声誉与评价数量之间的正相关关系,即用户的评价数量越多,其在系统中的声誉也越高。依据用户的个人偏好和对象的受欢迎程度等评分模式,我们将用户声誉的计算方法分为三类:迭代模型[10]-[23]、基于群组的模型[6] [7] [24]-[26]和基于特殊分布的模型[8] [9] [27]-[30]。本文全面回顾了这三种模型,旨在为用户声誉研究领域提供连贯的理解和新视角,同时整合当前面临的挑战和复杂的方法论问题。
2. 迭代模型
迭代模型基于这样的假设:用户声誉和对象质量是相互影响、互为因果的。核心理念在于,对象具有固有质量,用户的评分可以通过其与对象质量的关系(如距离或相关系数)来评估用户声誉,进而利用用户声誉和评分来判定对象的质量。这一迭代过程持续进行,直至用户声誉和对象质量达到稳定状态。
Laureti等[10]提出了一种迭代重构(IR)方法,用于从用户评分中精确提取对象的固有质量。该方法涉及N个用户对M个对象的评估,每个对象有其固有质量
。用户给出的评分
被用来重新评估对象质量,通过加权平均法估计对象的固有质量。迭代开始时,设置每位用户的初始权重为用户总数的倒数。接着,用户权重
通过公式
计算,其中
是用户评分的样本方差,
是调整权重的参数。在迭代过程中,权重、样本方差和加权平均值不断更新,以改进对对象质量和用户判断的评估。迭代一直进行,直到成本函数
达到最小值为止。该方法在处理大规模数据集时表现出色,但其收敛速度较慢,并且在处理异质性较高的评分数据时可能存在不稳定性。
Kerchove和Van Dooren [11]通过引入信任矩阵T改进了迭代重构(IR)方法,以增强其鲁棒性。在初始阶段,每个用户对T中所有对象的信任值均设为1。此方法通过信任矩阵计算每个用户i与对象j之间的权重
。接着,利用用户i对对象j的评级
和上述权重,计算对象的质量
。此外,该方法还计算置信散度
,其中mi是用户i评定的对象数量。置信散度用于更新信任矩阵,设定
,其中
是调整参数。同时,用户的可信度
由公式
确定,
是所有用户中的最大置信散度。这一计算过程持续重复,直到权重矩阵、声誉向量和信任矩阵稳定。
Zhou等[12]提出了基于相关性的排名(CR)方法,该方法根据用户评级与相应对象质量之间的相关性来确定用户声誉。每个用户的初始声誉设定为其评级数与对象集总数的比例。对象质量通过用户评级的加权平均值估计,其中权重为用户声誉。用户声誉的高低取决于其评级与加权平均评级的一致性。相关系数通过以下公式计算:
,其中
大于或等于0时,用户声誉等于相关系数;否则,声誉为0。该方法反复计算相关性,直到连续迭代之间对象质量估计的差异低于特定阈值,从而达到稳定状态。
在CR方法的基础上,考虑到在线系统中恶意用户的普遍存在,Liao等[13]开发了一种新的迭代排名方法,名为声誉再分配迭代法(IARR)。该方法的核心是一个非线性声誉再分配公式,具体为:
,其中,
是一个可调参数。当
和
时,该方法分别简化为基于平均值的方法和CR。得到的
将作为用户i的声誉,用于评估对象的质量。该方法通过提高评分一致性高的用户的影响力,同时抑制一致性低的用户的影响力,有效地减少了迭代过程中的噪音,提高了系统的整体鲁棒性。
考虑到仅对少数对象评分的用户不应具有过高的声誉,以及仅被少数用户评分的对象也不应被认为是高质量的,Liao等[13]提出了IARR2方法,在该方法中引入了两个惩罚因子来计算用户声誉和对象质量。该方法在声誉计算中考虑了用户评分对象的数量,以防止评分对象较少的用户获得不合理的高声誉。用户声誉的修改后的计算公式为:
。在计算对象质量时,将用户声誉与最大声誉值比较并进行归一化,以减少少数高声誉用户对质量评估的不当影响。对象质量的修改后计算公式为:
。这些调整有助于确保评分系统更加公正和准确。
针对传统方法忽略用户活动模式的问题,Liu等人[14]提出了一种改进的对象质量和用户声誉排名迭代法(IRUA)。该方法认为,用户对少数对象的高评分不一定代表对象的高质量。因此,对象质量的评估不仅基于加权平均评分,还考虑了评分用户的活跃度,计算公式为:
,其中,
是对象总数,
是基于活跃度的惩罚因子。接着,通过计算用户评分向量与对象质量向量之间的皮尔逊相关系
,进而评估用户声誉。用户的声誉计算考虑了相关系数和用户度。如果
,则
;否则
。迭代过程一直持续直到质量估计的变化低于设定阈值。
Wu等[15]发现用户的评分偏差也会影响对象质量的评估,因此提出了迭代平衡法(IB)以减少这种影响。起初,每个对象的质量设置为收到的所有评分的平均值。通过更新质量值和用户评分来调整用户声誉。用户的声誉指数(IBR)计算公式为:
,每个对象的质量则根据用户声誉和评分更新:
。迭代过程不断重复,直到对象质量的变化低于预设阈值。
和
的最终稳定值用于量化对象的内在质量和用户的声誉,以此来减少评分偏差的影响,提高系统的准确性和可靠性。
Liang等[16]提出了一种稳健排名方法(SR),基于评分波动较小的用户更可靠,应赋予更高声誉的前提。初始阶段,所有用户声誉设为1,产品
的质量由其加权平均评分决定。该方法计算每个用户
对对象质量评分的均方偏差
来反映评分的稳定性,并使用下式计算评分波动指数:
其中
表示用户评分与对象估计质量之间的平均偏差。声誉
的计算公式为
。为防止用户评分较少导致声誉不成比例增长,声誉调整公式为:
。迭代过程持续进行,直到对象质量的变化低于预定阈值。
Liao等[17]在基于累积时间的排名(ATR)方法中引入时间依赖性,考虑网络的整个历史,以计算用户声誉和对象质量。第t年的用户i的权重
是通过将评分数
除以该年的总评分
来计算的。对象
的权重
的计算方法类似。这些权重用于初始化用户i的声誉
和对象
的质量
,其中:
,
。该方法采用迭代过程来更新用户的声誉
和对象的质量
:,,其中
和
分别代表用户i和对象
从不同时间段累计的用户i和对象
的声誉值和质量值。该过程反复运行,直到
低于指定阈值。
Sun等[18]观察到,可靠用户的评分偏差通常较小,评分分布具有明显峰值,而恶意用户的评分则无固定模式,常带有偏差。基于此,他们提出了一种迭代优化排名(IOR)方法,利用预期分歧E和评分模式
来评估用户评分差异和模式。方法首先使用用户评分的加权平均值初始化对象质量,然后计算每个用户的评分差异向量
,其中
和
分别为每个评分组的权重和平均值。接着,创建用户评分频率矩阵,定义评分模式为
。用户信誉和对象质量通过
进行更新,迭代直到声誉差异低于特定阈值。
Huang等[19]针对电商系统中恶意评分者的问题,提出了基于迭代偏差的用户声誉排名(IDR)方法。该方法关注用户评分与对象质量之间的差异
、用户的评分频率
和评分模式
。初始阶段,对象质量通过用户评分的加权平均值初始化,迭代过程中用户的评分频次和模式结合起来就能揭示用户评分的一致性和差异性。用户声誉
则综合了平均评分差异和评分模式指标,其值越小即用户的声誉越低,越不可靠。迭代持续至声誉变化低于设定阈值。
Liu和Zhao [20]开发了一种基于特征向量分析的迭代声誉和质量排名方法,称为EigenRank。与许多缺乏收敛性证明的现有迭代法不同,EigenRank的数值收敛性在理论上是有保证的。该方法通过
,将用户的评分归一化为偏好度
,并将评分映射到[−1, 1]区间。使用
初始化用户的声誉,其中
是对象总数。对象质量的计算公式为
,其中c1为缩放参数,K和B分别对应对象度和归一化评分。每次迭代都会使用
和
更新声誉向量R和对象质量向量Q,其中D为用户度矩阵,c2是另一个缩放参数。迭代过程一直持续到声誉向量
趋于稳定,即连续声誉向量之间的欧氏距离低于阈值。
Li等[21]基于CR算法提出了一种改进的声誉评价方法(CRCN),该方法结合了用户–对象二分网络结构。该方法将经典的声誉评价方法与用户的聚类系数相结合,引入惩罚–奖励机制来更新用户的声誉。初始阶段,用户声誉和对象质量的计算方式与CR方法一致。首先利用用户的聚类系数
调整临时声誉值
,计算公式为
。其中,
,
是用户i评定的所有对象的集合。其次,引入非线性惩罚–奖励函数来计算最终声誉
,公式为:
。该方法迭代地更新用户信誉,直到对象质量的变化低于预定阈值。
Li等[22]提出了一种通过对评级系统中的对象进行分类来评估用户声誉的新方法(CRE),强调每个用户在不同对象类别中的专业知识。用户声誉不再是单一的标量值,而是用对象特征空间中的向量来表示。该方法首先计算出特征间的相似度
,计算公式为
,其中
是特征k和l之间的边缘数,
是特征k中的内部边缘数。每个用户i都会被分配一个声誉向量
,其中每个元素
代表在特征k中的声誉,初始阶段设置为用户在特征k中的度数
与该特征中的对象数量
的比值,即
。用户i在特征k中的信誉
是通过计算用户的评分向量和相应的对象质量向量之间的相关性得出的,表示为:
。对象质量
通过用户评分的加权平均值计算,权重为用户声誉
与相似度
的乘积。当对象质量估计值的变化低于一个较小的阈值时,迭代过程就会停止。
Zhu等[23]提出了一种基于Z统计的新型声誉迭代方法(ZS),重点关注经典方法经常忽略的棘手对象。每个用户的声誉初始设为其等级与对象总数之比。对象质量的用户评分向量的偏差度
通过Z统计法计算,具体公式为:
。接着通过偏差度更新用户声誉
,其中
是可调参数。重复该过程,直到所有对象的质量变化低于预定阈值。
迭代模型通过不断更新用户声誉和对象质量来提高评估准确性,能够动态调整以适应用户行为变化,并结合多维数据提供全面的声誉评估。然而,迭代模型计算复杂度高,处理大规模数据时耗时较长,收敛速度可能较慢,并且对初始参数设置敏感,可能需要多次调试才能获得最佳效果。
3. 基于群组的模型
基于群组的模型通过评分分类来量化用户声誉,主要依赖评分本身而非评分与对象质量之间的关系。此模型的核心策略是将给出相似评分的用户归为一个群体,利用该群体的规模来衡量相应对象的可信度,并据此计算用户的声誉。这种方法强调了群体共识对评价对象可信度的影响。
Gao等[24]提出了一种基于组的排名(GR)方法,该方法考虑到用户背景的差异性,识别对象常收到有效但主观的评分。该方法通过评分行为将用户进行分组,并将评分矩阵转化为评分奖励矩阵。具体操作是将每个对象的评分组大小通过除以该对象的评级总数来进行计算和归一化,得到评级奖励矩阵
。利用
的归一化过程,将原始评级矩阵A映射到奖励矩阵
,其中用户信誉
依据公式
计算。
引入迭代机制后,Gao等[25]提出了一种基于迭代组的排名(IGR)方法。IGR通过将用户声誉纳入计算评分组的大小并通过迭代处理动态更新用户声誉来扩展GR方法。该方法考虑评分对象矩阵
和用户声誉
(初始设置为1)两者来计算用户评级组的加权大小
,公式为
,其中m表示用户总数。对于已对对象
进行评分的用户,
;否则,
。迭代地更新用户声誉R和奖励矩阵
,直到用户声誉的变化下降到预设阈值以下,进一步提高了GR算法的鲁棒性。
Fu等[6]指出,评估用户声誉时应考虑分组行为与个人评级特征。他们观察到,与异常用户相比,正常用户的评级往往更集中且偏差较小,通常受个人偏好影响。基于此,Fu等人提出了一种基于迭代组和差异排名(IGDR)的方法,这一方法将声誉重新分配过程集成进原有的IGR方法。新方法中
的计算公式为:
,其中
表示用户i的评级的标准偏差。该方法通过整合用户评级的集中度和变异性,更精确地反映了用户的声誉。
Dai等[7]提出了一种将用户评级映射到统一标准的方法,以实现准确的声誉排名,并开发了一种基于用户偏好的在线用户声誉计算方法(PGR)。该方法首先对用户评级进行归一化,使用以下公式:
。对于新的评级矩阵
,设置类别区间
。该矩阵通过将映射的评分转换为特定范围内的在线评分构建,从
开始,以
为增量继续到
。用户根据评分分组,计算每个组的大小
。然后,构造评级–奖励矩阵H:
,其中
表示对象
的度。通过结合H和D构建奖励矩阵Z,其中用户i对评分
的奖励是
。最终,用户信誉
通过奖励向量
的平均值
和标准差
计算得出:
。
Zhang等[26]提出了一种名为基于群组行为排序聚合的异常用户检测方法(GSRA),以解决传统方法在检测由异常用户引起结构变化方面的不足。GSRA利用GMDD、GMMDD、GSOR和GGRV指标来量化异常用户组评分中的失真。该方法首先从二分网络中选择邻居节点组作为初始候选。组异常度量
定义为:
。具有高的群体行为累积值的对象被识别为可能的异常用户。该方法通过合并前K个对象的邻居节点,并利用Jaccard相似度和评分行为的哈希特征向量来分离异常用户群组。异常用户的得分通过排序聚合来优化,每个异常用户
被分配一个原始异常值
和优化后的声誉值
,后者由下式确定:
,
,
,其中,
是异常用户群组的影响因素,
和
平衡了原始异常用户的度和行为特征之间的权重关系。
基于群组的模型通过将用户分组并计算组内一致性,简化了计算过程,能较好地处理用户评分行为的多样性,并在评分数据更新时快速响应。然而,该模型的准确性和鲁棒性高度依赖于分组策略,缺乏对个体用户细粒度行为特征的分析,可能产生偏见,导致某些用户声誉评估不准确。
4. 基于特殊分布的模型
基于特殊分布的模型通过应用统计分布理论来评估用户声誉,假设用户的评级遵循特定的分布,例如常见的正态分布或贝塔分布。在这种模型中,用户声誉取决于其评分与预定分布的一致性程度,其中偏差较小表示声誉较高。这种方法侧重于识别那些其评分行为与典型或预期分布紧密匹配的用户,从而确保声誉系统的准确性和可靠性。
Lee等[27]提出了基于偏差的排名(DR),假设用户评分通常遵循正态分布,这一分布受多个独立因素的影响。DR方法通过评估用户评分行为与正态分布的偏差来评估声誉。该方法计算Z分数
,以表示用户
对所有对象在评分等级s上给出的平均质量评级
与预期评分s的偏差,通过预期分数s来度量用户声誉。然后,将累积声誉
计算为所有评分等级的绝对Z得分之和的负值,最终用户声誉
推导计算公式表示为:
。
Zhou等[28]提出了一种基于用户评级模式和评级偏差(RPRD)的声誉排名方法,该方法通过在DR的基础上引入熵和概率差来进一步衡量用户的评级模式和评级偏差。首先使用DR方法计算出用户声誉指数
后,然后引入熵
来通过公式
衡量评分模式的随机性。其中,参数k的值为1或−1,用于区分随机用户和恶意用户,
表示用户i给出评分s的概率。概率差
反映了评分波动。最终的用户声誉得分
则为
。此方法不仅考察了评分的偏差,还考虑了评分的随机性和波动性,提供了一种更全面的用户声誉评估方式。
王和刘[29]指出,正常用户的评分通常表现为峰值分布,这与恶意用户的分布不同,并据此开发了一种基于用户评级模式(BPR)的排名方法。该方法包括统计每个用户的评分并计算评分模式变量
,其中符合峰值分布的用户具有较高的
值。评分模式变量有助于估算用户声誉和对象质量。其中符合峰值分布的用户将具有较高的值。评分模式变量有助于估算用户声誉和对象质量。同时,计算评分偏差向量——用户评分与对象质量之间的绝对差异,以及平均偏差
。最终的声誉值
则根据平均偏差和评分模式变量计算得出,公式为
。
Sun和Chen [30]发现用户评分既符合正态分布也符合峰值分布,从而提出了基于区间划分的排名(IDR)方法。该方法使用Z分数公式对评级矩阵进行归一化,将每个评级
与标准正态分布对齐。指标函数
用于评估评分的有效性,对于区间[−1, 1]内的评分设置为1,否则设置为0。评级准确性
通过公式
计算,其中
和
代表合理和不合理评级的数量。距离函数bd用于测量偏离合理区间的程度,定义为:
。累积距离
反映了评分偏差的总和,通过
计算。用户声誉
的计算公式表示为
,其中
指示用户评级模式的特征值,计算为
。此方法通过整合评分的正态和峰值特性,综合评估用户声誉,进一步提高了用户声誉的度量精度。
Liu等[8]提出了一种基于贝叶斯分析和贝塔概率分布的无参数在线用户声誉排名方法(RBPD)。该方法将用户声誉定义为用户评分与多数派一致的概率。为了标准化不同的评分标准,应用归一化公式:
。评分的公正性通过归一化评分与多数评分的一致性来确定。用户声誉
通过贝塔分布计算,公式为
,其中
,
分别代表初始阶段用户的公正和不公正评分的数量,s,f为观察到的计数。然后,对象质量
的评估使用
,同时考虑评级和用户声誉。
Liu和Jia [9]提出了一种基于贝塔概率分布的迭代声誉排名方法(IBeta),将迭代声誉分配过程融入到RBPD中。在该方法中,基于每个用户的评级
和声誉
,正面意见
和负面意见
的计算重新定义了公平评分概率
的公式,其中每个用户i最初被分配了相等的声誉
:
,
。评分
被认为是公平评分的概率
表示为:
,该方法迭代计算用户声誉和对象质量,直到声誉向量之间的差值下降到指定阈值以下。
基于特殊分布的模型依靠统计分布理论提供坚实的数学基础,能够识别和过滤异常评分,适应不同类型的评分数据。然而,这些模型依赖于评分数据是否符合假设的分布类型,当实际数据分布与假设不符时,评估结果可能失真。此外,某些统计分布模型计算复杂,尤其在高维数据或大规模数据集上,计算效率较低,不适用于非正态分布的数据。
5. 展望
声誉系统在识别和抑制恶意行为方面的有效性已经得到证明。目前,声誉度量方法可分为迭代模型、基于群组的模型和基于特殊分布的模型。然而,现有方法仍有进一步发展的空间:
(1) 在动态在线环境下,声誉排名方法的适应性和鲁棒性方面尚存在理论上的差距。Laureti等[10]的方法在处理大规模数据集时表现出色,但在异质性较高的评分数据时可能不稳定。未来研究应探讨如何改进该方法以提高其收敛速度和稳定性。
(2) 探索如何利用多维数据去构建声誉排名算法,声誉还可以从社交媒体行为和文本内容分析等多重因素中去进行度量。Zhou等[28]的研究表明,整合评分模式和评分偏差可以提高声誉评估的准确性,但其计算复杂度较高。未来研究可以尝试降低计算复杂度以提高实用性。
(3) 如何有效地利用声誉排名方法适应动态变化的评分标准,将网络社区结构与多维数据分析结合,可能有助于提高这些方法的准确性和适用性。此外,建立一个全面的数据库,涵盖环境因素、社交网络、用户行为和评分动态,对提高声誉排名方法的效率和准确性至关重要。Wang和Liu [29]的研究指出,考虑评分分布特性能够更准确地反映用户声誉,但其在大规模数据集上的应用效果仍需验证。