CN108491377B

CN108491377B - 一种基于多维度信息融合的电商产品综合评分方法

Info

Publication number: CN108491377B
Application number: CN201810181878.8A
Authority: CN
Inventors: 徐新胜; 余建浙
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2018-03-06
Filing date: 2018-03-06
Publication date: 2021-10-08
Anticipated expiration: 2038-03-06
Also published as: CN108491377A

Abstract

本发明公开了一种基于多维度信息融合的电商产品综合评分方法，其中所述方法包括：电商产品多维度信息的获取，主要是商铺信息、销量信息和评论文本信息；数据预处理，数值型数据进行数据清洗和数据转化，而评论文本进行分词、词性标注等处理；多维度信息的挖掘，通过对商铺信息和商品销量信息的数据归纳和主成份回归分析，得到商铺信息指数和商品销量指数，评论文本进行情感分析，通过量化和聚类方法得到产品特征得分雷达图；商品总得分计算，设计融合函数并计算商品总得分。本发明的方法可以应用在基于商品信息的商品推荐系统，能够高效简便的识别出优质商品，使所设计的推荐系统具有更加快速和准确的性能。

Description

一种基于多维度信息融合的电商产品综合评分方法

技术领域

本发明涉及自然语言处理和数据挖掘领域，尤其是一种基于多维度信息的商品评价方法。

背景技术

伴随着互联网信息技术的不断提升，电子商务行业迅猛发展，电商平台已经成为网购的一个重要渠道。但与此同时，消费者在网购商品时往往面临一些困难，如假冒伪劣、虚假宣传和选购困难等问题。虽然，许多电商平台提供消费者反馈机制，但是，面对网络上堆积的反馈信息，如何在茫茫多的反馈信息中，迅速有效地识别出有价值的参考信息，如何通过高价值的参考信息，简洁高效地评估商品优劣是至关重要的问题。目前，已经有部分类似研究工作。田博等人引入感知信任和信任体系，通过对电商产品相关联的数据融合，描述商品的可信任度，提出一种电子商务推荐信任评价模型。李瑞轩等人融合历史交易情况以及当前交易价格提出了一种基于信用值、信用等级，以及商品价格的商品定量风险评估方法。基于所构建的电商信用风险的预警指标体系，考虑当前交易行为和交易历史，卫志诚等人提出一种综合信任度和风险度的电子商务交易评估模型。Pang通过对电影评论文本进行情感倾向分类，得到每部电影情感类别。史伟等人基于《HowNet》和TF-IDF加权方法，挖掘微博评论信息的情感极性及情感强度。林钦和等人考虑到评论信息中修饰词出现的位置不同所造成的一种语义差异，提出了一个情感分析的产品评论分析系统。

然而，上述学者对商品的分析，要么只考虑消费者反馈信息中的结构化数据，通过对结构化数据的模型计算得到数值，衡量商品优劣或者商品购买的风险。要么只对那些非结构数据进行挖掘，通过对评论信息的情感倾向量化，作为评价对象的情感得分。本论文中，综合分析结构化信息和非结构化信息，通过对商铺信誉、商品销量和评论文本情感进行量化来构建一个多维度的商品综合评分模型，更加准确客观为消费者甚至制造商提供商品的一个综合评分。

发明内容

本发明所要解决的技术问题是：提供一种多维度信息融合的电商产品综合评分方法，爬取电商产品相关的商铺信息、商品销量信息和评论文本。针对商铺信息和商品销量信息的分析，通过数据归纳和主成份回归分析，计算得到商铺信息指数和商品销量指数。针对评论文本的情感挖掘，利用汉语组块进行产品特征提取,根据Apriori算法产生频繁项集以及TF-IDF阈值对候选产品特征进行过滤,得到产品特征集合,对候选特征集合进行聚类，量化产品特征得分，得到产品特征得分雷达图，最终融合多维度信息给出商品总得分。能够高效简便的识别出优质商品，使所设计的推荐系统具有更加快速和准确的性能。

为此，本发明提出的一种基于机器学习的电商产品客户满意度分析方法包括如下步骤：

步骤S1：多维度信息获取,首先运用网络爬虫工具，爬取相关商品的商铺信息、商品销量信息以及商品的评论文本信息,解析多维度信息，通过编程持久化到数据库中；

步骤S2：数据预处理用JAVA语言编写程序对结构化数据进行去重复、数据转化和数据归约等操作，同时对评论文本信息利用中科院NLPIR分词工具进行分词、词性标注和停用停用词；

步骤S3：多维度信息的挖掘，分析商铺信息和商品销量信息，通过数据归纳和主成份回归分析，分别计算出商铺信誉指数和商品销量指数，然后对评论文本信息进行产品特征词对的提取、构造情感词典、对产品特征进行聚类以及计算产品特征的情感得分。为了更加全面客观地分析商品的情感得分，在考虑程度副词和否定词对评价短语的情感得分影响后，也将产品特征权重添加到情感得分的计算中；

步骤S4：商品总得分计算,在多维度信息挖掘阶段得到的商铺信誉指数、商品销量指数和商品情感得分，给予每个分数一定的权重，通过线性加权方法计算出商品的综合评分。

本发明与现有技术对比的有益效果是：本发明提出了一种多维度信息融合的电商产品综合评分方法，电商产品多维度数据融合分析，在更全面、更细粒度上研究电商产品的综合得分。基于多维度产品数据信息，即商铺信誉模型、商品销量指数模型和评论文本情感得分，主要以评论文本情感得分为主，然后结合信誉指数和销量指数，更准确、全面和客观的对商品进行评分。其次，从产品特征层次角度出发抽取出特征词集和基于特征词的情感词集,结合产品特征权重、情感程度词、否定词，基于改进k-means++聚类算法,对产品特征进行产品聚类，根据聚类结果计算出每个簇得分，结合每个簇的权重计算出评论文本情感得分。最后，对多维度数据得分进行加权融合，作为最终产品评估得分，能够高效简便的识别出优质商品，使所设计的推荐系统具有更加快速和准确的性能。

附图说明

图1是本发明具体实施方式中的一种多维度信息融合的电商产品综合评分方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点清楚，下面将对本发明的具体实施方式进行清楚、完整的描述。

如图1所示，为本具体实施方式中的一种多维度信息融合的电商产品综合评分方法的流程图。

该方法包括：步骤S1多维度信息获取,首先运用网络爬虫工具，爬取相关商品的商铺信息、商品销量信息以及商品的评论文本信息,解析多维度信息，通过编程持久化到数据库中；步骤S2数据预处理用JAVA语言编写程序对结构化数据进行去重复、数据转化和数据归约等操作，同时对评论文本信息利用中科院NLPIR分词工具进行分词、词性标注和停用停用词；步骤S3多维度信息的挖掘，分析商铺信息和商品销量信息，通过数据归纳和主成份回归分析，分别计算出商铺信誉指数和商品销量指数，然后对评论文本信息进行产品特征词对的提取、构造情感词典、对产品特征进行聚类以及计算产品特征的情感得分。为了更加全面客观地分析商品的情感得分，在考虑程度副词和否定词对评价短语的情感得分影响后，也将产品特征权重添加到情感得分的计算中；步骤S4商品总得分计算,在多维度信息挖掘阶段得到的商铺信誉指数、商品销量指数和商品情感得分，给予每个分数一定的权重，通过线性加权方法计算出商品的综合评分。

在具体的实施方案中，可按下面方式操作(在下面的操作表述中，我们将对主流电商网站中数款手机的得分分析为例，在每个操作步骤后，给出具体示例)：

步骤S1：利用python的Scrapy爬虫框架，随机从京东、苏宁和天猫主流电商平台，分别爬取数款手机产品信息，包括手机评论文本信息、销量信息和对应的商铺信息。爬取的信息存在重复和缺省值，通过去重复和缺省值的填充。最终评论文本数量18666条评论，手机款数为53款手机，销售手机的商铺数为14。其中，京东商城和苏宁易购是依托平台销售，因此手机销售模式是一对多，而天猫商城是商铺入驻的形式，是多对多的销售模型，多个手机可能是从一个商铺爬取，也有可能对应多个商铺，然后持久化到Mysql数据库中。

步骤S2：对得到平论文本进行处理，主要包括文本分词、词性标注和词频统计，然后基于停用词和低频词过滤分词结果。细分步骤如下：1)文本分词和词性标注：我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂的多、困难的多。中文分词(Chinese WordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。词性标注是对上述的分词结果，标注每个词的词性，现代汉语的词可以分为两类14种词性。现在能选择的中文分词和词性标注工具比较多，比如，ICTCLAS：汉语词法分析系统，这是最早的中文开源分词项目之一，ICTCLAS在国内973专家组组织的评测中活动获得了第一名，在第一届(2003)国际中文处理研究机构SigHan组织的评测中都获得了多项第一名；语言云(语言技术平台云LTP-Cloud)是由哈工大社会计算与信息检索研究中心研发的云端自然语言处理服务平台。后端依托于语言技术平台，语言云为用户提供了包括分词、词性标注、依存句法分析、命名实体识别、语义角色标注在内的丰富高效的自然语言处理服务；“结巴”中文分词，做最好的Python中文分词组件。我们综合考虑分词的准确率、高效性和简便性选择“结巴”中文分词工具(工具网站：http://www.oschina.net/p/jieba)。2)对分词结果进行词频统计：创建一个词典容器，以分词结果的词为键，值为词出现的频次，其特点是键值对储存，并且储存的键必须唯一不能重复，对分词结果进行遍历，并储存进词典容器，得到全部的分词结果的词频。

3)低频词和停用词的过滤：低频词指的是词频统计中出现次数较少的词，一般过滤掉的出现次数少于3的词语；停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，比如“的”、“我”等词，这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。4)分词结果的过滤：，过滤掉分词结果中的出现的低频词和停用词。

我们从淘宝某款手机商品的评论文本中选择以下几条作为示例：

1“非常不错的手机，做工质感极好，颜值爆表。”

2“京东的物流超级赞，手机已经开始使用，功能正常，物美价廉，值得推荐。”

3“手机很好，运行速度很快，电话音质不错。”

“结巴”中文分词及词性标注官方介绍为：jieba.posseg.POSTokenizer(tokenizer＝None)新建自定义分词器，tokenizer参数可指定内部使用的jieba.Tokenizer分词器。jieba.posseg.dt为默认词性标注分词器。标注句子分词后每个词的词性，采用和ictclas兼容的标记法。具体使用方法如下：

Import jieba.posseg as pseg

sentence＝'非常不错的手机，做工质感极好的，颜值爆表。'

result＝[str(a)for a in pseg.cut(sentence)]

print("".join(result))

对示例文本1的进行上述分词及词性标注步骤，处理后的显示格式为，空格分隔各个词语，每个词后的反斜线本词的词性，最终显示的结果如下：

“非常/d不错/a的/uj手机/n，/x做工/v质感/n极好/d的/uj，/x颜值/n爆表/v。/x”，其中，v代表动词、n代表名词、a代表形容词、d代表副词、uj代表助词、x代表非语素字。

对上述分词结果进行词频统计具体方法如下：

统计词频后的结果为：{'非常':1,'不错':1,'的':2,'手机':1,'做工':1,'质感':1,'极好':1,'颜值':1,'爆表':1}，以词和词频的组合形式作为键值对储存到词典容器中,给定一定的阈值，把低于这个阈值的词作为低频词。

步骤S3：多维度信息的挖掘，主要包括商铺信誉和销量指数的计算，商品特征词提取以及过滤、产品特征词对的提取、商品特征词的聚类和评论文本情感量化得分。细分步骤如下：1)商铺信誉和销量指数的计算：通过对网上商铺信息的整合以及调查问卷，最终确定评价商品信誉的指标如表1所示。

表1商品信誉指标

通过表1可知，商品信誉得分主要由商铺基础得分、商铺的半年动态得分和商品一个月内服务得分所组成，然后通过分析每个指标的业务含义，归纳总结出商品信誉得分计算公式如下：

STORE_reputation＝α×BIS+β×SDS,α+β＝1 (3)

(1)式中

代表保证金的行业平均水平，(3)式中α,β为权重参数，其余的参数均可在表1中找到相关解释。

商品销量指数的PCA回归的数学描述如下，影响商品销量有n个影响因素，记为

X＝{x₁,x₂,…,x_i,…,x_n},i＝1,2,3,…n

而

式中，θ₁,θ₂,…,θ_m表示每个主成份的旋转因子，P₁,P₂,…,P_m表示通过旋转因子和影响因素乘积得到的主成份，然后计算每个主成份的贡献度，确定主成份的个数。假设确定M个主成份个数，以M个主成份为自变量，商品销量指数为因变量，建立如下的回归模型：

(4)式中，w₀为偏置参数，M为选取的主成份个数，Φ_j(P)为基函数，本文取Φ_j(P)＝P_j为,即为简单的多元线性回归。2)商品特征词提取以及过滤：组块分析是一种句法分析。它既可以作为自然语言处理系统中分析句法功能的子任务，也可以作为词法分析过渡到句法分析的一座桥梁。根据步骤S2得到的分词结果，结合每个词的上下词关系，给予每个词汉语组块手工标注符号,构成训练模型样本。然后基于汉语组块进行手工标注，给定一定比例的训练集和测试集，训练产品特征提取模型，模型训练完成对所有评论数据集进行产品提取，但是提取的特征存在一定量的非产品特征。计算机无法自动识别候选特征词是否为真正的产品特征，基于“产品特征会在评论文本中重复出现”的假设，就可以使用Apriori算法寻找构成频繁项集的产品特征作为候选产品特征。但是通过观察产品的候选特征集合，发现有许多非产品特征名词，将这些名词定义成停用词。为了更准确得到产品特征集合，需要利用相应的过滤算法再次对候选产品特征进行过滤。

产品特征提取详细步骤如下：

①确定Apriori算法的项集和支持度计数。项集X可以定义为：经过汉语组块分析后得到的初始化集合。事物集合T定义为：从网络上下载的用户评论集合。其中一条评论用户评论可以计为t_i(1≤i≤n))。因此T＝{t₁,t₂,…t_n,}。

支持度计数表示为：

支持度表示为：

其中:X和Y为互不相交的相集(即

)，N为用户评论词条t_i的数量。

最后设定最小支持度为1％，在事物集合中找到频繁项集，将得到的频繁项集作为候选产品特征。

②过滤停用词。通过观察候选产品特征以及结合网现有的停用词构建出产品特征停用词，其中停用词主要有以下三类：产品名称，例如“小米”“魅族”“华为”等；人称名词，例如“阿姨”“同事”“朋友”等；方位及时间代词，例如“里面”“早上”“晚上”等。通过编写简单的计算机程序对候选产品特征进行停用词匹配过滤后得到的产品特征为初试产品特征集合。

③TF-IDF(Term Frequency-Inverse Document Frequency)算法过滤初试产品特征。

TF-IDF算法的计算方法如下：

TF-IDF＝TF_i,j×IDF_i (7)

通过多次交叉验证实验，发现绝大多数的非产品特征词的TF-IDF值在0.005以上，因此过滤阈值定为0.005，过滤后得到最终的产品特征集合。

3)产品特征词对的提取：Hu等人假定特征与情感词在评论句子中会一起出现，基于此假定，在得到评论中的产品特征后，选取产品特征前后一定长度的字符串，抽取特征附近的情感词组块作为该特征的情感词，并与该特征组成产品特征-情感对，形如(特征，情感词)。本文使用距离窗口方法，给定窗口大小为6，即找出产品特征前后6个字符串范围之内的情感词，参考Raymond Y.K.Lau等人提出的隶属度算法测评情感词，从而提取产品特征-情感对。算法核心公式如下：

其中Pr(f)Pr(m)分别表示特征和观点词出现在窗口中的概率，

分别表示特征和观点词不出现在窗口中的概率，Pr(f,m)表示特征和观点词同时出现的概率，

表示特征和观点词都不出现的概率,ω表示调节正负隶属度的权重。并且确保隶属度值在[0,1]之间，将隶属度进行规范化处理得到:

4)商品特征词的聚类:由于产品特征细粒度过大，需要对所有产品特征进行聚类，传统的K-Means聚类算法简单且易于实现，在很多应用场景取得不错聚类效果，但是从K-Means算法的过程中发现，K-Means算法中的聚类中心的个数K需要事先指定，针对产品特征的聚类，由于商品类别不同选取的K值肯定是变化的，基于此K-Means算法有很大的局限性。因此，本文采用改进的K-Means++算法进行聚类，K-Means++算法在聚类中心的初始化过程中的基本原则是使得初始的聚类中心之间的相互距离尽可能远，这样可以避免出现上述的问题。改进的K-Means++产品特征词聚类算法描述：

输入：产品特征集合{F₁,F₂,…,F_n}，产品特征词的相似矩阵即距离矩阵

其中D_i,j＝WSim(F_i,F_j)，以及产品特征100维词向量

输出：产品特征聚类结果。

Step1：从产品特征集合中随机选取一个特征词F_i作为初始聚类中心C₁；

Step2：首先计算每个产品特征词与F_i的距离即D_i,j；接着计算特征词被选为下一个聚类中心的概率

最后，按照轮盘法确定出K个聚类中心；

Step3：针对产品特征集合中每个特征词F_k,计算它到K个中心的距离并将其分到距离最小的聚类中心所对应的簇中；

Step4：每个特征词类别C_i,重新计算它的聚类中心

(即每个簇的质心)；

Step5：重复第3步和第4步直到聚类中心的位置不再变化。

结合中关村对手机参数分类和评论信息的评论特点，确定出手机评价对象的6个产品属性特征类为：屏幕、硬件、网络、摄像、外观、功能与服务，最后一列特在权重是每一类簇中产品特征的权重总和。结果如表2所示：

表2产品特征聚类结果

5)评论文本情感量化得分：情感修饰词系数设定方法如下,将知网(How Net)的219个程度副词和评论集中筛选出的程度副词结合构成程度副词集划分为5个等级,程度系数依次设置为:0.6,0.8,1.2,1.4,1.6,若评论中不含程度副词,则令程度系数为1,否定词程度系数统一设定为-1。情感词典选择《How Net》、《NTUSD》和《中文情感词汇本体库》，如表3所示：

表3情感词典

情感词典	正面词汇	中立词汇	负面词汇	总词汇
					HowNet	4566	/	4370	8851
中文情感词库	11229	5375	10783	27466
					NTUSD	2846	/	8325	10027

通过上述提取和情感词库的量化，就可以计算每款手机的评论文本情感得分，先把产品特征聚类成六个维度，通过绘制雷达图可以了解手机在各个方面的性能情况，而且根据六边形的面积大小可以很直观判断出哪款手机性能较好，然后通过对上述六个维度得分的加权平均，即为手机最终的评论文本情感得分。

步骤4：通过融合三个维度可以全面的评价一款商品，辅助消费者选购决策。Score(P_Credit),Score(P_Sales),Score(P_Reviews)三个维度的得分存在维度的差异，在进行融合之前首先需要对得分进行数据归一化处理，这里采用比较简单Min-Max标准化处理，处理公式如下：

商品综合评分模型如下：

FinalScore(P)＝αNScore(P_Credit)+βNScore(P_Sales)+γNScore(P_Revie)

式中，α+β+γ＝1分别表示每个维度的权重，经过实验多次测试α＝0.23,β＝0.14,γ＝0.63。

为了验证本发明提出的产品特征聚类情感得分和多维度融合算法的实现效果，对比某文献评论文本情感得分计算(Old-Score)、聚类评论文本情感得分计算(New-Score)、聚类评论文本情感得分与销量指数组合(New-Sales-Score)、聚类评论文本情感得分与商铺信誉组合(New-Credit-Score)、多维度融合得分(Mix-Score)以及人工标记的手机综合评分(Lable-Score)，进行精确度对比如表4所示：

表4实验对比结果(Accuracy)

从表中可以看出，本发明的基于多维度信息融合的电商产品综合评分精度最高，能够高效简便的识别出优质商品，使所设计的推荐系统具有更加快速和准确的性能。

Claims

1.一种基于多维度信息融合的电商产品综合评分方法，其特征是包括如下步骤：

步骤S1：多维度信息获取，首先运用网络爬虫工具，爬取相关商品的商铺信息、商品销量信息以及商品的评论文本信息，解析多维度信息，通过编程持久化到数据库中；

步骤S2：利用所述步骤S1中得到的数据进行预处理，利用JAVA语言编写程序对结构化数据进行去重复、数据转化和数据归约的操作，同时对评论文本信息利用中科院NLPIR分词工具进行分词、词性标注和停用词处理；

步骤S3：多维度信息的挖掘，利用所述步骤S2预处理后的数据，分析商铺信息和商品销量信息，通过数据归纳和主成份回归分析，分别计算出商铺信誉指数和商品销量指数，然后对评论文本信息进行产品特征词对的提取、构造情感词典、对产品特征进行聚类以及计算产品特征的情感得分；为了更加全面客观地分析商品的情感得分，在考虑程度副词和否定词对评价短语的情感得分影响后，也将产品特征权重添加到情感得分的计算中；

所述步骤S3中，计算商铺信誉指数和商品销量指数的方法是：商铺信誉指数根据商铺基础得分、商铺的半年动态得分和商品一个月内服务得分所组成，然后通过分析每个指标的业务含义，归纳总结出商品信誉指数；商品销量指数是采用PCA降维技术，结合爬取销量影响因素信息，构造出主成份，通过主成份的回归分析确定销量回归指数；

步骤S4：商品总得分计算，利用所述步骤S3分析得到的三个指标得分，包括商铺信誉指数、商品销量指数和商品情感得分，给予每个分数一定的权重，通过线性加权方法计算出商品的综合评分；

所述步骤S4中，融合商品多维度信息，包括商铺信誉得分，反映出商铺基本情况和信誉；商品的销量指数，能够反映出商品在市面上的受欢迎程度；而商品评论文本情感得分，是消费者购买商品使用后的心得，通过分析这些评论文本的情感倾向，量化情感为标量值，通过数值判断商品性能，给予每个分数一定的权重，通过线性加权方法计算出商品的综合评分。

2.如权利要求1所述的一种基于多维度信息融合的电商产品综合评分方法，其特征是，所述步骤S1中，数据的获取是利用网络爬虫工具，自动爬取相关商品的商铺信息、商品销量信息以及商品的评论文本信息，解析多维度信息，然后通过编程持久化到相应数据库中。

3.如权利要求1所述的一种基于多维度信息融合的电商产品综合评分方法，其特征是，所述步骤S2中，数据预处理用JAVA语言编写程序对结构化数据进行去重复、数据转化和数据归约的操作，同时对评论文本信息利用中科院NLPIR分词工具进行分词、词性标注和停用停用词。

4.如权利要求1所述的一种基于多维度信息融合的电商产品综合评分方法，其特征是，所述步骤S3中，评论文本量化情感得分方法是：对评论文本信息进行产品特征词对的提取、构造情感词典、对产品特征进行聚类以及计算产品特征的情感得分；为了更加全面客观地分析商品的情感得分，在考虑程度副词和否定词对评价短语的情感得分影响后，也将产品特征权重添加到情感得分的计算中。