Nothing Special   »   [go: up one dir, main page]

CN108491377B - 一种基于多维度信息融合的电商产品综合评分方法 - Google Patents

一种基于多维度信息融合的电商产品综合评分方法 Download PDF

Info

Publication number
CN108491377B
CN108491377B CN201810181878.8A CN201810181878A CN108491377B CN 108491377 B CN108491377 B CN 108491377B CN 201810181878 A CN201810181878 A CN 201810181878A CN 108491377 B CN108491377 B CN 108491377B
Authority
CN
China
Prior art keywords
information
commodity
shop
index
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810181878.8A
Other languages
English (en)
Other versions
CN108491377A (zh
Inventor
徐新胜
余建浙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Jiliang University
Original Assignee
China Jiliang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Jiliang University filed Critical China Jiliang University
Priority to CN201810181878.8A priority Critical patent/CN108491377B/zh
Publication of CN108491377A publication Critical patent/CN108491377A/zh
Application granted granted Critical
Publication of CN108491377B publication Critical patent/CN108491377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Strategic Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Finance (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多维度信息融合的电商产品综合评分方法,其中所述方法包括:电商产品多维度信息的获取,主要是商铺信息、销量信息和评论文本信息;数据预处理,数值型数据进行数据清洗和数据转化,而评论文本进行分词、词性标注等处理;多维度信息的挖掘,通过对商铺信息和商品销量信息的数据归纳和主成份回归分析,得到商铺信息指数和商品销量指数,评论文本进行情感分析,通过量化和聚类方法得到产品特征得分雷达图;商品总得分计算,设计融合函数并计算商品总得分。本发明的方法可以应用在基于商品信息的商品推荐系统,能够高效简便的识别出优质商品,使所设计的推荐系统具有更加快速和准确的性能。

Description

一种基于多维度信息融合的电商产品综合评分方法
技术领域
本发明涉及自然语言处理和数据挖掘领域,尤其是一种基于多维度信息的商品评价方法。
背景技术
伴随着互联网信息技术的不断提升,电子商务行业迅猛发展,电商平台已经成为网购的一个重要渠道。但与此同时,消费者在网购商品时往往面临一些困难,如假冒伪劣、虚假宣传和选购困难等问题。虽然,许多电商平台提供消费者反馈机制,但是,面对网络上堆积的反馈信息,如何在茫茫多的反馈信息中,迅速有效地识别出有价值的参考信息,如何通过高价值的参考信息,简洁高效地评估商品优劣是至关重要的问题。目前,已经有部分类似研究工作。田博等人引入感知信任和信任体系,通过对电商产品相关联的数据融合,描述商品的可信任度,提出一种电子商务推荐信任评价模型。李瑞轩等人融合历史交易情况以及当前交易价格提出了一种基于信用值、信用等级,以及商品价格的商品定量风险评估方法。基于所构建的电商信用风险的预警指标体系,考虑当前交易行为和交易历史,卫志诚等人提出一种综合信任度和风险度的电子商务交易评估模型。Pang通过对电影评论文本进行情感倾向分类,得到每部电影情感类别。史伟等人基于《HowNet》和TF-IDF加权方法,挖掘微博评论信息的情感极性及情感强度。林钦和等人考虑到评论信息中修饰词出现的位置不同所造成的一种语义差异,提出了一个情感分析的产品评论分析系统。
然而,上述学者对商品的分析,要么只考虑消费者反馈信息中的结构化数据,通过对结构化数据的模型计算得到数值,衡量商品优劣或者商品购买的风险。要么只对那些非结构数据进行挖掘,通过对评论信息的情感倾向量化,作为评价对象的情感得分。本论文中,综合分析结构化信息和非结构化信息,通过对商铺信誉、商品销量和评论文本情感进行量化来构建一个多维度的商品综合评分模型,更加准确客观为消费者甚至制造商提供商品的一个综合评分。
发明内容
本发明所要解决的技术问题是:提供一种多维度信息融合的电商产品综合评分方法,爬取电商产品相关的商铺信息、商品销量信息和评论文本。针对商铺信息和商品销量信息的分析,通过数据归纳和主成份回归分析,计算得到商铺信息指数和商品销量指数。针对评论文本的情感挖掘,利用汉语组块进行产品特征提取,根据Apriori算法产生频繁项集以及TF-IDF阈值对候选产品特征进行过滤,得到产品特征集合,对候选特征集合进行聚类,量化产品特征得分,得到产品特征得分雷达图,最终融合多维度信息给出商品总得分。能够高效简便的识别出优质商品,使所设计的推荐系统具有更加快速和准确的性能。
为此,本发明提出的一种基于机器学习的电商产品客户满意度分析方法包括如下步骤:
步骤S1:多维度信息获取,首先运用网络爬虫工具,爬取相关商品的商铺信息、商品销量信息以及商品的评论文本信息,解析多维度信息,通过编程持久化到数据库中;
步骤S2:数据预处理用JAVA语言编写程序对结构化数据进行去重复、数据转化和数据归约等操作,同时对评论文本信息利用中科院NLPIR分词工具进行分词、词性标注和停用停用词;
步骤S3:多维度信息的挖掘,分析商铺信息和商品销量信息,通过数据归纳和主成份回归分析,分别计算出商铺信誉指数和商品销量指数,然后对评论文本信息进行产品特征词对的提取、构造情感词典、对产品特征进行聚类以及计算产品特征的情感得分。为了更加全面客观地分析商品的情感得分,在考虑程度副词和否定词对评价短语的情感得分影响后,也将产品特征权重添加到情感得分的计算中;
步骤S4:商品总得分计算,在多维度信息挖掘阶段得到的商铺信誉指数、商品销量指数和商品情感得分,给予每个分数一定的权重,通过线性加权方法计算出商品的综合评分。
本发明与现有技术对比的有益效果是:本发明提出了一种多维度信息融合的电商产品综合评分方法,电商产品多维度数据融合分析,在更全面、更细粒度上研究电商产品的综合得分。基于多维度产品数据信息,即商铺信誉模型、商品销量指数模型和评论文本情感得分,主要以评论文本情感得分为主,然后结合信誉指数和销量指数,更准确、全面和客观的对商品进行评分。其次,从产品特征层次角度出发抽取出特征词集和基于特征词的情感词集,结合产品特征权重、情感程度词、否定词,基于改进k-means++聚类算法,对产品特征进行产品聚类,根据聚类结果计算出每个簇得分,结合每个簇的权重计算出评论文本情感得分。最后,对多维度数据得分进行加权融合,作为最终产品评估得分,能够高效简便的识别出优质商品,使所设计的推荐系统具有更加快速和准确的性能。
附图说明
图1是本发明具体实施方式中的一种多维度信息融合的电商产品综合评分方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点清楚,下面将对本发明的具体实施方式进行清楚、完整的描述。
如图1所示,为本具体实施方式中的一种多维度信息融合的电商产品综合评分方法的流程图。
该方法包括:步骤S1多维度信息获取,首先运用网络爬虫工具,爬取相关商品的商铺信息、商品销量信息以及商品的评论文本信息,解析多维度信息,通过编程持久化到数据库中;步骤S2数据预处理用JAVA语言编写程序对结构化数据进行去重复、数据转化和数据归约等操作,同时对评论文本信息利用中科院NLPIR分词工具进行分词、词性标注和停用停用词;步骤S3多维度信息的挖掘,分析商铺信息和商品销量信息,通过数据归纳和主成份回归分析,分别计算出商铺信誉指数和商品销量指数,然后对评论文本信息进行产品特征词对的提取、构造情感词典、对产品特征进行聚类以及计算产品特征的情感得分。为了更加全面客观地分析商品的情感得分,在考虑程度副词和否定词对评价短语的情感得分影响后,也将产品特征权重添加到情感得分的计算中;步骤S4商品总得分计算,在多维度信息挖掘阶段得到的商铺信誉指数、商品销量指数和商品情感得分,给予每个分数一定的权重,通过线性加权方法计算出商品的综合评分。
在具体的实施方案中,可按下面方式操作(在下面的操作表述中,我们将对主流电商网站中数款手机的得分分析为例,在每个操作步骤后,给出具体示例):
步骤S1:利用python的Scrapy爬虫框架,随机从京东、苏宁和天猫主流电商平台,分别爬取数款手机产品信息,包括手机评论文本信息、销量信息和对应的商铺信息。爬取的信息存在重复和缺省值,通过去重复和缺省值的填充。最终评论文本数量18666条评论,手机款数为53款手机,销售手机的商铺数为14。其中,京东商城和苏宁易购是依托平台销售,因此手机销售模式是一对多,而天猫商城是商铺入驻的形式,是多对多的销售模型,多个手机可能是从一个商铺爬取,也有可能对应多个商铺,然后持久化到Mysql数据库中。
步骤S2:对得到平论文本进行处理,主要包括文本分词、词性标注和词频统计,然后基于停用词和低频词过滤分词结果。细分步骤如下:1)文本分词和词性标注:我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。中文分词(Chinese WordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。词性标注是对上述的分词结果,标注每个词的词性,现代汉语的词可以分为两类14种词性。现在能选择的中文分词和词性标注工具比较多,比如,ICTCLAS:汉语词法分析系统,这是最早的中文开源分词项目之一,ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届(2003)国际中文处理研究机构SigHan组织的评测中都获得了多项第一名;语言云(语言技术平台云LTP-Cloud)是由哈工大社会计算与信息检索研究中心研发的云端自然语言处理服务平台。后端依托于语言技术平台,语言云为用户提供了包括分词、词性标注、依存句法分析、命名实体识别、语义角色标注在内的丰富高效的自然语言处理服务;“结巴”中文分词,做最好的Python中文分词组件。我们综合考虑分词的准确率、高效性和简便性选择“结巴”中文分词工具(工具网站:http://www.oschina.net/p/jieba)。2)对分词结果进行词频统计:创建一个词典容器,以分词结果的词为键,值为词出现的频次,其特点是键值对储存,并且储存的键必须唯一不能重复,对分词结果进行遍历,并储存进词典容器,得到全部的分词结果的词频。
3)低频词和停用词的过滤:低频词指的是词频统计中出现次数较少的词,一般过滤掉的出现次数少于3的词语;停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,比如“的”、“我”等词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。4)分词结果的过滤:,过滤掉分词结果中的出现的低频词和停用词。
我们从淘宝某款手机商品的评论文本中选择以下几条作为示例:
1“非常不错的手机,做工质感极好,颜值爆表。”
2“京东的物流超级赞,手机已经开始使用,功能正常,物美价廉,值得推荐。”
3“手机很好,运行速度很快,电话音质不错。”
“结巴”中文分词及词性标注官方介绍为:jieba.posseg.POSTokenizer(tokenizer=None)新建自定义分词器,tokenizer参数可指定内部使用的jieba.Tokenizer分词器。jieba.posseg.dt为默认词性标注分词器。标注句子分词后每个词的词性,采用和ictclas兼容的标记法。具体使用方法如下:
Import jieba.posseg as pseg
sentence='非常不错的手机,做工质感极好的,颜值爆表。'
result=[str(a)for a in pseg.cut(sentence)]
print("".join(result))
对示例文本1的进行上述分词及词性标注步骤,处理后的显示格式为,空格分隔各个词语,每个词后的反斜线本词的词性,最终显示的结果如下:
“非常/d不错/a的/uj手机/n,/x做工/v质感/n极好/d的/uj,/x颜值/n爆表/v。/x”,其中,v代表动词、n代表名词、a代表形容词、d代表副词、uj代表助词、x代表非语素字。
对上述分词结果进行词频统计具体方法如下:
Figure BDA0001589097030000051
统计词频后的结果为:{'非常':1,'不错':1,'的':2,'手机':1,'做工':1,'质感':1,'极好':1,'颜值':1,'爆表':1},以词和词频的组合形式作为键值对储存到词典容器中,给定一定的阈值,把低于这个阈值的词作为低频词。
步骤S3:多维度信息的挖掘,主要包括商铺信誉和销量指数的计算,商品特征词提取以及过滤、产品特征词对的提取、商品特征词的聚类和评论文本情感量化得分。细分步骤如下:1)商铺信誉和销量指数的计算:通过对网上商铺信息的整合以及调查问卷,最终确定评价商品信誉的指标如表1所示。
表1商品信誉指标
Figure BDA0001589097030000052
Figure BDA0001589097030000061
通过表1可知,商品信誉得分主要由商铺基础得分、商铺的半年动态得分和商品一个月内服务得分所组成,然后通过分析每个指标的业务含义,归纳总结出商品信誉得分计算公式如下:
Figure BDA0001589097030000062
Figure BDA0001589097030000065
STOREreputation=α×BIS+β×SDS,α+β=1 (3)
(1)式中
Figure BDA0001589097030000063
代表保证金的行业平均水平,(3)式中α,β为权重参数,其余的参数均可在表1中找到相关解释。
商品销量指数的PCA回归的数学描述如下,影响商品销量有n个影响因素,记为
X={x1,x2,…,xi,…,xn},i=1,2,3,…n
Figure BDA0001589097030000064
式中,θ12,…,θm表示每个主成份的旋转因子,P1,P2,…,Pm表示通过旋转因子和影响因素乘积得到的主成份,然后计算每个主成份的贡献度,确定主成份的个数。假设确定M个主成份个数,以M个主成份为自变量,商品销量指数为因变量,建立如下的回归模型:
Figure BDA0001589097030000071
(4)式中,w0为偏置参数,M为选取的主成份个数,Φj(P)为基函数,本文取Φj(P)=Pj为,即为简单的多元线性回归。2)商品特征词提取以及过滤:组块分析是一种句法分析。它既可以作为自然语言处理系统中分析句法功能的子任务,也可以作为词法分析过渡到句法分析的一座桥梁。根据步骤S2得到的分词结果,结合每个词的上下词关系,给予每个词汉语组块手工标注符号,构成训练模型样本。然后基于汉语组块进行手工标注,给定一定比例的训练集和测试集,训练产品特征提取模型,模型训练完成对所有评论数据集进行产品提取,但是提取的特征存在一定量的非产品特征。计算机无法自动识别候选特征词是否为真正的产品特征,基于“产品特征会在评论文本中重复出现”的假设,就可以使用Apriori算法寻找构成频繁项集的产品特征作为候选产品特征。但是通过观察产品的候选特征集合,发现有许多非产品特征名词,将这些名词定义成停用词。为了更准确得到产品特征集合,需要利用相应的过滤算法再次对候选产品特征进行过滤。
产品特征提取详细步骤如下:
①确定Apriori算法的项集和支持度计数。项集X可以定义为:经过汉语组块分析后得到的初始化集合。事物集合T定义为:从网络上下载的用户评论集合。其中一条评论用户评论可以计为ti(1≤i≤n))。因此T={t1,t2,…tn,}。
支持度计数表示为:
Figure BDA0001589097030000074
支持度表示为:
Figure BDA0001589097030000072
其中:X和Y为互不相交的相集(即
Figure BDA0001589097030000073
),N为用户评论词条ti的数量。
最后设定最小支持度为1%,在事物集合中找到频繁项集,将得到的频繁项集作为候选产品特征。
②过滤停用词。通过观察候选产品特征以及结合网现有的停用词构建出产品特征停用词,其中停用词主要有以下三类:产品名称,例如“小米”“魅族”“华为”等;人称名词,例如“阿姨”“同事”“朋友”等;方位及时间代词,例如“里面”“早上”“晚上”等。通过编写简单的计算机程序对候选产品特征进行停用词匹配过滤后得到的产品特征为初试产品特征集合。
③TF-IDF(Term Frequency-Inverse Document Frequency)算法过滤初试产品特征。
TF-IDF算法的计算方法如下:
Figure BDA0001589097030000081
Figure BDA0001589097030000082
TF-IDF=TFi,j×IDFi (7)
(5)式中,ni,j是某个产品特征词在评论dj中出现的次数,而∑knk,j是该评论中出现的词语数量的总和。(6)式中,|D|表示评论文本的总条数,|t|j:ti∈dj|表示包含产品特征词ti的评论条数。
通过多次交叉验证实验,发现绝大多数的非产品特征词的TF-IDF值在0.005以上,因此过滤阈值定为0.005,过滤后得到最终的产品特征集合。
3)产品特征词对的提取:Hu等人假定特征与情感词在评论句子中会一起出现,基于此假定,在得到评论中的产品特征后,选取产品特征前后一定长度的字符串,抽取特征附近的情感词组块作为该特征的情感词,并与该特征组成产品特征-情感对,形如(特征,情感词)。本文使用距离窗口方法,给定窗口大小为6,即找出产品特征前后6个字符串范围之内的情感词,参考Raymond Y.K.Lau等人提出的隶属度算法测评情感词,从而提取产品特征-情感对。算法核心公式如下:
Figure BDA0001589097030000083
其中Pr(f)Pr(m)分别表示特征和观点词出现在窗口中的概率,
Figure BDA0001589097030000085
分别表示特征和观点词不出现在窗口中的概率,Pr(f,m)表示特征和观点词同时出现的概率,
Figure BDA0001589097030000086
表示特征和观点词都不出现的概率,ω表示调节正负隶属度的权重。并且确保隶属度值在[0,1]之间,将隶属度进行规范化处理得到:
Figure BDA0001589097030000084
4)商品特征词的聚类:由于产品特征细粒度过大,需要对所有产品特征进行聚类,传统的K-Means聚类算法简单且易于实现,在很多应用场景取得不错聚类效果,但是从K-Means算法的过程中发现,K-Means算法中的聚类中心的个数K需要事先指定,针对产品特征的聚类,由于商品类别不同选取的K值肯定是变化的,基于此K-Means算法有很大的局限性。因此,本文采用改进的K-Means++算法进行聚类,K-Means++算法在聚类中心的初始化过程中的基本原则是使得初始的聚类中心之间的相互距离尽可能远,这样可以避免出现上述的问题。改进的K-Means++产品特征词聚类算法描述:
输入:产品特征集合{F1,F2,…,Fn},产品特征词的相似矩阵即距离矩阵
Figure BDA0001589097030000091
Figure BDA0001589097030000092
其中Di,j=WSim(Fi,Fj),以及产品特征100维词向量
Figure BDA0001589097030000096
输出:产品特征聚类结果。
Step1:从产品特征集合中随机选取一个特征词Fi作为初始聚类中心C1
Step2:首先计算每个产品特征词与Fi的距离即Di,j;接着计算特征词被选为下一个聚类中心的概率
Figure BDA0001589097030000093
最后,按照轮盘法确定出K个聚类中心;
Step3:针对产品特征集合中每个特征词Fk,计算它到K个中心的距离并将其分到距离最小的聚类中心所对应的簇中;
Step4:每个特征词类别Ci,重新计算它的聚类中心
Figure BDA0001589097030000094
(即每个簇的质心);
Step5:重复第3步和第4步直到聚类中心的位置不再变化。
结合中关村对手机参数分类和评论信息的评论特点,确定出手机评价对象的6个产品属性特征类为:屏幕、硬件、网络、摄像、外观、功能与服务,最后一列特在权重是每一类簇中产品特征的权重总和。结果如表2所示:
表2产品特征聚类结果
Figure BDA0001589097030000095
Figure BDA0001589097030000101
5)评论文本情感量化得分:情感修饰词系数设定方法如下,将知网(How Net)的219个程度副词和评论集中筛选出的程度副词结合构成程度副词集划分为5个等级,程度系数依次设置为:0.6,0.8,1.2,1.4,1.6,若评论中不含程度副词,则令程度系数为1,否定词程度系数统一设定为-1。情感词典选择《How Net》、《NTUSD》和《中文情感词汇本体库》,如表3所示:
表3情感词典
情感词典 正面词汇 中立词汇 负面词汇 总词汇
HowNet 4566 / 4370 8851
中文情感词库 11229 5375 10783 27466
NTUSD 2846 / 8325 10027
通过上述提取和情感词库的量化,就可以计算每款手机的评论文本情感得分,先把产品特征聚类成六个维度,通过绘制雷达图可以了解手机在各个方面的性能情况,而且根据六边形的面积大小可以很直观判断出哪款手机性能较好,然后通过对上述六个维度得分的加权平均,即为手机最终的评论文本情感得分。
步骤4:通过融合三个维度可以全面的评价一款商品,辅助消费者选购决策。Score(PCredit),Score(PSales),Score(PReviews)三个维度的得分存在维度的差异,在进行融合之前首先需要对得分进行数据归一化处理,这里采用比较简单Min-Max标准化处理,处理公式如下:
Figure BDA0001589097030000102
商品综合评分模型如下:
FinalScore(P)=αNScore(PCredit)+βNScore(PSales)+γNScore(PRevie)
式中,α+β+γ=1分别表示每个维度的权重,经过实验多次测试α=0.23,β=0.14,γ=0.63。
为了验证本发明提出的产品特征聚类情感得分和多维度融合算法的实现效果,对比某文献评论文本情感得分计算(Old-Score)、聚类评论文本情感得分计算(New-Score)、聚类评论文本情感得分与销量指数组合(New-Sales-Score)、聚类评论文本情感得分与商铺信誉组合(New-Credit-Score)、多维度融合得分(Mix-Score)以及人工标记的手机综合评分(Lable-Score),进行精确度对比如表4所示:
表4实验对比结果(Accuracy)
Figure BDA0001589097030000111
从表中可以看出,本发明的基于多维度信息融合的电商产品综合评分精度最高,能够高效简便的识别出优质商品,使所设计的推荐系统具有更加快速和准确的性能。

Claims (4)

1.一种基于多维度信息融合的电商产品综合评分方法,其特征是包括如下步骤:
步骤S1:多维度信息获取,首先运用网络爬虫工具,爬取相关商品的商铺信息、商品销量信息以及商品的评论文本信息,解析多维度信息,通过编程持久化到数据库中;
步骤S2:利用所述步骤S1中得到的数据进行预处理,利用JAVA语言编写程序对结构化数据进行去重复、数据转化和数据归约的操作,同时对评论文本信息利用中科院NLPIR分词工具进行分词、词性标注和停用词处理;
步骤S3:多维度信息的挖掘,利用所述步骤S2预处理后的数据,分析商铺信息和商品销量信息,通过数据归纳和主成份回归分析,分别计算出商铺信誉指数和商品销量指数,然后对评论文本信息进行产品特征词对的提取、构造情感词典、对产品特征进行聚类以及计算产品特征的情感得分;为了更加全面客观地分析商品的情感得分,在考虑程度副词和否定词对评价短语的情感得分影响后,也将产品特征权重添加到情感得分的计算中;
所述步骤S3中,计算商铺信誉指数和商品销量指数的方法是:商铺信誉指数根据商铺基础得分、商铺的半年动态得分和商品一个月内服务得分所组成,然后通过分析每个指标的业务含义,归纳总结出商品信誉指数;商品销量指数是采用PCA降维技术,结合爬取销量影响因素信息,构造出主成份,通过主成份的回归分析确定销量回归指数;
步骤S4:商品总得分计算,利用所述步骤S3分析得到的三个指标得分,包括商铺信誉指数、商品销量指数和商品情感得分,给予每个分数一定的权重,通过线性加权方法计算出商品的综合评分;
所述步骤S4中,融合商品多维度信息,包括商铺信誉得分,反映出商铺基本情况和信誉;商品的销量指数,能够反映出商品在市面上的受欢迎程度;而商品评论文本情感得分,是消费者购买商品使用后的心得,通过分析这些评论文本的情感倾向,量化情感为标量值,通过数值判断商品性能,给予每个分数一定的权重,通过线性加权方法计算出商品的综合评分。
2.如权利要求1所述的一种基于多维度信息融合的电商产品综合评分方法,其特征是,所述步骤S1中,数据的获取是利用网络爬虫工具,自动爬取相关商品的商铺信息、商品销量信息以及商品的评论文本信息,解析多维度信息,然后通过编程持久化到相应数据库中。
3.如权利要求1所述的一种基于多维度信息融合的电商产品综合评分方法,其特征是,所述步骤S2中,数据预处理用JAVA语言编写程序对结构化数据进行去重复、数据转化和数据归约的操作,同时对评论文本信息利用中科院NLPIR分词工具进行分词、词性标注和停用停用词。
4.如权利要求1所述的一种基于多维度信息融合的电商产品综合评分方法,其特征是,所述步骤S3中,评论文本量化情感得分方法是:对评论文本信息进行产品特征词对的提取、构造情感词典、对产品特征进行聚类以及计算产品特征的情感得分;为了更加全面客观地分析商品的情感得分,在考虑程度副词和否定词对评价短语的情感得分影响后,也将产品特征权重添加到情感得分的计算中。
CN201810181878.8A 2018-03-06 2018-03-06 一种基于多维度信息融合的电商产品综合评分方法 Active CN108491377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810181878.8A CN108491377B (zh) 2018-03-06 2018-03-06 一种基于多维度信息融合的电商产品综合评分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810181878.8A CN108491377B (zh) 2018-03-06 2018-03-06 一种基于多维度信息融合的电商产品综合评分方法

Publications (2)

Publication Number Publication Date
CN108491377A CN108491377A (zh) 2018-09-04
CN108491377B true CN108491377B (zh) 2021-10-08

Family

ID=63341434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810181878.8A Active CN108491377B (zh) 2018-03-06 2018-03-06 一种基于多维度信息融合的电商产品综合评分方法

Country Status (1)

Country Link
CN (1) CN108491377B (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242353A (zh) * 2018-10-23 2019-01-18 武汉达梦数据库有限公司 交易应用场景或数据共享中信息资源处理方法及系统
CN109657056B (zh) * 2018-11-14 2021-04-06 金色熊猫有限公司 目标样本获取方法、装置、存储介质及电子设备
CN109460940A (zh) * 2018-11-26 2019-03-12 北京香侬慧语科技有限责任公司 一种基于情感分析的预警方法及装置
CN110060132B (zh) * 2019-04-24 2021-09-24 吉林大学 基于细粒度数据的可解释商品推荐方法
CN110096618B (zh) * 2019-05-10 2021-06-15 北京友普信息技术有限公司 一种基于分维度情感分析的电影推荐方法
CN112015857A (zh) * 2019-05-13 2020-12-01 中国移动通信集团湖北有限公司 用户感知评价方法、装置、电子设备及计算机存储介质
CN110222965A (zh) * 2019-05-28 2019-09-10 东华大学 基于ugc信息挖掘的在线面料供应商资质标准评分方法
CN112052306B (zh) * 2019-06-06 2023-11-03 北京京东振世信息技术有限公司 识别数据的方法和装置
CN110457472A (zh) * 2019-07-16 2019-11-15 天津大学 基于som聚类算法的针对电商产品评论的情感关联分析方法
CN110458420A (zh) * 2019-07-18 2019-11-15 平安科技(深圳)有限公司 一种分值评估方法、装置及存储介质
CN111047318B (zh) * 2019-09-16 2021-01-19 腾讯科技(深圳)有限公司 交易记录存储方法、装置以及计算机设备
CN110827118A (zh) * 2019-10-18 2020-02-21 天津大学 一种自动分析应用商店中用户评论并推荐给开发者的方法
CN110968670B (zh) * 2019-12-02 2022-09-27 创优数字科技(广东)有限公司 一种流行商品的属性获取方法、装置、设备及存储介质
CN110956217A (zh) 2019-12-06 2020-04-03 广东美的白色家电技术创新中心有限公司 食物成熟度识别方法、装置以及计算机存储介质
CN111612339B (zh) * 2020-05-21 2023-08-22 中国标准化研究院 基于大数据的网销商品情感倾向分析方法
CN111612340B (zh) * 2020-05-21 2023-10-17 中国标准化研究院 基于大数据的网销商品检验抽样方法
CN111897963B (zh) * 2020-08-06 2024-07-26 沈鑫 一种基于文本信息和机器学习的商品分类方法
CN112053080A (zh) * 2020-09-15 2020-12-08 上海唐硕信息科技有限公司 一种基于用户体验感知的品牌评分方法
CN112651768A (zh) * 2020-12-04 2021-04-13 苏州黑云智能科技有限公司 基于区块链的电商分析方法及系统
CN112559743B (zh) * 2020-12-09 2024-02-13 深圳市网联安瑞网络科技有限公司 一种政企网络支持度的计算方法、装置、设备及存储介质
CN112597302B (zh) * 2020-12-18 2022-04-29 东北林业大学 基于多维评论表示的虚假评论检测方法
CN112801743B (zh) * 2020-12-23 2022-05-31 珠海必要工业科技股份有限公司 一种商品推荐方法、装置、电子设备及存储介质
CN112667817B (zh) * 2020-12-31 2022-05-31 杭州电子科技大学 一种基于轮盘赌属性选择的文本情感分类集成系统
CN112801384B (zh) * 2021-02-03 2024-07-19 湖北民族大学 一种商品质量评估与预测方法、系统、介质、设备
CN112818677A (zh) * 2021-02-22 2021-05-18 康美健康云服务有限公司 一种基于互联网的信息评估方法及系统
CN112905898B (zh) * 2021-03-31 2024-03-15 北京达佳互联信息技术有限公司 信息推荐方法、装置及电子设备
CN113357139B (zh) * 2021-08-10 2021-10-29 焕新汽车科技(南通)有限公司 一种回收发动机电子水泵的自动性能测试系统
CN113781107A (zh) * 2021-08-27 2021-12-10 湖州市吴兴区数字经济技术研究院 一种基于大数据的电商促销定价决策辅助方法及系统
CN114490667A (zh) * 2022-02-15 2022-05-13 平安国际智慧城市科技股份有限公司 多维度的数据分析方法、装置、电子设备及介质
CN114386879B (zh) * 2022-03-22 2022-07-22 南京建普信息科技有限公司 一种基于多产品多维度性能指标的评分与排行方法及系统
CN117371861B (zh) * 2023-10-30 2024-07-02 深圳轻喜到家科技有限公司 基于数字化的家政服务质量智能分析方法及系统
CN118093769B (zh) * 2024-02-28 2024-09-24 深圳源航软件技术有限公司 一种基于erp业务的产品数据管理方法及系统
CN118211038B (zh) * 2024-05-21 2024-08-23 中电科大数据研究院有限公司 一种多维数据处理分析方法、装置、系统及存储介质
CN118261142B (zh) * 2024-05-30 2024-10-11 南京信息工程大学 基于机器学习和统计回归的分解酒店文本描述方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103489108A (zh) * 2013-08-22 2014-01-01 浙江工商大学 社区商务云中大规模订单撮合方法
CN104462333A (zh) * 2014-12-03 2015-03-25 上海耀肖电子商务有限公司 购物搜索推荐与告警方法和系统
CN106447388A (zh) * 2016-08-31 2017-02-22 广东华邦云计算股份有限公司 一种菜品推荐方法及系统
CN107146122A (zh) * 2016-03-01 2017-09-08 阿里巴巴集团控股有限公司 数据处理方法及装置
CN107369075A (zh) * 2017-07-26 2017-11-21 万帮充电设备有限公司 商品的展示方法、装置和电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5258532B2 (ja) * 2008-06-10 2013-08-07 ヤフー株式会社 評判指数を出力する方法及び評判指数出力装置
TWI601088B (zh) * 2014-10-06 2017-10-01 Chunghwa Telecom Co Ltd Topic management network public opinion evaluation management system and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103489108A (zh) * 2013-08-22 2014-01-01 浙江工商大学 社区商务云中大规模订单撮合方法
CN104462333A (zh) * 2014-12-03 2015-03-25 上海耀肖电子商务有限公司 购物搜索推荐与告警方法和系统
CN107146122A (zh) * 2016-03-01 2017-09-08 阿里巴巴集团控股有限公司 数据处理方法及装置
CN106447388A (zh) * 2016-08-31 2017-02-22 广东华邦云计算股份有限公司 一种菜品推荐方法及系统
CN107369075A (zh) * 2017-07-26 2017-11-21 万帮充电设备有限公司 商品的展示方法、装置和电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于淘宝网的用户评价的商品推荐系统的设计与实现;李永胜;《中国优秀硕士学位论文全文数据库(硕士)-信息科学辑》;20151015;I138-605 *
李永胜.基于淘宝网的用户评价的商品推荐系统的设计与实现.《中国优秀硕士学位论文全文数据库(硕士)-信息科学辑》.2015,I138-605. *
网络购物的信誉和销售量关系研究——基于淘宝网的实证分析;李松 等;《现代管理科学》;20121130;第72-74页 *

Also Published As

Publication number Publication date
CN108491377A (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN108491377B (zh) 一种基于多维度信息融合的电商产品综合评分方法
CN108388660B (zh) 一种改进的电商产品痛点分析方法
US10282737B2 (en) Analyzing sentiment in product reviews
CN107491531A (zh) 基于集成学习框架的中文网络评论情感分类方法
US20130018824A1 (en) Sentiment classifiers based on feature extraction
CN108038725A (zh) 一种基于机器学习的电商产品客户满意度分析方法
KR20200007713A (ko) 감성 분석에 의한 토픽 결정 방법 및 장치
US20150317390A1 (en) Computer-implemented systems and methods for taxonomy development
García-Moya et al. Storing and analysing voice of the market data in the corporate data warehouse
Sarawgi et al. Opinion mining: aspect level sentiment analysis using SentiWordNet and Amazon web services
CN114254201A (zh) 一种科技项目评审专家的推荐方法
Baishya et al. SAFER: sentiment analysis-based fake review detection in e-commerce using deep learning
Lin Sentiment analysis of e-commerce customer reviews based on natural language processing
CN115329207B (zh) 智能销售信息推荐方法及系统
Rani et al. Study and comparision of vectorization techniques used in text classification
Mate Product aspect ranking using sentiment analysis: a survey
Hassan et al. Sentimental analysis of Amazon reviews using naïve bayes on laptop products with MongoDB and R
CN113807092A (zh) 一种基于lda主题模型的卷烟品牌在线评论分析方法
CN109670922B (zh) 一种基于混合特征的线上图书价值发现方法
Dai et al. Research on image of enterprise after-sales service based on text sentiment analysis
CN115659961B (zh) 用于提取文本观点的方法、装置以及计算机存储介质
Mangngalle et al. Sentiment Analysis of Lazada App Review Using Word2Vec and Support Vector Machine
Jishtu et al. Prediction of the stock market based on machine learning and sentiment analysis
Alvares et al. Sentiment analysis using opinion mining
Erfina et al. Indonesian Analysis Sentiment on Non Fungible Token (NFT)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant