CN108038725A - 一种基于机器学习的电商产品客户满意度分析方法 - Google Patents
一种基于机器学习的电商产品客户满意度分析方法 Download PDFInfo
- Publication number
- CN108038725A CN108038725A CN201711303030.XA CN201711303030A CN108038725A CN 108038725 A CN108038725 A CN 108038725A CN 201711303030 A CN201711303030 A CN 201711303030A CN 108038725 A CN108038725 A CN 108038725A
- Authority
- CN
- China
- Prior art keywords
- word
- product
- words
- feature
- product features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于机器学习的电商产品客户满意度分析方法,其中所述方法包括:获取电商产品评论文本,进行分词、词性标注等数据预处理;选定汉语组块标记符号对分词结果进行手工标注;基于Lib‑SVM工具,训练模型,进而获取名词性汉语组块作为候选商品特征,计算TF‑IDF值过滤特征;构建情感词典,计算商品每个特征的情感得分;训练词向量语言模型,得到商品特征的向量表示;基于词向量相似度,对商品特征进行客户满意度聚类,并计算总得分。本发明的方法可以应用在基于商品评论文本的商品推荐系统,通过客户满意度分析,聚类出商品特征五个方面,降低商品特征维度以及稀疏性,使所设计的推荐系统具有更加快速和准确的性能。
Description
技术领域
本发明涉及自然语言处理和数据挖掘领域,尤其是一种基于评论文本的商品评价方法。
背景技术
随着互联网技术的迅猛发展和普及,带来网络信息爆炸式的增加。在信息“爆炸”时代,传统门店销售模式已经不能满足消费者需求,电子商务应运而生。电子商务的出现,一方面,扩宽消费者商品选购范围;另一方面,消费者可以对电商产品发表观点和看法。客户满意度,也叫客户满意指数,是对服务性行业的顾客满意度调查系统的简称,是客户通过对一种产品可感知的效果与其期望值相比较后得出的指数,商品评论就是一种客户满意度的体现。通过挖掘目标商品评论信息,获取用户的个性化特征偏好、目标商品客户满意度实现对用户进行商品推荐。
对于产品客户满意度的分析当前已经有很多方法,如顾客满意度专项调查、投诉建议制度、神秘购买者和研究流失的顾客。这些方法获取目标商品的客户满意度指数,但是耗时费力,被动获取信息而且信息量偏小。
在针对电商产品的客户满意度情况时,上述方法都不适用。因此,通过分析目标商品评论,挖掘出商品特征对应的情感评价,作为客户满意度情况。但是,评论用户具有不同教育程度、文化背景、风俗习惯的用户采取不同的表述方式,导致目标商品的一种特征会有多种表达方式。这种情况不仅可能出现商品特征维度灾难,而且增加特征的稀疏性,不利于分析出用户对商品特征的情感评价。
采用客户满意度聚类方法,根据客户满意度提出的五个方面,信赖度、专业度、有形度、同理度和反应度,按照五个度表达内容,将实际表达同一特征或者类似特征聚类到五个度中。不仅可以有效解决商品特征问题,而且采用客户满意度聚类方法,更加简介高效评价商品。目前基于客户满意度评价电商产品,还很少有人提出有效方法。
发明内容
本发明所要解决的技术问题是:提供一种电商产品客户满意度分析方法,采用名词性汉语组块作为商品特征,并利用机器学习方法将用户评论的商品特征聚类客户满意度五个方面,解决商品特征维度灾难和稀疏性,并且更加简洁高效的评价目标商品,使商品推荐的结果快速准确。
为此,本发明提出的一种基于机器学习的电商产品客户满意度分析方法包括如下步骤:
步骤S1:设计爬虫算法从电商平台上爬取目标商品评论文本,持久化到本地数据库,利用分词工具对爬取的评论文本进行分词、词性标注,统计分词结果得到词频,根据停用词和低频词词典对分词结果进行过滤。
步骤S2:选定汉语组块标记符号,对分词结果的每个词根据词性和上下文关系给予手工汉语组块标注;
步骤S3:将手工标注好的汉语组块作为训练集,基于Lib-Svm工具训练出自动提取的汉语组块模型,然后把模型应用在全部评论,最后利用标注后的结果自动提取名词性汉语组块作为候选产品特征词,给定一定的阈值对每个候选特征词进行TF-IDF过滤;
步骤S4:收集网上情感词典,并对词典根据情感的强度进行数值化,对每条评论中出现的商品特征词进行情感得分计算;
步骤S5:训练商品特征词的词向量模型,得到特征词的向量表示集合;
步骤S6:基于特征词词向量的相似度,对商品特征进行客户满意度聚类,并结合商品特征情感得分,最后给出商品评价总得分;
本发明与现有技术对比的有益效果是:本发明提出了一种基于机器学习的电商产品客户满意度分析方法,根据调查研究,发现一个可以有效衡量客户服务质量的RATER指数。RATER指数是五个英文单词的缩写,分别代表reliability(信赖度)、assurance(专业度)、tangibles(有形度)、empathy(同理度)、responsiveness(反应度),基于客户满意指数度给出电商产品评价五个方面。将用户评论文本中的商品特征聚类到客户满意度五个方面,不仅可以有效解决商品特征问题,而且采用客户满意度聚类方法,更加简洁高效评价商品;为了更加准确提取商品特征,本发明采用汉语组块标注形式,基于SVM方法训练出模型;相比与商品特征情感倾向,本发明将情感倾向数值化,计算出每个商品特征情感得分;给定客户满意度每个方面几个最显著的商品特征词,使用词向量模型,这种词语向量具有很强的语义表示能力,语义上相近的词语,在映射后的向量空间中的距离也会很相近,将剩余的商品特征词,计算与每个方面的特征词相似度,取平均相似度最大的方面,进行归类;最合结合商品特征情感得分,给出产品客户满意度最终得分。在对商品评价的过程中,利用汉语组块重组商品特征和客户满意度的定向聚类,都可以减小商品特征的维度,而且采用特征情感得分,可以所设计的推荐系统具有更加快速和准确的进行推荐。
附图说明
图1是本发明具体实施方式中的一种基于机器学习的电商产品客户满意度分析方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点清楚,下面将对本发明的具体实施方式进行清楚、完整的描述。
如图1所示,为本具体实施方式中的一种基于机器学习的电商产品客户满意度分析方法的流程图。
该方法包括:步骤S1设计爬虫算法从电商平台上爬取目标商品评论文本,持久化到本地数据库,利用分词工具对爬取的评论文本进行分词、词性标注,统计分词结果得到词频,根据停用词和低频词词典对分词结果进行过滤;步骤S2,选定汉语组块标记符号,对分词结果的每个词根据词性和上下文关系给予汉语组块手工标注;步骤S3,将手工标注好的汉语组块作为训练集,基于Lib-Svm工具训练出自动提取的汉语组块模型,然后把模型应用在全部评论,最后利用标注后的结果自动提取名词性汉语组块作为产品特征词,得到商品特征词候选集合,给定一定的阈值对每个候选特征词进行TF-IDF过滤;步骤S4,收集网上情感词典,并对词典根据情感的强度进行数值化,对每条评论中出现的商品特征词进行情感得分计算;步骤S5,训练商品特征词的词向量模型,得到特征词的向量表示集合;步骤S6,基于特征词词向量的相似度,对商品特征进行客户满意度聚类,并结合商品特征情感得分,最后给出商品评价总得分。
在具体的实施方案中,可按下面方式操作(在下面的操作表述中,我们将以对淘宝网站中某款手机的客户满意度分析为例,在每个操作步骤后,给出具体示例):
步骤S1:利用python的Scrapy爬虫框架,爬取目标商品评论文本,然后持久化到Mysql数据库中,得到用户评论语料库。然后对评论文本进行预处理,主要包括文本分词、词性标注和词频统计,然后基于停用词和低频词过滤分词结果。细分步骤如下:1)文本分词和词性标注:我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。词性标注是对上述的分词结果,标注每个词的词性,现代汉语的词可以分为两类14种词性。现在能选择的中文分词和词性标注工具比较多,比如,ICTCLAS:汉语词法分析系统,这是最早的中文开源分词项目之一,ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届(2003)国际中文处理研究机构SigHan组织的评测中都获得了多项第一名;语言云(语言技术平台云LTP-Cloud)是由哈工大社会计算与信息检索研究中心研发的云端自然语言处理服务平台。后端依托于语言技术平台,语言云为用户提供了包括分词、词性标注、依存句法分析、命名实体识别、语义角色标注在内的丰富高效的自然语言处理服务;“结巴”中文分词,做最好的Python中文分词组件。我们综合考虑分词的准确率、高效性和简便性选择“结巴”中文分词工具(工具网站:http://www.oschina.net/p/jieba)。2)对分词结果进行词频统计:创建一个词典容器,以分词结果的词为键,值为词出现的频次,其特点是键值对储存,并且储存的键必须唯一不能重复,对分词结果进行遍历,并储存进词典容器,得到全部的分词结果的词频。
3)低频词和停用词的过滤:低频词指的是词频统计中出现次数较少的词,一般过滤掉的出现次数少于3的词语;停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,比如“的”、“我”等词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。4)分词结果的过滤:,过滤掉分词结果中的出现的低频词和停用词。
我们从淘宝某款手机商品的评论文本中选择以下几条作为示例:
1“非常不错的手机,做工质感极好,颜值爆表。”
2“京东的物流超级赞,手机已经开始使用,功能正常,物美价廉,值得推荐。”
3“手机很好,运行速度很快,电话音质不错。”
“结巴”中文分词及词性标注官方介绍为:jieba.posseg.POSTokenizer(tokenizer=None)新建自定义分词器,tokenizer参数可指定内部使用的jieba.Tokenizer分词器。jieba.posseg.dt为默认词性标注分词器。标注句子分词后每个词的词性,采用和ictclas兼容的标记法。具体使用方法如下:
Import jieba.posseg as pseg
sentence=’非常不错的手机,做工质感极好的,颜值爆表。’
result=[str(a)for a in pseg.cut(sentence)]
print(″″.join(result))
对示例文本1的进行上述分词及词性标注步骤,处理后的显示格式为,空格分隔各个词语,每个词后的反斜线本词的词性,最终显示的结果如下:
“非常/d 不错/a 的/uj 手机/n ,/x 做工/v 质感/n 极好/d 的/uj,/x 颜值/n爆表/v。/x”,其中,v代表动词、n代表名词、a代表形容词、d代表副词、uj代表助词、x代表非语素字。
对上述分词结果进行词频统计具体方法如下:
统计词频后的结果为:{’非常’:1,’不错’:1,’的’:2,’手机’:1,’做工’:1,’质感’:1,’极好’:1,’颜值’:1,’爆表’:1},以词和词频的组合形式作为键值对储存到词典容器中,给定一定的阈值,把低于这个阈值的词作为低频词。
步骤S2:组块分析是一种句法分析。它既可以作为自然语言处理系统中分析句法功能的子任务,也可以作为词法分析过渡到句法分析的一座桥梁。汉语组块分析针对经过预处理的词语序列,分析后主要产生两部分信息——词界块:将相同成分的词语序列划分在同一个块中,形成连续的词界块序列;块成分标记:为每一个汉语块赋予一个块成分标记。首先要确定汉语块标记,根据本发明的特点结合汉语组块的重要性,选取8种汉语组块形式,作为汉语组块手工标记符号,分别是:np(名称块)、vp(动词块)、ap(形容词)、mp(数量词块)、sp(空间块)、tp(时间块)、dp(副词块)和pp(介词块)。然后块成分标记本发明采用IOB2的标注集合,该标注集合包含三种类型的标记:B-X表示汉语组块类型为X,并且是该汉语组块的起始词,I-X表示汉语组块类型为X,并且是该汉语组块的非起始词,0表示不在任何汉语组块内的词。根据步骤S1得到的分词结果,结合每个词的上下词关系,给予每个词汉语组块手工标注符号,构成训练模型样本。对示例文本1的分词结果,并进行低频词和停用词后的汉语组块手工标注的结果如下:
非常/d B-ap
不错/a I-ap
手机/n B-np
,/x 0
做工/v B-np
质感/n I-np
极好/d B-dp
,/x 0
颜值/n B-np
爆表/v B-ap
。/x 0
步骤S3:支持向量机作为一种有监督的机器学习算法,必须由使用者提供一系列特征作为分类依据。将评论文本上下文不同位置出现的词(w)、词性(p)以及组块类别标记(c)作为组合特征训练支持向量机模型。这样分类模型x就可以由12个特征表示,如下所示:
x=(wi-2,pi-2,ci-2,wi-1,pi-1,ci-1,wi,pi,wi+1,pi+1,wi+2,pi+2) (1)
其中,wi表示当前位置的单词,pi表示当前词的词性标记;wi-n:表示从当前位置往前数第n个的单词,pi-n表示i-n的词性标记,ti-n表示i-n的组块类型标记;wi+n:表示从当前位置往后数第i个单词;pi+n表示i+n的词性标记,n取1和2。
对于特征SVM二值分类器仅接受数字化的值,为了满足这个限制,通过构建一个关于特征的倒排索引表Inv Tab,其中的每个记录为二元组(f,indexw),其中index是特征f在的特征列表中的位置。如(wi-2=颜色,2451),表示“wi-2=颜色”这个特征是特征列表中的第2451个元素。
为解决数据集不均衡的问题,本发明采用一对一分类方法。另外,常用的Kernel函数有:
Sigmoid核函数tanh((x·xi)+t),a,t是常数,tanh是Sigmoid函数;
多项式核函数K(x,xi)=[((x·xi)+1)]d,d是自然数;
径向基核函数
多项式函数形式简单且可直观地比较各种特征不同组合时的分类效果,故采用d次多项式作为Kernel函数。
选择完SVM的特征组合和核函数后,利用Lib-Svm对全部的评论进行汉语组块标记,然后提取出名词性的汉语组块作为候选商品特征词,计算每个候选词的TF-IDF进行过滤。其中,TF-IDF(英语:term frequency-inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。计算公式如下:
TF-IDF=TFi,j×IDFi (2)
其中,nij是某个检索词在文档dj中出现的次数,而是该文档中出现的词语数量总和。|D|表示文件总和,|{j:ti∈Dj}|:包含词语ti的文件数目(即ni,j≠0的文件数目)如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用1+|{j:ti∈Dj}|。
通过观察非产品特征及其TF-IDF值,发现绝大多数的非产品特征的TF-IDF值在0.0045以上,因此本发明以0.0045作为过滤阈值,对候选产品特征集合进行过滤后可以得到最终的产品特征集合。
本发明以5000条商品评论为数据源,其中1000条经过手工标注,作为训练集和测试集的总和,剩余的4000条作为验证集使用,具体的使用步骤如下:
D:\libsvm\windows\svm-scale-1 0-u 1 train.txt>train-to-one.txt//数值归一化
from svmutil import*
y,x=svm_read_problem(r’train-to-one.txt’)
m=svm_train(y[:840],x[:840],’-c 4’)
p_label,p_acc,p_val=svm_predict(y[840:],x[840:],m)
运行结果:Accuracy=86.7273%
通过Lib-Svm提取得到的候选商品特征词,然后计算TF-IDF值进行过滤,得到商品特征词。
步骤S4:对商品每个特征词进行情感得分计算,主要分为四步:1)评论文本分割:将评论文本用中文里最常用的句号、分号、问号、感叹号等划分句意的符号,切割成不同句子;然后用逗号划分出句子里的意群(表示情感的最小单元)。2)将汉语组块作为新词进行加载,采用Python-Jieba对意群进行分词。3)基于情感词典的情感分析:主要收集知网(Hownet)和中文情感极性词典(NTUSD),以及结合手机领域独特的情感词。主要分为三类:
情感词:比如:漂亮、实用等,表达商品特征的态度。
程度词:比如:很、非常、极等,当程度词修饰情感词,表达出对商品特征词的情感强度。
否定词:比如:不、没有等,否定词的处理分两种情况,一是修饰情感词,一是修饰程度词,两种对商品的情感影响的强度是不一样,需要做相应的调整。
4)情感得分计算:首先,在意群中搜索商品特征词,如果存在,则进行情感得分计算,否则下一个意群;然后,将第二步分词后得到的词依次在情感词典中查找,若能找到,则读取情感极性及权值(S=情感极性×权值),否则不是情感词;其次,情感词往前搜索程度词,找到程度词或遇到情感词就停止搜寻,若找到程度词则记录相应权值(K)。再次,情感词往前搜索否定词,搜索完当前意群或遇到情感词就停止。逐个处理否定词,若位于情感词前,则取Wi=-1,若位于程度词前,则取Wi=0.5,若不存在否定词则Wi=1。通过前面的操作,已经完成意群划分,同时也提出了情感词、程度词和否定词,并赋予了相应的权值。最后,计算意群情感得分:特征词i=AVG(SUN(特征词i,特征词i,..)),特征词i=S×K×Wi,下标第i表示第i特征词。
对示例文本1的进行上述的特征词情感得分计算,具体的步骤如下:
sentence=“非常不错的手机,做工质感极好的,颜值爆表”。
re_string=“,|。| |!”
sens_list=re.split(re_string,sentence)
处理后得到[“非常不错的手机”,“做工质感极好的”,“颜值爆表”]三个意群。
以“非常不错的手机”为例进行情感得分计算,先分词“非常 不错 的 手机”以空格为分隔符,
其中“非常”是程度词,“不错”是情感词,“的”是停用词,“手机”是商品特征词,根据上述公式计算:Score(“手机”)=S×K×W=1×3×1=3。最后,计算每个特征词的情感得分,对每个特征词得分取平均,作为最终商品特征得分。
步骤S5:经过步骤S3得到商品特征词集合,作为训练获取词向量模型的训练数据,获得词语的向量细分步骤如下:1)使用开源Word2Vec工具训练该工具内部包含的模型;2)所得到的词语向量表示,是一种较低维度的连续值向量,每个词语向量具有相同的维度,维度的大小K的取值通常在训练前人工指定,K取值以50维和100维比较常见。Word2Vec是由Google开发的开源词向量学习工具(工具网址:https://code.google.com/p/word2vec/),该工具内部实现了两种语言模型:连续词袋模型(continuous bag-of-word,CBOW)以及连续skip-gram模型,CBOW是已知中心词的上下文来预测中心词的概率分布,skip-gram是已知中心词来预测上下文词语的概率分布,两种模型都以词语向量的one hot(即当前词是1,其他词是0)表示为输入,训练好模型之后,就获得了我们需要的词嵌入表示的词语向量。
使用Python中实现的word2vec工具,对上述描述进行具体实施如下:
import warnings
warnings.filterwarnings(action=’ignore’,category=UserWarning,module=’gensim)
from gensim.models import word2vec
import logging
logging.basicConfig(format=’%(asctime)s:%(levelname)s:%(message)s’,level=logging.INFO)
sentences=word2vec.Text8Corpus(r“特征词集合”)#加载语料
model=word2vec.Word2Vec(sentences,size=100,min_count=1)#默认window=5
model.save(u″特征词向量模型.model″)
加载特征词集合训练数据,经过训练得到特征词向量模型,然后有下列方法可以调用:查看指定特征词的具体向量数值表示=model[“特征词”];计算两个词的相似度/相关程度=model.similarity(word1,word2);计算某个词的相关词列表=model.most_similar(“通话”,topn=20)#20个最相关;寻找对应关系=model.most_similar([“内存”,“太小”],[“分辨率”],topn=10);寻找不合群的词=model.doesnt_match(“内存 运存 容量 屏幕”.split())。
步骤S6:对商品进行客户满意度聚类分析的细分步骤如下:1)客户满意度的具体介绍:客户满意度可由RATER指数的大小来体现,分值越高客户越满意,其中RATER指数分别代表reliability(信赖度)、assurance(专业度)、tangibles(有形度)、empathy(同理度)、responsiveness(反应度)。具体每个类别的信息如下:
信赖度:是指一个企业是否能够始终如一地履行自己对客户所做出的承诺,当这个企业真正做到这一点的时候,就会拥有良好的口碑,赢得客户的信赖。
专业度:是指企业的服务人员所具备的专业知识、技能和职业素质。包括:提供优质服务的能力、对客户的礼貌和尊敬、与客户有效沟通的技巧。
有形度:是指有形的服务设施、环境、服务人员的仪表以及服务对客户的帮助和关怀的有形表现。服务本身是一种无形的产品,但是整洁的服务环境、餐厅里为幼儿提供的专用座椅、麦当劳里带领小朋友载歌载舞的服务小姐等等,都能使服务这一无形产品变得有形起来。
同理度:是指服务人员能够随时设身处地地为客户着想,真正地同情理解客户的处境、了解客户的需求。
反应度:是指服务人员对于客户的需求给予及时回应并能迅速提供服务的愿望。当服务出现问题时,马上回应、迅速解决能够给服务质量带来积极的影响。作为客户,需要的是积极主动的服务态度。
2)选定客户满意度的聚类“种子”商品特征:根据客户满意度定义的五个类别,将商品特征词映射到五个类别中。商品本身特征词描述对应“信赖度”,取“手机屏幕”、“电池容量”、“运行速度”、“屏幕分辨”等高频特征词作为“信赖度”聚类“种子”商品特征词;客服服务、售后服务描述对应“专业度”;产品配件包装对应“有形度”;快递员、物流服务对应“同理度”;退换货服务对应“反应度”;同理,对其余的四个类别,分别选择相应的聚类“种子”商品特征词。
3)商品特征词的相似聚类:从S5获取的商品特征词词向量集合中,除去被选定为“种子”商品特征词,然后遍历集合,调用词向量相似度函数,计算每个商品特征词与每个类别中每个“种子”特征词的相似度,然后取平均相似度的类别进行归类。
4)客户满意度的计算:基于步骤S4获得的每个商品特征词的情感得分,对每个类中的商品特征词进行情感得分的求和求平均操作,最终计算出每个五个类别的最终得分。
根据上述步骤描述,主要介绍细分步骤2具体实施步骤如下:
list_1,list_2,list_3,list_4,list_5=[’手机屏幕’,’电池容量’,..],[...],[...],[...],[...]#五个类别的种子特征词
list_feature=[’分辨率’,’手机外观’...]#手机特征词集合
for word in list_feature:
#计算每个类别的相似度
score=compute(list_1,list_2,list_3,list_4,list_5,word)
add_list(scour)#取相似度最大的类别进行归类
将所有的商品特征词聚类后,经过计算就可以获取商品的客户满意指数,更加全面、高效和简洁的评价方法,使商品推荐的结果快速准确。
需要说明:以上内容是结合具体的优选实施方式,对本发明一部分实施的详细说明,不能认定本发明只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下所获得的所有其他具体实例,都应当视为属于本发明的保护范围。
Claims (9)
1.一种基于机器学习的电商产品客户满意度分析方法,其特征是包括如下步骤:
步骤S1:从相关电商平台获取电商产品评论文本,进行分词、词性标注等数据预处理;
步骤S2:选定汉语组块标记符号,对步骤S1中得到的分词结果进行手工标注,作为获取汉语组块模型的训练样本;
步骤S3:利用所述步骤S2中得到的训练样本,基于Lib-SVM工具训练,得到可以在商品评论文本中自动标注汉语组块的模型,然后在全部评论上进行汉语组块的自动标注,进而选取名词性汉语组块作为候选商品特征词集合,并对候选集合按照一定的规则进行过滤;
步骤S4:构建情感词典,利用所述步骤S3中得到的商品特征词集合,计算商品每个特征的情感得分;
步骤S5:利用所述步骤S3中得到的商品特征词集合,训练特征词的词向量模型,得到商品特征词的向量表示;
步骤S6:利用所述步骤S5中得到的商品特征词向量,基于词向量相似度,对商品特征词进行客户满意度聚类分析,利用所述步骤S4中得到的商品每个特征的情感得分,计算出每一类的平均分作为最终得分。
2.如权利要求1所述的基于机器学习的电商产品客户满意度分析方法,其特征是,所述步骤S1中,数据预处理包括评论分词、词性标注、词频统计、停用词过滤以及低频词语过滤。
3.如权利要求1所述的基于机器学习的电商产品客户满意度分析方法,其特征是,所述步骤S2中,汉语组块标注的方法是:汉语组块总共有13种,根据重要性选取出最常见的8种作为标记符号,采用IOB2的标注集合来标注汉语组块,根据每个词的前、后的2个词的词性和依存关系,手工给予每个词的汉语组块标注;汉语组块标注完成后,完成每个词和汉语组块一一对应。
4.如权利要求1所述的基于机器学习的电商产品客户满意度分析方法,其特征是,所述步骤S3中,商品特征词提取的方法是:根据步骤S2中标注的汉语组块,选取每个词的词、词性以及前、后2个词的词、词性和汉语组块标记作为训练的输入特征,基于Lib-SVM工具,训练出汉语组块提取模型;利用模型在全部评论文本上提取出名词性汉语组块作为候选商品特征词集合,计算每个候选特征词的TF-IDF值,给定一定阈值进行过滤。
5.如权利要求1所述的基于机器学习的电商产品客户满意度分析方法,其特征是,所述步骤S4中,商品特征词情感得分的方法是:收集及整合网上的情感词典,主要以知网的情感词典和台湾大学的情感极性词典为主,对不同类别的词进行数值化;在每一条评论中,给定一定的距离,根据步骤S3得到的商品特征词集合,结合情感词典计算出每条评论中含有的商品特征词情感得分。
6.如权利要求1所述的基于机器学习的电商产品客户满意度分析方法,其特征是,所述步骤S5中,利用S3中得到的商品特征词集合,获得词语的向量表示的方法是:使用Word2Vec开源工具,训练商品特征词集合;然后得到特征词向量表示,是一种较低维度的连续值向量,每个词语向量具有相同的维度,维度的大小作为超参数在训练前人工指定,常用50维或100维。
7.如权利要求1所述的基于机器学习的电商产品客户满意度分析方法,其特征是,所述步骤S6中,基于词向量的特征词相似度计算方法是:根据步骤S5中特征词的词向量表示,利用Word2Vec自带的相似度计算工具,可以计算出每个特征词与剩余特征词的相似度,得到的结果是0到1的小数,数值越大代表越相似。
8.如权利要求1所述的基于机器学习的电商产品客户满意度分析方法,其特征是,所述步骤S6中,客户满意度聚类方法是:根据客户满意度的五个类别定义,包括信赖度、专业度、有形度、同理度和反映度,基于步骤S3中提取的商品特征词集合,对于每个类别人工筛选出十个最具代表并且唯一类别的商品特征词,结合步骤S6词向量的特征词相似度计算方法,剩余的每个特征词依次与五个类别中的十个特征词进行相似度计算,最后选取平均相似度最大的类别进行归类。
9.如权利要求1所述的基于机器学习的电商产品客户满意度分析方法,其特征是,所述步骤S6中,客户满意度总得分计算方法:结合步骤S6客户满意度聚类结果和步骤S4商品特征词情感得分,可以获取客户满意度每个类中所有产品特征词情感得分,然后对每个类别中的特征词加权平均,作为客户满意度每个类别的最终得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711303030.XA CN108038725A (zh) | 2017-12-04 | 2017-12-04 | 一种基于机器学习的电商产品客户满意度分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711303030.XA CN108038725A (zh) | 2017-12-04 | 2017-12-04 | 一种基于机器学习的电商产品客户满意度分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108038725A true CN108038725A (zh) | 2018-05-15 |
Family
ID=62102117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711303030.XA Pending CN108038725A (zh) | 2017-12-04 | 2017-12-04 | 一种基于机器学习的电商产品客户满意度分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108038725A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984775A (zh) * | 2018-07-24 | 2018-12-11 | 南京新贝金服科技有限公司 | 一种基于商品评论的舆情监控方法及系统 |
CN109145216A (zh) * | 2018-08-29 | 2019-01-04 | 中国平安保险(集团)股份有限公司 | 网络舆情监控方法、装置及存储介质 |
CN109255028A (zh) * | 2018-08-28 | 2019-01-22 | 西安交通大学 | 基于教学评价数据可信度的教学质量综合评价方法 |
CN109461037A (zh) * | 2018-12-17 | 2019-03-12 | 北京百度网讯科技有限公司 | 评论观点聚类方法、装置和终端 |
CN109636440A (zh) * | 2018-11-06 | 2019-04-16 | 航天信息股份有限公司 | 商品满意度的评估方法和装置,存储介质和电子设备 |
CN110083726A (zh) * | 2019-03-11 | 2019-08-02 | 北京比速信息科技有限公司 | 一种基于ugc图片数据的目的地形象感知方法 |
CN110347934A (zh) * | 2019-07-18 | 2019-10-18 | 腾讯科技(成都)有限公司 | 一种文本数据过滤方法、装置及介质 |
CN110472043A (zh) * | 2019-07-03 | 2019-11-19 | 阿里巴巴集团控股有限公司 | 一种针对评论文本的聚类方法及装置 |
CN110807583A (zh) * | 2019-10-30 | 2020-02-18 | 天津大学 | 基于rbac可配置的erp角色权限检定系统和方法 |
CN111339767A (zh) * | 2020-02-21 | 2020-06-26 | 百度在线网络技术(北京)有限公司 | 对话源数据处理方法及装置、电子设备、计算机可读介质 |
CN111415176A (zh) * | 2018-12-19 | 2020-07-14 | 杭州海康威视数字技术股份有限公司 | 一种满意度评价方法、装置及电子设备 |
CN112445907A (zh) * | 2019-09-02 | 2021-03-05 | 顺丰科技有限公司 | 文本情感分类方法、装置、设备、及存储介质 |
CN113051936A (zh) * | 2021-03-16 | 2021-06-29 | 昆明理工大学 | 一种基于低频词表示增强的汉越神经机器翻译的方法 |
CN113627969A (zh) * | 2021-06-21 | 2021-11-09 | 杭州盟码科技有限公司 | 一种基于电商平台用户评论的产品问题分析方法和系统 |
CN113641798A (zh) * | 2021-10-12 | 2021-11-12 | 成都晓多科技有限公司 | 一种针对商家的扰乱性评论的识别方法及系统 |
CN113722487A (zh) * | 2021-08-31 | 2021-11-30 | 平安普惠企业管理有限公司 | 用户情感分析方法、装置、设备及存储介质 |
US11188968B2 (en) | 2020-02-28 | 2021-11-30 | International Business Machines Corporation | Component based review system |
CN116883014A (zh) * | 2023-07-12 | 2023-10-13 | 深圳科迪新汇信息科技有限公司 | 基于分布式ai模型的客户满意度测评系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778214A (zh) * | 2014-01-16 | 2014-05-07 | 北京理工大学 | 一种基于用户评论的商品属性聚类方法 |
CN105550269A (zh) * | 2015-12-10 | 2016-05-04 | 复旦大学 | 一种有监督学习的产品评论分析方法及系统 |
CN105824898A (zh) * | 2016-03-14 | 2016-08-03 | 苏州大学 | 一种网络评论的标签提取方法和装置 |
CN107133214A (zh) * | 2017-05-05 | 2017-09-05 | 中国计量大学 | 一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法 |
CN107220239A (zh) * | 2017-05-31 | 2017-09-29 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据处理的电子商务中有效评论的特征提取方法 |
-
2017
- 2017-12-04 CN CN201711303030.XA patent/CN108038725A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778214A (zh) * | 2014-01-16 | 2014-05-07 | 北京理工大学 | 一种基于用户评论的商品属性聚类方法 |
CN105550269A (zh) * | 2015-12-10 | 2016-05-04 | 复旦大学 | 一种有监督学习的产品评论分析方法及系统 |
CN105824898A (zh) * | 2016-03-14 | 2016-08-03 | 苏州大学 | 一种网络评论的标签提取方法和装置 |
CN107133214A (zh) * | 2017-05-05 | 2017-09-05 | 中国计量大学 | 一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法 |
CN107220239A (zh) * | 2017-05-31 | 2017-09-29 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据处理的电子商务中有效评论的特征提取方法 |
Non-Patent Citations (2)
Title |
---|
刘臣等: "基于汉语组块产品特征-观点对提取与情感分析研究", 《计算机应用研究》 * |
吴维芳等: "评论文本对酒店满意度的影响:基于情感分析的方法", 《数据分析与知识发现》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984775A (zh) * | 2018-07-24 | 2018-12-11 | 南京新贝金服科技有限公司 | 一种基于商品评论的舆情监控方法及系统 |
CN109255028A (zh) * | 2018-08-28 | 2019-01-22 | 西安交通大学 | 基于教学评价数据可信度的教学质量综合评价方法 |
CN109255028B (zh) * | 2018-08-28 | 2021-08-13 | 西安交通大学 | 基于教学评价数据可信度的教学质量综合评价方法 |
CN109145216A (zh) * | 2018-08-29 | 2019-01-04 | 中国平安保险(集团)股份有限公司 | 网络舆情监控方法、装置及存储介质 |
CN109145216B (zh) * | 2018-08-29 | 2023-08-25 | 中国平安保险(集团)股份有限公司 | 网络舆情监控方法、装置及存储介质 |
CN109636440A (zh) * | 2018-11-06 | 2019-04-16 | 航天信息股份有限公司 | 商品满意度的评估方法和装置,存储介质和电子设备 |
CN109461037A (zh) * | 2018-12-17 | 2019-03-12 | 北京百度网讯科技有限公司 | 评论观点聚类方法、装置和终端 |
CN109461037B (zh) * | 2018-12-17 | 2022-10-28 | 北京百度网讯科技有限公司 | 评论观点聚类方法、装置和终端 |
CN111415176B (zh) * | 2018-12-19 | 2023-06-30 | 杭州海康威视数字技术股份有限公司 | 一种满意度评价方法、装置及电子设备 |
CN111415176A (zh) * | 2018-12-19 | 2020-07-14 | 杭州海康威视数字技术股份有限公司 | 一种满意度评价方法、装置及电子设备 |
CN110083726A (zh) * | 2019-03-11 | 2019-08-02 | 北京比速信息科技有限公司 | 一种基于ugc图片数据的目的地形象感知方法 |
CN110083726B (zh) * | 2019-03-11 | 2021-10-22 | 北京比速信息科技有限公司 | 一种基于ugc图片数据的目的地形象感知方法 |
CN110472043A (zh) * | 2019-07-03 | 2019-11-19 | 阿里巴巴集团控股有限公司 | 一种针对评论文本的聚类方法及装置 |
CN110347934B (zh) * | 2019-07-18 | 2023-12-08 | 腾讯科技(成都)有限公司 | 一种文本数据过滤方法、装置及介质 |
CN110347934A (zh) * | 2019-07-18 | 2019-10-18 | 腾讯科技(成都)有限公司 | 一种文本数据过滤方法、装置及介质 |
CN112445907B (zh) * | 2019-09-02 | 2024-10-15 | 顺丰科技有限公司 | 文本情感分类方法、装置、设备、及存储介质 |
CN112445907A (zh) * | 2019-09-02 | 2021-03-05 | 顺丰科技有限公司 | 文本情感分类方法、装置、设备、及存储介质 |
CN110807583A (zh) * | 2019-10-30 | 2020-02-18 | 天津大学 | 基于rbac可配置的erp角色权限检定系统和方法 |
CN111339767A (zh) * | 2020-02-21 | 2020-06-26 | 百度在线网络技术(北京)有限公司 | 对话源数据处理方法及装置、电子设备、计算机可读介质 |
US11188968B2 (en) | 2020-02-28 | 2021-11-30 | International Business Machines Corporation | Component based review system |
CN113051936A (zh) * | 2021-03-16 | 2021-06-29 | 昆明理工大学 | 一种基于低频词表示增强的汉越神经机器翻译的方法 |
CN113627969A (zh) * | 2021-06-21 | 2021-11-09 | 杭州盟码科技有限公司 | 一种基于电商平台用户评论的产品问题分析方法和系统 |
CN113722487A (zh) * | 2021-08-31 | 2021-11-30 | 平安普惠企业管理有限公司 | 用户情感分析方法、装置、设备及存储介质 |
CN113641798B (zh) * | 2021-10-12 | 2022-02-08 | 成都晓多科技有限公司 | 一种针对商家的扰乱性评论的识别方法及系统 |
CN113641798A (zh) * | 2021-10-12 | 2021-11-12 | 成都晓多科技有限公司 | 一种针对商家的扰乱性评论的识别方法及系统 |
CN116883014A (zh) * | 2023-07-12 | 2023-10-13 | 深圳科迪新汇信息科技有限公司 | 基于分布式ai模型的客户满意度测评系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108038725A (zh) | 一种基于机器学习的电商产品客户满意度分析方法 | |
CN108491377B (zh) | 一种基于多维度信息融合的电商产品综合评分方法 | |
Gu et al. | " what parts of your apps are loved by users?"(T) | |
US10956471B2 (en) | Readability awareness in natural language processing systems | |
US10380156B2 (en) | Readability awareness in natural language processing systems | |
Shaheen et al. | Sentiment analysis on mobile phone reviews using supervised learning techniques | |
Shirsat et al. | Document level sentiment analysis from news articles | |
CN109766431A (zh) | 一种基于词义主题模型的社交网络短文本推荐方法 | |
CN104350490A (zh) | 用于组织与产品相关的数据的方法、装置以及计算机可读介质 | |
Firmanto et al. | Prediction of movie sentiment based on reviews and score on rotten tomatoes using sentiwordnet | |
CN103544246A (zh) | 互联网多种情感词典构建方法及系统 | |
Tyagi et al. | Sentiment analysis of product reviews using support vector machine learning algorithm | |
CN110321561A (zh) | 一种关键词提取方法和装置 | |
CN111353044A (zh) | 一种基于评论的情感分析方法及系统 | |
Haque et al. | Opinion mining from bangla and phonetic bangla reviews using vectorization methods | |
Rathan et al. | Every post matters: a survey on applications of sentiment analysis in social media | |
Wegrzyn-Wolska et al. | Tweets mining for French presidential election | |
CN112597768B (zh) | 文本审核方法、装置、电子设备、存储介质及程序产品 | |
CA3014309A1 (en) | Expert knowledge platform | |
Jayawickrama et al. | Seeking sinhala sentiment: Predicting facebook reactions of sinhala posts | |
Nisa et al. | Hybrid Method for User Review Sentiment Categorization in ChatGPT Application Using N-Gram and Word2Vec Features | |
Amrutha et al. | Recommendation of Independent Music based on Sentiment Analysis | |
Das Dawn et al. | A 2-tier Bengali dataset for evaluation of hard and soft classification approaches | |
Baby | Computational Modelling of World Leaders’ Covid-19 Opinions: A Sentiment Analysis Approach | |
Kumar et al. | Determining the semantic orientation of opinion words using typed dependencies for opinion word senses and SentiWordNet scores from online product reviews |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |