CN109829166B

CN109829166B - 基于字符级卷积神经网络的民宿顾客意见挖掘方法

Info

Publication number: CN109829166B
Application number: CN201910117188.0A
Authority: CN
Inventors: 杨有; 张振; 罗凌; 余平; 尚晋
Original assignee: Chongqing Normal University
Current assignee: Chongqing Normal University
Priority date: 2019-02-15
Filing date: 2019-02-15
Publication date: 2022-12-27
Anticipated expiration: 2039-02-15
Also published as: CN109829166A

Abstract

本发明公开了基于字符级卷积神经网络的民宿顾客意见挖掘方法，包括以下步骤：构建网络爬虫，采集全部民宿评论建立出民宿字典、利用TF‑IDF对文本进行特征提取和向量化以及进行可视化的主题聚类、构建民宿主题词典、找出分句后文本内对应的评价条数、基于朴素贝叶斯的弱监督预分类、构建一维卷积核的卷积神经网络进行特征提取，得到情感极性、对感极性进行情感可视化以及验证模型；本发明方法可以从大量带有噪声和虚假的评论数据中挖掘隐藏在这些个性化评论中的情感和用户需求，将有助于企业组织和用户个人的决策行为，同时本发明方法从数据驱动的角度出发，可以挖掘出顾客在各个主题下的满意度情况，结果可为民宿经营者和监管者提供建议。

Description

基于字符级卷积神经网络的民宿顾客意见挖掘方法

技术领域

本发明涉及民宿顾客意见挖掘方法领域，尤其涉及基于字符级卷积神经网络的民宿顾客意见挖掘方法。

背景技术

顾客意见挖掘是对顾客需求和意见的分析，对顾客评论进行分析有利于民宿服务的改进和迭代，由于民宿服务的无形性，民宿的在线评论比其他种类信息来源的影响更大，因此，借助于顾客意见挖掘改进服务质量，是快速积累竞争优势的关键，主流的顾客意见挖掘方式有两种，一是针对结构化数据分析，即基于结构化数据，诸如调查问卷、利克特量表、语义差别量表等，来获得可感知的、有效的属性；二是针对非结构化数据分析，即通过自然语言处理技术、可视化技术来分析数据自身的特点，在评论网站，论坛，博客和社交媒体中可以获得大量表达意见的文本，并在情感分析系统的帮助下，这种非结构化信息可以自动转换为结构化数据，即可以捕捉到表达关于产品、服务、品牌、政治或人们可以表达意见的其他主题等。

民宿评论有着时效性强、上下文主题独立、观点明确、篇幅短小、表达随意等特点，现有的顾客意见挖掘方式在如何高效挖掘隐藏于噪声中的顾客观点和情感方面仍存在不足，无法满足实际需求，因此，本发明提出基于字符级卷积神经网络的民宿顾客意见挖掘方法，以解决现有技术中的不足之处。

发明内容

针对上述问题，本发明方法可以从大量带有噪声和虚假的评论数据中挖掘隐藏在这些个性化评论中的情感和用户需求，将有助于企业组织和用户个人的决策行为，同时本发明方法从数据驱动的角度出发，可以挖掘出顾客在各个主题下的满意度情况，结果可为民宿经营者和监管者提供建议，具有很强的通用性，对消费者、经营者和监督者具体一定的实际利用价值。

本发明提出基于字符级卷积神经网络的民宿顾客意见挖掘方法，包括以下步骤：

步骤一：在线民宿评论采集与预处理，构建网络爬虫，采集全部民宿评论建立出民宿字典，然后利用哈工大开源LTP词性标注功能将标点符号利用换行符进行替代，将评论中的主题句进行分解，形成主题评价文本；

步骤二：主题聚类，利用TF-IDF对主题评价文本进行特征提取和向量化之后，使用pyLDAvis对民宿评论进行可视化的主题聚类，得到可视化聚类结果，再按照簇内相似度高，簇间相似度低的主题选取标准选择初始文本文档数k，得到初始模型，再计算各主题t之间的相关性；

步骤三：利用于民宿规范文件和可视化聚类结果辅助构建民宿主题词典；

步骤四：通过属性词匹配的方式找出分句后主题评价文本内对应的评价条数，然后对对应主题的评价条数进行统计；

步骤五：基于朴素贝叶斯的弱监督预分类，通过网络爬虫自动标注部分不具有追评的原评论，假设k为评论的关键词数，j为类别数，评价有两类情感，通过对文本词频向量化的方式计算一个评价的后验概率，输出概率大于0.5，即认为可预分类成功；

步骤六：基于C-CNN-SA的民宿评论情感分析，将字符级的非结构化评论当做原始信号，按照字符进行去重，并按照字符频率进行降序排列建立字符表，通过查询字符表中的的位置ID的方式将评论向量化，并且构建一维卷积核的卷积神经网络进行特征提取，通过 softmax函数输出得到情感极性，通过Keras神经网络工具对本模型的参数进行打印；

步骤七：对一维卷积核的卷积神经网络特征提取后得到情感极性进行情感可视化，对比多个主题下的顾客意见倾向，以对比后的多个主题下的顾客意见倾向进行针对性的改善，以此来提高民宿的整体满意度；

步骤八：验证模型，使用十折交叉验证的模型评估方法，在等同条件下进行10次实验，使用平均测试集准确度、平均精确度、平均召回率和平均F值作为评价指标进行模型有效性的验证。

进一步改进在于：所述步骤二中TF-IDF公式如公式(1)所示：

特征项在一个类别中不同的类别间的分布情况以及特征词的位置因素对文本的区分度，词条出现在文本文档的不同位置时，对区分度的贡献大小是不一样的，利用TF-IDF方法来计算特征词的权重，词w在c_t类中的改进IDF计算公式如公式(2)所示：

公式(1)和公式(2)中，N是总体文本文档数，T为总词条数，其中含有词条t的文本文档数是x，而c_t的文本文档数为y，除c_t外包含词条t的文本文档数为k。

进一步改进在于：所述步骤二中主题相关性计算如公式(3)所示：

relevance(term_w|topic_t)＝λ*p(w|t)+(1-λ)*p(w|t)/p(w) (3)

公式(3)中，某个词语主题的相关性，由λ参数来调节，如果λ 接近1，那么在该主题t下更频繁出现的词w，跟主题t更相关；如果λ 越接近0，那么该主题t下更特殊、更独有的词w，跟主题t更相关, 通过调节λ的大小来改变领域词语term_w跟主题topic_t的相关性。

进一步改进在于：所述步骤二中文本文档数k的取值先参考民宿标准文件，再利用实验通过k＝6为基准，采用依次升高k值的方法，通过减少主体之间的交叉，观察主题不覆盖的最小k值作为主题数，进行对于主题属性词的选择。

进一步改进在于：所述步骤五中输出概率的计算公式如公式(4) 所示：

为了剔除虚假评论，增加情感分析的准确性，使用预分类作为数据清洗，预分类时，使用0和1的标签，分别代表消极和积极，输出概率值大于0.9作为置信度高的积极文本，输出概率小于0.1的作为置信度高的消极文本。

进一步改进在于：所述步骤六中首先参考图像处理中的像素级别处理方案，假设字典的大小为n，通过建立字符表的方式，利用字符的ID将评论进行向量化，然后导入一层Con卷积神经网络进行处理，在输入层利用Embdding层将一个句子所有字符的字符向量进行拼接成一个句子矩阵，使用Pad长度为200来覆盖99％的文本长度，采用 “Pre”首部补0的方法，在文本长度不够的情况下，在前面填充0，并对Embdding层的字符权重进行设置为训练更新，然后使用一维卷积核Convolution1D进行特征提取，通过一层全局最大池化层采样和两层全连接层，最后输出以积极标签的softmax概率值作为情感极性，通过Keras神经网络工具对本模型的参数进行打印。

进一步改进在于：所述步骤六中一个句子所有字符的字符向量为单独的字时，不进行分词处理。

本发明的有益效果为：本发明方法可以从大量带有噪声和虚假的评论数据中挖掘隐藏在这些个性化评论中的情感和用户需求，将有助于企业组织和用户个人的决策行为，同时本发明方法从数据驱动的角度出发，可以挖掘出顾客在各个主题下的满意度情况，结果可为民宿经营者和监管者提供建议，并且通过改进意见挖掘算法，针对民宿语料较少的问题，提出适合于民宿评论的可视化主题抽取和弱监督预训练的情感分析算法，可以实现在线民宿评论的隐含特征主题抽取和情感分析，并通过验证模型可以准确验证模型有效性，本发明方法具有很强的通用性，对消费者、经营者和监督者具体一定的实际利用价值。

附图说明

图1为本发明流程示意图。

图2为本发明LDA概率模型示意图。

图3为本发明方法模型结构示意图。

图4为本发明方法模型参数示意图。

图5为本发明实施例中民宿主题可视化示意图。

图6本发明实施例中各主题评论占比示意图。

图7本发明实施例中服务-情感极性分布示意图。

图8为本发明实施例中各主题下的顾客意见可视化示意图。

图9为本发明实施例中体验-情感极性分布示意图。

图10为本发明实施例中特色-情感极性分布示意图。

图11为本发明实施例中设施-情感极性分布示意图。

图12为本发明实施例中交通-情感极性分布示意图。

图13为本发明实施例中价格-情感极性分布示意图。

图14为本发明实施例中环境-情感极性分布示意图。

图15为本发明实施例中餐饮-情感极性分布示意图。

具体实施方式

为了使发明实现的技术手段、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

根据图1、2、3、4、5、6、7、8所示，本实施例提出基于字符级卷积神经网络的民宿顾客意见挖掘方法，包括以下步骤：

步骤一：在线民宿评论采集与预处理，构建网络爬虫，采集携程重庆民宿板块，采集2016年7月26至2018年7月26日之间所有携程重庆板块全部民宿评论建立出民宿字典，构建的主题属性词为100，评论条数少于100的将影响主题提取，所以本次数据只选取评论用户数大于100的民宿评论和打分，最后整理出的符合条件的语料条数共有81810条，含有无标记的10000条追评。在建立民宿字典之后，利用哈工大开源LTP词性标注功能将标点符号利用换行符进行替代，将评论中的主题句进行分解，形成文本，例如说“老板热情，房间干净整洁，而且客栈在景区内”分解为“老板热情”、“房间干净整洁”、 “而且客栈在景区内”三个主题评价；

步骤二：主题聚类，利用TF-IDF对主题评价文本进行特征提取和向量化之后，使用pyLDAvis对民宿评论进行可视化的主题聚类，得到可视化聚类结果，再按照簇内相似度高，簇间相似度低的主题选取标准选择初始文本文档数k，得到初始模型，再计算各主题t之间的相关性，TF-IDF公式如公式(1)所示：

公式(1)和公式(2)中，N是总体文本文档数，T为总词条数，其中含有词条t的文本文档数是x，而c_t的文本文档数为y，除c_t外包含词条t的文本文档数为k；

主题相关性计算如公式(3)所示：

relevance(term_w|topic_t)＝λ*p(w|t)+(1-λ)*p(w|t)/p(w) (3)

公式(3)中，某个词语主题的相关性，由λ参数来调节，如果λ 接近1，那么在该主题t下更频繁出现的词w，跟主题t更相关；如果λ 越接近0，那么该主题t下更特殊、更独有的词w，跟主题t更相关, 通过调节λ的大小来改变领域词语term_w跟主题topic_t的相关性，图5中左侧的圆圈代表了不同的主题，圆圈之间的距离是每个主题之间的相似度，可以帮助推算在线民宿的顾客意见数目，在选定某一个主题后，右侧面板会相应地显示出跟这个主题最近的词汇，通过总结这些词汇表达的意义，可以归纳出该主题的意思，参考民宿标准文件，利用实验通过K＝6为基准，依次升高K值的方法进行对于主题属性词的选择，当主题数K＝8时各主题交叉较少，分布均匀，效果最好，选择第八个主题，内部包含的主题词有“周边环境”、“电梯”、“床上用品”、“花园”、“桌子”、“马路”等主题词，通过查看“独立”一词后接“卫生间”，通过主题词归纳之后，得出主题8包含的主题有，“环境”、“设施”两个主题，7个主题归纳也是同样的方式进行归纳主题，实现主题对评价的最大覆盖；

借助于民宿规范文件和可视化聚类辅助构建民宿主题词典，构建后的的民宿主题和主题属性词如下表1所示：

表1主题属性词集

通过属性词匹配的方式找出分句后对应的评价条数，对对应主题的评价条数进行统计，发现民宿评论中，顾客意见中对设施、服务、环境、交通、餐饮、特色、价格、体验的关注度依次减弱，其中对价格和体验的评论数较少，具体如下图6所示；

步骤五：基于朴素贝叶斯的弱监督预分类，通过网络爬虫自动标注部分不具有追评的原评论，假设k为评论的关键词数，j为类别数，评价有两类情感，通过对文本词频向量化的方式计算一个评价的后验概率，输出概率大于0.5，即认为可预分类成功，输出概率的计算公式如公式(4)所示：

为了剔除虚假评论，增加情感分析的准确性，使用预分类作为数据清洗，预分类时，使用0和1的标签，分别代表消极和积极，输出概率值大于0.9作为置信度高的积极文本，输出概率小于0.1的作为置信度高的消极文本；

步骤六：基于C-CNN-SA的民宿评论情感分析，将字符级的文本当做原始信号，按照字符进行去重，并按照字符频率进行降序排列建立字符表，通过查询字符表中的的位置ID的方式将评论向量化，并且构建一维卷积核的卷积神经网络进行特征提取，得到情感极性，首先参考图像处理中的像素级别处理方案，输入层(InputLayer)为每句评价的字符向量，输出层使用softmax输出为情感极性，模型结构如图3所示，假设字典的大小为n，通过建立字符表的方式，利用字符的ID将评论进行向量化，然后导入一层Con卷积神经网络进行处理，在输入层(InputLayer)利用Embdding_1层将一个句子所有字符的字符向量进行拼接成一个句子矩阵，通过统计得出：字符矩阵长度为 200来覆盖99％的文本长度(input:200)，对于长度可变的文本采用 “pre”首部补0的方法，在文本长度不够200的情况下，在前面填充0，并对Embdding层的字符权重进行设置为训练更新，然后使用Convolution1D(conv1d_1)进行特征提取，通过一层全局最大池化层采样(GlobalMaxPooling1D)和两层全连接层(dense_1和dense_2)，最后输出以积极标签的softmax概率值作为情感极性，通过Keras神经网络工具对本模型的参数进行打印，具体参数如图4所示，一个句子所有字符的字符向量为单独的字时，不进行分词处理；

图6中，利用横坐标表示对应的主题评价情感倾向，每条评论的情感评分值落在[0,1]之间，横坐标的步长设定在0.01，越靠近1(右部分)代表积极情感越强，越靠近0(左部分)代表消极情感越强，输出概率在中间的位置的时候，可以认为情感为中性，情感值为0，纵坐标表示对应的主题评论条数；

步骤七：对一维卷积核的卷积神经网络特征提取后得到情感极性进行情感可视化，对比多个主题下的顾客意见倾向，以对比后的多个主题下的顾客意见倾向进行针对性的改善，以此来提高民宿的整体满意度，通过汇总统计图6的结果可得出每个主题下的情感趋势分布，形成每个主题下的顾客评论情感极性图，一共8个主题情感趋势图，如图7所示，从主题的民宿顾客情感分析结果来看,可以通过分析得出以下结论：重庆民宿的“服务”、“交通”、“体验”、“环境”、 “价格”等主题评价较高，图像整体向右部分明显倾斜，这与重庆将服务业作为发展战略和“山水之城”的地理位置是分不开的，重庆交通便利，依山而建，近年来旅游指数逐年攀升，吸引大批外来游客来重庆游玩，对民宿的体验感觉新奇，从消费价格来说，重庆处于西南地区，消费较东部地区略低，价格实惠受到顾客的好评，但是对“餐饮”、“特色”、“设施”的情感分析来看，顾客的意见比较强烈，这可能与重庆地区以吃辣为主，来重庆游玩的以外地游客居多，可能对饮食不习惯造成的，一般民宿的位置靠近景点居多，考虑成本问题，在设施上投入较少，顾客对其的意见较大，后期可以通过与景点合作来更新设施，情感极性图只能表示单一主题下的顾客意见倾向，进一步进行分析，按照步长为0.2进行情感可视化，对比多个主题下的顾客意见倾向，横坐标表示评价主题，纵坐标表示情感占比，可以同时对比多个主题的顾客意见，图中显示的情况和单一情感极性一致，顾客对民宿“设施”、“餐饮”的意见比较大，满意度较低，以后可以据此进行针对性的改善，以此来提高民宿的整体满意度，具体如图8所示；

步骤八：验证模型，使用十折交叉验证的模型评估方法，在等同条件下进行10次实验，使用平均测试集准确度、平均精确度、平均召回率和平均F值作为评价指标进行模型有效性的验证，训练集使用 36000经过弱训练器过滤和人工挑选的文本，测试集选用人工标记的12000条评论，使用决策树(DT)、朴素贝叶斯(NB)、支持向量机(SVM) 和RNN(LSTM)四种算法和是否使用弱监督预训练的方式进行对比实验， C-CNN-SA表示本文模型，CNN-W表示不使用弱分类器预分类的字符级 CNN，CNN-N表示使用标准的词级CNN，CNN-S表示使用去停用词后的词级CNN，C-RNN表示使用字符级的LSTM，测评结果如表2所示：

表2模型评测数据表

从表2可以看出，加入预处理步骤后，测试集的精确度提升了 2％，在情感分类上，本发明方法利用改进模型对比传统的词级模型，在分类准确率上有一定的提升，在短文本情感分类下，字符级的粒度准确率高于词级，可由于预料较短的原因，使用停用词过滤可能会丧失文本信息导致分类性能下降，将字符级的文本当做原始的输入信号，直接使用一维的卷积神经网络进行特征提取，在短文本的情况下，可以无需考虑语言的单词层面的意义，这种方式使得情感分析的工程得以简化。

本发明方法可以从大量带有噪声和虚假的评论数据中挖掘隐藏在这些个性化评论中的情感和用户需求，将有助于企业组织和用户个人的决策行为，同时本发明方法从数据驱动的角度出发，可以挖掘出顾客在各个主题下的满意度情况，结果可为民宿经营者和监管者提供建议，并且通过改进意见挖掘算法，针对民宿语料较少的问题，提出适合于民宿评论的可视化主题抽取和弱监督预训练的情感分析算法，可以实现在线民宿评论的隐含特征主题抽取和情感分析，并通过验证模型可以准确验证模型有效性，本发明方法具有很强的通用性，对消费者、经营者和监督者具体一定的实际利用价值。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于字符级卷积神经网络的民宿顾客意见挖掘方法，其特征在于，包括以下步骤：

步骤二：主题聚类，利用TF-IDF公式

对主题评价文本进行特征提取和向量化之后，使用pyLDAvis对民宿评论进行可视化的主题聚类，得到可视化聚类结果，再按照簇内相似度高，簇间相似度低的主题选取标准选择初始文本文档数k，得到初始模型，再计算各主题t之间的相关性；

公式中N是总体文本文档数，T为总词条数，其中含有词条t的文本文档数是x；

步骤六：基于C-CNN-SA的民宿评论情感分析，将字符级的非结构化评论当做原始信号，按照字符进行去重，并按照字符频率进行降序排列建立字符表，通过查询字符表中的位置ID的方式将评论向量化，并且构建一维卷积核的卷积神经网络进行特征提取，通过一层全局最大池化层采样和两层全连接层，最后通过softmax函数输出得到情感极性，通过Keras神经网络工具对本模型的参数进行打印；

2.根据权利要求1所述的基于字符级卷积神经网络的民宿顾客意见挖掘方法，其特征在于：

特征项在一个类别中不同的类别间的分布情况以及特征词的位置因素对文本的区分度，词条出现在文本文档的不同位置时，对区分度的贡献大小是不一样的，利用TF-IDF方法来计算特征词的权重，词w在ct类中的改进IDF计算公式如公式(2)所示：

公式(2)中，N是总体文本文档数，T为总词条数，其中含有词条t的文本文档数是x，而ct的文本文档数为y，除ct外包含词条t的文本文档数为k。

3.根据权利要求1所述的基于字符级卷积神经网络的民宿顾客意见挖掘方法，其特征在于：所述步骤二中主题相关性计算如公式(3)所示：

relevance(term_w|topic_t)＝λ*p(w|t)+(1-λ)*p(w|t)/p(w) (3)

公式(3)中，某个词语主题的相关性，由λ参数来调节，如果λ接近1，那么在该主题t下更频繁出现的词w，跟主题t更相关；如果λ越接近0，那么该主题t下更特殊、更独有的词w，跟主题t更相关,通过调节λ的大小来改变领域词语term_w跟主题topic_t的相关性。

4.根据权利要求1所述的基于字符级卷积神经网络的民宿顾客意见挖掘方法，其特征在于：所述步骤二中文本文档数k的取值先参考民宿标准文件，再利用实验通过k＝6为基准，采用依次升高k值的方法，通过减少主体之间的交叉，观察主题不覆盖的最小k值作为主题数，进行对于主题属性词的选择。

5.根据权利要求1所述的基于字符级卷积神经网络的民宿顾客意见挖掘方法，其特征在于：所述步骤五中输出概率的计算公式如公式(4)所示：

6.根据权利要求1所述的基于字符级卷积神经网络的民宿顾客意见挖掘方法，其特征在于：所述步骤六中首先参考图像处理中的像素级别处理方案，假设字典的大小为n，通过建立字符表的方式，利用字符的ID将评论进行向量化，然后导入一层Con卷积神经网络进行处理，在输入层利用Embdding层将一个句子所有字符的字符向量进行拼接成一个句子矩阵，使用Pad长度为200来覆盖99％的文本长度，采用“Pre”首部补0的方法，在文本长度不够的情况下，在前面填充0，并对Embdding层的字符权重进行设置为训练更新，然后使用一维卷积核Convolution1D进行特征提取，通过一层全局最大池化层采样和两层全连接层，最后输出以积极标签的softmax概率值作为情感极性，通过Keras神经网络工具对本模型的参数进行打印。

7.根据权利要求6所述的基于字符级卷积神经网络的民宿顾客意见挖掘方法，其特征在于：所述步骤六中一个句子所有字符的字符向量为单独的字时，不进行分词处理。