Nothing Special   »   [go: up one dir, main page]

CN109829166B - 基于字符级卷积神经网络的民宿顾客意见挖掘方法 - Google Patents

基于字符级卷积神经网络的民宿顾客意见挖掘方法 Download PDF

Info

Publication number
CN109829166B
CN109829166B CN201910117188.0A CN201910117188A CN109829166B CN 109829166 B CN109829166 B CN 109829166B CN 201910117188 A CN201910117188 A CN 201910117188A CN 109829166 B CN109829166 B CN 109829166B
Authority
CN
China
Prior art keywords
character
text
neural network
comments
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910117188.0A
Other languages
English (en)
Other versions
CN109829166A (zh
Inventor
杨有
张振
罗凌
余平
尚晋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Normal University
Original Assignee
Chongqing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Normal University filed Critical Chongqing Normal University
Priority to CN201910117188.0A priority Critical patent/CN109829166B/zh
Publication of CN109829166A publication Critical patent/CN109829166A/zh
Application granted granted Critical
Publication of CN109829166B publication Critical patent/CN109829166B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于字符级卷积神经网络的民宿顾客意见挖掘方法,包括以下步骤:构建网络爬虫,采集全部民宿评论建立出民宿字典、利用TF‑IDF对文本进行特征提取和向量化以及进行可视化的主题聚类、构建民宿主题词典、找出分句后文本内对应的评价条数、基于朴素贝叶斯的弱监督预分类、构建一维卷积核的卷积神经网络进行特征提取,得到情感极性、对感极性进行情感可视化以及验证模型;本发明方法可以从大量带有噪声和虚假的评论数据中挖掘隐藏在这些个性化评论中的情感和用户需求,将有助于企业组织和用户个人的决策行为,同时本发明方法从数据驱动的角度出发,可以挖掘出顾客在各个主题下的满意度情况,结果可为民宿经营者和监管者提供建议。

Description

基于字符级卷积神经网络的民宿顾客意见挖掘方法
技术领域
本发明涉及民宿顾客意见挖掘方法领域,尤其涉及基于字符级卷 积神经网络的民宿顾客意见挖掘方法。
背景技术
顾客意见挖掘是对顾客需求和意见的分析,对顾客评论进行分析 有利于民宿服务的改进和迭代,由于民宿服务的无形性,民宿的在线 评论比其他种类信息来源的影响更大,因此,借助于顾客意见挖掘改 进服务质量,是快速积累竞争优势的关键,主流的顾客意见挖掘方式 有两种,一是针对结构化数据分析,即基于结构化数据,诸如调查问 卷、利克特量表、语义差别量表等,来获得可感知的、有效的属性; 二是针对非结构化数据分析,即通过自然语言处理技术、可视化技术 来分析数据自身的特点,在评论网站,论坛,博客和社交媒体中可以 获得大量表达意见的文本,并在情感分析系统的帮助下,这种非结构 化信息可以自动转换为结构化数据,即可以捕捉到表达关于产品、服 务、品牌、政治或人们可以表达意见的其他主题等。
民宿评论有着时效性强、上下文主题独立、观点明确、篇幅短小、 表达随意等特点,现有的顾客意见挖掘方式在如何高效挖掘隐藏于噪 声中的顾客观点和情感方面仍存在不足,无法满足实际需求,因此, 本发明提出基于字符级卷积神经网络的民宿顾客意见挖掘方法,以解 决现有技术中的不足之处。
发明内容
针对上述问题,本发明方法可以从大量带有噪声和虚假的评论数 据中挖掘隐藏在这些个性化评论中的情感和用户需求,将有助于企业 组织和用户个人的决策行为,同时本发明方法从数据驱动的角度出发, 可以挖掘出顾客在各个主题下的满意度情况,结果可为民宿经营者和 监管者提供建议,具有很强的通用性,对消费者、经营者和监督者具 体一定的实际利用价值。
本发明提出基于字符级卷积神经网络的民宿顾客意见挖掘方法, 包括以下步骤:
步骤一:在线民宿评论采集与预处理,构建网络爬虫,采集全部 民宿评论建立出民宿字典,然后利用哈工大开源LTP词性标注功能将 标点符号利用换行符进行替代,将评论中的主题句进行分解,形成主 题评价文本;
步骤二:主题聚类,利用TF-IDF对主题评价文本进行特征提取 和向量化之后,使用pyLDAvis对民宿评论进行可视化的主题聚类, 得到可视化聚类结果,再按照簇内相似度高,簇间相似度低的主题选 取标准选择初始文本文档数k,得到初始模型,再计算各主题t之间 的相关性;
步骤三:利用于民宿规范文件和可视化聚类结果辅助构建民宿主 题词典;
步骤四:通过属性词匹配的方式找出分句后主题评价文本内对应 的评价条数,然后对对应主题的评价条数进行统计;
步骤五:基于朴素贝叶斯的弱监督预分类,通过网络爬虫自动标 注部分不具有追评的原评论,假设k为评论的关键词数,j为类别数, 评价有两类情感,通过对文本词频向量化的方式计算一个评价的后验 概率,输出概率大于0.5,即认为可预分类成功;
步骤六:基于C-CNN-SA的民宿评论情感分析,将字符级的非结 构化评论当做原始信号,按照字符进行去重,并按照字符频率进行降 序排列建立字符表,通过查询字符表中的的位置ID的方式将评论向 量化,并且构建一维卷积核的卷积神经网络进行特征提取,通过 softmax函数输出得到情感极性,通过Keras神经网络工具对本模型 的参数进行打印;
步骤七:对一维卷积核的卷积神经网络特征提取后得到情感极性 进行情感可视化,对比多个主题下的顾客意见倾向,以对比后的多个 主题下的顾客意见倾向进行针对性的改善,以此来提高民宿的整体满 意度;
步骤八:验证模型,使用十折交叉验证的模型评估方法,在等同 条件下进行10次实验,使用平均测试集准确度、平均精确度、平均 召回率和平均F值作为评价指标进行模型有效性的验证。
进一步改进在于:所述步骤二中TF-IDF公式如公式(1)所示:
Figure BDA0001970585230000031
特征项在一个类别中不同的类别间的分布情况以及特征词的位 置因素对文本的区分度,词条出现在文本文档的不同位置时,对区分 度的贡献大小是不一样的,利用TF-IDF方法来计算特征词的权重, 词w在ct类中的改进IDF计算公式如公式(2)所示:
Figure BDA0001970585230000041
公式(1)和公式(2)中,N是总体文本文档数,T为总词条数, 其中含有词条t的文本文档数是x,而ct的文本文档数为y,除ct外包 含词条t的文本文档数为k。
进一步改进在于:所述步骤二中主题相关性计算如公式(3)所 示:
relevance(term_w|topic_t)=λ*p(w|t)+(1-λ)*p(w|t)/p(w) (3)
公式(3)中,某个词语主题的相关性,由λ参数来调节,如果λ 接近1,那么在该主题t下更频繁出现的词w,跟主题t更相关;如果λ 越接近0,那么该主题t下更特殊、更独有的词w,跟主题t更相关, 通过调节λ的大小来改变领域词语term_w跟主题topic_t的相关性。
进一步改进在于:所述步骤二中文本文档数k的取值先参考民宿 标准文件,再利用实验通过k=6为基准,采用依次升高k值的方法, 通过减少主体之间的交叉,观察主题不覆盖的最小k值作为主题数, 进行对于主题属性词的选择。
进一步改进在于:所述步骤五中输出概率的计算公式如公式(4) 所示:
Figure BDA0001970585230000042
为了剔除虚假评论,增加情感分析的准确性,使用预分类作为数 据清洗,预分类时,使用0和1的标签,分别代表消极和积极,输出 概率值大于0.9作为置信度高的积极文本,输出概率小于0.1的作为 置信度高的消极文本。
进一步改进在于:所述步骤六中首先参考图像处理中的像素级别 处理方案,假设字典的大小为n,通过建立字符表的方式,利用字符 的ID将评论进行向量化,然后导入一层Con卷积神经网络进行处理, 在输入层利用Embdding层将一个句子所有字符的字符向量进行拼接 成一个句子矩阵,使用Pad长度为200来覆盖99%的文本长度,采用 “Pre”首部补0的方法,在文本长度不够的情况下,在前面填充0, 并对Embdding层的字符权重进行设置为训练更新,然后使用一维卷 积核Convolution1D进行特征提取,通过一层全局最大池化层采样和 两层全连接层,最后输出以积极标签的softmax概率值作为情感极性, 通过Keras神经网络工具对本模型的参数进行打印。
进一步改进在于:所述步骤六中一个句子所有字符的字符向量为 单独的字时,不进行分词处理。
本发明的有益效果为:本发明方法可以从大量带有噪声和虚假的 评论数据中挖掘隐藏在这些个性化评论中的情感和用户需求,将有助 于企业组织和用户个人的决策行为,同时本发明方法从数据驱动的角 度出发,可以挖掘出顾客在各个主题下的满意度情况,结果可为民宿 经营者和监管者提供建议,并且通过改进意见挖掘算法,针对民宿语 料较少的问题,提出适合于民宿评论的可视化主题抽取和弱监督预训 练的情感分析算法,可以实现在线民宿评论的隐含特征主题抽取和情 感分析,并通过验证模型可以准确验证模型有效性,本发明方法具有 很强的通用性,对消费者、经营者和监督者具体一定的实际利用价值。
附图说明
图1为本发明流程示意图。
图2为本发明LDA概率模型示意图。
图3为本发明方法模型结构示意图。
图4为本发明方法模型参数示意图。
图5为本发明实施例中民宿主题可视化示意图。
图6本发明实施例中各主题评论占比示意图。
图7本发明实施例中服务-情感极性分布示意图。
图8为本发明实施例中各主题下的顾客意见可视化示意图。
图9为本发明实施例中体验-情感极性分布示意图。
图10为本发明实施例中特色-情感极性分布示意图。
图11为本发明实施例中设施-情感极性分布示意图。
图12为本发明实施例中交通-情感极性分布示意图。
图13为本发明实施例中价格-情感极性分布示意图。
图14为本发明实施例中环境-情感极性分布示意图。
图15为本发明实施例中餐饮-情感极性分布示意图。
具体实施方式
为了使发明实现的技术手段、达成目的与功效易于明白了解,下 面结合具体实施方式,进一步阐述本发明。
根据图1、2、3、4、5、6、7、8所示,本实施例提出基于字符 级卷积神经网络的民宿顾客意见挖掘方法,包括以下步骤:
步骤一:在线民宿评论采集与预处理,构建网络爬虫,采集携程 重庆民宿板块,采集2016年7月26至2018年7月26日之间所有携 程重庆板块全部民宿评论建立出民宿字典,构建的主题属性词为100, 评论条数少于100的将影响主题提取,所以本次数据只选取评论用户 数大于100的民宿评论和打分,最后整理出的符合条件的语料条数共 有81810条,含有无标记的10000条追评。在建立民宿字典之后,利 用哈工大开源LTP词性标注功能将标点符号利用换行符进行替代,将 评论中的主题句进行分解,形成文本,例如说“老板热情,房间干净 整洁,而且客栈在景区内”分解为“老板热情”、“房间干净整洁”、 “而且客栈在景区内”三个主题评价;
步骤二:主题聚类,利用TF-IDF对主题评价文本进行特征提取 和向量化之后,使用pyLDAvis对民宿评论进行可视化的主题聚类, 得到可视化聚类结果,再按照簇内相似度高,簇间相似度低的主题选 取标准选择初始文本文档数k,得到初始模型,再计算各主题t之间 的相关性,TF-IDF公式如公式(1)所示:
Figure BDA0001970585230000071
特征项在一个类别中不同的类别间的分布情况以及特征词的位 置因素对文本的区分度,词条出现在文本文档的不同位置时,对区分 度的贡献大小是不一样的,利用TF-IDF方法来计算特征词的权重, 词w在ct类中的改进IDF计算公式如公式(2)所示:
Figure BDA0001970585230000072
公式(1)和公式(2)中,N是总体文本文档数,T为总词条数, 其中含有词条t的文本文档数是x,而ct的文本文档数为y,除ct外包 含词条t的文本文档数为k;
主题相关性计算如公式(3)所示:
relevance(term_w|topic_t)=λ*p(w|t)+(1-λ)*p(w|t)/p(w) (3)
公式(3)中,某个词语主题的相关性,由λ参数来调节,如果λ 接近1,那么在该主题t下更频繁出现的词w,跟主题t更相关;如果λ 越接近0,那么该主题t下更特殊、更独有的词w,跟主题t更相关, 通过调节λ的大小来改变领域词语term_w跟主题topic_t的相关性,图5中左侧的圆圈代表了不同的主题,圆圈之间的距离是每个主题之间 的相似度,可以帮助推算在线民宿的顾客意见数目,在选定某一个主 题后,右侧面板会相应地显示出跟这个主题最近的词汇,通过总结这 些词汇表达的意义,可以归纳出该主题的意思,参考民宿标准文件, 利用实验通过K=6为基准,依次升高K值的方法进行对于主题属性词 的选择,当主题数K=8时各主题交叉较少,分布均匀,效果最好,选 择第八个主题,内部包含的主题词有“周边环境”、“电梯”、“床 上用品”、“花园”、“桌子”、“马路”等主题词,通过查看“独 立”一词后接“卫生间”,通过主题词归纳之后,得出主题8包含的 主题有,“环境”、“设施”两个主题,7个主题归纳也是同样的方 式进行归纳主题,实现主题对评价的最大覆盖;
借助于民宿规范文件和可视化聚类辅助构建民宿主题词典,构建 后的的民宿主题和主题属性词如下表1所示:
表1主题属性词集
Figure BDA0001970585230000081
通过属性词匹配的方式找出分句后对应的评价条数,对对应主题 的评价条数进行统计,发现民宿评论中,顾客意见中对设施、服务、 环境、交通、餐饮、特色、价格、体验的关注度依次减弱,其中对价 格和体验的评论数较少,具体如下图6所示;
步骤三:利用于民宿规范文件和可视化聚类结果辅助构建民宿主 题词典;
步骤四:通过属性词匹配的方式找出分句后主题评价文本内对应 的评价条数,然后对对应主题的评价条数进行统计;
步骤五:基于朴素贝叶斯的弱监督预分类,通过网络爬虫自动标 注部分不具有追评的原评论,假设k为评论的关键词数,j为类别数, 评价有两类情感,通过对文本词频向量化的方式计算一个评价的后验 概率,输出概率大于0.5,即认为可预分类成功,输出概率的计算公 式如公式(4)所示:
Figure BDA0001970585230000091
为了剔除虚假评论,增加情感分析的准确性,使用预分类作为数 据清洗,预分类时,使用0和1的标签,分别代表消极和积极,输出 概率值大于0.9作为置信度高的积极文本,输出概率小于0.1的作为 置信度高的消极文本;
步骤六:基于C-CNN-SA的民宿评论情感分析,将字符级的文本 当做原始信号,按照字符进行去重,并按照字符频率进行降序排列建 立字符表,通过查询字符表中的的位置ID的方式将评论向量化,并 且构建一维卷积核的卷积神经网络进行特征提取,得到情感极性,首 先参考图像处理中的像素级别处理方案,输入层(InputLayer)为每句 评价的字符向量,输出层使用softmax输出为情感极性,模型结构如 图3所示,假设字典的大小为n,通过建立字符表的方式,利用字符 的ID将评论进行向量化,然后导入一层Con卷积神经网络进行处理, 在输入层(InputLayer)利用Embdding_1层将一个句子所有字符的字 符向量进行拼接成一个句子矩阵,通过统计得出:字符矩阵长度为 200来覆盖99%的文本长度(input:200),对于长度可变的文本采用 “pre”首部补0的方法,在文本长度不够200的情况下,在前面填 充0,并对Embdding层的字符权重进行设置为训练更新,然后使用Convolution1D(conv1d_1)进行特征提取,通过一层全局最大池化层 采样(GlobalMaxPooling1D)和两层全连接层(dense_1和dense_2), 最后输出以积极标签的softmax概率值作为情感极性,通过Keras神 经网络工具对本模型的参数进行打印,具体参数如图4所示,一个句 子所有字符的字符向量为单独的字时,不进行分词处理;
图6中,利用横坐标表示对应的主题评价情感倾向,每条评论的 情感评分值落在[0,1]之间,横坐标的步长设定在0.01,越靠近1(右 部分)代表积极情感越强,越靠近0(左部分)代表消极情感越强, 输出概率在中间的位置的时候,可以认为情感为中性,情感值为0, 纵坐标表示对应的主题评论条数;
步骤七:对一维卷积核的卷积神经网络特征提取后得到情感极性 进行情感可视化,对比多个主题下的顾客意见倾向,以对比后的多个 主题下的顾客意见倾向进行针对性的改善,以此来提高民宿的整体满 意度,通过汇总统计图6的结果可得出每个主题下的情感趋势分布, 形成每个主题下的顾客评论情感极性图,一共8个主题情感趋势图, 如图7所示,从主题的民宿顾客情感分析结果来看,可以通过分析得 出以下结论:重庆民宿的“服务”、“交通”、“体验”、“环境”、 “价格”等主题评价较高,图像整体向右部分明显倾斜,这与重庆将 服务业作为发展战略和“山水之城”的地理位置是分不开的,重庆交 通便利,依山而建,近年来旅游指数逐年攀升,吸引大批外来游客来 重庆游玩,对民宿的体验感觉新奇,从消费价格来说,重庆处于西南 地区,消费较东部地区略低,价格实惠受到顾客的好评,但是对“餐 饮”、“特色”、“设施”的情感分析来看,顾客的意见比较强烈, 这可能与重庆地区以吃辣为主,来重庆游玩的以外地游客居多,可能 对饮食不习惯造成的,一般民宿的位置靠近景点居多,考虑成本问题, 在设施上投入较少,顾客对其的意见较大,后期可以通过与景点合作 来更新设施,情感极性图只能表示单一主题下的顾客意见倾向,进一 步进行分析,按照步长为0.2进行情感可视化,对比多个主题下的顾 客意见倾向,横坐标表示评价主题,纵坐标表示情感占比,可以同时 对比多个主题的顾客意见,图中显示的情况和单一情感极性一致,顾 客对民宿“设施”、“餐饮”的意见比较大,满意度较低,以后可以据 此进行针对性的改善,以此来提高民宿的整体满意度,具体如图8所 示;
步骤八:验证模型,使用十折交叉验证的模型评估方法,在等同 条件下进行10次实验,使用平均测试集准确度、平均精确度、平均 召回率和平均F值作为评价指标进行模型有效性的验证,训练集使用 36000经过弱训练器过滤和人工挑选的文本,测试集选用人工标记的12000条评论,使用决策树(DT)、朴素贝叶斯(NB)、支持向量机(SVM) 和RNN(LSTM)四种算法和是否使用弱监督预训练的方式进行对比实验, C-CNN-SA表示本文模型,CNN-W表示不使用弱分类器预分类的字符级 CNN,CNN-N表示使用标准的词级CNN,CNN-S表示使用去停用词后的 词级CNN,C-RNN表示使用字符级的LSTM,测评结果如表2所示:
表2模型评测数据表
Figure BDA0001970585230000121
从表2可以看出,加入预处理步骤后,测试集的精确度提升了 2%,在情感分类上,本发明方法利用改进模型对比传统的词级模型, 在分类准确率上有一定的提升,在短文本情感分类下,字符级的粒度 准确率高于词级,可由于预料较短的原因,使用停用词过滤可能会丧 失文本信息导致分类性能下降,将字符级的文本当做原始的输入信号, 直接使用一维的卷积神经网络进行特征提取,在短文本的情况下,可 以无需考虑语言的单词层面的意义,这种方式使得情感分析的工程得 以简化。
本发明方法可以从大量带有噪声和虚假的评论数据中挖掘隐藏 在这些个性化评论中的情感和用户需求,将有助于企业组织和用户个 人的决策行为,同时本发明方法从数据驱动的角度出发,可以挖掘出 顾客在各个主题下的满意度情况,结果可为民宿经营者和监管者提供 建议,并且通过改进意见挖掘算法,针对民宿语料较少的问题,提出 适合于民宿评论的可视化主题抽取和弱监督预训练的情感分析算法, 可以实现在线民宿评论的隐含特征主题抽取和情感分析,并通过验证 模型可以准确验证模型有效性,本发明方法具有很强的通用性,对消 费者、经营者和监督者具体一定的实际利用价值。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业 的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和 说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围 的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要 求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及 其等效物界定。

Claims (7)

1.基于字符级卷积神经网络的民宿顾客意见挖掘方法,其特征在于,包括以下步骤:
步骤一:在线民宿评论采集与预处理,构建网络爬虫,采集全部民宿评论建立出民宿字典,然后利用哈工大开源LTP词性标注功能将标点符号利用换行符进行替代,将评论中的主题句进行分解,形成主题评价文本;
步骤二:主题聚类,利用TF-IDF公式
Figure DEST_PATH_IMAGE001
对主题评价文本进行特征提取和向量化之后,使用pyLDAvis对民宿评论进行可视化的主题聚类,得到可视化聚类结果,再按照簇内相似度高,簇间相似度低的主题选取标准选择初始文本文档数k,得到初始模型,再计算各主题t之间的相关性;
公式中N是总体文本文档数,T为总词条数,其中含有词条t的文本文档数是x;
步骤三:利用于民宿规范文件和可视化聚类结果辅助构建民宿主题词典;
步骤四:通过属性词匹配的方式找出分句后主题评价文本内对应的评价条数,然后对对应主题的评价条数进行统计;
步骤五:基于朴素贝叶斯的弱监督预分类,通过网络爬虫自动标注部分不具有追评的原评论,假设k为评论的关键词数,j为类别数,评价有两类情感,通过对文本词频向量化的方式计算一个评价的后验概率,输出概率大于0.5,即认为可预分类成功;
步骤六:基于C-CNN-SA的民宿评论情感分析,将字符级的非结构化评论当做原始信号,按照字符进行去重,并按照字符频率进行降序排列建立字符表,通过查询字符表中的位置ID的方式将评论向量化,并且构建一维卷积核的卷积神经网络进行特征提取,通过一层全局最大池化层采样和两层全连接层,最后通过softmax函数输出得到情感极性,通过Keras神经网络工具对本模型的参数进行打印;
步骤七:对一维卷积核的卷积神经网络特征提取后得到情感极性进行情感可视化,对比多个主题下的顾客意见倾向,以对比后的多个主题下的顾客意见倾向进行针对性的改善,以此来提高民宿的整体满意度;
步骤八:验证模型,使用十折交叉验证的模型评估方法,在等同条件下进行10次实验,使用平均测试集准确度、平均精确度、平均召回率和平均F值作为评价指标进行模型有效性的验证。
2.根据权利要求1所述的基于字符级卷积神经网络的民宿顾客意见挖掘方法,其特征在于:
特征项在一个类别中不同的类别间的分布情况以及特征词的位置因素对文本的区分度,词条出现在文本文档的不同位置时,对区分度的贡献大小是不一样的,利用TF-IDF方法来计算特征词的权重,词w在ct类中的改进IDF计算公式如公式(2)所示:
Figure DEST_PATH_IMAGE002
公式(2)中,N是总体文本文档数,T为总词条数,其中含有词条t的文本文档数是x,而ct的文本文档数为y,除ct外包含词条t的文本文档数为k。
3.根据权利要求1所述的基于字符级卷积神经网络的民宿顾客意见挖掘方法,其特征在于:所述步骤二中主题相关性计算如公式(3)所示:
relevance(term_w|topic_t)=λ*p(w|t)+(1-λ)*p(w|t)/p(w) (3)
公式(3)中,某个词语主题的相关性,由λ参数来调节,如果λ接近1,那么在该主题t下更频繁出现的词w,跟主题t更相关;如果λ越接近0,那么该主题t下更特殊、更独有的词w,跟主题t更相关,通过调节λ的大小来改变领域词语term_w跟主题topic_t的相关性。
4.根据权利要求1所述的基于字符级卷积神经网络的民宿顾客意见挖掘方法,其特征在于:所述步骤二中文本文档数k的取值先参考民宿标准文件,再利用实验通过k=6为基准,采用依次升高k值的方法,通过减少主体之间的交叉,观察主题不覆盖的最小k值作为主题数,进行对于主题属性词的选择。
5.根据权利要求1所述的基于字符级卷积神经网络的民宿顾客意见挖掘方法,其特征在于:所述步骤五中输出概率的计算公式如公式(4)所示:
Figure DEST_PATH_IMAGE003
为了剔除虚假评论,增加情感分析的准确性,使用预分类作为数据清洗,预分类时,使用0和1的标签,分别代表消极和积极,输出概率值大于0.9作为置信度高的积极文本,输出概率小于0.1的作为置信度高的消极文本。
6.根据权利要求1所述的基于字符级卷积神经网络的民宿顾客意见挖掘方法,其特征在于:所述步骤六中首先参考图像处理中的像素级别处理方案,假设字典的大小为n,通过建立字符表的方式,利用字符的ID将评论进行向量化,然后导入一层Con卷积神经网络进行处理,在输入层利用Embdding层将一个句子所有字符的字符向量进行拼接成一个句子矩阵,使用Pad长度为200来覆盖99%的文本长度,采用“Pre”首部补0的方法,在文本长度不够的情况下,在前面填充0,并对Embdding层的字符权重进行设置为训练更新,然后使用一维卷积核Convolution1D进行特征提取,通过一层全局最大池化层采样和两层全连接层,最后输出以积极标签的softmax概率值作为情感极性,通过Keras神经网络工具对本模型的参数进行打印。
7.根据权利要求6所述的基于字符级卷积神经网络的民宿顾客意见挖掘方法,其特征在于:所述步骤六中一个句子所有字符的字符向量为单独的字时,不进行分词处理。
CN201910117188.0A 2019-02-15 2019-02-15 基于字符级卷积神经网络的民宿顾客意见挖掘方法 Active CN109829166B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910117188.0A CN109829166B (zh) 2019-02-15 2019-02-15 基于字符级卷积神经网络的民宿顾客意见挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910117188.0A CN109829166B (zh) 2019-02-15 2019-02-15 基于字符级卷积神经网络的民宿顾客意见挖掘方法

Publications (2)

Publication Number Publication Date
CN109829166A CN109829166A (zh) 2019-05-31
CN109829166B true CN109829166B (zh) 2022-12-27

Family

ID=66862072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910117188.0A Active CN109829166B (zh) 2019-02-15 2019-02-15 基于字符级卷积神经网络的民宿顾客意见挖掘方法

Country Status (1)

Country Link
CN (1) CN109829166B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347828B (zh) * 2019-06-26 2022-03-15 西南交通大学 一种地铁乘客需求动态获取方法及其获取系统
CN110688451A (zh) * 2019-08-15 2020-01-14 中国平安人寿保险股份有限公司 评价信息处理方法、装置、计算机设备及存储介质
CN110838287B (zh) * 2019-10-16 2022-04-19 中国第一汽车股份有限公司 车载环境下聊天机器人的语料处理方法、装置及存储介质
CN111027553A (zh) * 2019-12-23 2020-04-17 武汉唯理科技有限公司 一种圆形印章文字识别方法
CN111159409B (zh) * 2019-12-31 2023-06-02 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法、装置、设备、介质
CN111309859B (zh) * 2020-01-21 2023-07-07 上饶市中科院云计算中心大数据研究院 一种景区网络口碑情感分析方法及装置
CN111445271A (zh) * 2020-03-31 2020-07-24 携程计算机技术(上海)有限公司 模型生成方法、作弊酒店的预测方法、系统、设备和介质
CN112070856B (zh) * 2020-09-16 2022-08-26 重庆师范大学 基于非下采样轮廓波变换的有限角c型臂ct图像重建方法
CN112784776B (zh) * 2021-01-26 2022-07-08 山西三友和智慧信息技术股份有限公司 一种基于改进残差网络的bpd面部情绪识别方法
CN113778454B (zh) * 2021-09-22 2024-02-20 重庆海云捷迅科技有限公司 一种人工智能实验平台的自动评测方法及系统
CN114038451A (zh) * 2021-11-08 2022-02-11 平安普惠企业管理有限公司 对话数据的质检方法、装置、计算机设备及存储介质
CN116385029B (zh) * 2023-04-20 2024-01-30 深圳市天下房仓科技有限公司 酒店刷单检测方法、系统、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038480A (zh) * 2017-05-12 2017-08-11 东华大学 一种基于卷积神经网络的文本情感分类方法
CN107391483A (zh) * 2017-07-13 2017-11-24 武汉大学 一种基于卷积神经网络的商品评论数据情感分类方法
CN108345587A (zh) * 2018-02-14 2018-07-31 广州大学 一种评论的真实性检测方法与系统
CN109033089A (zh) * 2018-09-06 2018-12-18 北京京东尚科信息技术有限公司 情感分析方法和装置
CN109308317A (zh) * 2018-09-07 2019-02-05 浪潮软件股份有限公司 一种基于聚类的非结构化文本的热点词提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038480A (zh) * 2017-05-12 2017-08-11 东华大学 一种基于卷积神经网络的文本情感分类方法
CN107391483A (zh) * 2017-07-13 2017-11-24 武汉大学 一种基于卷积神经网络的商品评论数据情感分类方法
CN108345587A (zh) * 2018-02-14 2018-07-31 广州大学 一种评论的真实性检测方法与系统
CN109033089A (zh) * 2018-09-06 2018-12-18 北京京东尚科信息技术有限公司 情感分析方法和装置
CN109308317A (zh) * 2018-09-07 2019-02-05 浪潮软件股份有限公司 一种基于聚类的非结构化文本的热点词提取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Sentiment Analysis on a Set of Movie Reviews Using Deep Learning Techniques;Koyel Chakraborty等;《Social Network Analytics:Computational Research Methods and Techniques》;20181231;全文 *
基于朴素贝叶斯网页分类的用户行为推衍;秦鹏等;《沈阳工业大学学报》;20180131(第01期);全文 *
基于深度学习的中文影评情感分析;周敬一等;《上海大学学报(自然科学版)》;20181031(第05期);全文 *

Also Published As

Publication number Publication date
CN109829166A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
Sharif et al. Sentiment analysis of Bengali texts on online restaurant reviews using multinomial Naïve Bayes
Zheng et al. Identifying unreliable online hospitality reviews with biased user-given ratings: A deep learning forecasting approach
CN112905739B (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN104820629A (zh) 一种智能的舆情突发事件应急处理系统及方法
CN110390018A (zh) 一种基于lstm的社交网络评论生成方法
CN101599071A (zh) 对话文本主题的自动提取方法
CN106649760A (zh) 基于深度问答的提问型搜索词搜索方法及装置
CN106354845A (zh) 基于传播结构的微博谣言识别方法和系统
CN101520802A (zh) 一种问答对的质量评价方法和系统
CN103177024A (zh) 一种话题信息展现方法和装置
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN108614855A (zh) 一种谣言识别方法
Lalata et al. A sentiment analysis model for faculty comment evaluation using ensemble machine learning algorithms
CN105740382A (zh) 一种对短评论文本进行方面分类方法
Tang et al. Evaluation of Chinese sentiment analysis APIs based on online reviews
Abid et al. Semi-automatic classification and duplicate detection from human loss news corpus
Asha et al. Fake news detection using n-gram analysis and machine learning algorithms
CN110781300B (zh) 基于百度百科知识图谱的旅游资源文化特色评分算法
CN115329085A (zh) 一种社交机器人分类方法及系统
CN110569495A (zh) 一种基于用户评论的情感倾向分类方法、装置及存储介质
Nguyen et al. Analyzing customer experience in hotel services using topic modeling
CN113220964A (zh) 一种基于网信领域短文本的观点挖掘方法
CN117217801A (zh) 基于游客真实评价的景区优化方案智能生成方法及系统
CN109408808A (zh) 一种文艺作品的评估方法及评估系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant