CN112541105A - 一种关键词生成方法、舆情监测方法、装置、设备和介质 - Google Patents
一种关键词生成方法、舆情监测方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN112541105A CN112541105A CN201910929525.6A CN201910929525A CN112541105A CN 112541105 A CN112541105 A CN 112541105A CN 201910929525 A CN201910929525 A CN 201910929525A CN 112541105 A CN112541105 A CN 112541105A
- Authority
- CN
- China
- Prior art keywords
- corpus
- words
- word
- information
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000012544 monitoring process Methods 0.000 title claims abstract description 30
- 230000007613 environmental effect Effects 0.000 claims abstract description 57
- 238000012216 screening Methods 0.000 claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 9
- 230000011218 segmentation Effects 0.000 claims description 22
- 238000003062 neural network model Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 230000002441 reversible effect Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000012806 monitoring device Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 24
- 230000009471 action Effects 0.000 description 12
- 239000003337 fertilizer Substances 0.000 description 12
- 230000004044 response Effects 0.000 description 12
- 239000002351 wastewater Substances 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 239000003344 environmental pollutant Substances 0.000 description 6
- 231100000719 pollutant Toxicity 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000003915 air pollution Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000003912 environmental pollution Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003900 soil pollution Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000003911 water pollution Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于网络监控技术领域,尤其涉及一种关键词生成方法、舆情监测方法、装置、设备和介质。所述方法包括:获取环境语料信息,从所述环境语料信息中提取语料词,得到语料词集合;根据预设的噪音语料词库对所述语料词集合包含的语料词进行筛选,以去除噪音语料词;对去除噪音语料词后的所述语料词集合中的各个语料词进行权重计算,并将权重由高到低的预设数量的语料词集合成关键词集合进行输出。本发明实施例中提供的关键词生成方法能够通过对环境语料信息进行语料词提取分析,自动生成环境舆情相关的关键词,提高关键词生成的速度和全面性,有助于提高环境舆情监测的效率和效果。
Description
技术领域
本发明属于网络监控技术领域,尤其涉及一种关键词生成方法、舆情监测方法、装置、设备和介质。
背景技术
随着信息化的发展和社交网络的兴起,环境污染信息通过微博、网络论坛、微信公众号、自媒体平台等多种渠道在互联网中传播并引起讨论,这类网络舆情表达了民众对环境状况、环境污染、安全监管所产生的关注态度,这在一定程度上拓宽政府了解环境状况与民意的渠道,但也增大了政府网络舆情监测的难度。
关键词通常是一段简短、具有总结性的内容,它能够描述较长文本中的主题信息。高质量的关键词能够为舆情监测系统提供索引信息,为用户提供高度精炼、有价值的信息。关键词的抽取技术是自然语言处理中的一个重要任务,它在信息检索、问答系统、文本摘要、搜索引擎索引等任务上发挥着重要作用。环境领域的关键词可为环境领域的舆情监测提供检索词汇,提高舆情监测精度和效率。目前,传统的关键词生成方法,以领域专家经验为主导,在对概念的遴选上有严格的规范要求,大多是手工编撰,使得关键词更新慢、成本高。由于网络舆情与传统舆情不同,其具有的互动性与即时性更强,用语更加丰富与多元化,情绪化与非理性化更加明显。因而传统的关键词生成方法在面向网络语料时,存在一定局限。
所以,目前主要依靠传统的人为定义环境舆情关键词的方式更新慢、对人的依赖性大,不能够及时的反映网络传播的真实性,不便于环境舆情的监测。
发明内容
本发明实施例的目的在于提供一种关键词生成方法,旨在解决现有技术主要依靠人为定义舆情关键词的方式存在更新慢、依赖性大且不及时的缺点。
本发明实施例是这样实现的,一种关键词生成方法,所述方法包括:
获取环境语料信息,从所述环境语料信息中提取语料词,得到语料词集合;
根据预设的噪音语料词库对所述语料词集合包含的语料词进行筛选,以去除噪音语料词;
对去除噪音语料词后的所述语料词集合中的各个语料词进行权重计算,并将权重由高到低的预设数量的语料词集合成关键词集合进行输出。
本发明实施例的另一目的在于提供一种舆情监测方法,所述方法包括:
获取环境舆情信息,对所述环境舆情信息进行分词处理,确定至少一个舆情语料词;
将所述舆情语料词与预设的关键词集合中的关键词进行比较,若所述舆情语料词中至少一个与所述预设的关键词集合中的关键词相同,则发送报警信息至客户端进行报警,所述预设的关键词集合由执行本发明实施例中的关键词生成方法得到。
本发明实施例的另一目的在于提供一种关键词生成装置,所述装置包括:
语料词提取单元,用于获取环境语料信息,从所述环境语料信息中提取语料词,得到语料词集合;
语料词筛选单元,用于根据预设的噪音语料词库对所述语料词集合包含的语料词进行筛选,以去除噪音语料词;
关键词确定单元,用于对去除噪音语料词后的所述语料词集合中的各个语料词进行权重计算,并将权重由高到低的预设数量的语料词集合成关键词集合进行输出。
本发明实施例的另一目的在于提供一种舆情监测装置,所述装置包括:
信息获取单元,用于获取环境舆情信息,对所述环境舆情信息进行分词处理,确定至少一个舆情语料词;
信息监测单元,用于将所述舆情语料词与预设的关键词集合中的关键词进行比较,若所述舆情语料词中至少一个与所述预设的关键词集合中的关键词相同,则发送报警信息至客户端进行报警,所述预设的关键词集合由执行本发明实施例中的关键词生成方法得到。
本发明实施例的另一目的在于提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行本发明实施例中的关键词生成方法或舆情监测方法的步骤。
本发明实施例的另一目的在于提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行本发明实施例中的关键词生成方法或舆情监测方法的步骤。
本发明实施例提供的一种关键词生成方法,通过对环境语料信息进行语料词的筛选和计算,能够快速地将网络中的环境语料关键词提取出来,提高了关键词生成的速度和准确性,能够实时跟上网络舆情言论更新的速度。
附图说明
图1为本发明实施例提供的关键词生成方法的应用环境图;
图2为本发明实施例提供的关键词生成方法的流程图;
图3为本发明实施例提供的提取语料词的流程图;
图4为本发明实施例提供的去除噪音语料词的流程图;
图5为本发明实施例提供的另一种关键词生成方法的流程图;
图6为本发明实施例提供的舆情监测方法的流程图;
图7为本发明实施例提供的关键词生成装置的结构框图;
图8为本发明实施例提供的语料词提取单元的结构框图;
图9为本发明实施例提供的关键词确定单元的结构框图;
图10为本发明实施例提供的另一种关键词生成装置的结构框图;
图11为本发明实施例提供的舆情监测装置的结构框图;
图12为一个实施例中计算机设备的内部结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
图1为本发明实施例提供的关键词生成方法的应用环境图,如图1所示,在该应用环境中,包括终端110以及计算机设备120。
终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端110以及计算机设备120可以通过网络进行连接,本发明在此不做限制。
计算机设备120可以是独立的物理服务器或终端,也可以是多个物理服务器构成的服务器集群,可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。
在本发明实施例的上述实施环境中,本发明的关键词生成方法应用于其中一个计算机设备120,从终端110和其他计算机设备中获取环境语料数据,通过执行本发明实施例中的关键词生成方法确定关键词。
实施例一
如图2所示,在一个实施例中,提出了一种关键词生成方法,本实施例主要以该方法应用于上述图1中的计算机设备120来举例说明。一种关键词生成方法,具体可以包括以下步骤:
步骤S202,获取环境语料信息,从环境语料信息中捉取语料词,得到语料词集合。
在本发明实施例中,环境语料信息是指与环境领域相关的语料信息,比如环境论坛、环境政务投诉论坛、省市政府的生态环境局局长公开信箱、各级行政单元的12369环境网络举报平台等网络平台公开的环境语料信息,本发明实施例中获取环境语料信息的方式可以是通过网络爬虫技术直接自动从上述举例的网络中爬取获得,具体的实现方式可以是首先在数据库中存放需要获取的语料数据的来源地址,然后爬虫程序通过预先指定的URL地址,然后将搜索到的环境语料信息利用网络爬虫从互联网中爬取下来,存入数据库中,存入数据库中的数据除了语料数据外,还可以包括该语料数据的行为数据,如:语料信息的发布时间、点赞数、转发数、评论数等。另外获取环境语料信息的手段还可以直接通过汇总收集的方式进行,本申请不再进一步陈述。
在一个实施例中,如图3所示,步骤S202具体可以包括以下步骤:
步骤S302,获取环境语料信息,环境语料信息至少包括至少一个语料文本;
步骤S304,对语料文本的文字从左到右和/或从右到左依次与预设词库字典库中的词进行对比,确定语料文本中包含的所有语料词,并生成语料词集合。
在本发明实施例中,对语料文本的文字从左到右依次与预设词库字典库中的词进行对比,具体比如“化肥厂经常排放废水”,将对其切分为“化肥/厂/经常/排放/废水”;而对语料文本的文字从右到左依次与预设词库字典库中的词进行对比,具体比如“化肥厂经常排放废水”,将对其切分为“废水/排放/经常/化肥厂”,从而能够将语料文本中可能包含的语料词均列举出来,有助于完善关键词。
在本发明实施例中,具体还可以是对环境语料信息利用基于字典查找树结构的分词工具进行分词。该工具原理为基于字典查找树结构的词图扫描,生成句子中汉字所有可能成词的情况所构成的有向无环图。采用动态规划查找最大概率路径,找出基于词频的最大切分组合。对整段、整句的中文语料进行分词。例如:“化肥厂经常排放废水”,将对其切分为“化肥厂/经常/排放/废水”。
另外,对于未登录词,即没有被收录在分词词表中但必须切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等等,采用具有汉字成词能力的隐马尔可夫模型进行切分,使用维特比算法对切分结果进行筛选。
步骤S204,根据预设的噪音语料词库对语料词集合包含的语料词进行筛选,以去除噪音语料词。
在一个实施例中,步骤S204具体为:
将语料词集合包含的语料词逐一与预设的噪音语料词库中包含的噪音语料词进行对比,若一致,则将语料词从语料词集合中筛除;预设的噪音语料词库中包含的噪音语料词至少包括停用词和标点符号中的一种或两种的组合。
在本发明实施例中,由于需要将与环境主题无关的噪声信息进行剔除,其目的是为减少噪音对提取结果的影响。具体可以是,首先将分词后语料词中的停用词进行剔除,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词,比如“的、在、地”之类,将预先设定好的噪音语料词库中包含的停用词表载入过滤程序,遍历停用词表。将语料词与停用词表中的停用词进行对比,若语料词存在停用词表中,便将其进行剔除。其次剔除无意义的字符,如:“@”、“#”、“%”。进而剔除一些表情符号与无用的英文。最后得到剔除噪音语料词后纯净的语料词。
步骤S206,对去除噪音语料词后的语料词集合中的各个语料词进行权重计算,并将权重由高到低的预设数量的语料词集合成关键词集合进行输出。
在一个实施例中,如图4所示,步骤S206具体可以包括以下步骤:
步骤S402,根据一个语料词在一个语料文本中出现的次数和在同一语料文本中所有语料词出现的次数之和计算一个语料词的出现频率。
步骤S404,根据环境语料信息中包含语料文本的数量和包含有一个语料词的语料文本的数量,来计算一个语料词的逆向文件频率。
步骤S406,根据一个语料词的出现频率和逆向文件频率计算一个语料词的权重。
步骤S408,将语料词集合中的所有语料词的权重计算之后,将权重由高到低的预设数量的语料词集合成关键词集合进行输出。
在本发明实施例中语料词的出现频率是指词汇在一篇文档中的出现频率的正则化值。具体的,对于语料文本中的关键词而言,语料词的出现频率的计算公式如下:
该式中表示词在语料文本中出现的次数,分母表示语料文本中所有语料词出现次数之和。
在本发明实施例中,语料词的逆向文件频率用于衡量词汇在预设数目文档中的可区分度以及重要性程度。当词汇的逆向文件频率值越大时,则表示该词汇在这些文档中的可区分度越大,且表示该词汇在这些文档中的重要性程度越高,其中,词汇的逆向文件频率值的计算计算公式如下:
该式中代表文档的总数,表示包含词的文档数,分母加一为防止除零的情况出现。
最后,语料文本中词权重的计算方法如下:
在本发明实施例中,环境舆情领域相关的关键词按照词性划分一般由名词与形容词构成,具体还可以利用TF-IDF模型、词频与专家经验结合的方法捉取领域内相关名词和形容词。具体的,首先,将切分好的语料词进行词性划分,将词语重复出现次数高于一定阈值的词定义为高频词,用机器学习的方式提取词组中的高频词;其次,利用TF-IDF模型捉取词语中的低频词或出现次数较少但重要性高的词;最后,筛选出这两类词语中的关键词,组合成关键词集合。
在一个实施例中,如图5所示,一种关键词生成方法,其与图2所示的方法相比,区别在于,还包括步骤S502和步骤S503。
步骤S502,将权重由高到低的预设数量的语料词作为种子语料词输入预设的第一神经网络模型,通过第一神经网络模型计算与种子语料词关联的关联关键词,第一神经网络模型是通过预设的原始预料集对第二神经网络模型中的参数进行训练后得到的;
步骤S503,将与种子语料词关联强度由高到低的预设数量的关联关键词集合到关键词集合进行输出。
在本发明实施例中,第一神经网络模型是通过将预先设置的环境领域语料进行训练一个浅层的神经网络模型得到的,利用该模型训练结果查找与输入关键词关联性高的关键词,具体的为了便于理解,实施例中以“Word2Vec词嵌入模型”为例说明。
Word2Vec模型利用词的上下文信息将一个个词转化成一个低维实数向量,越相似的词在向量空间中越相近。Word2Vec模型利用向量空间表示方法,对文本进行形式化表达,该方法将词或文本映射到n维向量空间内,通过向量之间的运算解释词语之间的关系。传统的词向量空间模型不仅具有“维度灾难”的问题,而且割裂了词语之间的语义关系,在语义表达上具有明显的不足。Word2Vec模型通过语料训练将语料映射到低维高密度的向量空间,不仅解决了传统向量空间的“维度灾难”问题,而且兼顾了词语之间的语义联系,具有较强的语义表示能力。
Word2Vec包含了连续词袋模型(CBOW)和跳字模型(Skip-gram)两种模型,CBOW模型利用词W(t)前后各n(这里n=2)个词去预测当前词,Skip-gram模型利用词W(t)去预测它前后各n个词。
本发明实施例中采用CBOW模型为例,其中输入层是词W(t)的上下文的2n个词向量,投影层向量Xw是这2n个词向量的累加和。输出层是以训练语料库中出现过的词作叶子节点,以各词在语料库中出现的次数作为权值构造出的一颗Huffman树。在这颗Huffman树中,叶子节点共N(=)个,分别对应词典D中的词,非叶子节点N-1个。通过随机梯度上升算法对Xw的结果进行预测,使得P(w|context(w))值最大化,context(w)指词的上下文中的2n个词。当神经网络训练完成时,即可求出所有词的词向量w。基于训练好的神经网络模型,依照相似度算法找出与输入算法在语义上相近的关键词。
进而,在本发明实施例中,将步骤206中的关键词作为种子关键词输入模型,利用训练好模型中的相似度计算算法,计算生成与种子关键词具有强关联性的关键词;该类关键词提供关联性强度系数,词语依据系数大小由高到低进行排序;最后选择预设数量的词语加入关键词集合中。
另外,在本发明实施例中,还可以整合种子关键词与其生成的联想关键词,依据预先设定好的分类体系将关键词集合分类。比如分类体系的划分可以有两级分类体系,第一层级分为事件名称、动作、响应、地点、对象、时间、污染类型、状态、程度副词、结果;第二层级分为动作(受害者动作、受害者感受、污染动作)、响应(政府部门响应与否、响应级别、响应动作、污染者后续回应)、地点(实体地点、方位地点)、对象(受害者、受污染对象、排污者、污染物、管理者)、时间(时刻、时间段、时间跨度)、污染类型(噪声污染、土壤污染、塑料污染、水污染、空气污染)、状态(污染前状态、污染后状态)。进而使得关键词的属性更加清楚。
本发明实施例中提供的一种关键词生成方法,通过获取环境语料信息并对环境语料信息进行关键词的提取以及关键词关联词的计算提取,能够自动并且全面的生成关键词,提高了关键词生成的速度和准确性,能够实时跟上网络舆情言论更新的速度。
实施例二
如图6所示,在一个实施例中,提出了一种舆情监测方法,本实施例主要以该方法应用于上述图1中的计算机设备120来举例说明。一种舆情监测方法,具体可以包括以下步骤:
步骤S602,获取环境舆情信息,对环境舆情信息进行分词处理,确定至少一个舆情语料词;
步骤S604,将舆情语料词与预设的关键词集合中的关键词进行比较,若舆情语料词中至少一个与预设的关键词集合中的关键词相同,则发送报警信息至客户端进行报警,预设的关键词集合由执行本发明实施例一中的关键词生成方法得到。
具体的,在本发明实施例中,以关键词集合中的关键词为索引,以遍历关键词的方式在环境舆情信息中进行搜索,若出现除初始用于搜索的关键词以及出现关键词表中的其余关键词,则进行报警,并且将依据关键词表定义的分类体系对该条信息进行分类,例如信息中污染对象、污染动作、污染时间进行分类,并在环境舆情结果显示模块中进行展示。
本发明实施例中提供的舆情监测方法,通过监测网络环境的环境舆情信息,实时的将其与关键词进行对比,能够实施有效的进行环境舆情监测,提高环境舆情监测的准确度和时效性。
实施例三
如图7所示,在一个实施例中,提供了一种关键词生成装置,该关键词生成装置可以集成于上述的计算机设备120中,具体可以包括:
语料词提取单元710,用于获取环境语料信息,从环境语料信息中提取语料词,得到语料词集合。
在本发明实施例中,环境语料信息是指与环境领域相关的语料信息,比如环境论坛、环境政务投诉论坛、省市政府的生态环境局局长公开信箱、各级行政单元的12369环境网络举报平台等网络平台公开的环境语料信息,本发明实施例中获取环境语料信息的方式可以是通过网络爬虫技术直接自动从上述举例的网络中爬取获得,具体的实现方式可以是首先在数据库中存放需要获取的语料数据的来源地址,然后爬虫程序通过预先指定的URL地址,然后将搜索到的环境语料信息利用网络爬虫从互联网中爬取下来,存入数据库中,存入数据库中的数据除了语料数据外,还可以包括该语料数据的行为数据,如:语料信息的发布时间、点赞数、转发数、评论数等。另外获取环境语料信息的手段还可以直接通过汇总收集的方式进行,本申请不再进一步陈述。
在一个实施例中,如图8所示,语料词提取单元710具体可以包括:
信息获取子单元711,获取环境语料信息,环境语料信息至少包括至少一个语料文本;
语料词提取子单元712,用于对语料文本的文字从左到右和/或从右到左依次与预设词库字典库中的词进行对比,确定语料文本中包含的所有语料词,并生成语料词集合。
在本发明实施例中,对语料文本的文字从左到右依次与预设词库字典库中的词进行对比,具体比如“化肥厂经常排放废水”,将对其切分为“化肥/厂/经常/排放/废水”;而对语料文本的文字从右到左依次与预设词库字典库中的词进行对比,具体比如“化肥厂经常排放废水”,将对其切分为“废水/排放/经常/化肥厂”,从而能够将语料文本中可能包含的语料词均列举出来,有助于完善关键词。
在本发明实施例中,具体还可以是对环境语料信息利用基于字典查找树结构的分词工具进行分词。该工具原理为基于字典查找树结构的词图扫描,生成句子中汉字所有可能成词的情况所构成的有向无环图。采用动态规划查找最大概率路径,找出基于词频的最大切分组合。对整段、整句的中文语料进行分词。例如:“化肥厂经常排放废水”,将对其切分为“化肥厂/经常/排放/废水”。
另外,对于未登录词,即没有被收录在分词词表中但必须切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等等,采用具有汉字成词能力的隐马尔可夫模型进行切分,使用维特比算法对切分结果进行筛选。
语料词筛选单元720,用于根据预设的噪音语料词库对语料词集合包含的语料词进行筛选,以去除噪音语料词。
在一个实施例中,语料词筛选单元720具体用于:
将语料词集合包含的语料词逐一与预设的噪音语料词库中包含的噪音语料词进行对比,若一致,则将语料词从语料词集合中筛除;预设的噪音语料词库中包含的噪音语料词至少包括停用词和标点符号中的一种或两种的组合。
在本发明实施例中,由于需要将与环境主题无关的噪声信息进行剔除,其目的是为减少噪音对提取结果的影响。具体可以是,首先将分词后语料词中的停用词进行剔除,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词,比如“的、在、地”之类,将预先设定好的噪音语料词库中包含的停用词表载入过滤程序,遍历停用词表。将语料词与停用词表中的停用词进行对比,若语料词存在停用词表中,便将其进行剔除。其次剔除无意义的字符,如:“@”、“#”、“%”。进而剔除一些表情符号与无用的英文。最后得到剔除噪音语料词后纯净的语料词。
关键词确定单元730,用于对去除噪音语料词后的语料词集合中的各个语料词进行权重计算,并将权重由高到低的预设数量的语料词集合成关键词集合进行输出。
在一个实施例中,如图9所示,关键词确定单元730具体可以包括:
第一频率计算子单元731,用于根据一个语料词在一个语料文本中出现的次数和在同一语料文本中所有语料词出现的次数之和计算一个语料词的出现频率;
第二频率计算子单元732,用于根据环境语料信息中包含语料文本的数量和包含有一个语料词的语料文本的数量,来计算一个语料词的逆向文件频率;
权重计算子单元733,用于根据一个语料词的出现频率和逆向文件频率计算一个语料词的权重;
语料词集合生成子单元734,用于将语料词集合中的所有语料词的权重计算之后,将权重由高到低的预设数量的语料词集合成关键词集合进行输出。
在本发明实施例中语料词的出现频率是指词汇在一篇文档中的出现频率的正则化值。具体的,对于语料文本中的关键词而言,语料词的出现频率的计算公式如下:
该式中表示词在语料文本中出现的次数,分母表示语料文本中所有语料词出现次数之和。
在本发明实施例中,语料词的逆向文件频率用于衡量词汇在预设数目文档中的可区分度以及重要性程度。当词汇的逆向文件频率值越大时,则表示该词汇在这些文档中的可区分度越大,且表示该词汇在这些文档中的重要性程度越高,其中,词汇的逆向文件频率值的计算计算公式如下:
该式中代表文档的总数,表示包含词的文档数,分母加一为防止除零的情况出现。
最后,语料文本中词权重的计算方法如下:
在本发明实施例中,环境舆情领域相关的关键词按照词性划分一般由名词与形容词构成,具体还可以利用TF-IDF模型、词频与专家经验结合的方法提取领域内相关名词和形容词。具体的,首先,将切分好的语料词进行词性划分,将词语重复出现次数高于一定阈值的词定义为高频词,用机器学习的方式提取词组中的高频词;其次,利用TF-IDF模型提取词语中的低频词或出现次数较少但重要性高的词;最后,筛选出这两类词语中的关键词,组合成关键词集合。
在一个实施例中,如图10所示,一种关键词生成装置,其与图7所示的装置相比,区别在于,还包括关联词生成单元1010和关联词集合生成单元1020,其中:
关联关键词生成单元1010,用于将权重由高到低的预设数量的语料词作为种子语料词输入预设的第一神经网络模型,通过第一神经网络模型计算与种子语料词关联的关联关键词,第一神经网络模型是通过预设的原始预料集对第二神经网络模型中的参数进行训练后得到的;
集合生成单元1020,用于将与种子语料词关联强度由高到低的预设数量的关联关键词集合到关键词集合进行输出。
在本发明实施例中,第一神经网络模型是通过将预先设置的环境领域语料进行训练一个浅层的神经网络模型得到的,利用该模型训练结果查找与输入关键词关联性高的关键词,具体的为了便于理解,实施例中以“Word2Vec词嵌入模型”为例说明。
Word2Vec模型利用词的上下文信息将一个个词转化成一个低维实数向量,越相似的词在向量空间中越相近。Word2Vec模型利用向量空间表示方法,对文本进行形式化表达,该方法将词或文本映射到n维向量空间内,通过向量之间的运算解释词语之间的关系。传统的词向量空间模型不仅具有“维度灾难”的问题,而且割裂了词语之间的语义关系,在语义表达上具有明显的不足。Word2Vec模型通过语料训练将语料映射到低维高密度的向量空间,不仅解决了传统向量空间的“维度灾难”问题,而且兼顾了词语之间的语义联系,具有较强的语义表示能力。
Word2Vec包含了连续词袋模型(CBOW)和跳字模型(Skip-gram)两种模型,CBOW模型利用词W(t)前后各n(这里n=2)个词去预测当前词,Skip-gram模型利用词W(t)去预测它前后各n个词。
本发明实施例中采用CBOW模型为例,其中输入层是词W(t)的上下文的2n个词向量,投影层向量Xw是这2n个词向量的累加和。输出层是以训练语料库中出现过的词作叶子节点,以各词在语料库中出现的次数作为权值构造出的一颗Huffman树。在这颗Huffman树中,叶子节点共N(=)个,分别对应词典D中的词,非叶子节点N-1个。通过随机梯度上升算法对Xw的结果进行预测,使得P(w|context(w))值最大化,context(w)指词的上下文中的2n个词。当神经网络训练完成时,即可求出所有词的词向量w。基于训练好的神经网络模型,依照相似度算法找出与输入算法在语义上相近的关键词。
进而,在本发明实施例中,将步骤206中的关键词作为种子关键词输入模型,利用训练好模型中的相似度计算算法,计算生成与种子关键词具有强关联性的关键词;该类关键词提供关联性强度系数,词语依据系数大小由高到低进行排序;最后选择预设数量的词语加入关键词集合中。
另外,在本发明实施例中,还可以整合种子关键词与其生成的联想关键词,依据预先设定好的分类体系将关键词集合分类。比如分类体系的划分可以有两级分类体系,第一层级分为事件名称、动作、响应、地点、对象、时间、污染类型、状态、程度副词、结果;第二层级分为动作(受害者动作、受害者感受、污染动作)、响应(政府部门响应与否、响应级别、响应动作、污染者后续回应)、地点(实体地点、方位地点)、对象(受害者、受污染对象、排污者、污染物、管理者)、时间(时刻、时间段、时间跨度)、污染类型(噪声污染、土壤污染、塑料污染、水污染、空气污染)、状态(污染前状态、污染后状态)。进而使得关键词的属性更加清楚。
本发明实施例中捉供的一种关键词生成装置,通过获取环境语料信息并对环境语料信息进行关键词的提取以及关键词关联词的计算提取,能够自动并且全面的生成关键词,捉高了关键词生成的速度和准确性,能够实时跟上网络舆情言论更新的速度。
实施例四
如图11所示,在一个实施例中,提供了一种舆情监测装置,装置包括:
信息获取单元1110,用于获取环境舆情信息,对环境舆情信息进行分词处理,确定至少一个舆情语料词;
信息监测单元1120,用于将舆情语料词与预设的关键词集合中的关键词进行比较,若舆情语料词中至少一个与预设的关键词集合中的关键词相同,则发送报警信息至客户端进行报警,预设的关键词集合由执行本发明实施例一中的关键词生成方法得到。
具体的,在本发明实施例中,以关键词集合中的关键词为索引,以遍历关键词的方式在环境舆情信息中进行搜索,若出现除初始用于搜索的关键词以及出现关键词表中的其余关键词,则进行报警,并且将依据关键词表定义的分类体系对该条信息进行分类,例如信息中污染对象、污染动作、污染时间进行分类,并在环境舆情结果显示模块中进行展示。
本发明实施例中提供的舆情监测装置,通过监测网络环境的环境舆情信息,实时的将其与关键词进行对比,能够实施有效的进行环境舆情监测,提高环境舆情监测的准确度和时效性。
实施例五
在一个实施例中,提出了一种计算机设备,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取环境语料信息,从环境语料信息中提取语料词,得到语料词集合;
根据预设的噪音语料词库对语料词集合包含的语料词进行筛选,以去除噪音语料词;
对去除噪音语料词后的语料词集合中的各个语料词进行权重计算,并将权重由高到低的预设数量的语料词集合成关键词集合进行输出。
另外,在本发明的其他实施例中,计算机设备还可以执行以下步骤:
获取环境舆情信息,对环境舆情信息进行分词处理,确定至少一个舆情语料词;
将舆情语料词与预设的关键词集合中的关键词进行比较,若舆情语料词中至少一个与预设的关键词集合中的关键词相同,则发送报警信息至客户端进行报警,预设的关键词集合由执行本发明实施例一中的关键词生成方法得到。
图12示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是独立的物理服务器或终端,也可以是多个物理服务器构成的服务器集群,可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。还可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。如图12所示,该计算机设备包括该计算机设备包括通过系统总线链接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现数据表处理方法和/或搜索方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行数据表处理方法和/或搜索方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
实施例六
在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取环境语料信息,从环境语料信息中提取语料词,得到语料词集合;
根据预设的噪音语料词库对语料词集合包含的语料词进行筛选,以去除噪音语料词;
对去除噪音语料词后的语料词集合中的各个语料词进行权重计算,并将权重由高到低的预设数量的语料词集合成关键词集合进行输出。
另外,在本发明的其他实施例中,计算机程序被处理器执行时,使得处理器还可以执行以下步骤:
获取环境舆情信息,对环境舆情信息进行分词处理,确定至少一个舆情语料词;
将舆情语料词与预设的关键词集合中的关键词进行比较,若舆情语料词中至少一个与预设的关键词集合中的关键词相同,则发送报警信息至客户端进行报警,预设的关键词集合由执行本发明实施例一中的关键词生成方法得到。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所捉供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种关键词生成方法,其特征在于,所述方法包括:
获取环境语料信息,从所述环境语料信息中提取语料词,得到语料词集合;
根据预设的噪音语料词库对所述语料词集合包含的语料词进行筛选,以去除噪音语料词;
对去除噪音语料词后的所述语料词集合中的各个语料词进行权重计算,并将权重由高到低的预设数量的语料词集合成关键词集合进行输出。
2.根据权利要求1所述的关键词生成方法,其特征在于,所述获取环境语料信息,从所述环境语料信息中提取语料词,得到语料词集合,具体包括:
获取环境语料信息,所述环境语料信息至少包括至少一个语料文本;
对所述语料文本的文字从左到右和/或从右到左依次与预设词库字典库中的词进行对比,确定所述语料文本中包含的所有语料词,并生成语料词集合。
3.根据权利要求2所述的关键词生成方法,其特征在于,所述对去除噪音语料词后的所述语料词集合中的语料词进行权重计算,并将权重由高到低的预设数量的语料词构成关键词集合进行输出,具体包括:
根据一个语料词在一个所述语料文本中出现的次数和在同一所述语料文本中所有语料词出现的次数之和计算所述一个语料词的出现频率;
根据所述环境语料信息中包含所述语料文本的数量和包含有所述一个语料词的所述语料文本的数量,来计算所述一个语料词的逆向文件频率;
根据所述一个语料词的所述出现频率和所述逆向文件频率计算所述一个语料词的权重;
将所述语料词集合中的所有语料词的权重计算之后,将权重由高到低的预设数量的语料词集合成关键词集合进行输出。
4.根据权利要求1所述的关键词生成方法,其特征在于,所述根据预设的噪音语料词库对所述语料词集合包含的语料词进行筛选,以去除噪音语料词,具体为:
将所述语料词集合包含的语料词逐一与预设的噪音语料词库中包含的噪音语料词进行对比,若一致,则将所述语料词从所述语料词集合中筛除;所述预设的噪音语料词库中包含的噪音语料词至少包括停用词和标点符号中的一种或两种的组合。
5.根据权利要求1所述的关键词生成方法,其特征在于,所述将所述语料词集合中的所有语料词的权重计算之后,将权重由高到低的预设数量的语料词作为关键词进行输出之前,还包括:
将所述权重由高到低的预设数量的语料词作为种子语料词输入预设的第一神经网络模型,通过所述第一神经网络模型计算与所述种子语料词关联的关联关键词,所述第一神经网络模型是通过预设的原始预料集对第二神经网络模型中的参数进行训练后得到的;
将与所述种子语料词关联强度由高到低的预设数量的关联关键词集合到所述关键词集合进行输出。
6.一种舆情监测方法,其特征在于,所述方法包括:
获取环境舆情信息,对所述环境舆情信息进行分词处理,确定至少一个舆情语料词;
将所述舆情语料词与预设的关键词集合中的关键词进行比较,若所述舆情语料词中至少一个与所述预设的关键词集合中的关键词相同,则发送报警信息至客户端进行报警,所述预设的关键词集合由执行权利要求1~5任一项关键词生成方法得到。
7.一种关键词生成装置,其特征在于,所述装置包括:
语料词提取单元,用于获取环境语料信息,从所述环境语料信息中提取语料词,得到语料词集合;
语料词筛选单元,用于根据预设的噪音语料词库对所述语料词集合包含的语料词进行筛选,以去除噪音语料词;
关键词确定单元,用于对去除噪音语料词后的所述语料词集合中的各个语料词进行权重计算,并将权重由高到低的预设数量的语料词集合成关键词集合进行输出。
8.一种舆情监测装置,其特征在于,所述装置包括:
信息获取单元,用于获取环境舆情信息,对所述环境舆情信息进行分词处理,确定至少一个舆情语料词;
信息监测单元,用于将所述舆情语料词与预设的关键词集合中的关键词进行比较,若所述舆情语料词中至少一个与所述预设的关键词集合中的关键词相同,则发送报警信息至客户端进行报警,所述预设的关键词集合由执行权利要求1~5任一项关键词生成方法得到。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至5中任一项权利要求所述关键词生成方法或权利要求6所述舆情监测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至5中任一项权利要求所述关键词生成方法或权利要求6所述舆情监测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910929525.6A CN112541105A (zh) | 2019-09-20 | 2019-09-20 | 一种关键词生成方法、舆情监测方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910929525.6A CN112541105A (zh) | 2019-09-20 | 2019-09-20 | 一种关键词生成方法、舆情监测方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112541105A true CN112541105A (zh) | 2021-03-23 |
Family
ID=75013161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910929525.6A Pending CN112541105A (zh) | 2019-09-20 | 2019-09-20 | 一种关键词生成方法、舆情监测方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112541105A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761123A (zh) * | 2021-05-21 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 关键词获取的方法、装置、计算设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN107153658A (zh) * | 2016-03-03 | 2017-09-12 | 常州普适信息科技有限公司 | 一种基于关键字加权算法的舆情热词发现方法 |
CN108763213A (zh) * | 2018-05-25 | 2018-11-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 主题特征文本关键词提取方法 |
CN109325165A (zh) * | 2018-08-29 | 2019-02-12 | 中国平安保险(集团)股份有限公司 | 网络舆情分析方法、装置及存储介质 |
CN109472018A (zh) * | 2018-09-26 | 2019-03-15 | 深圳壹账通智能科技有限公司 | 企业舆情监测方法、装置、计算机设备和存储介质 |
-
2019
- 2019-09-20 CN CN201910929525.6A patent/CN112541105A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN107153658A (zh) * | 2016-03-03 | 2017-09-12 | 常州普适信息科技有限公司 | 一种基于关键字加权算法的舆情热词发现方法 |
CN108763213A (zh) * | 2018-05-25 | 2018-11-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 主题特征文本关键词提取方法 |
CN109325165A (zh) * | 2018-08-29 | 2019-02-12 | 中国平安保险(集团)股份有限公司 | 网络舆情分析方法、装置及存储介质 |
CN109472018A (zh) * | 2018-09-26 | 2019-03-15 | 深圳壹账通智能科技有限公司 | 企业舆情监测方法、装置、计算机设备和存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761123A (zh) * | 2021-05-21 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 关键词获取的方法、装置、计算设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844658B (zh) | 一种中文文本知识图谱自动构建方法及系统 | |
CN107066446B (zh) | 一种嵌入逻辑规则的循环神经网络文本情感分析方法 | |
US8868609B2 (en) | Tagging method and apparatus based on structured data set | |
US7983902B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
CN111291195B (zh) | 一种数据处理方法、装置、终端及可读存储介质 | |
CN110750640B (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
US9965726B1 (en) | Adding to a knowledge base using an ontological analysis of unstructured text | |
US20200057807A1 (en) | Systems and methods providing a cognitive augmented memory network | |
US20080052262A1 (en) | Method for personalized named entity recognition | |
CN107229610A (zh) | 一种情感数据的分析方法及装置 | |
CN111950273A (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
CN104765769A (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
CN113094578A (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN110019820B (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN115098706A (zh) | 一种网络信息提取方法及装置 | |
CN116756347B (zh) | 一种基于大数据的语义信息检索方法 | |
CN115795030A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN113515589A (zh) | 数据推荐方法、装置、设备以及介质 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN114547257B (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
Campbell et al. | Content+ context networks for user classification in twitter | |
CN112541105A (zh) | 一种关键词生成方法、舆情监测方法、装置、设备和介质 | |
CN112231513A (zh) | 一种学习视频推荐方法、装置及系统 | |
CN109344397B (zh) | 文本特征词语的提取方法及装置、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |