CN107688651B - 新闻情感方向判断方法、电子设备及计算机可读存储介质 - Google Patents
新闻情感方向判断方法、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN107688651B CN107688651B CN201710775417.9A CN201710775417A CN107688651B CN 107688651 B CN107688651 B CN 107688651B CN 201710775417 A CN201710775417 A CN 201710775417A CN 107688651 B CN107688651 B CN 107688651B
- Authority
- CN
- China
- Prior art keywords
- news
- event
- predicted
- emotion
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
- G06F16/3326—Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种新闻情感方向判断方法,该方法包括步骤:通过预定的机器学习算法,针对待预测新闻进行语义评分,获取该待预测新闻的情感分数;根据预设的事件标签‑事件关键词规则,调整所述预定的机器学习算法获取的该待预测新闻的情感分数;根据调整得到的该待预测新闻的情感分数,确定该待预测新闻的情感方向。本发明可以提升新闻情感方向判断的准确率。
Description
技术领域
本发明涉及计算机信息技术领域,尤其涉及一种新闻情感方向判断方法、电子设备及计算机可读存储介质。
背景技术
在进行新闻语义解析的同时,往往需要关注新闻的情感方向是正面还是负面,以及正负面的程度如何。现有方法通常采用机器学习方法(比如随机森林等算法)对新闻进行分数计算,根据所得分数判断新闻的正负面,这样的结果可能准确度不高、导致不好的客户体验。故,现有技术中的新闻情感方向判断方法设计不够合理,亟需改进。
发明内容
有鉴于此,本发明提出一种新闻情感方向判断方法、电子设备及计算机可读存储介质,通过预设的事件标签命中规则(包括事件关键字或事件正则表达式),对机器学习算法获取的新闻情感分数进行调整,有效提升了新闻情感方向判断的准确率。
首先,为实现上述目的,本发明提出一种新闻情感方向判断方法,该方法应用于电子设备,所述方法包括:
通过预定的机器学习算法,针对待预测新闻进行语义评分,获取该待预测新闻的情感分数;
根据预设的事件标签-事件关键词规则,调整所述预定的机器学习算法获取的该待预测新闻的情感分数;及
根据调整得到的该待预测新闻的情感分数,确定该待预测新闻的情感方向。
优选地,所述事件标签-事件关键词规则设置为第一文件,该第一文件包括用于区分事件类别的事件标签、事件关键词、及每个事件关键词对应的情感分数。
优选地,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数包括:
遍历该待预测新闻的标题和正文;
若从该待预测新闻的标题和正文中识别出所述第一文件中的事件关键词,则将该识别出的事件关键词在所述第一文件中对应的情感分数作为该待预测新闻的最终评分,并将该识别出的事件关键词对应的事件标签作为该待预测新闻的主要经营事件;及
若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,则将所述预定的机器学习算法获取的该待预测新闻的情感分数作为该待预测新闻的最终评分。
优选地,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数还包括:
若从该待预测新闻的标题和正文中识别出所述第一文件中的事件关键词,且该识别出的事件关键词在所述第一文件中对应的情感分数与所述预定的机器学习算法获取的情感分数不在同一分档内,则以该识别出的事件关键词在所述第一文件中对应的情感分数为主要权重,与所述预定的机器学习算法获取的情感分数进行加权计算,得到一个加权分数作为该待预测新闻的最终评分。
优选地,所述加权计算包括:
将该识别出的事件关键词在所述第一文件中对应的情感分数乘以第一预设比例,将所述预定的机器学习算法获取的情感分数乘以第二预设比例;及
将两者的乘积相加得到一个加权分数作为该待预测新闻的最终评分,其中,所述第一预设比例大于第二预设比例,且所述第一预设比例与第二预设比例之和为1。
优选地,该方法还包括:
根据预设的事件标签-事件正则表达式规则,调整所述预定的机器学习算法获取的该待预测新闻的情感分数,其中,所述事件标签-事件正则表达式规则设置为第二文件,该第二文件包括用于区分事件类别的事件标签、事件正则表达式、及每个事件正则表达式对应的情感分数。
优选地,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数包括:
若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则表达式符合的内容,则将该事件正则表达式在所述第二文件中对应的情感分数作为该待预测新闻的最终评分,并将该事件正则表达式对应的事件标签作为该待预测新闻的主要经营事件;及
若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,且没有识别出与所述第二文件中的事件正则表达式符合的内容,则将所述预定的机器学习算法获取的该待预测新闻的情感分数作为该待预测新闻的最终评分。
优选地,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数还包括:
若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则表达式符合的内容,且该事件正则表达式在所述第二文件中对应的情感分数与所述预定的机器学习算法获取的情感分数不在同一分档内,则以该事件正则表达式在所述第二文件中对应的情感分数为主要权重,与所述预定的机器学习算法获取的情感分数进行加权计算,得到一个加权分数作为该待预测新闻的最终评分。
此外,为实现上述目的,本发明还提供一种电子设备,所述电子设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的新闻情感方向判断系统,所述新闻情感方向判断系统被所述处理器执行时,所述处理器执行如上所述的新闻情感方向判断方法的步骤。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有新闻情感方向判断系统,所述新闻情感方向判断系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的新闻情感方向判断方法的步骤。
相较于现有技术,本发明所提出的电子设备、新闻情感方向判断方法及计算机可读存储介质,通过预设的事件标签命中规则(包括事件关键字或事件正则表达式),对机器学习算法(如随机森林算法)获取的新闻情感分数进行调整,相较于传统的只采用随机森林等机器学习算法的新闻情感方向判断方法而言,本发明评分计算的结果准确度更高,覆盖面更广,客户体验更佳。
附图说明
图1是本发明电子设备一可选的硬件架构的示意图;
图2是本发明电子设备中新闻情感方向判断系统一实施例的程序模块示意图;
图3为本发明新闻情感方向判断方法一实施例的实施流程示意图。
附图标记:
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
进一步需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
首先,本发明提出一种电子设备2。
参阅图1所示,是本发明电子设备2一可选的硬件架构的示意图。本实施例中,所述电子设备2可包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23。需要指出的是,图1仅示出了具有组件21-23的电子设备2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,所述电子设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,该电子设备2可以是独立的服务器,也可以是多个服务器所组成的服务器集群。
所述存储器21至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述电子设备2的内部存储单元,例如该电子设备2的硬盘或内存。在另一些实施例中,所述存储器21也可以是所述电子设备2的外部存储设备,例如该电子设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括所述电子设备2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述电子设备2的操作系统和各类应用软件,例如所述新闻情感方向判断系统20的程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子设备2的总体操作,例如执行与所述电子设备2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的新闻情感方向判断系统20等。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述电子设备2与其他电子设备之间建立通信连接。例如,所述网络接口23用于通过网络将所述电子设备2与外部数据平台相连,在所述电子设备2与外部数据平台之间的建立数据传输通道和通信连接。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
至此,己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面,将基于上述应用环境和相关设备,提出本发明的各个实施例。
参阅图2所示,是本发明电子设备2中新闻情感方向判断系统20一实施例的程序模块图。本实施例中,所述的新闻情感方向判断系统20可以被分割成一个或多个程序模块,所述一个或者多个程序模块被存储于所述存储器21中,并由一个或多个处理器(本实施例中为所述处理器22)所执行,以完成本发明。例如,在图2中,所述的新闻情感方向判断系统20可以被分割成评分模块201、调整模块202、以及判断模块203。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述新闻情感方向判断系统20在所述电子设备2中的执行过程。以下将就各程序模块201-203的功能进行详细描述。
所述评分模块201,用于通过预定的机器学习算法,针对待预测新闻进行语义评分,获取该待预测新闻的情感分数。
优选地,在本实施例中,所述预定的机器学习算法可以采用随机森林算法(如开源包weka),其语义评分包括如下步骤:
(1)先人工选择随机森林模型训练集,其中,正面、负面新闻数据内容为每篇新闻的标题;
(2)获取训练集(训练模型)所需中文词向量库(向量库语料可以是开源的维基新闻内容),通过对训练集中的训练样本进行HanLP分词,并用词向量代替分词,对每条训练集数据进行标准化处理;
(3)通过bagging算法选取训练集元组,并经过Radomtree算法训练随机森林模型中的每棵决策树,重复M次,得到M个基分类器;
(4)预测:对于待预测新闻的标题进行向量转换,用上述训练好的基分类器进行预测投票,预测数量最多的类别作为该新闻的类别(如正面类别和负面类别),将预测的指定类别(如类别1)的数量除以决策树的总数量,即为判断的该指定类别(如类别1)的概率p,其中,概率p的取值范围为[0,1],用公式p=2*p-1换算成取值范围为[-1,1],换算后的数值作为该待预测新闻的情感分数。
举例而言,假设待预测新闻A,经过训练模型(假设训练模型有1000棵决策树)预测。
若其中520棵树预测为类别0(代表负面类别),480棵树预测为类别1(代表正面类别),则此种情形下该待预测新闻A的类别是0,对应的情感分数为score=2*(480/1000)-1=-0.04;
若其中520棵树预测为类别1,480棵树预测为类别0,则此种情形下该待预测新闻A的类别是1,对应的情感分数为score=2*(520/1000)-1=0.04。
所述调整模块202,用于根据预设的事件标签-事件关键词规则,调整所述预定的机器学习算法获取的该待预测新闻的情感分数。其中,所述事件标签-事件关键词规则可以设置为第一文件(如第一动态词典),即将所述事件标签-事件关键词规则的具体内容用文件的形式(本实施例为第一文件)进行记录。在本实施例中,该第一文件可以包括如下内容:事件标签(用于区分事件的类别,如发展调整等)、事件关键词(如转型、升级等)、及每个事件关键词对应的情感分数(评分)。
举例而言,所述第一文件可以设置为如下文件A的格式:
在上述文件A中,若从新闻标题中识别到第一行任意一个事件关键词(如“转型”),则该篇新闻的主要经营事件为对应的事件标签(“发展调整”),该篇新闻的情感分数为0.2。
优选地,在本实施例中,可以将事件关键词对应的评分范围设置为[-1,1]。进一步地,可以将该评分范围继续分成若干档的子区间,例如,分成如下四档的子区间:[-1,-0.75),[-0.75,-0.5),[-0.5,-0.04),[-0.04,1],其中,子区间[-1,-0.75)和[-0.75,-0.5)代表重大负面新闻,[-0.5,-0.04)代表一般负面新闻,[-0.04,1]代表正面新闻。同理,所述预定的机器学习算法(如随机森林算法)获取的情感分数范围[-1,1]也可以分成上述四档的子区间。
具体而言,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数包括如下步骤:
遍历该待预测新闻的标题和正文;
若从该待预测新闻的标题和正文中识别出所述第一文件中的事件关键词,则将该识别出的事件关键词在所述第一文件中对应的情感分数作为该待预测新闻的最终评分,并将该识别出的事件关键词对应的事件标签作为该待预测新闻的主要经营事件;
若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,则将所述预定的机器学习算法获取的该待预测新闻的情感分数作为该待预测新闻的最终评分。
优选地,在其它实施例中,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数还包括如下步骤:
若从该待预测新闻的标题和正文中识别出所述第一文件中的事件关键词,且该识别出的事件关键词在所述第一文件中对应的情感分数与所述预定的机器学习算法获取的情感分数不在同一分档内(即同一分档对应的子区间内,如[-0.04,1]),则以该识别出的事件关键词在所述第一文件中对应的情感分数为主要权重,与所述预定的机器学习算法获取的情感分数进行加权计算,得到一个加权分数作为该待预测新闻的最终评分。
具体而言,所述加权计算包括:将该识别出的事件关键词在所述第一文件中对应的情感分数乘以第一预设比例(如60%),将所述预定的机器学习算法获取的情感分数乘以第二预设比例(如40%),然后将两者的乘积相加得到一个加权分数作为该待预测新闻的最终评分。其中,所述第一预设比例大于第二预设比例,且所述第一预设比例与第二预设比例之和为1。
举例而言,若该识别出的事件关键词在所述第一文件中对应的情感分数为0.2(位于分档子区间[-0.04,1]),而所述预定的机器学习算法获取的情感分数为-0.2(位于分档子区间[-0.5,-0.04)),两者显然不在同一分档内,则本发明以0.2评分为主要权重去调整评分。
优选地,在其它实施例中,所述调整模块202还用于:
根据预设的事件标签-事件正则表达式规则,调整所述预定的机器学习算法获取的该待预测新闻的情感分数。其中,所述事件标签-事件正则表达式规则可以设置为第二文件(如第二动态词典),即将所述事件标签-事件正则表达式规则的具体内容用文件的形式(本实施例为第二文件)进行记录。在本实施例中,该第二文件可以包括如下内容:事件标签(用于区分事件的类别,如业绩预增等)、事件正则表达式(根据不同业务经验和相关逻辑进行设定,如下文件B所示)、及每个事件正则表达式对应的情感分数(评分)。
举例而言,所述第二文件可以设置为如下文件B的格式:
在上述文件B中,若从新闻标题中识别出与第一行事件正则表达式符合的内容,则该篇新闻的主要经营事件为对应的事件标签(如“业绩预增”),该篇新闻的情感分数为0.4。
优选地,可以将事件正则表达式对应的评分范围设置为[-1,1]。进一步地,可以将该评分范围继续分成若干档的子区间,例如,分成如下四档的子区间:[-1,-0.75),[-0.75,-0.5),[-0.5,-0.04),[-0.04,1],其中,子区间[-1,-0.75)和[-0.75,-0.5)代表重大负面新闻,[-0.5,-0.04)代表一般负面新闻,[-0.04,1]代表正面新闻。
进一步地,此种情形下,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数还包括如下步骤:
若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则表达式符合的内容,则将该事件正则表达式在所述第二文件中对应的情感分数作为该待预测新闻的最终评分,并将该事件正则表达式对应的事件标签作为该待预测新闻的主要经营事件。
进一步地,此种情形下,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数还包括如下步骤:
若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,且没有识别出与所述第二文件中的事件正则表达式符合的内容,则将所述预定的机器学习算法获取的该待预测新闻的情感分数作为该待预测新闻的最终评分。
进一步地,此种情形下,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数还包括如下步骤:
若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则表达式符合的内容,且该事件正则表达式在所述第二文件中对应的情感分数与所述预定的机器学习算法获取的情感分数不在同一分档内(即同一分档对应的子区间内,如[-0.04,1]),则以该事件正则表达式在所述第二文件中对应的情感分数为主要权重,与所述预定的机器学习算法获取的情感分数进行加权计算,得到一个加权分数作为该待预测新闻的最终评分。
具体而言,所述加权计算包括:将该事件正则表达式在所述第二文件中对应的情感分数乘以第一预设比例(如60%),将所述预定的机器学习算法获取的情感分数乘以第二预设比例(如40%),然后将两者的乘积相加得到一个加权分数作为该待预测新闻的最终评分。其中,所述第一预设比例大于第二预设比例,且所述第一预设比例与第二预设比例之和为1。
举例而言,若该事件正则表达式在所述第二文件中对应的情感分数为0.4(位于分档子区间[-0.04,1]),而所述预定的机器学习算法获取的情感分数为-0.4(位于分档子区间[-0.5,-0.04)),两者显然不在同一分档内,则本发明以0.4评分为主要权重去调整评分。
所述判断模块203,用于根据调整得到的该待预测新闻的情感分数,确定该待预测新闻的情感方向。具体而言,若调整得到的该待预测新闻的情感分数位于第一评分区间(如[-1,-0.04)),则确定该待预测新闻的情感方向为负面;若调整得到的该待预测新闻的情感分数位于第二评分区间(如[-0.04,1]),则确定该待预测新闻的情感方向为正面。
需要说明的是,在其它实施例中,还可以进一步对上述第一评分区间或第二评分区间进行细分。例如,可以将所述第一评分区间[-1,-0.04)进一步划分成子区间[-1,-0.5)和[-0.5,-0.04),其中,子区间[-1,-0.5)代表重大负面新闻,子区间[-0.5,-0.04)代表一般负面新闻。
通过上述程序模块201-203,本发明所提出的新闻情感方向判断系统20,通过预设的事件标签命中规则(包括事件关键字或事件正则表达式),对机器学习算法(如随机森林算法)获取的新闻情感分数进行调整,相较于传统的只采用随机森林等机器学习算法的新闻情感方向判断方法而言,本发明评分计算的结果准确度更高,覆盖面更广,客户体验更佳。
此外,本发明还提出一种新闻情感方向判断方法。
参阅图3所示,是本发明新闻情感方向判断方法一实施例的实施流程示意图。在本实施例中,根据不同的需求,图3所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
步骤S31,通过预定的机器学习算法,针对待预测新闻进行语义评分,获取该待预测新闻的情感分数。
优选地,在本实施例中,所述预定的机器学习算法可以采用随机森林算法(如开源包weka),其语义评分包括如下步骤:
(1)先人工选择随机森林模型训练集,其中,正面、负面新闻数据内容为每篇新闻的标题;
(2)获取训练集(训练模型)所需中文词向量库(向量库语料可以是开源的维基新闻内容),通过对训练集中的训练样本进行HanLP分词,并用词向量代替分词,对每条训练集数据进行标准化处理;
(3)通过bagging算法选取训练集元组,并经过Radomtree算法训练随机森林模型中的每棵决策树,重复M次,得到M个基分类器;
(4)预测:对于待预测新闻的标题进行向量转换,用上述训练好的基分类器进行预测投票,预测数量最多的类别作为该新闻的类别(如正面类别和负面类别),将预测的指定类别(如类别1)的数量除以决策树的总数量,即为判断的该指定类别(如类别1)的概率p,其中,概率p的取值范围为[0,1],用公式p=2*p-1换算成取值范围为[-1,1],换算后的数值作为该待预测新闻的情感分数。
举例而言,假设待预测新闻A,经过训练模型(假设训练模型有1000棵决策树)预测。
若其中520棵树预测为类别0(代表负面类别),480棵树预测为类别1(代表正面类别),则此种情形下该待预测新闻A的类别是0,对应的情感分数为score=2*(480/1000)-1=-0.04;
若其中520棵树预测为类别1,480棵树预测为类别0,则此种情形下该待预测新闻A的类别是1,对应的情感分数为score=2*(520/1000)-1=0.04。
步骤S32,根据预设的事件标签-事件关键词规则,调整所述预定的机器学习算法获取的该待预测新闻的情感分数。其中,所述事件标签-事件关键词规则可以设置为第一文件(如第一动态词典),即将所述事件标签-事件关键词规则的具体内容用文件的形式(本实施例为第一文件)进行记录。在本实施例中,该第一文件可以包括如下内容:事件标签(用于区分事件的类别,如发展调整等)、事件关键词(如转型、升级等)、及每个事件关键词对应的情感分数(评分)。
举例而言,所述第一文件可以设置为如下表格文件A的格式:
在上述文件A中,若从新闻标题中识别到第一行任意一个事件关键词(如“转型”),则该篇新闻的主要经营事件为对应的事件标签(“发展调整”),该篇新闻的情感分数为0.2。
优选地,在本实施例中,可以将事件关键词对应的评分范围设置为[-1,1]。进一步地,可以将该评分范围继续分成若干档的子区间,例如,分成如下四档的子区间:[-1,-0.75),[-0.75,-0.5),[-0.5,-0.04),[-0.04,1],其中,子区间[-1,-0.75)和[-0.75,-0.5)代表重大负面新闻,[-0.5,-0.04)代表一般负面新闻,[-0.04,1]代表正面新闻。同理,所述预定的机器学习算法(如随机森林算法)获取的情感分数范围[-1,1]也可以分成上述四档的子区间。
具体而言,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数包括如下步骤:
遍历该待预测新闻的标题和正文;
若从该待预测新闻的标题和正文中识别出所述第一文件中的事件关键词,则将该识别出的事件关键词在所述第一文件中对应的情感分数作为该待预测新闻的最终评分,并将该识别出的事件关键词对应的事件标签作为该待预测新闻的主要经营事件;
若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,则将所述预定的机器学习算法获取的该待预测新闻的情感分数作为该待预测新闻的最终评分。
优选地,在其它实施例中,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数还包括如下步骤:
若从该待预测新闻的标题和正文中识别出所述第一文件中的事件关键词,且该识别出的事件关键词在所述第一文件中对应的情感分数与所述预定的机器学习算法获取的情感分数不在同一分档内(即同一分档对应的子区间内,如[-0.04,1]),则以该识别出的事件关键词在所述第一文件中对应的情感分数为主要权重,与所述预定的机器学习算法获取的情感分数进行加权计算,得到一个加权分数作为该待预测新闻的最终评分。
具体而言,所述加权计算包括:将该识别出的事件关键词在所述第一文件中对应的情感分数乘以第一预设比例(如60%),将所述预定的机器学习算法获取的情感分数乘以第二预设比例(如40%),然后将两者的乘积相加得到一个加权分数作为该待预测新闻的最终评分。其中,所述第一预设比例大于第二预设比例,且所述第一预设比例与第二预设比例之和为1。
举例而言,若该识别出的事件关键词在所述第一文件中对应的情感分数为0.2(位于分档子区间[-0.04,1]),而所述预定的机器学习算法获取的情感分数为-0.2(位于分档子区间[-0.5,-0.04)),两者显然不在同一分档内,则本发明以0.2评分为主要权重去调整评分。
优选地,在其它实施例中,步骤S32还包括如下步骤:
根据预设的事件标签-事件正则表达式规则,调整所述预定的机器学习算法获取的该待预测新闻的情感分数。其中,所述事件标签-事件正则表达式规则可以设置为第二文件(如第二动态词典),即将所述事件标签-事件正则表达式规则的具体内容用文件的形式(本实施例为第二文件)进行记录。在本实施例中,该第二文件可以包括如下内容:事件标签(用于区分事件的类别,如业绩预增等)、事件正则表达式(根据不同业务经验和相关逻辑进行设定,如下文件B所示)、及每个事件正则表达式对应的情感分数(评分)。
举例而言,所述第二文件可以设置为如下表格文件B的格式:
在上述文件B中,若从新闻标题中识别出与第一行事件正则表达式符合的内容,则该篇新闻的主要经营事件为对应的事件标签(如“业绩预增”),该篇新闻的情感分数为0.4。
优选地,可以将事件正则表达式对应的评分范围设置为[-1,1]。进一步地,可以将该评分范围继续分成若干档的子区间,例如,分成如下四档的子区间:[-1,-0.75),[-0.75,-0.5),[-0.5,-0.04),[-0.04,1],其中,子区间[-1,-0.75)和[-0.75,-0.5)代表重大负面新闻,[-0.5,-0.04)代表一般负面新闻,[-0.04,1]代表正面新闻。
进一步地,此种情形下,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数还包括如下步骤:
若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则表达式符合的内容,则将该事件正则表达式在所述第二文件中对应的情感分数作为该待预测新闻的最终评分,并将该事件正则表达式对应的事件标签作为该待预测新闻的主要经营事件。
进一步地,此种情形下,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数还包括如下步骤:
若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,且没有识别出与所述第二文件中的事件正则表达式符合的内容,则将所述预定的机器学习算法获取的该待预测新闻的情感分数作为该待预测新闻的最终评分。
进一步地,此种情形下,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数还包括如下步骤:
若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则表达式符合的内容,且该事件正则表达式在所述第二文件中对应的情感分数与所述预定的机器学习算法获取的情感分数不在同一分档内(即同一分档对应的子区间内,如[-0.04,1]),则以该事件正则表达式在所述第二文件中对应的情感分数为主要权重,与所述预定的机器学习算法获取的情感分数进行加权计算,得到一个加权分数作为该待预测新闻的最终评分。
具体而言,所述加权计算包括:将该事件正则表达式在所述第二文件中对应的情感分数乘以第一预设比例(如60%),将所述预定的机器学习算法获取的情感分数乘以第二预设比例(如40%),然后将两者的乘积相加得到一个加权分数作为该待预测新闻的最终评分。其中,所述第一预设比例大于第二预设比例,且所述第一预设比例与第二预设比例之和为1。
举例而言,若该事件正则表达式在所述第二文件中对应的情感分数为0.4(位于分档子区间[-0.04,1]),而所述预定的机器学习算法获取的情感分数为-0.4(位于分档子区间[-0.5,-0.04)),两者显然不在同一分档内,则本发明以0.4评分为主要权重去调整评分。
步骤S33,根据调整得到的该待预测新闻的情感分数,确定该待预测新闻的情感方向。具体而言,若调整得到的该待预测新闻的情感分数位于第一评分区间(如[-1,-0.04)),则确定该待预测新闻的情感方向为负面;若调整得到的该待预测新闻的情感分数位于第二评分区间(如[-0.04,1]),则确定该待预测新闻的情感方向为正面。
需要说明的是,在其它实施例中,还可以进一步对上述第一评分区间或第二评分区间进行细分。例如,可以将所述第一评分区间[-1,-0.04)进一步划分成子区间[-1,-0.5)和[-0.5,-0.04),其中,子区间[-1,-0.5)代表重大负面新闻,子区间[-0.5,-0.04)代表一般负面新闻。
通过上述步骤S31-S33,本发明所提出的新闻情感方向判断方法,通过预设的事件标签命中规则(包括事件关键字或事件正则表达式),对机器学习算法(如随机森林算法)获取的新闻情感分数进行调整,相较于传统的只采用随机森林等机器学习算法的新闻情感方向判断方法而言,本发明评分计算的结果准确度更高,覆盖面更广,客户体验更佳。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质(如ROM/RAM、磁碟、光盘),所述计算机可读存储介质存储有新闻情感方向判断系统20,所述新闻情感方向判断系统20可被至少一个处理器22执行,以使所述至少一个处理器22执行如上所述的新闻情感方向判断方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种新闻情感方向判断方法,应用于电子设备,其特征在于,所述方法包括:
通过预定的机器学习算法,针对待预测新闻进行语义评分,获取该待预测新闻的情感分数;
根据预设的事件标签-事件关键词规则,调整所述预定的机器学习算法获取的该待预测新闻的情感分数,所述事件标签-事件关键词规则设置为第一文件,该第一文件包括用于区分事件类别的事件标签、事件关键词、及每个事件关键词对应的情感分数;
或者,根据预设的事件标签-事件正则表达式规则,调整所述预定的机器学习算法获取的该待预测新闻的情感分数,所述事件标签-事件正则表达式规则设置为第二文件,该第二文件包括用于区分事件类别的事件标签、事件正则表达式、及每个事件正则表达式对应的情感分数,将所述事件关键词及事件正则表达式的评分范围设置为预设区间,将所述预设区间分成若干个子区间;及
若调整得到的该待预测新闻的情感分数位于第一评分区间,则确定该待预测新闻的情感方向为负面;若调整得到的该待预测新闻的情感分数位于第二评分区间,则确定该待预测新闻的情感方向为正面。
2.如权利要求1所述的新闻情感方向判断方法,其特征在于,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数包括:
遍历该待预测新闻的标题和正文;
若从该待预测新闻的标题和正文中识别出所述第一文件中的事件关键词,则将该识别出的事件关键词在所述第一文件中对应的情感分数作为该待预测新闻的最终评分,并将该识别出的事件关键词对应的事件标签作为该待预测新闻的主要经营事件;及
若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,则将所述预定的机器学习算法获取的该待预测新闻的情感分数作为该待预测新闻的最终评分。
3.如权利要求2所述的新闻情感方向判断方法,其特征在于,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数还包括:
若从该待预测新闻的标题和正文中识别出所述第一文件中的事件关键词,且该识别出的事件关键词在所述第一文件中对应的情感分数与所述预定的机器学习算法获取的情感分数不在同一分档内,则以该识别出的事件关键词在所述第一文件中对应的情感分数为主要权重,与所述预定的机器学习算法获取的情感分数进行加权计算,得到一个加权分数作为该待预测新闻的最终评分。
4.如权利要求3所述的新闻情感方向判断方法,其特征在于,所述加权计算包括:
将该识别出的事件关键词在所述第一文件中对应的情感分数乘以第一预设比例,将所述预定的机器学习算法获取的情感分数乘以第二预设比例;及
将两者的乘积相加得到一个加权分数作为该待预测新闻的最终评分,其中,所述第一预设比例大于第二预设比例,且所述第一预设比例与第二预设比例之和为1。
5.如权利要求1所述的新闻情感方向判断方法,其特征在于,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数包括:
若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则表达式符合的内容,则将该事件正则表达式在所述第二文件中对应的情感分数作为该待预测新闻的最终评分,并将该事件正则表达式对应的事件标签作为该待预测新闻的主要经营事件;及
若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,且没有识别出与所述第二文件中的事件正则表达式符合的内容,则将所述预定的机器学习算法获取的该待预测新闻的情感分数作为该待预测新闻的最终评分。
6.如权利要求5所述的新闻情感方向判断方法,其特征在于,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数还包括:
若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则表达式符合的内容,且该事件正则表达式在所述第二文件中对应的情感分数与所述预定的机器学习算法获取的情感分数不在同一分档内,则以该事件正则表达式在所述第二文件中对应的情感分数为主要权重,与所述预定的机器学习算法获取的情感分数进行加权计算,得到一个加权分数作为该待预测新闻的最终评分。
7.一种电子设备,其特征在于,所述电子设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的新闻情感方向判断系统,所述新闻情感方向判断系统被所述处理器执行时,所述处理器执行如权利要求1-6中任一项所述的新闻情感方向判断方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有新闻情感方向判断系统,所述新闻情感方向判断系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-6中任一项所述的新闻情感方向判断方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710775417.9A CN107688651B (zh) | 2017-08-31 | 2017-08-31 | 新闻情感方向判断方法、电子设备及计算机可读存储介质 |
PCT/CN2017/108811 WO2019041528A1 (zh) | 2017-08-31 | 2017-10-31 | 新闻情感方向判断方法、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710775417.9A CN107688651B (zh) | 2017-08-31 | 2017-08-31 | 新闻情感方向判断方法、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107688651A CN107688651A (zh) | 2018-02-13 |
CN107688651B true CN107688651B (zh) | 2021-11-16 |
Family
ID=61155954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710775417.9A Active CN107688651B (zh) | 2017-08-31 | 2017-08-31 | 新闻情感方向判断方法、电子设备及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107688651B (zh) |
WO (1) | WO2019041528A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783800B (zh) * | 2018-12-13 | 2024-04-12 | 北京百度网讯科技有限公司 | 情感关键词的获取方法、装置、设备及存储介质 |
CN111428118B (zh) * | 2019-11-08 | 2023-04-11 | 华东理工大学 | 一种检测事件可靠性的方法及电子设备 |
CN111858903A (zh) * | 2020-06-11 | 2020-10-30 | 创新工场(北京)企业管理股份有限公司 | 一种用于负面新闻预警的方法和装置 |
CN113704501B (zh) * | 2021-08-10 | 2024-05-31 | 上海硬通网络科技有限公司 | 应用的标签获取方法、装置、电子设备及存储介质 |
CN114186559B (zh) * | 2021-12-09 | 2022-09-13 | 北京深维智信科技有限公司 | 一种从销售会话中确定会话主体角色标签的方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831184A (zh) * | 2012-08-01 | 2012-12-19 | 中国科学院自动化研究所 | 根据对社会事件的文字描述来预测社会情感的方法及系统 |
CN102929861A (zh) * | 2012-10-22 | 2013-02-13 | 杭州东信北邮信息技术有限公司 | 一种文本情感指数计算方法和系统 |
CN105740228A (zh) * | 2016-01-25 | 2016-07-06 | 云南大学 | 一种互联网舆情分析方法 |
CN106294326A (zh) * | 2016-08-23 | 2017-01-04 | 成都科来软件有限公司 | 一种新闻报道情感倾向分析方法 |
CN106897439A (zh) * | 2017-02-28 | 2017-06-27 | 百度在线网络技术(北京)有限公司 | 文本的情感识别方法、装置、服务器以及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120041953A1 (en) * | 2010-08-16 | 2012-02-16 | Microsoft Corporation | Text mining of microblogs using latent topic labels |
US8311973B1 (en) * | 2011-09-24 | 2012-11-13 | Zadeh Lotfi A | Methods and systems for applications for Z-numbers |
CN102682130B (zh) * | 2012-05-17 | 2013-11-27 | 苏州大学 | 一种文本情感分类方法及系统 |
CN103544321A (zh) * | 2013-11-06 | 2014-01-29 | 北京国双科技有限公司 | 用于微博情感信息的数据处理方法和装置 |
CN103778215B (zh) * | 2014-01-17 | 2016-08-17 | 北京理工大学 | 一种基于情感分析和隐马尔科夫模型融合的股市预测方法 |
CN106202372A (zh) * | 2016-07-08 | 2016-12-07 | 中国电子科技网络信息安全有限公司 | 一种网络文本信息情感分类的方法 |
-
2017
- 2017-08-31 CN CN201710775417.9A patent/CN107688651B/zh active Active
- 2017-10-31 WO PCT/CN2017/108811 patent/WO2019041528A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831184A (zh) * | 2012-08-01 | 2012-12-19 | 中国科学院自动化研究所 | 根据对社会事件的文字描述来预测社会情感的方法及系统 |
CN102929861A (zh) * | 2012-10-22 | 2013-02-13 | 杭州东信北邮信息技术有限公司 | 一种文本情感指数计算方法和系统 |
CN105740228A (zh) * | 2016-01-25 | 2016-07-06 | 云南大学 | 一种互联网舆情分析方法 |
CN106294326A (zh) * | 2016-08-23 | 2017-01-04 | 成都科来软件有限公司 | 一种新闻报道情感倾向分析方法 |
CN106897439A (zh) * | 2017-02-28 | 2017-06-27 | 百度在线网络技术(北京)有限公司 | 文本的情感识别方法、装置、服务器以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019041528A1 (zh) | 2019-03-07 |
CN107688651A (zh) | 2018-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107688651B (zh) | 新闻情感方向判断方法、电子设备及计算机可读存储介质 | |
CN110347835B (zh) | 文本聚类方法、电子装置及存储介质 | |
CN109325165B (zh) | 网络舆情分析方法、装置及存储介质 | |
CN110825949B (zh) | 基于卷积神经网络的信息检索方法、及其相关设备 | |
CN110334209B (zh) | 文本分类方法、装置、介质及电子设备 | |
US9436768B2 (en) | System and method for pushing and distributing promotion content | |
CN111797210A (zh) | 基于用户画像的信息推荐方法、装置、设备及存储介质 | |
CN111368043A (zh) | 基于人工智能的事件问答方法、装置、设备及存储介质 | |
KR20200007969A (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN111737464B (zh) | 文本分类方法、装置和电子设备 | |
KR101472451B1 (ko) | 디지털 콘텐츠 관리 시스템 및 방법 | |
CN110427453B (zh) | 数据的相似度计算方法、装置、计算机设备及存储介质 | |
CN111339166A (zh) | 基于词库的匹配推荐方法、电子装置及存储介质 | |
CN113127621A (zh) | 对话模块的推送方法、装置、设备及存储介质 | |
CN111291551A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN109033082B (zh) | 语义模型的学习训练方法、装置及计算机可读存储介质 | |
CN114817478A (zh) | 基于文本的问答方法、装置、计算机设备及存储介质 | |
CN109753646B (zh) | 一种文章属性识别方法以及电子设备 | |
CN111737607B (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN116644183B (zh) | 文本分类方法、装置及存储介质 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN111767399B (zh) | 一种基于不均衡文本集的情感分类器构建方法、装置、设备和介质 | |
CN111708863B (zh) | 基于doc2vec的文本匹配方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |