CN105022840B - 一种新闻信息处理方法、新闻推荐方法和相关装置 - Google Patents
一种新闻信息处理方法、新闻推荐方法和相关装置 Download PDFInfo
- Publication number
- CN105022840B CN105022840B CN201510509331.2A CN201510509331A CN105022840B CN 105022840 B CN105022840 B CN 105022840B CN 201510509331 A CN201510509331 A CN 201510509331A CN 105022840 B CN105022840 B CN 105022840B
- Authority
- CN
- China
- Prior art keywords
- news
- word
- vector
- user
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000010365 information processing Effects 0.000 title claims abstract description 25
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 278
- 230000011218 segmentation Effects 0.000 claims abstract description 35
- 238000004364 calculation method Methods 0.000 claims abstract description 32
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种新闻信息处理方法、新闻推荐方法和相关装置。方法包括:获取新闻的文字内容;对新闻的文字内容进行分词处理,获得多个字词;计算每个字词的词向量;计算每个字词的tfidf值;分别以每个字词的tfidf值为权重,将新闻的所有词向量累加求和,计算得到新闻的特征向量;利用文本聚类方法,将计算得到的所有新闻的特征向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇;将得到的所有类簇以及每个类簇的中心向量存储在数据库中。本发明实现了将相似度较高的新闻分为一个类簇,并将每个类簇存储于数据库中。那么当需要推荐新闻时,本发明可以将该新闻对应的类簇中的其他新闻推荐给用户。
Description
技术领域
本发明涉及新闻信息处理技术领域,更具体地说,涉及一种新闻信息处理方法、新闻推荐方法和相关装置。
背景技术
新闻推荐是指用户在浏览某个新闻时或浏览完新闻后,系统自动给用户推荐出与用户当前浏览的新闻的内容相关或相似的其他新闻。
目前现有技术中的新闻推荐方法主要包括以下两种:
一种为基于当前新闻内容中的关键词来推荐其他新闻,另一种为根据当前新闻内容中字词出现的频率来生成空间向量模型,依据空间向量模型来计算新闻间的相似度,进而推荐与当前新闻内容相似的其他新闻。
然而本发明的发明人对上述现有新闻推荐方法进行研究后发现,对于第一种基于当前新闻内容中的关键词来推荐其他新闻的方法,由于有些关键词具有多种含义,例如“苹果”既表示手机,也表示一种水果,那么当用户浏览完与“苹果”手机相关的新闻后,系统可能会继续为用户推荐与“苹果”水果有关的其他新闻,此时推荐的新闻内容大多情况下不是用户需要的内容,新闻推荐准确性降低。而对于现有技术中第二种新闻推荐方法,当新闻数量较大时,例如有10000篇新闻时,预处理掉噪声词汇之后,大概还会生成几十万个字词,对于这几十万个字词来生成空间向量模型,该生成的空间向量模型的维度即为几十万,那么在基于该几十万维度的空间向量模型下计算新闻相似度时,计算相当复杂、耗时高。
基于上述内容,现有技术的方案均无法准确和高效的为用户实现新闻推荐
发明内容
有鉴于此,本发明提供一种新闻信息处理方法、新闻推荐方法和相关装置,以保证高效、准确地为用户实现新闻推荐。技术方案如下:
基于本发明的一方面,本发明提供一种新闻信息处理方法,包括:
获取新闻的文字内容;
对所述新闻的文字内容进行分词处理,获得多个字词;
计算每个字词的词向量;
计算每个字词的词频-逆文档频tfidf值;
分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和,计算得到所述新闻的特征向量;
利用文本聚类方法,将计算得到的所有新闻的特征向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇,每个类簇包括一中心向量;
将得到的所有类簇以及每个类簇的中心向量存储在数据库中;
当需要为用户推荐新闻时,检测用户当前浏览的新闻的正文内容,并从所述数据库中查找是否存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量;如果有,将与所述特征向量相对应的类簇中的其他新闻推荐给用户。
优选地,所述利用分词器对所述新闻的文字内容进行分词处理后,所述获取多个字词前,所述方法还包括:
将分词处理后得到的所有字词进行预处理,删除垃圾字词。
优选地,所述计算每个字词的词向量包括:
利用word2vec工具计算每个字词的词向量。
优选地,所述计算每个字词的tfidf值包括:
利用tfidf算法计算每个字词的tfidf值。
优选地,文本聚类方法具体为kmeans聚类方法。
基于本发明的另一方面,本发明提供一种新闻推荐方法,其特征在于,基于前述权利要求任一项所述的新闻信息处理方法,已知每个字词的词向量和词频-逆文档频tfidf值,所述新闻推荐方法包括:
检测用户当前浏览的新闻的正文内容;
判断数据库中是否存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量;
如果有,在所述数据库中查找与所述特征向量相对应的类簇;其中每个类簇包括一中心向量;
将所述类簇中的其他新闻推荐给用户。
优选地,如果没有,对所述用户当前浏览的新闻的文字内容进行分词处理,获得多个字词;
分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和,计算得到所述新闻的特征向量;
依据所述特征向量以及各个类簇的中心向量,确定与所述特征向量的距离值不大于第一预设距离值的中心向量;
将确定的中心向量对应的类簇中的新闻推荐给用户。
优选地,还包括:
当确定出与所述特征向量的距离值不大于第一预设距离值的多个中心向量时;
依据所述特征向量以及所述多个中心向量分别对应的类簇中的多个候选新闻的特征向量,计算所述特征向量分别与各个候选新闻的特征向量间的距离值,将距离值不大于第二预设距离值的候选新闻推荐给用户。
优选地,计算所述特征向量与各个类簇的中心向量的距离值包括:利用余弦相似性算法计算所述特征向量与各个类簇的中心向量的距离值;
计算所述特征向量与各个候选新闻的特征向量间的距离值包括:利用余弦相似性算法计算所述特征向量与各个候选新闻的特征向量间的距离值。
基于本发明的再一方面,本发明提供一种新闻信息处理装置,包括:
第一文字内容获取单元,用于获取新闻的文字内容;
分词单元,用于对所述新闻的文字内容进行分词处理,获得多个字词;
第一计算单元,用于计算每个字词的词向量;
第二计算单元,用于计算每个字词的词频-逆文档频tfidf值;
第三计算单元,用于分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和,计算得到所述新闻的特征向量;
聚类分组单元,用于利用文本聚类方法,将计算得到的所有新闻的特征向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇,每个类簇包括一中心向量;
存储单元,用于将得到的所有类簇以及每个类簇的中心向量存储在数据库中;
第一检测单元,用于检测用户当前浏览的新闻的正文内容;
第一查找单元,用于从所述数据库中查找是否存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量;
第一新闻推荐单元,用于当所述第一查找单元从所述数据库中查找到存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量,将与所述特征向量相对应的类簇中的其他新闻推荐给用户。
优选地,所述分词单元包括:
预处理子单元,用于将所述分词处理后得到的所有字词进行预处理,删除垃圾字词。
优选地,所述第一计算单元具体用于,利用word2vec工具计算每个字词的词向量;
所述第二计算单元具体用于,利用tfidf算法计算每个字词的tfidf值;
所述第三计算单元具体用于,利用kmeans聚类方法将计算得到的所有新闻内容的特征向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇,每个类簇包括一中心向量。
基于本发明的再一方面,本发明提供一种新闻推荐装置,其特征在于,基于前述权利要求任一项所述的新闻信息处理装置,已知每个字词的词向量和词频-逆文档频tfidf值,所述新闻推荐装置包括:
第二检测单元,用于检测用户当前浏览的新闻的正文内容;
判断单元,用于判断数据库中是否存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量;
第二查找单元,用于当所述判断单元判断数据库中存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量时,在所述数据库中查找与所述特征向量相对应的类簇;其中每个类簇包括一中心向量;
第二新闻推荐单元,用于将所述类簇中的其他新闻推荐给用户。
优选地,还包括:
第二文字内容获取单元,用于当所述判断单元判断数据库中未存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量时,对所述用户当前浏览的新闻的文字内容进行分词处理,获得多个字词;
第四计算单元,用于分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和,计算得到所述新闻的特征向量;
第五计算单元,用于依据所述特征向量以及各个类簇的中心向量,计算确定与所述特征向量的距离值不大于第一预设距离值的中心向量;
第三新闻推荐单元,用于将确定的中心向量对应的类簇中的新闻推荐给用户。
优选地,还包括:
第六计算单元,用于当所述第五计算单元确定出与所述特征向量的距离值不大于第一预设距离值的多个中心向量时,依据所述特征向量以及所述多个中心向量分别对应的类簇中的多个候选新闻的特征向量,计算所述特征向量分别与各个候选新闻的特征向量间的距离值;
第四新闻推荐单元,用于将距离值不大于第二预设距离值的候选新闻推荐给用户。
应用本发明的上述技术方案,本发明提供的新闻信息处理方法包括:获取新闻的文字内容;对所述新闻的文字内容进行分词处理,获得多个字词;计算每个字词的词向量;计算每个字词的tfidf(词频-逆文档频)值;分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和,计算得到所述新闻的特征向量;利用文本聚类方法,将计算得到的所有新闻的特征向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇,每个类簇包括一中心向量。由此可见,本发明实现了对所有新闻的特征向量的计算,并通过特征向量的聚类计算实现了新闻的分组,即将相似度较高的新闻分为一个类簇,并将每个类簇存储于数据库中。那么当用户浏览新闻时或浏览完新闻后,本发明可以依据用户当前浏览的新闻的正文内容,在数据库中查找该新闻对应的类簇,进而将类簇中的其他新闻推荐给用户。由于每个类簇中的新闻间都具有很高的相似度,因此保证了新闻推荐的准确性。同时本发明提供的新闻信息处理方法中涉及的对字词的处理,以及对特征向量的聚类计算等步骤相比于现有技术中基于空间向量模型计算新闻相似度的方法,本发明的计算方法简单,效率更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种新闻信息处理方法的一种流程图;
图2为本发明提供的一种新闻推荐方法的一种流程图;
图3为本发明提供的一种新闻信息处理装置的结构示意图;
图4为本发明提供的一种新闻推荐装置的结构示意图;
图5为本发明提供的一种新闻推荐装置的另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明提供的一种新闻信息处理方法的一种流程图,包括:
步骤101,获取新闻的文字内容。
在实际应用过程中,服务器包括一新闻稿件库,该新闻稿件库用于存储各种新闻。具体在本发明中,本发明会依次获取新闻稿件库中存储的各个新闻,并依次采用本发明提供的新闻信息处理方法进行处理。为了便于描述,本发明以处理一条新闻为例进行说明,对于对其他新闻的处理方式同本实施例描述的处理方式相同,不做进行详细论述。
在本实施例中,首先从新闻稿件库中任意选取一条新闻,获取该新闻的文字内容。
步骤102,对所述新闻的文字内容进行分词处理,获得多个字词。
具体地,本实施例可以利用分词器对新闻的文字内容进行分词处理,获得多个字词。
通常,经过分词处理后得到的字词不仅包括例如“苹果”、“手机”、“电脑”等关键词,还包括标点符号、“的”、“是”等其他无特殊意义的字词。本发明为了提高字词的处理效率,步骤102在对所述新闻的文字内容进行分词处理后,还可进一步包括,将分词处理后得到的所有字词进行预处理,删除垃圾字词。其中垃圾字词即指标点符号、“的”、“是”等其他无特殊意义的字词。
步骤103,计算每个字词的词向量。
具体地,本实施例利用word2vec工具计算每个字词的词向量。例如计算“中国”的词向量为[0.121 0.321 0.334 0.584 0.837],本发明利用计算得到的一组向量值来表示一个字词。
在本实施例中,本发明只是示例性地利用[0.121 0.321 0.334 0.584 0.837]这五个数字构成的向量来表示“中国”,而在实际应用时,通常每个字词的词向量都是由200个数字组成。
作为较优的,本发明在计算得到某个字词,如字词A的词向量后,便将该字词A的词向量进行保存。当后续在需要计算该字词A的词向量,例如本篇新闻的文字内容中出现多次字词A需要计算词向量,或在计算其他新闻的文字内容时,出现字词A需要计算词向量时,本发明无需再去重新计算字词A的词向量,而可以直接通过查找存储的字词A的词向量,来直接获知字词A的词向量,大大节省了服务器的处理时间,提高了服务器的处理效率。
步骤104,计算每个字词的tfidf值。
具体地,本实施例利用tfidf算法计算每个字词的tfidf值。
在本发明中,每个字词的tfidf值的大小反应了该字词对新闻的贡献度的大小,tfidf值越大表示该字词越有意义。
同理作为较优的,本发明在计算得到某个字词,如字词A的tfidf值后,也可将该字词A的tfidf值进行保存。当后续在需要计算该字词A的tfidf值时,直接通过查找存储的字词A的tfidf值,来直接获知字词A的tfidf值,大大节省了服务器的处理时间,提高了服务器的处理效率。
步骤105,分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和,计算得到所述新闻的特征向量。
具体地,本实施例将获得的字词的tfidf值与之对应的词向量相乘,进而将所有字词相乘后的结果累加求和,计算得到新闻的特征向量。例如,经过步骤103计算得到雅虎的词向量为[0.1 0.1 0.1 0.1],副总裁的词向量为[0.2 0.2 0.20.2],张晨的词向量为[0.30.3 0.3 0.3],京东的词向量为[0.4 0.4 0.4 0.4],同时,经过步骤104计算得到雅虎的tfidf值为0.8,副总裁的tfidf值为0.2,张晨的tfidf值为0.5,京东的tfidf值为0.9,那么本实施例步骤105,分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和,计算得到所述新闻的特征向量具体为:0.8*[0.1 0.1 0.1 0.1]+0.2*[0.2 0.2 0.2 0.2]+0.5*[0.3 0.3 0.30.3]+0.9*[0.4 0.4 0.4 0.4]=[0.63 0.63 0.63 0.63],即该新闻的特征向量为[0.630.63 0.63 0.63]。
步骤106,利用文本聚类方法,将计算得到的所有新闻的特征向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇,每个类簇包括一中心向量。
具体地,本实施例利用kmeans聚类方法将计算得到的所有新闻的特征向量进行聚类计算,从而实现对不同新闻的分组。其中每一组新闻称之为一个类簇,每个类簇包括一中心向量。
步骤107,将得到的所有类簇以及每个类簇的中心向量存储在数据库中。
本实施例中的数据库可以具体为redis数据库。
经过本实施例上述步骤101-107的处理,本发明实现了对新闻稿件库中的每一条新闻的处理,通过分别计算每条新闻的特征向量,进一步实现了将不同新闻分组存储的目的。
因此,当需要为用户推荐新闻时,例如用户浏览新闻中或浏览完新闻后,检测用户当前浏览的新闻的正文内容,并从所述数据库中查找是否存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量;如果有,依据该特征向量即可确定所述用户当前浏览的新闻归属的类簇,进而将该类簇中的其他新闻推荐给用户。
因此应用本发明的上述技术方案,本发明提供的新闻信息处理方法包括:获取新闻的文字内容;对所述新闻的文字内容进行分词处理,获得多个字词;计算每个字词的词向量;计算每个字词的tfidf值;分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和,计算得到所述新闻的特征向量;利用文本聚类方法,将计算得到的所有新闻的特征向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇,每个类簇包括一中心向量。由此可见,本发明实现了对所有新闻的特征向量的计算,并通过特征向量的聚类计算实现了新闻的分组,即将相似度较高的新闻分为一个类簇,并将每个类簇存储于数据库中。那么当用户浏览新闻时或浏览完新闻后,本发明可以依据用户当前浏览的新闻的正文内容,在数据库中查找该新闻对应的类簇,进而将类簇中的其他新闻推荐给用户。由于每个类簇中的新闻间都具有很高的相似度,因此保证了新闻推荐的准确性。同时本发明提供的新闻信息处理方法中涉及的对字词的处理,以及对特征向量的聚类计算等步骤相比于现有技术中基于空间向量模型计算新闻相似度的方法,本发明的计算方法简单,效率更高。
基于本发明前文提供的一种新闻信息处理方法,本发明还提供一种新闻推荐方法,在本发明具体实现新闻推荐方法时,本发明已知每个字词的词向量和tfidf值,所述新闻推荐方法如图2所示,具体包括:
步骤201,检测用户当前浏览的新闻的正文内容。
步骤202,判断数据库中是否存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量。如果有,执行步骤203,如果没有,执行步骤205。
步骤203,在所述数据库中查找与所述特征向量相对应的类簇。
在前述实施例提供的新闻信息处理方法中,数据库中存储了不同类簇,每个类簇包括多个相似度很高的新闻,且每个类簇包括一中心向量。同时,数据库中还存储了每个新闻与特征向量间的对应关系,例如新闻A对应特征向量a,新闻B对应特征向量b,那么本实施例在检测到用户当前浏览的新闻的正文内容后,可以依据该新闻的正文内容查找与所述新闻的正文内容相对应的特征向量,当查找到与所述新闻的正文内容相对应的特征向量时,即可确定该新闻归属的类簇。
步骤204,将所述类簇中的其他新闻推荐给用户。
步骤205,对所述用户当前浏览的新闻的文字内容进行分词处理,获得多个字词。
步骤206,分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和,计算得到所述新闻的特征向量。
因为本发明服务器会将计算每个字词得到的词向量和tfidf值进行保存,那么当服务器需要计算该新闻的特征向量时,可直接利用已知的词向量和tfidf值进行计算。
当然,如果该新闻的文字内容中包括服务器中未保存的字词的词向量和tfidf值,例如出现了新兴词汇,本发明还会去计算该未保存的字词的词向量和tfidf值,进而计算该新闻的特征向量。
步骤207,依据所述特征向量以及各个类簇的中心向量,确定与所述特征向量的距离值不大于第一预设距离值的中心向量。
当判断数据库中未存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量时,表明用户当前查看的新闻为最近刚刚更新的一件新新闻,此时服务器需要采用步骤205-步骤206的实现方法对该新闻进行处理,计算得到该新闻的特征向量。
当计算得到该新闻的特征向量后,依据所述特征向量以及各个类簇的中心向量,计算所述特征向量与各个类簇的中心向量间的距离值,较优的,本实施例利用余弦相似性算法计算所述特征向量与各个类簇的中心向量的距离值,进而确定出与所述特征向量的距离值不大于第一预设距离值的中心向量。本实施例中较优的,优先确定出与所述特征向量的距离值最小的三个中心向量,即确定出与所述特征向量距离最近的三个类簇。
其中,第一预设距离值可实际需求灵活设定。
步骤208,将确定的中心向量对应的类簇中的新闻推荐给用户。
在确定出与所述特征向量的距离值不大于第一预设距离值的中心向量后,将该确定的中心向量对应的类簇中的新闻推荐给用户。
此外较优的,当本发明确定出与所述特征向量的距离值不大于第一预设距离值的多个中心向量时,本发明还可以进一步包括:
步骤209,依据所述特征向量以及所述多个中心向量分别对应的类簇中的多个候选新闻的特征向量,计算所述特征向量分别与各个候选新闻的特征向量间的距离值,将距离值不大于第二预设距离值的候选新闻推荐给用户。
当本发明确定出与所述特征向量的距离值不大于第一预设距离值的多个中心向量时,其每个中心向量对应的类簇都会给出多个候选新闻,本发明为了保证将与用户当前浏览的新闻相似度最高的新闻优先推荐给用户,本发明还会在依次计算所述特征向量分别与各个候选新闻的特征向量间的距离值,具体地,可以利用余弦相似性算法计算所述特征向量与各个候选新闻的特征向量间的距离值,进而将距离值不大于第二预设距离值的候选新闻推荐给用户。
其中,第二预设距离值可实际需求灵活设定。
应用本发明提供的新闻推荐方法,本发明实现了将与用户当前浏览的新闻相似度最高的新闻优先推荐给用户,提高了系统推荐新闻的准确性。
基于前文本发明提供的一种新闻信息处理方法,本发明还提供一种新闻信息处理装置,如图3所示,包括:第一文字内容获取单元10、分词单元20、第一计算单元30、第二计算单元40、第三计算单元50、聚类分组单元60、存储单元70、第一检测单元80、第一查找单元90和第一新闻推荐单元100。其中,
第一文字内容获取单元10,用于获取新闻的文字内容;
分词单元20,用于对所述新闻的文字内容进行分词处理,获得多个字词;
第一计算单元30,用于计算每个字词的词向量;
第二计算单元40,用于计算每个字词的tfidf值;
第三计算单元50,用于分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和,计算得到所述新闻的特征向量;
聚类分组单元60,用于利用文本聚类方法,将计算得到的所有新闻的特征向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇,每个类簇包括一中心向量;
存储单元70,用于将得到的所有类簇以及每个类簇的中心向量存储在数据库中;
第一检测单元80,用于检测用户当前浏览的新闻的正文内容;
第一查找单元90,用于从所述数据库中查找是否存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量;
第一新闻推荐单元100,用于当所述第一查找单元90从所述数据库中查找到存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量,将与所述特征向量相对应的类簇中的其他新闻推荐给用户。
其中较优的,分词单元20包括:预处理子单元21,用于将所述分词处理后得到的所有字词进行预处理,删除垃圾字词。
其中所述第一计算单元30具体用于,利用word2vec工具计算每个字词的词向量;
所述第二计算单元40具体用于,利用tfidf算法计算每个字词的tfidf值;
所述第三计算单元50具体用于,利用kmeans聚类方法将计算得到的所有新闻内容的特征向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇,每个类簇包括一中心向量。
基于前文本发明提供的一种新闻推荐方法,本发明还提供一种新闻推荐装置,如图4所示,包括:第二检测单元200、判断单元300、第二查找单元400和第二新闻推荐单元500。其中,
第二检测单元200,用于检测用户当前浏览的新闻的正文内容;
判断单元300,用于判断数据库中是否存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量;
第二查找单元400,用于当所述判断单元300判断数据库中存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量时,在所述数据库中查找与所述特征向量相对应的类簇;其中每个类簇包括一中心向量;
第二新闻推荐单元500,用于将所述类簇中的其他新闻推荐给用户。
此外较优的,如图5所示,还包括:
第二文字内容获取单元600,用于当所述判断单元判断数据库中未存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量时,对所述用户当前浏览的新闻的文字内容进行分词处理,获得多个字词;
第四计算单元700,用于分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和,计算得到所述新闻的特征向量;
第五计算单元800,用于依据所述特征向量以及各个类簇的中心向量,计算确定与所述特征向量的距离值不大于第一预设距离值的中心向量;
第三新闻推荐单元900,用于将确定的中心向量对应的类簇中的新闻推荐给用户。
以及,
第六计算单元1000,用于当所述第五计算单元800确定出与所述特征向量的距离值不大于第一预设距离值的多个中心向量时,依据所述特征向量以及所述多个中心向量分别对应的类簇中的多个候选新闻的特征向量,计算所述特征向量分别与各个候选新闻的特征向量间的距离值;
第四新闻推荐单元2000,用于将距离值不大于第二预设距离值的候选新闻推荐给用户。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种新闻信息处理方法、新闻推荐方法和相关装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (15)
1.一种新闻信息处理方法,其特征在于,包括:
获取新闻的文字内容;
对所述新闻的文字内容进行分词处理,获得多个字词;
计算每个字词的词向量;
计算每个字词的词频-逆文档频tfidf值;
分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和,计算得到所述新闻的特征向量;
利用文本聚类方法,将计算得到的所有新闻的特征向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇,每个类簇包括一中心向量;
将得到的所有类簇以及每个类簇的中心向量存储在数据库中;
当需要为用户推荐新闻时,检测用户当前浏览的新闻的正文内容,并从所述数据库中查找是否存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量;如果有,将与所述特征向量相对应的类簇中的其他新闻推荐给用户。
2.根据权利要求1所述的方法,其特征在于,所述利用分词器对所述新闻的文字内容进行分词处理后,所述获取多个字词前,所述方法还包括:
将分词处理后得到的所有字词进行预处理,删除垃圾字词。
3.根据权利要求1或2所述的方法,其特征在于,所述计算每个字词的词向量包括:
利用word2vec工具计算每个字词的词向量。
4.根据权利要求1或2所述的方法,其特征在于,所述计算每个字词的tfidf值包括:
利用tfidf算法计算每个字词的tfidf值。
5.根据权利要求1或2所述的方法,其特征在于,文本聚类方法具体为kmeans聚类方法。
6.一种新闻推荐方法,其特征在于,基于前述权利要求1-5任一项所述的新闻信息处理方法,已知每个字词的词向量和词频-逆文档频tfidf值,所述新闻推荐方法包括:
检测用户当前浏览的新闻的正文内容;
判断数据库中是否存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量;
如果有,在所述数据库中查找与所述特征向量相对应的类簇;其中每个类簇包括一中心向量;
将所述类簇中的其他新闻推荐给用户。
7.根据权利要求6所述的方法,其特征在于,
如果没有,对所述用户当前浏览的新闻的文字内容进行分词处理,获得多个字词;
分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和,计算得到所述新闻的特征向量;
依据所述特征向量以及各个类簇的中心向量,确定与所述特征向量的距离值不大于第一预设距离值的中心向量;
将确定的中心向量对应的类簇中的新闻推荐给用户。
8.根据权利要求7所述的方法,其特征在于,还包括:
当确定出与所述特征向量的距离值不大于第一预设距离值的多个中心向量时;
依据所述特征向量以及所述多个中心向量分别对应的类簇中的多个候选新闻的特征向量,计算所述特征向量分别与各个候选新闻的特征向量间的距离值,将距离值不大于第二预设距离值的候选新闻推荐给用户。
9.根据权利要求7-8任一项所述的方法,其特征在于,计算所述特征向量与各个类簇的中心向量的距离值包括:利用余弦相似性算法计算所述特征向量与各个类簇的中心向量的距离值;
计算所述特征向量与各个候选新闻的特征向量间的距离值包括:利用余弦相似性算法计算所述特征向量与各个候选新闻的特征向量间的距离值。
10.一种新闻信息处理装置,其特征在于,包括:
第一文字内容获取单元,用于获取新闻的文字内容;
分词单元,用于对所述新闻的文字内容进行分词处理,获得多个字词;
第一计算单元,用于计算每个字词的词向量;
第二计算单元,用于计算每个字词的词频-逆文档频tfidf值;
第三计算单元,用于分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和,计算得到所述新闻的特征向量;
聚类分组单元,用于利用文本聚类方法,将计算得到的所有新闻的特征向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇,每个类簇包括一中心向量;
存储单元,用于将得到的所有类簇以及每个类簇的中心向量存储在数据库中;
第一检测单元,用于检测用户当前浏览的新闻的正文内容;
第一查找单元,用于从所述数据库中查找是否存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量;
第一新闻推荐单元,用于当所述第一查找单元从所述数据库中查找到存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量,将与所述特征向量相对应的类簇中的其他新闻推荐给用户。
11.根据权利要求10所述的装置,其特征在于,所述分词单元包括:
预处理子单元,用于将所述分词处理后得到的所有字词进行预处理,删除垃圾字词。
12.根据权利要求10或11所述的装置,其特征在于,
所述第一计算单元具体用于,利用word2vec工具计算每个字词的词向量;
所述第二计算单元具体用于,利用tfidf算法计算每个字词的tfidf值;
所述第三计算单元具体用于,利用kmeans聚类方法将计算得到的所有新闻内容的特征向量进行聚类计算,实现将不同新闻进行分组,每一组新闻称之为一个类簇,每个类簇包括一中心向量。
13.一种新闻推荐装置,其特征在于,基于前述权利要求10-12任一项所述的新闻信息处理装置,已知每个字词的词向量和词频-逆文档频tfidf值,所述新闻推荐装置包括:
第二检测单元,用于检测用户当前浏览的新闻的正文内容;
判断单元,用于判断数据库中是否存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量;
第二查找单元,用于当所述判断单元判断数据库中存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量时,在所述数据库中查找与所述特征向量相对应的类簇;其中每个类簇包括一中心向量;
第二新闻推荐单元,用于将所述类簇中的其他新闻推荐给用户。
14.根据权利要求13所述的装置,其特征在于,还包括:
第二文字内容获取单元,用于当所述判断单元判断数据库中未存储有与所述用户当前浏览的新闻的正文内容相对应的特征向量时,对所述用户当前浏览的新闻的文字内容进行分词处理,获得多个字词;
第四计算单元,用于分别以每个字词的tfidf值为权重,将所述新闻的所有词向量累加求和,计算得到所述新闻的特征向量;
第五计算单元,用于依据所述特征向量以及各个类簇的中心向量,计算确定与所述特征向量的距离值不大于第一预设距离值的中心向量;
第三新闻推荐单元,用于将确定的中心向量对应的类簇中的新闻推荐给用户。
15.根据权利要求14所述的装置,其特征在于,还包括:
第六计算单元,用于当所述第五计算单元确定出与所述特征向量的距离值不大于第一预设距离值的多个中心向量时,依据所述特征向量以及所述多个中心向量分别对应的类簇中的多个候选新闻的特征向量,计算所述特征向量分别与各个候选新闻的特征向量间的距离值;
第四新闻推荐单元,用于将距离值不大于第二预设距离值的候选新闻推荐给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510509331.2A CN105022840B (zh) | 2015-08-18 | 2015-08-18 | 一种新闻信息处理方法、新闻推荐方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510509331.2A CN105022840B (zh) | 2015-08-18 | 2015-08-18 | 一种新闻信息处理方法、新闻推荐方法和相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105022840A CN105022840A (zh) | 2015-11-04 |
CN105022840B true CN105022840B (zh) | 2018-06-05 |
Family
ID=54412809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510509331.2A Active CN105022840B (zh) | 2015-08-18 | 2015-08-18 | 一种新闻信息处理方法、新闻推荐方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105022840B (zh) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404680A (zh) * | 2015-11-25 | 2016-03-16 | 百度在线网络技术(北京)有限公司 | 一种搜索推荐方法及装置 |
CN105574165B (zh) * | 2015-12-17 | 2019-11-26 | 国家电网公司 | 一种基于聚类的电网运行监控信息辨识分类方法 |
WO2017107651A1 (zh) | 2015-12-22 | 2017-06-29 | 北京奇虎科技有限公司 | 确定新闻之间相关性、多新闻之间相关性计算方法和装置 |
CN105630928B (zh) * | 2015-12-22 | 2019-06-21 | 北京奇虎科技有限公司 | 文本的标识方法及装置 |
CN105528335B (zh) * | 2015-12-22 | 2018-10-09 | 北京奇虎科技有限公司 | 确定新闻之间相关性的方法和装置 |
CN105654113B (zh) * | 2015-12-23 | 2020-02-21 | 北京奇虎科技有限公司 | 文章指纹特征生成方法和装置 |
CN105528336B (zh) * | 2015-12-23 | 2018-09-21 | 北京奇虎科技有限公司 | 多标杆确定文章相关性的方法和装置 |
CN106339495A (zh) * | 2016-08-31 | 2017-01-18 | 广州智索信息科技有限公司 | 一种基于层次增量聚类的话题检测方法及系统 |
CN107038184B (zh) * | 2016-10-14 | 2019-11-08 | 厦门大学 | 一种基于分层隐变量模型的新闻推荐方法 |
CN106557777B (zh) * | 2016-10-17 | 2019-09-06 | 中国互联网络信息中心 | 一种基于SimHash改进的Kmeans文档聚类方法 |
CN106599029B (zh) * | 2016-11-02 | 2021-04-06 | 焦点科技股份有限公司 | 一种中文短文本聚类方法 |
CN106776713A (zh) * | 2016-11-03 | 2017-05-31 | 中山大学 | 一种基于词向量语义分析的海量短文本聚类方法 |
CN108108345B (zh) * | 2016-11-25 | 2021-08-10 | 南京尚网网络科技有限公司 | 用于确定新闻主题的方法与设备 |
CN106776548B (zh) * | 2016-12-06 | 2019-12-13 | 上海智臻智能网络科技股份有限公司 | 一种文本的相似度计算的方法和装置 |
CN106777053A (zh) * | 2016-12-09 | 2017-05-31 | 国网北京市电力公司 | 媒体内容的分类方法和装置 |
CN106777395A (zh) * | 2017-03-01 | 2017-05-31 | 北京航空航天大学 | 一种基于社区文本数据的话题发现系统 |
CN107066449B (zh) * | 2017-05-09 | 2021-01-26 | 北京京东尚科信息技术有限公司 | 信息推送方法和装置 |
CN107894986B (zh) * | 2017-09-26 | 2021-03-30 | 北京纳人网络科技有限公司 | 一种基于向量化的企业关系划分方法、服务器以及客户端 |
CN107748801B (zh) * | 2017-11-16 | 2022-04-29 | 北京百度网讯科技有限公司 | 新闻推荐方法、装置、终端设备及计算机可读存储介质 |
CN107862070B (zh) * | 2017-11-22 | 2021-08-10 | 华南理工大学 | 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 |
CN108376164B (zh) * | 2018-02-24 | 2021-01-01 | 武汉斗鱼网络科技有限公司 | 一种潜力主播的展示方法及装置 |
CN110399478A (zh) * | 2018-04-19 | 2019-11-01 | 清华大学 | 事件发现方法和装置 |
CN108763208B (zh) * | 2018-05-22 | 2023-09-05 | 腾讯科技(上海)有限公司 | 话题信息获取方法、装置、服务器和计算机可读存储介质 |
CN110609961A (zh) * | 2018-05-29 | 2019-12-24 | 南京大学 | 一种基于词嵌入的协同过滤推荐方法 |
TWI676110B (zh) * | 2018-08-21 | 2019-11-01 | 良知股份有限公司 | 以讀者為中心進行文章分析的語意特徵分析系統 |
CN109271462A (zh) * | 2018-11-23 | 2019-01-25 | 河北航天信息技术有限公司 | 一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法 |
CN109460519B (zh) * | 2018-12-28 | 2021-07-06 | 上海晶赞融宣科技有限公司 | 浏览对象推荐方法及装置、存储介质、服务器 |
CN109885773B (zh) * | 2019-02-28 | 2020-11-24 | 广州寄锦教育科技有限公司 | 一种文章个性化推荐方法、系统、介质及设备 |
CN110083828A (zh) * | 2019-03-29 | 2019-08-02 | 珠海远光移动互联科技有限公司 | 一种文本聚类方法及装置 |
CN110275952A (zh) * | 2019-05-08 | 2019-09-24 | 平安科技(深圳)有限公司 | 基于用户短期兴趣的新闻推荐方法、装置及介质 |
CN112541110A (zh) * | 2019-09-20 | 2021-03-23 | 北京搜狗科技发展有限公司 | 一种信息推荐方法、装置和电子设备 |
CN110990574B (zh) * | 2019-12-17 | 2023-05-09 | 上饶市中科院云计算中心大数据研究院 | 一种新闻资讯管理方法及装置 |
CN111639263B (zh) * | 2020-06-03 | 2023-11-24 | 小红书科技有限公司 | 笔记推荐方法、装置及系统 |
CN113688225B (zh) * | 2021-08-23 | 2024-03-15 | 平安国际智慧城市科技股份有限公司 | 基于大数据的新闻推荐方法、装置、终端设备及存储介质 |
CN117725275A (zh) * | 2023-09-26 | 2024-03-19 | 书行科技(北京)有限公司 | 一种资源推荐方法、装置、计算机设备、介质及产品 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104484380A (zh) * | 2014-12-09 | 2015-04-01 | 百度在线网络技术(北京)有限公司 | 个性化搜索方法及装置 |
CN104598532A (zh) * | 2014-12-29 | 2015-05-06 | 中国联合网络通信有限公司广东省分公司 | 一种信息处理方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140109729A (ko) * | 2013-03-06 | 2014-09-16 | 한국전자통신연구원 | 의미기반 검색 시스템 및 이의 검색방법 |
-
2015
- 2015-08-18 CN CN201510509331.2A patent/CN105022840B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104484380A (zh) * | 2014-12-09 | 2015-04-01 | 百度在线网络技术(北京)有限公司 | 个性化搜索方法及装置 |
CN104598532A (zh) * | 2014-12-29 | 2015-05-06 | 中国联合网络通信有限公司广东省分公司 | 一种信息处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105022840A (zh) | 2015-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105022840B (zh) | 一种新闻信息处理方法、新闻推荐方法和相关装置 | |
US10423648B2 (en) | Method, system, and computer readable medium for interest tag recommendation | |
CN102799591B (zh) | 一种提供推荐词的方法及装置 | |
CN104123332B (zh) | 搜索结果的显示方法及装置 | |
CN109885773B (zh) | 一种文章个性化推荐方法、系统、介质及设备 | |
CN108304444B (zh) | 信息查询方法及装置 | |
CN105045781B (zh) | 查询词相似度计算方法及装置、查询词搜索方法及装置 | |
CN109145280A (zh) | 信息推送的方法和装置 | |
CN111008321A (zh) | 基于逻辑回归推荐方法、装置、计算设备、可读存储介质 | |
CN112307366B (zh) | 一种信息展示的方法、装置及计算机存储介质 | |
CN113392329B (zh) | 内容推荐方法、装置、电子设备及存储介质 | |
CN112100396B (zh) | 一种数据处理方法和装置 | |
CN104199898B (zh) | 一种属性信息的获取方法及装置、推送方法及装置 | |
EP3699780A1 (en) | Method and apparatus for recommending entity, electronic device and computer readable medium | |
KR20190128246A (ko) | 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체 | |
JP5952711B2 (ja) | 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 | |
KR101638535B1 (ko) | 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체 | |
CN111723273A (zh) | 一种智慧云检索系统及方法 | |
CN111353838A (zh) | 自动化校验商品类目的方法和装置 | |
JP2016018286A (ja) | 行動タイプ判定装置、行動タイプ判定方法及び行動タイプ判定プログラム | |
KR101753768B1 (ko) | 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템 | |
JP5545876B2 (ja) | クエリ提供装置、クエリ提供方法及びクエリ提供プログラム | |
JP6521931B2 (ja) | モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム | |
CN104239455B (zh) | 一种搜索结果的获取方法及装置 | |
CN113849736A (zh) | 一种基于用户信息的全文检索与匹配方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |