CN108199951A - 一种基于多算法融合模型的垃圾邮件过滤方法 - Google Patents
一种基于多算法融合模型的垃圾邮件过滤方法 Download PDFInfo
- Publication number
- CN108199951A CN108199951A CN201810006817.8A CN201810006817A CN108199951A CN 108199951 A CN108199951 A CN 108199951A CN 201810006817 A CN201810006817 A CN 201810006817A CN 108199951 A CN108199951 A CN 108199951A
- Authority
- CN
- China
- Prior art keywords
- word
- document
- frequency
- idf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/42—Mailbox-related aspects, e.g. synchronisation of mailboxes
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
一种基于多算法融合模型的垃圾邮件过滤方法,1)根据业务理解收集原始数据;2)进行文本预处理;3)向量化表示,针对不同的算法,采用不同的文本特征提取方式;5)融合分类器。以上一步不同分类器的预测值为输入,样本真实类别为输出,通过线性分类器学习出各分类器的权重;6)根据训练出的分类器及其权重用于预测新样本的分类结果。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其是针对垃圾邮件过滤这一主题提出了一种多算法融合的解决策略。具体而言,在传统垃圾邮件过滤技术的基础上,提出一种融合Bayes、SVM和Fasttext多种文本分类算法的垃圾邮件过滤方法。
背景技术
随着互联网的发展,电子邮件成为人们日常生活、工作必不可少的应用。电子邮件由于其便捷、经济等特点成为互联网最广泛的应用之一,但也因为其成本低廉、传播快速的特点反而被垃圾邮件的制作者所利用。垃圾邮件广义上来讲就是未经收件人允许而发送的带有商业广告等不良信息的邮件。垃圾邮件不仅会使受害人遭受财产损失,更会造成计算机网络资源的浪费,危害互联网的发展。有鉴于此,需要一种精准、高效的方法对垃圾邮件进行判断并过滤,为电子邮件用户提供一个安全、纯净的环境。
邮件过滤技术实质上把邮件分为垃圾邮件(spam)和正常邮件(ham)。目前针对垃圾邮件的技术主要有三类:基于IP的识别、基于行为的识别和基于内容的识别。其中基于内容的识别是研究的主流,而基于内容的过滤技术被划分为两类:基于规则的过滤器以及基于机器学习的算法过滤。基于规则的过滤器主要采用决策树输出的规则或粗糙集等对邮件头、邮件内容进行分析,判断邮件是否为垃圾邮件,该方法简单、高效,但是垃圾邮件的规则变化多且快,该方法不能实时适应垃圾邮件的变化,不够灵活。基于机器学习的算法过滤方法本质上是文本二分类的方法,对文本量化后采用机器学习分类方法对文本进行分类,该方法相较于基于规则的过滤方法有更高的准确率,能够通过学习不断变化的垃圾邮件的特征对判断模型进行优化更新。
当前主流的垃圾邮件过滤系统大多采用以传统机器学习方法(如 Bayes、Logistic Regression和SVM等)为核心的传统机器学习算法,这类算法通常较为简单,在无需大量样本的情况下就能取得不错的分类效果,但单一分类器的分类性能有限。除此之外,深度学习的相关算法(如CNN、RNN)也被应用于垃圾邮件分类之中,这类算法通常在海量数据下能取得非常不错的分类效果,但是对数据量要求高,模型复杂难训练。值得一提的是去年由Fackbook开源的FastText作为一个深层神经网络的简化版,模型简单,训练速度非常快,同时分类效果也很不错。例如CN103905289A一种垃圾邮件过滤方法,包括以下步骤:S1:建立学习库,通过对已知垃圾邮件和非垃圾邮件的分析,自学习垃圾邮件判断依据;S2:根据S1中确立的垃圾邮件判断依据,对新邮件进行判断及过滤判断出的垃圾邮件;S3:将经过判断的新邮件放入步骤S1中建立的学习库中,以不断提高所述学习库的判断准确率。
发明内容
本发明目的是,提出一种基于多算法融合模型的垃圾邮件过滤方法,希望通过训练多个垃圾邮件分类器,并采用集成的方法通过组合多个单分类器的输出结论的方式训练分类器,确定邮件的类别,对垃圾邮件进行过滤。
一种基于多算法融合模型的垃圾邮件过滤方法,步骤1根据业务理解收集原始数据;
步骤2进行文本预处理;
步骤21邮件分词;
步骤22根据业务理解,过滤掉无效字符,如停用词、常用词等;
步骤3向量化表示,针对不同的算法,采用不同的文本特征提取方式;
步骤31通过计数来将一个邮件文档转换为向量;
步骤32通过计算词频-逆向文件频率(TF-IDF)邮件文档转换为向量;
步骤33通过训练Word2Vec Model将每个文档映射到一个固定大小的向量;
步骤4建立模型;
步骤41通过CountVectorizer向量构造 Bayes分类器;
步骤42通过TF-IDF向量构造SVM分类器;
步骤43通过Word2Vec词向量构造Fasttext分类器;
步骤5融合分类器。以上一步不同分类器的预测值为输入,样本真实类别为输出,通过线性分类器学习出各分类器的权重;
步骤6根据训练出的分类器及其权重用于预测新样本的分类结果。
有益效果:一种基于多算法融合模型的垃圾邮件过滤方法,通过训练多个垃圾邮件分类器,并采用集成的方法通过组合多个单分类器的输出结论的方式训练分类器,确定邮件的类别,对垃圾邮件进行过滤。本发明具有完整建模流程,执行多算法融合模型的垃圾邮件过滤,相比较传统的方法有着更高的准确率和查全率,从而高精度地甄别垃圾邮件。
附图说明
图1多算法融合模型的垃圾邮件过滤方法流程图。
具体实施方式
以下结合图1,具体阐述本发明实施方案。所描述的实施例仅为示例,基于本发明技术实质所做的等同变化,仍落入本发明保护范围。
步骤1根据业务理解收集原始数据,本发明选择焦点科技股份有限公司旗下中国制造网的用户询盘邮件数据作为样例展示。
步骤2进行文本预处理,中国制造网的询盘邮件中存在着广告、钓鱼和包含违法信息等垃圾邮件,通常情况下,这些垃圾邮件都是由人工逐一审核验证。本发明统计获取了少量已经打好样本标签的询盘邮件,其中正常邮件1160封,垃圾邮件750封。所有的流程操作均在Python中完成。
步骤21先对邮件内容进行分词,由于询盘邮件中可能包含中英文,我们调用jieba的cut方法,完成对邮件单词的切分
import jieba
raw_words_list=jieba.cut(doc)
步骤22去掉一些无关的词汇,比如常用词,停用词以及询盘内容可能会包含的html 网页标签
def doc_processing(words_list):
”'
邮件分词,过滤掉无效字符
”'
words_list=[word for word in words_list if word not in common_words]
words_list=[word for word in words_list if word not in stop_words]
words_list=[word for word in words_list if word not in html_words]
return words_list
words_list=doc_processing(raw_words_list)
步骤3-4向量化表示和建立模型,针对不同的算法,采用不同的文本特征提取方式,为了便于叙述,我们将向量化特征表示和模型建立统一处理,并借助于sklearn完成 Bayes分类器和SVM分类器的构建,同时借助于fasttext完成对Fasttext分类器的构建。X_train,y_train分别为模型训练时的样本及标签。具体步骤如下:
步骤31通过计数来将一个邮件文档转换为向量。我们采用3-gram的方法根据已经分好词的邮件文档中的词频排序从高到低进行选择构建词汇表,这样考虑到了词语前面的一个词语的信息,同时也考虑到了部分语序信息,因此区分效果会比单纯用朴素贝叶斯方法更好
步骤32通过计算词频-逆向文件频率(TF-IDF)邮件文档转换为向量。TF-IDF模型的主要思想是:如果词w在一篇文档d中出现的频率高,并且在其他文档中很少出现,则认为词w具有很好的区分能力,适合用来把文章d和其他文章区分开来。该模型主要包含了两个因素:TF与IDF,词频TF为词w在文档d中出现次数count(w,d)和文档d 中总词数size(d)的比值,逆向文档频率IDF为文档总数n与词w所出现文件数docs(w,D) 比值的对数。而TF-IDF=TF*IDF=(词频*词权),它综合考虑了一个词的存在感和唯一性
步骤33通过训练Word2Vec Model将每个文档映射到一个固定大小的向量。传统的单词向量化表示一般采用one hot representation编码,即每个单词都是一个维度,Word2Vec的方法不仅能从语料中自动学习将单词映射到特定维度的向量,捕捉到了词与词之间的联系,同时也编码了维度爆炸的问题。
步骤41通过CountVectorizer向量构造 Bayes分类器。通过3-gram得到的文档向量建立 Bayes分类器,这个分类器对小规模的数据表现很好,同时增量式的训练方式方便且高效;
步骤42通过TF-IDF向量构造SVM分类器。svm分类器由于其优化目标是结构化风险最小,而不是经验风险最小有着优秀的泛化能力,而且,通过margin的概念,得到对数据分布的结构化描述,因此减低了对数据规模和数据分布的要求;
步骤43通过Word2Vec词向量构造Fasttext分类器。fasttext只有1层神经网络,属于所谓的shallow learning,但是fasttext的效果比一般的神经网络模型的精确度还要高,而且在大规模数据集上具备学习和预测速度快的优势;
部分核心代码展示如下:
步骤5融合分类器。以上一步不同分类器的预测值为输入,样本真实类别为输出,通过线性分类器学习出各分类器的权重w1,w2,w3,用于最后将各分类器融合。
from sklearn import linear_model
predict1=_bayes_classifier.predict(X_train)
predict2=svm_classifier.predict(X_train)
predict3=fasttext_classifier.test('X_train.txt')
clf=linear_model.LinearRegression()
clf.fit(zip(predict1,predict2,predict3),y_train)
w1,w2,w3=clf.coef_
步骤6根据训练出的分类器及其权重用于预测新样本的分类结果,以测试集 X_test为例,
nb_predict=_bayes_classifier.predict(X_test)
svm_predict=svm_classifier.predict(X_test)
ft_predict=fasttext_classifier.test('X_test.txt')
results=w1*nb_predict+w2*svm_predict+w3*ft_predict
模型效果如表1,可见,经多算法融合模型的垃圾邮件过滤准确度有明显的提升,模型可用。
表1各邮件过滤算法结果对比
以上,本发明设计一套完整建模流程,针对待检测邮件样本,执行多算法融合模型的垃圾邮件过滤方法,高精度地甄别垃圾邮件,可以节省大量人力,并且得到可靠的预测效果。
本发明并不限于上述实施方式,采用与本发明上述实施实例相同或近似的结构,而得到的其它结构设计,均在本发明的保护范围之内。
Claims (3)
1.一种基于多算法融合模型的垃圾邮件过滤方法,其特征是步骤1根据业务理解收集原始数据;
步骤2进行文本预处理;
步骤21邮件分词;
步骤22根据业务理解,过滤掉无效字符,如停用词、常用词等;
步骤3向量化表示,针对不同的算法,采用不同的文本特征提取方式;
步骤31通过计数来将一个邮件文档转换为向量;
步骤32通过计算词频-逆向文件频率(TF-IDF)邮件文档转换为向量;
步骤33通过训练Word2Vec Model将每个词语映射到一个固定大小的向量;
步骤4建立模型;
步骤41通过CountVectorizer向量构造 Bayes分类器;
步骤42通过TF-IDF向量构造SVM分类器;
步骤43通过Word2Vec词向量构造Fasttext分类器;
步骤5融合分类器,以上一步不同分类器的预测值为输入,样本真实类别为输出,通过线性分类器学习出各分类器的权重;
步骤6根据训练出的分类器及其权重用于预测新样本的分类结果。
2.根据权利要求1所述的垃圾邮件过滤方法,其特征是步骤21先对邮件内容进行分词,由于询盘邮件中可能包含中英文,调用jieba的cut方法,完成对邮件单词的切分;
步骤22去掉一些无关的词汇,常用词、停用词以及询盘内容包含的html网页标签。
3.根据权利要求1所述的垃圾邮件过滤方法,其特征是步骤3-4中,以向量化表示和建立模型,针对不同的算法,采用不同的文本特征提取方式;将向量化特征表示和模型建立统一处理,并借助于sklearn完成 Bayes分类器和SVM分类器的构建,同时借助于fasttext完成对Fasttext分类器的构建;
X_train,y_train分别为模型训练时的样本及标签,具体步骤如下:
步骤31通过计数来将一个邮件文档转换为向量;采用3-gram的方法根据已经分好词的邮件文档中的词频排序从高到低进行选择构建词汇表,这样考虑到了词语前面的一个词语的信息,同时也考虑到了部分语序信息;
步骤32通过计算词频-逆向文件频率模型(TF-IDF)将邮件文档转换为向量;如果词w在一篇文档d中出现的频率高,并且在其他文档中很少出现,则认为词w具有很好的区分能力,适合用来把文章d和其他文章区分开来;计算词频-逆向文件频率包含了两个因素:TF与IDF,词频TF为词w在文档d中出现次数count(w,d)和文档d中总词数size(d)的比值,逆向文档频率IDF为文档总数n与词w所出现文件数docs(w,D)比值的对数;而TF-IDF=TF*IDF=(词频*词权);
步骤33通过训练Word2Vec Model将每个文档映射到一个固定大小的向量,传统的单词向量化表示采用one hot representation编码,即每个单词都是一个维度,Word2Vec的方法能从语料中自动学习将单词映射到特定维度的向量,捕捉到了词与词之间的联系,同时也编码了维度爆炸的问题;
步骤41通过CountVectorizer向量构造 Bayes分类器;通过3-gram得到的文档向量建立 Bayes分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810006817.8A CN108199951A (zh) | 2018-01-04 | 2018-01-04 | 一种基于多算法融合模型的垃圾邮件过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810006817.8A CN108199951A (zh) | 2018-01-04 | 2018-01-04 | 一种基于多算法融合模型的垃圾邮件过滤方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108199951A true CN108199951A (zh) | 2018-06-22 |
Family
ID=62587795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810006817.8A Pending CN108199951A (zh) | 2018-01-04 | 2018-01-04 | 一种基于多算法融合模型的垃圾邮件过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108199951A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299357A (zh) * | 2018-08-31 | 2019-02-01 | 昆明理工大学 | 一种老挝语文本主题分类方法 |
CN109871443A (zh) * | 2018-12-25 | 2019-06-11 | 杭州茂财网络技术有限公司 | 一种基于记账场景的短文本分类方法及装置 |
CN109873755A (zh) * | 2019-03-02 | 2019-06-11 | 北京亚鸿世纪科技发展有限公司 | 一种基于变体词识别技术的垃圾短信分类引擎 |
CN110175221A (zh) * | 2019-05-17 | 2019-08-27 | 国家计算机网络与信息安全管理中心 | 利用词向量结合机器学习的垃圾短信识别方法 |
CN110289098A (zh) * | 2019-05-17 | 2019-09-27 | 天津科技大学 | 一种基于临床检验和用药干预数据的风险预测方法 |
CN110569357A (zh) * | 2019-08-19 | 2019-12-13 | 论客科技(广州)有限公司 | 一种邮件分类模型的构建方法、装置、终端设备和介质 |
CN111144453A (zh) * | 2019-12-11 | 2020-05-12 | 中科院计算技术研究所大数据研究院 | 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备 |
CN111221970A (zh) * | 2019-12-31 | 2020-06-02 | 论客科技(广州)有限公司 | 基于行为结构和语义内容联合分析的邮件分类方法及装置 |
CN112685374A (zh) * | 2019-10-17 | 2021-04-20 | 中国移动通信集团浙江有限公司 | 日志分类方法、装置及电子设备 |
CN112906383A (zh) * | 2021-02-05 | 2021-06-04 | 成都信息工程大学 | 一种基于增量学习的集成式自适应水军识别方法 |
CN113627481A (zh) * | 2021-07-09 | 2021-11-09 | 南京邮电大学 | 一种面向智慧园林的多模型组合的无人机垃圾分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101330476A (zh) * | 2008-07-02 | 2008-12-24 | 北京大学 | 一种垃圾邮件动态检测方法 |
CN106021410A (zh) * | 2016-05-12 | 2016-10-12 | 中国科学院软件研究所 | 一种基于机器学习的源代码注释质量评估方法 |
US20160335432A1 (en) * | 2015-05-17 | 2016-11-17 | Bitdefender IPR Management Ltd. | Cascading Classifiers For Computer Security Applications |
CN106548210A (zh) * | 2016-10-31 | 2017-03-29 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法及装置 |
US20170236070A1 (en) * | 2016-02-14 | 2017-08-17 | Fujitsu Limited | Method and system for classifying input data arrived one by one in time |
-
2018
- 2018-01-04 CN CN201810006817.8A patent/CN108199951A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101330476A (zh) * | 2008-07-02 | 2008-12-24 | 北京大学 | 一种垃圾邮件动态检测方法 |
US20160335432A1 (en) * | 2015-05-17 | 2016-11-17 | Bitdefender IPR Management Ltd. | Cascading Classifiers For Computer Security Applications |
US20170236070A1 (en) * | 2016-02-14 | 2017-08-17 | Fujitsu Limited | Method and system for classifying input data arrived one by one in time |
CN106021410A (zh) * | 2016-05-12 | 2016-10-12 | 中国科学院软件研究所 | 一种基于机器学习的源代码注释质量评估方法 |
CN106548210A (zh) * | 2016-10-31 | 2017-03-29 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法及装置 |
Non-Patent Citations (2)
Title |
---|
刘菊新,徐从富: "基于多分类器组合模型的垃圾邮件过滤", 《计算机工程》 * |
杨兴华,封化民,江超,陈春萍: "一种基于多模态特征融合的垃圾邮件过滤方法", 《北京电子科技学院学报》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299357B (zh) * | 2018-08-31 | 2022-04-12 | 昆明理工大学 | 一种老挝语文本主题分类方法 |
CN109299357A (zh) * | 2018-08-31 | 2019-02-01 | 昆明理工大学 | 一种老挝语文本主题分类方法 |
CN109871443A (zh) * | 2018-12-25 | 2019-06-11 | 杭州茂财网络技术有限公司 | 一种基于记账场景的短文本分类方法及装置 |
CN109873755A (zh) * | 2019-03-02 | 2019-06-11 | 北京亚鸿世纪科技发展有限公司 | 一种基于变体词识别技术的垃圾短信分类引擎 |
CN109873755B (zh) * | 2019-03-02 | 2021-01-01 | 北京亚鸿世纪科技发展有限公司 | 一种基于变体词识别技术的垃圾短信分类引擎 |
CN110175221B (zh) * | 2019-05-17 | 2021-04-20 | 国家计算机网络与信息安全管理中心 | 利用词向量结合机器学习的垃圾短信识别方法 |
CN110175221A (zh) * | 2019-05-17 | 2019-08-27 | 国家计算机网络与信息安全管理中心 | 利用词向量结合机器学习的垃圾短信识别方法 |
CN110289098A (zh) * | 2019-05-17 | 2019-09-27 | 天津科技大学 | 一种基于临床检验和用药干预数据的风险预测方法 |
CN110289098B (zh) * | 2019-05-17 | 2022-11-25 | 天津科技大学 | 一种基于临床检验和用药干预数据的风险预测方法 |
CN110569357A (zh) * | 2019-08-19 | 2019-12-13 | 论客科技(广州)有限公司 | 一种邮件分类模型的构建方法、装置、终端设备和介质 |
CN112685374A (zh) * | 2019-10-17 | 2021-04-20 | 中国移动通信集团浙江有限公司 | 日志分类方法、装置及电子设备 |
CN111144453A (zh) * | 2019-12-11 | 2020-05-12 | 中科院计算技术研究所大数据研究院 | 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备 |
CN111221970A (zh) * | 2019-12-31 | 2020-06-02 | 论客科技(广州)有限公司 | 基于行为结构和语义内容联合分析的邮件分类方法及装置 |
CN112906383A (zh) * | 2021-02-05 | 2021-06-04 | 成都信息工程大学 | 一种基于增量学习的集成式自适应水军识别方法 |
CN113627481A (zh) * | 2021-07-09 | 2021-11-09 | 南京邮电大学 | 一种面向智慧园林的多模型组合的无人机垃圾分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108199951A (zh) | 一种基于多算法融合模型的垃圾邮件过滤方法 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN107193959B (zh) | 一种面向纯文本的企业实体分类方法 | |
CN106202561B (zh) | 基于文本大数据的数字化应急管理案例库构建方法及装置 | |
CN101794311B (zh) | 基于模糊数据挖掘的中文网页自动分类方法 | |
CN106446230A (zh) | 一种优化机器学习文本中词语分类的方法 | |
CN107944480A (zh) | 一种企业行业分类方法 | |
CN108573047A (zh) | 一种中文文本分类模型的训练方法及装置 | |
Chawla et al. | Product opinion mining using sentiment analysis on smartphone reviews | |
CN105930411A (zh) | 一种分类器训练方法、分类器和情感分类系统 | |
CN103399891A (zh) | 网络内容自动推荐方法、装置和系统 | |
CN106021410A (zh) | 一种基于机器学习的源代码注释质量评估方法 | |
CN103425799A (zh) | 基于主题的个性化研究方向推荐系统和推荐方法 | |
CN103294817A (zh) | 一种基于类别分布概率的文本特征抽取方法 | |
Dang et al. | Framework for retrieving relevant contents related to fashion from online social network data | |
CN108363784A (zh) | 一种基于文本机器学习的舆情走向预测方法 | |
CN108763496A (zh) | 一种基于网格和密度的动静态数据融合客户分类算法 | |
CN110019820A (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN106570170A (zh) | 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统 | |
CN107305545A (zh) | 一种基于文本倾向性分析的网络意见领袖的识别方法 | |
CN107506472A (zh) | 一种学生浏览网页分类方法 | |
CN108304509A (zh) | 一种基于文本多向量表示相互学习的垃圾评论过滤方法 | |
CN112347254B (zh) | 新闻文本的分类方法、装置、计算机设备和存储介质 | |
Bhole et al. | Extracting named entities and relating them over time based on Wikipedia | |
CN1614607B (zh) | 垃圾邮件过滤的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180622 |
|
RJ01 | Rejection of invention patent application after publication |