Nothing Special   »   [go: up one dir, main page]

JP2009104400A - Email filtering device, method for filtering email, and program - Google Patents

Email filtering device, method for filtering email, and program Download PDF

Info

Publication number
JP2009104400A
JP2009104400A JP2007275425A JP2007275425A JP2009104400A JP 2009104400 A JP2009104400 A JP 2009104400A JP 2007275425 A JP2007275425 A JP 2007275425A JP 2007275425 A JP2007275425 A JP 2007275425A JP 2009104400 A JP2009104400 A JP 2009104400A
Authority
JP
Japan
Prior art keywords
mail
spam
normal
filter rule
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007275425A
Other languages
Japanese (ja)
Other versions
JP4963099B2 (en
Inventor
Yukiko Sawatani
雪子 澤谷
Masaru Miyake
優 三宅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2007275425A priority Critical patent/JP4963099B2/en
Publication of JP2009104400A publication Critical patent/JP2009104400A/en
Application granted granted Critical
Publication of JP4963099B2 publication Critical patent/JP4963099B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To automatically filter out spam when email are received, and reduce incorrect decision. <P>SOLUTION: Email received by a user are sorted into normal mail and spam by predetermined filter rules, and features of header information of the sorted email are collated and extracted to generate feature vectors. The feature vectors of the normal mail and spam are analyzed to generate initial filter rules, and received email are separated into normal mail and spam by the generated filter rules. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、電子メール受信時のフィルタリング装置に関し、特に、電子メール受信時にスパムメールを自動的にフィルタリングする電子メールフィルタリング装置、電子メールのフィルタリング方法およびプログラムに関する。   The present invention relates to a filtering device at the time of receiving an e-mail, and more particularly to an e-mail filtering device that automatically filters spam mail when an e-mail is received, an e-mail filtering method, and a program.

近年、ネットワークの発展により、誰しもが気軽に簡単に電子メール(以下、必要に応じて単に「メール」と称する)を送受信できるようになったことに伴い、所謂スパムメール(spam mail)の数も増大している。ここで、「スパムメール」とは、受信者の意図を無視して事前の要請や同意なしに、無差別かつ大量発信されるメールを意味するものである。なお、このスパムメールの同義語として、「迷惑メール」、「ジャンクメール」、「UCE(Unsolicited Commercial Email)」、「UBE(Unsolicited Bulk Email)」などがある。   In recent years, with the development of networks, anyone can easily and easily send and receive e-mail (hereinafter simply referred to as “mail” as necessary), so-called spam mail (spam mail) The number is also increasing. Here, “spam mail” means mail that is sent indiscriminately and in large quantities without ignoring the recipient's intention and without prior request or consent. Synonyms for this spam mail include “junk mail”, “junk mail”, “UCE (Unsolicited Commercial Email)”, “UBE (Unsolicited Bulk Email)”, and the like.

このようなスパムメールは、添付ファイルなどによるウイルス感染や、不要なメールの増加による受信者の業務生産性及び効率の低下や、トラフィックの増加によるサーバ及びネットワークへの負荷増大や、詐欺サイトへの誘導などによるプライバシーや機密情報の漏洩などの点において、個人及び団体を問わずに脅威となり得るものである。   Such spam e-mails include virus infections due to attachments, etc., decrease in recipient business productivity and efficiency due to an increase in unnecessary e-mails, increased load on servers and networks due to increased traffic, and fraudulent sites It can be a threat regardless of individuals or organizations in terms of privacy due to guidance or leakage of confidential information.

上記のようなスパムメールによる問題は既に社会問題の域にまで達している。メールアドレスが安価に入手可能であることや、定額料金の高速通信が安価で提供されていることなどを鑑みると、今後、スパムメールは減少することなくますます増加していくと考えられ、スパムメールに対する有効な対策が早急に要求されている。   The problems caused by spam emails as described above have already reached the level of social problems. In view of the fact that email addresses are available at low cost and that high-speed communications with a flat rate are provided at a low price, spam emails are expected to increase without decreasing in the future. Effective measures against email are urgently required.

このような状況において、メールサーバ内に蓄積された電子メールのフィルタリング方法に関して、電子メールの送信アドレスと返信アドレスとに関連したフィルタリング条件を有する端末がメールサーバに蓄積された電子メールのヘッダ情報を要求し、フィルタリング条件に基づき受信した電子メールのヘッダ情報を判定し、メールサーバに判定の結果に基づくフィルタリング指示を送信するとともに、メールサーバが、フィルタリング指示に基づきフィルタリング処理を実行する技術が知られている(例えば、特許文献1参照。)。   In such a situation, regarding the filtering method of the email stored in the mail server, the terminal having the filtering condition related to the email transmission address and the reply address is used to store the header information of the email stored in the mail server. A technique for requesting and determining header information of an email received based on a filtering condition, sending a filtering instruction based on the determination result to the mail server, and executing a filtering process based on the filtering instruction by the mail server is known. (For example, refer to Patent Document 1).

また、メール配信経路上において、特定された中継装置の迷惑メール頻度情報に基づいて迷惑メールであるか否かの判定を行い、配信経路上を通って配信される電子メールが迷惑メールである場合にそれを確実に検出する技術も知られている(例えば、特許文献2参照。)。   In addition, when it is determined whether or not the mail is a junk mail based on the junk mail frequency information of the identified relay device on the mail distribution route, and the e-mail delivered through the distribution route is a junk mail In addition, a technique for reliably detecting this is also known (for example, see Patent Document 2).

さらに、データベース化されたスパムメール発信元IPアドレスを参照することによりスパムメールを判定するブラックリストベースフィルタやメール内のキーワードのマッチングによりスパムメールかどうかを判定するキーワードベースフィルタ、ベイズの定理を応用した統計処理に基づきスパムメールを判定する。特定の単語、単語グループ、バイトストリームなどが含まれているかどうかを学習し、スパムメールと通常メールを分類するベイジアンフィルタ、ヘッダを含むメールを判断材料として人手によって作られたルールに基づきスパムメールを判定するヒューリスティックルールに基づくフィルタ等の複数のフィルタ技術を組み合わせて、高い精度でメールを振り分ける技術も知られている(非特許文献1参照。)。
特開2004−171169号公報 特開2006−260515号公報 Spam Assassin、http://spamassassin.apache.org/
In addition, a blacklist-based filter that determines spam mail by referring to the spam mail sender IP address in the database, a keyword-based filter that determines spam mail by matching keywords in the mail, and Bayes' theorem are applied. The spam mail is judged based on the statistical processing. It learns whether a specific word, word group, byte stream, etc. are included, sorts spam mail from regular mail, Bayesian filter, spam mail based on rules created manually using mail containing header A technique for distributing mails with high accuracy by combining a plurality of filter techniques such as a filter based on a heuristic rule to be determined is also known (see Non-Patent Document 1).
JP 2004-171169 A JP 2006-260515 A Spam Assassin, http: // spamassin. apache. org /

しかしながら、特許文献1に記載の技術においては、システムのフィルタ条件が、電子メールの送信アドレスと返信アドレスとが不一致の場合とされているために、メーリングリストで配信された通常のメールであっても、上記の条件を満足してしまう場合があり、誤検知が生ずる可能性があるという問題がある。   However, in the technique described in Patent Document 1, since the filtering condition of the system is that the e-mail transmission address and the reply address do not match, even if it is a normal mail distributed on the mailing list The above-mentioned conditions may be satisfied, and there is a problem that erroneous detection may occur.

また、特許文献2に記載の技術においては、中継装置のアドレスのみを使用していることから、スパム業者のように送信元が一定である場合には機能するものの、ボットネット等の不特定アドレスを用いる場合には、機能しない可能性があるという問題がある。   In the technique described in Patent Document 2, since only the address of the relay device is used, it functions when the transmission source is constant like a spammer, but an unspecified address such as a botnet. When using, there is a problem that it may not function.

さらに、特許文献1に記載の技術においては、ボットネットからのスパムメールの送信により、ブラックリストが効力をなさない、あるいは、キーワードの変遷によって、キーワードデータベースフィルタをすり抜けてしまう、文章が添付ファイルや画像に組み込まれている場合、キーワードデータベース、ベイジアン、ヒューリスティックルールに基づくフィルタをすり抜けてしまう等の理由から、通常のメールがスパムメールと判定されたり、スパムメールが通常のメールとして判定されてしまうという問題がある。   Furthermore, in the technology described in Patent Document 1, the black list is not effective due to the transmission of spam mail from the botnet, or the keyword database filter is passed by the transition of the keyword. When embedded in an image, normal mail is determined to be spam mail or spam mail is determined to be normal mail for reasons such as passing through a filter based on keyword databases, Bayesian, and heuristic rules. There's a problem.

そこで、本発明は、上記事情に鑑みてなされたものであり、電子メールの受信時においてスパムメールを自動的にフィルタリングするとともに、スパムメールの誤判定を軽減できる電子メールフィルタリング装置、電子メールのフィルタリング方法およびプログラムを提供することを目的とする。   Therefore, the present invention has been made in view of the above circumstances, and automatically filters spam mail when receiving an email, and reduces an erroneous determination of spam mail, and email filtering. An object is to provide a method and a program.

本発明は、上記した課題を解決するために以下の事項を提案している。   The present invention proposes the following items in order to solve the above-described problems.

(1)本発明は、ユーザが受信した電子メールを所定のフィルタルールに従って、通常のメールとスパムメールとに分類する分類手段(例えば、図1の分類部12に相当)と、該分類されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する特徴ベクトル生成手段(例えば、図1の特徴ベクトル生成部13に相当)と、前記通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成するフィルタルール生成手段(例えば、図1のフィルタルール生成部14に相当)と、該生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する分離手段(例えば、図1の分離部15に相当)と、を備えたことを特徴とする電子メールフィルタリング装置を提案している。 (1) The present invention classifies electronic mail received by a user into normal mail and spam mail according to a predetermined filter rule (for example, equivalent to the classification unit 12 in FIG. 1), and the classified Feature vector generation means (for example, equivalent to the feature vector generation unit 13 in FIG. 1) for generating a feature vector by collating and extracting features of header information of each electronic mail, the normal mail and spam mail Filter rule generation means (for example, equivalent to the filter rule generation unit 14 in FIG. 1) that analyzes the feature vector and generates an initial filter rule, and receives received e-mail according to the generated filter rule as normal mail and spam E-mail filtering characterized by comprising separation means (e.g., equivalent to the separation unit 15 in FIG. 1) for separation into mail It has proposed a location.

この発明によれば、分類手段が、ユーザが受信した電子メールを所定のフィルタルールに従って、通常のメールとスパムメールとに分類し、特徴ベクトル生成手段が、分類されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する。フィルタルール生成手段は、通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成する。そして、分離手段が、生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する。したがって、電子メールの受信時においてスパムメールを自動的にフィルタリングするとともに、スパムメールの誤判定を軽減できる。   According to this invention, the classification means classifies the email received by the user into normal mail and spam mail according to a predetermined filter rule, and the feature vector generation means includes the header information of each classified email. The feature vector is generated by collating and extracting the features. The filter rule generation unit analyzes the feature vectors of normal mail and spam mail and generates an initial filter rule. Then, the separating means separates the received electronic mail into normal mail and spam mail according to the generated filter rule. Therefore, it is possible to automatically filter spam mails when receiving e-mails and reduce erroneous determination of spam mails.

(2)本発明は、(1)の電子メールフィルタリング装置について、前記分離した通常のメールとスパムメールとを保存する保存手段(例えば、図1の通常メール保存部16、スパムメール保存部17に相当)と、該保存手段に保存された通常のメールとスパムメールとから、ヘッダ情報の特徴の照合、抽出を行って、前記通常のメールとスパムメールの特徴ベクトルを解析し、前記生成した初期のフィルタルールを更新するフィルタルール更新手段(例えば、図1のフィルタルール更新部19に相当)と、を備えたことを特徴とする電子メールフィルタリング装置を提案している。   (2) The present invention relates to the e-mail filtering device of (1), storing means for storing the separated normal mail and spam mail (for example, in the normal mail storage unit 16 and the spam mail storage unit 17 of FIG. And the normal mail stored in the storage means and the spam mail, the characteristics of the header information are collated and extracted, the characteristic vectors of the normal mail and the spam mail are analyzed, and the generated initial The present invention proposes an e-mail filtering device characterized by comprising filter rule updating means (for example, corresponding to the filter rule updating unit 19 in FIG. 1) for updating the filter rule.

この発明によれば、保存手段が分離した通常のメールとスパムメールとを保存し、特徴ベクトル再生成手段が保存された通常のメールとスパムメールとから、ヘッダ情報の特徴の照合、抽出を行って、フィルタルール更新手段が通常のメールとスパムメールの特徴ベクトルを解析し、生成した初期のフィルタルールを更新する。したがって、常に、更新されたフィルタルールを用いることから、スパムメールの誤判定をさらに軽減できる。   According to this invention, the normal mail and spam mail separated by the storage means are stored, and the header information features are collated and extracted from the normal mail and spam mail stored by the feature vector regenerating means. Then, the filter rule update means analyzes the feature vectors of normal mail and spam mail and updates the generated initial filter rule. Therefore, since the updated filter rule is always used, the erroneous determination of spam mail can be further reduced.

(3)本発明は、(1)または(2)の電子メールフィルタリング装置について、前記特徴ベクトル生成手段(例えば、図1の特徴ベクトル生成部13に相当)が、前記電子メールのヘッダ情報のうち、少なくとも送信者のドメイン情報の特徴の照合、抽出を行って、特徴ベクトルを生成することを特徴とする電子メールフィルタリング装置を提案している。   (3) According to the present invention, in the electronic mail filtering device of (1) or (2), the feature vector generation means (for example, corresponding to the feature vector generation unit 13 in FIG. 1) The present invention proposes an electronic mail filtering device characterized by generating a feature vector by collating and extracting at least a feature of domain information of a sender.

この発明によれば、特徴ベクトル生成手段が、電子メールのヘッダ情報のうち、少なくとも送信者のドメイン情報の特徴の照合、抽出を行って、特徴ベクトルを生成する。したがって、フィールドの有無やメール内で一致する箇所と一致しない箇所、あるいはドメイン自体等に基づいて、特徴ベクトルを生成することから、簡易な処理で特徴ベクトルを生成でき、電子メールの受信時においてスパムメールを自動的にフィルタリングするとともに、スパムメールの誤判定を軽減できる。   According to this invention, the feature vector generation means generates a feature vector by collating and extracting at least the feature of the sender's domain information from the header information of the electronic mail. Therefore, since feature vectors are generated based on the presence or absence of fields, locations that do not match or match in the email, or the domain itself, feature vectors can be generated with simple processing, and spam can be received when an email is received. It can automatically filter emails and reduce spam email misjudgments.

(4)本発明は、(1)または(2)の電子メールフィルタリング装置について、前記特徴ベクトル生成手段(例えば、図5の特徴ベクトル生成部23に相当)が、前記電子メールのヘッダ情報のうち、少なくとも前記電子メールが経由したサーバ情報の特徴の照合、抽出を行って、特徴ベクトルを生成することを特徴とする電子メールフィルタリング装置を提案している。   (4) According to the present invention, in the electronic mail filtering device of (1) or (2), the feature vector generation means (for example, corresponding to the feature vector generation unit 23 in FIG. 5) The present invention proposes an e-mail filtering device characterized by generating a feature vector by collating and extracting features of server information through which at least the e-mail passes.

この発明によれば、特徴ベクトル生成手段が、電子メールのヘッダ情報のうち、少なくとも前記電子メールが経由したサーバ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する。したがって、MTAの前後関係や自称ホスト情報と実際のホスト情報の一致度合い、IPアドレス等に基づいて、特徴ベクトルを生成することから、簡易な処理で特徴ベクトルを生成でき、電子メールの受信時においてスパムメールを自動的にフィルタリングするとともに、スパムメールの誤判定を軽減できる。   According to this invention, the feature vector generation means generates a feature vector by collating and extracting at least the feature of the server information through which the electronic mail has passed through the header information of the electronic mail. Therefore, since the feature vector is generated based on the context of the MTA, the degree of coincidence between the self-named host information and the actual host information, the IP address, etc., the feature vector can be generated by a simple process, and when receiving an email It can automatically filter spam emails and reduce spam email misjudgments.

(5)本発明は、(1)または(2)の電子メールフィルタリング装置について、前記特徴ベクトル生成手段(例えば、図8の特徴ベクトル生成部33に相当)が、前記電子メールのヘッダ情報のうち、少なくとも送信者のメール環境情報の特徴の照合、抽出を行って、特徴ベクトルを生成することを特徴とする電子メールフィルタリング装置を提案している。   (5) According to the present invention, in the electronic mail filtering device of (1) or (2), the feature vector generation means (for example, corresponding to the feature vector generation unit 33 in FIG. 8) The electronic mail filtering apparatus is characterized by generating a feature vector by collating and extracting at least a feature of the sender's mail environment information.

この発明によれば、特徴ベクトル生成手段が、電子メールのヘッダ情報のうち、少なくとも送信者のメール環境情報の特徴の照合、抽出を行って、特徴ベクトルを生成する。したがって、日付や文字設定等に基づいて、特徴ベクトルを生成することから、簡易な処理で特徴ベクトルを生成でき、電子メールの受信時においてスパムメールを自動的にフィルタリングするとともに、スパムメールの誤判定を軽減できる。   According to this invention, the feature vector generation means generates a feature vector by collating and extracting at least the feature of the sender's mail environment information from the header information of the electronic mail. Therefore, since feature vectors are generated based on date, character settings, etc., feature vectors can be generated with simple processing, spam emails are automatically filtered when emails are received, and spam emails are misjudged Can be reduced.

(6)本発明は、既知のスパムメールフィルタのデフォルト設定に従って、通常のメールとスパムメールとに分類する第1のステップ(例えば、図3のステップS101に相当)と、該分類されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する第2のステップ(例えば、図3のステップS102に相当)と、前記通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成する第3のステップ(例えば、図3のステップS103に相当)と、該生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する第4のステップ(例えば、図4のステップS104、S105に相当)と、を備えたことを特徴とする電子メールのフィルタリング方法を提案している。   (6) The present invention includes a first step (for example, corresponding to step S101 in FIG. 3) for classifying the mail into a normal mail and a spam mail according to the default settings of the known spam mail filter, A second step (for example, corresponding to step S102 in FIG. 3) for collating and extracting features of the header information of the email to generate a feature vector, and analyzing the feature vectors of the normal mail and spam mail A third step of generating an initial filter rule (for example, corresponding to step S103 of FIG. 3), and a fourth step of separating received e-mail into normal mail and spam mail according to the generated filter rule Step (equivalent to steps S104 and S105 in FIG. 4), and e-mail filtering It has proposed a method.

この発明によれば、既知のスパムメールフィルタのデフォルト設定に従って、通常のメールとスパムメールとに分類し、分類されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する。そして、通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成し、生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する。したがって、既知のスパムメールフィルタのデフォルト設定に従って、通常のメールとスパムメールとを分類するため、簡易な方法で通常のメールとスパムメールとを分類することができ、また、電子メールの受信時においてスパムメールを自動的にフィルタリングするとともに、スパムメールの誤判定を軽減できる。   According to the present invention, according to the default settings of the known spam mail filter, it is classified into normal mail and spam mail, and the feature information of the header information of each classified email is collated and extracted, and the feature vector is obtained. Generate. Then, the characteristic vectors of normal mail and spam mail are analyzed, an initial filter rule is generated, and the received electronic mail is separated into normal mail and spam mail according to the generated filter rule. Therefore, regular mail and spam mail are classified according to the default settings of the known spam mail filter, so it is possible to classify regular mail and spam mail in a simple way, and when receiving email It can automatically filter spam emails and reduce spam email misjudgments.

(7)本発明は、既知のスパムメールフィルタの判定基準をデフォルト値よりも高く設定した条件でフィルタリングされた電子メールをスパムメールとし、既知のスパムメールフィルタの判定基準をデフォルト値よりも低く設定した条件でフィルタリングされた電子メールを通常のメールとして分類する第1のステップ(例えば、図6のステップS201に相当)と、該分類されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する第2のステップ(例えば、図6のステップS202に相当)と、前記通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成する第3のステップ(例えば、図6のステップS203に相当)と、該生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する第4のステップ(例えば、図7のステップS204からS207に相当)と、を備えたことを特徴とする電子メールのフィルタリング方法を提案している。   (7) According to the present invention, an e-mail filtered under the condition that the determination criterion of the known spam mail filter is set higher than the default value is set as spam mail, and the determination criterion of the known spam mail filter is set lower than the default value. A first step (for example, corresponding to step S201 in FIG. 6) of classifying an email filtered under the above conditions as a normal email, and collating and extracting features of header information of each classified email And a second step of generating feature vectors (for example, corresponding to step S202 of FIG. 6), and a third step of analyzing the feature vectors of the normal mail and spam mail and generating an initial filter rule (For example, corresponding to step S203 in FIG. 6) and receiving according to the generated filter rule A fourth step of separating child mail into normal mail and spam mail (for example, corresponding to steps S204 to S207 in FIG. 7) is proposed. .

この発明によれば、既知のスパムメールフィルタの判定基準をデフォルト値よりも高く設定した条件でフィルタリングされた電子メールをスパムメールとし、既知のスパムメールフィルタの判定基準をデフォルト値よりも低く設定した条件でフィルタリングされた電子メールを通常のメールとして分類し、分類されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する。そして、通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成し、生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する。したがって、既知のスパムメールフィルタの判定基準をデフォルト値よりも高く設定した条件でフィルタリングされた電子メールをスパムメールとし、既知のスパムメールフィルタの判定基準をデフォルト値よりも低く設定した条件でフィルタリングされた電子メールを通常のメールとして分類するため、確実に通常のメールとスパムメールとを判別でき、また、電子メールの受信時においてスパムメールを自動的にフィルタリングするとともに、スパムメールの誤判定を軽減できる。   According to the present invention, an email filtered under the condition that the determination criterion of the known spam mail filter is set higher than the default value is defined as spam mail, and the determination criterion of the known spam mail filter is set lower than the default value. The e-mail filtered by the condition is classified as a normal mail, and the feature information is generated by collating and extracting the features of the header information of each classified e-mail. Then, the characteristic vectors of normal mail and spam mail are analyzed, an initial filter rule is generated, and the received electronic mail is separated into normal mail and spam mail according to the generated filter rule. Therefore, e-mail filtered under the condition that the criterion of the known spam mail filter is set higher than the default value is regarded as spam mail, and is filtered under the condition that the criterion of the known spam mail filter is set lower than the default value. E-mails are classified as regular mails, so regular mails and spam mails can be reliably distinguished, and spam mails are automatically filtered when receiving e-mails, reducing false judgments of spam mails. it can.

(8)本発明は、ウェブ上で公開されているスパムメールを収集するとともに、ユーザのメールボックス内にある電子メールを通常のメールとして収集する第1のステップ(例えば、図9のステップS301に相当)と、該収集されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する第2のステップ(例えば、図9のステップS302に相当)と、前記通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成する第3のステップ(例えば、図9のステップS303に相当)と、該生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する第4のステップ(例えば、図10のステップS304、S305に相当)と、を備えたことを特徴とする電子メールのフィルタリング方法を提案している。   (8) The present invention collects spam mails published on the web, and collects e-mails in the user's mailbox as normal mails (for example, in step S301 in FIG. 9). A second step (for example, corresponding to step S302 in FIG. 9) for generating a feature vector by collating and extracting features of header information of each collected e-mail, Analyzing the feature vectors of mail and spam mail and generating an initial filter rule (for example, equivalent to step S303 in FIG. 9), and in accordance with the generated filter rule, receive e-mail as a normal mail And a fourth step (for example, equivalent to steps S304 and S305 in FIG. 10) for separating the mail into spam mails. It has proposed a method of filtering e-mail which is characterized.

この発明によれば、ウェブ上で公開されているスパムメールを収集するとともに、ユーザのメールボックス内にある電子メールを通常のメールとして収集し、収集されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する。そして、通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成し、生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する。したがって、ウェブ上で公開されているスパムメールを収集するとともに、ユーザのメールボックス内にある電子メールを通常のメールとして収集して、通常のメールとスパムメールとを分類するため、確実に通常のメールとスパムメールとを判別でき、また、電子メールの受信時においてスパムメールを自動的にフィルタリングするとともに、スパムメールの誤判定を軽減できる。   According to the present invention, the spam mails published on the web are collected, the electronic mails in the user's mailbox are collected as normal mails, and the header information of each collected electronic mail is characterized. A feature vector is generated by performing collation and extraction. Then, the characteristic vectors of normal mail and spam mail are analyzed, an initial filter rule is generated, and the received electronic mail is separated into normal mail and spam mail according to the generated filter rule. Therefore, it collects spam emails published on the web and collects emails in the user's mailbox as regular emails to classify regular emails and spam emails, ensuring that Mail and spam mail can be discriminated, and spam mail is automatically filtered when an e-mail is received, and erroneous determination of spam mail can be reduced.

(9)本発明は、電子メールのフィルタリング方法をコンピュータに実行させるためのプログラムであって、既知のスパムメールフィルタのデフォルト設定に従って、通常のメールとスパムメールとに分類する第1のステップ(例えば、図3のステップS101に相当)と、該分類されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する第2のステップ(例えば、図3のステップS102に相当)と、前記通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成する第3のステップ(例えば、図3のステップS103に相当)と、該生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する第4のステップ(例えば、図4のステップS104、S105に相当)と、をコンピュータに実行させるためのプログラムを提案している。   (9) The present invention is a program for causing a computer to execute an e-mail filtering method, and a first step (for example, classifying into normal e-mail and spam e-mail according to a default setting of a known spam e-mail filter) , Corresponding to step S101 in FIG. 3) and a second step (for example, in step S102 in FIG. 3) to generate a feature vector by collating and extracting features of header information of each classified e-mail. The third step (equivalent to step S103 in FIG. 3) for analyzing the feature vectors of the normal mail and spam mail and generating an initial filter rule, and receiving according to the generated filter rule The fourth step (for example, the step of FIG. 4) for separating the e-mail to be processed into normal mail and spam mail. We propose a program for executing the corresponding) to flop S104, S105, to the computer.

この発明によれば、既知のスパムメールフィルタのデフォルト設定に従って、通常のメールとスパムメールとに分類し、分類されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する。そして、通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成し、生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する。したがって、既知のスパムメールフィルタのデフォルト設定に従って、通常のメールとスパムメールとを分類するため、簡易な方法で通常のメールとスパムメールとを分類することができ、また、電子メールの受信時においてスパムメールを自動的にフィルタリングするとともに、スパムメールの誤判定を軽減できる。   According to the present invention, according to the default settings of the known spam mail filter, it is classified into normal mail and spam mail, and the feature information of the header information of each classified email is collated and extracted, and the feature vector is obtained. Generate. Then, the characteristic vectors of normal mail and spam mail are analyzed, an initial filter rule is generated, and the received electronic mail is separated into normal mail and spam mail according to the generated filter rule. Therefore, regular mail and spam mail are classified according to the default settings of the known spam mail filter, so it is possible to classify regular mail and spam mail in a simple way, and when receiving email It can automatically filter spam emails and reduce spam email misjudgments.

(10)本発明は、電子メールのフィルタリング方法をコンピュータに実行させるためのプログラムであって、既知のスパムメールフィルタの判定基準をデフォルト値よりも高く設定した条件でフィルタリングされた電子メールをスパムメールとし、既知のスパムメールフィルタの判定基準をデフォルト値よりも低く設定した条件でフィルタリングされた電子メールを通常のメールとして分類する第1のステップ(例えば、図6のステップS201に相当)と、該分類されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する第2のステップ(例えば、図6のステップS202に相当)と、前記通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成する第3のステップ(例えば、図6のステップS203に相当)と、該生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する第4のステップ(例えば、図7のステップS204からS207に相当)と、をコンピュータに実行させるためのプログラムを提案している。   (10) The present invention is a program for causing a computer to execute an e-mail filtering method. An e-mail filtered under a condition in which a determination criterion of a known spam mail filter is set higher than a default value is spam mail. A first step (for example, corresponding to step S201 in FIG. 6) of classifying an email filtered as a normal email under a condition in which a known spam mail filter criterion is set lower than the default value; A second step (for example, equivalent to step S202 in FIG. 6) of collating and extracting features of header information of each classified email to generate a feature vector, and the normal email and spam email A third step of analyzing the feature vector and generating an initial filter rule ( For example, it corresponds to step S203 in FIG. 6 and a fourth step (for example, corresponding to steps S204 to S207 in FIG. 7) for separating received e-mail into normal mail and spam mail according to the generated filter rule. ) And a program for causing a computer to execute.

この発明によれば、既知のスパムメールフィルタの判定基準をデフォルト値よりも高く設定した条件でフィルタリングされた電子メールをスパムメールとし、既知のスパムメールフィルタの判定基準をデフォルト値よりも低く設定した条件でフィルタリングされた電子メールを通常のメールとして分類し、分類されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する。そして、通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成し、生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する。したがって、既知のスパムメールフィルタの判定基準をデフォルト値よりも高く設定した条件でフィルタリングされた電子メールをスパムメールとし、既知のスパムメールフィルタの判定基準をデフォルト値よりも低く設定した条件でフィルタリングされた電子メールを通常のメールとして分類するため、確実に通常のメールとスパムメールとを判別でき、また、電子メールの受信時においてスパムメールを自動的にフィルタリングするとともに、スパムメールの誤判定を軽減できる。   According to the present invention, an email filtered under the condition that the determination criterion of the known spam mail filter is set higher than the default value is defined as spam mail, and the determination criterion of the known spam mail filter is set lower than the default value. The e-mail filtered by the condition is classified as a normal mail, and the feature information is generated by collating and extracting the features of the header information of each classified e-mail. Then, the characteristic vectors of normal mail and spam mail are analyzed, an initial filter rule is generated, and the received electronic mail is separated into normal mail and spam mail according to the generated filter rule. Therefore, e-mail filtered under the condition that the criterion of the known spam mail filter is set higher than the default value is regarded as spam mail, and is filtered under the condition that the criterion of the known spam mail filter is set lower than the default value. E-mails are classified as regular mails, so regular mails and spam mails can be reliably distinguished, and spam mails are automatically filtered when receiving e-mails, reducing false judgments of spam mails. it can.

(11)本発明は、電子メールのフィルタリング方法をコンピュータに実行させるためのプログラムであって、ウェブ上で公開されているスパムメールを収集するとともに、ユーザのメールボックス内にある電子メールを通常のメールとして収集する第1のステップ(例えば、図9のステップS301に相当)と、該収集されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する第2のステップ(例えば、図9のステップS302に相当)と、前記通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成する第3のステップ(例えば、図9のステップS303に相当)と、該生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する第4のステップ(例えば、図10のステップS304、S305に相当)と、をコンピュータに実行させるためのプログラムを提案している。   (11) The present invention is a program for causing a computer to execute an e-mail filtering method, collecting spam e-mails published on the web, and e-mails in a user's mailbox. A first step (for example, corresponding to step S301 in FIG. 9) that is collected as mail, and a feature vector is generated by collating and extracting features of header information of each collected email. Step (for example, equivalent to step S302 in FIG. 9), and a third step for analyzing the normal mail and spam mail feature vectors and generating an initial filter rule (for example, equivalent to step S303 in FIG. 9) And separating received e-mail into normal mail and spam mail according to the generated filter rule. The fourth step (e.g., corresponding to step S304, S305 of FIG. 10) proposes a program for executing a, to the computer.

この発明によれば、ウェブ上で公開されているスパムメールを収集するとともに、ユーザのメールボックス内にある電子メールを通常のメールとして収集し、収集されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する。そして、通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成し、生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する。したがって、ウェブ上で公開されているスパムメールを収集するとともに、ユーザのメールボックス内にある電子メールを通常のメールとして収集して、通常のメールとスパムメールとを分類するため、確実に通常のメールとスパムメールとを判別でき、また、電子メールの受信時においてスパムメールを自動的にフィルタリングするとともに、スパムメールの誤判定を軽減できる。   According to the present invention, the spam mails published on the web are collected, the electronic mails in the user's mailbox are collected as normal mails, and the header information of each collected electronic mail is characterized. A feature vector is generated by performing collation and extraction. Then, the characteristic vectors of normal mail and spam mail are analyzed, an initial filter rule is generated, and the received electronic mail is separated into normal mail and spam mail according to the generated filter rule. Therefore, it collects spam emails published on the web and collects emails in the user's mailbox as regular emails to classify regular emails and spam emails, ensuring that Mail and spam mail can be discriminated, and spam mail is automatically filtered when an e-mail is received, and erroneous determination of spam mail can be reduced.

本発明によれば、過去のスパムメールの特徴を参照できるため、一度、スパムメールと判定された発信元からの電子メールや既知のスパムメールに関連する情報をもつ電子メールを確実に遮断することができるという効果がある。   According to the present invention, since it is possible to refer to the characteristics of past spam mails, it is possible to reliably block electronic mails from senders that have been determined to be spam mails or emails having information related to known spam mails. There is an effect that can be.

本発明によれば、過去のスパムメールや既知のスパムメールを参照できるため、画像やキーワードを変更する等、時間の経過とともに、手法を変化させるスパムメールの送信者に対しても、有効に対応することができるという効果がある。   According to the present invention, since it is possible to refer to past spam mails and known spam mails, it is possible to effectively deal with spam mail senders whose methods change over time, such as changing images and keywords. There is an effect that can be done.

本発明によれば、電子メール内のヘッダ部分の特徴のみを参照するため、画像やキーワードを変更する等、時間の経過とともに、手法を変化させるスパムメールの送信者に対しても、有効に対応することができるという効果がある。   According to the present invention, since only the characteristics of the header part in the e-mail are referred to, it is possible to effectively deal with spam mail senders that change the technique over time, such as changing images and keywords. There is an effect that can be done.

本発明によれば、電子メール内のヘッダ部分の特徴を参照するため、スパムメールと送信方法の特徴が似ているボットネット等についても、的確に、フィルタリングを行うことができるという効果がある。   According to the present invention, since the characteristics of the header part in the electronic mail are referred to, there is an effect that filtering can be performed accurately even for a botnet or the like having similar characteristics to the spam mail and the transmission method.

社内システム等の小規模ネットワークに対応した独自のフィルタを生成することができるという効果がある。また、一般に、利用されているフィルタと連携することにより、より高精度化することも可能である。   There is an effect that a unique filter corresponding to a small network such as an in-house system can be generated. In general, higher accuracy can be achieved by cooperating with a used filter.

以下、本発明の実施形態について、図面を用いて、詳細に説明する。
なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
Note that the constituent elements in the present embodiment can be appropriately replaced with existing constituent elements, and various variations including combinations with other existing constituent elements are possible. Therefore, the description of the present embodiment does not limit the contents of the invention described in the claims.

<第1の実施形態>
図1から図4および図11を用いて、本実施形態に係る電子メールフィルタリング装置について説明する。
<First Embodiment>
The electronic mail filtering apparatus according to this embodiment will be described with reference to FIGS. 1 to 4 and FIG.

<電子メールフィルタリング装置の構成>
本実施形態に係る電子メールフィルタリング装置は、図1に示すように、メール受信部11と、分類部12と、特徴ベクトル生成部13と、フィルタルール生成部14と、分離部15と、通常メール保存部16と、スパムメール保存部17と、フィルタルール更新部19とから構成されている。
<Configuration of e-mail filtering device>
As shown in FIG. 1, the electronic mail filtering device according to the present embodiment includes a mail receiving unit 11, a classification unit 12, a feature vector generation unit 13, a filter rule generation unit 14, a separation unit 15, and a normal mail. The storage unit 16 includes a spam mail storage unit 17 and a filter rule update unit 19.

分類部12は、ユーザがメール受信部11において受信した電子メールを所定のフィルタルールに従って、通常のメールとスパムメールとに分類し、スパムメールと通常のメールのデータセットを作成する。本実施形態では、上記所定のフィルタルールとして、既知のスパムメールフィルタのデフォルト設定を用いる例を説明する。これにより、簡易な方法で通常のメールと既知のスパムメールのデータセットを作成することができる。   The classification unit 12 classifies the electronic mail received by the user at the mail reception unit 11 into a normal mail and a spam mail according to a predetermined filter rule, and creates a data set of the spam mail and the normal mail. In the present embodiment, an example in which the default setting of a known spam mail filter is used as the predetermined filter rule will be described. This makes it possible to create a normal mail and a known spam mail data set by a simple method.

なお、上記所定のフィルタルールは、これに限らず、既知のスパムメールフィルタの判定基準をデフォルト値よりも高く設定した条件でフィルタリングされた電子メールをスパムメールとし、既知のスパムメールフィルタの判定基準をデフォルト値よりも低く設定した条件でフィルタリングされた電子メールを通常のメールとするものでもよいし、ウェブ上で公開されているスパムメールを収集するとともに、ユーザのメールボックス内にある電子メールを通常のメールとして収集することにより分類する方法であってもよい。   The predetermined filter rule is not limited to this, and an e-mail filtered under a condition in which a determination criterion of a known spam mail filter is set higher than a default value is regarded as spam mail, and a determination criterion of a known spam mail filter E-mail filtered under the condition that is set to a value lower than the default value may be used as normal mail, spam e-mail published on the web is collected, and e-mail in the user's mailbox is collected. A method of classification by collecting as normal mail may be used.

特徴ベクトル生成部13は、分類部12において分類されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する。本実施形態では、電子メールのヘッダ情報のうち、送信者のドメイン情報の特徴の照合、抽出を行って、特徴ベクトルを生成する例について説明する。図11の例では、「Return−Path:<test@example.com>」や「from example2.com」、Message−Id:<200709121116.18CBGDr9020678@example.com>等の特徴の照合、抽出を行って、特徴ベクトルを生成する。これにより、フィールドの有無やメール内で一致する箇所と一致しない箇所、あるいはドメイン自体等に基づいて、特徴ベクトルを生成することから、簡易な処理で特徴ベクトルを生成できる。   The feature vector generation unit 13 collates and extracts features of the header information of each electronic mail classified by the classification unit 12 to generate a feature vector. In the present embodiment, an example will be described in which feature vectors are generated by collating and extracting features of sender's domain information from the header information of an email. In the example of FIG. 11, “Return-Path: <test@example.com>” or “from example2.com”, Message-Id: <200709121116.18CBGDr9020678@example. The feature vector is generated by collating and extracting features such as com>. Thereby, since the feature vector is generated based on the presence / absence of the field, the location that does not match the location in the mail, or the domain itself, the feature vector can be generated by a simple process.

なお、ヘッダ情報としては、これに限らず、電子メールが経由したサーバ情報、送信者のメール環境情報等によってもよい。   The header information is not limited to this, but may be server information through which an e-mail passes, mail environment information of a sender, or the like.

フィルタルール生成部14は、既知のスパムメールと通常のメールの特徴ベクトルを解析し、初期のフィルタルールを生成する。初期のフィルタルールを生成する。分離部15は、生成したフィルタルールに従って、メール受信部11が受信する電子メールを通常のメールとスパムメールとに分離する。通常メール保存部16は、分離部15が、分離した通常のメールを保存する。スパムメール保存部17は、分離部15が、分離したスパムメールを保存する。   The filter rule generation unit 14 analyzes feature vectors of known spam mail and normal mail, and generates an initial filter rule. Generate initial filter rules. The separating unit 15 separates the electronic mail received by the mail receiving unit 11 into normal mail and spam mail according to the generated filter rule. The normal mail storage unit 16 stores the normal mail separated by the separation unit 15. The spam mail storage unit 17 stores the spam mail separated by the separation unit 15.

ここで、通常メール保存部16およびスパムメール保存部17における通常メール、スパムメールの特徴ベクトルのデータベース化には、図2に示すように、例えば、以下のような方法がある。なお、メール自体をデータベース化して保存するようにしてもよい。   Here, as shown in FIG. 2, for example, there are the following methods for creating a database of feature vectors of normal mail and spam mail in the normal mail storage unit 16 and the spam mail storage unit 17, as shown in FIG. The mail itself may be stored in a database.

データベース化の方法としては、図2(a)に示すように、電子メールそれぞれの特徴ベクトルをそのままデータベース化する方法である。ここで、mail1、mail2、mail3、mail4は、メール受信部11が受信したメールを、wは、Return−Pathドメイン(例えば、○○○.com)を、xはFromドメイン(例えば、○○○.com)を、yはFromドメイン(例えば、△△△.com)を、zはMessage−IDドメイン(例えば、○○○.co.jp)を示している。   As a method for creating a database, as shown in FIG. 2A, each feature vector of each e-mail is converted into a database as it is. Here, mail1, mail2, mail3, and mail4 are mails received by the mail receiving unit 11, w is a Return-Path domain (for example, XXX.com), and x is a From domain (for example, XXX). .Com), y indicates a From domain (for example, ΔΔΔ.com), and z indicates a Message-ID domain (for example, OO.co.jp).

図2(b)は、特徴ベクトルと特徴ベクトル内の数をマトリクス化してデータベース化する方法である。ここで、特徴ベクトルとしては、例えば、○○○.com、□□□.com、FromフィールドのdomainとReturn−Pathフィールドのdomainが一致?が例示され、wはReturn−Pathドメインの数、xはFromドメインの数を、yはyesの数を示している。   FIG. 2B is a method of creating a database by matrixing the feature vectors and the numbers in the feature vectors. Here, as the feature vector, for example, XXX. com, □□□. The domain of the com and From fields matches the domain of the Return-Path field? , W is the number of Return-Path domains, x is the number of From domains, and y is the number of yes.

図2(c)は、メールヘッダのすべてをデータベース化する方法である。ここで、wは、Return−Pathドメインを、xはFromドメインを、yはMessage−IDドメインを、zは、IP addressを例示しており、この例では、mail1のReturn−Pathドメインが「○○○.com」、Fromドメインが「○○○.co.jp」、Message−IDドメインが「−」、IP addressが「100.100.X.X」であり、mail2のReturn−Pathドメインが「○○○.com」、Fromドメインが「△△△.com」、Message−IDドメインが「△△△.com」、IP addressが「100.100.X.Y」であり、mail3のReturn−Pathドメインが「×××.com」、Fromドメインが「□□□.com」、Message−IDドメインが「−」、IP addressが「100.100.X.Z」であり、mail4のReturn−Pathドメインが「△△△.com」、Fromドメインが「−」、Message−IDドメインが「−」、IP addressが「100.X.X.X」であることが示されている。   FIG. 2C shows a method for creating a database of all the mail headers. Here, w is a Return-Path domain, x is a From domain, y is a Message-ID domain, and z is an IP address. In this example, the Return-Path domain of mail1 is “◯”. XX.com ”, the From domain is“ XXX.co.jp ”, the Message-ID domain is“ − ”, the IP address is“ 100.100.XX ”, and the return-Path domain of mail2 is “XXX”, the From domain is “ΔΔΔ.com”, the Message-ID domain is “ΔΔΔ.com”, and the IP address is “100.100.XY”. -Path domain is “xxx.com”, From domain is “□□□ .com” The Message-ID domain is “-”, the IP address is “100.100.X.Z”, the Return-Path domain of mail4 is “ΔΔΔ.com”, the From domain is “-”, and the Message-ID domain. Is “-” and the IP address is “100.X.X.X”.

フィルタルール更新部19は、通常のメールとスパムメールの特徴ベクトルを解析し、フィルタルールを更新する。これにより、スパムメールの誤判定をさらに軽減できる。なお、通常メール保存部16とスパムメール保存部17とに、メール自体を保存する場合には、これらの電子メールのヘッダ情報に基づいて、特徴ベクトルを再生成して、フィルタルールを更新してもよい。   The filter rule update unit 19 analyzes the feature vectors of normal mail and spam mail and updates the filter rule. This can further reduce spam mail misjudgment. When storing the mail itself in the normal mail storage unit 16 and the spam mail storage unit 17, the feature vector is regenerated based on the header information of these emails, and the filter rule is updated. Also good.

<電子メールフィルタリング装置の処理>
図3および図4を用いて、本実施形態に係る電子メールフィルタリング装置の処理について説明する。なお、本実施形態に係る電子メールフィルタリング装置の処理については、初期フィルタルールの作成手順と、生成したフィルタルールによって、スパムメールと通常のメールとを分類する手順とに分けて説明する。
<Processing of e-mail filtering device>
Processing of the e-mail filtering apparatus according to the present embodiment will be described with reference to FIGS. 3 and 4. The processing of the e-mail filtering apparatus according to the present embodiment will be described separately in the procedure for creating the initial filter rule and the procedure for classifying spam mail and normal mail according to the generated filter rule.

<初期フィルタルールの作成手順>
まず、分類部12がメール受信部11において受信した電子メールを既存のフィルタルールに基づいて、通常のメールとスパムメールとに分類する(ステップS101)。特徴ベクトル生成部13は、分類部12において分類されたそれぞれの電子メールのヘッダ情報のうち、送信者のドメイン情報の特徴を照合して、特徴ベクトルを生成する(ステップS102)。
<Initial filter rule creation procedure>
First, the classification unit 12 classifies electronic mails received by the mail reception unit 11 into normal mails and spam mails based on existing filter rules (step S101). The feature vector generation unit 13 collates the feature of the sender's domain information among the header information of each email classified by the classification unit 12 to generate a feature vector (step S102).

フィルタルール生成部14は、特徴ベクトル生成部13が生成した既知のスパムメール、通常のメールの特徴ベクトルを解析して、初期のフィルタルールを生成する(ステップS103)。   The filter rule generation unit 14 analyzes the feature vectors of the known spam mail and normal mail generated by the feature vector generation unit 13 and generates an initial filter rule (step S103).

<スパムメールと通常のメールとの分類手順>
ある電子メールがフィルタルール生成部14により生成された初期のフィルタルールによりスパムメールと判定されるか否かを検証する(ステップS104)。
<Classification of spam mail and normal mail>
It is verified whether or not a certain e-mail is determined as a spam mail by the initial filter rule generated by the filter rule generation unit 14 (step S104).

このとき、スパムメールであると判定された場合には(ステップS104の「Yes」)、さらに、ユーザがこの電子メールを通常のメールと判断するか否かを確認し(ステップS105)、ユーザがこの電子メールを通常のメールでないと判断した場合(ステップS105の「No」)には、この電子メールをスパムメール保存部17に保存する(ステップS106)。   At this time, if it is determined that the email is a spam mail (“Yes” in step S104), the user confirms whether or not the electronic mail is determined as a normal mail (step S105). If it is determined that the electronic mail is not a normal mail (“No” in step S105), the electronic mail is stored in the spam mail storage unit 17 (step S106).

一方で、ステップS104において、スパムメールではないと判定された場合(ステップS104の「No」)およびステップS104において、スパムメールであると判定(ステップS104の「Yes」)されたが、ステップS105において、ユーザがこの電子メールを通常のメールであると判断した場合(ステップS105の「Yes」)には、この電子メールを通常メール保存部16に保存する。なお、フィルタリングの処理後に、通常メール保存部16、スパムメール保存部17にそれぞれデータが追加され、最新の通常メール保存部16およびスパムメール保存部17内のデータベースに基づいて、特徴ベクトル再生成部18とフィルタルール更新部19とによって、フィルタルールが順次更新される。   On the other hand, when it is determined in step S104 that it is not spam mail (“No” in step S104) and in step S104, it is determined that it is spam mail (“Yes” in step S104), but in step S105. When the user determines that the e-mail is a normal mail (“Yes” in step S105), the e-mail is stored in the normal mail storage unit 16. Note that after filtering processing, data is added to the normal mail storage unit 16 and the spam mail storage unit 17, respectively, and the feature vector regeneration unit is based on the latest normal mail storage unit 16 and the database in the spam mail storage unit 17. 18 and the filter rule update unit 19 sequentially update the filter rules.

したがって、本実施形態によれば、既知のスパムメールフィルタのデフォルト設定に従って、通常のメールとスパムメールとを分類するため、簡易な方法で既知のスパムメール、通常のメールのデータセットを作成し、初期のフィルタルールを作成することができ、また、電子メールの受信時においてスパムメールを自動的にフィルタリングするとともに、スパムメールの誤判定を軽減できる。   Therefore, according to the present embodiment, in order to classify normal mail and spam mail according to the default settings of the known spam mail filter, a data set of known spam mail and normal mail is created by a simple method, An initial filter rule can be created, and spam mail is automatically filtered when an e-mail is received, and erroneous determination of spam mail can be reduced.

<第2の実施形態>
図5から図7および図11を用いて、本実施形態に係る電子メールフィルタリング装置について説明する。
<Second Embodiment>
The e-mail filtering device according to the present embodiment will be described with reference to FIGS. 5 to 7 and FIG.

<電子メールフィルタリング装置の構成>
本実施形態に係る電子メールフィルタリング装置は、図5に示すように、メール受信部11と、分類部22と、特徴ベクトル生成部23と、フィルタルール生成部14と、分離部15と、通常メール保存部16と、スパムメール保存部17と、フィルタルール更新部19とから構成されている。なお、第1の実施形態と同一の符号を付す構成要素に関しては、同一の機能を有することから、その詳細な説明は省略する。
<Configuration of e-mail filtering device>
As shown in FIG. 5, the e-mail filtering apparatus according to the present embodiment includes a mail receiving unit 11, a classification unit 22, a feature vector generation unit 23, a filter rule generation unit 14, a separation unit 15, and a normal mail. The storage unit 16 includes a spam mail storage unit 17 and a filter rule update unit 19. In addition, about the component which attaches | subjects the same code | symbol as 1st Embodiment, since it has the same function, the detailed description is abbreviate | omitted.

分類部22は、ユーザがメール受信部11において受信した電子メールを所定のフィルタルールに従って、通常のメールとスパムメールとに分類する。本実施形態では、上記所定のフィルタルールとして、既知のスパムメールフィルタの判定基準をデフォルト値よりも高く設定した条件でフィルタリングされた電子メールをスパムメールとし、既知のスパムメールフィルタの判定基準をデフォルト値よりも低く設定した条件でフィルタリングされた電子メールを通常のメールとするフィルタルールを用いる例を説明する。これにより、確実に通常のメールとスパムメールとを判別できる。   The classification unit 22 classifies the electronic mail received by the user at the mail reception unit 11 into normal mail and spam mail according to a predetermined filter rule. In the present embodiment, as the predetermined filter rule, an email filtered under a condition in which the determination criterion of the known spam mail filter is set higher than the default value is defined as spam mail, and the determination criterion of the known spam mail filter is the default. An example of using a filter rule in which an e-mail filtered under a condition set lower than the value is a normal mail will be described. Thereby, it is possible to reliably discriminate between normal mail and spam mail.

なお、上記所定のフィルタルールは、これに限らず、既知のスパムメールフィルタのデフォルト設定を用いたものでもよいし、ウェブ上で公開されているスパムメールを収集するとともに、ユーザのメールボックス内にある電子メールを通常のメールとして収集することにより分類する方法であってもよい。   Note that the predetermined filter rule is not limited to this, and may be one using a default setting of a known spam mail filter, collecting spam mail published on the web, and storing it in the user's mailbox. A method of classifying certain electronic mails by collecting them as normal mails may be used.

特徴ベクトル生成部13は、分類部12において分類されたそれぞれの電子メールのヘッダ情報の特徴の照合を行って、特徴ベクトルを生成する。本実施形態では、電子メールのヘッダ情報のうち、電子メールが経由したサーバ情報の特徴の照合を行って、特徴ベクトルを生成する例について説明する。図11の例では、「Received:from example2.com by example2.com(8.14.1/8.12.11)with ESMTP id 18CBGedj207111 for <test2@example3.com>;Wed,12 Sep 2007 20:16:40 +0900」や「Received:by example4.com(Postfix) id 51A59EC8EB;Wed,12 Sep 2007 11:27:56 +0900(JST)」、「Received:from localhost(localhost[127.0.0.1]) by example4.com(Postfix) with ESMTP id 35D6CEC8D9 for <test2@example3.com>;Wed,12 Sep 2007 11:27:56 +0900(JST)」、「Received: from example.com(example111.com[XXX.XXX.XXX.XXX]) by example5.com(8.14.1/8.12.11) with SMTP id 18CBGDr9020678 for <test2@example3.com> ; Wed,12 Sep 2007 20:16:13 +0900」、「Received: from example5.com by example.com(8.14.1/8.12.11) with SMTP id 18CBGDr9020678for <test2@example3.com> ;Wed,12 Sep 2007 20:16:13 +0900」等の特徴の照合を行って、特徴ベクトルを生成する。これにより、MTAの前後関係や自称ホスト情報と実際のホスト情報の一致の度合、IPアドレス等に基づいて、特徴ベクトルを生成することから、簡易な処理で特徴ベクトルを生成できる。   The feature vector generation unit 13 collates the features of the header information of each electronic mail classified by the classification unit 12 to generate a feature vector. In the present embodiment, an example will be described in which the feature vector is generated by collating the features of the server information through which the e-mail passes out of the header information of the e-mail. In the example of FIG. 11, “Received: from example2.com by example2.com (8.14.1 / 8.12.11) with ESMTP id 18CBDGdj207111 for <test2@example3.com>; Wed, 12 Sep 2007: 16:40 +0900 "or" Received: by example4.com (Postfix) id 51A59EC8EB; Wed, 12 Sep 2007 11:27:56 +0900 (JST) "," Received: from localhost. ]) By example4.com (Postfix) with ESMTP id 35D6CEC8D9 for <t st2@example3.com>; Wed, 12 Sep 2007 11:27:56 +0900 (JST) "," Received: from example.com (example111.com [XXX.XXX.XXX.XXX.XXX]) by example8. 14.1 / 8 / 8.11) with SMTP id 18CBGDr9020678 for <test2@example3.com>; Wed, 12 Sep 2007 20:16:13 +0900 ”,“ Received: from example5.comb. 14.1 / 8.11.11) with SMTP id 18CBGDr9020678for <test2@example3.com>; Wed, 12 Sep 2 07 20:16:13 +0900 ", and the like by performing a collation of the features of, and generates a feature vector. Thereby, since the feature vector is generated based on the context of the MTA, the degree of matching between the self-named host information and the actual host information, the IP address, etc., the feature vector can be generated by simple processing.

なお、ヘッダ情報としては、これに限らず、送信者のドメイン情報、送信者のメール環境情報等によってもよい。   The header information is not limited to this, but may be sender domain information, sender mail environment information, or the like.

また、通常メール保存部16とスパムメール保存部17とに、メール自体を保存する場合には、これらの電子メールのヘッダ情報に基づいて、特徴ベクトルを再生成して、フィルタルールを更新してもよい。   In addition, when storing the mail itself in the normal mail storage unit 16 and the spam mail storage unit 17, the feature vector is regenerated based on the header information of these emails, and the filter rule is updated. Also good.

<電子メールフィルタリング装置の処理>
図6および図7を用いて、本実施形態に係る電子メールフィルタリング装置の処理について説明する。なお、本実施形態に係る電子メールフィルタリング装置の処理については、初期フィルタルールの作成手順と、生成したフィルタルールによって、スパムメールと通常のメールとを分類する手順とに分けて説明する。
<Processing of e-mail filtering device>
The processing of the e-mail filtering device according to this embodiment will be described with reference to FIGS. The processing of the e-mail filtering apparatus according to the present embodiment will be described separately in the procedure for creating the initial filter rule and the procedure for classifying spam mail and normal mail according to the generated filter rule.

<初期フィルタルールの作成手順>
まず、分類部12がメール受信部11において受信した電子メールを既知のスパムメールフィルタの判定基準をデフォルト値よりも高く設定した条件でフィルタリングされた電子メールをスパムメールとし、既知のスパムメールフィルタの判定基準をデフォルト値よりも低く設定した条件でフィルタリングされた電子メールを通常のメールとして分類する(ステップS201)。特徴ベクトル生成部13は、分類部12において分類されたそれぞれの電子メールのヘッダ情報のうち、送信者のドメイン情報の特徴を照合して、特徴ベクトルを生成する(ステップS202)。
<Initial filter rule creation procedure>
First, the e-mail received by the classifying unit 12 at the mail receiving unit 11 under the condition that the determination criterion of the known spam mail filter is set higher than the default value is defined as spam mail, and the known spam mail filter The e-mail filtered under the condition that the determination criterion is set lower than the default value is classified as a normal mail (step S201). The feature vector generation unit 13 collates the feature of the sender's domain information among the header information of each electronic mail classified by the classification unit 12, and generates a feature vector (step S202).

フィルタルール生成部14は、特徴ベクトル生成部13が生成した通常のメールとスパムメールの特徴ベクトルを解析して、初期のフィルタルールを生成する(ステップS203)。   The filter rule generation unit 14 analyzes the normal mail and spam mail feature vectors generated by the feature vector generation unit 13 and generates an initial filter rule (step S203).

<スパムメールと通常のメールとの分類手順>
まず、ある電子メールの値が既存フィルタのデフォルト値よりも高い値の電子メールであるか、あるいは低い値の電子メールであるかが判断される(ステップS204)。そして、この電子メールの値が既存フィルタのデフォルト値よりも高い値あるいは低い値である場合(ステップS204の「Yes」)には、次に、この電子メールの値がデフォルト値よりも高いか否かが判断される(ステップS205)。
<Classification of spam mail and normal mail>
First, it is determined whether the value of a certain e-mail is an e-mail having a higher value or a lower value than the default value of the existing filter (step S204). If the value of this e-mail is higher or lower than the default value of the existing filter (“Yes” in step S204), then whether or not this e-mail value is higher than the default value. Is determined (step S205).

このとき、この電子メールの値がデフォルト値よりも高い場合(ステップS205の「Yes」)には、この電子メールをスパムメールと判断してスパムメールデータベースにデータを格納する(ステップS208) At this time, if the value of this e-mail is higher than the default value (“Yes” in step S205), the e-mail is determined to be spam mail and data is stored in the spam mail database (step S208).

一方で、この電子メールの値がデフォルト値よりも低い場合(ステップS205の「No」)には、この電子メールを通常のメールと判断して、通常のメールデータベースにデータを格納する(ステップS209)。 On the other hand, if the value of this e-mail is lower than the default value (“No” in step S205), the e-mail is determined to be a normal mail, and data is stored in a normal mail database (step S209). ).

さらに、ステップS204において、この電子メールの値が既存フィルタのデフォルト値よりも高い値あるいは低い値でない場合(ステップS204の「No」)には、フィルタルール生成部14により生成された初期のフィルタルールによりスパムメールと判定されるか否かを検証する(ステップS204)。 Furthermore, in step S204, when the value of the e-mail is not higher or lower than the default value of the existing filter (“No” in step S204), the initial filter rule generated by the filter rule generation unit 14 Whether or not it is determined as spam mail is verified (step S204).

このとき、スパムメールであると判定された場合には(ステップS206の「Yes」)、さらに、ユーザがこの電子メールを通常のメールと判断するか否かを確認し(ステップS207)、ユーザがこの電子メールを通常のメールでないと判断した場合(ステップS207の「No」)には、この電子メールをスパムメール保存部17に保存する(ステップS208)。   At this time, when it is determined that the email is spam mail (“Yes” in step S206), the user confirms whether or not the electronic mail is determined to be a normal mail (step S207). If it is determined that this e-mail is not a normal mail (“No” in step S207), the e-mail is stored in the spam mail storage unit 17 (step S208).

一方で、ステップS206において、スパムメールではないと判定された場合(ステップS206の「No」)およびステップS206において、スパムメールであると判定(ステップS206の「Yes」)されたが、ステップS207において、ユーザがこの電子メールを通常のメールであると判断した場合(ステップS207の「Yes」)には、この電子メールを通常メール保存部16に保存する。なお、フィルタリングの処理後に、通常メール保存部16、スパムメール保存部17に、それぞれデータが追加され、最新の通常メール保存部16およびスパムメール保存部17内のデータベースに基づいて、フィルタルール更新部19によって、フィルタルールが順次更新される。   On the other hand, when it is determined in step S206 that it is not a spam mail (“No” in step S206) and in step S206, it is determined that it is a spam mail (“Yes” in step S206), but in step S207 When the user determines that the e-mail is a normal mail (“Yes” in step S207), the e-mail is stored in the normal mail storage unit 16. After the filtering process, data is added to the normal mail storage unit 16 and the spam mail storage unit 17, respectively, and the filter rule update unit is based on the latest normal mail storage unit 16 and the database in the spam mail storage unit 17. 19, the filter rules are sequentially updated.

したがって、本実施形態によれば、既知のスパムメールフィルタの判定基準をデフォルト値よりも高く設定した条件でフィルタリングされた電子メールをスパムメールとし、既知のスパムメールフィルタの判定基準をデフォルト値よりも低く設定した条件でフィルタリングされた電子メールを通常のメールとして分類するため、簡易な方法で既知のスパムメール、通常のメールのデータセットを作成でき、また、電子メールの受信時においてスパムメールを自動的にフィルタリングするとともに、スパムメールの誤判定を軽減できる。   Therefore, according to the present embodiment, an email filtered under the condition that the determination criterion of the known spam mail filter is set higher than the default value is defined as spam mail, and the determination criterion of the known spam mail filter is set to be higher than the default value. E-mails filtered with low criteria are classified as regular mails, so you can create a dataset of known spam mails and regular mails in a simple way, and automatically receive spam mails when you receive them Filtering as well as reducing spam mail misjudgments.

<第3の実施形態>
図8から図10を用いて、本実施形態に係る電子メールフィルタリング装置について説明する。
<Third Embodiment>
The e-mail filtering device according to this embodiment will be described with reference to FIGS.

<電子メールフィルタリング装置の構成>
本実施形態に係る電子メールフィルタリング装置は、図6に示すように、メール受信部11と、分類部32と、特徴ベクトル生成部33と、フィルタルール生成部14と、分離部15と、通常メール保存部16と、スパムメール保存部17と、フィルタルール更新部19とから構成されている。なお、第1の実施形態と同一の符号を付す構成要素に関しては、同一の機能を有することから、その詳細な説明は省略する。
<Configuration of e-mail filtering device>
As shown in FIG. 6, the electronic mail filtering device according to the present embodiment includes a mail receiving unit 11, a classification unit 32, a feature vector generation unit 33, a filter rule generation unit 14, a separation unit 15, and a normal mail. The storage unit 16 includes a spam mail storage unit 17 and a filter rule update unit 19. In addition, about the component which attaches | subjects the same code | symbol as 1st Embodiment, since it has the same function, the detailed description is abbreviate | omitted.

分類部32は、ユーザがメール受信部11において受信した電子メールを所定のフィルタルールに従って、通常のメールとスパムメールとに分類する。本実施形態では、上記所定のフィルタルールとして、ウェブ上で公開されているスパムメールを収集するとともに、ユーザのメールボックス内にある電子メールを通常のメールとして収集することにより通常のメールとスパムメールとを分類するフィルタルールを用いる例を説明する。これにより、確実に通常のメールとスパムメールとを判別できる。   The classification unit 32 classifies the electronic mail received by the user at the mail reception unit 11 into normal mail and spam mail according to a predetermined filter rule. In the present embodiment, as the predetermined filter rule, spam mail published on the web is collected, and normal mail and spam mail are collected by collecting e-mail in the user's mailbox as normal mail. An example using a filter rule for classifying Thereby, it is possible to reliably discriminate between normal mail and spam mail.

なお、上記所定のフィルタルールは、これに限らず、既知のスパムメールフィルタのデフォルト設定を用いたものでもよいし、既知のスパムメールフィルタの判定基準をデフォルト値よりも高く設定した条件でフィルタリングされた電子メールをスパムメールとし、既知のスパムメールフィルタの判定基準をデフォルト値よりも低く設定した条件でフィルタリングされた電子メールを通常のメールとするフィルタルールにより分類する方法であってもよい。   The predetermined filter rule is not limited to this, and may be one using a default setting of a known spam mail filter, or filtered under a condition in which the judgment criterion of the known spam mail filter is set higher than the default value. A method may be used in which the received e-mail is classified as spam mail, and the e-mail filtered under the condition that the determination criterion of the known spam mail filter is set lower than the default value is classified as a normal mail.

特徴ベクトル生成部13は、分類部12において分類されたそれぞれの電子メールのヘッダ情報の特徴の照合を行って、特徴ベクトルを生成する。本実施形態では、電子メールのヘッダ情報のうち、送信者のメール環境の特徴の照合を行って、特徴ベクトルを生成する例について説明する。図11の例では、「Date:Wed、12 Sep 2007 11:27:22 +0900」や「Content−Type:text/plain;charset=US−ASCII」等の特徴の照合を行って、特徴ベクトルを生成する。これにより、日付やContent−Type等に基づいて、特徴ベクトルを生成することから、簡易な処理で特徴ベクトルを生成できる。   The feature vector generation unit 13 collates the features of the header information of each electronic mail classified by the classification unit 12 to generate a feature vector. In the present embodiment, an example will be described in which a feature vector is generated by comparing features of a sender's mail environment in header information of an email. In the example of FIG. 11, feature vectors such as “Date: Wed, 12 Sep 2007 11:27:22 +0900” and “Content-Type: text / plain; charset = US-ASCII” are collated to generate a feature vector. To do. Thereby, since the feature vector is generated based on the date, Content-Type, or the like, the feature vector can be generated by a simple process.

なお、ヘッダ情報としては、これに限らず、送信者のドメイン情報、電子メールが経由したサーバ情報等によってもよい。   The header information is not limited to this, and may be the sender's domain information, server information via e-mail, or the like.

また、通常メール保存部16とスパムメール保存部17とに、メール自体を保存する場合には、これらの電子メールのヘッダ情報に基づいて、特徴ベクトルを再生成してもよい。   Further, when the mail itself is stored in the normal mail storage unit 16 and the spam mail storage unit 17, the feature vector may be regenerated based on the header information of these electronic mails.

<電子メールフィルタリング装置の処理>
図9および図10を用いて、本実施形態に係る電子メールフィルタリング装置の処理について説明する。なお、本実施形態に係る電子メールフィルタリング装置の処理については、初期フィルタルールの作成手順と、生成したフィルタルールによって、スパムメールと通常のメールとを分類する手順とに分けて説明する。
<Processing of e-mail filtering device>
The processing of the e-mail filtering apparatus according to this embodiment will be described with reference to FIGS. 9 and 10. The processing of the e-mail filtering apparatus according to the present embodiment will be described separately in the procedure for creating the initial filter rule and the procedure for classifying spam mail and normal mail according to the generated filter rule.

<初期フィルタルールの作成手順>
まず、分類部32がウェブ上で公開されているスパムメールを収集するとともに、ユーザのメールボックス内にある電子メールを通常のメールとして収集することにより通常のメールとスパムメールとを分類する(ステップS301)。特徴ベクトル生成部33は、分類部32において分類されたそれぞれの電子メールのヘッダ情報のうち、送信者のメール環境の特徴を照合して、特徴ベクトルを生成する(ステップS302)。
<Initial filter rule creation procedure>
First, the classification unit 32 collects spam mails published on the web, and classifies normal mails and spam mails by collecting electronic mails in the user's mailbox as normal mails (steps). S301). The feature vector generation unit 33 compares the features of the sender's mail environment among the header information of each electronic mail classified by the classification unit 32, and generates a feature vector (step S302).

フィルタルール生成部14は、特徴ベクトル生成部33が生成した通常のメールとスパムメールの特徴ベクトルを解析して、初期のフィルタルールを生成する(ステップS303)。   The filter rule generation unit 14 analyzes the feature vectors of normal mail and spam mail generated by the feature vector generation unit 33, and generates an initial filter rule (step S303).

<スパムメールと通常のメールとの分類手順>
まず、ある電子メールがフィルタルール生成部14により生成された初期のフィルタルールによりスパムメールと判定されるか否かを検証する(ステップS304)。
<Classification of spam mail and normal mail>
First, it is verified whether or not an e-mail is determined to be spam mail by the initial filter rule generated by the filter rule generation unit 14 (step S304).

このとき、スパムメールであると判定された場合には(ステップS304の「Yes」)、さらに、ユーザがこの電子メールを通常のメールと判断するか否かを確認し(ステップS305)、ユーザがこの電子メールを通常のメールでないと判断した場合(ステップS305の「No」)には、この電子メールをスパムメール保存部17に保存する(ステップS306)。   At this time, if it is determined that the email is spam mail (“Yes” in step S304), the user confirms whether or not the electronic mail is determined to be a normal mail (step S305). If it is determined that this electronic mail is not a normal mail (“No” in step S305), the electronic mail is stored in the spam mail storage unit 17 (step S306).

一方で、ステップS304において、スパムメールではないと判定された場合(ステップS304の「No」)およびステップS304において、スパムメールであると判定(ステップS304の「Yes」)されたが、ステップS305において、ユーザがこの電子メールを通常のメールであると判断した場合(ステップS305の「Yes」)には、この電子メールを通常メール保存部16に保存する。なお、フィルタリングの処理後に、通常メール保存部16、スパムメール保存部17にそれぞれデータが追加され、最新の通常メール保存部16およびスパムメール保存部17内のデータベースに基づいて、フィルタルール更新部19によって、フィルタルールが順次更新される。   On the other hand, if it is determined in step S304 that it is not a spam mail (“No” in step S304) and it is determined in step S304 that it is a spam mail (“Yes” in step S304), but in step S305 When the user determines that the e-mail is a normal mail (“Yes” in step S305), the e-mail is stored in the normal mail storage unit 16. After the filtering process, data is added to the normal mail storage unit 16 and the spam mail storage unit 17, respectively. Based on the latest normal mail storage unit 16 and the database in the spam mail storage unit 17, the filter rule update unit 19 is added. Thus, the filter rules are sequentially updated.

したがって、本実施形態によれば、ウェブ上で公開されているスパムメールを収集するとともに、ユーザのメールボックス内にある電子メールを通常のメールとして収集して、通常のメールとスパムメールとを分類するため、確実に通常のメールとスパムメールとを判別でき、また、電子メールの受信時においてスパムメールを自動的にフィルタリングするとともに、スパムメールの誤判定を軽減できる。   Therefore, according to the present embodiment, the spam mails published on the web are collected, the emails in the user's mailbox are collected as normal mails, and the normal mails and the spam mails are classified. Therefore, it is possible to reliably discriminate between normal mail and spam mail, and automatically filter spam mail at the time of receiving an electronic mail, and reduce erroneous determination of spam mail.

なお、電子メールフィルタリング装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを電子メールフィルタリング装置に読み込ませ、実行することによって本発明の電子メールフィルタリング装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。   The processing of the electronic mail filtering apparatus is recorded on a computer-readable recording medium, and the electronic mail filtering apparatus of the present invention is realized by causing the electronic mail filtering apparatus to read and execute the program recorded on the recording medium. be able to. The computer system here includes an OS and hardware such as peripheral devices.

また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。   Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW (World Wide Web) system is used. The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.

また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。   The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.

以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。例えば、フィルタルールの作成方法については、特に、言及しなかったが、k−NNや決定木、ニューラルネットワークなどの学習によるデータマイニングにより分類モデルを作成してもよいし、クラスアソシエーション等のルールベースのデータマイニングを用いた分類モデルを作成してもよい。   The embodiments of the present invention have been described in detail with reference to the drawings. However, the specific configuration is not limited to the embodiments, and includes designs and the like that do not depart from the gist of the present invention. For example, the filter rule creation method is not particularly mentioned, but a classification model may be created by data mining by learning k-NN, decision tree, neural network, etc., or a rule base such as class association. A classification model using data mining may be created.

第1の実施形態に係る電子メールフィルタリング装置の構成図である。1 is a configuration diagram of an e-mail filtering device according to a first embodiment. FIG. 通常メール保存部およびスパムメール保存部内のデータベースの構成を例示した図である。It is the figure which illustrated the structure of the database in a normal mail preservation | save part and a spam mail preservation | save part. 第1の実施形態に係る電子メールフィルタリング装置における初期フィルタルールの作成手順を示した図である。It is the figure which showed the creation procedure of the initial stage filter rule in the email filtering apparatus which concerns on 1st Embodiment. 第1の実施形態に係る電子メールフィルタリング装置におけるスパムメールと通常のメールとの分類手順を示した図である。It is the figure which showed the classification | category procedure of the spam mail and normal mail in the electronic mail filtering apparatus which concerns on 1st Embodiment. 第2の実施形態に係る電子メールフィルタリング装置の構成図である。It is a block diagram of the electronic mail filtering apparatus which concerns on 2nd Embodiment. 第2の実施形態に係る電子メールフィルタリング装置における初期フィルタルールの作成手順を示した図である。It is the figure which showed the preparation procedure of the initial stage filter rule in the email filtering apparatus which concerns on 2nd Embodiment. 第2の実施形態に係る電子メールフィルタリング装置におけるスパムメールと通常のメールとの分類手順を示した図である。It is the figure which showed the classification | category procedure of the spam mail and normal mail in the electronic mail filtering apparatus which concerns on 2nd Embodiment. 第3の実施形態に係る電子メールフィルタリング装置の構成図である。It is a block diagram of the electronic mail filtering apparatus which concerns on 3rd Embodiment. 第3の実施形態に係る電子メールフィルタリング装置における初期フィルタルールの作成手順を示した図である。It is the figure which showed the preparation procedure of the initial stage filter rule in the email filtering apparatus which concerns on 3rd Embodiment. 第3の実施形態に係る電子メールフィルタリング装置におけるスパムメールと通常のメールとの分類手順を示した図である。It is the figure which showed the classification | category procedure of the spam mail and normal mail in the electronic mail filtering apparatus which concerns on 3rd Embodiment. ヘッダ情報の具体例を示す図である。It is a figure which shows the specific example of header information.

符号の説明Explanation of symbols

11・・・メール受信部、12、22、32・・・分類部、13、23、33・・・特徴ベクトル生成部、14・・・フィルタルール生成部、15・・・分離部、16・・・通常メール保存部、17・・・スパムメール保存部、19・・・フィルタルール更新部   11 ... mail receiving unit, 12, 22, 32 ... classifying unit, 13, 23, 33 ... feature vector generating unit, 14 ... filter rule generating unit, 15 ... separating unit, 16. ..Normal mail storage unit, 17 ... Spam mail storage unit, 19 ... Filter rule update unit

Claims (11)

ユーザが受信した電子メールを所定のフィルタルールに従って、通常のメールとスパムメールとに分類する分類手段と、
該分類されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する特徴ベクトル生成手段と、
前記通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成するフィルタルール生成手段と、
該生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する分離手段と、
を備えたことを特徴とする電子メールフィルタリング装置。
A classification means for classifying email received by the user into regular mail and spam mail according to a predetermined filter rule;
A feature vector generating means for generating a feature vector by collating and extracting features of header information of each classified e-mail;
A filter rule generating means for analyzing the feature vectors of the normal mail and the spam mail and generating an initial filter rule;
Separating means for separating received e-mail into normal mail and spam mail according to the generated filter rule;
An e-mail filtering device comprising:
前記分離した通常のメールとスパムメールとを保存する保存手段と、
該保存手段に保存された通常のメールとスパムメールとから、ヘッダ情報の特徴の照合、抽出を行って、前記通常のメールとスパムメールの特徴ベクトルを解析し、前記生成した初期のフィルタルールを更新するフィルタルール更新手段と、
を備えたことを特徴とする請求項1に記載の電子メールフィルタリング装置。
Storage means for storing the separated normal mail and spam mail;
From the normal mail and spam mail stored in the storage means, the header information features are collated and extracted, the normal mail and spam mail feature vectors are analyzed, and the generated initial filter rule is A filter rule update means for updating;
The electronic mail filtering apparatus according to claim 1, further comprising:
前記特徴ベクトル生成手段が、前記電子メールのヘッダ情報のうち、少なくとも送信者のドメイン情報の特徴の照合、抽出を行って、特徴ベクトルを生成することを特徴とする請求項1または2に記載の電子メールフィルタリング装置。   3. The feature vector generation unit generates a feature vector by collating and extracting at least a feature of domain information of a sender from header information of the e-mail. Email filtering device. 前記特徴ベクトル生成手段が、前記電子メールのヘッダ情報のうち、少なくとも前記電子メールが経由したサーバ情報の特徴の照合、抽出を行って、特徴ベクトルを生成することを特徴とする請求項1または2に記載の電子メールフィルタリング装置。   3. The feature vector generation means generates a feature vector by collating and extracting at least features of server information through which the e-mail has passed from header information of the e-mail. The e-mail filtering device described in 1. 前記特徴ベクトル生成手段が、前記電子メールのヘッダ情報のうち、少なくとも送信者のメール環境情報の特徴の照合、抽出を行って、特徴ベクトルを生成することを特徴とする請求項1または2に記載の電子メールフィルタリング装置。   3. The feature vector generation unit generates a feature vector by collating and extracting at least the feature of the sender's mail environment information from the header information of the electronic mail. E-mail filtering device. 既知のスパムメールフィルタのデフォルト設定に従って、通常のメールとスパムメールとに分類する第1のステップと、
該分類されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する第2のステップと、
前記通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成する第3のステップと、
該生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する第4のステップと、
を備えたことを特徴とする電子メールのフィルタリング方法。
A first step of classifying normal mail and spam mail according to the default settings of known spam mail filters;
A second step of collating and extracting features of header information of each classified e-mail to generate a feature vector;
A third step of analyzing feature vectors of the normal mail and spam mail and generating an initial filter rule;
A fourth step of separating received e-mail into normal mail and spam mail according to the generated filter rule;
An e-mail filtering method comprising:
既知のスパムメールフィルタの判定基準をデフォルト値よりも高く設定した条件でフィルタリングされた電子メールをスパムメールとし、既知のスパムメールフィルタの判定基準をデフォルト値よりも低く設定した条件でフィルタリングされた電子メールを通常のメールとして分類する第1のステップと、
該分類されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する第2のステップと、
前記通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成する第3のステップと、
該生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する第4のステップと、
を備えたことを特徴とする電子メールのフィルタリング方法。
E-mail filtered with the condition that the criterion of the known spam mail filter is set higher than the default value is defined as spam mail, and the e-mail that is filtered with the condition of the criterion of the known spam mail filter set lower than the default value A first step of classifying mail as normal mail;
A second step of collating and extracting features of header information of each classified e-mail to generate a feature vector;
A third step of analyzing feature vectors of the normal mail and spam mail and generating an initial filter rule;
A fourth step of separating received e-mail into normal mail and spam mail according to the generated filter rule;
An e-mail filtering method comprising:
ウェブ上で公開されているスパムメールを収集するとともに、ユーザのメールボックス内にある電子メールを通常のメールとして収集する第1のステップと、
該収集されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する第2のステップと、
前記通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成する第3のステップと、
該生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する第4のステップと、
を備えたことを特徴とする電子メールのフィルタリング方法。
A first step of collecting spam mail published on the web and collecting e-mail in the user's mailbox as normal mail;
A second step of collating and extracting features of header information of each collected email to generate a feature vector;
A third step of analyzing feature vectors of the normal mail and spam mail and generating an initial filter rule;
A fourth step of separating received e-mail into normal mail and spam mail according to the generated filter rule;
An e-mail filtering method comprising:
電子メールのフィルタリング方法をコンピュータに実行させるためのプログラムであって、
既知のスパムメールフィルタのデフォルト設定に従って、通常のメールとスパムメールとに分類する第1のステップと、
該分類されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する第2のステップと、
前記通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成する第3のステップと、
該生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する第4のステップと、
をコンピュータに実行させるためのプログラム。
A program for causing a computer to execute an e-mail filtering method,
A first step of classifying normal mail and spam mail according to the default settings of known spam mail filters;
A second step of collating and extracting features of header information of each classified e-mail to generate a feature vector;
A third step of analyzing feature vectors of the normal mail and spam mail and generating an initial filter rule;
A fourth step of separating received e-mail into normal mail and spam mail according to the generated filter rule;
A program that causes a computer to execute.
電子メールのフィルタリング方法をコンピュータに実行させるためのプログラムであって、
既知のスパムメールフィルタの判定基準をデフォルト値よりも高く設定した条件でフィルタリングされた電子メールをスパムメールとし、既知のスパムメールフィルタの判定基準をデフォルト値よりも低く設定した条件でフィルタリングされた電子メールを通常のメールとして分類する第1のステップと、
該分類されたそれぞれの電子メールのヘッダ情報の特徴の照合、抽出を行って、特徴ベクトルを生成する第2のステップと、
前記通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成する第3のステップと、
該生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する第4のステップと、
をコンピュータに実行させるためのプログラム。
A program for causing a computer to execute an e-mail filtering method,
E-mail filtered with the condition that the criterion of the known spam mail filter is set higher than the default value is defined as spam mail, and the e-mail that is filtered with the condition of the criterion of the known spam mail filter set lower than the default value A first step of classifying mail as normal mail;
A second step of collating and extracting features of header information of each classified e-mail to generate a feature vector;
A third step of analyzing feature vectors of the normal mail and spam mail and generating an initial filter rule;
A fourth step of separating received e-mail into normal mail and spam mail according to the generated filter rule;
A program that causes a computer to execute.
電子メールのフィルタリング方法をコンピュータに実行させるためのプログラムであって、
ウェブ上で公開されているスパムメールを収集するとともに、ユーザのメールボックス内にある電子メールを通常のメールとして収集する第1のステップと、
該収集されたそれぞれの電子メールのヘッダ情報の特徴の照合を行って、特徴ベクトルを生成する第2のステップと、
前記通常のメールとスパムメールの特徴ベクトルを解析し、初期のフィルタルールを生成する第3のステップと、
該生成したフィルタルールに従って、受信する電子メールを通常のメールとスパムメールとに分離する第4のステップと、
をコンピュータに実行させるためのプログラム。
A program for causing a computer to execute an e-mail filtering method,
A first step of collecting spam mail published on the web and collecting e-mail in the user's mailbox as normal mail;
A second step of generating feature vectors by matching features of the header information of each collected email;
A third step of analyzing feature vectors of the normal mail and spam mail and generating an initial filter rule;
A fourth step of separating received e-mail into normal mail and spam mail according to the generated filter rule;
A program that causes a computer to execute.
JP2007275425A 2007-10-23 2007-10-23 E-mail filtering device, e-mail filtering method and program Active JP4963099B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007275425A JP4963099B2 (en) 2007-10-23 2007-10-23 E-mail filtering device, e-mail filtering method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007275425A JP4963099B2 (en) 2007-10-23 2007-10-23 E-mail filtering device, e-mail filtering method and program

Publications (2)

Publication Number Publication Date
JP2009104400A true JP2009104400A (en) 2009-05-14
JP4963099B2 JP4963099B2 (en) 2012-06-27

Family

ID=40706011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007275425A Active JP4963099B2 (en) 2007-10-23 2007-10-23 E-mail filtering device, e-mail filtering method and program

Country Status (1)

Country Link
JP (1) JP4963099B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011090442A (en) * 2009-10-21 2011-05-06 Kddi Corp Apparatus, method and program for sorting electronic mail
JP2011227850A (en) * 2010-04-23 2011-11-10 Kddi Corp E-mail classification device, e-mail management server, e-mail classification method and e-mail classification program
JP2014102708A (en) * 2012-11-20 2014-06-05 Ntt Software Corp Illegal mail determination device, illegal mail determination method, and program
JP2017054533A (en) * 2016-11-04 2017-03-16 エヌ・ティ・ティ・ソフトウェア株式会社 Illegal mail determination device and program

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101777521B1 (en) 2016-08-11 2017-09-11 숭실대학교산학협력단 Method and Apparatus for generating font for changing font's style
KR101857969B1 (en) * 2017-06-28 2018-06-28 (주)기원테크 Method and Apparatus for Determining Risk of Fraudulent Mail

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171169A (en) * 2002-11-19 2004-06-17 Msd Japan:Kk Mail filtering method, mail server and mail filtering program
JP2004348523A (en) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> System for filtering document, and program
JP2005018745A (en) * 2003-06-23 2005-01-20 Microsoft Corp Advanced spam detection technique
JP2006514371A (en) * 2003-02-25 2006-04-27 マイクロソフト コーポレーション Adaptive junk message filtering system
JP2006260515A (en) * 2005-02-16 2006-09-28 Toyohashi Univ Of Technology Electronic mail filtering program, electronic mail filtering method, and electronic mail filtering system
JP2007233468A (en) * 2006-02-27 2007-09-13 Sony Corp Information processor and information processing method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171169A (en) * 2002-11-19 2004-06-17 Msd Japan:Kk Mail filtering method, mail server and mail filtering program
JP2006514371A (en) * 2003-02-25 2006-04-27 マイクロソフト コーポレーション Adaptive junk message filtering system
JP2004348523A (en) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> System for filtering document, and program
JP2005018745A (en) * 2003-06-23 2005-01-20 Microsoft Corp Advanced spam detection technique
JP2006260515A (en) * 2005-02-16 2006-09-28 Toyohashi Univ Of Technology Electronic mail filtering program, electronic mail filtering method, and electronic mail filtering system
JP2007233468A (en) * 2006-02-27 2007-09-13 Sony Corp Information processor and information processing method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011090442A (en) * 2009-10-21 2011-05-06 Kddi Corp Apparatus, method and program for sorting electronic mail
JP2011227850A (en) * 2010-04-23 2011-11-10 Kddi Corp E-mail classification device, e-mail management server, e-mail classification method and e-mail classification program
JP2014102708A (en) * 2012-11-20 2014-06-05 Ntt Software Corp Illegal mail determination device, illegal mail determination method, and program
JP2017054533A (en) * 2016-11-04 2017-03-16 エヌ・ティ・ティ・ソフトウェア株式会社 Illegal mail determination device and program

Also Published As

Publication number Publication date
JP4963099B2 (en) 2012-06-27

Similar Documents

Publication Publication Date Title
EP1564670B1 (en) Intelligent quarantining for spam prevention
EP1597645B1 (en) Adaptive junk message filtering system
US7653606B2 (en) Dynamic message filtering
US7562122B2 (en) Message classification using allowed items
US7433923B2 (en) Authorized email control system
US7359941B2 (en) Method and apparatus for filtering spam email
US7543076B2 (en) Message header spam filtering
US8745143B2 (en) Delaying inbound and outbound email messages
RU2710739C1 (en) System and method of generating heuristic rules for detecting messages containing spam
US20070070921A1 (en) Method of determining network addresses of senders of electronic mail messages
WO2004059506A1 (en) Detection and prevention of spam
US20050283519A1 (en) Methods and systems for combating spam
JP4963099B2 (en) E-mail filtering device, e-mail filtering method and program
GB2382900A (en) Regulating receipt of electronic mail with a whitelist based on outgoing email addresses
EP1733521B1 (en) A method and an apparatus to classify electronic communication
CN111752973B (en) System and method for generating heuristic rules for identifying spam emails
Yamakawa et al. Analysis of spam mail sent to Japanese mail addresses in the long term
NL1040630C2 (en) Method and system for email spam elimination and classification, using recipient defined codes and sender response.
RAJITHA et al. An Innovative Approach for Detecting Targeted Malicious E-mail
Srigayathri et al. Enhancing Secure Email Communication using Tracking and Blocking of Suspicious Email User
EP1968264A1 (en) A method of filtering electronic mails and an electronic mail system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120131

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120321

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120321

R150 Certificate of patent or registration of utility model

Ref document number: 4963099

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3