JP2014164618A - Frequent pattern extraction device, frequent pattern extraction method, and program - Google Patents
Frequent pattern extraction device, frequent pattern extraction method, and program Download PDFInfo
- Publication number
- JP2014164618A JP2014164618A JP2013036332A JP2013036332A JP2014164618A JP 2014164618 A JP2014164618 A JP 2014164618A JP 2013036332 A JP2013036332 A JP 2013036332A JP 2013036332 A JP2013036332 A JP 2013036332A JP 2014164618 A JP2014164618 A JP 2014164618A
- Authority
- JP
- Japan
- Prior art keywords
- item
- cluster
- file
- frequent pattern
- central
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 93
- 239000000284 extract Substances 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 49
- 230000001419 dependent effect Effects 0.000 claims description 13
- 238000005065 mining Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 4
- 238000009795 derivation Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- MKIMSXGUTQTKJU-UHFFFAOYSA-N Propamocarb hydrochloride Chemical compound [Cl-].CCCOC(=O)NCCC[NH+](C)C MKIMSXGUTQTKJU-UHFFFAOYSA-N 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 239000012467 final product Substances 0.000 description 2
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、複数のアイテムにおける各アイテムに対する各ユーザの操作履歴から時系列の頻出パターンを抽出する頻出パターン抽出装置及び頻出パターン抽出方法、並びに、当該頻出パターン抽出方法をコンピュータに実行させるためのプログラムに関する。 The present invention relates to a frequent pattern extraction device and a frequent pattern extraction method for extracting a time-series frequent pattern from an operation history of each user for each item in a plurality of items, and a program for causing a computer to execute the frequent pattern extraction method About.
従来から、ユーザのアイテム操作履歴を解析して、特徴的な頻出パターンを抽出し、その抽出したパターンを利用して、ユーザの操作効率を向上させるような手法が多く提案されている。例えば、Webのアクセスログを解析し、ページAを見た後には、ページFをよく見るなどのパターンを抽出することで、ページAを見たユーザに対して、次にページFを見ることを推薦するような技術がある。 Conventionally, many methods have been proposed in which a user's item operation history is analyzed, a characteristic frequent pattern is extracted, and the extracted pattern is used to improve the user's operation efficiency. For example, after viewing the page A after analyzing the web access log and extracting the pattern such as carefully viewing the page F, the user who viewed the page A can see the page F next. There are techniques to recommend.
また、オフィスにおけるユーザのファイル操作履歴を分析して、作業の流れ(ワークフロー)を抽出する手法も提案されている。 There has also been proposed a method of extracting a work flow (workflow) by analyzing a file operation history of a user in an office.
例えば、下記の特許文献1では、プリンタや複写機などの画像処理装置で行われた処理についての画像情報を含む履歴を用いて業務手順を推定する手法が提案されている。この手法の特徴的なところは、文書画像の特徴量の類似度によりフォーム判定を行い、蓄積された多数の文書画像のログを、同一種類の帳票ひな型ごとの集合に分類することである。その結果「フォームAの帳票は、中村(課員)が印刷して押印した後スキャンし、次に鈴木(課長)が押印の後コピーし、最後に田中(部長)が押印の後スキャンする」というようなワークフローが抽出できる。
For example,
また、例えば、下記の特許文献2では、オフィスでの文書に対する操作の履歴から、分岐を含むワークフローを生成する手法が提案されている。この手法は、文書単位で操作履歴レコードをノードとして時系列に並べたものをツリーとし、ツリー間で一部が共通の属性(ファイル名や、操作者、操作種別など)を含むノード同士を結合していくことで、分岐や結合を含んだワークフローを抽出している。
Further, for example,
しかしながら、上述した従来手法には、下記の2つの課題がある。 However, the conventional method described above has the following two problems.
まず、1つ目の課題は、単一の文書(単一のアイテム)だけに限られたワークフローしか抽出できないことである。特許文献1も特許文献2も、単一の文書毎に操作履歴をまとめることで、その文書に対して、どういうユーザが、どのような順で、どういった操作を行っていくのかを推定している。しかしながら、オフィスでのワークフローは、複数の文書(複数のアイテム)を扱って複数のユーザが協調して行うようなものも多く、上述した従来手法ではこのようなワークフローを抽出することができない。
First, the first problem is that only a workflow limited to a single document (single item) can be extracted. In both
2つ目の課題は、複数のユーザが並行して作業を行うようなワークフローを抽出できないことである。例えば、Aさんが作業した後には、BさんとCさんは独立して並行に作業を行うことができ、BさんとCさんの作業が両方完了した後には、Dさんが作業を開始できるようなワークフローである。特許文献2では、分岐や結合を含むワークフローを扱えるが、ここで言う分岐や結合は、我々の言う並行作業での分岐や結合とは異なる。特許文献2では、分岐はIF−THENルールであり、例えば、見積もり依頼書を作成するワークフローにおいて、見積もり物品の種別に応じて、次のフローである依頼先の担当者を切り替えるようなワークフローである。つまり、実際の作業の流れは一本道であり、我々の言う複数のユーザが独立して並行に行うような作業の流れではなく、そのようなワークフローを抽出することはできない。
The second problem is that a workflow in which a plurality of users work in parallel cannot be extracted. For example, after Mr. A works, Mr. B and Mr. C can work independently and in parallel, and after both Mr. B and Mr. C work are completed, Mr. D can start working. It is a simple workflow. In
すなわち、上述した従来手法では、上述した2つの課題のために、複数のユーザが協調して複数のアイテムを操作して作業を行う場合において、限定的なワークフローしか抽出することができない。 That is, in the above-described conventional method, only a limited workflow can be extracted when a plurality of users cooperate with each other to operate a plurality of items because of the two problems described above.
本発明は、上述した従来手法による課題に鑑みてなされたものであり、複数のユーザが協調して複数のアイテムを操作して作業を行う場合において、より汎用的なワークフローの抽出を実現する仕組みを提供することを目的とする。 The present invention has been made in view of the problems caused by the above-described conventional method, and a mechanism for realizing a more versatile workflow extraction when a plurality of users cooperate and operate a plurality of items. The purpose is to provide.
本発明の頻出パターン抽出装置は、複数のアイテムにおける各アイテムに対する各ユーザの操作履歴から時系列の頻出パターンを抽出する頻出パターン抽出装置であって、前記複数のアイテムにおける各アイテム間の類似度に基づいて、前記複数のアイテムを複数のアイテムクラスタにクラスタリングするクラスタリング手段と、前記複数のアイテムクラスタの中から、前記頻出パターンの中心となる中心アイテムクラスタを抽出する中心クラスタ抽出手段と、前記複数のアイテムクラスタの中から、前記中心アイテムクラスタと同じ前記頻出パターンに含まれる従属アイテムクラスタを特定する従属クラスタ特定手段と、前記中心アイテムクラスタに属するアイテムと前記従属アイテムクラスタに属するアイテムにおける操作履歴に基づいて、前記各ユーザにおける前記中心アイテムクラスタおよび前記従属アイテムクラスタの操作シーケンスの集合を抽出するシーケンス抽出手段と、前記シーケンス抽出手段で抽出した操作シーケンスの集合に基づいて、前記頻出パターンを抽出する頻出パターン抽出手段とを有する。
また、本発明は、上述した頻出パターン抽出装置による頻出パターン抽出方法、及び、当該頻出パターン抽出方法をコンピュータに実行させるためのプログラムを含む。
The frequent pattern extraction device of the present invention is a frequent pattern extraction device that extracts a time-series frequent pattern from each user's operation history for each item in a plurality of items, and the similarity between the items in the plurality of items is determined. Based on, a clustering means for clustering the plurality of items into a plurality of item clusters, a center cluster extraction means for extracting a center item cluster that is the center of the frequent pattern from the plurality of item clusters, and the plurality of the plurality of items. Based on an operation history of an item belonging to the central item cluster and an item belonging to the subordinate item cluster, a subordinate cluster specifying means for specifying a subordinate item cluster included in the same frequent pattern as the central item cluster from among the item clusters A sequence extracting means for extracting a set of operation sequences of the central item cluster and the subordinate item cluster for each user, and a frequent pattern for extracting the frequent pattern based on the set of operation sequences extracted by the sequence extracting means Extraction means.
Further, the present invention includes a frequent pattern extraction method by the above-described frequent pattern extraction apparatus and a program for causing a computer to execute the frequent pattern extraction method.
本発明によれば、複数のユーザが協調して複数のアイテムを操作して作業を行う場合において、ユーザが独立して並行に作業を行うようなパターンも含めて、より汎用的なワークフローの抽出を実現することができる。これにより、このワークフローを用いて、ユーザのアイテム操作をナビゲートするなど、作業の効率を向上させることが可能となる。 According to the present invention, when a plurality of users collaborate to operate a plurality of items and perform work, a more general workflow extraction including a pattern in which the users work independently and in parallel is performed. Can be realized. This makes it possible to improve work efficiency, such as navigating user item operations, using this workflow.
以下に、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。 Hereinafter, embodiments (embodiments) for carrying out the present invention will be described with reference to the drawings.
本発明の実施形態では、アイテムとして、フォルダ(またはディレクトリ)構造を持つファイルを対象とする。なお、本実施形態では、アイテムとしてファイルを対象としているが、本発明においては、これに限定されるものではない。 In the embodiment of the present invention, the item is a file having a folder (or directory) structure. In this embodiment, a file is targeted as an item. However, the present invention is not limited to this.
図1は、本発明の実施形態に係る頻出パターン抽出システムの装置構成の一例を示す模式図である。
頻出パターン抽出システムは、クライアントサーバモデルとして実現される。具体的に、本実施形態に係る頻出パターン抽出システムは、図1に示すように、ネットワーク101、端末A102、端末B103、端末C104、及び、ファイル管理サーバー105を備えて構成されている。
FIG. 1 is a schematic diagram illustrating an example of a device configuration of a frequent pattern extraction system according to an embodiment of the present invention.
The frequent pattern extraction system is realized as a client-server model. Specifically, the frequent pattern extraction system according to the present embodiment includes a
端末A102、端末B103、端末C104、及び、ファイル管理サーバー105は、ネットワーク101を介して接続されており、それぞれ相互間で各種の情報の授受を実行する。ユーザは、それぞれ、端末A102、端末B103、端末C104上の専用のクライアントツールを用いて、ファイルの登録、閲覧、削除などのファイル操作を行う。
The terminal A102, the terminal B103, the terminal C104, and the
図2は、図1に示す各装置の内部構成の一例を示すブロック図である。
図1に示す各装置は、図2に示すように、制御部201、バス202、メモリ部203、大規模記憶部204、表示部205、入力部206、出力部207、及び、ネットワーク接続部208を有して構成されている。
FIG. 2 is a block diagram illustrating an example of an internal configuration of each apparatus illustrated in FIG.
1 includes a control unit 201, a
制御部201は、例えばCPU等で構成されており、当該装置における動作を統括的に制御する。 The control unit 201 includes, for example, a CPU and the like, and comprehensively controls operations in the device.
バス202は、制御部201、メモリ部203、大規模記憶部204、表示部205、入力部206、出力部207、及び、ネットワーク接続部208を相互に通信可能に接続する。制御部201は、バス202を介して、当該装置の各部(203〜208)を制御することにより、当該装置における動作を統括的に制御する。
The
メモリ部203は、例えば、RAMやROM等で構成される電子的な記憶装置である。制御部201は、このメモリ部203に記憶されたプログラムやデータに従って動作し、バス202を介して接続された当該装置の各部を制御する。
The memory unit 203 is an electronic storage device composed of, for example, a RAM or a ROM. The control unit 201 operates in accordance with programs and data stored in the memory unit 203 and controls each unit of the device connected via the
大規模記憶部204は、例えば、ハードディスクや光学ディスク等で構成される記憶装置である。
The large-
表示部205は、本システムを使用するユーザに対し、文書や画像等を表示するディスプレイ装置である。 A display unit 205 is a display device that displays a document, an image, and the like to a user who uses the system.
入力部206は、例えば、表示部205の表示内容に連動した指示等を入力するためのマウス、スティック、パッド等のポインティングデバイスである。なお、タッチパネル機能付きディスプレイ等、表示部205と入力部206を兼ねる装置を用いてもよい。 The input unit 206 is, for example, a pointing device such as a mouse, a stick, or a pad for inputting an instruction or the like linked to the display content of the display unit 205. In addition, you may use the apparatus which serves as the display part 205 and the input part 206, such as a display with a touchscreen function.
出力部207は、例えば、電子データを紙に出力するプリンタデバイス等である。 The output unit 207 is, for example, a printer device that outputs electronic data to paper.
ネットワーク接続部208は、電子データを装置外から取り込んだり、或いは、電子データを装置外に送信したりするためのネットワークインターフェースである。
The
なお、図2に示す201〜208は、PC等の汎用コンピュータ単体として構成してもよいし、或いは、MFP等の電子機器内に構築してもよい。また、互いに接続された複数のコンピュータやサーバー、及び、ディスプレイやPDA等の周辺機器の集合によって構築してもよい。 2 may be configured as a single general-purpose computer such as a PC, or may be constructed in an electronic device such as an MFP. Alternatively, a plurality of computers and servers connected to each other and a set of peripheral devices such as a display and a PDA may be used.
図3は、図1に示すファイル管理サーバー105内に構築されるファイル管理システム320の機能構成の一例を示すブロック図である。なお、図3において、ユーザ端末310は、端末A102、端末B103或いは端末C104に相当し、クライアントツールが構築されている。ファイル管理システム320が構築されるファイル管理サーバー105は、本発明の実施形態に係る頻出パターン抽出装置(複数のアイテムにおける各アイテムに対する各ユーザの操作履歴から時系列の頻出パターンを抽出する頻出パターン抽出装置)を構成する。
FIG. 3 is a block diagram showing an example of a functional configuration of the
ファイル管理システム320は、操作取得部321、ファイル管理部322、データベース323、操作履歴管理部324、操作履歴データベース325、情報送信部326、及び、ワークフロー抽出部327を有して構成されている。
The
なお、本実施形態では、ファイル管理システム320の中にワークフロー抽出機能を有するワークフロー抽出部327を構成しているが、本発明においてはこの形態に限定されるものではない。例えば、ファイル管理機能とワークフロー抽出機能とをそれぞれ単体で構築してもよいし、ワークフロー抽出機能を、ファイル管理システム320とは別の他のシステムに組み込む形で実施してもよい。また、本実施形態では、ファイル管理システム320をクライントサーバモデルで実施しているが、本発明においてはこの形態に限定されるものではなく、例えばクライアント単体でも実施可能である。
In the present embodiment, the
ここで、図3に示す各構成部(321〜327)と、図2に示す各構成部との対応関係の一例について説明する。
例えば、図2に示す制御部201及びメモリ部203に記憶されているプログラム、並びに、ネットワーク接続部208から、図3に示す操作取得部321及び情報送信部326が構成される。
また、例えば、図2に示す制御部201及びメモリ部203に記憶されているプログラムから、図3に示すファイル管理部322、操作履歴管理部324及びワークフロー抽出部327が構成される。
また、例えば、図2に示す大規模記憶部204から、データベース323及び操作履歴データベース325が構成される。
Here, an example of a correspondence relationship between the components (321 to 327) illustrated in FIG. 3 and the components illustrated in FIG. 2 will be described.
For example, the
Further, for example, the
For example, the large-
操作取得部321は、ユーザ端末310上のクライアントツールから入力されたファイル操作情報を取得する。そして、操作取得部321は、取得したファイル操作情報を、ファイル管理部322や操作履歴管理部324に送信する。
The
ファイル管理部322は、操作取得部321から送信されたファイル操作情報を受け取り、ファイル操作情報に基づきデータベース323と連携して所定のファイル操作処理を行う。ここで言うファイル操作とは、例えば、ファイルの新規登録や、オープン、コピー、削除、また、フォルダに対する操作などを指し、その処理内容は一般的なファイル管理システムと同様である。この処理結果の情報は、情報送信部326を通じて、ユーザ端末310に送られ、ユーザ端末310上のクライアントツールに表示される。
The
データベース323は、ファイル管理システム320で管理するファイルやフォルダの情報や、ファイル管理システム320を利用するユーザのユーザ情報などを格納する。ユーザ情報としては、ユーザ名やユーザIDなどのユーザ単体の情報だけではなく、ユーザが所属するグループや、グループに所属しているユーザのリストなどのユーザグループに関する情報も含む。
The database 323 stores information on files and folders managed by the
操作履歴管理部324は、操作取得部321から送信されたファイル操作情報を受け取り、操作履歴データベース325にファイル操作履歴としてファイル操作情報を格納して管理する。
The operation
操作履歴データベース325は、操作履歴管理部324からのファイル操作情報をファイル操作履歴として格納する。
The operation history database 325 stores file operation information from the operation
図4は、本発明の実施形態を示し、図3に示す操作履歴データベース325にファイル操作履歴として格納されるファイル操作情報の一例を示す図である。
図4において、ログID401は、ファイル操作情報を一意に識別するための符号である。時間402は、ファイル操作が行われた時間情報を表す。ユーザID403は、ファイル操作を行ったユーザを識別するための符号である。ファイルID404は、操作対象のファイルを識別するための符号である。操作イベント405は、実行されたファイル操作イベントの種類を表す。この図4に示すファイル操作情報は一例であり、これに限定されるわけではない。以降、説明を簡単にするためにファイルに対する操作は省略することがあるが、実際にはファイルとその操作はセットとして扱われ、ファイル操作が一致するとは、ファイルとその操作の両方が一致することを指している。
FIG. 4 is a diagram illustrating an example of file operation information stored as a file operation history in the operation history database 325 illustrated in FIG. 3 according to the embodiment of this invention.
In FIG. 4, a
ここで、再び、図3の説明に戻る。
情報送信部326は、ファイル管理部322からの情報をユーザ端末310に送信する。
Here, it returns to description of FIG. 3 again.
The
ワークフロー抽出部327は、ワークフローを抽出する処理を行う。ここで言うワークフローとは、ある目的を達成するための作業の流れを指し、ユーザとファイル操作をノードとしたグラフ構造で表せられるものである。
The
図7は、本発明の実施形態を示し、図3に示すワークフロー抽出部327が抽出対象とするワークフローの一例を示す図である。
図7において、ノード701は、ユーザAがFC1(File Cluster 1)に含まれるファイルに対して操作を行うことを表している。ここで、FC1(708)は、図7に示すように、File1とFile6が属するファイルクラスタである。このように、ワークフローの各ノードをファイル操作ではなく、ファイルクラスタに対する操作として表現するのは、同じワークフローでも、その都度扱うファイルが異なる場合が多いためである。例えば、見積書を作成するワークフローの場合、顧客毎に作成する見積書ファイルは異なるため、1つのワークフローとして表すには、それら顧客毎の見積書ファイルをまとまりとして扱う必要がある。つまり、FC1(708)では、File1やFile6がそれぞれ別の顧客に対する見積書を表し、FC1(708)はそれらの見積書の集合を表す。このようなファイルをファイルクラスタとして置き換えることをファイルの抽象化と呼ぶことにする。
FIG. 7 is a diagram illustrating an example of a workflow to be extracted by the
In FIG. 7, a
図7において、分岐702は、作業の分岐を表し、ノード701の作業が完了した後に、ノード703やノード704の作業が独立して並行に行えることを表している。つまり、図7の例では、ユーザAがFC1への操作を行った後に、ユーザBやユーザCがFC1への操作を並行して行うことを表している。この際、ユーザBの操作とユーザCの操作には順番がなく、どちらが先に操作を行ってもよいし、これらの操作を同時に行ってもよい。
In FIG. 7, a
図7において、結合705は、作業の結合を表す。結合705には、同期や非同期があり、同期とは、結合前の作業が全て完了したときのみ結合後の作業を行えるものであり、非同期とは、結合前の作業の一部が完了すれば結合後の作業を行えるものである。例えば、図7の例では、結合705が同期だとすると、ユーザBとユーザCによるFC1への操作がどちらも完了したときに、ノード706においてユーザDがFC2に対する操作を行えることになる。
In FIG. 7, a
図7において、ノード706は、ユーザDがFC2(File Cluster 2)に属するファイルに対して操作を行うことを表している。ここで、FC2(709)は、図7に示すように、File2とFile8が属するファイルクラスタである。
In FIG. 7, a
図7において、ノード707は、ユーザEがFC1に属するファイルに対して操作を行うことを表している。
In FIG. 7, a
このように、本発明の実施形態におけるワークフローは、複数のユーザが複数のアイテムを操作し、かつ、各ユーザが独立して並行に操作を行うような分岐・結合パターンを含んでいることが特徴である。 As described above, the workflow according to the embodiment of the present invention includes a branching / joining pattern in which a plurality of users operate a plurality of items, and each user performs an operation in parallel independently. It is.
ここで、再び、図3の説明に戻る。
ワークフロー抽出部327は、図3に示すように、類似度計算部3271、クラスタリング部3272、中心クラスタ抽出部3273、共起確率計算部3274、従属クラスタ特定部3275、シーケンス抽出部3276、及び、頻出パターン抽出部3277を有して構成されている。
Here, it returns to description of FIG. 3 again.
As shown in FIG. 3, the
次に、ワークフロー抽出部327によるワークフロー抽出処理(頻出パターン抽出処理)について説明する。
図5及び図6は、本発明の実施形態を示し、図3に示すワークフロー抽出部327によるワークフロー抽出処理の処理手順の一例を示すフローチャートである。このフローチャートの処理は、図2に示す制御部201がメモリ部203に記憶されているプログラムを実行することにより行われる。より具体的には、このフローチャートの処理は、図3に示すワークフロー抽出部327の各構成部(3271〜3277)により行われる。
Next, a workflow extraction process (frequent pattern extraction process) by the
5 and 6 are flowcharts showing an embodiment of the present invention and showing an example of a processing procedure of workflow extraction processing by the
なお、図5及び図6のフローチャートの説明においては、図8に示すファイル操作情報の例を用いて説明を行う。この際、説明を簡単にするために、ファイル操作については省略している。
図8は、本発明の実施形態を示し、図3に示す操作履歴データベース325にファイル操作履歴として格納されるファイル操作情報の一例を示す図である。この図8には、ログID、時間、ユーザID及びファイルIDについてのファイル操作情報が示されている。
また、図11は、本発明の実施形態を示し、図8に示すファイル操作情報について、ファイル別にユーザのファイル操作を時系列にマッピングした一例を示す図である。図11において、例えば、イベント1101は、ユーザAがファイル1(File1)に対して操作を行ったことを示している。その後、ファイル1は、イベント1102においてユーザBによって操作されていることが分かる。
5 and 6 will be described using the example of the file operation information shown in FIG. At this time, file operations are omitted for the sake of simplicity.
FIG. 8 is a diagram illustrating an example of file operation information stored as a file operation history in the operation history database 325 illustrated in FIG. 3 according to the embodiment of this invention. FIG. 8 shows file operation information for log ID, time, user ID, and file ID.
FIG. 11 shows an embodiment of the present invention, and is a diagram showing an example in which the user's file operations are mapped in time series for each file in the file operation information shown in FIG. In FIG. 11, for example, an
ここで、まず、図5のフローチャートの説明を行う。
ステップS501において、ワークフロー抽出部327の類似度計算部3271は、ファイルを抽象化するために、データベース323内の全てのファイル間の類似度の計算を行う。ここで、ファイル間の類似度としては、一般的に良く用いられる文書に含まれる単語の類似性を指標とするのではなく、作業におけるファイルの利用目的が似ているものを類似度が高いと見なす指標を用いるのがよい。例えば、そのような指標として、次のようなものが利用できる。
・ファイルの派生関係
・ファイルの構造情報(XML構造)
・ファイルの共起頻度情報
・ファイルの属性情報
それぞれの指標における類似度は、必要に応じて単体で用いても、複数を組み合わせて用いてもよく、また、これらに限定されるものではない。それぞれの指標におけるファイル間の類似度の計算方法について以下に詳しく説明する。
First, the flowchart of FIG. 5 will be described.
In step S501, the similarity calculation unit 3271 of the
・ File derivation ・ File structure information (XML structure)
-File co-occurrence frequency information-File attribute information The degree of similarity of each index may be used alone or in combination as necessary, and is not limited to these. A method for calculating the similarity between files in each index will be described in detail below.
まず、「ファイルの派生関係」によるファイル間の類似度について説明する。
例えば、あるテンプレートがあり、そのテンプレートをコピーして作成したファイルAと、ファイルBがあったとき、ファイルAとファイルBは同じ目的の作業に使用された可能性が高いと考えられる。このような考えから、ファイルの派生関係を利用してファイル間の類似度を定義することができる。単純な方法では、例えば、コピー関係にあるファイルを図7のように木構造で表すと、自分自身との類似度を1とし、自分から離れていく毎に減衰係数を類似度に掛けることにより他のファイルとの類似度を求めることができる。
図9は、本発明の実施形態を示し、ファイルのコピー関係によるファイル間の類似度の一例を示す図である。図9(a)に示すコピー関係の場合、減衰係数を0.9としたときの各ファイル間の類似度は、図9(b)に示す通りになる。例えばFileAAAは、FileAをコピーして作成したファイルFileAAをコピーして作成したファイルなので、FileAとFileAAAとの間の類似度は、1×0.9×0.9=0.81となる。
First, the similarity between files based on the “file derivation relationship” will be described.
For example, when there is a template and there are a file A and a file B created by copying the template, it is considered that there is a high possibility that the file A and the file B are used for the same purpose work. From such an idea, the degree of similarity between files can be defined using the derivation relationship of files. In a simple method, for example, when a file having a copy relationship is represented by a tree structure as shown in FIG. 7, the similarity with itself is set to 1, and the degree of similarity is multiplied by the attenuation coefficient every time the user moves away from the user. Similarity with other files can be obtained.
FIG. 9 is a diagram illustrating an embodiment of the present invention and an example of similarity between files based on a file copy relationship. In the case of the copy relationship shown in FIG. 9A, the similarity between files when the attenuation coefficient is 0.9 is as shown in FIG. 9B. For example, since FileAAA is a file created by copying FileAA by copying FileA, the similarity between FileA and FileAAA is 1 × 0.9 × 0.9 = 0.81.
次いで、「ファイルの構造情報(XML構造)」によるファイル間の類似度について説明する。
近年、文書ファイルは、独自形式からXML形式に替わってきているものが多い。XML形式では、文書内容にタグ付けがしてあり、文書の構造と内容とを分離して処理し易い点が特徴である。そこで、文書ファイル間で文書内容には因らず、文書構造が似たものを容易に探すことが可能である。例えば、同じテンプレートから作成されたファイルAとファイルBとは文書内容は異なるが、同じテンプレートから引き継いだ文書構造は似ているため、文書構造による類似度は有効な指標となる。
Next, the similarity between files based on “file structure information (XML structure)” will be described.
In recent years, many document files have been changed from the original format to the XML format. The XML format is characterized in that the document content is tagged and it is easy to process the document structure and content separately. Therefore, it is possible to easily find a document having a similar document structure regardless of the document contents between the document files. For example, the file A and the file B created from the same template have different document contents, but the document structure inherited from the same template is similar, so the similarity based on the document structure is an effective index.
次いで、「ファイルの共起頻度情報」によるファイル間の類似度について説明する。
例えば、FileAは、FileB及びFileCと一緒に使用される確率が高いとし、また別のFileXも、FileB及びFileCと一緒に使用される確率が高いとき、FileAとFileXは同じ目的の作業において使用のされた方が似ていると推定することができる。このような考え方から、ファイルの共起頻度情報を用いてファイル間の類似度を定義できる。類似度の単純な算出方法としては、2つのファイル間で共通している共起ファイル数を、それぞれのファイルの共起ファイル数の平均で割るなどすればよい。なお、共通している共起ファイルとは、同一のファイルだけを指すわけではなく、類似したファイルを含むようにしてもよい。
Next, the similarity between files based on “file co-occurrence frequency information” will be described.
For example, if FileA is likely to be used with FileB and FileC, and another FileX is also likely to be used with FileB and FileC, FileA and FileX will be used in the same purpose task. It can be presumed that the person who is done is similar. From this concept, the degree of similarity between files can be defined using file co-occurrence frequency information. As a simple method of calculating the similarity, the number of co-occurrence files that are common between two files may be divided by the average number of co-occurrence files of the respective files. The common co-occurrence file does not indicate only the same file but may include a similar file.
次いで、「ファイルの属性情報」によるファイル間の類似度について説明する。
ファイル間の類似度を計算する上で有効な情報として、ファイル名やパス名などがある。同じ目的の作業ではファイル名に共通性が見られ、一部分が異なっていることが多い。そのような例として、例えば、会議の議事録などは、ファイル名の違いが日付であったり、また、何かの調査だったりするとファイル名の違いはユーザ名だったりする。このようにファイル名に共通性が見られるものを、ファイル間の類似度が高いとすればよい。例えば、fileAとfileBのファイル名による類似度をsim(fileA,fileB)として、単純には、以下の(1)式のように定義できる。
Next, the similarity between files based on “file attribute information” will be described.
Effective information for calculating the similarity between files includes a file name and a path name. For work with the same purpose, there is a commonality in file names, and some parts are different. As an example of this, for example, in the minutes of a meeting, the difference in file names is the date, or if the investigation is something, the difference in file names is the user name. In this way, what has commonality in file names may be considered as having high similarity between files. For example, the similarity based on the file names of fileA and fileB can be defined as sim (fileA, fileB) as shown in the following equation (1).
(1)式において、len(fileA)は、fileAのファイル名の長さを表し、min(len(fileA),len(fileB))は、fileAのファイル名の長さとfileBのファイル名の長さのうちの短い方の長さを表す。また、(1)式において、LCS(fileA,fileB)は、fileAのファイル名とfileBのファイル名の最長共通部分列(Longest Common Subsequence:LCS)を表す。ここで、部分列(Subsequence)は、系列のいくつかの要素を取り出してできた系列のことである。2つの系列の共通の部分列を共通部分列(Common Subsequence)と呼ぶ。共通部分列のうち、最も長いものを最長共通部分列(Longest Common Subsequence:LCS)と呼ぶ。
また、ファイル名による類似度の他の例として、編集距離と呼ばれる、情報理論において2つの文字列がどの程度異なっているかを示す数値を用いることもできる。具体的には、文字の挿入や削除、置換によって、1つの文字列を別の文字列に変形するのに必要な手順の最小回数として与えられる。
In equation (1), len (fileA) represents the length of the file name of fileA, and min (len (fileA), len (fileB)) represents the length of the file name of fileA and the length of the file name of fileB. Of the shorter of the two. In the equation (1), LCS (fileA, fileB) represents the longest common subsequence (LCS) of the file name of fileA and the file name of fileB. Here, the subsequence is a sequence obtained by extracting some elements of the sequence. A common partial sequence of the two sequences is referred to as a common partial sequence. The longest common subsequence is called the longest common subsequence (LCS).
As another example of the similarity based on the file name, a numerical value called an edit distance, which indicates how much two character strings are different in information theory, can be used. Specifically, it is given as the minimum number of procedures required to transform one character string into another character string by inserting, deleting, or replacing characters.
以上、4つの指標について説明したが、ファイル間の類似度として、そのうち1つを用いてもよいし、また、任意の複数の指標を組み合わせる形で用いてもよい。また、ここで挙げた指標は一例であり、それ以外でも、作業におけるファイルの利用目的が似ているものを類似度が高いと見なす指標であればよい。 Although the four indexes have been described above, one of them may be used as the similarity between files, or a plurality of arbitrary indexes may be combined. In addition, the index mentioned here is only an example, and any other index may be used as long as the similarity is high when the usage purpose of the file in the work is similar.
ここで、再び、図5の説明に戻る。
ステップS501の処理が終了すると、ステップS502に進む。
ステップS502に進むと、ワークフロー抽出部327のクラスタリング部3272は、ステップS501による計算処理により得られた、複数のファイルにおける各ファイル間(各アイテム間)の類似度を用いて、ファイルをクラスタリングする処理を行う。即ち、ここでは、データベース323内に格納されている複数のファイル(複数のアイテム)を複数のファイルクラスタ(複数のアイテムクラスタ)にクラスタリングする処理を行う。ここで、クラスタリングの手法としては、階層型と非階層型との2つに大別されるが、ここでは、クラスタの数を予め定める必要のない階層型クラスタリングの手法を用いる。階層型クラスタリングの代表的な手法に、最短距離法、最長距離法、群平均法、ウォード法などがあるが、本実施形態においてはどれを用いてもよい。本ステップでは、結果として、作業におけるファイルの使用のされ方が似ているものをグループとしてまとめたものをファイルクラスタとして出力する。なお、ファイルクラスタは1つ以上のファイルのまとまりであり、類似するファイルが1つもないファイルでも、それ単体でファイルクラスタとする。
Here, it returns to description of FIG. 5 again.
When the process of step S501 ends, the process proceeds to step S502.
In step S502, the
図10は、本発明の実施形態を示し、図8に示すファイル操作情報におけるファイルを階層型クラスタリングした一例を示す図である。図10に示す例では、FC1はファイル1及びファイル6が属するファイルクラスタ、FC4はファイル4のみが属するファイルクラスタ、FC5はファイル5のみが属するファイルクラスタ、FC2はファイル2及びファイル8が属するファイルクラスタ、FC3はファイル3及びファイル7が属するファイルクラスタである。
FIG. 10 is a diagram illustrating an example of hierarchical clustering of files in the file operation information illustrated in FIG. 8 according to the embodiment of this invention. In the example shown in FIG. 10, FC1 is a file cluster to which
続いて、ステップS503において、ワークフロー抽出部327の中心クラスタ抽出部3273は、ステップS502で得られた複数のファイルクラスタの中から、ワークフローの中心となる中心ファイルクラスタ(中心アイテムクラスタ)を抽出する処理を行う。ここで、ワークフローの中心となるファイルとは、ワークフローの中で複数のユーザに操作されるファイルや、そのワークフローの最終成果物となるようなファイルであり、そのようなファイルを多く含むファイルクラスタを、中心ファイルクラスタとして抽出する。例えば、中心クラスタ抽出部3273は、各ファイルの利用情報(各ファイルを利用するユーザ数、及び、各ファイルの利用方法(例えば上述したワークフローの最終成果物として利用する等)のうちの少なくとも1つの情報を含む)に基づいて、中心ファイルクラスタを抽出する処理を行う。
Subsequently, in step S503, the central cluster extraction unit 3273 of the
ここでは、各ファイルを利用するユーザ数に基づいて、中心ファイルクラスタを抽出する場合について説明を行う。
この場合、まず、ファイル毎に、編集などのファイル操作を行ったユーザ数を抽出し、ファイルクラスタ単位で、その中に含まれるファイルの前記ユーザ数を平均する。そして、その平均値が規定の値以上のファイルクラスタをワークフローの中心となる中心ファイルクラスタとして抽出する。例えば、図8に示す例では、FC1は、その中に含まれるファイル1とファイル6のどちらも4人のユーザから操作されており、そのユーザ数の平均は4人である。例えば、前記既定の値を3人とすると、FC1は、ワークフローの中心となる中心ファイルクラスタとして抽出されることになる。この場合、図8に示す例では、FC1のみが中心ファイルクラスタとして抽出されることになるが、本実施形態においてはこれに限定されるものではない。本実施形態においては、前記規定の値以上の全てのファイルクラスタが中心ファイルクラスタとしての抽出対象である。
Here, a case where a central file cluster is extracted based on the number of users using each file will be described.
In this case, first, the number of users who have performed file operations such as editing is extracted for each file, and the number of users of the files included therein is averaged for each file cluster. Then, a file cluster whose average value is equal to or greater than a prescribed value is extracted as a central file cluster that is the center of the workflow. For example, in the example shown in FIG. 8, FC1 is operated by four users in both
ステップS503の処理が終了すると、図5に示すフローチャートにおける処理が終了する。 When the process of step S503 ends, the process in the flowchart shown in FIG. 5 ends.
次いで、図5のステップS503で抽出した中心ファイルクラスタ毎に、図6に示すフローチャートによりワークフロー(頻出パターン)を抽出する。 Next, a workflow (frequent pattern) is extracted by the flowchart shown in FIG. 6 for each central file cluster extracted in step S503 in FIG.
まず、ステップS601において、ワークフロー抽出部327の共起確率計算部3274は、中心ファイルクラスタ(中心アイテムクラスタ)と、その他のファイルクラスタ(その他のアイテムクラスタ)との共起確率を計算する処理を行う。通常、AとBの共起確率とは、A∩B/A∪Bであるが、ここでは、Aを中心ファイルクラスタに固定し、Bをその他のファイルクラスタとし、A∩B/Bを、中心ファイルクラスタとその他のファイルクラスタとの共起確率とする。2つのファイルクラスタが共起したかどうかの条件は、いろいろと考えられる。例えば、ファイルクラスタの操作が行われた時刻の前後2時間を、そのファイルクラスタへの操作時間とし、その操作時間に重なりがある場合に2つのファイルクラスタは共起しているとしてもよい。他には、固定時間、例えば3時間毎にファイル操作履歴を区切ることでセッションを作成し、そのセッションの中に含まれているファイルクラスタ同士は共起をしているとしてもよい。ここで例として挙げた2時間や3時間はパラメータであり、任意に決めることができる。
First, in step S601, the co-occurrence
ここでは、図8に示すファイル操作情報を用いて、中心ファイルクラスタであるFC1と、当該中心ファイルクラスタを除くその他のファイルクラスタとの共起確率の計算例について説明する。
図12は、本発明の実施形態を示し、図8に示すファイル操作情報について、ファイルクラスタ別にユーザのファイル操作を時系列にマッピングした一例を示す図である。
イベント1201やイベント1202は、ユーザAが行った元々別のファイルへの操作であるが、ファイルを抽象化することで、同軸上のイベントとして考えることができる。このようにすることで、同じ作業としてのファイルの共起性の発見し易さが向上する。ここでは、ファイルクラスタの共起を、操作時刻から前後2時間の時間帯で重なりがあることとすると、FC2ではイベント1211及び1212の2つの操作があり、2つともFC1の操作と共起しているので、共起確率は2/2=1.0となる。同様にして、FC5では、イベント1221、1222、1223及び1224の4つの操作があり、このうちのイベント1221及び1224の2つだけがFC1と共起しているので、共起確率は2/4=0.5となる。同様に、FC3及びFC4も、それぞれ、0.5及び0.3と共起確率が計算される。
Here, a calculation example of the co-occurrence probability between the central file cluster FC1 and other file clusters excluding the central file cluster will be described using the file operation information shown in FIG.
FIG. 12 shows an embodiment of the present invention, and is a diagram showing an example in which user file operations are mapped in time series for each file cluster in the file operation information shown in FIG.
The
ここで、再び、図6の説明に戻る。
ステップS601の処理が終了すると、ステップS602に進む。
ステップS602に進むと、ワークフロー抽出部327の従属クラスタ特定部3275は、ステップS601による計算処理により得られた共起確率を用いて、中心ファイルクラスタ(中心アイテムクラスタ)と同じワークフローに属する従属ファイルクラスタ(従属アイテムクラスタ)を特定する処理を行う。例えば、単純に所定の値以上の共起確率を持つファイルクラスタとすればよい。図8に示すファイル操作情報の例において、前記所定の値を0.7(7割ぐらいの確率で一緒に扱われる)とすると、FC2が、中心ファイルクラスタであるFC1と同じワークフローに属する従属ファイルクラスタとして特定される。図12において、一見すると、FC5もFC1と一緒に扱われやすいように見えるが、FC5は全体的に現れるため、特別、FC1と一緒に扱われやすいわけではない。
Here, it returns to description of FIG. 6 again.
When the process of step S601 ends, the process proceeds to step S602.
In step S602, the dependent cluster specifying unit 3275 of the
続いて、ステップS603において、ワークフロー抽出部327のシーケンス抽出部3276は、ワークフローの候補となる、アイテムクラスタの操作シーケンスであるファイルクラスタ操作シーケンスの集合を抽出する処理を行う。ここで、ワークフローの候補となるファイルクラスタ操作シーケンスは、ワークフローの中心となる中心フィルクラスタに含まれるファイル毎に抽出されるものである。そして、本ステップでは、そのファイルを中心とした作業をファイル操作シーケンスとして抽出した後、ファイルをファイルクラスタへ置き換えることで、ファイルクラスタ操作シーケンスとする。
Subsequently, in step S603, the
ここで、図8に示すファイル操作情報の例を用いて、具体的な処理について説明する。
まず、ワークフローの中心となる中心ファイルクラスタであるFC1と、そのワークフローに属する従属ファイルクラスタであるFC2とに含まれるファイルの操作履歴を取りだす。
Here, specific processing will be described using the example of the file operation information shown in FIG.
First, the operation history of files included in FC1 that is the central file cluster that is the center of the workflow and FC2 that is the dependent file cluster belonging to the workflow is taken out.
図13は、本発明の実施形態を示し、図8に示すファイル操作情報について、FC1及びFC2に属するファイル別にユーザのファイル操作を時系列にマッピングした一例を示す図である。
図13において、ファイル1とファイル6がFC1に属するものであり、ファイル2とファイル8がFC2に属するものである。そして、中心ファイルクラスタであるFC1に属するファイル毎に、そのファイルと共起関係にあるファイルを含めたファイル操作シーケンスを抽出する。ここで、ファイルの共起とは、ファイルクラスタの共起と同様に操作時刻から前後2時間の時間帯で重なりがあることとする。もちろん、2時間は任意のパラメータであり、また、共起の定義はこれに限らない。
FIG. 13 shows an embodiment of the present invention, and shows an example in which the file operations of the user are mapped in time series for the files belonging to FC1 and FC2 for the file operation information shown in FIG.
In FIG. 13,
図14は、本発明の実施形態を示し、ファイル操作シーケンス及びファイルクラスタ操作シーケンスの一例を示す図である。
ここで、図14(a)は、上述した抽出処理により抽出されたファイル操作シーケンスの一例である。図14(a)において、シーケンス1はファイル1との共起関係に応じて抽出され、シーケンス2はファイル6との共起関係に応じて抽出されたものである。次いで、抽出したファイル操作シーケンスのファイルを再びファイルクラスタへとファイルの抽象化を行うことで、図14(b)に示すファイルクラスタ操作シーケンスを得る。このファイルクラスタ操作シーケンスの1つ1つが、ある1つの作業の流れを表しており、目的が類似する作業の流れを集めることで、それら作業の典型的なパターンであるワークフローを抽出できる。
FIG. 14 is a diagram illustrating an example of a file operation sequence and a file cluster operation sequence according to the embodiment of this invention.
Here, FIG. 14A is an example of a file operation sequence extracted by the extraction process described above. In FIG. 14A, the
ここで、再び、図6の説明に戻る。
ステップS603の処理が終了すると、ステップS604に進む。
ステップS604に進むと、ワークフロー抽出部327の頻出パターン抽出部3277は、ステップS604の抽出処理により抽出されたファイルクラスタ操作シーケンスの集合から、ワークフローを抽出する処理を行う(頻出パターンを抽出する処理を行う)。
Here, it returns to description of FIG. 6 again.
When the process of step S603 ends, the process proceeds to step S604.
In step S604, the frequent pattern extraction unit 3277 of the
以下に、ステップS604の処理の詳細について説明する。
ここまでの処理により、抽出されたファイルクラスタ操作シーケンスの集合は、目的が類似する作業の流れの集合となっている。そして、ここで抽出するワークフローは、抽出されたファイルクラスタ操作シーケンスの集合を入力とし、頻出する「Closed Partial Orders」として抽出する。「Closed Partial Orders」とは、系列データの集合から、シーケンシャルパターンマイニングと呼ばれる手法により抽出された頻出する部分系列データ集合を要約する形で得られるものである。
Details of the process in step S604 will be described below.
The set of file cluster operation sequences extracted by the processing so far is a set of work flows having similar purposes. The workflow to be extracted here is extracted as “Closed Partial Orders” that frequently appear as a set of the extracted file cluster operation sequences. “Closed Partial Orders” is obtained by summarizing frequent partial sequence data sets extracted from a set of sequence data by a technique called sequential pattern mining.
シーケンシャルパターンマイニングは、以下のように定義される処理である。
I={i1,i2,…,in}を、アイテム集合とする。集合Iの空でない部分集合をエレメントと言う。また、ある閾値ξ>0が与えられたとき、集合Iにおいてξ回以上現れるアイテムを頻出アイテムと言う。エレメントの順序列をシーケンスと言う。さらに、シーケンスα=(a1,a2,…,an)とシーケンスβ=(b1,b2,…,bn)に対して、a1⊆bj1,a2⊆bj2,…,an⊆bjnとなる整数1<j1<j2<…<jn<mがあるとき、αをβのサブシーケンスと言い、α⊆βと表記する。シーケンスidのsidとシーケンスsのタプル(sid,s)の集合であるS={(sid1,s1),(sid2,s2),…,(sidn,sn)}をシーケンスデータベースと呼ぶ。さらに、系列αの系列データベースSにおけるサポートとは、S中の全ての系列のうち、系列αを含むタプルの数と定義される。閾値ξ(最小サポート値と呼ぶ)以上の個数の(sid,s)に含まれているシーケンスをシーケンシャルデータベースにおけるシーケンシャルパターンと言う。シーケンシャルパターンマイニングとは、シーケンスデータベースSと最小サポート値ξが与えられたときに、Sにおけるシーケンシャルパターンを全て見つけることである。代表的なシーケンシャルパターマイニングの手法としては、上記の非特許文献1に示すAprioriアルゴリズムや、上記の非特許文献2に示すPrefixSpanなどがある。
Sequential pattern mining is a process defined as follows.
Let I = {i 1 , i 2 ,..., I n } be an item set. A non-empty subset of set I is called an element. An item that appears more than ξ times in the set I when a certain threshold value ξ> 0 is given is called a frequent item. The sequence of elements is called a sequence. Further, for the sequence α = (a 1 , a 2 ,..., An ) and the sequence β = (b 1 , b 2 ,..., B n ), a 1 ⊆b j1 , a 2 ⊆b j2 ,. , A n ⊆b jn , when there is an
図15は、本発明の実施形態を示し、シーケンシャルパターマイニングを説明するための図である。
例えば、図15(a)に示すようなシーケンスデータベースが与えられたとき、シーケンシャルパターンマイニングを適用することにより、図15(b)に示すように4つのシーケンシャルパターンが抽出される。しかしながら、これはシーケンスデータベースから読み取れる本来のパターンが断片化されたものとなっている。シーケンスデータベースから読み取れる本来のパターンとは、図15(c)に示すようなもので、アイテムAの後には、アイテムBとアイテムCが現れ、その次にアイテムDが現れ、最後にアイテムEとアイテムFが現れるというものである。この図15(c)に示すようなパターンは、「Closed Partial Orders」と呼ばれ、この「Closed Partial Orders」を抽出する方法は、既にいくつか提案されている。例えば、上記の非特許文献3に示す方法などがある。
FIG. 15 shows an embodiment of the present invention and is a diagram for explaining sequential pattern mining.
For example, when a sequence database as shown in FIG. 15A is given, four sequential patterns are extracted as shown in FIG. 15B by applying sequential pattern mining. However, this is a fragmented original pattern that can be read from the sequence database. The original pattern that can be read from the sequence database is as shown in FIG. 15C. Item B is followed by item C after item A, followed by item D, and finally item E and item. F appears. The pattern as shown in FIG. 15C is called “Closed Partial Orders”, and several methods for extracting “Closed Partial Orders” have already been proposed. For example, there is a method shown in
図16は、本発明の実施形態を示し、図6のステップS604において抽出されるワークフローの一例を示す図である。具体的に、図16は、図6のステップS603で抽出された図14(b)に示すファイルクラスタ操作シーケンスの集合から、抽出される「Closed Partial Orders」を示している。この「Closed Partial Orders」は、目的が類似する作業の流れの集合から抽出された典型的な操作パターンであるワークフローとなる。図16には、ノード1601〜ノード1605が示されている。そして、ワークフロー抽出部327の処理により、図8に示すファイル操作情報から、図7に示すワークフローが最終的に抽出される。
FIG. 16 is a diagram illustrating an example of the workflow extracted in step S604 in FIG. 6 according to the embodiment of this invention. Specifically, FIG. 16 shows “Closed Partial Orders” extracted from the set of file cluster operation sequences shown in FIG. 14B extracted in step S603 of FIG. This “Closed Partial Orders” is a workflow that is a typical operation pattern extracted from a set of workflows with similar purposes. FIG. 16 shows
ステップS604の処理が終了すると、図6に示すフローチャートにおける処理が終了する。 When the process of step S604 ends, the process in the flowchart shown in FIG. 6 ends.
本発明の実施形態では、中心ファイルクラスタに属するファイルと従属ファイルクラスタに属するファイルにおける操作履歴に基づいて操作シーケンスの集合を抽出し、当該操作シーケンスの集合に基づいてワークフローとなる頻出パターンを抽出している。
かかる構成によれば、複数のユーザが協調して複数のファイルを操作して作業を行う場合において、ユーザが独立して並行に作業を行うようなパターンも含めて、より汎用的なワークフローの抽出を実現することができる。これにより、このワークフローを用いて、ユーザのアイテム操作をナビゲートするなど、作業の効率を向上させることが可能となる。例えば、ワークフローを可視化して業務の見直しに役立てたり、ワークフローシステム構築の参考にしたり、ユーザのファイル操作をナビゲートするファイル推薦に用いたりするなど、幅広く利用可能である。
In the embodiment of the present invention, a set of operation sequences is extracted based on operation histories in a file belonging to the central file cluster and a file belonging to the dependent file cluster, and a frequent pattern serving as a workflow is extracted based on the set of operation sequences. ing.
According to such a configuration, when a plurality of users collaborate and operate a plurality of files to perform a work, a more general workflow extraction including a pattern in which the users work independently in parallel is performed. Can be realized. This makes it possible to improve work efficiency, such as navigating user item operations, using this workflow. For example, it can be widely used, such as visualizing a workflow for use in reviewing work, as a reference for building a workflow system, and for recommending files for navigating user file operations.
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。
即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。
このプログラム及び当該プログラムを記憶したコンピュータ読み取り可能な記録媒体は、本発明に含まれる。
(Other embodiments)
The present invention can also be realized by executing the following processing.
That is, software (program) that realizes the functions of the above-described embodiments is supplied to a system or apparatus via a network or various storage media, and a computer (or CPU, MPU, etc.) of the system or apparatus reads the program. It is a process to be executed.
This program and a computer-readable recording medium storing the program are included in the present invention.
なお、上述した本発明の実施形態は、いずれも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。 Note that the above-described embodiments of the present invention are merely examples of implementation in practicing the present invention, and the technical scope of the present invention should not be construed as being limited thereto. It is. That is, the present invention can be implemented in various forms without departing from the technical idea or the main features thereof.
310 ユーザ端末、320 ファイル管理システム、321 操作取得部、322 ファイル管理部、323 データベース、324 操作履歴管理部、325 操作履歴データベース、326 情報送信部、327 ワークフロー抽出部、3271 類似度計算部、3272 クラスタリング部、3273 中心クラスタ抽出部、3274 共起確率計算部、3275 従属クラスタ特定部、3276 シーケンス抽出部、3277 頻出パターン抽出部 310 user terminal, 320 file management system, 321 operation acquisition unit, 322 file management unit, 323 database, 324 operation history management unit, 325 operation history database, 326 information transmission unit, 327 workflow extraction unit, 3271 similarity calculation unit, 3272 Clustering unit, 3273 Central cluster extracting unit, 3274 Co-occurrence probability calculating unit, 3275 Dependent cluster specifying unit, 3276 Sequence extracting unit, 3277 Frequent pattern extracting unit
Claims (8)
前記複数のアイテムにおける各アイテム間の類似度に基づいて、前記複数のアイテムを複数のアイテムクラスタにクラスタリングするクラスタリング手段と、
前記複数のアイテムクラスタの中から、前記頻出パターンの中心となる中心アイテムクラスタを抽出する中心クラスタ抽出手段と、
前記複数のアイテムクラスタの中から、前記中心アイテムクラスタと同じ前記頻出パターンに含まれる従属アイテムクラスタを特定する従属クラスタ特定手段と、
前記中心アイテムクラスタに属するアイテムと前記従属アイテムクラスタに属するアイテムにおける操作履歴に基づいて、前記各ユーザにおける前記中心アイテムクラスタおよび前記従属アイテムクラスタの操作シーケンスの集合を抽出するシーケンス抽出手段と、
前記シーケンス抽出手段で抽出した操作シーケンスの集合に基づいて、前記頻出パターンを抽出する頻出パターン抽出手段と
を有することを特徴とする頻出パターン抽出装置。 A frequent pattern extraction device that extracts a time-series frequent pattern from each user's operation history for each item in a plurality of items,
Clustering means for clustering the plurality of items into a plurality of item clusters based on the similarity between the items in the plurality of items;
A central cluster extraction means for extracting a central item cluster that is the center of the frequent pattern from the plurality of item clusters;
A subordinate cluster specifying means for specifying a subordinate item cluster included in the same frequent pattern as the central item cluster from the plurality of item clusters;
Sequence extraction means for extracting a set of operation sequences of the central item cluster and the dependent item cluster for each user based on an operation history of an item belonging to the central item cluster and an item belonging to the dependent item cluster;
A frequent pattern extraction device comprising: a frequent pattern extraction unit that extracts the frequent pattern based on a set of operation sequences extracted by the sequence extraction unit.
前記従属クラスタ特定手段は、前記共起確率計算手段で計算した共起確率に基づいて、前記従属アイテムクラスタを特定することを特徴とする請求項1乃至3のいずれか1項に記載の頻出パターン抽出装置。 A co-occurrence probability calculating means for calculating a co-occurrence probability of the central item cluster and other item clusters excluding the central item cluster of the plurality of item clusters;
The frequent pattern according to any one of claims 1 to 3, wherein the subordinate cluster specifying unit specifies the subordinate item cluster based on the co-occurrence probability calculated by the co-occurrence probability calculating unit. Extraction device.
前記複数のアイテムにおける各アイテム間の類似度に基づいて、前記複数のアイテムを複数のアイテムクラスタにクラスタリングするクラスタリングステップと、
前記複数のアイテムクラスタの中から、前記頻出パターンの中心となる中心アイテムクラスタを抽出する中心クラスタ抽出ステップと、
前記複数のアイテムクラスタの中から、前記中心アイテムクラスタと同じ前記頻出パターンに含まれる従属アイテムクラスタを特定する従属クラスタ特定ステップと、
前記中心アイテムクラスタに属するアイテムと前記従属アイテムクラスタに属するアイテムにおける操作履歴に基づいて、前記各ユーザにおける前記中心アイテムクラスタおよび前記従属アイテムクラスタの操作シーケンスの集合を抽出するシーケンス抽出ステップと、
前記シーケンス抽出ステップで抽出した操作シーケンスの集合に基づいて、前記頻出パターンを抽出する頻出パターン抽出ステップと
を有することを特徴とする頻出パターン抽出方法。 A frequent pattern extraction method by a frequent pattern extraction device that extracts a time-series frequent pattern from each user's operation history for each item in a plurality of items,
A clustering step of clustering the plurality of items into a plurality of item clusters based on the similarity between the items in the plurality of items;
A center cluster extraction step of extracting a center item cluster that is the center of the frequent pattern from the plurality of item clusters;
A subordinate cluster specifying step of specifying a subordinate item cluster included in the same frequent pattern as the central item cluster from the plurality of item clusters;
A sequence extraction step of extracting a set of operation sequences of the central item cluster and the dependent item cluster in each user based on an operation history of an item belonging to the central item cluster and an item belonging to the dependent item cluster;
A frequent pattern extraction method comprising: a frequent pattern extraction step for extracting the frequent pattern based on a set of operation sequences extracted in the sequence extraction step.
前記複数のアイテムにおける各アイテム間の類似度に基づいて、前記複数のアイテムを複数のアイテムクラスタにクラスタリングするクラスタリングステップと、
前記複数のアイテムクラスタの中から、前記頻出パターンの中心となる中心アイテムクラスタを抽出する中心クラスタ抽出ステップと、
前記複数のアイテムクラスタの中から、前記中心アイテムクラスタと同じ前記頻出パターンに含まれる従属アイテムクラスタを特定する従属クラスタ特定ステップと、
前記中心アイテムクラスタに属するアイテムと前記従属アイテムクラスタに属するアイテムにおける操作履歴に基づいて、前記各ユーザにおける前記中心アイテムクラスタおよび前記従属アイテムクラスタの操作シーケンスの集合を抽出するシーケンス抽出ステップと、
前記シーケンス抽出ステップで抽出した操作シーケンスの集合に基づいて、前記頻出パターンを抽出する頻出パターン抽出ステップと
をコンピュータに実行させるためのプログラム。 A program for causing a computer to execute a frequent pattern extraction method by a frequent pattern extraction device that extracts a time-series frequent pattern from an operation history of each user for each item in a plurality of items,
A clustering step of clustering the plurality of items into a plurality of item clusters based on the similarity between the items in the plurality of items;
A center cluster extraction step of extracting a center item cluster that is the center of the frequent pattern from the plurality of item clusters;
A subordinate cluster specifying step of specifying a subordinate item cluster included in the same frequent pattern as the central item cluster from the plurality of item clusters;
A sequence extraction step of extracting a set of operation sequences of the central item cluster and the dependent item cluster in each user based on an operation history of an item belonging to the central item cluster and an item belonging to the dependent item cluster;
A program for causing a computer to execute a frequent pattern extraction step of extracting the frequent pattern based on a set of operation sequences extracted in the sequence extraction step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013036332A JP2014164618A (en) | 2013-02-26 | 2013-02-26 | Frequent pattern extraction device, frequent pattern extraction method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013036332A JP2014164618A (en) | 2013-02-26 | 2013-02-26 | Frequent pattern extraction device, frequent pattern extraction method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014164618A true JP2014164618A (en) | 2014-09-08 |
Family
ID=51615149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013036332A Pending JP2014164618A (en) | 2013-02-26 | 2013-02-26 | Frequent pattern extraction device, frequent pattern extraction method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014164618A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016111417A (en) * | 2014-12-03 | 2016-06-20 | 株式会社リコー | Network system, electronic apparatus, electronic apparatus management method and electronic apparatus management program |
JP2018181177A (en) * | 2017-04-20 | 2018-11-15 | 株式会社日立製作所 | Business process analyzing apparatus, business process analyzing method and business process analyzing program |
JP2019036224A (en) * | 2017-08-21 | 2019-03-07 | 富士ゼロックス株式会社 | Information processor and information processing program |
JP2019133556A (en) * | 2018-02-02 | 2019-08-08 | フューチャー株式会社 | Migration unit analysis device, migration unit analysis method and transition unit analysis program |
CN112100370A (en) * | 2020-08-10 | 2020-12-18 | 淮阴工学院 | Picture examination expert combined recommendation method based on text convolution and similarity algorithm |
JPWO2021084664A1 (en) * | 2019-10-30 | 2021-05-06 |
-
2013
- 2013-02-26 JP JP2013036332A patent/JP2014164618A/en active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016111417A (en) * | 2014-12-03 | 2016-06-20 | 株式会社リコー | Network system, electronic apparatus, electronic apparatus management method and electronic apparatus management program |
JP2018181177A (en) * | 2017-04-20 | 2018-11-15 | 株式会社日立製作所 | Business process analyzing apparatus, business process analyzing method and business process analyzing program |
JP2019036224A (en) * | 2017-08-21 | 2019-03-07 | 富士ゼロックス株式会社 | Information processor and information processing program |
JP6996159B2 (en) | 2017-08-21 | 2022-01-17 | 富士フイルムビジネスイノベーション株式会社 | Information processing equipment and information processing programs |
JP2019133556A (en) * | 2018-02-02 | 2019-08-08 | フューチャー株式会社 | Migration unit analysis device, migration unit analysis method and transition unit analysis program |
JPWO2021084664A1 (en) * | 2019-10-30 | 2021-05-06 | ||
WO2021084664A1 (en) * | 2019-10-30 | 2021-05-06 | 日本電信電話株式会社 | Extraction device, extraction method, and extraction program |
JP7226582B2 (en) | 2019-10-30 | 2023-02-21 | 日本電信電話株式会社 | Extraction device, extraction method and extraction program |
CN112100370A (en) * | 2020-08-10 | 2020-12-18 | 淮阴工学院 | Picture examination expert combined recommendation method based on text convolution and similarity algorithm |
CN112100370B (en) * | 2020-08-10 | 2023-07-25 | 淮阴工学院 | Picture-trial expert combination recommendation method based on text volume and similarity algorithm |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9262714B2 (en) | Frequent pattern extraction apparatus frequent pattern extraction method and program | |
US12067007B1 (en) | Analyzing a pipelined search to determine data on which to execute the pipelined search | |
US10929173B2 (en) | Design-time information based on run-time artifacts in a distributed computing cluster | |
US10909151B2 (en) | Distribution of index settings in a machine data processing system | |
JP6047017B2 (en) | Pattern extraction apparatus and control method | |
CN102239458B (en) | Visualizing relationships between data elements | |
US9135306B2 (en) | System for forensic analysis of search terms | |
US8037107B2 (en) | Document transfer assisting system, monitor apparatus, document transfer assisting apparatus, method and computer readable recording medium | |
US20160224600A1 (en) | Systems And Methods For Managing Allocation Of Machine Data Storage | |
US11556592B1 (en) | Storage estimate generation | |
JP2014164618A (en) | Frequent pattern extraction device, frequent pattern extraction method, and program | |
CN112116331B (en) | Talent recommendation method and device | |
US10769121B2 (en) | Evolving data archives | |
JP2007193685A (en) | Program for displaying personal connection information, recording medium with the program recorded thereon, device for displaying personal connection information, and method for displaying personal connection information | |
JP2010191709A (en) | Device, program, and system for supporting business management, information processing apparatus, and document management device | |
JP6080649B2 (en) | RECOMMENDATION DEVICE, RECOMMENDATION METHOD, AND PROGRAM | |
Vahedian et al. | Weighted random walk sampling for multi-relational recommendation | |
CN114745171B (en) | Method and system for visual analysis of external attack surface based on graph technology | |
JP2005242904A (en) | Document group analysis device, document group analysis method, document group analysis system, program and storage medium | |
CN115221337A (en) | Data weaving processing method and device, electronic equipment and readable storage medium | |
JP2008065784A (en) | Workflow management system | |
EP4002152A1 (en) | Data tagging and synchronisation system | |
CN107958022A (en) | A kind of method that Web log excavates | |
US20230222513A1 (en) | Recording ethics decisions | |
Bhagya et al. | Survey on requirements and approaches of business process repositories |