JP7568592B2 - Method and computer system for evaluating models - Google Patents
Method and computer system for evaluating models Download PDFInfo
- Publication number
- JP7568592B2 JP7568592B2 JP2021123995A JP2021123995A JP7568592B2 JP 7568592 B2 JP7568592 B2 JP 7568592B2 JP 2021123995 A JP2021123995 A JP 2021123995A JP 2021123995 A JP2021123995 A JP 2021123995A JP 7568592 B2 JP7568592 B2 JP 7568592B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- data
- computer
- classification label
- basis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 38
- 238000012360 testing method Methods 0.000 claims description 65
- 238000011156 evaluation Methods 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 26
- 230000006872 improvement Effects 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 5
- 238000007726 management method Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 19
- 238000012854 evaluation process Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000013500 data storage Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、自然言語処理を行うモデルの生成に使用する学習データの改善技術に関する。 The present invention relates to a technique for improving training data used to generate models that perform natural language processing.
自然言語処理の分野では、テキストデータを解析し、意味解釈及び分類等を行うAI(モデル)の開発が行われている。モデルは機械学習によって生成される。 In the field of natural language processing, AI (models) are being developed that analyze text data and perform semantic interpretation and classification. Models are generated through machine learning.
機械学習では、大量の学習データを用いた演算が実行される。従来の機械学習では、学習データを用意するコストが高く、また、学習データの数を増やしてもモデルの予測精度が必ずしも向上しないという課題がある。高い予測精度のモデルを生成するためには、予測精度の向上効果が大きい質の高い学習データを用意する必要がある。これに対して、特許文献1に記載の技術が知られている。 In machine learning, calculations are performed using large amounts of training data. Conventional machine learning has issues in that the cost of preparing training data is high, and increasing the amount of training data does not necessarily improve the model's prediction accuracy. In order to generate a model with high prediction accuracy, it is necessary to prepare high-quality training data that has a large effect of improving prediction accuracy. In response to this, the technology described in Patent Document 1 is known.
特許文献1には「本発明は、所定の表示を行う表示部6と、力学モデルを用いて、自然言語分析の対象となる学習データについてノードの最適配置を算出するノード最適配置算出処理部2bと、ノード最適配置算出処理部2bによる算出結果に基づいて上記学習データを可視化して表示部6に表示するよう制御する表示制御部2eとを備えた学習データ精度可視化システム」が開示されている。 Patent document 1 discloses that "the present invention is a learning data accuracy visualization system including a display unit 6 that performs a predetermined display, a node optimal placement calculation processing unit 2b that uses a dynamic model to calculate the optimal placement of nodes for learning data that is the subject of natural language analysis, and a display control unit 2e that controls the display unit 6 to visualize the learning data based on the calculation results by the node optimal placement calculation processing unit 2b."
特許文献1に記載の技術では、モデルへの入力(質問)と、モデルからの出力(回答)との相関関係を可視化して、ユーザによる学習データの修正を支援している。 The technology described in Patent Document 1 visualizes the correlation between the input (question) to the model and the output (answer) from the model, helping users correct their learning data.
自然言語処理を実行するモデルの予測精度を向上させるためには、自然言語に対する人の思考と同様の処理を行うアルゴリズムを獲得する必要である。したがって、モデルの出力だけではなく、アルゴリズムの正しさも考慮して学習データを改善する必要がある。ここで、学習データの改善とは、学習データの修正及び学習データの追加を含む概念である。 To improve the predictive accuracy of a model that performs natural language processing, it is necessary to acquire an algorithm that processes natural language in a similar way to how humans think. Therefore, it is necessary to improve the training data by taking into consideration not only the model output but also the correctness of the algorithm. Here, improving the training data is a concept that includes both correcting the training data and adding training data.
また、モデルの予測精度は、モデルを評価するテストデータの質にも依存するため、テストデータの改善も重要である。 In addition, the predictive accuracy of a model also depends on the quality of the test data used to evaluate the model, so improving the test data is also important.
従来技術では、アルゴリズムの正しさは考慮されておらず、また、テストデータの改善についても考慮されていない。 Conventional techniques do not take into account the correctness of the algorithm, nor do they take into account the improvement of test data.
本発明は、モデルの出力及びアルゴリズムの正しさを考慮して、学習データ及びテストデータの改善を支援するシステム及び方法を提供することを目的とする。 The present invention aims to provide a system and method that supports the improvement of training data and test data by taking into account the model output and algorithm correctness.
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、計算機システムが実行する、文書を入力として受け付け、前記文書を用いたタスクを実行することによって分類ラベルを出力するモデルの評価方法であって、前記計算機システムは、プロセッサ、前記プロセッサに接続される記憶装置、及び前記プロセッサに接続されるインタフェースを有する、少なくとも一つの計算機を備え、前記分類ラベルと、人が前記分類ラベルを付与する場合に重要視する着目キーワードとの対応付けを管理する判断根拠情報を保持し、前記モデルの評価方法は、前記少なくとも一つの計算機が、入力文書及び正解分類ラベルを含むテストデータを前記モデルに入力する第1のステップと、前記少なくとも一つの計算機が、前記モデルが前記分類ラベルの出力時に重要視した前記入力文書内の根拠キーワードを特定する第2のステップと、前記少なくとも一つの計算機が、前記分類ラベルと、前記正解分類ラベルとに基づいて前記モデルの出力の正誤を判定する第3のステップと、前記少なくとも一つの計算機が、前記根拠キーワードと、前記分類ラベルに対応する前記着目キーワードとに基づいて前記モデルの判断根拠の正誤を判定する第4のステップと、前記少なくとも一つの計算機が、前記モデルの出力及び前記モデルの判断根拠の正誤の判定結果に基づいて、前記モデルの再学習に使用する学習データ及び前記テストデータの改善指針となる情報を含む評価結果を提示する第5のステップと、を含む。 A representative example of the invention disclosed in the present application is as follows. That is, a method for evaluating a model executed by a computer system, which accepts a document as input and outputs a classification label by executing a task using the document, the computer system includes at least one computer having a processor, a storage device connected to the processor, and an interface connected to the processor, and holds judgment basis information that manages the association between the classification label and a keyword of interest that is considered important when a person assigns the classification label, and the method for evaluating the model includes a first step in which the at least one computer inputs test data including an input document and a correct classification label to the model, and a second step in which the at least one computer determines whether the model is correct. The method includes a second step of identifying the basis keywords in the input document that were considered important when outputting the classification label, a third step of the at least one computer judging the correctness of the output of the model based on the classification label and the correct classification label, a fourth step of the at least one computer judging the correctness of the model's judgment basis based on the basis keywords and the keyword of interest corresponding to the classification label, and a fifth step of the at least one computer presenting an evaluation result including information that serves as a guideline for improving the training data and test data used to retrain the model based on the output of the model and the judgment result of the correctness of the model's judgment basis.
本発明によれば、モデルの出力及び判断根拠の正しさを考慮した学習データ及びテストデータの改善指針を提示することによって、学習データ及びテストデータの改善を支援できる。ユーザは、改善指針に基づいて、学習データ及びテストデータの少なくともいずれかを改善することによって、予測精度の高いモデルを生成することができる。 According to the present invention, by presenting improvement guidelines for training data and test data that take into account the correctness of the model output and the judgment basis, it is possible to support the improvement of training data and test data. By improving at least one of the training data and test data based on the improvement guidelines, the user can generate a model with high prediction accuracy.
以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。 The following describes an embodiment of the present invention with reference to the drawings. However, the present invention should not be interpreted as being limited to the description of the embodiment shown below. Those skilled in the art will easily understand that the specific configuration can be changed without departing from the concept or spirit of the present invention.
以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。 In the configuration of the invention described below, the same or similar configurations or functions are given the same reference symbols, and duplicate explanations are omitted.
図1は、実施例1のシステムの構成例を示す図である。図2は、実施例1の計算機システムを構成する計算機のハードウェア構成の一例を示す図である。図3Aは、実施例1の学習データのデータ構造の一例を示す図である。図3Bは、実施例1のテストデータのデータ構造の一例を示す図である。 FIG. 1 is a diagram showing an example of the configuration of a system according to the first embodiment. FIG. 2 is a diagram showing an example of the hardware configuration of a computer constituting a computer system according to the first embodiment. FIG. 3A is a diagram showing an example of the data structure of training data according to the first embodiment. FIG. 3B is a diagram showing an example of the data structure of test data according to the first embodiment.
システムは、計算機システム100及び端末101から構成される。計算機システム100及び端末101は、直接又は図示しないネットワークを介して互いに接続される。ネットワークは、例えば、WAN(Wide Area Network)及びLAN(Local Area Network)等であり、接続方式は有線及び無線のいずれでもよい。
The system is composed of a
端末101は、計算機システム100を利用するユーザが操作する端末である。端末101は、図示しない、プロセッサ、メモリ、及びネットワークインタフェースを有する。
The
計算機システム100は、問い合わせ及び報告書等のテキストデータを解析し、解析結果に基づいてテキストデータの分類及び二つのテキストデータの含有判定のいずれかのタスクを実行し、分類ラベルを出力する。テキストデータの分類では、例えば、テキスト内容が関連する業務分野が特定され、特定された分野を示す分類ラベルがテキストデータに付与される。テキストデータの含有判定では、例えば、二つのテキストの類似性等が判定され、類似又は非類似のいずれかを示す分類ラベルがテキストデータに付与される。
The
計算機システム100は、図2に示すような計算機200から構成される。なお、計算機システム100は、ストレージシステム及びネットワークスイッチ等を含んでもよい。
The
計算機200は、プロセッサ201、主記憶装置202、副記憶装置203、及びネットワークインタフェース204を有する。
The
プロセッサ201は、主記憶装置202に格納されるプログラムを実行する。プロセッサ201がプログラムにしたがって処理を実行することによって、特定の機能を実現する機能部(モジュール)として動作する。以下の説明では、機能部を主語に処理を説明する場合、プロセッサ201が当該機能部を実現するプログラムを実行していることを示す。主記憶装置202は、メモリ等であり、プロセッサ201が実行するプログラム及びプログラムが使用するデータを格納する。主記憶装置202は、ワークエリアとしても用いられる。副記憶装置203は、HDD(Hard Disk Drive)及びSSD(Solid State Drive)等であり、データを永続的に格納する。主記憶装置202に格納されるプログラム及びデータは、副記憶装置203に格納されてもよい。この場合、プロセッサ201が副記憶装置203からプログラム及びデータを読み出し、主記憶装置202にロードする。ネットワークインタフェース204は、ネットワークを介して他の装置と通信する。
The
なお、計算機200は、キーボード、マウス、及びタッチパネル等の入力装置、並びにディスプレイ及びプリンタ等の出力装置と接続するIOインタフェースを有してもよい。
The
計算機システム100は、機能部として、学習部110、予測部111、API112、及びデータ記憶部113を有する。
The
API112は、端末101に対して、計算機システム100の各種機能を利用するためのインタフェースを提供する。端末101は、API112を介して、データセットの登録及び更新、並びに学習処理の実行等を行う。本実施例では、ユーザは、端末101を用いて、判断根拠情報120を入力する。判断根拠情報120は、タスクにおけるモデルの判断根拠となるキーワードに関する情報である。判断根拠情報120の詳細は図5を用いて説明する。
The
データ記憶部113は、一つ以上の学習データセット130及び一つ以上のテストデータセット140を記憶し、管理する。
The
学習データセット130は、一つ以上の学習データ131から構成される。学習データ131は、モデルを生成するための学習処理に用いられるデータであり、図3Aに示すように、データID301、テキストデータ302、及び分類ラベル303を含む。なお、学習データ131は、前述した以外のフィールドを含んでもよい。
The learning
データID301は、学習データ131の識別情報を格納するフィールドである。テキストデータ302は、モデルに入力するテキストデータを格納するフィールドである。タスクが分類の場合、テキストデータ302には一つのテキストデータが格納され、タスクが含有判定の場合、テキストデータ302には二つのテキストデータが格納される。分類ラベル303は、テキストデータに対するタスクの実行によって出力される分類ラベルの正解値を格納するフィールドである。テキストデータの分類では、分類ラベル303には業務分野等が格納され、テキストデータの含有判定では、分類ラベル303には類似又は非類似等が格納される。
テストデータセット140は、一つ以上のテストデータ141から構成される。テストデータ141は、モデルの予測精度を評価するために用いられるデータであり、図3Bに示すように、データID311、テキストデータ312、及び分類ラベル313を含む。なお、テストデータ141は、前述した以外のフィールドを含んでもよい。
The
データID311は、テストデータ141の識別情報を格納するフィールドである。テキストデータ312は、モデルに入力するテキストデータを格納するフィールドである。タスクが分類の場合、テキストデータ312には一つのテキストデータが格納され、タスクが含有判定の場合、テキストデータ312には二つのテキストデータが格納される。分類ラベル313は、テキストデータに対するタスクの実行によって出力される分類ラベルの正解値を格納するフィールドである。テキストデータの分類では、分類ラベル303には業務分野等が格納され、テキストデータの含有判定では、分類ラベル303には類似又は非類似等が格納される。
なお、学習データセット130から一部の学習データ131を選択し、テストデータセット140を生成してもよい。
In addition, a portion of the
以下の説明では、学習データセット130及びテストデータセット140を区別しない場合、データセットと記載する。
In the following description, when there is no need to distinguish between the
学習部110は、タスクを行うためのモデルを生成するための学習処理を実行する。また、学習部110は、モデルの評価処理を実行する。学習部110は、学習処理及び評価処理の結果をモデル管理情報121に格納する。モデル管理情報121の詳細は図6A、図6B、及び図6Cを用いて説明する。 The learning unit 110 executes a learning process to generate a model for performing a task. The learning unit 110 also executes an evaluation process for the model. The learning unit 110 stores the results of the learning process and the evaluation process in the model management information 121. Details of the model management information 121 will be explained using Figures 6A, 6B, and 6C.
予測部111は、モデル管理情報121に格納されるモデルの情報を用いて、入力されたテキストデータに対してタスクを実行する。
The
なお、計算機システム100が有する各機能部については、複数の機能部を一つの機能部にまとめてもよいし、一つの機能部を機能毎に複数の機能部に分けてもよい。
Regarding each functional unit of the
図4Aは、実施例1の学習データセット130を管理するための情報のデータ構造の一例を示す図である。図4Bは、実施例1のテストデータセット140を管理するための情報のデータ構造の一例を示す図である。
FIG. 4A is a diagram showing an example of a data structure of information for managing the
データ記憶部113は、図4Aに示すデータセット管理データ400を用いて学習データセット130を管理し、また、図4Bに示すデータセット管理データ410を用いてテストデータセット140を管理する。一つの学習データセット130に対して一つのデータセット管理データ400が存在し、また、一つのテストデータセット140に対して一つのデータセット管理データ410が存在する。
The
データセット管理データ400は、学習データセット名401、タスク402、及びリスト403を含む。なお、データセット管理データ400は、前述以外のフィールドを含んでもよい。
The
学習データセット名401は、学習データセット130の識別情報である名称を格納するフィールドである。タスク402は、学習データセット130を用いて生成されるモデルが実行するタスクの種別を格納するフィールドである。リスト403は、学習データセット130を構成する学習データ131の識別情報のリストを格納するフィールドである。なお、識別情報のリストの代わりに、学習データ131そのものが格納されてもよい。
The learning
データセット管理データ410は、テストデータセット名411、タスク412、及びリスト413を含む。なお、データセット管理データ410は、前述以外のフィールドを含んでもよい。
The
テストデータセット名411は、テストデータセット140の識別情報である名称を格納するフィールドである。タスク412は、評価対象のモデルが実行するタスクの種別を格納するフィールドである。リスト413は、テストデータセット140を構成するテストデータ141の識別情報のリストを格納するフィールドである。なお、識別情報のリストの代わりに、テストデータ141そのものが格納されてもよい。
図5は、実施例1の判断根拠情報120に格納されるデータのデータ構造の一例を示す図である。
Figure 5 is a diagram showing an example of the data structure of the data stored in the
判断根拠情報120は、一つ以上の判断根拠データ500を含む。一つの分類ラベルに対して一つの判断根拠データ500が存在する。判断根拠データ500は、分類ラベル501及びキーワード502を含む。
The
分類ラベル501は分類ラベルを格納するフィールドである。キーワード502は、分類ラベルを付与する場合に、ユーザが重要視するキーワードを格納するフィールドである。すなわち、人の判断根拠を示すデータが格納される。
図6A、図6B、及び図6Cは、実施例1のモデル管理情報121に格納されるデータのデータ構造の一例を示す図である。 Figures 6A, 6B, and 6C are diagrams showing an example of the data structure of data stored in model management information 121 in Example 1.
モデル管理情報121は、一つ以上のモデルデータ600を含む。一つのモデルに対して一つのモデルデータ600が存在する。モデルデータ600は、モデル名601、タスク602、モデルパラメータ603、学習パラメータ604、学習データセット名605、テストデータセット名606、ステータス607、有効フラグ608、精度評価指標609、及び評価結果610を含む。なお、モデルデータ600は、前述以外のフィールドを含んでもよい。
The model management information 121 includes one or
モデル名601は、モデルの識別情報である名称を格納するフィールドである。
タスク602は、モデルが実行するタスクの種別を格納するフィールドである。
モデルパラメータ603は、モデルを定義するパラメータを格納するである。学習処理の開始時には、モデルパラメータ603には、初期モデルのパラメータが格納される。例えば、BERT(Bidirectional Encoder Representations from Transformers)の場合、モデルパラメータ603には、事前学習で生成されたモデルのパラメータが格納される。
The
学習パラメータ604は、学習処理を制御するためのハイパーパラメータを格納するフィールドである。
学習データセット名605は、学習処理に使用する学習データセット130の名称を格納するフィールドである。なお、学習データセット名605には、学習データセット130から取得する学習データ131の数が格納されてもよい。
The learning
テストデータセット名606は、評価処理に使用するテストデータセット140の名称を格納するフィールドである。なお、テストデータセット名606には、テストデータセット140から取得するテストデータ141の数が格納されてもよい。
The
ステータス607は、学習処理の実行状態を示す値を格納するフィールドである。例えば、ステータス607には、学習前、学習中、及び学習完了等が格納される。
有効フラグ608は、予測部111が使用するモデルとして有効化されているか否かを示すフラグを格納する。例えば、有効フラグ608には、モデルが有効化されていることを示すTrue、及びモデルが無効化されていることを示すFalse等が格納される。
The
精度評価指標609は、モデルの予測精度を評価するための指標の値を格納するフィールドである。例えば、精度評価指標609には、正解率、再現率、適合率、及びF値等が格納される。
The
評価結果610は、評価処理の結果を格納するフィールドである。評価結果610には、図6Bに示すような評価結果データ650が格納される。一つのテストデータ141に対して一つの評価結果データ650が存在する。
The
評価結果データ650は、データID651、分類ラベル652、確信度653、分類ラベル正誤654、モデル判断根拠655、及び判断根拠正誤656を含む。なお、評価結果データ650は、前述以外のフィールドを含んでもよい。
The
データID651はデータID311と同一のフィールドである。
分類ラベル652は、テストデータ141をモデルに入力することによって得られた分類ラベルを格納するフィールドである。
確信度653は、モデルが出力した分類ラベルの確信度(確率)を格納するフィールドである。
分類ラベル正誤654は、テストデータ141の分類ラベル313の値と、分類ラベル652の値とが一致するか否かを示す値を格納するフィールドである。例えば、分類ラベル正誤654には、二つの値が一致していることを示すTrue、及び二つの値が一致していないことを示すFalse等が格納される。
The classification label true/false 654 is a field that stores a value indicating whether the value of the
モデル判断根拠655は、モデルが分類ラベルを出力する場合に重要視したキーワードに関する情報を格納するフィールド群である。すなわち、モデルの判断根拠を示すデータが格納される。モデル判断根拠655は、トークンリスト661及びアテンションリスト662を含む。図6Cに示すように、トークンリスト661には、テキストデータから抽出された単語等の文字列のリストが格納される。アテンションリスト662には、トークンリスト661に格納される文字列の重要度のリストが格納される。なお、文字列の重要度は、アテンション機構及びSHAP(SHapley Additive exPlanations)等、公知の技術を用いて算出される値である。
The
判断根拠正誤656は、ユーザの判断根拠及びモデルの判断根拠が一致するか否かを示す値を格納するフィールドである。例えば、分類ラベル正誤654には、ユーザ及びモデルの判断根拠が一致していることを示すTrue、及びユーザ及びモデルの判断根拠が一致していないことを示すFalse等が格納される。
The
図7は、実施例1のシステムの処理の流れを説明するシーケンス図である。 Figure 7 is a sequence diagram that explains the processing flow of the system in Example 1.
実施例1のシステムでは、データセットの登録、モデルの生成及び評価、並びに、学習データセット130の更新の三つの処理フェーズが存在する。
The system of Example 1 has three processing phases: dataset registration, model generation and evaluation, and updating of the learning
ユーザは、端末101を操作して、学習データセット130及びテストデータセット140の少なくともいずれかを設定するためのデータセット登録要求を計算機システム100に送信する(ステップS101)。データセット登録要求には、データセットの名称、タスクの種別、及びデータセットに含めるデータ等が含まれる。
The user operates the terminal 101 to send a dataset registration request to the
データ記憶部113は、API112を介して、データセット登録要求を受信した場合、データセットを記憶領域に登録し(ステップS102)、完了通知を端末101に送信する(ステップS103)。このとき、データ記憶部113は、データセットに対応したデータセット管理データ400及びデータセット管理データ410の少なくともいずれかを生成する。
When the
ユーザは、端末101を操作して、学習実行要求を計算機システム100に送信する(ステップS111)。学習実行要求には、モデルの名称、学習データセット130の名称、テストデータセット140の名称、学習パラメータ、及び判断根拠情報120が含まれる。
The user operates the terminal 101 to send a learning execution request to the computer system 100 (step S111). The learning execution request includes the name of the model, the name of the learning
学習部110は、API112を介して、学習実行要求を受信した場合、学習/評価処理を実行する(ステップS112)。学習/評価処理の詳細は図8を用いて説明する。
When the learning unit 110 receives a learning execution request via the
学習部110は、学習/評価処理が終了した場合、API112を介して、完了通知を端末101に送信する(ステップS113)。 When the learning/evaluation process is completed, the learning unit 110 sends a completion notification to the terminal 101 via the API 112 (step S113).
ユーザは、端末101を操作して、評価結果を取得するための取得要求を計算機システム100に送信する(ステップS114)。
The user operates the terminal 101 to send a request to the
学習部110は、API112を介して、取得要求を受信した場合、評価情報を生成し、評価情報を端末101に送信する(ステップS115)。評価情報は、例えば、精度評価指標の値及び評価結果データ650を含む。なお、評価情報には、分類ラベル正誤654がFalseの評価結果データ650のみを含めてもよい。
When the learning unit 110 receives an acquisition request via the
ユーザは、評価情報を参照して、データセットの更新方法を決定する。例えば、モデルの分類ラベル及び判断根拠の両方に誤りがある場合、ユーザは、モデルが判断根拠として指定した文字列を正しく認識できないと判断し、文字列に関連する学習データ131を追加する。また、判断根拠は正しいが、モデルの分類ラベルが誤っている場合、ユーザは、テストデータ141に誤りがあると判断し、テストデータ141を修正する。
The user refers to the evaluation information and decides how to update the dataset. For example, if there are errors in both the classification label and the judgment basis of the model, the user determines that the model cannot correctly recognize the character string specified as the judgment basis, and adds learning
なお、学習部110が、前述のような判定を行って、判定結果を評価情報に含めてもよい。 The learning unit 110 may perform the above-mentioned judgment and include the judgment result in the evaluation information.
ユーザは、データセットの更新方法を決定した後、端末101を操作して、データセットの更新内容を含むデータセット更新要求を計算機システム100に送信する(ステップS121)。 After determining the method for updating the dataset, the user operates the terminal 101 to send a dataset update request including the update contents of the dataset to the computer system 100 (step S121).
データ記憶部113は、API112を介して、データセット更新要求を受信した場合、更新対象のデータセットを更新し(ステップS122)、完了通知を端末101に送信する(ステップS123)。このとき、データ記憶部113は、データセットに対応したデータセット管理データ400及びデータセット管理データ410の少なくともいずれかを更新する。
When the
ユーザは、データセットを更新した後、端末101を操作して、学習実行要求を計算機システム100に送信する(ステップS111)。 After updating the dataset, the user operates the terminal 101 to send a learning execution request to the computer system 100 (step S111).
図8は、実施例1の計算機システム100が実行する学習/評価処理を説明するフローチャートである。
Figure 8 is a flowchart explaining the learning/evaluation process executed by the
学習部110は、モデルデータ600を生成し、判断根拠情報120をワークエリアに保存する(ステップS201)。
The learning unit 110 generates
具体的には、学習部110は、学習実行要求に含まれる情報に基づいて、モデルデータ600のモデル名601、タスク602、学習パラメータ604、学習データセット名605、及びテストデータセット名606の各々に値を設定する。また、学習部110は、モデルデータ600のステータス607に「学習前」を設定する。
Specifically, the learning unit 110 sets values for each of the
次に、学習部110は、ユーザによって指定された学習データセット130から学習データ131を取得する(ステップS202)。なお、学習データセット130の全ての学習データ131を取得してもよいし、所定の数の学習データ131を取得してもよい。
Next, the learning unit 110 acquires learning
次に、学習部110は、学習データ131及び学習パラメータ等を用いて、モデルを生成するための学習処理を実行する(ステップS203)。学習処理は公知の技術であるため詳細な説明は省略する。なお、本発明は、学習するモデルの種別及び学習の手法に限定されない。
Next, the learning unit 110 executes a learning process to generate a model using the
学習部110は、学習処理の開始時に、モデルデータ600のステータス607を「学習中」に更新し、事前学習で生成されたモデルの情報をモデルパラメータ603に設定する。学習部110は、学習処理が終了した場合、モデルデータ600のステータス607を「学習完了」に更新し、モデルパラメータ603に生成されたモデルのパラメータを設定する。
When the learning process starts, the learning unit 110 updates the
次に、学習部110は、ユーザによって指定されたテストデータセット140からテストデータ141を取得する(ステップS204)。なお、テストデータセット140の全てのテストデータ141を取得してもよいし、所定の数のテストデータ141を取得してもよい。
Next, the learning unit 110 acquires
次に、学習部110は、取得したテストデータ141を用いて評価処理を開始する(ステップS205)。学習部110は、取得したテストデータ141の中から一つのテストデータ141を選択する。
Next, the learning unit 110 starts the evaluation process using the acquired test data 141 (step S205). The learning unit 110 selects one piece of
次に、学習部110は、学習処理によって生成されたモデルにテストデータを入力し、モデルから出力を取得する(ステップS206)。モデルから取得する出力には、分類ラベル、確信度、及びモデル判断根拠データ(トークンリスト及びアテンションリスト)が含まれる。 Next, the learning unit 110 inputs test data into the model generated by the learning process and obtains output from the model (step S206). The output obtained from the model includes a classification label, a confidence level, and model judgment basis data (a token list and an attention list).
次に、学習部110は、モデル判断根拠データに基づいて、モデルが重要視したキーワードを特定する(ステップS207)。例えば、アテンションの値が最も大きいキーワード、又は、アテンションの値が閾値より大きいキーワードが特定される。 Next, the learning unit 110 identifies keywords that the model considers important based on the model judgment basis data (step S207). For example, the keyword with the highest attention value or the keyword with an attention value greater than a threshold value is identified.
次に、学習部110は、分類ラベル及び判断根拠の正誤を判定する(ステップS208)。具体的には、以下のような処理が実行される。 Next, the learning unit 110 judges whether the classification label and the judgment basis are correct (step S208). Specifically, the following process is executed.
(S208-1)学習部110は、テストデータ141の分類ラベル313の値と、モデルが出力した分類ラベルとを比較することによって、分類ラベルの正誤を判定する。すなわち、モデルの出力の正しさが評価される。
(S208-1) The learning unit 110 compares the value of the
(S208-2)学習部110は、判断根拠情報120を参照して、分類ラベル501がテストデータ141の分類ラベル313に一致する判断根拠データ500を検索する。学習部110は、特定されたキーワードと、検索された判断根拠データ500のキーワード502に設定されるキーワードとを比較することによって、判断根拠の正誤を判定する。すなわち、モデルのアルゴリズムの正しさが評価される。
(S208-2) The learning unit 110 refers to the
例えば、特定されたキーワードと、キーワード502に設定されるキーワードとが完全に一致する場合、又は、特定されたキーワードがキーワード502に設定されるキーワードに含まれる場合、学習部110は人の判断根拠とモデルの判断根拠とが一致する、と判定する。
For example, if the identified keyword completely matches the keyword set in
以上が、ステップS208の処理の説明である。 This concludes the explanation of the processing in step S208.
次に、学習部110は、評価結果データ650を生成する(ステップS209)。 Next, the learning unit 110 generates evaluation result data 650 (step S209).
具体的には、学習部110は、データID651にテストデータ141の識別情報が設定された評価結果データ650を生成する。また、学習部110は、モデルデータ600の評価結果610に評価結果データ650を格納する。
Specifically, the learning unit 110 generates
次に、学習部110は、取得した全てのテストデータ141について処理が完了したか否かを判定する(ステップS210)。 Next, the learning unit 110 determines whether processing has been completed for all acquired test data 141 (step S210).
取得した全てのテストデータ141について処理が完了していない場合、学習部110は、ステップS205に戻り、同様の処理を実行する。
If processing has not been completed for all acquired
取得した全てのテストデータ141について処理が完了した場合、学習部110は、精度評価指標を算出する(ステップS211)。このとき、学習部110は、モデルデータ600の精度評価指標609に算出された精度評価指標を設定する。
When processing has been completed for all acquired
次に、学習部110は、終了条件を満たすか否かを判定する(ステップS212)。例えば、精度評価指標が閾値より大きい場合、又は、学習処理の実行回数が閾値より大きい場合、学習部110は終了条件を満たすと判定する。 Next, the learning unit 110 determines whether the termination condition is satisfied (step S212). For example, if the accuracy evaluation index is greater than a threshold value, or if the number of times the learning process has been executed is greater than a threshold value, the learning unit 110 determines that the termination condition is satisfied.
終了条件を満たさないと判定された場合、学習部110は、ステップS202に戻り、同様の処理を実行する。このとき、学習部110は、モデルデータ600の精度評価指標609及び評価結果610を初期化する。
If it is determined that the termination condition is not satisfied, the learning unit 110 returns to step S202 and executes the same process. At this time, the learning unit 110 initializes the
終了条件を満たすと判定された場合、学習部110は、学習/評価処理を終了する。 If it is determined that the termination condition is met, the learning unit 110 terminates the learning/evaluation process.
本発明によれば、計算機システム100は、人の判断根拠及びモデルの判断根拠を比較することによってモデルのアルゴリズムの正しさを評価し、ユーザに提示できる。ユーザは、モデルの出力及びアルゴリズムの正しさを考慮して学習データ及びテストデータの改善を行うことができる。これによって、高い予測精度のモデルを生成することができる。
According to the present invention, the
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。 The present invention is not limited to the above-described embodiment, but includes various modified examples. For example, the above-described embodiment describes the configuration in detail to clearly explain the present invention, and is not necessarily limited to having all of the configurations described. Also, some of the configurations of the embodiment can be added to, deleted from, or replaced with other configurations.
100 計算機システム
101 端末
110 学習部
111 予測部
112 API
113 データ記憶部
120 判断根拠情報
121 モデル管理情報
130 学習データセット
131 学習データ
140 テストデータセット
141 テストデータ
200 計算機
201 プロセッサ
202 主記憶装置
203 副記憶装置
204 ネットワークインタフェース
400、410 データセット管理データ
500 判断根拠データ
600 モデルデータ
650 評価結果データ
100
113
Claims (8)
前記計算機システムは、
プロセッサ、前記プロセッサに接続される記憶装置、及び前記プロセッサに接続されるインタフェースを有する、少なくとも一つの計算機を備え、
前記分類ラベルと、人が前記分類ラベルを付与する場合に重要視する着目キーワードとの対応付けを管理する判断根拠情報を保持し、
前記モデルの評価方法は、
前記少なくとも一つの計算機が、入力文書及び正解分類ラベルを含むテストデータを前記モデルに入力する第1のステップと、
前記少なくとも一つの計算機が、前記モデルが前記分類ラベルの出力時に重要視した前記入力文書内の根拠キーワードを特定する第2のステップと、
前記少なくとも一つの計算機が、前記分類ラベルと、前記正解分類ラベルとに基づいて前記モデルの出力の正誤を判定する第3のステップと、
前記少なくとも一つの計算機が、前記根拠キーワードと、前記分類ラベルに対応する前記着目キーワードとに基づいて前記モデルの判断根拠の正誤を判定する第4のステップと、
前記少なくとも一つの計算機が、前記モデルの出力及び前記モデルの判断根拠の正誤の判定結果に基づいて、前記モデルの再学習に使用する学習データ及び前記テストデータの改善指針となる情報を含む評価結果を提示する第5のステップと、
を含むことを特徴とするモデルの評価方法。 A method for evaluating a model, executed by a computer system, which receives a document as an input, executes a task using the document, and outputs a classification label, comprising:
The computer system comprises:
at least one computer having a processor, a storage device coupled to the processor, and an interface coupled to the processor;
retaining judgment basis information for managing the association between the classification label and a keyword of interest that is considered important when a person assigns the classification label;
The method for evaluating the model includes:
A first step in which the at least one computer inputs test data including input documents and ground truth classification labels to the model;
A second step in which the at least one computer identifies basis keywords in the input document that the model considered important when outputting the classification label;
A third step in which the at least one computer determines whether an output of the model is correct or incorrect based on the classification label and the correct classification label;
a fourth step in which the at least one computer judges whether the judgment basis of the model is correct or not based on the basis keyword and the target keyword corresponding to the classification label;
A fifth step in which the at least one computer presents an evaluation result including information serving as an improvement guideline for the training data and the test data used for re-training the model based on the output of the model and the result of determining whether the decision basis of the model is correct or incorrect;
A method for evaluating a model, comprising:
前記第5のステップは、前記少なくとも一つの計算機が、前記モデルの出力の正誤及び前記モデルの判断根拠の正誤の判定結果に基づいて、改善対象の前記分類ラベルを示す情報を含む前記評価結果を提示するステップを含むことを特徴とするモデルの評価方法。 A method for evaluating a model according to claim 1, comprising the steps of:
The fifth step is a method for evaluating a model, characterized in that it includes a step in which the at least one computer presents the evaluation result including information indicating the classification label to be improved based on the judgment results of the correctness of the output of the model and the correctness of the judgment basis of the model.
前記第2のステップは、
前記少なくとも一つの計算機が、前記モデルの自然言語処理において、前記入力文書に含まれるキーワードの重要度を表す指標を取得するステップと、
前記少なくとも一つの計算機が、前記指標に基づいて、前記入力文書に含まれる前記キーワードの中から前記根拠キーワードを特定するステップと、を含むことを特徴とするモデルの評価方法。 A method for evaluating a model according to claim 1, comprising the steps of:
The second step includes:
The at least one computer obtains an index representing the importance of a keyword included in the input document in the natural language processing of the model;
and identifying, by the at least one computer, the basis keywords from among the keywords included in the input document based on the index.
前記少なくとも一つの計算機が、前記判断根拠情報を入力するためのインタフェースを提供するステップを含むことを特徴とするモデルの評価方法。 A method for evaluating a model according to claim 1, comprising the steps of:
A method for evaluating a model, comprising a step in which the at least one computer provides an interface for inputting the decision basis information.
プロセッサ、前記プロセッサに接続される記憶装置、及び前記プロセッサに接続されるインタフェースを有する、少なくとも一つの計算機を備え、
文書を入力として受け付け、前記文書を用いたタスクを実行することによって分類ラベルを出力するモデルの情報、及び、前記分類ラベルと、人が前記分類ラベルを付与する場合に重要視する着目キーワードとの対応付けを管理する判断根拠情報を保持し、
前記少なくとも一つの計算機は、
入力文書及び正解分類ラベルを含むテストデータを前記モデルに入力し、
前記モデルが前記分類ラベルの出力時に重要視した前記入力文書内の根拠キーワードを特定し、
前記分類ラベルと、前記正解分類ラベルとに基づいて前記モデルの出力の正誤を判定し、
前記根拠キーワードと、前記分類ラベルに対応する前記着目キーワードとに基づいて前記モデルの判断根拠の正誤を判定し、
前記モデルの出力及び前記モデルの判断根拠の正誤の判定結果に基づいて、前記モデルの再学習に使用する学習データ及び前記テストデータの改善指針となる情報を含む評価結果を提示することを特徴とする計算機システム。 1. A computer system comprising:
at least one computer having a processor, a storage device coupled to the processor, and an interface coupled to the processor;
retaining information on a model that receives a document as an input and outputs a classification label by executing a task using the document, and judgment basis information that manages associations between the classification label and a keyword of interest that is considered important when a person assigns the classification label;
The at least one computer
inputting test data including input documents and correct classification labels into the model;
Identifying basis keywords in the input document that the model considered important when outputting the classification label;
determining whether an output of the model is correct or not based on the classification label and the correct classification label;
determining whether the judgment basis of the model is correct or not based on the basis keyword and the target keyword corresponding to the classification label;
A computer system characterized by presenting evaluation results including information that serves as a guideline for improving the training data and test data used for re-learning the model based on the output of the model and the judgment results of the correctness of the model's judgment basis.
前記少なくとも一つの計算機は、前記モデルの出力の正誤及び前記モデルの判断根拠の正誤の判定結果に基づいて、改善対象の前記分類ラベルを示す情報を含む前記評価結果を提示することを特徴とする計算機システム。 6. The computer system of claim 5,
The at least one computer presents the evaluation result including information indicating the classification label to be improved based on the judgment results of the correctness of the output of the model and the correctness of the judgment basis of the model.
前記少なくとも一つの計算機は、
前記モデルの自然言語処理において、前記入力文書に含まれるキーワードの重要度を表す指標を取得し、
前記指標に基づいて、前記入力文書に含まれる前記キーワードの中から前記根拠キーワードを特定することを特徴とする計算機システム。 6. The computer system of claim 5,
The at least one computer
In the natural language processing of the model, an index representing the importance of a keyword included in the input document is obtained;
A computer system comprising: a computer that identifies the basis keyword from among the keywords included in the input document based on the index.
前記少なくとも一つの計算機は、前記判断根拠情報を入力するためのインタフェースを提供することを特徴とする計算機システム。 6. The computer system of claim 5,
A computer system, wherein the at least one computer provides an interface for inputting the decision basis information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021123995A JP7568592B2 (en) | 2021-07-29 | 2021-07-29 | Method and computer system for evaluating models |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021123995A JP7568592B2 (en) | 2021-07-29 | 2021-07-29 | Method and computer system for evaluating models |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023019341A JP2023019341A (en) | 2023-02-09 |
JP7568592B2 true JP7568592B2 (en) | 2024-10-16 |
Family
ID=85160305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021123995A Active JP7568592B2 (en) | 2021-07-29 | 2021-07-29 | Method and computer system for evaluating models |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7568592B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011170786A (en) | 2010-02-22 | 2011-09-01 | Nomura Research Institute Ltd | Document classification system, document classification program, and document classification method |
WO2016157467A1 (en) | 2015-03-31 | 2016-10-06 | 株式会社Ubic | Data analysis system, data analysis method, data analysis program, and recording medium |
WO2020044425A1 (en) | 2018-08-28 | 2020-03-05 | 日本電気株式会社 | Learning device, learning method, and learning program |
JP2020154684A (en) | 2019-03-20 | 2020-09-24 | 俊幸 常本 | Information processing system, information processing method, and program |
-
2021
- 2021-07-29 JP JP2021123995A patent/JP7568592B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011170786A (en) | 2010-02-22 | 2011-09-01 | Nomura Research Institute Ltd | Document classification system, document classification program, and document classification method |
WO2016157467A1 (en) | 2015-03-31 | 2016-10-06 | 株式会社Ubic | Data analysis system, data analysis method, data analysis program, and recording medium |
WO2020044425A1 (en) | 2018-08-28 | 2020-03-05 | 日本電気株式会社 | Learning device, learning method, and learning program |
JP2020154684A (en) | 2019-03-20 | 2020-09-24 | 俊幸 常本 | Information processing system, information processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP2023019341A (en) | 2023-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190354810A1 (en) | Active learning to reduce noise in labels | |
WO2021093755A1 (en) | Matching method and apparatus for questions, and reply method and apparatus for questions | |
US20190220524A1 (en) | Determining explanations for predicted links in knowledge graphs | |
US10956472B2 (en) | Dynamic load balancing based on question difficulty | |
US20160357790A1 (en) | Resolving and merging duplicate records using machine learning | |
CN111506714A (en) | Knowledge graph embedding based question answering | |
KR101968200B1 (en) | Medical information recommendation system based on diagnosis name, operation name and treatment name | |
US20140279739A1 (en) | Resolving and merging duplicate records using machine learning | |
JP7529797B2 (en) | Language Detection of User-Entered Text for Online Games | |
JPH07295989A (en) | Device that forms interpreter to analyze data | |
JP2004005667A (en) | System and method which grade, estimate and sort reliability about document in huge heterogeneous document set | |
US11216739B2 (en) | System and method for automated analysis of ground truth using confidence model to prioritize correction options | |
US11669740B2 (en) | Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition | |
RU2664481C1 (en) | Method and system of selecting potentially erroneously ranked documents with use of machine training algorithm | |
US20210117802A1 (en) | Training a Neural Network Using Small Training Datasets | |
CN113869034B (en) | Aspect emotion classification method based on reinforced dependency graph | |
AU2021240196B1 (en) | Utilizing machine learning models for determining an optimized resolution path for an interaction | |
US11954137B2 (en) | Data generation device and data generation method | |
CN107111607A (en) | The system and method detected for language | |
JP6770709B2 (en) | Model generator and program for machine learning. | |
JP6725194B2 (en) | Methods for generating trained models, methods for classifying data, computers and programs | |
JP2020135689A (en) | Model learning system, intention interpretation system, method for learning model, and model learning program | |
US8001122B2 (en) | Relating similar terms for information retrieval | |
CN116830099A (en) | Inferring information about a web page based on a uniform resource locator of the web page | |
US11922126B1 (en) | Use of semantic confidence metrics for uncertainty estimation in large language models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241001 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20241001 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241003 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7568592 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |