JPWO2022115727A5 - - Google Patents
Download PDFInfo
- Publication number
- JPWO2022115727A5 JPWO2022115727A5 JP2023532750A JP2023532750A JPWO2022115727A5 JP WO2022115727 A5 JPWO2022115727 A5 JP WO2022115727A5 JP 2023532750 A JP2023532750 A JP 2023532750A JP 2023532750 A JP2023532750 A JP 2023532750A JP WO2022115727 A5 JPWO2022115727 A5 JP WO2022115727A5
- Authority
- JP
- Japan
- Prior art keywords
- logit
- value
- training
- values
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 claims 112
- 238000010801 machine learning Methods 0.000 claims 55
- 230000006870 function Effects 0.000 claims 46
- 238000000034 method Methods 0.000 claims 33
- 238000005457 optimization Methods 0.000 claims 13
- 238000013507 mapping Methods 0.000 claims 6
- 230000003190 augmentative effect Effects 0.000 claims 4
- 230000001131 transforming effect Effects 0.000 claims 4
- 238000012217 deletion Methods 0.000 claims 2
- 230000037430 deletion Effects 0.000 claims 2
- 238000003780 insertion Methods 0.000 claims 2
- 230000037431 insertion Effects 0.000 claims 2
- 238000006467 substitution reaction Methods 0.000 claims 2
- 230000009466 transformation Effects 0.000 claims 2
Claims (44)
チャットボットシステムが、前記チャットボットシステムと対話するユーザによって生成された発話を受信することを含み、前記発話は、前記ユーザの音声入力から変換されたテキストデータを含み、前記方法はさらに、
前記チャットボットシステムが、一連のネットワーク層を含む機械学習モデルに前記発話を入力することを含み、前記一連のネットワーク層の最終ネットワーク層は、解決可能なクラスについての第1の確率を、第1のロジット値を表す第1の実数に変換し、解決できないクラスについての第2の確率を、第2のロジット値を表す第2の実数に変換するロジット関数を含み、前記方法はさらに、
前記機械学習モデルが、前記解決可能なクラスについての前記第1の確率および前記解決できないクラスについての前記第2の確率を求めることと、
前記機械学習モデルが、前記ロジット関数を使用して、前記解決可能なクラスについての前記第1の確率を前記第1のロジット値にマッピングすることとを含み、前記第1の確率をマッピングするための前記ロジット関数は、前記解決可能なクラスについての前記第1の確率に対応するオッズの対数であり、前記オッズの対数は、前記解決可能なクラスに関連付けられる分布の重心によって重み付けされ、前記方法はさらに、
前記機械学習モデルが、前記解決できないクラスについての前記第2の確率を強化されたロジット値にマッピングすることを含み、前記強化されたロジット値は、前記第1の確率をマッピングするために使用される前記ロジット関数から独立して求められる第3の実数であり、前記強化されたロジット値は、(i)トレーニングデータセットから生成されるロジット値のセットに基づいて求められる統計値、(ii)前記解決できないクラスについての前記第2の確率に対応する第1のオッズの対数によって定義されるある範囲の値から選択され、前記第1のオッズの対数は、有界化関数によってある範囲の値に制約され、前記解決できないクラスに関連付けられる分布の重心によって重み付けされる、有界値、(iii)前記解決できないクラスについての前記第2の確率に対応する第2のオッズの対数によって生成され、前記第2のオッズの対数は、前記有界化関数によって前記ある範囲の値に制約され、スケーリング係数によってスケーリングされ、前記解決できないクラスに関連付けられる前記分布の前記重心によって重み付けされる、重み付けされた値、(iv)前記機械学習モデルのハイパーパラメータチューニングに基づいて生成されるハイパーパラメータ最適化値、または(v)前記機械学習モデルのトレーニング中に調整される学習値を含み、前記方法はさらに、
前記チャットボットシステムが、前記発話を、前記第1のロジット値および前記強化されたロジット値に基づいて、前記解決可能なクラスまたは前記解決できないクラスに分類することを含む、方法。 1. A method comprising:
The method further comprises: a chatbot system receiving an utterance generated by a user interacting with the chatbot system, the utterance including text data converted from a voice input of the user;
The chatbot system includes inputting the utterance to a machine learning model including a series of network layers, a final network layer of the series of network layers including a logit function that converts a first probability for a resolvable class to a first real number representing a first logit value and a second probability for an unresolvable class to a second real number representing a second logit value, and the method further includes:
the machine learning model determining the first probability for the resolvable class and the second probability for the unresolvable class;
and the machine learning model using the logit function to map the first probability for the solvable class to the first logit value, the logit function for mapping the first probability being a logarithm of odds corresponding to the first probability for the solvable class, the logarithm of odds being weighted by a centroid of a distribution associated with the solvable class, the method further comprising:
The machine learning model includes mapping the second probability for the unresolvable class to an enhanced logit value, the enhanced logit value being a third real number determined independently from the logit function used to map the first probability, the enhanced logit value being selected from a range of values defined by (i) a statistical value determined based on a set of logit values generated from a training dataset; and (ii) a logarithm of first odds corresponding to the second probability for the unresolvable class, the logarithm of the first odds being constrained to a range of values by a bounding function, and the unresolvable class being selected from a range of values defined by (i) a statistical value determined based on a set of logit values generated from a training dataset; (iii) a weighted value generated by a logarithm of second odds corresponding to the second probability for the unresolvable class, the logarithm of the second odds being constrained to the range of values by the bounding function, scaled by a scaling factor, and weighted by the centroid of the distribution associated with the unresolvable class; (iv) a hyper-parameter optimized value generated based on hyper-parameter tuning of the machine learning model; or (v) a learned value adjusted during training of the machine learning model, wherein the method further comprises:
The method includes the chatbot system classifying the utterance into the resolvable class or the unresolvable class based on the first logit value and the enhanced logit value.
前記トレーニングデータセットのサブセットにアクセスすることを含み、前記トレーニングデータセットの前記サブセットは、発話のサブセットを含み、前記発話のサブセットの各発話は、前記解決できないクラスに関連付けられ、前記統計値を求めることはさらに、
トレーニング用ロジット値のセットを生成することを含み、前記トレーニング用ロジット値のセットの各トレーニング用ロジット値は、前記機械学習モデルを前記発話のサブセットのそれぞれの発話に適用することによって生成され、前記統計値を求めることはさらに、
前記統計値を求めることを含み、前記統計値は、前記トレーニング用ロジット値のセットを表し、前記統計値を求めることはさらに、
前記統計値を前記強化されたロジット値として設定することを含む、請求項1~3のいずれか1項に記載の方法。 The enhanced logit value is the statistical value determined based on a set of the logit values generated from the training data set, and determining the statistical value comprises:
accessing a subset of the training data set, the subset of the training data set comprising a subset of utterances, each utterance of the subset of utterances being associated with the unresolvable class, and determining the statistics further comprises:
generating a set of training logit values, each training logit value of the set of training logit values being generated by applying the machine learning model to a respective utterance of the subset of utterances, and determining the statistical value further comprises:
determining the statistical value, the statistical value representing the set of training logit values, the determining of the statistical value further comprising:
The method of any one of claims 1 to 3, comprising setting the statistical value as the enhanced logit value.
前記トレーニングデータセットのサブセットにアクセスすることを含み、前記トレーニングデータセットの前記サブセットは、発話のサブセットを含み、前記発話のサブセットの各発話は、前記解決できないクラスに関連付けられ、前記ハイパーパラメータ最適化値を求めることはさらに、
トレーニング用ロジット値のセットを生成することを含み、前記トレーニング用ロジット値のセットの各トレーニング用ロジット値は、前記機械学習モデルを前記発話のサブセットのそれぞれの発話に適用することによって生成され、前記ハイパーパラメータ最適化値を求めることはさらに、
前記統計値を求めることを含み、前記統計値は、前記トレーニング用ロジット値のセットを表し、前記ハイパーパラメータ最適化値を求めることはさらに、
前記機械学習モデルの1つ以上のハイパーパラメータを調整して、最適化された統計値を生成することと、
前記最適化された統計値を前記強化されたロジット値として設定することとを含む、請求項1~3のいずれか1項に記載の方法。 The enhanced logit values are the hyper-parameter optimization values, and determining the hyper-parameter optimization values includes:
accessing a subset of the training dataset, the subset of the training dataset comprising a subset of utterances, each utterance of the subset of utterances being associated with the unresolvable class, and determining the hyper-parameter optimization values further comprises:
generating a set of training logit values, each training logit value in the set of training logit values being generated by applying the machine learning model to a respective utterance in the subset of utterances, and determining the hyper-parameter optimization values further comprises:
determining the statistical value, the statistical value representing the set of training logit values, and determining the hyper-parameter optimization values further comprises:
tuning one or more hyperparameters of the machine learning model to generate optimized statistics;
Setting the optimized statistical value as the enhanced logit value.
1つ以上のデータプロセッサと、
命令を含む非一時的なコンピュータ可読記憶媒体とを備え、前記命令は、前記1つ以上のデータプロセッサ上で実行されると、前記1つ以上のデータプロセッサに動作を実行させ、前記動作は、
前記システムと対話するユーザによって生成された発話を受信することを含み、前記発話は、前記ユーザの音声入力から変換されたテキストデータを含み、前記動作はさらに、
一連のネットワーク層を含む機械学習モデルに前記発話を入力することを含み、前記一連のネットワーク層の最終ネットワーク層は、解決可能なクラスについての第1の確率を、第1のロジット値を表す第1の実数に変換し、解決できないクラスについての第2の確率を、第2のロジット値を表す第2の実数に変換するロジット関数を含み、前記動作はさらに、
前記機械学習モデルが、前記解決可能なクラスについての前記第1の確率および前記解決できないクラスについての前記第2の確率を求めることと、
前記機械学習モデルが、前記ロジット関数を使用して、前記解決可能なクラスについての前記第1の確率を前記第1のロジット値にマッピングすることとを含み、前記第1の確率をマッピングするための前記ロジット関数は、前記解決可能なクラスについての前記第1の確率に対応するオッズの対数であり、前記オッズの対数は、前記解決可能なクラスに関連付けられる分布の重心によって重み付けされ、前記動作はさらに、
前記機械学習モデルが、前記解決できないクラスについての前記第2の確率を強化されたロジット値にマッピングすることを含み、前記強化されたロジット値は、前記第1の確率をマッピングするために使用される前記ロジット関数から独立して求められる第3の実数であり、前記強化されたロジット値は、(i)トレーニングデータセットから生成されるロジット値のセットに基づいて求められる統計値、(ii)前記解決できないクラスについての前記第2の確率に対応する第1のオッズの対数によって定義されるある範囲の値から選択され、前記第1のオッズの対数は、有界化関数によってある範囲の値に制約され、前記解決できないクラスに関連付けられる分布の重心によって重み付けされる、有界値、(iii)前記解決できないクラスについての前記第2の確率に対応する第2のオッズの対数によって生成され、前記第2のオッズの対数は、前記有界化関数によって前記ある範囲の値に制約され、スケーリング係数によってスケーリングされ、前記解決できないクラスに関連付けられる前記分布の前記重心によって重み付けされる、重み付けされた値、(iv)前記機械学習モデルのハイパーパラメータチューニングに基づいて生成されるハイパーパラメータ最適化値、または(v)前記機械学習モデルのトレーニング中に調整される学習値を含み、前記動作はさらに、
前記発話を、前記第1のロジット値および前記強化されたロジット値に基づいて、前記解決可能なクラスまたは前記解決できないクラスに分類することを含む、システム。 1. A system comprising:
one or more data processors;
and a non-transitory computer-readable storage medium containing instructions that, when executed on the one or more data processors, cause the one or more data processors to perform operations, including:
receiving an utterance generated by a user interacting with the system , the utterance including text data converted from a voice input of the user, the operations further comprising:
inputting the utterance to a machine learning model including a series of network layers, a final network layer of the series of network layers including a logit function that converts a first probability for a resolvable class to a first real number representing a first logit value and a second probability for an unresolvable class to a second real number representing a second logit value, the operations further comprising:
the machine learning model determining the first probability for the resolvable class and the second probability for the unresolvable class;
and the machine learning model using the logit function to map the first probability for the solvable class to the first logit value, the logit function for mapping the first probability being a logarithm of odds corresponding to the first probability for the solvable class, the logarithm of odds being weighted by a centroid of a distribution associated with the solvable class, the operations further comprising:
The machine learning model includes mapping the second probability for the unresolvable class to an enhanced logit value, the enhanced logit value being a third real number determined independently from the logit function used to map the first probability, the enhanced logit value being selected from a range of values defined by (i) a statistical value determined based on a set of logit values generated from a training dataset; and (ii) a logarithm of first odds corresponding to the second probability for the unresolvable class, the logarithm of the first odds being constrained to a range of values by a bounding function, and the unresolvable class being selected from a range of values defined by (i) a statistical value determined based on a set of logit values generated from a training dataset; (iii) a weighted value generated by a logarithm of second odds corresponding to the second probability for the unresolvable class, the logarithm of the second odds being constrained to the range of values by the bounding function, scaled by a scaling factor, and weighted by the centroid of the distribution associated with the unresolvable class; (iv) a hyper-parameter optimized value generated based on hyper-parameter tuning of the machine learning model; or (v) a learned value adjusted during training of the machine learning model, wherein the operations further comprise:
classifying the utterance into the resolvable class or the unresolvable class based on the first logit value and the enhanced logit value.
前記発話の前記解決可能なクラスまたは前記解決できないクラスとしての前記分類に基づいて前記ユーザに応答することを含む、請求項11に記載のシステム。 The instructions further cause the one or more data processors to perform operations, the operations including:
The system of claim 11 , further comprising: responding to the user based on the classification of the utterance as the resolvable class or the unresolvable class.
前記トレーニングデータセットのサブセットにアクセスすることを含み、前記トレーニングデータセットの前記サブセットは、発話のサブセットを含み、前記発話のサブセットの各発話は、前記解決できないクラスに関連付けられ、前記統計値を求めることはさらに、
トレーニング用ロジット値のセットを生成することを含み、前記トレーニング用ロジット値のセットの各トレーニング用ロジット値は、前記機械学習モデルを前記発話のサブセットのそれぞれの発話に適用することによって生成され、前記統計値を求めることはさらに、
前記統計値を求めることを含み、前記統計値は、前記トレーニング用ロジット値のセットを表し、前記統計値を求めることはさらに、
前記統計値を前記強化されたロジット値として設定することを含む、請求項11~13のいずれか1項に記載のシステム。 The enhanced logit value is the statistical value determined based on a set of the logit values generated from the training data set, and determining the statistical value comprises:
accessing a subset of the training data set, the subset of the training data set comprising a subset of utterances, each utterance of the subset of utterances being associated with the unresolvable class, and determining the statistics further comprises:
generating a set of training logit values, each training logit value of the set of training logit values being generated by applying the machine learning model to a respective utterance of the subset of utterances, and determining the statistical value further comprises:
determining the statistical value, the statistical value representing the set of training logit values, the determining of the statistical value further comprising:
The system of any one of claims 11 to 13, further comprising setting the statistical value as the enhanced logit value.
前記トレーニングデータセットのサブセットにアクセスすることを含み、前記トレーニングデータセットの前記サブセットは、発話のサブセットを含み、前記発話のサブセットの各発話は、前記解決できないクラスに関連付けられ、前記ハイパーパラメータ最適化値を求めることはさらに、
トレーニング用ロジット値のセットを生成することを含み、前記トレーニング用ロジット値のセットの各トレーニング用ロジット値は、前記機械学習モデルを前記発話のサブセットのそれぞれの発話に適用することによって生成され、前記ハイパーパラメータ最適化値を求めることはさらに、
前記統計値を求めることを含み、前記統計値は、前記トレーニング用ロジット値のセットを表し、前記ハイパーパラメータ最適化値を求めることはさらに、
前記機械学習モデルの1つ以上のハイパーパラメータを調整して、最適化された統計値を生成することと、
前記最適化された統計値を前記強化されたロジット値として設定することとを含む、請求項11~13のいずれか1項に記載のシステム。 The enhanced logit values are the hyper-parameter optimization values, and determining the hyper-parameter optimization values includes:
accessing a subset of the training dataset, the subset of the training dataset comprising a subset of utterances, each utterance of the subset of utterances being associated with the unresolvable class, and determining the hyper-parameter optimization values further comprises:
generating a set of training logit values, each training logit value in the set of training logit values being generated by applying the machine learning model to a respective utterance in the subset of utterances, and determining the hyper-parameter optimization values further comprises:
determining the statistical value, the statistical value representing the set of training logit values, and determining the hyper-parameter optimization values further comprises:
tuning one or more hyperparameters of the machine learning model to generate optimized statistics;
and setting the optimized statistical value as the enhanced logit value.
トレーニングサブシステムが、トレーニングデータセットを受信することを含み、前記トレーニングデータセットは、チャットボットシステムと対話するユーザによって生成された複数の発話を含み、前記複数の発話のうちの少なくとも1つの発話は、前記ユーザの音声入力から変換されたテキストデータを含み、前記方法はさらに、
前記トレーニングサブシステムが、一連のネットワーク層を含む機械学習モデルにアクセスすることを含み、前記一連のネットワーク層の最終ネットワーク層は、解決可能なクラスについての第1の確率を、第1のロジット値を表す第1の実数に変換し、解決できないクラスについての第2の確率を、第2のロジット値を表す第2の実数に変換するロジット関数を含み、前記方法はさらに、
前記トレーニングサブシステムが、前記機械学習モデルを前記トレーニングデータセットでトレーニングして、前記機械学習モデルが、
前記解決可能なクラスについての前記第1の確率および前記解決できないクラスについての前記第2の確率を求め、
前記ロジット関数を使用して、前記解決可能なクラスについての前記第1の確率を前記第1のロジット値にマッピングするようにすることを含み、前記第1の確率をマッピングするための前記ロジット関数は、前記解決可能なクラスについての前記第1の確率に対応するオッズの対数であり、前記オッズの対数は、前記解決可能なクラスに関連付けられる分布の重心によって重み付けされ、前記方法はさらに、
前記トレーニングサブシステムが、前記ロジット関数を強化されたロジット値で置き換えて、前記解決できないクラスについての前記第2の確率が前記強化されたロジット値にマッピングされるようにすることを含み、
前記強化されたロジット値は、前記第1の確率をマッピングするために使用される前記ロジット関数から独立して求められる第3の実数であり、
前記強化されたロジット値は、(i)前記トレーニングデータセットから生成されるロジット値のセットに基づいて求められる統計値、(ii)前記解決できないクラスについての前記第2の確率に対応する第1のオッズの対数によって定義されるある範囲の値から選択され、前記第1のオッズの対数は、有界化関数によってある範囲の値に制約され、前記解決できないクラスに関連付けられる分布の重心によって重み付けされる、有界値、(iii)前記解決できないクラスについての前記第2の確率に対応する第2のオッズの対数によって生成され、前記第2のオッズの対数は、前記有界化関数によって前記ある範囲の値に制約され、スケーリング係数によってスケーリングされ、前記解決できないクラスに関連付けられる前記分布の前記重心によって重み付けされる、重み付けされた値、(iv)前記機械学習モデルのハイパーパラメータチューニングに基づいて生成されるハイパーパラメータ最適化値、または(v)前記機械学習モデルのトレーニング中に調整される学習値を含み、前記方法はさらに、
前記トレーニングサブシステムが、前記トレーニングされた機械学習モデルを前記強化されたロジット値とともに展開することを含む、方法。 1. A method comprising:
The method further includes: a training subsystem receiving a training data set, the training data set including a plurality of utterances generated by a user interacting with a chatbot system, at least one utterance of the plurality of utterances including text data converted from a voice input of the user, the method further comprising:
The training subsystem includes accessing a machine learning model including a series of network layers, a final network layer of the series of network layers including a logit function that converts a first probability for a resolvable class to a first real number representing a first logit value and a second probability for an unresolvable class to a second real number representing a second logit value, the method further comprising:
The training subsystem trains the machine learning model with the training dataset, such that the machine learning model:
determining the first probability for the resolvable class and the second probability for the unresolvable class;
using the logit function to map the first probability for the solvable class to the first logit value, the logit function for mapping the first probability being a logarithm of the odds corresponding to the first probability for the solvable class, the logarithm of the odds being weighted by a centroid of a distribution associated with the solvable class, the method further comprising:
the training subsystem replacing the logit function with an enhanced logit value such that the second probability for the unresolvable class is mapped to the enhanced logit value;
the enhanced logit value is a third real number determined independently from the logit function used to map the first probability;
The enhanced logit value comprises: (i) a statistical value determined based on a set of logit values generated from the training dataset; (ii) a bounded value selected from a range of values defined by the logarithm of first odds corresponding to the second probability for the unresolvable class, the logarithm of the first odds being constrained to a range of values by a bounding function and weighted by a centroid of a distribution associated with the unresolvable class; (iii) a weighted value generated by the logarithm of second odds corresponding to the second probability for the unresolvable class, the logarithm of the second odds being constrained to a range of values by the bounding function, scaled by a scaling factor and weighted by the centroid of the distribution associated with the unresolvable class; (iv) a hyper-parameter optimized value generated based on hyper-parameter tuning of the machine learning model; or (v) a learned value adjusted during training of the machine learning model;
The method, wherein the training subsystem deploys the trained machine learning model with the enriched logit values.
前記トレーニングデータセットから、拡張されたトレーニングデータセットを生成することを含み、前記拡張されたトレーニングデータセットは、前記複数の発話のうちの特定の発話の1つ以上のコピーを変換することを含み、前記特定の発話は、前記特定の発話を前記解決できないクラスに関連付けられるものとして識別するトレーニングラベルに関連付けられ、前記方法はさらに、
前記拡張されたトレーニングデータセットを使用して前記機械学習モデルをトレーニングすることを含む、請求項22に記載の方法。 The method further comprises:
generating an augmented training data set from the training data set, the augmented training data set including transforming one or more copies of a particular utterance of the plurality of utterances, the particular utterance being associated with a training label that identifies the particular utterance as being associated with the unresolvable class, the method further comprising:
23. The method of claim 22 , comprising training the machine learning model using the expanded training data set.
前記トレーニングデータセットのサブセットにアクセスすることを含み、前記トレーニングデータセットの前記サブセットは、前記複数の発話のサブセットを含み、前記発話のサブセットの各発話は、前記解決できないクラスに関連付けられ、前記機械学習モデルをトレーニングすることはさらに、
トレーニング用ロジット値のセットを生成することを含み、前記トレーニング用ロジット値のセットの各トレーニング用ロジット値は、前記機械学習モデルを前記発話のサブセットのそれぞれの発話に適用することによって生成され、前記機械学習モデルをトレーニングすることはさらに、
前記統計値を求めることを含み、前記統計値は、前記トレーニング用ロジット値のセットを表し、前記機械学習モデルをトレーニングすることはさらに、
前記統計値を前記強化されたロジット値として設定することを含む、請求項22~24のいずれか1項に記載の方法。 The enhanced logit value is the statistical value determined based on a set of the logit values generated from the training dataset, and training the machine learning model further comprises:
and training the machine learning model further comprising: accessing a subset of the training dataset, the subset of the training dataset comprising a subset of the plurality of utterances, each utterance of the subset of utterances being associated with the unresolvable class.
generating a set of training logit values, each training logit value in the set of training logit values being generated by applying the machine learning model to a respective utterance in the subset of utterances, and training the machine learning model further comprises:
determining the statistical value, the statistical value representing the set of training logit values, and training the machine learning model further comprises:
A method according to any one of claims 22 to 24 , comprising setting the statistical value as the enhanced logit value.
前記トレーニングデータセットのサブセットにアクセスすることを含み、前記トレーニングデータセットの前記サブセットは、発話のサブセットを含み、前記発話のサブセットの各発話は、前記解決できないクラスに関連付けられ、前記機械学習モデルをトレーニングすることはさらに、
トレーニング用ロジット値のセットを生成することを含み、前記トレーニング用ロジット値のセットの各トレーニング用ロジット値は、前記機械学習モデルを前記発話のサブセットのそれぞれの発話に適用することによって生成され、前記機械学習モデルをトレーニングすることはさらに、
前記統計値を求めることを含み、前記統計値は、前記トレーニング用ロジット値のセットを表し、前記機械学習モデルをトレーニングすることはさらに、
前記機械学習モデルの1つ以上のハイパーパラメータを調整して、最適化された統計値を生成することと、
前記最適化された統計値を前記強化されたロジット値として設定することとを含む、請求項22~24のいずれか1項に記載の方法。 The enhanced logit values are the hyper-parameter optimization values, and training the machine learning model further comprises:
accessing a subset of the training dataset, the subset of the training dataset comprising a subset of utterances, each utterance of the subset of utterances being associated with the unresolvable class, and training the machine learning model further comprises:
generating a set of training logit values, each training logit value in the set of training logit values being generated by applying the machine learning model to a respective utterance in the subset of utterances, and training the machine learning model further comprises:
determining the statistical value, the statistical value representing the set of training logit values, and training the machine learning model further comprises:
tuning one or more hyperparameters of the machine learning model to generate optimized statistics;
Setting the optimized statistical value as the enhanced logit value.
1つ以上のデータプロセッサと、
命令を含む非一時的なコンピュータ可読記憶媒体とを備え、前記命令は、前記1つ以上のデータプロセッサ上で実行されると、前記1つ以上のデータプロセッサに動作を実行させ、前記動作は、
トレーニングデータセットを受信することを含み、前記トレーニングデータセットは、チャットボットシステムと対話するユーザによって生成された複数の発話を含み、前記複数の発話のうちの少なくとも1つの発話は、前記ユーザの音声入力から変換されたテキストデータを含み、前記動作はさらに、
一連のネットワーク層を含む機械学習モデルにアクセスすることを含み、前記一連のネットワーク層の最終ネットワーク層は、解決可能なクラスについての第1の確率を、第1のロジット値を表す第1の実数に変換し、解決できないクラスについての第2の確率を、第2のロジット値を表す第2の実数に変換するロジット関数を含み、前記動作はさらに、
前記機械学習モデルを前記トレーニングデータセットを用いてトレーニングして、前記機械学習モデルが、
前記解決可能なクラスについての前記第1の確率および前記解決できないクラスについての前記第2の確率を求め、
前記ロジット関数を使用して、前記解決可能なクラスについての前記第1の確率を前記第1のロジット値にマッピングするようにすることを含み、前記第1の確率をマッピングするための前記ロジット関数は、前記解決可能なクラスについての前記第1の確率に対応するオッズの対数であり、前記オッズの対数は、前記解決可能なクラスに関連付けられる分布の重心によって重み付けされ、前記動作はさらに、
前記ロジット関数を強化されたロジット値で置き換えて、前記解決できないクラスについての前記第2の確率が前記強化されたロジット値にマッピングされるようにすることを含み、
前記強化されたロジット値は、前記第1の確率をマッピングするために使用される前記ロジット関数から独立して求められる第3の実数であり、
前記強化されたロジット値は、(i)前記トレーニングデータセットから生成されるロジット値のセットに基づいて求められる統計値、(ii)前記解決できないクラスについての前記第2の確率に対応する第1のオッズの対数によって定義されるある範囲の値から選択され、前記第1のオッズの対数は、有界化関数によってある範囲の値に制約され、前記解決できないクラスに関連付けられる分布の重心によって重み付けされる、有界値、(iii)前記解決できないクラスについての前記第2の確率に対応する第2のオッズの対数によって生成され、前記第2のオッズの対数は、前記有界化関数によって前記ある範囲の値に制約され、スケーリング係数によってスケーリングされ、前記解決できないクラスに関連付けられる前記分布の前記重心によって重み付けされる、重み付けされた値、(iv)前記機械学習モデルのハイパーパラメータチューニングに基づいて生成されるハイパーパラメータ最適化値、または(v)前記機械学習モデルのトレーニング中に調整される学習値を含み、前記動作はさらに、
前記トレーニングされた機械学習モデルを前記強化されたロジット値とともに展開することを含む、システム。 1. A system comprising:
one or more data processors;
and a non-transitory computer-readable storage medium containing instructions that, when executed on the one or more data processors, cause the one or more data processors to perform operations, including:
receiving a training dataset, the training dataset including a plurality of utterances generated by a user interacting with a chatbot system, at least one utterance of the plurality of utterances including text data converted from a voice input of the user, the operations further comprising:
accessing a machine learning model including a series of network layers, a final network layer of the series of network layers including a logit function that converts a first probability for a resolvable class to a first real number representing a first logit value and a second probability for an unresolvable class to a second real number representing a second logit value, the operations further comprising:
training the machine learning model with the training dataset,
determining the first probability for the resolvable class and the second probability for the unresolvable class;
using the logit function to map the first probability for the resolvable class to the first logit value, the logit function for mapping the first probability being a logarithm of the odds corresponding to the first probability for the resolvable class, the logarithm of the odds being weighted by a centroid of a distribution associated with the resolvable class, the operations further comprising:
replacing the logit function with an enhanced logit value such that the second probability for the unresolvable class is mapped to the enhanced logit value;
the enhanced logit value is a third real number determined independently from the logit function used to map the first probability;
The enhanced logit value may comprise: (i) a statistical value determined based on a set of logit values generated from the training dataset; (ii) a bounded value selected from a range of values defined by the logarithm of first odds corresponding to the second probability for the unresolvable class, the logarithm of the first odds being constrained to a range of values by a bounding function and weighted by a centroid of a distribution associated with the unresolvable class; (iii) a weighted value generated by the logarithm of second odds corresponding to the second probability for the unresolvable class, the logarithm of the second odds being constrained to the range of values by the bounding function, scaled by a scaling factor and weighted by the centroid of the distribution associated with the unresolvable class; (iv) a hyperparameter optimization value generated based on hyperparameter tuning of the machine learning model; or (v) a learned value adjusted during training of the machine learning model; and the operations further comprise:
deploying the trained machine learning model with the enriched logit values.
前記トレーニングデータセットから、拡張されたトレーニングデータセットを生成することを含み、前記拡張されたトレーニングデータセットは、前記複数の発話のうちの特定の発話の1つ以上のコピーを変換することを含み、前記特定の発話は、前記特定の発話を前記解決できないクラスに関連付けられるものとして識別するトレーニングラベルに関連付けられ、前記動作はさらに、
前記拡張されたトレーニングデータセットを使用して前記機械学習モデルをトレーニングすることを含む、請求項33に記載のシステム。 The instructions further cause the one or more data processors to perform operations, the operations including:
generating an augmented training data set from the training data set, the augmented training data set including transforming one or more copies of a particular utterance of the plurality of utterances, the particular utterance being associated with a training label that identifies the particular utterance as being associated with the unresolvable class, the operations further comprising:
34. The system of claim 33 , further comprising training the machine learning model using the expanded training data set.
前記トレーニングデータセットのサブセットにアクセスすることを含み、前記トレーニングデータセットの前記サブセットは、前記複数の発話のサブセットを含み、前記発話のサブセットの各発話は、前記解決できないクラスに関連付けられ、前記機械学習モデルをトレーニングすることはさらに、
トレーニング用ロジット値のセットを生成することを含み、前記トレーニング用ロジット値のセットの各トレーニング用ロジット値は、前記機械学習モデルを前記発話のサブセットのそれぞれの発話に適用することによって生成され、前記機械学習モデルをトレーニングすることはさらに、
前記統計値を求めることを含み、前記統計値は、前記トレーニング用ロジット値のセットを表し、前記機械学習モデルをトレーニングすることはさらに、
前記統計値を前記強化されたロジット値として設定することを含む、請求項33~35のいずれか1項に記載のシステム。 The enhanced logit value is the statistical value determined based on a set of the logit values generated from the training dataset, and training the machine learning model further comprises:
accessing a subset of the training dataset, the subset of the training dataset comprising a subset of the plurality of utterances, each utterance of the subset of utterances being associated with the unresolvable class, and training the machine learning model further comprises:
generating a set of training logit values, each training logit value in the set of training logit values being generated by applying the machine learning model to a respective utterance in the subset of utterances, and training the machine learning model further comprises:
determining the statistical value, the statistical value representing the set of training logit values, and training the machine learning model further comprises:
The system of any one of claims 33 to 35 , further comprising setting the statistical value as the enhanced logit value.
前記トレーニングデータセットのサブセットにアクセスすることを含み、前記トレーニングデータセットの前記サブセットは、発話のサブセットを含み、前記発話のサブセットの各発話は、前記解決できないクラスに関連付けられ、前記機械学習モデルをトレーニングすることはさらに、
トレーニング用ロジット値のセットを生成することを含み、前記トレーニング用ロジット値のセットの各トレーニング用ロジット値は、前記機械学習モデルを前記発話のサブセットのそれぞれの発話に適用することによって生成され、前記機械学習モデルをトレーニングすることはさらに、
前記統計値を求めることを含み、前記統計値は、前記トレーニング用ロジット値のセットを表し、前記機械学習モデルをトレーニングすることはさらに、
前記機械学習モデルの1つ以上のハイパーパラメータを調整して、最適化された統計値を生成することと、
前記最適化された統計値を前記強化されたロジット値として設定することとを含む、請求項33~35のいずれか1項に記載のシステム。 The enhanced logit values are the hyper-parameter optimization values, and training the machine learning model further comprises:
accessing a subset of the training dataset, the subset of the training dataset comprising a subset of utterances, each utterance of the subset of utterances being associated with the unresolvable class, and training the machine learning model further comprises:
generating a set of training logit values, each training logit value in the set of training logit values being generated by applying the machine learning model to a respective utterance in the subset of utterances, and training the machine learning model further comprises:
determining the statistical value, the statistical value representing the set of training logit values, and training the machine learning model further comprises:
tuning one or more hyperparameters of the machine learning model to generate optimized statistics;
and setting the optimized statistical value as the enhanced logit value.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063119449P | 2020-11-30 | 2020-11-30 | |
US63/119,449 | 2020-11-30 | ||
US17/456,687 US11972220B2 (en) | 2020-11-30 | 2021-11-29 | Enhanced logits for natural language processing |
US17/456,687 | 2021-11-29 | ||
PCT/US2021/061062 WO2022115727A1 (en) | 2020-11-30 | 2021-11-30 | Enhanced logits for natural language processing |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023551859A JP2023551859A (en) | 2023-12-13 |
JPWO2022115727A5 true JPWO2022115727A5 (en) | 2024-06-20 |
Family
ID=81752529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023532750A Pending JP2023551859A (en) | 2020-11-30 | 2021-11-30 | Enhanced logit for natural language processing |
Country Status (5)
Country | Link |
---|---|
US (2) | US11972220B2 (en) |
EP (1) | EP4252142A1 (en) |
JP (1) | JP2023551859A (en) |
CN (1) | CN116547676A (en) |
WO (1) | WO2022115727A1 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2569335B (en) * | 2017-12-13 | 2022-07-27 | Sage Global Services Ltd | Chatbot system |
US11729121B2 (en) * | 2021-04-29 | 2023-08-15 | Bank Of America Corporation | Executing a network of chatbots using a combination approach |
US12019984B2 (en) * | 2021-09-20 | 2024-06-25 | Salesforce, Inc. | Multi-lingual intent model with out-of-domain detection |
US12118307B2 (en) * | 2022-05-17 | 2024-10-15 | Sap Se | Enhanced chatbot intelligence |
US20240061644A1 (en) * | 2022-08-17 | 2024-02-22 | Jpmorgan Chase Bank, N.A. | Method and system for facilitating workflows via voice communication |
US11961622B1 (en) * | 2022-10-21 | 2024-04-16 | Realyze Intelligence, Inc. | Application-specific processing of a disease-specific semantic model instance |
WO2024137062A1 (en) * | 2022-12-21 | 2024-06-27 | Dish Wireless L.L.C. | Service product provisioning |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9575963B2 (en) * | 2012-04-20 | 2017-02-21 | Maluuba Inc. | Conversational agent |
US9547471B2 (en) | 2014-07-03 | 2017-01-17 | Microsoft Technology Licensing, Llc | Generating computer responses to social conversational inputs |
US20160253597A1 (en) | 2015-02-27 | 2016-09-01 | Xerox Corporation | Content-aware domain adaptation for cross-domain classification |
WO2018029679A1 (en) | 2016-08-07 | 2018-02-15 | Hadasit Medical Research Services And Development Ltd. | Methods and system for assessing a cognitive function |
US10796217B2 (en) | 2016-11-30 | 2020-10-06 | Microsoft Technology Licensing, Llc | Systems and methods for performing automated interviews |
US10685293B1 (en) | 2017-01-20 | 2020-06-16 | Cybraics, Inc. | Methods and systems for analyzing cybersecurity threats |
US10530795B2 (en) | 2017-03-17 | 2020-01-07 | Target Brands, Inc. | Word embeddings for anomaly classification from event logs |
US11373632B2 (en) * | 2017-05-10 | 2022-06-28 | Oracle International Corporation | Using communicative discourse trees to create a virtual persuasive dialogue |
US10817670B2 (en) * | 2017-05-10 | 2020-10-27 | Oracle International Corporation | Enabling chatbots by validating argumentation |
US11200506B2 (en) * | 2017-12-15 | 2021-12-14 | Microsoft Technology Licensing, Llc | Chatbot integrating derived user intent |
US20190205939A1 (en) | 2017-12-31 | 2019-07-04 | OneMarket Network LLC | Using Machine Learned Visitor Intent Propensity to Greet and Guide a Visitor at a Physical Venue |
US20190370695A1 (en) | 2018-05-31 | 2019-12-05 | Microsoft Technology Licensing, Llc | Enhanced pipeline for the generation, validation, and deployment of machine-based predictive models |
US11423330B2 (en) | 2018-07-16 | 2022-08-23 | Invoca, Inc. | Performance score determiner for binary signal classifiers |
US11625620B2 (en) * | 2018-08-16 | 2023-04-11 | Oracle International Corporation | Techniques for building a knowledge graph in limited knowledge domains |
US11257496B2 (en) | 2018-09-26 | 2022-02-22 | [24]7.ai, Inc. | Method and apparatus for facilitating persona-based agent interactions with online visitors |
US11574144B2 (en) | 2019-01-07 | 2023-02-07 | Microsoft Technology Licensing, Llc | Performance of a computer-implemented model that acts as a multi-class classifier |
US11763129B2 (en) | 2019-03-04 | 2023-09-19 | Royal Bank Of Canada | System and method for machine learning with long-range dependency |
US11206229B2 (en) * | 2019-04-26 | 2021-12-21 | Oracle International Corporation | Directed acyclic graph based framework for training models |
US11657797B2 (en) * | 2019-04-26 | 2023-05-23 | Oracle International Corporation | Routing for chatbots |
US11978452B2 (en) * | 2019-04-26 | 2024-05-07 | Oracle International Corportion | Handling explicit invocation of chatbots |
US11775770B2 (en) | 2019-05-23 | 2023-10-03 | Capital One Services, Llc | Adversarial bootstrapping for multi-turn dialogue model training |
US10825449B1 (en) | 2019-09-27 | 2020-11-03 | CrowdAround Inc. | Systems and methods for analyzing a characteristic of a communication using disjoint classification models for parsing and evaluation of the communication |
-
2021
- 2021-11-29 US US17/456,687 patent/US11972220B2/en active Active
- 2021-11-30 JP JP2023532750A patent/JP2023551859A/en active Pending
- 2021-11-30 CN CN202180080034.4A patent/CN116547676A/en active Pending
- 2021-11-30 WO PCT/US2021/061062 patent/WO2022115727A1/en active Application Filing
- 2021-11-30 EP EP21835470.2A patent/EP4252142A1/en active Pending
-
2024
- 2024-03-20 US US18/611,039 patent/US20240232541A1/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111260740B (en) | Text-to-image generation method based on generation countermeasure network | |
CN107273355B (en) | Chinese word vector generation method based on word and phrase joint training | |
Bradley et al. | Feature selection via mathematical programming | |
CN109948149B (en) | Text classification method and device | |
Yang et al. | Generating thematic chinese poetry using conditional variational autoencoders with hybrid decoders | |
CN109977234A (en) | A kind of knowledge mapping complementing method based on subject key words filtering | |
KR102710087B1 (en) | Method, computer device, and computer program to generate data using language model | |
KR101939209B1 (en) | Apparatus for classifying category of a text based on neural network, method thereof and computer recordable medium storing program to perform the method | |
KR20210146089A (en) | Method for generating multi persona model and providing for conversation styling using the multi persona model | |
CN106776540A (en) | A kind of liberalization document creation method | |
CN106845525A (en) | A kind of depth confidence network image bracket protocol based on bottom fusion feature | |
CN110968697B (en) | Text classification method, apparatus, device and readable storage medium | |
CN110334196B (en) | Neural network Chinese problem generation system based on strokes and self-attention mechanism | |
JPWO2022115727A5 (en) | ||
CN112256867A (en) | Training method and system of text classification model and related equipment | |
CN111144500A (en) | Differential privacy deep learning classification method based on analytic Gaussian mechanism | |
CN117271742A (en) | Question answering method, device, equipment and medium | |
CN113806543B (en) | Text classification method of gate control circulation unit based on residual jump connection | |
CN110516231A (en) | Expansion convolution entity name recognition method based on attention mechanism | |
CN113297387B (en) | News detection method for image-text mismatching based on NKD-GNN | |
CN116910185B (en) | Model training method, device, electronic equipment and readable storage medium | |
WO2021228084A1 (en) | Speech data recognition method, device, and medium | |
CN115860009B (en) | Sentence embedding method and system for contrast learning by introducing auxiliary sample | |
CN116991976A (en) | Model training method, device, electronic equipment and readable storage medium | |
WO2022063202A1 (en) | Text classification method, apparatus, device, and storage medium |