Nothing Special   »   [go: up one dir, main page]

JP2021152963A - 語義特徴の生成方法、モデルトレーニング方法、装置、機器、媒体及びプログラム - Google Patents

語義特徴の生成方法、モデルトレーニング方法、装置、機器、媒体及びプログラム Download PDF

Info

Publication number
JP2021152963A
JP2021152963A JP2021104325A JP2021104325A JP2021152963A JP 2021152963 A JP2021152963 A JP 2021152963A JP 2021104325 A JP2021104325 A JP 2021104325A JP 2021104325 A JP2021104325 A JP 2021104325A JP 2021152963 A JP2021152963 A JP 2021152963A
Authority
JP
Japan
Prior art keywords
training
document
segment
coding module
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021104325A
Other languages
English (en)
Inventor
碩寰 王
Shuohuan Wang
碩寰 王
思宇 丁
Siyu Ding
思宇 丁
駿遠 尚
Junyuan Shang
駿遠 尚
宇 孫
Yu Sun
宇 孫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021152963A publication Critical patent/JP2021152963A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】目標ドキュメント中の各ドキュメントセグメントの語義特徴を正確に生成することが可能な語義特徴の生成方法、モデルトレーニング方法、装置、機器及び媒体を提供する。【解決手段】語義特徴生成方法は、目標ドキュメントをセグメント区切りして、目標ドキュメントのセグメントシーケンスを取得し、予めトレーニングされた双方向語義符号化モデルで、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成し、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、目標ドキュメントの語義特徴を取得する。【選択図】図1

Description

本開示はコンピュータ技術分野に関しており、具体的に機械学習と自然言語処理などの人工知的技術分野に関しており、特に語義特徴の生成方法、モデルトレーニング方法、装置、機器及び媒体に関している。
語義検索は、サーチエンジンのうちの1つのコア技術であり、所定のユーザが入力するサーチワード、例えばQueryについて、どのようにドキュメント(Document)ベースから快速に当該Query語義と最も相関の候補Documentを検索したことである。
従来技術において、ユーザのQuery及びDocument ベース中の各Documentに対してそれぞれ語義表現を算出できる。その後、近似最近接検索(Approximate Nearest Neighbor。ANN)技術を利用して、Queryの語義表現及びDocumentベース中の各Documentの語義表現に基づいて語義検索し、Top K個の最も相関の候補Documentを取得できる。そのうちのDocumentの語義表現は、当該Documentの1個の重要なドメイン或複数個の重要なドメインの表現をとってよく、例えばDocumentのタイトル(Title)、要旨などの語義表現をそのDocumentの語義表現として取ることができる。
本開示は、語義特徴の生成方法、モデルトレーニング方法、装置、機器及び媒体を提供している。
本開示の一局面によれば、
目標ドキュメントをセグメント区切りすることで、目標ドキュメントのセグメントシーケンスを取得することと、
予めトレーニングされた双方向語義符号化モデルで、前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成することと、
前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントの語義特徴に基づいて、前記目標ドキュメントの語義特徴を取得することとを含む、語義特徴の生成方法を提供している。
本開示のもう1つの局面によれば、
トレーニングデータセットを採集することと、
採集した前記トレーニングデータセットに基づいて、左符号化モジュールと右符号化モジュールとを含む双方向語義符号化モデルをトレーニングすることとを含む、双方向語義符号化モデルのトレーニング方法を提供している。
本開示の別の1つの局面によれば、
目標ドキュメントをセグメント区切りすることで、目標ドキュメントのセグメントシーケンスを取得するための区切りモジュールと、
予めトレーニングされた双方向語義符号化モデルで、前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成するための生成モジュールと、
前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントの語義特徴に基づいて、前記目標ドキュメントの語義特徴を取得するための取得モジュールとを含む、語義特徴の生成装置を提供している。
本開示のもう1つの局面によれば、
トレーニングデータセットを採集するための採集モジュールと、
採集した前記トレーニングデータセットに基づいて、左符号化モジュールと右符号化モジュールとを含む双方向語義符号化モデルをトレーニングするためのトレーニングモジュールとを含む、双方向語義符号化モデルのトレーニング装置を提供している。
本開示の別の1つの局面によれば、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されるメモリと、を含んでおり、
前記メモリには前記少なくとも1つのプロセッサに実行されるコマンドを記憶しており、
前記コマンドが前記少なくとも1つのプロセッサに実行されることで、前記少なくとも1つのプロセッサは上記の方法を実行可能となる、電子機器を提供している。
本開示の別の1つの局面によれば、コンピュータに上記の方法を実行させるためのコンピュータコマンドが記憶されている不揮発性のコンピュータ読み取り可能な記憶媒体を提供している。
本開示の別の1つの局面によれば、プロセッサに実行される時に上記の方法を実現するコンピュータプログラムを提供している。
本開示の技術によれば、予めトレーニングされた双方向語義符号化モデルを利用することで、効率的に目標ドキュメント中の各ドキュメントセグメントの語義特徴の正確性を向上でき、さらに、目標ドキュメントの語義特徴の表現正確性を効率的に向上できる。しかも、本開示の技術によれば、トレーニングデータセットを採集し、採集したトレーニングデータセットに基づいて、左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルをトレーニングすることで、双方向語義符号化モデルに対する効率的なトレーニングを実現してもよく、さらに、双方向語義符号化モデルが語義特徴表現に対する正確性を効率的に向上できる。
本部分に述べられた内容は、本開示の実施例のキーや重要な特徴を標記するわけではなく、本開示の範囲が限定されるためのものではないと理解すべきである。本開示のほかの特徴は、以下の明細書によって理解を容易になっている。
図面は本案をより一層理解させるためのものであり、本願に対する限定を構成していない。
図1は本開示第1実施例による模式図である。 図2は本開示第2実施例による模式図である。 図3は本実施例の双方向語義符号化モデルの構成模式図である。 図4は本実施例のTransformer−XLモデルの動作原理図である。 図5は図4に示されたTransformer−XLモデルの集中力メカニズム図である。 図6は本実施例の左符号化モジュールの動作原理図である。 図7は本実施例の右符号化モジュールの動作原理図である。 図8は本実施例の双方向語義符号化モデルの集中力メカニズム図である。 図9は本開示第3実施例による模式図である。 図10は本開示の第4実施例による模式図である。 図11は本実施例の左符号化モジュール及び右符号化モジュールのマスキングトレーニング模式図である。 図12は本開示の第5実施例による模式図である。 図13は本開示の第6実施例による模式図である。 図14は本開示の第7実施例による模式図である。 図15は本開示の第8実施例による模式図である。 図16は本開示の実施例を実現するための電子機器のブロック図である。
以下、図面を参照しながら本願の例示の実施例を説明したが、その中、本願実施例の各々の詳細を含むことで理解の便利の上、それらを例示のものと考えるに過ぎない。したがって、当業者は、ここで述べられた実施例を各々の改良や修正をしても、本願の範囲と要旨から逸脱することないと、認識すべきである。同様に、以下の説明では、明瞭で簡潔になるために、周知の構造及び技術に対する説明は省略する。
図1は本開示の第1実施例による模式図である。図1に示すように、本実施例は具体的に以下のステップを含む語義特徴の生成方法を提供している。
S101:目標ドキュメントをセグメント区切りし、目標ドキュメントのセグメントシーケンスを取得する。
S102:予めトレーニングされた双方向語義符号化モデルで、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成する。
S103:目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、目標ドキュメントの語義特徴を取得する。
本実施例の語義特徴の生成方法の実行本体は語義特徴の生成装置であり、この語義特徴の生成装置の実行本体は電子実体であったり、或いはソフトウェア集積のアプリケーションを利用したりする。本実施例の語義特徴の生成装置は、予めトレーニングされた双方向語義符号化モデルに基づいて、目標ドキュメント中の各ドキュメントセグメントの語義特徴の生成を実現するために用いられる。
本実施例中の目標ドキュメント(Document)はドキュメント(Document)ベース中のいずれか一枚のDocumentであってもよい。本実施例のDocumentベース中のDocumentは多くの語句を含んだり、或いは多くの段落を含んだりする長ドキュメントであってもよい。例えば、ネットワーク上の1枚新聞、1冊の電子ブック或いはほかの多くの語句を含む長ドキュメントであってもよい。好ましくは、本実施例の目標ドキュメントは句読点を消去し、ドキュメント中の言葉情報だけを保留してもよい。しかし、理論によって証明したように、句読点を消去しなくても、後続処理効果に影響を与えない。
本実施例において、先に目標ドキュメントをセグメント区切りする必要となり、目標ドキュメントのセグメントシーケンスを取得し、当該目標ドキュメントのセグメントシーケンスには、少なくとも2個のドキュメントセグメントを含んでおり、且つ、少なくとも2個のドキュメントセグメントが目標ドキュメントにおける前後順に順次に並べる。具体的には、本実施例において、目標ドキュメントをセグメント区切りする時に、一定のプリセット長さに従って目標ドキュメントをセグメント区切りし、このようにして、前から後への順に、最後1個のドキュメントセグメントを除いて、前のそれぞれのドキュメントセグメントの長さが理論的にいずれも同じである。
本実施例は、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成する時に、予めトレーニングされた双方向語義符号化モデルで、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成する。当該双方向語義符号化モデルは各ドキュメントセグメントを2方向の符号化し、さらに符号化後のドキュメントセグメントの語義特徴をより正確にさせることができる。最後、具体的な自然言語処理 (Natural Language Processing。NLP)ジョブにおいて、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、目標ドキュメントの語義特徴を取得できる。例えば、語義マッチジョブにおいて、目標ドキュメントのセグメントシーケンス中各ドキュメントセグメントの語義特徴に基づいて、同時にマッチ待ちのサーチワードの語義特徴を参照し、目標ドキュメントの語義特徴を取得してもよい。例えば、ほかのジョブにおいて、直接に目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、目標ドキュメントの語義特徴を生成してもよく、例えば目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、平均などの数学演算を行い、目標ドキュメントの語義特徴を生成してよい。
本実施例の語義特徴の生成方法の適用現場は、ユーザがサーチワードを入力してから、ユーザのサーチワードに基づいて、DocumentベースからDocumentをサーチし、個々のDocumentを目標ドキュメントとして、本実施例の形態に従って、個々の目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成し、続いて個々の目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、語義マッチジョブを実現でき、ユーザのサーチワード相関のDocumentがサーチされたことで、ドキュメントマッチの正確率とマッチ効率を効率的に向上できる。なお、本実施例の語義特徴の生成方法はほかのNLPの処理ジョブにも適用されるが、ここでは詳細に説明しない。
本実施例の語義特徴の生成方法は、目標ドキュメントをセグメント区切りすることで、目標ドキュメントのセグメントシーケンスを取得し、予めトレーニングされた双方向語義符号化モデルで、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成し、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、目標ドキュメントの語義特徴を取得する。本実施例の技術案において、予めトレーニングされた双方向語義符号化モデルを利用することで、目標ドキュメント中の各ドキュメントセグメントの語義特徴の正確性を効率的に向上でき、さらに目標ドキュメントの語義特徴の表現正確を性効率的に向上できる。
図2は本開示の第2実施例による模式図である。図2に示すように、本実施例の語義特徴の生成方法は、上記の図1に示された実施例の技術案を元に、より詳細に本願の技術案を説明する。図2に示すように、本実施例の語義特徴の生成方法は、具体的に以下のステップを含んでいる。
S201:目標ドキュメントをセグメント区切りし、目標ドキュメントのセグメントシーケンスを取得する。
このステップの実施形態は上記の図1に示された実施例のステップS101を参照でき、ここでは詳細に説明しない。
S202:双方向語義符号化モデル中の左符号化モジュールで、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの左符号化特徴を取得する。
S203:双方向語義符号化モデル中の右符号化モジュールで、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの右符号化特徴を取得する。
S204:目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントに対して、対応のドキュメントセグメントの左符号化特徴と対応のドキュメントセグメントの右符号化特徴をスプライシングして、対応のドキュメントセグメントの語義特徴を取得する。
本実施例中のステップS202〜S204は上記の図1に示された実施例のステップS102の実現形態の1種類である。
S205:目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴とマッチ待ちのサーチワードの語義特徴との類似度を算出する。
S206:各ドキュメントセグメントの語義特徴とマッチ待ちのサーチワードの語義特徴との類似度に基づいて、目標ドキュメントの語義特徴として、マッチ待ちのサーチワードの語義特徴との類似度が最も大きいドキュメントセグメントの語義特徴を取得する。
本実施例において、ユーザのサーチワードに基づいて、DocumentベースからユーザのサーチワードとマッチするDocumentをサーチするシーンを例として、本願の技術案を説明する。この時に、対応的に、上記の図1に示された実施例のステップS103は、具体的に目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、マッチ待ちのサーチワードの語義特徴を参照し、目標ドキュメントの語義特徴を取得することを含んでいる。さらに、本実施例において、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、マッチ待ちのサーチワードの語義特徴を参照し、目標ドキュメントの語義特徴を取得することを含む本実施例のステップS205及びステップS206を例として、本願の技術案を説明する。実際の利用には、ほかのNLPジョブにおいて、図1に示された実施例のステップS103はほかの実現する形態も利用されるが、ここでは詳細に説明しない。
図3は本実施例の双方向語義符号化モデルの構成模式図である。図3に示すように、本実施例の双方向語義符号化モデルは左符号化モジュールと右符号化モジュールを含むことを例としている。
本実施例の双方向語義符号化モデルはBi−Transformer−XLモデルと呼ばれ、このモデルは従来のTransformer−XL或いはXLNetに基づいて改良してもよい。例えば、図4は本実施例のTransformer−XLモデルの動作原理図である。図4に示すように、Transformer−XLモデルはドキュメントDocumentを左から右へ段階別にモデリングし、例えば図4にドキュメントDocumentがX1X2….X9を含むことを例として、DocumentをDocument−1、Document−2、Document−3という3つのドキュメントセグメントに分けることを例としている。もし、本実施例中に一回モデリングの最大長さが3であり、そのうち、Document−1にX1、X2、X3を含み、Document−2にX4、X5、X6を含み、Document−3にX7、X8、X9を含む。
図4に示すように、このTransformer−XLモデルは、動作の時に、それぞれDocument−1、Document−2、Document−3を順次にTransformer−XLモデルへ入力する。そのTransformer−XLモデルは、先にDocument−1中のX1、X2及びX3に基づいて符号化し、符号化結果mem−Doc−1を取得する。その後、Document−1の符号化結果mem−Doc−1とDocument−2中のX4、X5及びX6に基づいて符号化し、符号化結果mem−Doc−2を取得する。さらに、Document−2の符号化結果mem−Doc−2とDocument−3中のX7、X8及びX9に基づいて符号化し、符号化結果mem−Doc−3を取得する。
図5は図4に示されたTransformer−XLモデルの集中力メカニズム図である。上記の図4に示された動作原理を組み合せて、図5に示す集中力メカニズムを取得できる。図5に示すように、Transformer−XLモデルは個々のドキュメントセグメント内に、その集中力が双方向となり、例えばDocument−1、Document−2とDocument−3内に、X1−X3、X4−X6、X7−X9それぞれの内部が互いに相手を見えて、相手の存在も感知できる。Document−2の符号化はDocument−1の符号化結果を参照し、Document−3の符号化もDocument−2の符号化結果を参照したので、異なるドキュメントセグメント間にその集中力メカニズムが単向、たとえば左から右へとなっている。このようなモデリングは、モデルの能力を制限し、例えば、最左の文字X1の語義表現はDocument−2とDocument−3セグメント内のX4−X9の文字を参照できない。
上記のTransformer−XLモデルの制限能力に基づいて、本実施例の双方向語義符号化モデルであるBi−Transformer−XLモデルは、2個の連携モデルによってモデリングすることで、それぞれ左から右までや右から左までに語義特徴をモデリングしてもよい。すなわち、その双方向語義符号化モデルに含まれる左符号化モジュールは左から右までにモデリングする一方、右符号化モジュールは右から左までにモデリングする。そのなか、左符号化モジュールはLeft−Transformer−XLモデルと呼ばれ、右符号化モジュールはRight−Transformer−XLモデルと呼ばれる。ただし、左符号化モジュールへ入力されたドキュメントセグメントは左から右までにセグメント別に順次に入力される。図6は本実施例の左符号化モジュールの動作原理図であり、その動作原理は上記の図4に示されたTransformer−XLモデルの動作原理と同じであり、その集中力メカニズムは図5に示される。図7は本実施例の右符号化モジュールの動作原理図である。図6に示すように、右符号化モジュールと上記の左符号化モジュールの動作原理とは対称で、右符号化モジュールへ入力されたドキュメントセグメントは右から左までにセグメント別に順次に入力される。
例えば、その右符号化モジュールであるRight−Transformer−XLモデルは、動作の時に、それぞれDocument−3、Document−2、Document−1が順次にRight−Transformer−XLモデルへ入力される。当該Right−Transformer−XLモデルは、先にDocument−3中のX7、X8及びX9に基づいて符号化し、符号化結果Rmem−Doc−1を取得する。以降、Document−3の符号化結果Rmem−Doc−3とDocument−2中のX4、X5及びX6に基づいて符号化し、符号化結果Rmem−Doc−2を取得する。さらに、Document−2の符号化結果Rmem−Doc−2とDocument−1中のX1、X2及びX3に基づいて符号化し、符号化結果Rmem−Doc−1を取得する。
例えば、上記の図6を参照すると、ステップS202の実施時に、Lmem−Doc−1、Lmem−Doc−2とLmem−Doc−3は、それぞれドキュメントDocumentの3つのドキュメントセグメントDocument−1、Document−2、Document−3の左符号化特徴としてもよい。
その通り、上記の図7を参照すると、ステップS203の実施時に、Rmem−Doc−3、Rmem−Doc−2とRmem−Doc−1は、それぞれドキュメントDocumentの3つのドキュメントセグメントDocument−3、Document−2、Document−1の右符号化特徴としてもよい。
図3に示すように、当該双方向語義符号化モデルには、1個の特徴処理モジュールをさらに含み、ドキュメントセグメントの左符号化特徴と対応のドキュメントセグメントの右符号化特徴とをスプライシングして、対応のドキュメントセグメントの語義特徴を取得する。例えば、ドキュメントセグメントDocument−1について、Lmem−Doc−1とRmem−Doc−1とをスプライシングして、Document−1の語義特徴を取得し、ただしRmem−Doc−1の生成過程は、Document−2とDocument−3の右符号化結果Rmem−Doc−2とRmem−Doc−3とを参照したので、この形態によって得られたDocument−1の語義特徴はDocument−2中のX4−X6、及びDocument−3中のX7−X9を参照でき、さらに、得られたDocument−1の語義特徴にすべての前後文の語義情報を参照させると思われる。
その通り、ドキュメントセグメントDocument−2について、Lmem−Doc−2とRmem−Doc−2とをスプライシングして、Document−2の語義特徴を取得でき、ただし、Lmem−Doc−2の生成過程はDocument−1の左符号化結果Lmem−Doc−1を参照、Rmem−Doc−2の生成過程はDocument−3符号化結果Rmem−Doc−3を参照したので、この形態によって得られたDocument−2の語義特徴がDocument−1中のX1−X3、及びDocument−3中のX7−X9を参照でき、さらに得られたDocument−2の語義特徴にすべての前後文の語義情報を参照させると、思われる。
その通り、ドキュメントセグメントDocument−3について、Lmem−Doc−3とRmem−Doc−3とをスプライシングして、Document−3の語義特徴を取得でき、その中、Lmem−Doc−3の生成過程は、Document−2の左符号化結果Lmem−Doc−2を参照し、Lmem−Doc−2の生成過程は、Document−1符号化結果Lmem−Doc−1を参照したので、その形態によって得られたDocument−3の語義特徴はDocument−1中のX1−X3、及びDocument−2中のX4−X6を参照でき、さらに、得られたDocument−3の語義特徴にすべての前後文の語義情報を参照させると、思われる。
以上によると、図8に示された双方向語義符号化モデルの集中力メカニズム図が得られる。図8に示すように、左側は左符号化モジュールの集中力メカニズム図となり、上記の図5に示されたTransformer−XLモデルの集中力メカニズム図と同じである。右側は右符号化モジュールの集中力メカニズム図となり、左符号化モジュールの集中力メカニズム図と対称である。このように、両者をスプライシングしたことによって、最終に得られた個々のドキュメントセグメントの語義特徴に、共にすべての前後文の語義情報を十分に参照させ、動的に語義表現を行い、双方向語義符号化モデルの語義特徴表現効果を高くし、各ドキュメントセグメントの語義特徴の正確性を強くする。
本実施例の語義マッチ現場には、ドキュメントセグメントの語義特徴を取得してから、上記のステップS205及びステップS206を参照して、目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴和とマッチ待ちのサーチワードの語義特徴との類似度を算出でき、本実施例のマッチ待ちのサーチワードの語義特徴は、予めトレーニングされた双方向語義符号化モデルによって生成される。例えば本実施例のマッチ待ちのサーチワードはユーザの入力するサーチワードであってもよく、目標ドキュメントの区切りに用いられるプリセット長さに対して、そのマッチ待ちのサーチワードの長さは比較的に短いので、本実施例にマッチ待ちのサーチワードの語義特徴を生成する時に、マッチ待ちのサーチワードを区切りしない。マッチ待ちのサーチワードがそのまま双方向語義符号化モデルへ入力され、左符号化モジュールにより符号化されることで、当該マッチ待ちのサーチワードの左符号化特徴を取得する一方、右符号化モジュールによって符号化されることで当該マッチ待ちのサーチワードの右符号化特徴を取得でき、そのマッチ待ちのサーチワードの左符号化特徴と右符号化特徴とをスプライシングして、そのマッチ待ちのサーチワードの語義特徴を取得する。実際の利用には、ほかの形態を利用して当該マッチ待ちのサーチワードの語義特徴を取得してもよいが、ここでは詳細に説明しない。
以降、各ドキュメントセグメントの語義特徴とマッチ待ちのサーチワードの語義特徴との類似度に基づいて、目標ドキュメントの語義特徴として、マッチ待ちのサーチワードの語義特徴との類似度が最も大きいドキュメントセグメントの語義特徴を取得する。
さらに、語義マッチには、Documentベース中の各Documentを目標ドキュメントとして、本実施例の形態に従って、各Documentの語義特徴を取得し、その後、各Documentの語義特徴とマッチ待ちのサーチワードの語義特徴との類似度を算出して、類似度が最も大きいDocumentを候補Documentとして取得することで、語義マッチのサーチを実現できる。本実施例の形態は、用いられるDocumentの語義特徴の正確性が非常に高いので、語義マッチジョブの正確性を効率的に向上できる。
本実施例の語義特徴の生成方法は、双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールを利用ことによって、各ドキュメントセグメントの語義特徴にすべての前後文の語義情報を十分に参照させ、動的に語義表現を行い、更にドキュメントの語義特徴表現の正確性を効率的に向上できる。
図9は本開示の第3実施例による模式図である。図9は本実施例の提供された双方向語義符号化モデルのトレーニング方法であり、図9に示すように、本実施例の双方向語義符号化モデルのトレーニング方法は、具体的に以下のステップを含んでよい。
S901:トレーニングデータセットを採集する。
S902:採集したトレーニングデータセットに基づいて、左符号化モジュールと右符号化モジュールとを含む双方向語義符号化モデルをトレーニングする。
本実施例の双方向語義符号化モデルのトレーニング方法の実行本体は双方向語義符号化モデルのトレーニング装置であってもよく、当該双方向語義符号化モデルのトレーニング装置は電子実体であったり、ソフトウェア集積が用いられるアプリケーションであったり、左符号化モジュールと右符号化モジュールとを含む双方向語義符号化モデルをトレーニングするために用いられる。
つまり、本実施例の双方向語義符号化モデルは左符号化モジュールと右符号化モジュールという2部分の構成を含んでいる。本実施例の左符号化モジュールは入力された言葉情報を左から右への方向の符号化し、対応する左符号化特徴を取得すると理解される。右符号化モジュールは入力された言葉情報を右から左への方向の符号化し、対応する右符号化特徴を取得すると理解される。本実施例の双方向語義符号化モデルは、左符号化モジュールと右符号化モジュールを利用することで、入力された言葉情報の2つの方向の符号化を実現し、さらに最終に得られた符号化後の語義特徴をより正確にさせることはできる。具体的には、本実施例の双方向語義符号化モデルは、具体的に上記の図2に示された実施例の用いられた双方向語義符号化モデルを利用してもよく、細部は上記の実施例の相関記載を参照できるが、ここでは詳細に説明しない。
本実施例の双方向語義符号化モデルのトレーニング方法は、トレーニングデータセットを採集し、採集したトレーニングデータセットに基づいて、左符号化モジュールと右符号化モジュールを含む双方向語義符号化モデルをトレーニングすることによって、双方向語義符号化モデルを効率的にトレーニングすることは実現でき、さらに双方向語義符号化モデルの語義特徴表現に対する正確性を効率的に向上できる。
図10は本開示の第4実施例による模式図である。図10に示すように、本実施例の双方向語義符号化モデルのトレーニング方法は、上記の図9に記載の実施例を元に、より一層詳細に本願の技術案を説明する。図10に示すように、本実施例の双方向語義符号化モデルのトレーニング方法は、具体的に以下のステップを含んでもよい。
S1001:数条のトレーニングコーパスを含む第1トレーニングデータセットを採集する。
S1002:採集した第1トレーニングデータセット中の数条のトレーニングコーパスに基づいて、双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールがマスキング文字を予測する能力を学習するように、左符号化モジュール及び右符号化モジュールをマスキングトレーニングする。
S1003:数組のサンプル対を含む第2トレーニングデータセットを採集する。そのなか、各組のサンプル対には正サンプル対及び負サンプル対を含み、正サンプル対及び負サンプル対には、共同のトレーニングサーチワードを含んでいる。正サンプル対には正サンプルドキュメントをさらに含み、負サンプル対には負サンプルドキュメントをさらに含んでいる。
本実施例のサンプル対に含まれるトレーニングサーチワードは、ユーザのサーチワードQueryであってもよい。正サンプル対中の正サンプルドキュメントは、Queryと関連性を有するドキュメントDocumentであってもよい。一方、負サンプル対中の負サンプルドキュメントはQueryと関連性を有しないドキュメントDocumentであってもよい。本実施例のサンプル対は人工標記したり、ユーザクリックなどの行動ログによって自動に集めたりできる。Query−Documentが正サンプルを構成すると、QueryとDocumentにおける個々のセグメントはともに正例示であり、逆もまた然りである。
S1004:採集した第2トレーニングデータセット中の数組のサンプル対に基づいて、双方向語義符号化モデルが語義マッチの能力を学習するように、双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールに語義マッチジョブのトレーニングを行う。
説明すべきことは、本実施例において、双方向語義符号化モデルのトレーニングに上記のステップS1001〜S1002及びS1003〜S1004という2種類のトレーニングを同時に含むことを例として、S1003〜S1004の前にS1001−S1002のマスキングトレーニング過程を追加することで、双方向語義符号化モデルのトレーニング効果をより強くできる。好ましくは、実際の利用において、双方向語義符号化モデルのトレーニングは上記のS1003〜S1004のトレーニングステップだけを含んでもよい。
より好ましくは、本実施例のステップS1002には、具体的に以下の2つの形態を含んでよい。
第1の形態:採集した第1トレーニングデータセット中の数条のトレーニングコーパスに基づいて、それぞれ双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールをマスキングトレーニングする。
つまり、このようなトレーニング形態において、左符号化モジュール及び右符号化モジュールのパラメータは共有化されなく、それぞれ左符号化モジュール及び右符号化モジュールをマスキングトレーニングできる。
第2の形態:採集した第1トレーニングデータセット中の数条のトレーニングコーパスに基づいて、双方向語義符号化モデル中の左符号化モジュール或いは右符号化モジュールをマスキングトレーニングし、マスキングトレーニング後の左符号化モジュール或いは右符号化モジュールのパラメータが、マスキングトレーニングされない右符号化モジュール或いは左符号化モジュールに共有化されている。
このようなトレーニング形態には、左符号化モジュール及び右符号化モジュールのパラメータは共有化され、トレーニング過程において、そのうちの1個だけをマスキングトレーニングできる。その後、トレーニングしたパラメータが別の1個に共有化されている。
上記のどのトレーニング形態であっても、いずれもトレーニング後の双方向語義符号化モデルに、ドキュメントセグメントの語義特徴表現の正確性を効率的に向上させて、さらにドキュメントの語義特徴表現の正確性を効率的に向上させてうる。
例えば、採集した第1トレーニングデータセット中の数条のトレーニングコーパスに基づいて、双方向語義符号化モデル中の左符号化モジュールをマスキングトレーニングすることは、具体的に以下のステップを含んでいる。
(a1)各トレーニングコーパスについて、トレーニングコーパスをマスキング化するとともに、セグメント区切りし、トレーニングコーパスセグメントシーケンスを取得する。
例えば、上記の図1に示された実施例中の目標ドキュメントの区切り形態を参照して、トレーニングコーパスを区切りできる。本実施例のトレーニングコーパスは長テキストの形式であってもよい。その通り、区切り後のトレーニングコーパスセグメントシーケンスには、少なくとも2個のトレーニングコーパスセグメントを含んでもよく、上記の実施例の相関記載を参照し、ここでは詳細に説明しない。
なお、本実施例において、トレーニングコーパスのマスキングはランダムマスキングであってもよい。例えば、トレーニングコーパスがX1X2….X9のドキュメントDocumentを含むことを例とする。図11は本実施例の左符号化モジュール及び右符号化モジュールのマスキングトレーニング模式図である。図11に示すように、本実施例においてX2、X4、X8及びX9をマスキング化することを例として、セグメント長さを3とし、Documentをセグメント区切りしてから、Document−1、Document−2、Document−3という3つのドキュメントセグメントを取得し、ただし、Document−1がX1、[M]([M]はマスキング化した文字である)、X3を含み、Document−2が[M]、X5、X6を含み、Document−3がX7、[M]、[M]を含んでいる。
(b1)トレーニングコーパスセグメントシーケンス中の各トレーニングコーパスセグメントを、左から右の順に、左符号化モジュールへ順次に入力される。
(c1)左符号化モジュールが入力された各トレーニングセグメントに基づいて符号化し、符号化された特徴に基づいて復号化してから、予測された各トレーニングセグメント中のマスキング化した文字を取得する。
例えば、Document−1、Document−2、Document−3が順次に左符号化モジュールへ入力され、左符号化モジュールが先に、入力されたDocument−1中のX1、[M]、X3に基づいて符号化してLmem−Doc−1を取得し、符号化結果Lmem−Doc−1に基づいて復号化し、隠れた[M]を予測してもよい。その後、Lmem−Doc−1及び入力されるDocument−2中の[M]、X5、X6に基づいて符号化して、Lmem−Doc−2を取得し、符号化結果Lmem−Doc−2に基づいて復号化し、隠れた[M]を予測する。その通り、Document2の符号化したLmem−Doc−2及び入力されるDocument−3中のX7、[M]、[M]に基づいて符号化して、Lmem−Doc−3を取得し、符号化結果Lmem−Doc−3に基づいて復号化し、隠れた2個の[M]を予測する。
(d1)各トレーニングセグメント中の本当にマスキングした文字及び左符号化モジュールの予測マスキングの文字に基づいて、第1ロース関数を構築する。
本実施例のトレーニング過程において、毎回の予測の結果に基づいて第1ロース関数を構築してもよいし、1個のトレーニングコーパスの予測結果に基づいて、第1ロース関数全体を構築してもよい。例えば、構築した第1ロース関数が左符号化モジュールの予測するマスキングの文字と本当にマスキングした文字コードとの差分を表すために用いられ、たとえば両者の文字特徴が表現する差分を取ってできる。差分が小さいほど、両者が近接すると表れ、そうでなければ、両者の差分が大きくなっている。
例えば、1個のトレーニングコーパス中の複数個の予測結果に基づいて第1ロース関数を構築する時に、それぞれの予測するマスキング文字と対応する本当マスキング文字の文字特徴表現との平均差分或いは平均平方差などをとってよいが、ここでは限定されていない。
(e1)第1ロース関数が収束するか否かを検出し、収束しないときに、ステップ(f1)を実行し、収束すると、ステップ(g1)を実行する。
(f1)左符号化モジュールのパラメータを調整して、第1ロース関数が収束する傾向になりさせ、ステップ(a1)へ返して、次のトレーニングコーパスを選択して引き続きトレーニングを行う。
(g1)連続プリセット回数のトレーニングに第1ロース関数が常に収束するか否かを、検出したり、或いはトレーニング回数がプリセットしきい値に達したか否かを検出したりし、そうであれば、左符号化モジュールのパラメータを特定して、さらに左符号化モジュールを特定して終了し、そうでなければ、(a1)へ返して、次のトレーニングコーパスを選択して、引き続きトレーニングを行う。
ステップ(a1)〜(f1)は左符号化モジュールのトレーニング過程となる。
ステップ(g1)は左符号化モジュールのトレーニング締切り条件である。本実施例において、トレーニング締切り条件には2種類のケースを含むことを例として、第1のトレーニング締切り条件では、連続プリセット回数のトレーニングに第1ロース関数が常に収束するか否かというものとなり、常に収束すると、当該左符号化モジュールがもうトレーニングし済んだと考える。そのなか、この連続プリセット回数は実際な必要に応じて設けられ、例えば連続的な80回、100回、200回或いはほかの正整数であってもよく、ここでは限定されていない。第2のトレーニング締切り条件では、第1ロース関数が常に収束する傾向になるが、永遠に収束に達すことができないことを防止するケースとなっている。このときに、1個のトレーニングの最大回数が設置され、トレーニング回数が最大トレーニング回数に達した時に、左符号化モジュールがもうトレーニングし済んだと考えることはできる。例えば実際な必要に応じて、プリセットしきい値は百万オーダー或いはほかの更大オーダーの数値と設置され、ここでは限定されていない。
本実施例のマスキングトレーニング過程において、Transformersに基づく双方向符号化表現(Bidirectional Encoder Representation from Transformers:BERT)モデルのマスキング言語モデル(Masked Language Model;MLM)を使用したり、或いはXLNetモデルの配列言語モデル(Permutation Language Model;PLM)メカニズムを使用したりして、学習でき、細部は相関技術を参照できるが、ここでは詳細に説明しない。しかし、本願の左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルのマスキングトレーニングは、伝統のBERT 及びXLNetのマスキングと異なっており、セグメント内の学習のみに基づくものとなったが、本実施例の双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールのマスキングトレーニングは、モデルに前文或いは後文の内容に基づいて学習でき、マスキングトレーニングの学習効果をより向上できる。
上記の左符号化モジュールに対するトレーニングによれば、引き続き左符号化処理のセグメントを正確に語義特徴表現するように、トレーニング後の左符号化モジュールに正確にマスキング情報を予測させることは可能となる。
例えば、採集した第1トレーニングデータセット中の数条のトレーニングコーパスに基づいて、双方向語義符号化モデル中の右符号化モジュールをマスキングトレーニングすることは、具体的に以下のステップを含んでいる。
(a2)各トレーニングコーパスについて、トレーニングコーパスをマスキング化してセグメント区切りし、トレーニングコーパスセグメントシーケンスを取得する。ただし、レーニングコーパスセグメントシーケンスには少なくとも2個のトレーニングコーパスセグメントを含んでいる。
(b2)トレーニングコーパスセグメントシーケンス中の各トレーニングコーパスセグメントが、右から左への順に、右符号化モジュールに順次に入力される。
(c2)右符号化モジュールが入力された各トレーニングセグメントに基づいて符号化し、符号化后の特徴に基づいて復号化してから、各トレーニングセグメント中のマスキング化した文字を予測して取得する。
図11に示すように、左符号化モジュールと異なるのは、Document−3、Document−2、Document−1が順次に右符号化モジュールに入力され、右符号化モジュールが先に、入力されたDocument−3中のX7、[M]、[M]に基づいて符号化して、Rmem−Doc−3を取得し、また符号化結果Rmem−Doc−3に基づいて復号化して、隠れた2個の[M]を予測する。そのあと、Rmem−Doc−3及び入力されたDocument−2中の[M]、X5、X6に基づいて符号化して、Rmem−Doc−2を取得し、また符号化結果Rmem−Doc−2に基づく復号化し、隠れた[M]を予測する。その通り、Document2の符号化後のRmem−Doc−2及び入力されたDocument−1中のX1、[M]、X3に基づいて符号化してRmem−Doc−1を取得し、また符号化結果Rmem−Doc−1に基づいて復号化して、隠れた[M]を予測する。
(d2)各トレーニングセグメント中の本当にマスキングした文字と右符号化モジュールの予測したマスキングの文字に基づいて、第2ロース関数を構築する。
その中、第2ロース関数の構築過程と上記の第1ロース関数の構築過程とは類似であるので、細部は上記の第1ロース関数の構築過程を参照できるが、ここでは詳細に説明しない。
(e2)第2ロース関数が収束するか否かを検出し、収束しない時にステップ(f2)を実行し、収束する時にステップ(g2)を実行する。
(f2)右符号化モジュールのパラメータを調整することで、第2ロース関数が収束する傾向になさせ、ステップ(a2)へ返して次のトレーニングコーパスを選択して、引き続きトレーニングを行う。
(g2)連続プリセット回数のトレーニングに第2ロース関数が常に収束か否か、或いはトレーニング回数がプリセットしきい値に達したか否かを検出する。そうであれば、右符号化モジュールのパラメータを特定し、さらに右符号化モジュールを特定して終了する。そうでなければ、(a2)へ返して、次のトレーニングコーパスを選択して引き続きトレーニングする。
ステップ(a2)−(f2)は右符号化モジュールのトレーニング過程となる。
ステップ(g2)は右符号化モジュールのトレーニング締切り条件であり、上記のステップ(g1)に記載の左符号化モジュールのトレーニング締切り条件に類似し、細部は上記の相関記載を参照できるが、ここでは詳細に説明しない。
上記の右符号化モジュールに対するトレーニングによれば、後続的に右符号化処理のセグメントを正確に語義特徴表現するように、トレーニングした右符号化モジュールに正確にマスキング情報を予測することができる。
より好ましくは、本実施例のステップS1004は、具体的に以下のステップを含んでもよい。
(a3)各組のサンプル対中のトレーニングサーチワードに基づいて、左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルで、トレーニングサーチワードの語義特徴を取得する。
例えば、このステップは具体的に、実行の時に、毎組のサンプル対に対して、左符号化モジュールがサンプル対中のトレーニングサーチワードを符号化することで得られたトレーニングサーチワードの左符号化特徴を取得する。また、右符号化モジュールがそのトレーニングサーチワードを符号化することで得られたトレーニングサーチワードの右符号化特徴を取得する。最後、トレーニングサーチワードの左符号化特徴とトレーニングサーチワードの右符号化特徴とをスプライシングして、トレーニングサーチワードの語義特徴を取得する。
(b3)各組のサンプル対中の正サンプルドキュメントに基づいて、左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルで、正サンプルドキュメントの語義特徴を取得する。
(c3)各組のサンプル対中の負サンプルドキュメントに基づいて、左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルで、負サンプルドキュメントの語義特徴を取得する。
(d3)第1語義類似度と第2語義類似度との差分がプリセットしきい値よりも大きいように、トレーニングサーチワードの語義特徴と正サンプルドキュメントの語義特徴との第1語義類似度、及びトレーニングサーチワードの語義特徴と負サンプルドキュメントの語義特徴との第2語義類似度に基づいて、第3ロース関数を構築する。
本実施例において、第3ロース関数を構築する目的は、トレーニングサーチワードの語義特徴と正サンプルドキュメントの語義特徴との第1語義類似度を十分に大きくさせる一方、トレーニングサーチワードの語義特徴と負サンプルドキュメントの語義特徴との第2語義類似度を十分に小さくさせることであり、両者の格差を制御するために、プリセットしきい値よりも大きくなるように、第1語義類似度と第2語義類似度との差分を設置することで、当該プリセットしきい値が十分に大きい時に、第1語義類似度が十分に大きくなる一方、第2語義類似度が十分に小さくなることを確保できる。
実際の利用には、異なるトレーニング考案にて、異なる第3ロース関数を更に設置するが、ここでは1つずつ例を挙げて説明しない。
(e3)第3ロース関数が収束するか否かを検出する。収束しない時に、ステップ(f3)を実行する。収束する時に、ステップ(g3)を実行する。
(f3)双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールのパラメータを調整して、第3ロース関数が収束する傾向になさせる。ステップ(a3)へ返して、次の組のサンプル対を選択して引き続きトレーニングする。
本実施例において、双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールのパラメータを調整することは、2種類の形態を含んでいる。
第1の形態:左符号化モジュール及び右符号化モジュールのパラメータは共有化され、その時に調整した左符号化モジュール及び右符号化モジュールのパラメータは常に同期している。
第2の形態:左符号化モジュール及び右符号化モジュールのパラメータは共有化されておらず、そのときに、左符号化モジュール及び右符号化モジュールのパラメータを随時調整でき、両者のパラメータは同期しなくてよく、第3ロース関数が収束に偏らせればよい。
どのようなトレーニング形態を利用しても、いずれもトレーニングによって得られた双方向語義符号化モデルが語義特徴表現を行う正確性を効率的に保証できる。
(g3)連続的に回数をプリセットしたトレーニングに第3ロース関数が常に収束するか否か、或いはトレーニング回数がプリセットしきい値に達したか否かを検出する。収束すると、左符号化モジュール及び右符号化モジュールのパラメータを特定し、さらに双方向語義符号化モデルを特定して終了する。そうでければ、(a3)へ返して、次の1組のサンプル対を選択し、引き続きトレーニングする。
ステップ(a3)〜(f3)は双方向語義符号化モデルのトレーニング過程となる。
ステップ(g3)は双方向語義符号化モデルのトレーニング締切り条件であり、上記のステップ(g1)に記載の左符号化モジュールのトレーニング締切り条件及びステップ(g2)に記載の右符号化モジュールのトレーニング締切り条件と類似しており、細部は上記の相関記載を参照できるが、ここでは詳細に説明しない。
上記の双方向語義符号化モデルに対するトレーニングは、その双方向語義符号化モデルに語義特徴表現をさせる時に、前後文のすべての情報を十分に考慮でき、双方向語義符号化モデルの語義表現の正確性を効率的に向上しうる。
より好ましくは、上記の実施例中のステップ(b3)は、具体的に実現する時に以下のステップを含んでよい。
(a4)各組のサンプル対中の正サンプルドキュメントに基づいて、正サンプルドキュメントをセグメント区切りして、正サンプルドキュメントセグメントシーケンスを取得する。
具体的には、上記の実施例中の目標ドキュメントのセグメント区切りについては同様の原理で実現されるので、ここでは詳細に説明しない。
(b4)正サンプルドキュメントセグメントシーケンス中の各正サンプルドキュメントセグメントが、左から右への順に、左符号化モジュールに順次に入力され、左符号化モジュールが入力に基づく各正サンプルドキュメントセグメントを取得し、各正サンプルドキュメントセグメントの左符号化特徴が得られた。
例えば、上記の図6に示された実施例の左符号化モジュールの動作原理を参照でき、各正サンプルドキュメントセグメントの左符号化特徴の取得を実現できる。
(c4)正サンプルドキュメントセグメントシーケンス中の各正サンプルドキュメントセグメントが、右から左への順に、右符号化モジュールに順次に入力され、右符号化モジュールの入力に基づく各正サンプルドキュメントセグメントを取得し、各正サンプルドキュメントセグメントの右符号化特徴が得られた。
例えば、上記の図7に示された実施例の右符号化モジュールの動作原理を参照でき、各正サンプルドキュメントセグメントの右符号化特徴の取得を実現できる。
(d4)正サンプルドキュメント中の各正サンプルドキュメントセグメントについて、正サンプルドキュメントセグメントの左符号化特徴と正サンプルドキュメントセグメントの右符号化特徴とをスプライシングして、正サンプルドキュメントセグメントの語義特徴を取得する。
上記の実施例の相関記載を参照すれば、各正サンプルドキュメントセグメントの左符号化特徴と右符号化特徴とをスプライシングして、当該正サンプルドキュメントセグメントの語義特徴を取得することによって、得られた当該正サンプルドキュメントセグメントの語義特徴に正サンプルドキュメント中のすべての前後文情報を十分に参照させ、さらに正サンプルドキュメントセグメントの語義特徴をより一層正確的な表現とさせることは可能となる。
(e4)正サンプルドキュメント中の各正サンプルドキュメントセグメントの語義特徴及びトレーニングサーチワードの語義特徴に基づいて、正サンプルドキュメントの語義特徴として、トレーニングサーチワードの語義特徴との類似度が最も大きい正サンプルドキュメントセグメントの語義特徴を取得する。
より好ましくは、ステップ(b4)は具体的に実現する時に以下のステップを含んでもよい。
(a5)各組のサンプル対中の負サンプルドキュメントに基づいて、負サンプルドキュメントをセグメント区切りして、負サンプルドキュメントセグメントシーケンスを取得する。
その通り、上記の実施例中の目標ドキュメントのセグメント区切りをも参照でき、その実現原理も同じであり、ここでは詳細に説明しない。
(b5)負サンプルドキュメントセグメントシーケンス中の各負サンプルドキュメントセグメントを、左から右への順に、左符号化モジュール中に順次に入力されており、左符号化モジュールの入力に基づく各負サンプルドキュメントセグメントを取得し、各負サンプルドキュメントセグメントの左符号化特徴が得られた。
(c5)負サンプルドキュメントセグメントシーケンス中の各負サンプルドキュメントセグメントを、右から左への順に、右符号化モジュール中に順次に入力されており、右符号化モジュールの入力に基づく各負サンプルドキュメントセグメントを取得し、各負サンプルドキュメントセグメントの右符号化特徴が得られた。
(d5)負サンプルドキュメント中の各負サンプルドキュメントセグメントについて、負サンプルドキュメントセグメントの左符号化特徴と正サンプルドキュメントセグメントの右符号化特徴とをスプライシングして、負サンプルドキュメントセグメントの語義特徴を取得する。
(e5)負サンプルドキュメント中の各負サンプルドキュメントセグメントの語義特徴及びトレーニングサーチワードの語義特徴に基づいて、負サンプルドキュメントの語義特徴として、トレーニングサーチワードの語義特徴との類似度が最も大きい負サンプルドキュメントセグメントの語義特徴を取得する。
また、ステップ(a5)〜(e5)の負サンプルドキュメントの語義特徴を取得する過程は、上記のステップ(a4)〜(e4)の正サンプルドキュメントの語義特徴を取得する過程と類似しており、具体的な実現する過程はステップ(a4)〜(e4)の実現形態を参照できるが、ここでは詳細に説明しない。
本実施例の双方向語義符号化モデルのトレーニング方法は、上記のトレーニング形態を用いて、双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールにてトレーニングすることで、トレーニングの双方向語義符号化モデルに、語義特徴表現をする時に、前後文情報を十分に参照させ、得られた語義特徴により正確とさせることができる。
図12は本開示の第5実施例による模式図である。図12に示すように、本実施例は、
目標ドキュメントをセグメント区切りして、目標ドキュメントのセグメントシーケンスを取得するための区切りモジュール1201と、
予めトレーニングされた双方向語義符号化モデルで、目標ドキュメントのセグメントシーケンスにおける各ドキュメントセグメントの語義特徴を生成するための生成モジュール1202と、
目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、目標ドキュメントの語義特徴を取得するための取得モジュール1203と、を含む語義特徴の生成装置1200を提供している。
本実施例の語義特徴の生成装置1200は、上記のモジュールを利用することで、語義特徴の生成の実現原理及び技術効果を実現でき、上記の相関方法実施例の実現と同じであり、細部は上記の相関方法実施例の記載を参照できるが、ここでは詳細に説明しない。
図13は本開示の第6実施例による模式図である。図13に示すように、本実施例の語義特徴の生成装置は、上記の図12に記載の実施例を元に、より一層詳細に本願の技術案を説明する。
図13に示すように、本実施例の語義特徴の生成装置では、生成モジュール1202は、
双方向語義符号化モデル中の左符号化モジュールで、目標ドキュメントのセグメントシーケンスにおける各ドキュメントセグメントの左符号化特徴を取得するための第1符号化手段12021と、
双方向語義符号化モデル中の右符号化モジュールで、目標ドキュメントのセグメントシーケンスにおける各ドキュメントセグメントの右符号化特徴を取得するための第2符号化手段12022と、
目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントについて、対応のドキュメントセグメントの左符号化特徴と対応のドキュメントセグメントの右符号化特徴とをスプライシングして、対応のドキュメントセグメントの語義特徴を取得するためのスプライシング手段12023とを含んでいる。
より好ましくは、本実施例の語義特徴の生成装置では、取得モジュール1203は、
目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、マッチ待ちのサーチワードの語義特徴を参照して、目標ドキュメントの語義特徴を取得するために用いられる。
より好ましくは、図13に示すように、本実施例の語義特徴の生成装置では、取得モジュール1203は、
目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴とマッチ待ちのサーチワードの語義特徴との類似度を算出するための算出手段12031と、
各ドキュメントセグメントの語義特徴とマッチ待ちのサーチワードの語義特徴との類似度に基づいて、目標ドキュメントの語義特徴として、マッチ待ちのサーチワードの語義特徴との類似度が最も大きいドキュメントセグメントの語義特徴を取得するための取得手段12032と、を含んでいる。
本実施例の語義特徴の生成装置1200は、上記のモジュールを利用することで、語義特徴の生成の実現原理及び技術効果を実現でき、上記の相関方法実施例の実現と同じであり、細部は上記の相関方法実施例の記載を参照できるが、ここでは詳細に説明しない。
図14は本開示の第7実施例による模式図である。図14に示すように、本実施例は、
トレーニングデータセットを採集するための採集モジュール1401と、
採集したトレーニングデータセットに基づいて、左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルをトレーニングするためのトレーニングモジュール1402と、を含む双方向語義符号化モデルのトレーニング装置1400を提供している。
本実施例の双方向語義符号化モデルのトレーニング装置1400は、上記のモジュールを利用することで、双方向語義符号化モデルのトレーニングの実現原理及び技術効果を実現でき、上記の相関方法実施例の実現と同じであり、細部は上記の相関方法実施例の記載を参照できるが、ここでは詳細に説明しない。
図15は本開示の第8実施例による模式図である。図15に示すように、本実施例の双方向語義符号化モデルのトレーニング装置は上記の図14に記載の実施例を元に、より一層詳細に本願の技術案を説明する。
例えば、本実施例の採集モジュール1401は、数条のトレーニングコーパスを含む第1トレーニングデータセットを採集するために用いられる。
より好ましくは、本実施例のトレーニングモジュール1402は、
採集した第1トレーニングデータセット中の数条のトレーニングコーパスに基づいて、双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールをマスキングトレーニングすることで、左符号化モジュール及び右符号化モジュールにマスキング文字の予測能力を学習させるために用いられる。
より好ましくは、本実施例のトレーニングモジュール1402は、
採集した第1トレーニングデータセット中の数条のトレーニングコーパスに基づいて、それぞれ双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールをマスキングトレーニングする、或いは
採集した第1トレーニングデータセット中の数条のトレーニングコーパスに基づいて、双方向語義符号化モデル中の左符号化モジュールや右符号化モジュールをマスキングトレーニングし、マスキングトレーニング後の左符号化モジュールや右符号化モジュールのパラメータが、マスキングトレーニングされない右符号化モジュールや左符号化モジュールに共有化されるために用いられる。
より好ましくは、図15に示すように、本実施例の双方向語義符号化モデルのトレーニング装置では、トレーニングモジュール1402は、
各トレーニングコーパスに対して、トレーニングコーパスをマスキングしてセグメント区切りし、トレーニングコーパスセグメントシーケンスを取得するための前処理手段14021と、
トレーニングコーパスセグメントシーケンス中の各トレーニングコーパスセグメントが、左から右への順に、左符号化モジュールに順次に入力されるための入力手段14022と、
左符号化モジュールが入力された各トレーニングセグメントに基づいて符号化して、符号化後の特徴に基づいて復号化してから、各トレーニングセグメント中のマスキング後の文字を予測して取得するための予測手段14023と、
各トレーニングセグメント中の本当にマスキングした文字及び左符号化モジュールの予測のマスキングした文字に基づいて、第1ロース関数を構築するための第1構築手段14024と、
第1ロース関数が収束するか否かを検出するための第1検出手段14025と、
第1ロース関数が収束しない時に、第1ロース関数が収束する傾向になるように、左符号化モジュールのパラメータを調整するための第1調整手段14026と、を含んでいる。
より好ましくは、入力手段14022は、さらに、トレーニングコーパスセグメントシーケンス中の各トレーニングコーパスセグメントが右から左への順に、右符号化モジュールに順次に入力されるために用いられる。
予測手段14023は、さらに、右符号化モジュールが入力された各トレーニングセグメントに基づいて符号化し、符号化後の特徴に基づいて復号化してから、各トレーニングセグメント中のマスキングした文字を予測して取得するために用いられる。
第1構築手段14024は、さらに、各トレーニングセグメント中の本当にマスキングした文字及び右符号化モジュールの予測のマスキングした文字に基づいて、第2ロース関数を構築するために用いられる。
第1検出手段14025は、さらに、第2ロース関数が収束するか否かを検出するために用いられる。
第1調整手段14026は、更に、第2ロース関数が収束しない時に、第2ロース関数が収束する傾向になるように、右符号化モジュールのパラメータを調整するために用いられる。
より好ましくは、本実施例の双方向語義符号化モデルのトレーニング装置1400では、採集モジュール1401は、さらに、
数組のサンプル対を含む第2トレーニングデータセットを採集するために用いられ、各組のサンプル対には正サンプル対と負サンプル対とを含んでおり、正サンプル対と負サンプル対には共通のトレーニングサーチワードを含んでおり、正サンプル対には正サンプルドキュメントをさらに含む一方、負サンプル対には負サンプルドキュメントをさらに含んでいる。
より好ましくは、本実施例の双方向語義符号化モデルのトレーニング装置1400では、トレーニングモジュール1402は、さらに、具体的に
採集した第2トレーニングデータセット中の数組のサンプル対に基づいて、双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールを語義マッチジョブのトレーニングし、双方向語義符号化モデルに語義マッチの能力を学習させる、ために用いられる。
より好ましくは、図15に示すように、本実施例の双方向語義符号化モデルのトレーニング装置では、トレーニングモジュール1402は、
各組のサンプル対中のトレーニングサーチワードに基づいて、左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルで、トレーニングサーチワードの語義特徴を取得するための第1特徴取得手段1402aと、
各組のサンプル対中の正サンプルドキュメントに基づいて、左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルで、正サンプルドキュメントの語義特徴を取得するための第2特徴取得手段1402bと、
各組のサンプル対中の負サンプルドキュメントに基づいて、左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルで、負サンプルドキュメントの語義特徴を取得するための第3特徴取得手段1402cと、
トレーニングサーチワードの語義特徴と正サンプルドキュメントの語義特徴との第1語義類似度、及びトレーニングサーチワードの語義特徴と負サンプルドキュメントの語義特徴との第2語義類似度に基づいて、第3ロース関数を構築するための第2構築手段1402dと、
第3ロース関数が収束するか否かを検出するための第2検出手段1402eと、
第3ロース関数が収束しなければ、第3ロース関数が収束する傾向になるように、双方向語義符号化モデル中の左符号化モジュール及び右符号化モジュールのパラメータを調整するための第2調整手段1402fと、をさらに含んでいる。
より好ましくは、第1特徴取得手段1402aは、
左符号化モジュールのトレーニングサーチワードを符号化することで得られたトレーニングサーチワードの左符号化特徴を取得し、
右符号化モジュールのトレーニングサーチワードを符号化することで得られたトレーニングサーチワードの右符号化特徴を取得し、
トレーニングサーチワードの左符号化特徴とトレーニングサーチワードの右符号化特徴とをスプライシングして、トレーニングサーチワードの語義特徴を取得するために用いられる。
より好ましくは、第2特徴取得手段1402bは、
各組のサンプル対中の正サンプルドキュメントに基づいて、正サンプルドキュメントをセグメント区切りして、正サンプルドキュメントセグメントシーケンスを取得し、
正サンプルドキュメントセグメントシーケンス中の各正サンプルドキュメントセグメントが、左から右への順に、左符号化モジュールに順次に入力され、左符号化モジュールの入力に基づく各正サンプルドキュメントセグメントを取得して、各正サンプルドキュメントセグメントの左符号化特徴を取得し、
正サンプルドキュメントセグメントシーケンス中の各正サンプルドキュメントセグメントが、右から左への順に、右符号化モジュールに順次に入力され、右符号化モジュールの入力に基づく各正サンプルドキュメントセグメントを取得して、各正サンプルドキュメントセグメントの右符号化特徴を取得し、
正サンプルドキュメント中の各正サンプルドキュメントセグメントについて、正サンプルドキュメントセグメントの左符号化特徴と正サンプルドキュメントセグメントの右符号化特徴とをスプライシングして、正サンプルドキュメントセグメントの語義特徴を取得し、
正サンプルドキュメント中の各正サンプルドキュメントセグメントの語義特徴及びトレーニングサーチワードの語義特徴に基づいて、正サンプルドキュメントの語義特徴として、トレーニングサーチワードの語義特徴との類似度が最も大きい正サンプルドキュメントセグメントの語義特徴を取得する、ために用いられる。
より好ましくは、第3特徴取得手段1402bは、
各組のサンプル対中の負サンプルドキュメントに基づいて、負サンプルドキュメントをセグメント区切りして、負サンプルドキュメントセグメントシーケンスを取得し、
負サンプルドキュメントセグメントシーケンス中の各負サンプルドキュメントセグメントが、左から右への順に、左符号化モジュールに順次に入力され、左符号化モジュールの入力に基づく各負サンプルドキュメントセグメントを取得して、各負サンプルドキュメントセグメントの左符号化特徴を取得し、
負サンプルドキュメントセグメントシーケンス中の各負サンプルドキュメントセグメントが、右から左への順に、右符号化モジュールに順次に入力され、右符号化モジュールの入力に基づく各負サンプルドキュメントセグメントを取得して、各負サンプルドキュメントセグメントの右符号化特徴を取得し、
負サンプルドキュメント中の各負サンプルドキュメントセグメントについて、負サンプルドキュメントセグメントの左符号化特徴と正サンプルドキュメントセグメントの右符号化特徴とをスプライシングして、負サンプルドキュメントセグメントの語義特徴を取得し、
負サンプルドキュメント中の各負サンプルドキュメントセグメントの語義特徴及びトレーニングサーチワードの語義特徴に基づいて、負サンプルドキュメントの語義特徴として、トレーニングサーチワードの語義特徴との類似度が最も大きい負サンプルドキュメントセグメントの語義特徴を取得するために用いられる。
実際の利用に、上記のトレーニングモジュール1402には前処理手段14021−第1調整手段14026だけを含んでもよいし、第1特徴取得手段1402a−第2調整手段1402fだけを含んでもよいし、或いは両者とも同時に含んでもよい。図14に示された実施例では同時に含むことを例としている。
本実施例の双方向語義符号化モデルのトレーニング装置1400は、上記のモジュールを利用することで、双方向語義符号化モデルのトレーニングの実現原理及び技術効果を実現でき、上記の相関方法実施例の実現と同じであり、細部は上記の相関方法実施例の記載を参照できるが、ここでは詳細に説明しない。
本開示の実施例によると、本開示はさらに、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品を提供している。
図16には本開示の実施例を実施するための電子機器800の示意性框図が示された。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータと、デスクトップコンピュータと、ワークベンチと、サーバと、ブレードサーバと、大型コンピュータと、他の適宜なコンピュータとを表す旨である。電子機器は、様々な形式の移動装置、例えば、パーソナル・デジタル・アシスタントと、携帯電話と、スマートフォンと、ウェアラブル機器と、他の類似する計算装置とを表してもよい。本文に示す部品と、それらの接続及び関係と、それらの機能とは単に例示であり、本文で説明した及び/又は要求した本開示の実現を限定することを意図しない。
図16に示すように、電子機器1600は、リードオンリーメモリ(ROM)1602に記憶されたコンピュータプログラム又は記憶手段1608からランダムアクセスメモリ(RAM)1603にロードされたコンピュータプログラムに基づいて、各種の適宜な動作及び処理を実行することができる計算手段1601を含んでいる。RAM 1603には、電子機器1600の操作のために必要とする各種プログラム及びデータが記憶されてもよい。計算手段1601と、ROM 1602と、RAM 1603とは、互いにバス1604を介して接続される。入力・出力(I/O)インターフェース1605もバス1604に接続されている。
電子機器1600における複数の部品は、I/Oインターフェース1605に接続され、キーボード、マウスなどの入力手段1606と、各種タイプのディスプレイ、スピーカなどの出力手段1607と、磁気ディスク、光ディスクなどの記憶手段1608と、ネットワークカード、モデム、無線通信送受信機などの通信手段1609とを含む。通信手段1609は、機器1600がインターネットというコンピュータネットワーク及び/又は各種電気通信ネットワークを介して他の機器と情報・データをやりとりすることを可能にする。
計算手段1601は、各種の処理及び計算能力を有する汎用及び/又は専用処理コンポーネントであってもよい。計算手段1601の幾つかの例示は、中央処理手段(CPU)と、図形処理手段(GPU)と、各種の専用の人工知能(AI)計算チップと、各種の機器学習モデルアルゴリズムを実行する計算ユニットと、デジタル信号プロセッサ(DSP)と、任意の適宜なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限られない。計算手段1601は、前文で説明した各方法及び処理、例えば語義特徴の生成方法或いは双方向語義符号化モデルのトレーニング方法を実行する。例えば、幾つかの実施例において、語義特徴の生成方法或いは双方向語義符号化モデルのトレーニング方法は、コンピュータソフトウェアプログラムとして実現されてもよく、それが機器読取可能な媒体、例えば記憶手段1608に有形的に含まれる。幾つかの実施例において、コンピュータプログラムの一部又は全部がROM 1602及び/又は通信手段1609を介して電子機器1600上にロード及び/又はインストールされ得る。コンピュータプログラムがRAM 1603にロードされ、計算手段1601によって実行される時に、前文で説明した語義特徴の生成方法或いは双方向語義符号化モデルのトレーニング方法の1つ又は複数のステップを実行することができる。選択可能的に、他の実施例において、計算手段1601が他の任意の適宜な方式を介して(例えば、ファームウェアを介して)語義特徴の生成方法或いは双方向語義符号化モデルのトレーニング方法を実行するように配置される。
本文で以上に説明したシステム及び技術の各種実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システム・オン・チップのシステム(SOC)、負荷プログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組合せで実現され得る。これらの各種実施形態は、1つ又は複数のコンピュータプログラムで実行されることを含んでもよく、この1つ又は複数のコンピュータプログラムが、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上に実行及び/又は解釈されてもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであり、記憶システムと、少なくとも1つの入力装置と、少なくとも1つの出力装置とから、データ及びコマンドを受信し、データ及びコマンドをこの記憶システムと、この少なくとも1つの入力装置と、この少なくとも1つの出力装置とに転送してもよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組合せによって書かれてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラへ供給されて、プログラムコードがプロセッサ又はコントローラによって実行される時にフローチャート及び/又はブロック図に規定された機能・操作が実施されるようにしてもよい。プログラムコードは、完全に機器上に実行されてもよいし、部分的に機器上に実行されてもよく、独立ソフトウェアパッケージとして部分的に機器上に実行され且つ部分的に遠隔機器上に実行され、或いは完全に遠隔機器又はサーバ上に実行される。
本開示の前後文において、機器読取可能な媒体は、有形的な媒体であってもよく、それが、コマンド実行システム、装置又は機器に使用され、又はコマンド実行システム、装置又は機器と組合せて使用されるプログラムを含み、或いは記憶してもよい。機器読取可能な媒体は、機器読取可能な信号媒体や、機器読取可能な記憶媒体であってもよい。機器読取可能な媒体は、電子、磁気的、光学的、電磁気的や赤外のもの、又は半導体システム、装置又は機器、或いは上記内容の任意の適宜な組合せを含むが、これらに限られない。機器読取可能な記憶媒体のより具体的な例示は、1つ又は複数のラインによる電気接続、携帯コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、ファイバ、携帯コンパクトディスクリードオンリーメモリ(CD−ROM)、光学的記憶デバイス、磁気的記憶デバイス、又は上記内容の任意の適宜な組合せを含む。
ユーザとのインタラクティブを提供するために、コンピュータにおいて、ここで説明したシステム及び技術を実施してもよく、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及び指向装置(例えば、マウス又はトラックボール)とを有し、ユーザは、このキーボード及びこの指向装置によって、入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクティブを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式のセンサーフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(声入力、語音入力、又は触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明したシステム及び技術は、バックグラウンド部品を含む計算システム(例えば、データサーバとする)、又はミドルウェア部品を含む計算システム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含む計算システム(例えば、グラフィカル・ユーザー・インターフェース又はネットワークブラウザを有するユーザコンピュータ、ユーザはこのグラフィカル・ユーザー・インターフェース又はこのネットワークブラウザを介してここで説明したシステム及び技術の実施形態とインタラクティブすることができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、或いはフロントエンド部品の任意の組合せを含む計算システムで実施されてもよい。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介してシステムの部品を相互に接続してもよい。通信ネットワークの例示は、ローカルエリアネットワーク(LAN)と、広域ネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークを含んでいる。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバとは、一般的に互いに離れて、且つ通常に通信ネットワークを介してインタラクティブする。相応するコンピュータで実行されるとともに、互いにクライアント−サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係を形成する。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバやクラウドホストとも呼ばれ、クラウドコンピューティングサービス系統における1種類のホスト製品であり、伝統の物理ホストとVPS(「Virtual Private Sever」、或いは「VPS」と単に呼ばれる)サービスに存在する、管理難しさが大きく、業務拡張性が弱い不具合を解決するために設けられた。サーバは分散システムのサーバであってもよいし、ブロックチェーンと組み合せたサーバであってもよい。
上記に示した様々な形式のフローを利用して、ステップを並び替え、追加又は削除することができると理解すべきである。例えば、本開示に記載された各ステップは、並行に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本開示が開示した技術案が所望する結果を実現できる限り、本文はここで限定しない。
上述した具体的な実施形態は、本開示の保護範囲に対する限定を構成しない。当業者は、設計要求や他の要因に応じて、さまざまな修正、組合、サブ組合及び置換を行うことができると理解すべきである。本開示の趣旨及び原則の範囲内になされた任意の修正、等価な置換、改進などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (35)

  1. 目標ドキュメントをセグメント区切りすることで、目標ドキュメントのセグメントシーケンスを取得することと、
    予めトレーニングされた双方向語義符号化モデルで、前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成することと、
    前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントの語義特徴に基づいて、前記目標ドキュメントの語義特徴を取得することとを含む、
    語義特徴の生成方法。
  2. 予めトレーニングされた双方向語義符号化モデルで、前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成することは、
    前記双方向語義符号化モデル中の左符号化モジュールで、前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの左符号化特徴を取得することと、
    前記双方向語義符号化モデル中の右符号化モジュールで、前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの右符号化特徴を取得することと、
    前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントに対して、対応の前記ドキュメントセグメントの左符号化特徴と対応の前記ドキュメントセグメントの右符号化特徴をスプライシングして、対応の前記ドキュメントセグメントの語義特徴を取得することと、を備えている、
    請求項1に記載の方法。
  3. 前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントの語義特徴に基づいて、前記目標ドキュメントの語義特徴を取得することは、
    前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントの語義特徴に基づいて、マッチ待ちのサーチワードの語義特徴を参照して、前記目標ドキュメントの語義特徴を取得することを備えている、
    請求項1又は2に記載の方法。
  4. 前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴に基づいて、マッチ待ちのサーチワードの語義特徴を参照して、前記目標ドキュメントの語義特徴を取得することは、
    前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントの語義特徴と前記マッチ待ちのサーチワードの語義特徴との類似度を算出することと、
    各前記ドキュメントセグメントの語義特徴と前記マッチ待ちのサーチワードの語義特徴との類似度に基づいて、前記目標ドキュメントの語義特徴として、前記マッチ待ちのサーチワードの語義特徴との類似度が最も大きい前記ドキュメントセグメントの語義特徴を取得することとを備えている、
    請求項3に記載の方法。
  5. トレーニングデータセットを採集することと、
    採集した前記トレーニングデータセットに基づいて、左符号化モジュールと右符号化モジュールとを含む双方向語義符号化モデルをトレーニングすることとを含んでいる、
    双方向語義符号化モデルのトレーニング方法。
  6. トレーニングデータセットを採集することは、
    数条のトレーニングコーパスを含む第1トレーニングデータセットを採集することを含んでいる、
    請求項5に記載の方法。
  7. 採集した前記トレーニングデータセットに基づいて、左符号化モジュールと右符号化モジュールとを含む双方向語義符号化モデルをトレーニングすることは、
    採集した前記第1トレーニングデータセット中の数条のトレーニングコーパスに基づいて、前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールがマスキング文字を予測する能力を学習するように、前記左符号化モジュール及び前記右符号化モジュールをマスキングトレーニングすることを含んでいる、
    請求項6に記載の方法。
  8. 採集の前記第1トレーニングデータセット中の数条のトレーニングコーパスに基づいて、前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールをマスキングトレーニングすることは、
    採集した前記第1トレーニングデータセット中の数条のトレーニングコーパスに基づいて、それぞれ前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールをマスキングトレーニングすること、或いは
    採集した前記第1トレーニングデータセット中の数条のトレーニングコーパスに基づいて、前記双方向語義符号化モデル中の前記左符号化モジュール或いは前記右符号化モジュールをマスキングトレーニングし、マスキングトレーニング後の前記左符号化モジュール或いは前記右符号化モジュールのパラメータが、マスキングトレーニングされない前記右符号化モジュール或いは前記左符号化モジュールに共有化されていることを含んでいる、
    請求項7に記載の方法。
  9. 採集した前記第1トレーニングデータセット中の数条のトレーニングコーパスに基づいて、前記双方向語義符号化モデル中の前記左符号化モジュールをマスキングトレーニングすることは、
    各前記トレーニングコーパスについて、前記トレーニングコーパスをマスキング化するとともに、セグメント区切りし、トレーニングコーパスセグメントシーケンスを取得することと、
    前記トレーニングコーパスセグメントシーケンス中の各トレーニングコーパスセグメントを、左から右の順に、前記左符号化モジュールへ順次に入力されることと、
    前記左符号化モジュールが入力された各前記トレーニングセグメントに基づいて符号化し、符号化された特徴に基づいて復号化してから、各前記トレーニングセグメントにマスキング化した文字を予測して取得することと、
    各前記トレーニングセグメント中の本当にマスキングした文字及び前記左符号化モジュールの予測したマスキング文字に基づいて、第1ロース関数を構築することと、
    前記第1ロース関数が収束するか否かを検出することと、
    前記第1ロース関数が収束しないときに、前記第1ロース関数が収束する傾向になるように、前記左符号化モジュールのパラメータを調整することと、を備えている、
    請求項8に記載の方法。
  10. 採集した前記第1トレーニングデータセット中の数条のトレーニングコーパスに基づいて、前記双方向語義符号化モデル中の前記右符号化モジュールをマスキングトレーニングすることは、
    各前記トレーニングコーパスについて、前記トレーニングコーパスをマスキング化するとともに、セグメント区切りし、トレーニングコーパスセグメントシーケンスを取得することと、
    前記トレーニングコーパスセグメントシーケンス中の各前記トレーニングコーパスセグメントが、右から左への順に、前記右符号化モジュールに順次に入力されることと、
    前記右符号化モジュールが入力された各前記トレーニングセグメントに基づいて符号化し、符号化后の特徴に基づいて復号化してから、各前記トレーニングセグメント中のマスキング化した文字を予測して取得することと、
    各前記トレーニングセグメント中の本当にマスキングした文字と前記右符号化モジュールの予測したマスキング文字に基づいて、第2ロース関数を構築することと、
    前記第2ロース関数が収束するか否かを検出することと、
    前記第2ロース関数が収束しないときに、前記第2ロース関数が収束する傾向になるように、前記右符号化モジュールのパラメータを調整することと、を備えている、
    請求項8に記載の方法。
  11. トレーニングデータセットを採集することは、
    数組のサンプル対を含む第2トレーニングデータセットを採集することを含んでおり、
    各組の前記サンプル対には、正サンプル対と負サンプル対とを含み、
    前記正サンプル対及び前記負サンプル対には、共通のトレーニングサーチワードを含み、
    前記正サンプル対には、正サンプルドキュメントをさらに含み、
    前記負サンプル対には、負サンプルドキュメントを含んでいる、
    請求項5乃至請求項10のいずれか一項に記載の方法。
  12. 採集した前記トレーニングデータセットに基づいて、左符号化モジュール及び右符号化モジュールを含む双方向語義符号化モデルをトレーニングすることは、
    採集した前記第2トレーニングデータセット中の前記数組のサンプル対に基づいて、前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールを語義マッチジョブのトレーニングすることで、前記双方向語義符号化モデルに語義マッチの能力を学習させることを備えている、
    請求項11に記載の方法。
  13. 採集した前記第2トレーニングデータセット中の前記数組のサンプル対に基づいて、前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールを語義マッチジョブのトレーニングすることは、
    各組の前記サンプル対中の前記トレーニングサーチワードに基づいて、前記左符号化モジュール及び前記右符号化モジュールを含む前記双方向語義符号化モデルで、前記トレーニングサーチワードの語義特徴を取得することと、
    各組の前記サンプル対中の前記正サンプルドキュメントに基づいて、前記左符号化モジュール及び前記右符号化モジュールを含む前記双方向語義符号化モデルで、前記正サンプルドキュメントの語義特徴を取得することと、
    各組の前記サンプル対中の前記負サンプルドキュメントに基づいて、前記左符号化モジュール及び前記右符号化モジュールを含む前記双方向語義符号化モデルで、前記負サンプルドキュメントの語義特徴を取得することと、
    前記トレーニングサーチワードの語義特徴と前記正サンプルドキュメントの語義特徴との第1語義類似度、及び前記トレーニングサーチワードの語義特徴と前記負サンプルドキュメントの語義特徴との第2語義類似度に基づいて、第3ロース関数を構築することと、
    前記第3ロース関数が収束するか否かを検出することと、
    前記第3ロース関数が収束しないと、前記第3ロース関数が収束する傾向になるように、前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールのパラメータを調整することと、含んでいる、
    請求項12に記載の方法。
  14. 各組の前記サンプル対中の前記トレーニングサーチワードに基づいて、前記左符号化モジュール及び前記右符号化モジュールを含む前記双方向語義符号化モデルで、前記トレーニングサーチワードの語義特徴を取得することは、
    前記左符号化モジュールが前記トレーニングサーチワードを符号化することで得られた前記トレーニングサーチワードの左符号化特徴を取得することと、
    前記右符号化モジュールが前記トレーニングサーチワードを符号化することで得られた前記トレーニングサーチワードの右符号化特徴を取得することと、
    前記トレーニングサーチワードの左符号化特徴と前記トレーニングサーチワードの右符号化特徴とをスプライシングして、前記トレーニングサーチワードの語義特徴を取得することとを含んでいる、
    請求項13に記載の方法。
  15. 各組の前記サンプル対中の前記正サンプルドキュメントに基づいて、前記左符号化モジュール及び前記右符号化モジュールを含む前記双方向語義符号化モデルで、前記正サンプルドキュメントの語義特徴を取得することは、
    各組の前記サンプル対中の前記正サンプルドキュメントに基づいて、前記正サンプルドキュメントをセグメント区切りし、正サンプルドキュメントセグメントシーケンスを取得することと、
    前記正サンプルドキュメントセグメントシーケンス中の各正サンプルドキュメントセグメントが、左から右への順に、前記左符号化モジュールに順次に入力され、前記左符号化モジュールの入力に基づく各前記正サンプルドキュメントセグメントを取得し、各前記正サンプルドキュメントセグメントの左符号化特徴を取得することと、
    前記正サンプルドキュメントセグメントシーケンス中の各正サンプルドキュメントセグメントが、右から左への順に、前記右符号化モジュールに順次に入力され、前記右符号化モジュールの入力に基づく各前記正サンプルドキュメントセグメントを取得し、各前記正サンプルドキュメントセグメントの右符号化特徴を取得することと、
    前記正サンプルドキュメント中の各前記正サンプルドキュメントセグメントについて、前記正サンプルドキュメントセグメントの左符号化特徴と前記正サンプルドキュメントセグメントの右符号化特徴とをスプライシングし、前記正サンプルドキュメントセグメントの語義特徴を取得することと、
    前記正サンプルドキュメント中の各前記正サンプルドキュメントセグメントの語義特徴及び前記トレーニングサーチワードの語義特徴に基づいて、前記正サンプルドキュメントの語義特徴として、前記トレーニングサーチワードの語義特徴との類似度が最も大きい前記正サンプルドキュメントセグメントの語義特徴を取得することとを含んでいる、
    請求項13に記載の方法。
  16. 各組の前記サンプル対中の前記負サンプルドキュメントに基づいて、前記左符号化モジュール及び前記右符号化モジュールを含む前記双方向語義符号化モデルで、前記負サンプルドキュメントの語義特徴を取得することは、
    各組の前記サンプル対中の前記負サンプルドキュメントに基づいて、前記負サンプルドキュメントをセグメント区切りし、負サンプルドキュメントセグメントシーケンスを取得することと、
    前記負サンプルドキュメントセグメントシーケンス中の各負サンプルドキュメントセグメントが、左から右への順に、前記左符号化モジュールに順次に入力され、前記左符号化モジュールの入力に基づく各前記負サンプルドキュメントセグメントを取得し、各前記負サンプルドキュメントセグメントの左符号化特徴を取得することと、
    前記負サンプルドキュメントセグメントシーケンス中の各負サンプルドキュメントセグメントが、右から左への順に、前記右符号化モジュールに順次に入力され、前記右符号化モジュールの入力に基づく各前記負サンプルドキュメントセグメントを取得し、各前記負サンプルドキュメントセグメントの右符号化特徴を取得することと、
    前記負サンプルドキュメント中の各前記負サンプルドキュメントセグメントについて、前記負サンプルドキュメントセグメントの左符号化特徴と前記負サンプルドキュメントセグメントの右符号化特徴とをスプライシングし、前記負サンプルドキュメントセグメントの語義特徴を取得することと、
    前記負サンプルドキュメント中の各前記負サンプルドキュメントセグメントの語義特徴及び前記トレーニングサーチワードの語義特徴に基づいて、前記負サンプルドキュメントの語義特徴として、前記トレーニングサーチワードの語義特徴との類似度が最も大きい前記負サンプルドキュメントセグメントの語義特徴を取得することとを含んでいる、
    請求項13に記載の方法。
  17. 目標ドキュメントをセグメント区切りすることで、目標ドキュメントのセグメントシーケンスを取得するための区切りモジュールと、
    予めトレーニングされた双方向語義符号化モデルで、前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの語義特徴を生成するための生成モジュールと、
    前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントの語義特徴に基づいて、前記目標ドキュメントの語義特徴を取得するための取得モジュールと、を含んでいる、
    語義特徴の生成装置。
  18. 前記生成モジュールは、
    前記双方向語義符号化モデル中の左符号化モジュールで、前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの左符号化特徴を取得するための第1符号化手段と、
    前記双方向語義符号化モデル中の右符号化モジュールで、前記目標ドキュメントのセグメントシーケンス中の各ドキュメントセグメントの右符号化特徴を取得するための第2符号化手段と、
    前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントに対して、対応の前記ドキュメントセグメントの左符号化特徴と対応の前記ドキュメントセグメントの右符号化特徴をスプライシングして、対応の前記ドキュメントセグメントの語義特徴を取得するためのスプライシング手段とを含んでいる、
    請求項17に記載の装置。
  19. 前記取得モジュールは、
    前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントの語義特徴に基づいて、マッチ待ちのサーチワードの語義特徴を参照して、前記目標ドキュメントの語義特徴を取得するために用いられる、
    請求項17又は18に記載の装置。
  20. 前記取得モジュールは、
    前記目標ドキュメントのセグメントシーケンス中の各前記ドキュメントセグメントの語義特徴と前記マッチ待ちのサーチワードの語義特徴との類似度を算出するための算出手段と、
    各前記ドキュメントセグメントの語義特徴と前記マッチ待ちのサーチワードの語義特徴との類似度に基づいて、前記目標ドキュメントの語義特徴として、前記マッチ待ちのサーチワードの語義特徴との類似度が最も大きい前記ドキュメントセグメントの語義特徴を取得するための取得手段とを含んでいる、
    請求項19に記載の装置。
  21. トレーニングデータセットを採集するための採集モジュールと、
    採集した前記トレーニングデータセットに基づいて、左符号化モジュールと右符号化モジュールとを含む双方向語義符号化モデルをトレーニングするためのトレーニングモジュールとを含む、
    双方向語義符号化モデルのトレーニング装置。
  22. 前記採集モジュールは、
    数条のトレーニングコーパスを含む第1トレーニングデータセットを採集するために用いられる、請求項21に記載の装置。
  23. 前記トレーニングモジュールは、
    採集した前記第1トレーニングデータセット中の数条のトレーニングコーパスに基づいて、前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールがマスキング文字を予測する能力を学習するように、前記左符号化モジュール及び前記右符号化モジュールをマスキングトレーニングするために用いられる、
    請求項22に記載の装置。
  24. 前記トレーニングモジュールは、
    採集した前記第1トレーニングデータセット中の数条のトレーニングコーパスに基づいて、それぞれ前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールをマスキングトレーニングし、或いは
    採集した前記第1トレーニングデータセット中の数条のトレーニングコーパスに基づいて、前記双方向語義符号化モデル中の前記左符号化モジュール或いは前記右符号化モジュールをマスキングトレーニングし、マスキングトレーニング後の前記左符号化モジュール或いは前記右符号化モジュールのパラメータが、マスキングトレーニングされない前記右符号化モジュール或いは前記左符号化モジュールに共有化されているために用いられる、
    請求項23に記載の装置。
  25. 前記トレーニングモジュールは、を含む:
    各前記トレーニングコーパスについて、前記トレーニングコーパスをマスキング化するとともに、セグメント区切りし、トレーニングコーパスセグメントシーケンスを取得するための前処理手段と、
    前記トレーニングコーパスセグメントシーケンス中の各トレーニングコーパスセグメントを、左から右の順に、前記左符号化モジュールへ順次に入力されるための入力手段と、
    前記左符号化モジュールが入力された各前記トレーニングセグメントに基づいて符号化し、符号化された特徴に基づいて復号化してから、各前記トレーニングセグメントにマスキング化した文字を予測して取得するための予測手段と、
    各前記トレーニングセグメント中の本当にマスキングした文字及び前記左符号化モジュールの予測したマスキング文字に基づいて、第1ロース関数を構築するための第1構築手段と、
    前記第1ロース関数が収束するか否かを検出するための第1検出手段と、
    前記第1ロース関数が収束しないときに、前記第1ロース関数が収束する傾向になるように、前記左符号化モジュールのパラメータを調整するための第1調整手段とを含んでいる、
    請求項24に記載の装置。
  26. 前記入力手段は、さらに、前記トレーニングコーパスセグメントシーケンス中の各前記トレーニングコーパスセグメントが、右から左への順に、前記右符号化モジュールに順次に入力されるために用いられ、
    前記予測手段は、更に、前記右符号化モジュールが入力された各トレーニングセグメントに基づいて符号化し、符号化后の特徴に基づいて復号化してから、各前記トレーニングセグメント中のマスキング化した文字を予測して取得するために用いられ、
    前記第1構築手段は、更に、各前記トレーニングセグメント中の本当にマスキングした文字と前記右符号化モジュールの予測したマスキング文字に基づいて、第2ロース関数を構築するために用いられ、
    前記第1検出手段は、更に、前記第2ロース関数が収束するか否かを検出するために用いられ、
    前記第1調整手段は、更に、前記第2ロース関数が収束しないときに、前記第2ロース関数が収束する傾向になるように、前記右符号化モジュールのパラメータを調整するために用いられる、
    請求項25に記載の装置。
  27. 前記採集モジュールは、更に、数組のサンプル対を含む第2トレーニングデータセットを採集するために用いられ、
    各組の前記サンプル対には、正サンプル対と負サンプル対とを含み、
    前記正サンプル対及び前記負サンプル対には、共通のトレーニングサーチワードを含み、
    前記正サンプル対には、正サンプルドキュメントをさらに含み、
    前記負サンプル対には、負サンプルドキュメントを含んでいる、
    請求項21乃至請求項24のいずれか一項に記載の装置。
  28. 前記トレーニングモジュールは、:
    採集した前記第2トレーニングデータセット中の前記数組のサンプル対に基づいて、前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールを語義マッチジョブのトレーニングすることで、前記双方向語義符号化モデルに語義マッチの能力を学習させるために用いられる、
    請求項27に記載の装置。
  29. 前記トレーニングモジュールは、
    各組の前記サンプル対中の前記トレーニングサーチワードに基づいて、前記左符号化モジュール及び前記右符号化モジュールを含む前記双方向語義符号化モデルで、前記トレーニングサーチワードの語義特徴を取得するための第1特徴取得手段と、
    各組の前記サンプル対中の前記正サンプルドキュメントに基づいて、前記左符号化モジュール及び前記右符号化モジュールを含む前記双方向語義符号化モデルで、前記正サンプルドキュメントの語義特徴を取得するための第2特徴取得手段と、
    各組の前記サンプル対中の前記負サンプルドキュメントに基づいて、前記左符号化モジュール及び前記右符号化モジュールを含む前記双方向語義符号化モデルで、前記負サンプルドキュメントの語義特徴を取得するための第3特徴取得手段と、
    前記トレーニングサーチワードの語義特徴と前記正サンプルドキュメントの語義特徴との第1語義類似度、及び前記トレーニングサーチワードの語義特徴と前記負サンプルドキュメントの語義特徴との第2語義類似度に基づいて、第3ロース関数を構築するための第2構築手段と、
    前記第3ロース関数が収束するか否かを検出するための第2検出手段と、
    前記第3ロース関数が収束しないと、前記第3ロース関数が収束する傾向になるように、前記双方向語義符号化モデル中の前記左符号化モジュール及び前記右符号化モジュールのパラメータを調整するための第2調整手段と、をさらに含んでいる、
    請求項28に記載の装置。
  30. 前記第1特徴取得手段は、
    前記左符号化モジュールが前記トレーニングサーチワードを符号化することで得られた前記トレーニングサーチワードの左符号化特徴を取得し、
    前記右符号化モジュールが前記トレーニングサーチワードを符号化することで得られた前記トレーニングサーチワードの右符号化特徴を取得し、
    前記トレーニングサーチワードの左符号化特徴と前記トレーニングサーチワードの右符号化特徴とをスプライシングして、前記トレーニングサーチワードの語義特徴を取得するために用いられる、
    請求項29に記載の装置。
  31. 前記第2特徴取得手段は、
    各組の前記サンプル対中の前記正サンプルドキュメントに基づいて、前記正サンプルドキュメントをセグメント区切りし、正サンプルドキュメントセグメントシーケンスを取得し、
    前記正サンプルドキュメントセグメントシーケンス中の各正サンプルドキュメントセグメントが、左から右への順に、前記左符号化モジュールに順次に入力され、前記左符号化モジュールの入力に基づく各前記正サンプルドキュメントセグメントを取得し、各前記正サンプルドキュメントセグメントの左符号化特徴を取得し、
    前記正サンプルドキュメントセグメントシーケンス中の各正サンプルドキュメントセグメントが、右から左への順に、前記右符号化モジュールに順次に入力され、前記右符号化モジュールの入力に基づく各前記正サンプルドキュメントセグメントを取得し、各前記正サンプルドキュメントセグメントの右符号化特徴を取得し、
    前記正サンプルドキュメント中の各前記正サンプルドキュメントセグメントについて、前記正サンプルドキュメントセグメントの左符号化特徴と前記正サンプルドキュメントセグメントの右符号化特徴とをスプライシングし、前記正サンプルドキュメントセグメントの語義特徴を取得し、
    前記正サンプルドキュメント中の各前記正サンプルドキュメントセグメントの語義特徴及び前記トレーニングサーチワードの語義特徴に基づいて、前記正サンプルドキュメントの語義特徴として、前記トレーニングサーチワードの語義特徴との類似度が最も大きい前記正サンプルドキュメントセグメントの語義特徴を取得するために用いられる、
    請求項29に記載の装置。
  32. 前記第3特徴取得手段は、
    各組の前記サンプル対中の前記負サンプルドキュメントに基づいて、前記負サンプルドキュメントをセグメント区切りし、負サンプルドキュメントセグメントシーケンスを取得し、
    前記負サンプルドキュメントセグメントシーケンス中の各負サンプルドキュメントセグメントが、左から右への順に、前記左符号化モジュールに順次に入力され、前記左符号化モジュールの入力に基づく各前記負サンプルドキュメントセグメントを取得し、各前記負サンプルドキュメントセグメントの左符号化特徴を取得し、
    前記負サンプルドキュメントセグメントシーケンス中の各負サンプルドキュメントセグメントが、右から左への順に、前記右符号化モジュールに順次に入力され、前記右符号化モジュールの入力に基づく各前記負サンプルドキュメントセグメントを取得し、各前記負サンプルドキュメントセグメントの右符号化特徴を取得し、
    前記負サンプルドキュメント中の各前記負サンプルドキュメントセグメントについて、前記負サンプルドキュメントセグメントの左符号化特徴と前記正サンプルドキュメントセグメントの右符号化特徴とをスプライシングし、前記負サンプルドキュメントセグメントの語義特徴を取得し、
    前記負サンプルドキュメント中の各前記負サンプルドキュメントセグメントの語義特徴及び前記トレーニングサーチワードの語義特徴に基づいて、前記負サンプルドキュメントの語義特徴として、前記トレーニングサーチワードの語義特徴との類似度が最も大きい前記負サンプルドキュメントセグメントの語義特徴を取得するために用いられる、
    請求項29に記載の装置。
  33. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されるメモリと、を含んでおり、
    前記メモリには前記少なくとも1つのプロセッサに実行されるコマンドを記憶しており、
    前記コマンドが前記少なくとも1つのプロセッサに実行されることで、前記少なくとも1つのプロセッサは請求項1乃至請求項4のいずれか一項或いは請求項5乃至請求項16のいずれか一項に記載の方法を実行可能となる、電子機器。
  34. コンピュータに請求項1乃至請求項4のいずれか一項或いは請求項5乃至請求項16のいずれか一項に記載の方法を実行させるためのコンピュータコマンドが記憶されている不揮発性のコンピュータ読み取り可能な記憶媒体。
  35. プロセッサに実行される時に請求項1乃至請求項4のいずれか一項或いは請求項5乃至請求項16のいずれか一項に記載の方法を実現するコンピュータプログラム。
JP2021104325A 2020-12-25 2021-06-23 語義特徴の生成方法、モデルトレーニング方法、装置、機器、媒体及びプログラム Pending JP2021152963A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011562653.0 2020-12-25
CN202011562653.0A CN112560501B (zh) 2020-12-25 2020-12-25 语义特征的生成方法、模型训练方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
JP2021152963A true JP2021152963A (ja) 2021-09-30

Family

ID=75032762

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021104325A Pending JP2021152963A (ja) 2020-12-25 2021-06-23 語義特徴の生成方法、モデルトレーニング方法、装置、機器、媒体及びプログラム

Country Status (3)

Country Link
US (1) US20210312139A1 (ja)
JP (1) JP2021152963A (ja)
CN (1) CN112560501B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115719628A (zh) * 2022-11-16 2023-02-28 联仁健康医疗大数据科技股份有限公司 一种中医处方生成方法、装置、设备及存储介质
US20230266940A1 (en) * 2022-02-23 2023-08-24 Fujitsu Limited Semantic based ordinal sorting

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095040B (zh) * 2021-04-16 2024-07-16 支付宝(杭州)信息技术有限公司 一种编码网络的训练方法、文本编码方法和系统
CN113282750A (zh) * 2021-05-27 2021-08-20 成都数之联科技有限公司 模型训练方法及系统及装置及介质
CN113420822B (zh) * 2021-06-30 2022-08-12 北京百度网讯科技有限公司 模型训练方法和装置、文本预测方法和装置
CN113761890B (zh) * 2021-08-17 2024-04-16 汕头市同行网络科技有限公司 一种基于bert上下文感知的多层级语义信息检索方法
CN113988157B (zh) * 2021-09-30 2023-10-13 北京百度网讯科技有限公司 语义检索网络训练方法、装置、电子设备及存储介质
CN113921097A (zh) * 2021-10-11 2022-01-11 平安国际智慧城市科技股份有限公司 医疗数据集成方法、装置、电子设备及存储介质
CN114049884B (zh) * 2022-01-11 2022-05-13 广州小鹏汽车科技有限公司 语音交互方法、车辆、计算机可读存储介质
CN114363466B (zh) * 2022-03-22 2022-06-10 长沙居美网络科技有限公司 基于ai的智呼云系统
CN115359383B (zh) * 2022-07-07 2023-07-25 北京百度网讯科技有限公司 跨模态特征提取、检索以及模型的训练方法、装置及介质
CN115471765B (zh) * 2022-11-02 2023-04-07 广东工业大学 一种航拍图像的语义分割方法、装置、设备及存储介质
CN115842593B (zh) * 2023-02-20 2023-05-09 北京邮电大学 一种语义相干光通信方法及系统
CN116704291A (zh) * 2023-06-19 2023-09-05 北京百度网讯科技有限公司 分片并行的模型训练方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190370338A1 (en) * 2017-06-22 2019-12-05 Tencent Technology (Shenzhen) Company Limited Summary generation method, apparatus, computer device, and storage medium
WO2020174826A1 (ja) * 2019-02-25 2020-09-03 日本電信電話株式会社 回答生成装置、回答学習装置、回答生成方法、及び回答生成プログラム
CN112084314A (zh) * 2020-08-20 2020-12-15 电子科技大学 一种引入知识的生成式会话系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170154258A1 (en) * 2015-11-30 2017-06-01 National Institute Of Information And Communications Technology Joint estimation method and method of training sequence-to-sequence model therefor
CN110413865A (zh) * 2019-08-02 2019-11-05 知者信息技术服务成都有限公司 基于双向编码器表征模型的语义表示模型及其方法
CN110598078B (zh) * 2019-09-11 2022-09-30 京东科技控股股份有限公司 数据检索方法及装置、计算机可读存储介质、电子设备
CN111143550B (zh) * 2019-11-27 2022-05-03 浙江大学 一种基于层次注意力神经网络模型的争议焦点自动识别方法
CN110717339B (zh) * 2019-12-12 2020-06-30 北京百度网讯科技有限公司 语义表示模型的处理方法、装置、电子设备及存储介质
CN111079442B (zh) * 2019-12-20 2021-05-18 北京百度网讯科技有限公司 文档的向量化表示方法、装置和计算机设备
CN111291195B (zh) * 2020-01-21 2021-08-10 腾讯科技(深圳)有限公司 一种数据处理方法、装置、终端及可读存储介质
US20220165430A1 (en) * 2020-11-23 2022-05-26 Microsoft Technology Licensing, Llc Leveraging deep contextual representation, medical concept representation and term-occurrence statistics in precision medicine to rank clinical studies relevant to a patient

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190370338A1 (en) * 2017-06-22 2019-12-05 Tencent Technology (Shenzhen) Company Limited Summary generation method, apparatus, computer device, and storage medium
WO2020174826A1 (ja) * 2019-02-25 2020-09-03 日本電信電話株式会社 回答生成装置、回答学習装置、回答生成方法、及び回答生成プログラム
CN112084314A (zh) * 2020-08-20 2020-12-15 电子科技大学 一种引入知识的生成式会话系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BERT: PRE-TRAINING OF DEEP BIDIRECTIONAL TRANSFORMERS FOR LANGUAGE UNDERSTANDING, JPN6022037930, 24 May 2019 (2019-05-24), pages 1 - 16, ISSN: 0005039064 *
田中 裕隆 他4名: "BERTを利用した文書の特徴ベクトルの作成", 情報処理学会 研究報告 自然言語処理(NL) 2019−NL−243 [ONLINE], JPN6022037929, 27 November 2019 (2019-11-27), JP, pages 1 - 6, ISSN: 0005039063 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230266940A1 (en) * 2022-02-23 2023-08-24 Fujitsu Limited Semantic based ordinal sorting
CN115719628A (zh) * 2022-11-16 2023-02-28 联仁健康医疗大数据科技股份有限公司 一种中医处方生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20210312139A1 (en) 2021-10-07
CN112560501A (zh) 2021-03-26
CN112560501B (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
JP2021152963A (ja) 語義特徴の生成方法、モデルトレーニング方法、装置、機器、媒体及びプログラム
KR102577514B1 (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
US10679148B2 (en) Implicit bridging of machine learning tasks
KR101950985B1 (ko) 휴먼 인스파이어드된 간단한 질문 응답(hisqa)을 위한 시스템 및 방법
Kim et al. Two-stage multi-intent detection for spoken language understanding
Lin et al. Automatic translation of spoken English based on improved machine learning algorithm
US10606946B2 (en) Learning word embedding using morphological knowledge
US9672476B1 (en) Contextual text adaptation
US10789431B2 (en) Method and system of translating a source sentence in a first language into a target sentence in a second language
WO2020244065A1 (zh) 基于人工智能的字向量定义方法、装置、设备及存储介质
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
CN112560479A (zh) 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备
CN113987169A (zh) 基于语义块的文本摘要生成方法、装置、设备及存储介质
JP2021508866A (ja) 対象領域およびクライアント固有のアプリケーション・プログラム・インタフェース推奨の促進
CN111026320B (zh) 多模态智能文本处理方法、装置、电子设备及存储介质
Mahmoud et al. A text semantic similarity approach for Arabic paraphrase detection
JP2021033995A (ja) テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体
JP2021508391A (ja) 対象領域およびクライアント固有のアプリケーション・プログラム・インタフェース推奨の促進
Wang et al. Learning morpheme representation for mongolian named entity recognition
CN113779225B (zh) 实体链接模型的训练方法、实体链接方法及装置
Mocialov et al. Transfer learning for british sign language modelling
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
Habib et al. An exploratory approach to find a novel metric based optimum language model for automatic bangla word prediction
Noaman et al. Enhancing recurrent neural network-based language models by word tokenization
WO2022141872A1 (zh) 文献摘要生成方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210623

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230418

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231114