JP7014830B2 - Methods and systems for automatically extracting foreign synonyms using a transliteration model - Google Patents
Methods and systems for automatically extracting foreign synonyms using a transliteration model Download PDFInfo
- Publication number
- JP7014830B2 JP7014830B2 JP2020018525A JP2020018525A JP7014830B2 JP 7014830 B2 JP7014830 B2 JP 7014830B2 JP 2020018525 A JP2020018525 A JP 2020018525A JP 2020018525 A JP2020018525 A JP 2020018525A JP 7014830 B2 JP7014830 B2 JP 7014830B2
- Authority
- JP
- Japan
- Prior art keywords
- synonym
- product
- keyword
- list
- target keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 43
- 238000000605 extraction Methods 0.000 claims description 41
- 230000015654 memory Effects 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 13
- 150000001875 compounds Chemical class 0.000 claims description 2
- 230000008569 process Effects 0.000 description 21
- 238000012545 processing Methods 0.000 description 21
- 238000004891 communication Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 208000006930 Pseudomyxoma Peritonei Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 229920000306 polymethylpentene Polymers 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/2448—Query languages for particular applications; for extensibility, e.g. user defined types
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Description
以下の説明は、同義語抽出技術に関し、より詳細には、外来語の原語表記を抽出する技術に関する。 The following description relates to a technique for extracting synonyms, and more particularly to a technique for extracting the original word notation of a loan word.
ユーザがインターネットを利用して情報を収集しようとする場合、情報を提供しているサーバに接続し、検索によって該当の情報を得るのが一般的である。 When a user tries to collect information using the Internet, it is common to connect to a server that provides the information and obtain the relevant information by searching.
ある商品を購入しようとする場合、検索サイトを利用してその価格や特性などに関する情報を取得したり、あるいは該当の商品を販売しているウェブサイトに移動したりする。 When you try to buy a product, you can use a search engine to get information about its price, characteristics, etc., or you can go to the website that sells the product.
商品を検索するためには、商品モデルとカテゴリをマッチングさせる過程を含んだ商品登録の手順が必要となる。例えば、特許文献1(登録日2007年04月03日)には、商品モデルとカテゴリを自動でマッチングさせて商品情報を登録する技術が開示されている。 In order to search for a product, a product registration procedure including a process of matching a product model and a category is required. For example, Patent Document 1 (registration date: April 03, 2007) discloses a technique for automatically matching a product model and a category and registering product information.
商品情報から抽出されたキーワードに対し、キーワード間の関係を示すマルチグラフ構造を構築することができ、外来語の場合には、同義語として原語表記を自動抽出してマルチグラフに追加することができる方法およびシステムを提供する。 For keywords extracted from product information, it is possible to build a multigraph structure that shows the relationship between keywords, and in the case of loanwords, it is possible to automatically extract the original language notation as a synonym and add it to the multigraph. Provide possible methods and systems.
外来語に対し、音訳モデル(transliteration model)を利用して商品名や商品関連クエリに出現する単語から該当の外来語の原語表記を抽出し、同義語として処理することができる方法およびシステムを提供する。 Provides a method and system that can extract the original word notation of the loan word from the word that appears in the product name or product-related query using the transliteration model for the loan word and process it as a synonym. do.
コンピュータシステムが実行する同義語抽出方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、当該同義語抽出方法は、前記少なくとも1つのプロセッサにより、対象キーワードに対し、前記対象キーワードと関連するキーワードリストを抽出する段階、および前記少なくとも1つのプロセッサにより、音訳モデル(transliteration model)を利用して前記キーワードリストから前記対象キーワードの原語表記に該当する同義語を抽出する段階を含む、同義語抽出方法を提供する。 A method of extracting synonyms performed by a computer system, wherein the computer system includes at least one processor configured to execute a computer-readable instruction contained in memory, wherein the method of extracting synonyms is described above. A step of extracting a keyword list related to the target keyword for the target keyword by at least one processor, and a transliteration model of the target keyword from the keyword list by the at least one processor. Provided is a synonym extraction method including a step of extracting a synonym corresponding to the original language notation.
一側面によると、前記キーワードリストを抽出する段階は、前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つを抽出してよい。 According to one aspect, the stage of extracting the keyword list is the product name list clicked after inputting the target keyword as a search query, other query lists related to each clicked product, and tag list related to each clicked product. At least one of them may be extracted.
他の側面によると、前記同義語を抽出する段階は、発音の最小単位を利用した音訳モデルを利用して前記同義語を抽出してよい。 According to another aspect, at the stage of extracting the synonyms, the synonyms may be extracted by using a transliteration model using the smallest unit of pronunciation.
また他の側面によると、前記同義語を抽出する段階は、リンク型バイグラム(LBG:linked bi-gramed)のデータ形式を利用して前記対象キーワードを発音の最小単位に分離する段階を含んでよい。 According to another aspect, the step of extracting the synonym may include the step of separating the target keyword into the smallest unit of pronunciation by using the data format of linked bi-gram (LBG). ..
また他の側面によると、前記同義語を抽出する段階は、前記音訳モデルを利用して前記キーワードリストから抽出された単語のうちから、前記対象キーワードとマッチングする単語を前記同義語として抽出する段階を含んでよい。 According to another aspect, the step of extracting the synonym is a step of extracting a word matching the target keyword from the words extracted from the keyword list using the transliteration model as the synonym. May include.
また他の側面によると、前記同義語を抽出する段階は、前記対象キーワードに対して前記マッチングする単語を置換して同義語候補を抽出する段階をさらに含んでよい。 Further, according to another aspect, the step of extracting the synonym may further include a step of substituting the matching word for the target keyword and extracting a synonym candidate.
また他の側面によると、前記同義語を抽出する段階は、前記キーワードリストから特定言語の単語を抽出する段階をさらに含んでよい。 Further, according to another aspect, the step of extracting the synonym may further include the step of extracting a word of a specific language from the keyword list.
また他の側面によると、前記同義語を抽出する段階は、前記対象キーワードが複合語からなる場合、単一語に分離する段階をさらに含んでよい。 Further, according to another aspect, the step of extracting the synonym may further include the step of separating into a single word when the target keyword consists of a compound word.
また他の側面によると、前記同義語を抽出する段階は、前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つを利用して前記同義語を検証する段階をさらに含んでよい。 According to another aspect, at the stage of extracting the synonyms, the product name list clicked after inputting the target keyword as a search query, other query lists related to each clicked product, and tags related to each clicked product. It may further include the step of verifying the synonym using at least one of the lists.
また他の側面によると、前記同義語を抽出する段階は、前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つに前記対象キーワードとマッチングする単語が出現するか否か、または出現する頻度に基づいて前記同義語を決定する段階をさらに含んでよい。 According to another aspect, at the stage of extracting the synonyms, the product name list clicked after inputting the target keyword as a search query, other query lists related to each clicked product, and tags related to each clicked product. It may further include determining the synonym based on whether or not a word matching the target keyword appears in at least one of the lists, or how often it appears.
また他の側面によると、前記同義語抽出方法は、前記少なくとも1つのプロセッサにより、商品辞書上のキーワード間の関係を示すマルチグラフを生成する段階、および前記少なくとも1つのプロセッサにより、前記同義語を前記マルチグラフに追加登録する段階をさらに含んでよい。 According to another aspect, the synonym extraction method is a step of generating a multigraph showing a relationship between keywords on a product dictionary by the at least one processor, and the synonym is obtained by the at least one processor. It may further include a step of additional registration to the multigraph.
また他の側面によると、前記生成する段階は、前記商品辞書に含まれる各商品別に、該当の商品とマッチングする商品情報をキーワードに変換する段階、および前記商品辞書から前記商品とマッチングする情報間の関係データをキーワード間の関係データとして抽出する段階を含んでよい。 According to another aspect, the generation stage is a stage of converting the product information matching with the corresponding product into a keyword for each product included in the product dictionary, and between the information matching with the product from the product dictionary. It may include a step of extracting the relational data of the above as the relational data between keywords.
さらに他の側面によると、前記追加登録する段階は、前記マルチグラフ上に前記対象キーワードと前記同義語との関係を追加するか、あるいは前記マルチグラフ上のキーワードのうちで前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つに前記同義語とともに出現するキーワード間の関係を追加してよい。 According to still another aspect, in the stage of additional registration, the relationship between the target keyword and the synonym is added on the multigraph, or the target keyword is searched among the keywords on the multigraph. Add the relationship between keywords that appear with the synonym to at least one of the product name list you clicked after entering, the other query list associated with each clicked product, and the tag list associated with each clicked product. good.
前記同義語抽出方法をコンピュータに実行させるためのプログラムを提供する。 A program for causing a computer to execute the synonym extraction method is provided.
コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、対象キーワードに対し、前記対象キーワードと関連するキーワードリストを抽出した後、音訳モデルを利用して前記キーワードリストから前記対象キーワードの原語表記に該当する同義語を抽出する同義語抽出部を備える、コンピュータシステムを提供する。 A computer system comprising at least one processor configured to execute a computer-readable instruction contained in memory, wherein the at least one processor is a keyword list associated with the subject keyword for the subject keyword. Provided is a computer system including a synonym extraction unit that extracts synonyms corresponding to the original word notation of the target keyword from the keyword list by using a transliteration model.
本発明の実施形態によると、商品情報から抽出されたキーワードに対し、キーワード間の関係を示すマルチグラフ構造を構築することができ、外来語の場合には、同義語として原語表記を自動抽出してマルチグラフに追加することができる。 According to the embodiment of the present invention, it is possible to construct a multigraph structure showing the relationship between keywords for the keywords extracted from the product information, and in the case of foreign words, the original word notation is automatically extracted as a synonym. Can be added to the multigraph.
本発明の実施形態によると、外来語に対して音訳モデルを利用して商品名や商品関連クエリに出現する単語から該当の外来語の原語表記を抽出し、同義語として処理することができる。 According to the embodiment of the present invention, the original word notation of the loan word can be extracted from the word appearing in the product name or the product-related query by using the transliteration model for the loan word and processed as a synonym.
以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
本発明の実施形態は、外来語の原語表記を同義語として自動抽出する技術に関する。 An embodiment of the present invention relates to a technique for automatically extracting the original word notation of a loan word as a synonym.
本明細書において具体的に開示される事項を含む実施形態は、外来語の原語表記を自動抽出して同義語として処理することができ、これによってキーワード管理の自動化、作業リソースの減少、サービス品質の改善、サービス拡大などの側面において相当な長所を達成することができる。 In embodiments that include matters specifically disclosed herein, loanword notations can be automatically extracted and processed as synonyms, thereby automating keyword management, reducing work resources, and quality of service. It is possible to achieve considerable advantages in terms of improvement and service expansion.
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。
FIG. 1 is a diagram showing an example of a network environment according to an embodiment of the present invention. The network environment of FIG. 1 shows an example including a plurality of
複数の電子機器110、120、130、140は、コンピュータシステムによって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレット、ゲームコンソール、ウェアラブルデバイス、IoT(internet of things)デバイス、VR(virtual reality)デバイス、AR(augmented reality)デバイスなどがある。一例として、図1では、電子機器110の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器110は、実質的に無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信することのできる多様な物理的なコンピュータシステムのうちの1つを意味してよい。
The plurality of
通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
The communication method is not limited, and not only a communication method using a communication network that can be included in the network 170 (for example, a mobile communication network, a wired Internet, a wireless Internet, a broadcasting network, a satellite network, etc.), but also a device. Short-range wireless communication between them may be included. For example, the
サーバ150、160それぞれは、複数の電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク170を介して接続した複数の電子機器110、120、130、140に第1サービスを提供するシステムであってよく、サーバ160も、ネットワーク170を介して接続した複数の電子機器110、120、130、140に第2サービスを提供するシステムであってよい。より具体的な例として、サーバ150は、複数の電子機器110、120、130、140においてインストールされて実行されるコンピュータプログラムであるアプリケーションを通じ、該当のアプリケーションが目的とするサービス(一例として、キーワード管理サービスなど)を第1サービスとして複数の電子機器110、120、130、140に提供してよい。他の例として、サーバ160は、上述したアプリケーションのインストールおよび実行のためのファイルを複数の電子機器110、120、130、140に配布するサービスを第2サービスとして提供してよい。
Each of the
図2は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図2では、電子機器に対する例として電子機器110の内部構成およびサーバ150の内部構成について説明する。また、他の電子機器120、130、140やサーバ160も、上述した電子機器110またはサーバ150と同一または類似の内部構成を有してよい。
FIG. 2 is a block diagram for explaining an internal configuration of an electronic device and a server according to an embodiment of the present invention. FIG. 2 describes the internal configuration of the
電子機器110およびサーバ150は、メモリ211、221、プロセッサ212、222、通信モジュール213、223、および入力/出力インタフェース214、224を含んでよい。メモリ211、221は、非一時的なコンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、ディスクドライブ、SSD(solid state drive)、フラッシュメモリ(flash memory)などのような永続的大容量記録装置を含んでよい。ここで、ROM、SSD、フラッシュメモリ、ディスクドライブのような永続的大容量記録装置は、メモリ211、221とは区分される別の永続的記録装置として電子機器110やサーバ150に含まれてもよい。また、メモリ211、221には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、電子機器110においてインストールされて実行されるブラウザや特定のサービスの提供のために電子機器110にインストールされるアプリケーションなどのためのコード)が記録されてよい。このようなソフトウェア構成要素は、メモリ211、221とは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信モジュール213、223を通じてメモリ211、221にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システム(一例として、上述したサーバ160)がネットワーク170を介して提供するファイルによってインストールされるコンピュータプログラム(一例として、上述したアプリケーション)に基づいてメモリ211、221にロードされてよい。
The
プロセッサ212、222は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ211、221または通信モジュール213、223によって、プロセッサ212、222に提供されてよい。例えば、プロセッサ212、222は、メモリ211、221のような記録装置に記録されたプログラムコードに従って受信される命令を実行するように構成されてよい。
通信モジュール213、223は、ネットワーク170を介して電子機器110とサーバ150とが互いに通信するための機能を提供してもよいし、電子機器110および/またはサーバ150が他の電子機器(一例として、電子機器120)または他のサーバ(一例として、サーバ160)と通信するための機能を提供してもよい。一例として、電子機器110のプロセッサ212がメモリ211のような記録装置に記録されたプログラムコードに従って生成した要求が、通信モジュール213の制御に従ってネットワーク170を介してサーバ150に伝達されてよい。これとは逆に、サーバ150のプロセッサ222の制御に従って提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール223とネットワーク170を経て電子機器110の通信モジュール213を通じて電子機器110に受信されてよい。例えば、通信モジュール213を通じて受信されたサーバ150の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ212やメモリ211に伝達されてよく、コンテンツやファイルなどは、電子機器110がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
The
入力/出力インタフェース214は、入力/出力装置215とのインタフェースのための手段であってよい。例えば、入力装置は、キーボード、マウス、マイクロフォン、カメラなどの装置を、出力装置は、ディスプレイ、スピーカ、触覚フィードバックデバイスなどのような装置を含んでよい。他の例として、入力/出力インタフェース214は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置215は、電子機器110と1つの装置で構成されてもよい。また、サーバ150の入力/出力インタフェース224は、サーバ150に接続するかサーバ150が含むことのできる入力または出力のための装置(図示せず)とのインタフェースのための手段であってよい。より具体的な例として、電子機器110のプロセッサ212がメモリ211にロードされたコンピュータプログラムの命令を処理するにあたり、サーバ150や電子機器120が提供するデータを利用して構成されるサービス画面やコンテンツが、入力/出力インタフェース214を通じてディスプレイに表示されてよい。
The input /
また、他の実施形態において、電子機器110およびサーバ150は、図2の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、電子機器110は、上述した入力/出力装置215のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器110がスマートフォンである場合、一般的にスマートフォンが含んでいる加速度センサやジャイロセンサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素が、電子機器110にさらに含まれるように実現されてよい。
Also, in other embodiments, the
以下では、音訳モデルを利用した同義語抽出方法およびシステムの具体的な実施形態について説明する。 Hereinafter, a method for extracting synonyms using a transliteration model and a specific embodiment of the system will be described.
図3は、本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示したブロック図であり、図4は、本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。 FIG. 3 is a block diagram showing an example of components that can be included in the processor of the server in one embodiment of the present invention, and FIG. 4 is a block diagram of what the server executes in one embodiment of the present invention. It is a flowchart which showed the example of the possible method.
本実施形態に係るサーバ150は、インターネット上で使用されるキーワードを管理するサービスを提供するプラットフォームの役割を担う。特に、サーバ150は、商品辞書に含まれる各商品に対して関連キーワード間の関係を示すマルチグラフ構造を構築してよく、商品辞書に含まれる外来語の場合は、原語表記を自動抽出してマルチグラフに同義語として追加してよい。
The
サーバ150のプロセッサ222は、図4に示される同義語抽出方法を実行するための構成要素として、図3に示すように、グラフ生成部310、同義語抽出部320、および同義語追加部330を備えてよい。実施形態によって、プロセッサ222の構成要素は、選択的にプロセッサ222に含まれても除外されてもよい。また、実施形態によって、プロセッサ222の構成要素は、プロセッサ222の機能の表現のために分離されても併合されてもよい。
As shown in FIG. 3, the
このようなプロセッサ222およびプロセッサ222の構成要素は、図4の同義語抽出方法に含まれる段階410~段階430を実行するようにサーバ150を制御してよい。例えば、プロセッサ222およびプロセッサ222の構成要素は、メモリ221が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードとによる命令(instruction)を実行するように実現されてよい。
Such a
ここで、プロセッサ222の構成要素は、サーバ150に記録されたプログラムコードが提供する命令に従ってプロセッサ222によって実行される、プロセッサ222の互いに異なる機能(different functions)の表現であってよい。例えば、サーバ150がキーワード間の関係を示すマルチグラフを生成するように上述した命令に従ってサーバ150を制御するプロセッサ222の機能的表現として、グラフ生成部310が利用されてよい。
Here, the components of the
プロセッサ222は、サーバ150の制御と関連する命令がロードされたメモリ221から必要な命令を読み取ってよい。この場合、読み取られた命令は、以下で説明する段階410~段階430をプロセッサ222が実行するように制御するための命令を含んでよい。
The
段階410において、グラフ生成部310は、商品辞書に含まれる各商品に対し、商品情報から抽出されたキーワードとの関係を示すマルチグラフを生成してよい。商品辞書とは、キーワードを管理するためのデータベースシステムであって、キーワード、辞書類型、同義語集合で構成されてよい。商品辞書には、各商品別に、該当の商品とマッチングされる販売先、ブランド、カテゴリ、属性などの商品情報を含んでよい。
In step 410, the
上述した商品辞書は、商品管理(商品ブランド自動マッチング、商品カテゴリ自動マッチング、商品品質チェックなど)、ショッピング、検索、キーワード自動完成、タグ辞書、広告、ストア、NLU(自然言語理解)、AI(人工知能)などのような各種サービスで適用可能である。 The above-mentioned product dictionaries include product management (product brand automatic matching, product category automatic matching, product quality check, etc.), shopping, search, keyword automatic completion, tag dictionary, advertisement, store, NLU (natural language understanding), AI (artificial language understanding). It can be applied to various services such as intelligence).
例えば、図5に示すように、商品辞書500が、販売先510、ブランド520、カテゴリ530に区分されると仮定するとき、このような商品辞書500から販売先-ブランド、ブランド-カテゴリ、カテゴリ-販売先の関係データを抽出してよい。
For example, as shown in FIG. 5, when it is assumed that the product dictionary 500 is divided into the
図6に示すように、グラフ生成部310は、販売先IDがS1であり、ブランドIDがB1であり、カテゴリIDがC1である商品Aに対し、該当の商品にマッチングされた販売者名称「ABC」、ブランド名称「DEF」、カテゴリ名称「GHI」をそれぞれキーワードに変換してよい。グラフ生成部310は、商品Aに対し、商品Aにマッチングされる商品情報をキーワード「ABC」、「DEF」、「GHI」に変換した後、変換されたキーワード間の関係を示すマルチグラフを生成してよい。グラフ生成部310は、商品辞書から商品にマッチングされた情報間の関係データを該当の情報に変換されたキーワード間の関係データとして抽出し、マルチグラフを生成してよい。
As shown in FIG. 6, in the
図7を参照すると、グラフ生成部310は、キーワード「ABC」と「DEF」の間は販売先-ブランドという連結関係で、キーワード「DEF」と「GHI」の間はブランド-カテゴリという連結関係で、キーワード「ABC」と「GHI」の間は販売先-カテゴリという連結関係で生成されたマルチグラフ700を構築してよい。
Referring to FIG. 7, the
マルチグラフ700は、キーワード間の関係が、単一デプス(depth)のツリー構造はもちろん、複数のデプスを有するツリー構造で構築されてもよい。例えば、同一ブランド内の多数のシリーズ、すなわち、サブブランドが存在する場合は、ブランド-シリーズという連結関係が追加されてよい。 In the multigraph 700, the relationship between keywords may be constructed not only in a single depth tree structure but also in a tree structure having a plurality of depths. For example, if there are many series within the same brand, i.e., sub-brands, a brand-series consolidation relationship may be added.
上述したように、グラフ生成部310は、キーワード間の関係データを蓄積してデータベースを生成してよく、これをキーワード間の関係を示すマルチグラフ700構造として定義してよい。
As described above, the
再び図4において、段階420において、同義語抽出部320は、商品辞書に含まれるキーワードのうちの外来語に対し、音訳モデルを利用して商品名や商品関連クエリから該当の外来語の原語表記を同義語として抽出してよい。
Again, in FIG. 4, at step 420, the
ショッピングなどで使用される単語の一部には、英語やフランス語、イタリア語、ドイツ語などのような多様な外国語から同化された外来語が含まれることがある。 Some of the words used in shopping etc. may include loanwords assimilated from various foreign languages such as English, French, Italian and German.
このような外来語の場合、単語の出処(すなわち、国)を特定し難いという問題がある。例えば、「Chanel」の場合、英語で発音すれば「チャンネル」や「チャネル」などと音訳されるし、フランス語で発音すれば「シャネル」や「シャノル」、「シャヌル」などと音訳される。 In the case of such loanwords, there is a problem that it is difficult to identify the source (that is, country) of the word. For example, in the case of "Chanel", if it is pronounced in English, it is transliterated as "channel" or "channel", and if it is pronounced in French, it is transliterated as "chanel", "chanel", "chanel" or the like.
キーワード「Chanel」を使用するためには、多国の発音をすべて収容することのできる音訳範囲(transliteration coverage)が必要となる。 In order to use the keyword "Chanel", a transliteration range that can accommodate all the pronunciations of multiple countries is required.
ディープラーニング(deep learning)を基盤として音訳を支援する学習モデルも存在するが、従来の学習モデルはモデル自体が重いだけなく、多様な国の発音を一度に支援することができない。英語であれば英語学習データが、フランス語であればフランス語の学習データが必要となるため、各言語の音訳プロセッシング(processing)を経なければならないという限界がある。 There are learning models that support transliteration based on deep learning, but conventional learning models are not only heavy, but cannot support pronunciation in various countries at once. Since English learning data is required for English and French learning data is required for French, there is a limit that transliteration processing of each language must be performed.
これに比べ、本実施形態では、MWS(minimal word by sound)単位の音訳モデルを利用することによって外来語に対する同義語を抽出する。従来の学習モデルとは異なり、MWSは、学習データを最小にすることができ、多国語の発音まで1つの音訳プロセッシングで処理することができる。 In comparison with this, in the present embodiment, synonyms for foreign words are extracted by using a transliteration model in units of MWS (minimal word by sound). Unlike traditional learning models, MWS can minimize learning data and process multilingual pronunciations with a single transliteration process.
MWSとは、音節(syllable)とは異なる概念であって、発音の最小単位を意味する。表1は、単語例「happy」を音節とMWSに分けて示したものである。 MWS is a concept different from syllables and means the smallest unit of pronunciation. Table 1 shows the word example "happy" divided into syllables and MWS.
国ごと、言語ごと、人ごとに、同じ単語であっても多様な発音により、最小単位で表現することがある。表2は、単語例「happy」のMWSをハングルで表記したものである。 Even the same word may be expressed in the smallest unit by various pronunciations for each country, language, and person. Table 2 shows the MWS of the word example “happy” in Hangul.
ハングルを初声、中声、終声の次元的な区分から見るとき、ベクトル数値文字で表現してよい。例えば、ハングルの基本数値情報は、図8のテーブルのとおりとなる。 When looking at Hangul from the dimensional division of initial voice, middle voice, and final voice, it may be expressed by vector numerical characters. For example, the basic numerical information of Hangul is as shown in the table of FIG.
単語をMWSによって簡単に分離するためには、LBG(linked bi-gramed)のデータ形式を利用してよい。 In order to easily separate words by MWS, an LBG (linked bi-graded) data format may be used.
一例として、図10に示すように、商品辞書で英文単語とハングル発音表記とのペアで構成された学習データセット1001を収集した後、MWS単位の分離学習によってMWSデータセット1002を抽出してよい。
As an example, as shown in FIG. 10, after collecting a learning
以下、音訳プロセッシング過程について説明する。 The transliteration processing process will be described below.
図11および図12は、英文単語「naver」(登録商標)に対する音訳プロセッシング過程を示している。 11 and 12 show the transliteration processing process for the English word "naver"®.
プロセッサ222は、英文単語「naver」を、MWSによって分離可能なすべての場合の候補群に分離してよい(S1)。
プロセッサ222は、段階S1で分離された候補群から、事前に構築されたMWSデータセット1002に存在するMWSを抽出してよい(S2)。
プロセッサ222は、段階S1で分離された各候補群に、段階S2で抽出されたMWSをマッピングしてよい(S3)。
プロセッサ222は、段階S3でマッピングされたMWSを互いに連結して併合してよい(S4)。このとき、候補群のうちの1つでもMWSデータセット1002に存在しない場合は、該当の候補群は除外してよい。
プロセッサ222は、段階S4で併合されたMWSを音訳してよい(S5)。言い換えれば、プロセッサ222は、併合されたMWSにマッピングされたハングルベクトルをデコードすることにより、英文単語の音訳を取得してよい。図12のS5過程の結果において、カッコの内の数字は、該当のハングル単語が図10のMWS学習データセットから抽出された個数を意味してよく、必要時には、同義語を多様に抽出することのできる基礎として活用してよい。
音訳プロセッシング結果の一例を下記のように示すが、これに限定されることはない。 An example of transliteration processing results is shown below, but is not limited to this.
英文同義語を例とする一実施形態として、音訳モデルを経ることのできなかったハングル単語と英文同義語を収集し、従来の商品辞書から抽出されたMWSデータセットと共通するデータセットを抽出した後、最終MWSデータセットと併合させて適用してもよい。 As an embodiment using English synonyms as an example, Korean words and English synonyms that could not go through the transliteration model were collected, and a data set common to the MWS data set extracted from the conventional product dictionary was extracted. Later, it may be merged with the final MWS dataset and applied.
同義語抽出部320は、上述した音訳プロセッシングを経ることで、商品辞書に含まれる外来語に対して原語表記の同義語を抽出してよい。
The
以下では、ハングルで表記された外来語の英語表記、すなわち、英文同義語を例として具体的な実施形態について説明する。 In the following, a specific embodiment will be described by taking an English notation of a loan word written in Hangul, that is, an English synonym as an example.
同義語抽出部320は、商品辞書に含まれるキーワードのうちで外来語を対象キーワードとし、各対象キーワードに対して対象キーワードを検索クエリとして入力したユーザがクリックした商品名リスト、各クリック商品と関連するタグリスト、および各クリック商品と関連する他のクエリリスト(一例として、同一商品をクリックした他のユーザによって入力されたクエリ、同一ユーザが同一商品をクリックする前に入力した他のクエリなど)のうちの少なくとも1つのキーワードリストを抽出してよい。本明細書において、クリックとは、ユーザによるすべての類型の選択入力を意味してよい。図13は、対象キーワード
と関連するクリック商品名リスト1311と、
と関連するクリック商品名リスト1321を例示的に示している。
The
Related to Click
The click
同義語抽出部320は、対象キーワードに対して抽出されたクリック商品名リストとクリック商品関連タグリスト、およびクエリリストのうちの少なくとも1つのキーワードリストから特定の言語の単語、すなわち、英文単語を抽出してよい。
The
図14は、対象キーワード
と関連するクリック商品名リスト1311から抽出された英文単語リスト1411と、
と関連するクリック商品名リスト1321から抽出された英文単語リスト1421を例示的に示している(なお、図14において、uniqloおよびエアリズム(airism)は登録商標である(他の図面においても同様))。
FIG. 14 shows the target keywords.
The
An
同義語抽出部320は、音訳モデルを実行させ、先立って抽出された英文単語リストのうちから対象キーワードとマッチングする英文単語を抽出してよい。
The
図15は、対象キーワード
と英文単語リスト1411とのマッチング結果1511と、対象キーワード
と英文単語リスト1421とのマッチング結果1521を例示的に示している。
FIG. 15 shows the target keywords.
The
同義語抽出部320は、対象キーワードに対してマッチングされた英文単語を置換して英文同義語候補を抽出してよい。
The
図16は、対象キーワード
に対する英文同義語候補1611と、
に対する英文同義語候補1621を示している。
FIG. 16 shows the target keywords.
Shows
同義語抽出部320は、対象キーワードと関連するクリック商品名リストとクリック商品関連タグ/クエリリストに英文同義語候補が出現するか否か、あるいは出現する頻度などに基づいて最終英文同義語を決定してよい。同義語抽出部320は、英文同義語候補の単語が対象キーワードと関連するクリック商品名リストとクリック商品関連タグ/クエリリストに出現するパターンと一致する場合に最終英文同義語として決定してよく、あるいは英文同義語候補が複数であるときには、対象キーワードと関連するクリック商品名リストとクリック商品関連タグ/クエリリストで最も多く出現するパターンの単語を最終英文同義語として決定してよい。言い換えれば、同義語抽出部320は、対象キーワードと関連するクリック商品名リストとクリック商品関連タグ/クエリリストを利用することにより、対象キーワードの原語表記である英文同義語を検証することが可能となる。
The
再び図4において、段階430において、同義語追加部330は、外来語の原語表記を同義語としてマルチグラフ上に追加登録してよい。このとき、マルチグラフ上の従来のキーワードと同義語との関係を設定してよい。
Again, in FIG. 4, at step 430, the
図17を参照すると、キーワード「ABC」と「DEF」との間が販売先-ブランドという連結関係、キーワード「DEF」と「GHI」との間がブランド-カテゴリという連結関係、キーワード「ABC」と「GHI」との間が販売先-カテゴリという連結関係で生成されたマルチグラフ700において、販売者名称「ABC」が外来語に該当する場合、マルチグラフ700上に外来語「ABC」の原語表記「XXX」を同義語1701として追加し、キーワード「ABC」と「XXX」との間に同義語関係を設定してよい。
Referring to FIG. 17, the keyword "ABC" and "DEF" have a connection relationship of sales destination-brand, the keywords "DEF" and "GHI" have a connection relationship of brand-category, and the keyword "ABC". In the multigraph 700 generated by the connection relationship of "sales destination-category" with "GHI", if the seller name "ABC" corresponds to a foreign word, the original word notation of the foreign word "ABC" is displayed on the multigraph 700. "XXX" may be added as a
また、マルチグラフ700上のキーワードのうち、対象キーワード「ABC」と関連するクリック商品名リストとクリック商品関連タグ/クエリリストに同義語1701とともに出現するキーワードとの関係を追加設定してよい。
Further, among the keywords on the multigraph 700, the relationship between the click product name list related to the target keyword “ABC” and the keyword appearing together with the
したがって、本実施形態では、商品辞書に登録された外来語に対して原語表記の同義語を見つけ出し、自動登録することが可能となる。 Therefore, in the present embodiment, it is possible to find synonyms of the original word notation for foreign words registered in the product dictionary and automatically register them.
上述した方式を利用して商品辞書に登録されたキーワードに対して原語表記のキーワードを同義語として抽出してマルチグラフ上に追加登録することにより、キーワード間の同義語処理を解決しながら、マルチグラフを自動で拡張することが可能となる。 By extracting the keywords in the original language as synonyms for the keywords registered in the product dictionary using the above method and additionally registering them on the multigraph, the multi-synonyms can be processed while solving the synonym processing between the keywords. The graph can be expanded automatically.
音訳モデルを利用して外来語の原語表記を同義語として自動処理することにより、キーワード管理作業の自動化を実現し、関連作業のリソースを画期的に減らすことができる。 By automatically processing the original word notation of loanwords as synonyms using a transliteration model, it is possible to realize automation of keyword management work and dramatically reduce resources for related work.
上述では、音訳モデルを利用した同義語処理過程がマルチグラフを生成する過程の後になされる従属する過程として説明しているが、これに限定されることはなく、実施形態によっては、マルチグラフとは関係なく、個別の独立した過程として実行されることも可能である。 In the above, the synonym processing process using the transliteration model is described as a subordinate process performed after the process of generating the multigraph, but the present invention is not limited to this, and depending on the embodiment, the multigraph may be used. Can also be carried out as a separate and independent process, regardless of.
このように、本発明の実施形態によると、商品情報から抽出されたキーワードに対し、キーワード間の関係を示すマルチグラフ構造を構築することができ、外来語の場合には、同義語として原語表記を自動抽出してマルチグラフに追加することができる。さらに、本発明の実施形態によると、外来語に対して音訳モデルを利用して商品名や商品関連クエリに出現する単語から該当の外来語の原語表記を抽出し、同義語として処理することができる。 As described above, according to the embodiment of the present invention, it is possible to construct a multigraph structure showing the relationship between the keywords for the keywords extracted from the product information, and in the case of a loan word, the original language is expressed as a synonym. Can be automatically extracted and added to the multigraph. Further, according to the embodiment of the present invention, it is possible to extract the original word notation of the loan word from the word appearing in the product name or the product-related query by using the transliteration model for the loan word and process it as a synonym. can.
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。 The devices described above may be implemented by hardware components, software components, and / or combinations of hardware components and software components. For example, the apparatus and components described in the embodiments include a processor, a controller, an ALU (arithmetic logic unit), a digital signal processor, a microcomputer, an FPGA (field programgable gate array), a PLU (programmable log unit), a microprocessor, and the like. Alternatively, it may be implemented using one or more general purpose computers or special purpose computers, such as various devices capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the OS. The processing device may also respond to the execution of the software, access the data, and record, manipulate, process, and generate the data. For convenience of understanding, one processing device may be described as being used, but one of ordinary skill in the art may include a plurality of processing elements and / or a plurality of types of processing elements. You can understand. For example, the processing device may include multiple processors or one processor and one controller. Also, other processing configurations such as parallel processors are possible.
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてもよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。 The software may include computer programs, codes, instructions, or a combination of one or more of these, configuring the processing equipment to operate at will, or instructing the processing equipment independently or collectively. You may do it. The software and / or data is embodied in any type of machine, component, physical device, computer recording medium or device to be interpreted based on the processing device or to provide instructions or data to the processing device. May be good. The software is distributed on a computer system connected by a network and may be recorded or executed in a distributed state. The software and data may be recorded on one or more computer-readable recording media.
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例は、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。 The method according to the embodiment may be realized in the form of program instructions that can be executed by various computer means and recorded on a computer-readable medium. Here, the medium may be a continuous recording of a computer-executable program or a temporary recording for execution or download. Further, the medium may be various recording means or storage means in the form of a combination of a single piece of hardware or a plurality of pieces of hardware, and is not limited to a medium directly connected to a certain computer system, but is distributed over a network. It may exist. Examples of media include hard disks, floppy (registered trademark) disks, magnetic media such as magnetic tapes, optical media such as CD-ROMs and DVDs, optical magnetic media such as floptic discs, and It may include a ROM, a RAM, a flash memory, and the like, and may be configured to record program instructions. Other examples of media include recording media or storage media managed by application stores that distribute applications, sites that supply or distribute various other software, servers, and the like.
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって代替されたり置換されたとしても、適切な結果を達成することができる。 As described above, the embodiments have been described based on the limited embodiments and drawings, but those skilled in the art will be able to make various modifications and modifications from the above description. For example, the techniques described may be performed in a different order than the methods described, and / or components such as the systems, structures, devices, circuits described may be in a different form than the methods described. Appropriate results can be achieved even if they are combined or combined, or replaced or replaced by other components or equivalents.
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。 Therefore, even if the embodiments are different, they belong to the attached claims as long as they are equivalent to the claims.
222:プロセッサ
310:グラフ生成部
320:同義語抽出部
330:同義語追加部
222: Processor 310: Graph generation unit 320: Synonym extraction unit 330: Synonym addition unit
Claims (19)
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
当該同義語抽出方法は、
前記少なくとも1つのプロセッサにより、商品辞書上のキーワード間の関係を示すマルチグラフを生成する段階、
前記少なくとも1つのプロセッサにより、前記商品辞書に含まれるキーワードのうちの外来語に該当する対象キーワードに対し、前記対象キーワードと関連するキーワードリストを抽出する段階、
前記少なくとも1つのプロセッサにより、音訳モデルを利用し、前記キーワードリストから前記対象キーワードの原語表記キーワードを前記対象キーワードの同義語として抽出する段階、および
前記少なくとも1つのプロセッサにより、前記同義語を前記マルチグラフに追加登録する段階を含む、同義語抽出方法。 It is a synonym extraction method performed by a computer system.
The computer system comprises at least one processor configured to execute a computer-readable instruction contained in memory.
The synonym extraction method is
The stage of generating a multigraph showing the relationship between keywords on the product dictionary by the at least one processor.
A step of extracting a keyword list related to the target keyword for a target keyword corresponding to a loan word among the keywords included in the product dictionary by the at least one processor .
The stage of extracting the original word notation keyword of the target keyword from the keyword list as a synonym of the target keyword by using the transliteration model by the at least one processor , and
A method for extracting synonyms, which comprises a step of additionally registering the synonyms in the multigraph by the at least one processor .
前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つを抽出する、
請求項1に記載の同義語抽出方法。 The stage of extracting the keyword list is
Extract at least one of the product name list clicked after inputting the target keyword as a search query, other query lists related to each clicked product, and tag list related to each clicked product.
The synonym extraction method according to claim 1.
発音の最小単位を利用した音訳モデルを利用して前記同義語を抽出する、
請求項1または2に記載の同義語抽出方法。 The stage of extracting the synonyms is
Extract the synonyms using a transliteration model that uses the smallest unit of pronunciation.
The synonym extraction method according to claim 1 or 2.
LBG(linked bi-gramed)のデータ形式を利用して前記対象キーワードを発音の最小単位に分離する段階
を含む、請求項3に記載の同義語抽出方法。 The stage of extracting the synonyms is
The synonym extraction method according to claim 3, further comprising a step of separating the target keyword into the smallest unit of pronunciation by using a data format of LBG (linked bi-graded).
前記音訳モデルを利用して前記キーワードリストから抽出された単語のうちから前記対象キーワードとマッチングされる単語を前記同義語として抽出する段階
を含む、請求項1または2に記載の同義語抽出方法。 The stage of extracting the synonyms is
The synonym extraction method according to claim 1 or 2, which comprises a step of extracting a word matched with the target keyword from the words extracted from the keyword list using the transliteration model as the synonym.
前記対象キーワードに対して前記マッチングされる単語を置換することで同義語候補を抽出する段階
をさらに含む、請求項5に記載の同義語抽出方法。 The stage of extracting the synonyms is
The synonym extraction method according to claim 5, further comprising a step of extracting a synonym candidate by substituting the matched word for the target keyword.
前記キーワードリストから特定言語の単語を抽出する
ことを含む、請求項5に記載の同義語抽出方法。 The stage of extracting the synonyms is
Extract words of a specific language from the keyword list
The synonym extraction method according to claim 5, which comprises the above.
前記キーワードリストから抽出された単語のうちから前記対象キーワードとマッチングされる単語を前記同義語として抽出する段階以前に、前記対象キーワードが複合語からなる場合、単一語に分離する段階
をさらに含む、請求項5に記載の同義語抽出方法。 The stage of extracting the synonyms is
Prior to the step of extracting the word matched with the target keyword from the words extracted from the keyword list as the synonym, if the target keyword consists of compound words, the step of separating into a single word is further included. , The synonym extraction method according to claim 5.
前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つに出現するパターンと一致する場合に前記同義語として決定するか、あるいは前記同義語候補が複数であるときには前記対象キーワードと関連する前記クリックした商品名リスト、前記他のクエリリスト、前記タグリストのうちの少なくとも1つで最も多く出現するパターンの単語を最終英文同義語として決定する段階
をさらに含む、請求項5に記載の同義語抽出方法。 The stage of extracting the synonyms is
When it matches the pattern that appears in at least one of the product name list clicked after entering the target keyword as a search query, other query lists related to each clicked product, and tag list related to each clicked product. It is determined as the synonym, or when there are a plurality of synonym candidates, it appears most frequently in at least one of the clicked product name list, the other query list, and the tag list related to the target keyword. The synonym extraction method according to claim 5, further comprising a step of determining a word having a pattern to be used as a final English synonym .
前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つに前記対象キーワードとマッチングされる単語が出現するか否か、または出現する頻度に基づいて前記同義語を決定する段階
をさらに含む、請求項5に記載の同義語抽出方法。 The stage of extracting the synonyms is
A word that matches the target keyword in at least one of the product name list clicked after entering the target keyword as a search query, other query lists related to each click product, and the tag list associated with each click product. The synonym extraction method according to claim 5, further comprising a step of determining the synonym based on whether or not the item appears or how often the item appears.
前記商品辞書に含まれる各商品別に、該当の商品にマッチングされる商品情報をキーワードに変換する段階、および
前記商品辞書から前記商品にマッチングされる情報間の関係データをキーワード間の関係データとして抽出する段階
を含む、請求項1に記載の同義語抽出方法。 The generation stage is
For each product included in the product dictionary, the stage of converting the product information matched to the corresponding product into a keyword, and extracting the relationship data between the information matched to the product from the product dictionary as the relationship data between the keywords. The synonym extraction method according to claim 1 , which comprises the step of performing.
前記マルチグラフ上に前記対象キーワードと前記同義語との関係を追加する、
請求項10または11に記載の同義語抽出方法。 The stage of additional registration is
Add the relationship between the target keyword and the synonym on the multigraph .
The synonym extraction method according to claim 10 .
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
商品辞書上のキーワード間の関係を示すマルチグラフを生成するグラフ生成部、
前記商品辞書に含まれるキーワードのうちの外来語に該当する対象キーワードに対し、前記対象キーワードと関連するキーワードリストを抽出した後、音訳モデルを利用して前記キーワードリストから前記対象キーワードの原語表記キーワードを前記対象キーワードの同義語として抽出する同義語抽出部、および、
前記同義語を前記マルチグラフに追加登録する同義語追加部
を備える、コンピュータシステム。 It ’s a computer system,
Contains at least one processor configured to execute computer-readable instructions contained in memory.
The at least one processor
Graph generator that generates a multi-graph showing the relationship between keywords in the product dictionary,
After extracting a keyword list related to the target keyword for the target keyword corresponding to a loan word among the keywords included in the product dictionary, the original word notation keyword of the target keyword is used from the keyword list using a transliteration model. As a synonym of the target keyword, a synonym extraction unit, and
Synonym addition unit that additionally registers the synonym in the multigraph
A computer system.
前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つを抽出する、
請求項14に記載のコンピュータシステム。 The synonym extraction unit
Extract at least one of the product name list clicked after inputting the target keyword as a search query, other query lists related to each clicked product, and tag list related to each clicked product.
The computer system according to claim 14 .
発音の最小単位を利用した音訳モデルを利用して前記同義語を抽出する、
請求項14に記載のコンピュータシステム。 The synonym extraction unit
Extract the synonyms using a transliteration model that uses the smallest unit of pronunciation.
The computer system according to claim 14 .
LBG(linked bi-gramed)のデータ形式を利用して前記対象キーワードを発音の最小単位に分離する、
請求項16に記載のコンピュータシステム。 The synonym extraction unit
Using the LBG (linked bi-graded) data format, the target keyword is separated into the smallest units of pronunciation.
The computer system according to claim 16 .
前記音訳モデルを利用して前記キーワードリストから抽出された単語のうちで前記対象キーワードとマッチングされる単語を前記同義語として抽出する、
請求項14に記載のコンピュータシステム。 The synonym extraction unit
Among the words extracted from the keyword list using the transliteration model, the words that match the target keyword are extracted as synonyms.
The computer system according to claim 14 .
前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つに前記対象キーワードとマッチングされる単語が出現するか否か、または出現する頻度に基づいて前記同義語を決定するか、前記クリックした商品名リスト、前記他のクエリリスト、前記タグリストのうちの少なくとも1つに出現するパターンと一致する場合に前記同義語として決定するか、あるいは前記同義語候補が複数であるときには前記対象キーワードと関連する前記クリックした商品名リスト、前記他のクエリリスト、前記タグリストのうちの少なくとも1つで最も多く出現するパターンの単語を最終英文同義語として決定する、
請求項18に記載のコンピュータシステム。 The synonym extraction unit
A word that matches the target keyword in at least one of the product name list clicked after entering the target keyword as a search query, other query lists related to each click product, and the tag list associated with each click product. Determines the synonym based on whether or not it appears, or how often it appears, or matches a pattern that appears in at least one of the clicked product name list, the other query list, or the tag list. In this case, it is determined as the synonym, or when there are a plurality of synonym candidates, at least one of the clicked product name list, the other query list, and the tag list related to the target keyword. Determine the word with the most frequently occurring pattern as the final English synonym ,
The computer system according to claim 18 .
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190018535A KR102192376B1 (en) | 2019-02-18 | 2019-02-18 | Method and system for extracting foreign synonym using transliteration model |
KR10-2019-0018535 | 2019-02-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020135877A JP2020135877A (en) | 2020-08-31 |
JP7014830B2 true JP7014830B2 (en) | 2022-02-01 |
Family
ID=72242536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020018525A Active JP7014830B2 (en) | 2019-02-18 | 2020-02-06 | Methods and systems for automatically extracting foreign synonyms using a transliteration model |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7014830B2 (en) |
KR (1) | KR102192376B1 (en) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003263429A (en) | 2002-03-07 | 2003-09-19 | Nippon Hoso Kyokai <Nhk> | Loan work matching device and its program |
JP2004280467A (en) | 2003-03-14 | 2004-10-07 | Nippon Hoso Kyokai <Nhk> | Translation device, translation method, and its program |
JP2004280353A (en) | 2003-03-14 | 2004-10-07 | Patolis Corp | Method for automatically extracting korean foreign word |
JP2009223463A (en) | 2008-03-14 | 2009-10-01 | Nippon Telegr & Teleph Corp <Ntt> | Synonymy determination apparatus, method therefor, program, and recording medium |
KR20100003178A (en) | 2008-06-30 | 2010-01-07 | 주식회사 한글과 컴퓨터 | Apparatus for searching multi-language apparatus |
US20130338996A1 (en) | 2008-07-18 | 2013-12-19 | Google Inc. | Transliteration For Query Expansion |
JP2016200978A (en) | 2015-04-10 | 2016-12-01 | 株式会社日立製作所 | Training data generation device |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100511247B1 (en) * | 2003-06-13 | 2005-08-31 | 홍광석 | Language Modeling Method of Speech Recognition System |
KR101231438B1 (en) * | 2011-05-25 | 2013-02-07 | 엔에이치엔(주) | Search reasult providing system and method for providing loan word pronunciation search service |
KR101515416B1 (en) * | 2014-05-28 | 2015-04-30 | 김수현 | Differential display method and system for search result |
-
2019
- 2019-02-18 KR KR1020190018535A patent/KR102192376B1/en active IP Right Grant
-
2020
- 2020-02-06 JP JP2020018525A patent/JP7014830B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003263429A (en) | 2002-03-07 | 2003-09-19 | Nippon Hoso Kyokai <Nhk> | Loan work matching device and its program |
JP2004280467A (en) | 2003-03-14 | 2004-10-07 | Nippon Hoso Kyokai <Nhk> | Translation device, translation method, and its program |
JP2004280353A (en) | 2003-03-14 | 2004-10-07 | Patolis Corp | Method for automatically extracting korean foreign word |
JP2009223463A (en) | 2008-03-14 | 2009-10-01 | Nippon Telegr & Teleph Corp <Ntt> | Synonymy determination apparatus, method therefor, program, and recording medium |
KR20100003178A (en) | 2008-06-30 | 2010-01-07 | 주식회사 한글과 컴퓨터 | Apparatus for searching multi-language apparatus |
US20130338996A1 (en) | 2008-07-18 | 2013-12-19 | Google Inc. | Transliteration For Query Expansion |
JP2016200978A (en) | 2015-04-10 | 2016-12-01 | 株式会社日立製作所 | Training data generation device |
Also Published As
Publication number | Publication date |
---|---|
JP2020135877A (en) | 2020-08-31 |
KR102192376B1 (en) | 2020-12-17 |
KR20200100360A (en) | 2020-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6714024B2 (en) | Automatic generation of N-grams and conceptual relationships from language input data | |
JP2021530818A (en) | Natural language interface for databases with autonomous agents and thesaurus | |
KR102075505B1 (en) | Method and system for extracting topic keyword | |
JP2016186805A5 (en) | ||
JP2014142951A (en) | Modular system and method for managing chinese, japanese and korean linguistic data in electronic form | |
US10134067B2 (en) | Autocomplete of searches for data stored in multi-tenant architecture | |
WO2016121048A1 (en) | Text generation device and text generation method | |
JP2021179979A (en) | Method for extracting attribute of item for shopping search | |
US20160154885A1 (en) | Method for searching a database | |
KR102277240B1 (en) | Method and system for extracting synonym by using keyword relation structure | |
KR102415366B1 (en) | Method and system for retrieving associative image through multimodality ranking model using different modal features | |
KR20200097949A (en) | Method and system for extracting synonym by using keyword relation structure | |
JP2021072120A (en) | Method and device for recommending short-cut of application function on the basis of application usage pattern and conversation analysis | |
JP7014830B2 (en) | Methods and systems for automatically extracting foreign synonyms using a transliteration model | |
KR102195191B1 (en) | Method and system for extracting new keyword by using keyword relation structure | |
KR20210006098A (en) | Method and system for determining document consistence to improve document search quality | |
KR20190000061A (en) | Method and system for providing relevant keywords based on keyword attribute | |
JP2020155108A (en) | Method and system for grouping channels in plural social network services and non-temporary computer-readable storage medium | |
JP2022002034A (en) | Extraction method, extraction program, and extraction device | |
KR102240454B1 (en) | Method and system for extracting synonym by using query analysis based on keyword relation structure | |
US20240104297A1 (en) | Analysis of spreadsheet table in response to user input | |
CN118070291B (en) | Vulnerability information processing method and electronic equipment | |
US11397862B2 (en) | Configuring metrics and recall levels for natural language processing annotator | |
KR102206289B1 (en) | Method and system for integrating poi search coverage | |
KR20240029945A (en) | Method, computer device, and computer program for item ledger platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220111 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220120 |