Nothing Special   »   [go: up one dir, main page]

JP7014830B2 - Methods and systems for automatically extracting foreign synonyms using a transliteration model - Google Patents

Methods and systems for automatically extracting foreign synonyms using a transliteration model Download PDF

Info

Publication number
JP7014830B2
JP7014830B2 JP2020018525A JP2020018525A JP7014830B2 JP 7014830 B2 JP7014830 B2 JP 7014830B2 JP 2020018525 A JP2020018525 A JP 2020018525A JP 2020018525 A JP2020018525 A JP 2020018525A JP 7014830 B2 JP7014830 B2 JP 7014830B2
Authority
JP
Japan
Prior art keywords
synonym
product
keyword
list
target keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020018525A
Other languages
Japanese (ja)
Other versions
JP2020135877A (en
Inventor
政訓 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2020135877A publication Critical patent/JP2020135877A/en
Application granted granted Critical
Publication of JP7014830B2 publication Critical patent/JP7014830B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/2448Query languages for particular applications; for extensibility, e.g. user defined types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Description

以下の説明は、同義語抽出技術に関し、より詳細には、外来語の原語表記を抽出する技術に関する。 The following description relates to a technique for extracting synonyms, and more particularly to a technique for extracting the original word notation of a loan word.

ユーザがインターネットを利用して情報を収集しようとする場合、情報を提供しているサーバに接続し、検索によって該当の情報を得るのが一般的である。 When a user tries to collect information using the Internet, it is common to connect to a server that provides the information and obtain the relevant information by searching.

ある商品を購入しようとする場合、検索サイトを利用してその価格や特性などに関する情報を取得したり、あるいは該当の商品を販売しているウェブサイトに移動したりする。 When you try to buy a product, you can use a search engine to get information about its price, characteristics, etc., or you can go to the website that sells the product.

商品を検索するためには、商品モデルとカテゴリをマッチングさせる過程を含んだ商品登録の手順が必要となる。例えば、特許文献1(登録日2007年04月03日)には、商品モデルとカテゴリを自動でマッチングさせて商品情報を登録する技術が開示されている。 In order to search for a product, a product registration procedure including a process of matching a product model and a category is required. For example, Patent Document 1 (registration date: April 03, 2007) discloses a technique for automatically matching a product model and a category and registering product information.

韓国登録特許第10-0705410号公報Korean Registered Patent No. 10-0705410

商品情報から抽出されたキーワードに対し、キーワード間の関係を示すマルチグラフ構造を構築することができ、外来語の場合には、同義語として原語表記を自動抽出してマルチグラフに追加することができる方法およびシステムを提供する。 For keywords extracted from product information, it is possible to build a multigraph structure that shows the relationship between keywords, and in the case of loanwords, it is possible to automatically extract the original language notation as a synonym and add it to the multigraph. Provide possible methods and systems.

外来語に対し、音訳モデル(transliteration model)を利用して商品名や商品関連クエリに出現する単語から該当の外来語の原語表記を抽出し、同義語として処理することができる方法およびシステムを提供する。 Provides a method and system that can extract the original word notation of the loan word from the word that appears in the product name or product-related query using the transliteration model for the loan word and process it as a synonym. do.

コンピュータシステムが実行する同義語抽出方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、当該同義語抽出方法は、前記少なくとも1つのプロセッサにより、対象キーワードに対し、前記対象キーワードと関連するキーワードリストを抽出する段階、および前記少なくとも1つのプロセッサにより、音訳モデル(transliteration model)を利用して前記キーワードリストから前記対象キーワードの原語表記に該当する同義語を抽出する段階を含む、同義語抽出方法を提供する。 A method of extracting synonyms performed by a computer system, wherein the computer system includes at least one processor configured to execute a computer-readable instruction contained in memory, wherein the method of extracting synonyms is described above. A step of extracting a keyword list related to the target keyword for the target keyword by at least one processor, and a transliteration model of the target keyword from the keyword list by the at least one processor. Provided is a synonym extraction method including a step of extracting a synonym corresponding to the original language notation.

一側面によると、前記キーワードリストを抽出する段階は、前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つを抽出してよい。 According to one aspect, the stage of extracting the keyword list is the product name list clicked after inputting the target keyword as a search query, other query lists related to each clicked product, and tag list related to each clicked product. At least one of them may be extracted.

他の側面によると、前記同義語を抽出する段階は、発音の最小単位を利用した音訳モデルを利用して前記同義語を抽出してよい。 According to another aspect, at the stage of extracting the synonyms, the synonyms may be extracted by using a transliteration model using the smallest unit of pronunciation.

また他の側面によると、前記同義語を抽出する段階は、リンク型バイグラム(LBG:linked bi-gramed)のデータ形式を利用して前記対象キーワードを発音の最小単位に分離する段階を含んでよい。 According to another aspect, the step of extracting the synonym may include the step of separating the target keyword into the smallest unit of pronunciation by using the data format of linked bi-gram (LBG). ..

また他の側面によると、前記同義語を抽出する段階は、前記音訳モデルを利用して前記キーワードリストから抽出された単語のうちから、前記対象キーワードとマッチングする単語を前記同義語として抽出する段階を含んでよい。 According to another aspect, the step of extracting the synonym is a step of extracting a word matching the target keyword from the words extracted from the keyword list using the transliteration model as the synonym. May include.

また他の側面によると、前記同義語を抽出する段階は、前記対象キーワードに対して前記マッチングする単語を置換して同義語候補を抽出する段階をさらに含んでよい。 Further, according to another aspect, the step of extracting the synonym may further include a step of substituting the matching word for the target keyword and extracting a synonym candidate.

また他の側面によると、前記同義語を抽出する段階は、前記キーワードリストから特定言語の単語を抽出する段階をさらに含んでよい。 Further, according to another aspect, the step of extracting the synonym may further include the step of extracting a word of a specific language from the keyword list.

また他の側面によると、前記同義語を抽出する段階は、前記対象キーワードが複合語からなる場合、単一語に分離する段階をさらに含んでよい。 Further, according to another aspect, the step of extracting the synonym may further include the step of separating into a single word when the target keyword consists of a compound word.

また他の側面によると、前記同義語を抽出する段階は、前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つを利用して前記同義語を検証する段階をさらに含んでよい。 According to another aspect, at the stage of extracting the synonyms, the product name list clicked after inputting the target keyword as a search query, other query lists related to each clicked product, and tags related to each clicked product. It may further include the step of verifying the synonym using at least one of the lists.

また他の側面によると、前記同義語を抽出する段階は、前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つに前記対象キーワードとマッチングする単語が出現するか否か、または出現する頻度に基づいて前記同義語を決定する段階をさらに含んでよい。 According to another aspect, at the stage of extracting the synonyms, the product name list clicked after inputting the target keyword as a search query, other query lists related to each clicked product, and tags related to each clicked product. It may further include determining the synonym based on whether or not a word matching the target keyword appears in at least one of the lists, or how often it appears.

また他の側面によると、前記同義語抽出方法は、前記少なくとも1つのプロセッサにより、商品辞書上のキーワード間の関係を示すマルチグラフを生成する段階、および前記少なくとも1つのプロセッサにより、前記同義語を前記マルチグラフに追加登録する段階をさらに含んでよい。 According to another aspect, the synonym extraction method is a step of generating a multigraph showing a relationship between keywords on a product dictionary by the at least one processor, and the synonym is obtained by the at least one processor. It may further include a step of additional registration to the multigraph.

また他の側面によると、前記生成する段階は、前記商品辞書に含まれる各商品別に、該当の商品とマッチングする商品情報をキーワードに変換する段階、および前記商品辞書から前記商品とマッチングする情報間の関係データをキーワード間の関係データとして抽出する段階を含んでよい。 According to another aspect, the generation stage is a stage of converting the product information matching with the corresponding product into a keyword for each product included in the product dictionary, and between the information matching with the product from the product dictionary. It may include a step of extracting the relational data of the above as the relational data between keywords.

さらに他の側面によると、前記追加登録する段階は、前記マルチグラフ上に前記対象キーワードと前記同義語との関係を追加するか、あるいは前記マルチグラフ上のキーワードのうちで前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つに前記同義語とともに出現するキーワード間の関係を追加してよい。 According to still another aspect, in the stage of additional registration, the relationship between the target keyword and the synonym is added on the multigraph, or the target keyword is searched among the keywords on the multigraph. Add the relationship between keywords that appear with the synonym to at least one of the product name list you clicked after entering, the other query list associated with each clicked product, and the tag list associated with each clicked product. good.

前記同義語抽出方法をコンピュータに実行させるためのプログラムを提供する。 A program for causing a computer to execute the synonym extraction method is provided.

コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、対象キーワードに対し、前記対象キーワードと関連するキーワードリストを抽出した後、音訳モデルを利用して前記キーワードリストから前記対象キーワードの原語表記に該当する同義語を抽出する同義語抽出部を備える、コンピュータシステムを提供する。 A computer system comprising at least one processor configured to execute a computer-readable instruction contained in memory, wherein the at least one processor is a keyword list associated with the subject keyword for the subject keyword. Provided is a computer system including a synonym extraction unit that extracts synonyms corresponding to the original word notation of the target keyword from the keyword list by using a transliteration model.

本発明の実施形態によると、商品情報から抽出されたキーワードに対し、キーワード間の関係を示すマルチグラフ構造を構築することができ、外来語の場合には、同義語として原語表記を自動抽出してマルチグラフに追加することができる。 According to the embodiment of the present invention, it is possible to construct a multigraph structure showing the relationship between keywords for the keywords extracted from the product information, and in the case of foreign words, the original word notation is automatically extracted as a synonym. Can be added to the multigraph.

本発明の実施形態によると、外来語に対して音訳モデルを利用して商品名や商品関連クエリに出現する単語から該当の外来語の原語表記を抽出し、同義語として処理することができる。 According to the embodiment of the present invention, the original word notation of the loan word can be extracted from the word appearing in the product name or the product-related query by using the transliteration model for the loan word and processed as a synonym.

本発明の一実施形態における、ネットワーク環境の例を示した図である。It is a figure which showed the example of the network environment in one Embodiment of this invention. 本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。It is a block diagram for demonstrating the internal structure of the electronic device and the server in one Embodiment of this invention. 本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示したブロック図である。It is a block diagram which showed the example of the component which the processor of a server can include in one Embodiment of this invention. 本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。It is a flowchart which showed the example of the method which a server can execute in one Embodiment of this invention. 本発明の一実施形態における、キーワード管理のための商品辞書の構成例を示した図である。It is a figure which showed the structural example of the product dictionary for keyword management in one Embodiment of this invention. 本発明の一実施形態における、商品情報をキーワードに変換する過程の一例を説明するための図である。It is a figure for demonstrating an example of the process of converting the product information into a keyword in one Embodiment of this invention. 本発明の一実施形態における、キーワードとの関係を示すマルチグラフを構築する過程の一例を説明するための図である。It is a figure for demonstrating an example of the process of constructing the multigraph which shows the relationship with a keyword in one Embodiment of this invention. 本発明の一実施形態における、ハングルのベクトル数値文字で表現した例を示した図である。It is a figure which showed the example expressed by the vector numerical character of Hangul in one Embodiment of this invention. 本発明の一実施形態における、LBGデータ形式を利用した分離方式の一例を説明するための図である。It is a figure for demonstrating an example of the separation method using the LBG data format in one Embodiment of this invention. 本発明の一実施形態における、MWS(minimal word by sound)単位のデータセットを抽出する過程の一例を説明するための図である。It is a figure for demonstrating an example of the process of extracting the data set of MWS (minimal word by sound) unit in one Embodiment of this invention. 本発明の一実施形態における、音訳プロセッシング過程の一例を説明するための図である。It is a figure for demonstrating an example of the transliteration processing process in one Embodiment of this invention. 本発明の一実施形態における、音訳プロセッシング過程の一例を説明するための図である。It is a figure for demonstrating an example of the transliteration processing process in one Embodiment of this invention. 本発明の一実施形態における、音訳モデルを利用した英文同義語抽出過程の一例を説明するための図である。It is a figure for demonstrating an example of the English synonym extraction process using the transliteration model in one Embodiment of this invention. 本発明の一実施形態における、音訳モデルを利用した英文同義語抽出過程の一例を説明するための図である。It is a figure for demonstrating an example of the English synonym extraction process using the transliteration model in one Embodiment of this invention. 本発明の一実施形態における、音訳モデルを利用した英文同義語抽出過程の一例を説明するための図である。It is a figure for demonstrating an example of the English synonym extraction process using the transliteration model in one Embodiment of this invention. 本発明の一実施形態における、音訳モデルを利用した英文同義語抽出過程の一例を説明するための図である。It is a figure for demonstrating an example of the English synonym extraction process using the transliteration model in one Embodiment of this invention. 本発明の一実施形態における、マルチグラフに原語表記同義語を追加する過程の一例を説明するための図である。It is a figure for demonstrating an example of the process of adding a synonym of the original word notation to a multigraph in one Embodiment of this invention.

以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

本発明の実施形態は、外来語の原語表記を同義語として自動抽出する技術に関する。 An embodiment of the present invention relates to a technique for automatically extracting the original word notation of a loan word as a synonym.

本明細書において具体的に開示される事項を含む実施形態は、外来語の原語表記を自動抽出して同義語として処理することができ、これによってキーワード管理の自動化、作業リソースの減少、サービス品質の改善、サービス拡大などの側面において相当な長所を達成することができる。 In embodiments that include matters specifically disclosed herein, loanword notations can be automatically extracted and processed as synonyms, thereby automating keyword management, reducing work resources, and quality of service. It is possible to achieve considerable advantages in terms of improvement and service expansion.

図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。 FIG. 1 is a diagram showing an example of a network environment according to an embodiment of the present invention. The network environment of FIG. 1 shows an example including a plurality of electronic devices 110, 120, 130, 140, a plurality of servers 150, 160, and a network 170. Such FIG. 1 is merely an example for explaining the invention, and the number of electronic devices and the number of servers are not limited as in FIG.

複数の電子機器110、120、130、140は、コンピュータシステムによって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレット、ゲームコンソール、ウェアラブルデバイス、IoT(internet of things)デバイス、VR(virtual reality)デバイス、AR(augmented reality)デバイスなどがある。一例として、図1では、電子機器110の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器110は、実質的に無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信することのできる多様な物理的なコンピュータシステムのうちの1つを意味してよい。 The plurality of electronic devices 110, 120, 130, 140 may be fixed terminals or mobile terminals realized by a computer system. Examples of a plurality of electronic devices 110, 120, 130, 140 include smartphones, mobile phones, navigation systems, PCs (personal computers), notebook PCs, digital broadcasting terminals, PDAs (Personal Digital Assistants), and PMPs (Tablet Multimedia Players). ), Tablets, game consoles, wearable devices, IoT (internet of things) devices, VR (visual reality) devices, AR (agmented reality) devices, and the like. As an example, FIG. 1 shows a smartphone as an example of the electronic device 110, but in the embodiment of the present invention, the electronic device 110 substantially utilizes a wireless or wired communication method, and another via the network 170. It may mean one of a variety of physical computer systems capable of communicating with electrical devices 120, 130, 140 and / or servers 150, 160.

通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。 The communication method is not limited, and not only a communication method using a communication network that can be included in the network 170 (for example, a mobile communication network, a wired Internet, a wireless Internet, a broadcasting network, a satellite network, etc.), but also a device. Short-range wireless communication between them may be included. For example, the network 170 includes a PAN (personal area network), a LAN (local area network), a CAN (campus area network), a MAN (metropolitan area network), a WAN (wise Internet) network, etc. It may include any one or more of the networks. Further, network 170 may include, but is limited to, any one or more of network topologies, including bus networks, star networks, ring networks, mesh networks, star-bus networks, tree or hierarchical networks, and the like. Will not be done.

サーバ150、160それぞれは、複数の電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク170を介して接続した複数の電子機器110、120、130、140に第1サービスを提供するシステムであってよく、サーバ160も、ネットワーク170を介して接続した複数の電子機器110、120、130、140に第2サービスを提供するシステムであってよい。より具体的な例として、サーバ150は、複数の電子機器110、120、130、140においてインストールされて実行されるコンピュータプログラムであるアプリケーションを通じ、該当のアプリケーションが目的とするサービス(一例として、キーワード管理サービスなど)を第1サービスとして複数の電子機器110、120、130、140に提供してよい。他の例として、サーバ160は、上述したアプリケーションのインストールおよび実行のためのファイルを複数の電子機器110、120、130、140に配布するサービスを第2サービスとして提供してよい。 Each of the servers 150, 160 is realized by one or more computer devices that communicate with a plurality of electronic devices 110, 120, 130, 140 via a network 170 to provide instructions, codes, files, contents, services, and the like. good. For example, the server 150 may be a system that provides the first service to a plurality of electronic devices 110, 120, 130, 140 connected via the network 170, and the server 160 may also be a plurality of systems connected via the network 170. It may be a system that provides a second service to electronic devices 110, 120, 130, 140. As a more specific example, the server 150 is a service (as an example, keyword management) aimed at by the application through an application which is a computer program installed and executed in a plurality of electronic devices 110, 120, 130, 140. (Services, etc.) may be provided to a plurality of electronic devices 110, 120, 130, 140 as a first service. As another example, the server 160 may provide a service for distributing the files for installing and executing the above-mentioned application to a plurality of electronic devices 110, 120, 130, 140 as a second service.

図2は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図2では、電子機器に対する例として電子機器110の内部構成およびサーバ150の内部構成について説明する。また、他の電子機器120、130、140やサーバ160も、上述した電子機器110またはサーバ150と同一または類似の内部構成を有してよい。 FIG. 2 is a block diagram for explaining an internal configuration of an electronic device and a server according to an embodiment of the present invention. FIG. 2 describes the internal configuration of the electronic device 110 and the internal configuration of the server 150 as examples for the electronic device. Further, the other electronic devices 120, 130, 140 and the server 160 may have the same or similar internal configuration as the above-mentioned electronic device 110 or the server 150.

電子機器110およびサーバ150は、メモリ211、221、プロセッサ212、222、通信モジュール213、223、および入力/出力インタフェース214、224を含んでよい。メモリ211、221は、非一時的なコンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、ディスクドライブ、SSD(solid state drive)、フラッシュメモリ(flash memory)などのような永続的大容量記録装置を含んでよい。ここで、ROM、SSD、フラッシュメモリ、ディスクドライブのような永続的大容量記録装置は、メモリ211、221とは区分される別の永続的記録装置として電子機器110やサーバ150に含まれてもよい。また、メモリ211、221には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、電子機器110においてインストールされて実行されるブラウザや特定のサービスの提供のために電子機器110にインストールされるアプリケーションなどのためのコード)が記録されてよい。このようなソフトウェア構成要素は、メモリ211、221とは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信モジュール213、223を通じてメモリ211、221にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システム(一例として、上述したサーバ160)がネットワーク170を介して提供するファイルによってインストールされるコンピュータプログラム(一例として、上述したアプリケーション)に基づいてメモリ211、221にロードされてよい。 The electronic device 110 and the server 150 may include memories 211, 221s, processors 212, 222, communication modules 213, 223, and input / output interfaces 214, 224. The memory 211 and 221 are non-temporary computer-readable recording media, and are a RAM (random access memory), a ROM (read only memory), a disk drive, an SSD (sold state drive), and a flash memory (flash memory). Permanent mass recording devices such as, etc. may be included. Here, even if a permanent large-capacity recording device such as a ROM, SSD, flash memory, or disk drive is included in the electronic device 110 or the server 150 as another permanent recording device that is separated from the memories 211 and 221. good. In addition, the memory 211 and 221 contain an operating system and at least one program code (for example, a browser installed and executed in the electronic device 110 or an application installed in the electronic device 110 to provide a specific service. Code for etc.) may be recorded. Such software components may be loaded from a computer-readable recording medium separate from the memories 211 and 221. Such other computer-readable recording media may include computer-readable recording media such as floppy (registered trademark) drives, discs, tapes, DVD / CD-ROM drives, and memory cards. In other embodiments, software components may be loaded into memory 211, 221 through communication modules 213, 223, which are not computer readable recording media. For example, at least one program is a computer program installed by a file provided by a file distribution system (eg, server 160 described above) that distributes a developer or application installation file via a network 170 (eg, described above). It may be loaded into the memory 211 or 221 based on the application.

プロセッサ212、222は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ211、221または通信モジュール213、223によって、プロセッサ212、222に提供されてよい。例えば、プロセッサ212、222は、メモリ211、221のような記録装置に記録されたプログラムコードに従って受信される命令を実行するように構成されてよい。 Processors 212 and 222 may be configured to process instructions in a computer program by performing basic arithmetic, logic, and input / output operations. Instructions may be provided to processor 212, 222 by memory 211, 221 or communication modules 213, 223. For example, the processors 212 and 222 may be configured to execute instructions received according to a program code recorded in a recording device such as memories 211 and 221.

通信モジュール213、223は、ネットワーク170を介して電子機器110とサーバ150とが互いに通信するための機能を提供してもよいし、電子機器110および/またはサーバ150が他の電子機器(一例として、電子機器120)または他のサーバ(一例として、サーバ160)と通信するための機能を提供してもよい。一例として、電子機器110のプロセッサ212がメモリ211のような記録装置に記録されたプログラムコードに従って生成した要求が、通信モジュール213の制御に従ってネットワーク170を介してサーバ150に伝達されてよい。これとは逆に、サーバ150のプロセッサ222の制御に従って提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール223とネットワーク170を経て電子機器110の通信モジュール213を通じて電子機器110に受信されてよい。例えば、通信モジュール213を通じて受信されたサーバ150の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ212やメモリ211に伝達されてよく、コンテンツやファイルなどは、電子機器110がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。 The communication modules 213 and 223 may provide a function for the electronic device 110 and the server 150 to communicate with each other via the network 170, and the electronic device 110 and / or the server 150 may provide another electronic device (as an example). , Electronic device 120) or another server (eg, server 160). As an example, a request generated by a processor 212 of an electronic device 110 according to a program code recorded in a recording device such as a memory 211 may be transmitted to a server 150 via a network 170 under the control of a communication module 213. On the contrary, control signals, instructions, contents, files and the like provided under the control of the processor 222 of the server 150 are received by the electronic device 110 through the communication module 213 of the electronic device 110 via the communication module 223 and the network 170. It's okay. For example, control signals, instructions, contents, files, etc. of the server 150 received through the communication module 213 may be transmitted to the processor 212 and the memory 211, and the contents, files, etc. may be further recorded by the electronic device 110. It may be recorded on a medium (permanent recording device described above).

入力/出力インタフェース214は、入力/出力装置215とのインタフェースのための手段であってよい。例えば、入力装置は、キーボード、マウス、マイクロフォン、カメラなどの装置を、出力装置は、ディスプレイ、スピーカ、触覚フィードバックデバイスなどのような装置を含んでよい。他の例として、入力/出力インタフェース214は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置215は、電子機器110と1つの装置で構成されてもよい。また、サーバ150の入力/出力インタフェース224は、サーバ150に接続するかサーバ150が含むことのできる入力または出力のための装置(図示せず)とのインタフェースのための手段であってよい。より具体的な例として、電子機器110のプロセッサ212がメモリ211にロードされたコンピュータプログラムの命令を処理するにあたり、サーバ150や電子機器120が提供するデータを利用して構成されるサービス画面やコンテンツが、入力/出力インタフェース214を通じてディスプレイに表示されてよい。 The input / output interface 214 may be a means for an interface with the input / output device 215. For example, the input device may include a device such as a keyboard, mouse, microphone, camera, and the output device may include a device such as a display, speaker, haptic feedback device, and the like. As another example, the input / output interface 214 may be a means for an interface with a device that integrates functions for input and output, such as a touch screen. The input / output device 215 may be composed of an electronic device 110 and one device. Also, the input / output interface 224 of the server 150 may be a means for connecting to the server 150 or for interfacing with a device (not shown) for input or output that the server 150 can include. As a more specific example, a service screen or content configured by using data provided by the server 150 or the electronic device 120 when the processor 212 of the electronic device 110 processes an instruction of a computer program loaded in the memory 211. May be displayed on the display through the input / output interface 214.

また、他の実施形態において、電子機器110およびサーバ150は、図2の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、電子機器110は、上述した入力/出力装置215のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器110がスマートフォンである場合、一般的にスマートフォンが含んでいる加速度センサやジャイロセンサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素が、電子機器110にさらに含まれるように実現されてよい。 Also, in other embodiments, the electronic device 110 and the server 150 may include more components than the components of FIG. However, most prior art components need not be clearly shown in the figure. For example, the electronic device 110 may be realized to include at least a part of the above-mentioned input / output device 215, such as a transceiver, a GPS (Global Positioning System) module, a camera, various sensors, a database, and the like. Other components may be further included. As a more specific example, when the electronic device 110 is a smartphone, an acceleration sensor or gyro sensor, a camera module, various physical buttons, a button using a touch panel, an input / output port, which are generally included in the smartphone, are used. Various components, such as accelerometers for vibration, may be realized to be further included in the electronic device 110.

以下では、音訳モデルを利用した同義語抽出方法およびシステムの具体的な実施形態について説明する。 Hereinafter, a method for extracting synonyms using a transliteration model and a specific embodiment of the system will be described.

図3は、本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示したブロック図であり、図4は、本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。 FIG. 3 is a block diagram showing an example of components that can be included in the processor of the server in one embodiment of the present invention, and FIG. 4 is a block diagram of what the server executes in one embodiment of the present invention. It is a flowchart which showed the example of the possible method.

本実施形態に係るサーバ150は、インターネット上で使用されるキーワードを管理するサービスを提供するプラットフォームの役割を担う。特に、サーバ150は、商品辞書に含まれる各商品に対して関連キーワード間の関係を示すマルチグラフ構造を構築してよく、商品辞書に含まれる外来語の場合は、原語表記を自動抽出してマルチグラフに同義語として追加してよい。 The server 150 according to the present embodiment serves as a platform for providing a service for managing keywords used on the Internet. In particular, the server 150 may construct a multi-graph structure showing the relationship between related keywords for each product included in the product dictionary, and in the case of a foreign word included in the product dictionary, the original word notation is automatically extracted. It may be added as a synonym to the multigraph.

サーバ150のプロセッサ222は、図4に示される同義語抽出方法を実行するための構成要素として、図3に示すように、グラフ生成部310、同義語抽出部320、および同義語追加部330を備えてよい。実施形態によって、プロセッサ222の構成要素は、選択的にプロセッサ222に含まれても除外されてもよい。また、実施形態によって、プロセッサ222の構成要素は、プロセッサ222の機能の表現のために分離されても併合されてもよい。 As shown in FIG. 3, the processor 222 of the server 150 includes a graph generation unit 310, a synonym extraction unit 320, and a synonym addition unit 330 as components for executing the synonym extraction method shown in FIG. You may be prepared. Depending on the embodiment, the components of processor 222 may be selectively included or excluded from processor 222. Also, depending on the embodiment, the components of processor 222 may be separated or merged to represent the functionality of processor 222.

このようなプロセッサ222およびプロセッサ222の構成要素は、図4の同義語抽出方法に含まれる段階410~段階430を実行するようにサーバ150を制御してよい。例えば、プロセッサ222およびプロセッサ222の構成要素は、メモリ221が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードとによる命令(instruction)を実行するように実現されてよい。 Such a processor 222 and the components of the processor 222 may control the server 150 to perform steps 410 to 430 included in the synonym extraction method of FIG. For example, the processor 222 and the components of the processor 222 may be implemented to execute an instruction by the code of the operating system included in the memory 221 and the code of at least one program.

ここで、プロセッサ222の構成要素は、サーバ150に記録されたプログラムコードが提供する命令に従ってプロセッサ222によって実行される、プロセッサ222の互いに異なる機能(different functions)の表現であってよい。例えば、サーバ150がキーワード間の関係を示すマルチグラフを生成するように上述した命令に従ってサーバ150を制御するプロセッサ222の機能的表現として、グラフ生成部310が利用されてよい。 Here, the components of the processor 222 may be representations of different functions of the processor 222 that are executed by the processor 222 according to the instructions provided by the program code recorded in the server 150. For example, the graph generator 310 may be used as a functional representation of the processor 222 that controls the server 150 according to the instructions described above so that the server 150 generates a multigraph indicating the relationship between the keywords.

プロセッサ222は、サーバ150の制御と関連する命令がロードされたメモリ221から必要な命令を読み取ってよい。この場合、読み取られた命令は、以下で説明する段階410~段階430をプロセッサ222が実行するように制御するための命令を含んでよい。 The processor 222 may read the necessary instructions from the memory 221 in which the instructions related to the control of the server 150 are loaded. In this case, the read instructions may include instructions for controlling the processor 222 to execute steps 410 to 430 described below.

段階410において、グラフ生成部310は、商品辞書に含まれる各商品に対し、商品情報から抽出されたキーワードとの関係を示すマルチグラフを生成してよい。商品辞書とは、キーワードを管理するためのデータベースシステムであって、キーワード、辞書類型、同義語集合で構成されてよい。商品辞書には、各商品別に、該当の商品とマッチングされる販売先、ブランド、カテゴリ、属性などの商品情報を含んでよい。 In step 410, the graph generation unit 310 may generate a multi-graph showing the relationship between the keywords extracted from the product information for each product included in the product dictionary. The product dictionary is a database system for managing keywords, and may be composed of keywords, dictionary types, and synonym sets. The product dictionary may include product information such as sales destinations, brands, categories, and attributes that are matched with the corresponding products for each product.

上述した商品辞書は、商品管理(商品ブランド自動マッチング、商品カテゴリ自動マッチング、商品品質チェックなど)、ショッピング、検索、キーワード自動完成、タグ辞書、広告、ストア、NLU(自然言語理解)、AI(人工知能)などのような各種サービスで適用可能である。 The above-mentioned product dictionaries include product management (product brand automatic matching, product category automatic matching, product quality check, etc.), shopping, search, keyword automatic completion, tag dictionary, advertisement, store, NLU (natural language understanding), AI (artificial language understanding). It can be applied to various services such as intelligence).

例えば、図5に示すように、商品辞書500が、販売先510、ブランド520、カテゴリ530に区分されると仮定するとき、このような商品辞書500から販売先-ブランド、ブランド-カテゴリ、カテゴリ-販売先の関係データを抽出してよい。 For example, as shown in FIG. 5, when it is assumed that the product dictionary 500 is divided into the sales destination 510, the brand 520, and the category 530, the sales destination-brand, brand-category, category-from such a product dictionary 500 The relationship data of the sales destination may be extracted.

図6に示すように、グラフ生成部310は、販売先IDがS1であり、ブランドIDがB1であり、カテゴリIDがC1である商品Aに対し、該当の商品にマッチングされた販売者名称「ABC」、ブランド名称「DEF」、カテゴリ名称「GHI」をそれぞれキーワードに変換してよい。グラフ生成部310は、商品Aに対し、商品Aにマッチングされる商品情報をキーワード「ABC」、「DEF」、「GHI」に変換した後、変換されたキーワード間の関係を示すマルチグラフを生成してよい。グラフ生成部310は、商品辞書から商品にマッチングされた情報間の関係データを該当の情報に変換されたキーワード間の関係データとして抽出し、マルチグラフを生成してよい。 As shown in FIG. 6, in the graph generation unit 310, the seller name "matched to the corresponding product with respect to the product A whose sales destination ID is S1, the brand ID is B1, and the category ID is C1". "ABC", the brand name "DEF", and the category name "GHI" may be converted into keywords. The graph generation unit 310 converts the product information matched to the product A into the keywords "ABC", "DEF", and "GHI" for the product A, and then generates a multi-graph showing the relationship between the converted keywords. You can do it. The graph generation unit 310 may generate a multigraph by extracting the relationship data between the information matched to the product from the product dictionary as the relationship data between the keywords converted into the corresponding information.

図7を参照すると、グラフ生成部310は、キーワード「ABC」と「DEF」の間は販売先-ブランドという連結関係で、キーワード「DEF」と「GHI」の間はブランド-カテゴリという連結関係で、キーワード「ABC」と「GHI」の間は販売先-カテゴリという連結関係で生成されたマルチグラフ700を構築してよい。 Referring to FIG. 7, the graph generation unit 310 has a connection relationship of a sales destination-brand between the keywords "ABC" and "DEF", and a connection relationship of a brand-category between the keywords "DEF" and "GHI". , The multigraph 700 generated by the connection relationship of sales destination-category may be constructed between the keywords "ABC" and "GHI".

マルチグラフ700は、キーワード間の関係が、単一デプス(depth)のツリー構造はもちろん、複数のデプスを有するツリー構造で構築されてもよい。例えば、同一ブランド内の多数のシリーズ、すなわち、サブブランドが存在する場合は、ブランド-シリーズという連結関係が追加されてよい。 In the multigraph 700, the relationship between keywords may be constructed not only in a single depth tree structure but also in a tree structure having a plurality of depths. For example, if there are many series within the same brand, i.e., sub-brands, a brand-series consolidation relationship may be added.

上述したように、グラフ生成部310は、キーワード間の関係データを蓄積してデータベースを生成してよく、これをキーワード間の関係を示すマルチグラフ700構造として定義してよい。 As described above, the graph generation unit 310 may accumulate relationship data between keywords to generate a database, which may be defined as a multigraph 700 structure showing relationships between keywords.

再び図4において、段階420において、同義語抽出部320は、商品辞書に含まれるキーワードのうちの外来語に対し、音訳モデルを利用して商品名や商品関連クエリから該当の外来語の原語表記を同義語として抽出してよい。 Again, in FIG. 4, at step 420, the synonym extraction unit 320 uses a transliteration model to describe the loanwords of the loanwords among the keywords included in the product dictionary from the product names and product-related queries. May be extracted as a synonym.

ショッピングなどで使用される単語の一部には、英語やフランス語、イタリア語、ドイツ語などのような多様な外国語から同化された外来語が含まれることがある。 Some of the words used in shopping etc. may include loanwords assimilated from various foreign languages such as English, French, Italian and German.

このような外来語の場合、単語の出処(すなわち、国)を特定し難いという問題がある。例えば、「Chanel」の場合、英語で発音すれば「チャンネル」や「チャネル」などと音訳されるし、フランス語で発音すれば「シャネル」や「シャノル」、「シャヌル」などと音訳される。 In the case of such loanwords, there is a problem that it is difficult to identify the source (that is, country) of the word. For example, in the case of "Chanel", if it is pronounced in English, it is transliterated as "channel" or "channel", and if it is pronounced in French, it is transliterated as "chanel", "chanel", "chanel" or the like.

キーワード「Chanel」を使用するためには、多国の発音をすべて収容することのできる音訳範囲(transliteration coverage)が必要となる。 In order to use the keyword "Chanel", a transliteration range that can accommodate all the pronunciations of multiple countries is required.

ディープラーニング(deep learning)を基盤として音訳を支援する学習モデルも存在するが、従来の学習モデルはモデル自体が重いだけなく、多様な国の発音を一度に支援することができない。英語であれば英語学習データが、フランス語であればフランス語の学習データが必要となるため、各言語の音訳プロセッシング(processing)を経なければならないという限界がある。 There are learning models that support transliteration based on deep learning, but conventional learning models are not only heavy, but cannot support pronunciation in various countries at once. Since English learning data is required for English and French learning data is required for French, there is a limit that transliteration processing of each language must be performed.

これに比べ、本実施形態では、MWS(minimal word by sound)単位の音訳モデルを利用することによって外来語に対する同義語を抽出する。従来の学習モデルとは異なり、MWSは、学習データを最小にすることができ、多国語の発音まで1つの音訳プロセッシングで処理することができる。 In comparison with this, in the present embodiment, synonyms for foreign words are extracted by using a transliteration model in units of MWS (minimal word by sound). Unlike traditional learning models, MWS can minimize learning data and process multilingual pronunciations with a single transliteration process.

MWSとは、音節(syllable)とは異なる概念であって、発音の最小単位を意味する。表1は、単語例「happy」を音節とMWSに分けて示したものである。 MWS is a concept different from syllables and means the smallest unit of pronunciation. Table 1 shows the word example "happy" divided into syllables and MWS.

Figure 0007014830000001
Figure 0007014830000001

国ごと、言語ごと、人ごとに、同じ単語であっても多様な発音により、最小単位で表現することがある。表2は、単語例「happy」のMWSをハングルで表記したものである。 Even the same word may be expressed in the smallest unit by various pronunciations for each country, language, and person. Table 2 shows the MWS of the word example “happy” in Hangul.

Figure 0007014830000002
Figure 0007014830000002

ハングルを初声、中声、終声の次元的な区分から見るとき、ベクトル数値文字で表現してよい。例えば、ハングルの基本数値情報は、図8のテーブルのとおりとなる。 When looking at Hangul from the dimensional division of initial voice, middle voice, and final voice, it may be expressed by vector numerical characters. For example, the basic numerical information of Hangul is as shown in the table of FIG.

単語をMWSによって簡単に分離するためには、LBG(linked bi-gramed)のデータ形式を利用してよい。 In order to easily separate words by MWS, an LBG (linked bi-graded) data format may be used.

Figure 0007014830000003
Figure 0007014830000003

Figure 0007014830000004
Figure 0007014830000004

一例として、図10に示すように、商品辞書で英文単語とハングル発音表記とのペアで構成された学習データセット1001を収集した後、MWS単位の分離学習によってMWSデータセット1002を抽出してよい。 As an example, as shown in FIG. 10, after collecting a learning data set 1001 composed of a pair of English words and Hangul pronunciation notation in a product dictionary, the MWS data set 1002 may be extracted by separate learning in MWS units. ..

以下、音訳プロセッシング過程について説明する。 The transliteration processing process will be described below.

図11および図12は、英文単語「naver」(登録商標)に対する音訳プロセッシング過程を示している。 11 and 12 show the transliteration processing process for the English word "naver"®.

プロセッサ222は、英文単語「naver」を、MWSによって分離可能なすべての場合の候補群に分離してよい(S1)。 Processor 222 may separate the English word "naver" into candidate groups in all cases separable by MWS (S1).

プロセッサ222は、段階S1で分離された候補群から、事前に構築されたMWSデータセット1002に存在するMWSを抽出してよい(S2)。 Processor 222 may extract the MWS present in the pre-constructed MWS data set 1002 from the candidate group separated in step S1 (S2).

プロセッサ222は、段階S1で分離された各候補群に、段階S2で抽出されたMWSをマッピングしてよい(S3)。 Processor 222 may map the MWS extracted in step S2 to each candidate group separated in step S1 (S3).

プロセッサ222は、段階S3でマッピングされたMWSを互いに連結して併合してよい(S4)。このとき、候補群のうちの1つでもMWSデータセット1002に存在しない場合は、該当の候補群は除外してよい。 Processor 222 may concatenate and merge the MWSs mapped in step S3 together (S4). At this time, if even one of the candidate groups does not exist in the MWS data set 1002, the corresponding candidate group may be excluded.

プロセッサ222は、段階S4で併合されたMWSを音訳してよい(S5)。言い換えれば、プロセッサ222は、併合されたMWSにマッピングされたハングルベクトルをデコードすることにより、英文単語の音訳を取得してよい。図12のS5過程の結果において、カッコの内の数字は、該当のハングル単語が図10のMWS学習データセットから抽出された個数を意味してよく、必要時には、同義語を多様に抽出することのできる基礎として活用してよい。 Processor 222 may transliterate the MWS merged in step S4 (S5). In other words, the processor 222 may obtain a transliteration of an English word by decoding a Hangul vector mapped to the merged MWS. In the result of the S5 process of FIG. 12, the number in parentheses may mean the number of the corresponding Korean words extracted from the MWS learning data set of FIG. 10, and when necessary, various synonyms should be extracted. You can use it as a basis for your work.

音訳プロセッシング結果の一例を下記のように示すが、これに限定されることはない。 An example of transliteration processing results is shown below, but is not limited to this.

Figure 0007014830000005
Figure 0007014830000005

英文同義語を例とする一実施形態として、音訳モデルを経ることのできなかったハングル単語と英文同義語を収集し、従来の商品辞書から抽出されたMWSデータセットと共通するデータセットを抽出した後、最終MWSデータセットと併合させて適用してもよい。 As an embodiment using English synonyms as an example, Korean words and English synonyms that could not go through the transliteration model were collected, and a data set common to the MWS data set extracted from the conventional product dictionary was extracted. Later, it may be merged with the final MWS dataset and applied.

同義語抽出部320は、上述した音訳プロセッシングを経ることで、商品辞書に含まれる外来語に対して原語表記の同義語を抽出してよい。 The synonym extraction unit 320 may extract synonyms of the original word notation for foreign words included in the product dictionary by undergoing the above-mentioned transliteration processing.

以下では、ハングルで表記された外来語の英語表記、すなわち、英文同義語を例として具体的な実施形態について説明する。 In the following, a specific embodiment will be described by taking an English notation of a loan word written in Hangul, that is, an English synonym as an example.

同義語抽出部320は、商品辞書に含まれるキーワードのうちで外来語を対象キーワードとし、各対象キーワードに対して対象キーワードを検索クエリとして入力したユーザがクリックした商品名リスト、各クリック商品と関連するタグリスト、および各クリック商品と関連する他のクエリリスト(一例として、同一商品をクリックした他のユーザによって入力されたクエリ、同一ユーザが同一商品をクリックする前に入力した他のクエリなど)のうちの少なくとも1つのキーワードリストを抽出してよい。本明細書において、クリックとは、ユーザによるすべての類型の選択入力を意味してよい。図13は、対象キーワード

Figure 0007014830000006

と関連するクリック商品名リスト1311と、
Figure 0007014830000007
と関連するクリック商品名リスト1321を例示的に示している。 The synonym extraction unit 320 sets a foreign word as a target keyword among the keywords included in the product dictionary, and the product name list clicked by the user who entered the target keyword as a search query for each target keyword and related to each clicked product. Tag list to be used, and other query lists related to each clicked product (for example, queries entered by other users who clicked on the same product, other queries entered before the same user clicked on the same product, etc.) At least one of the keyword lists may be extracted. In the present specification, the click may mean the selection input of all types by the user. FIG. 13 shows the target keywords.
Figure 0007014830000006

Related to Click Product Name List 1311 and
Figure 0007014830000007
The click product name list 1321 related to the above is exemplified.

Figure 0007014830000008
Figure 0007014830000008

同義語抽出部320は、対象キーワードに対して抽出されたクリック商品名リストとクリック商品関連タグリスト、およびクエリリストのうちの少なくとも1つのキーワードリストから特定の言語の単語、すなわち、英文単語を抽出してよい。 The synonym extraction unit 320 extracts a word in a specific language, that is, an English word from at least one keyword list among the click product name list, the click product-related tag list, and the query list extracted for the target keyword. You can do it.

図14は、対象キーワード

Figure 0007014830000009

と関連するクリック商品名リスト1311から抽出された英文単語リスト1411と、
Figure 0007014830000010

と関連するクリック商品名リスト1321から抽出された英文単語リスト1421を例示的に示している(なお、図14において、uniqloおよびエアリズム(airism)は登録商標である(他の図面においても同様))。 FIG. 14 shows the target keywords.
Figure 0007014830000009

The English word list 1411 extracted from the click product name list 1311 related to
Figure 0007014830000010

An English word list 1421 extracted from the click product name list 1321 related to the above is exemplified (note that in FIG. 14, uniqlo and airism are registered trademarks (the same applies to other drawings)). ..

同義語抽出部320は、音訳モデルを実行させ、先立って抽出された英文単語リストのうちから対象キーワードとマッチングする英文単語を抽出してよい。 The synonym extraction unit 320 may execute the transliteration model and extract an English word that matches the target keyword from the previously extracted English word list.

図15は、対象キーワード

Figure 0007014830000011

と英文単語リスト1411とのマッチング結果1511と、対象キーワード
Figure 0007014830000012

と英文単語リスト1421とのマッチング結果1521を例示的に示している。 FIG. 15 shows the target keywords.
Figure 0007014830000011

Matching result 1511 with English word list 1411 and target keywords
Figure 0007014830000012

The matching result 1521 with the English word list 1421 is shown as an example.

同義語抽出部320は、対象キーワードに対してマッチングされた英文単語を置換して英文同義語候補を抽出してよい。 The synonym extraction unit 320 may extract English synonym candidates by substituting English words matched for the target keyword.

図16は、対象キーワード

Figure 0007014830000013
に対する英文同義語候補1611と、
Figure 0007014830000014
に対する英文同義語候補1621を示している。 FIG. 16 shows the target keywords.
Figure 0007014830000013
English synonym candidate 1611 for
Figure 0007014830000014
Shows English synonym candidates 1621 for.

同義語抽出部320は、対象キーワードと関連するクリック商品名リストとクリック商品関連タグ/クエリリストに英文同義語候補が出現するか否か、あるいは出現する頻度などに基づいて最終英文同義語を決定してよい。同義語抽出部320は、英文同義語候補の単語が対象キーワードと関連するクリック商品名リストとクリック商品関連タグ/クエリリストに出現するパターンと一致する場合に最終英文同義語として決定してよく、あるいは英文同義語候補が複数であるときには、対象キーワードと関連するクリック商品名リストとクリック商品関連タグ/クエリリストで最も多く出現するパターンの単語を最終英文同義語として決定してよい。言い換えれば、同義語抽出部320は、対象キーワードと関連するクリック商品名リストとクリック商品関連タグ/クエリリストを利用することにより、対象キーワードの原語表記である英文同義語を検証することが可能となる。 The synonym extraction unit 320 determines the final English synonym based on whether or not an English synonym candidate appears in the click product name list and the click product-related tag / query list related to the target keyword, or the frequency of appearance. You can do it. The synonym extraction unit 320 may determine as the final English synonym when the word of the English synonym candidate matches the pattern appearing in the click product name list and the click product-related tag / query list related to the target keyword. Alternatively, when there are a plurality of English synonym candidates, the word with the pattern most frequently appearing in the click product name list and the click product-related tag / query list related to the target keyword may be determined as the final English synonym. In other words, the synonym extraction unit 320 can verify the English synonyms that are the original language notation of the target keyword by using the click product name list and the click product-related tag / query list related to the target keyword. Become.

再び図4において、段階430において、同義語追加部330は、外来語の原語表記を同義語としてマルチグラフ上に追加登録してよい。このとき、マルチグラフ上の従来のキーワードと同義語との関係を設定してよい。 Again, in FIG. 4, at step 430, the synonym addition unit 330 may additionally register the original word notation of the loan word as a synonym on the multigraph. At this time, the relationship between the conventional keyword on the multigraph and the synonym may be set.

図17を参照すると、キーワード「ABC」と「DEF」との間が販売先-ブランドという連結関係、キーワード「DEF」と「GHI」との間がブランド-カテゴリという連結関係、キーワード「ABC」と「GHI」との間が販売先-カテゴリという連結関係で生成されたマルチグラフ700において、販売者名称「ABC」が外来語に該当する場合、マルチグラフ700上に外来語「ABC」の原語表記「XXX」を同義語1701として追加し、キーワード「ABC」と「XXX」との間に同義語関係を設定してよい。 Referring to FIG. 17, the keyword "ABC" and "DEF" have a connection relationship of sales destination-brand, the keywords "DEF" and "GHI" have a connection relationship of brand-category, and the keyword "ABC". In the multigraph 700 generated by the connection relationship of "sales destination-category" with "GHI", if the seller name "ABC" corresponds to a foreign word, the original word notation of the foreign word "ABC" is displayed on the multigraph 700. "XXX" may be added as a synonym 1701 and a synonym relationship may be set between the keywords "ABC" and "XXX".

また、マルチグラフ700上のキーワードのうち、対象キーワード「ABC」と関連するクリック商品名リストとクリック商品関連タグ/クエリリストに同義語1701とともに出現するキーワードとの関係を追加設定してよい。 Further, among the keywords on the multigraph 700, the relationship between the click product name list related to the target keyword “ABC” and the keyword appearing together with the synonym 1701 in the click product-related tag / query list may be additionally set.

したがって、本実施形態では、商品辞書に登録された外来語に対して原語表記の同義語を見つけ出し、自動登録することが可能となる。 Therefore, in the present embodiment, it is possible to find synonyms of the original word notation for foreign words registered in the product dictionary and automatically register them.

上述した方式を利用して商品辞書に登録されたキーワードに対して原語表記のキーワードを同義語として抽出してマルチグラフ上に追加登録することにより、キーワード間の同義語処理を解決しながら、マルチグラフを自動で拡張することが可能となる。 By extracting the keywords in the original language as synonyms for the keywords registered in the product dictionary using the above method and additionally registering them on the multigraph, the multi-synonyms can be processed while solving the synonym processing between the keywords. The graph can be expanded automatically.

音訳モデルを利用して外来語の原語表記を同義語として自動処理することにより、キーワード管理作業の自動化を実現し、関連作業のリソースを画期的に減らすことができる。 By automatically processing the original word notation of loanwords as synonyms using a transliteration model, it is possible to realize automation of keyword management work and dramatically reduce resources for related work.

上述では、音訳モデルを利用した同義語処理過程がマルチグラフを生成する過程の後になされる従属する過程として説明しているが、これに限定されることはなく、実施形態によっては、マルチグラフとは関係なく、個別の独立した過程として実行されることも可能である。 In the above, the synonym processing process using the transliteration model is described as a subordinate process performed after the process of generating the multigraph, but the present invention is not limited to this, and depending on the embodiment, the multigraph may be used. Can also be carried out as a separate and independent process, regardless of.

このように、本発明の実施形態によると、商品情報から抽出されたキーワードに対し、キーワード間の関係を示すマルチグラフ構造を構築することができ、外来語の場合には、同義語として原語表記を自動抽出してマルチグラフに追加することができる。さらに、本発明の実施形態によると、外来語に対して音訳モデルを利用して商品名や商品関連クエリに出現する単語から該当の外来語の原語表記を抽出し、同義語として処理することができる。 As described above, according to the embodiment of the present invention, it is possible to construct a multigraph structure showing the relationship between the keywords for the keywords extracted from the product information, and in the case of a loan word, the original language is expressed as a synonym. Can be automatically extracted and added to the multigraph. Further, according to the embodiment of the present invention, it is possible to extract the original word notation of the loan word from the word appearing in the product name or the product-related query by using the transliteration model for the loan word and process it as a synonym. can.

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。 The devices described above may be implemented by hardware components, software components, and / or combinations of hardware components and software components. For example, the apparatus and components described in the embodiments include a processor, a controller, an ALU (arithmetic logic unit), a digital signal processor, a microcomputer, an FPGA (field programgable gate array), a PLU (programmable log unit), a microprocessor, and the like. Alternatively, it may be implemented using one or more general purpose computers or special purpose computers, such as various devices capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the OS. The processing device may also respond to the execution of the software, access the data, and record, manipulate, process, and generate the data. For convenience of understanding, one processing device may be described as being used, but one of ordinary skill in the art may include a plurality of processing elements and / or a plurality of types of processing elements. You can understand. For example, the processing device may include multiple processors or one processor and one controller. Also, other processing configurations such as parallel processors are possible.

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてもよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。 The software may include computer programs, codes, instructions, or a combination of one or more of these, configuring the processing equipment to operate at will, or instructing the processing equipment independently or collectively. You may do it. The software and / or data is embodied in any type of machine, component, physical device, computer recording medium or device to be interpreted based on the processing device or to provide instructions or data to the processing device. May be good. The software is distributed on a computer system connected by a network and may be recorded or executed in a distributed state. The software and data may be recorded on one or more computer-readable recording media.

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例は、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。 The method according to the embodiment may be realized in the form of program instructions that can be executed by various computer means and recorded on a computer-readable medium. Here, the medium may be a continuous recording of a computer-executable program or a temporary recording for execution or download. Further, the medium may be various recording means or storage means in the form of a combination of a single piece of hardware or a plurality of pieces of hardware, and is not limited to a medium directly connected to a certain computer system, but is distributed over a network. It may exist. Examples of media include hard disks, floppy (registered trademark) disks, magnetic media such as magnetic tapes, optical media such as CD-ROMs and DVDs, optical magnetic media such as floptic discs, and It may include a ROM, a RAM, a flash memory, and the like, and may be configured to record program instructions. Other examples of media include recording media or storage media managed by application stores that distribute applications, sites that supply or distribute various other software, servers, and the like.

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって代替されたり置換されたとしても、適切な結果を達成することができる。 As described above, the embodiments have been described based on the limited embodiments and drawings, but those skilled in the art will be able to make various modifications and modifications from the above description. For example, the techniques described may be performed in a different order than the methods described, and / or components such as the systems, structures, devices, circuits described may be in a different form than the methods described. Appropriate results can be achieved even if they are combined or combined, or replaced or replaced by other components or equivalents.

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。 Therefore, even if the embodiments are different, they belong to the attached claims as long as they are equivalent to the claims.

222:プロセッサ
310:グラフ生成部
320:同義語抽出部
330:同義語追加部
222: Processor 310: Graph generation unit 320: Synonym extraction unit 330: Synonym addition unit

Claims (19)

コンピュータシステムが実行する同義語抽出方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
当該同義語抽出方法は、
前記少なくとも1つのプロセッサにより、商品辞書上のキーワード間の関係を示すマルチグラフを生成する段階、
前記少なくとも1つのプロセッサにより、前記商品辞書に含まれるキーワードのうちの外来語に該当する対象キーワードに対し、前記対象キーワードと関連するキーワードリストを抽出する段階、
前記少なくとも1つのプロセッサにより、音訳モデルを利用し、前記キーワードリストから前記対象キーワードの原語表記キーワードを前記対象キーワードの同義語として抽出する段階、および
前記少なくとも1つのプロセッサにより、前記同義語を前記マルチグラフに追加登録する段階を含む、同義語抽出方法。
It is a synonym extraction method performed by a computer system.
The computer system comprises at least one processor configured to execute a computer-readable instruction contained in memory.
The synonym extraction method is
The stage of generating a multigraph showing the relationship between keywords on the product dictionary by the at least one processor.
A step of extracting a keyword list related to the target keyword for a target keyword corresponding to a loan word among the keywords included in the product dictionary by the at least one processor .
The stage of extracting the original word notation keyword of the target keyword from the keyword list as a synonym of the target keyword by using the transliteration model by the at least one processor , and
A method for extracting synonyms, which comprises a step of additionally registering the synonyms in the multigraph by the at least one processor .
前記キーワードリストを抽出する段階は、
前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つを抽出する、
請求項1に記載の同義語抽出方法。
The stage of extracting the keyword list is
Extract at least one of the product name list clicked after inputting the target keyword as a search query, other query lists related to each clicked product, and tag list related to each clicked product.
The synonym extraction method according to claim 1.
前記同義語を抽出する段階は、
発音の最小単位を利用した音訳モデルを利用して前記同義語を抽出する、
請求項1または2に記載の同義語抽出方法。
The stage of extracting the synonyms is
Extract the synonyms using a transliteration model that uses the smallest unit of pronunciation.
The synonym extraction method according to claim 1 or 2.
前記同義語を抽出する段階は、
LBG(linked bi-gramed)のデータ形式を利用して前記対象キーワードを発音の最小単位に分離する段階
を含む、請求項3に記載の同義語抽出方法。
The stage of extracting the synonyms is
The synonym extraction method according to claim 3, further comprising a step of separating the target keyword into the smallest unit of pronunciation by using a data format of LBG (linked bi-graded).
前記同義語を抽出する段階は、
前記音訳モデルを利用して前記キーワードリストから抽出された単語のうちから前記対象キーワードとマッチングされる単語を前記同義語として抽出する段階
を含む、請求項1または2に記載の同義語抽出方法。
The stage of extracting the synonyms is
The synonym extraction method according to claim 1 or 2, which comprises a step of extracting a word matched with the target keyword from the words extracted from the keyword list using the transliteration model as the synonym.
前記同義語を抽出する段階は、
前記対象キーワードに対して前記マッチングされる単語を置換することで同義語候補を抽出する段階
をさらに含む、請求項5に記載の同義語抽出方法。
The stage of extracting the synonyms is
The synonym extraction method according to claim 5, further comprising a step of extracting a synonym candidate by substituting the matched word for the target keyword.
前記同義語を抽出する段階は、
前記キーワードリストから特定言語の単語を抽出する
ことを含む、請求項5に記載の同義語抽出方法。
The stage of extracting the synonyms is
Extract words of a specific language from the keyword list
The synonym extraction method according to claim 5, which comprises the above.
前記同義語を抽出する段階は、
前記キーワードリストから抽出された単語のうちから前記対象キーワードとマッチングされる単語を前記同義語として抽出する段階以前に、前記対象キーワードが複合語からなる場合、単一語に分離する段階
をさらに含む、請求項5に記載の同義語抽出方法。
The stage of extracting the synonyms is
Prior to the step of extracting the word matched with the target keyword from the words extracted from the keyword list as the synonym, if the target keyword consists of compound words, the step of separating into a single word is further included. , The synonym extraction method according to claim 5.
前記同義語を抽出する段階は、
前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つに出現するパターンと一致する場合に前記同義語として決定するか、あるいは前記同義語候補が複数であるときには前記対象キーワードと関連する前記クリックした商品名リスト、前記他のクエリリスト、前記タグリストのうちの少なくとも1つで最も多く出現するパターンの単語を最終英文同義語として決定する段階
をさらに含む、請求項5に記載の同義語抽出方法。
The stage of extracting the synonyms is
When it matches the pattern that appears in at least one of the product name list clicked after entering the target keyword as a search query, other query lists related to each clicked product, and tag list related to each clicked product. It is determined as the synonym, or when there are a plurality of synonym candidates, it appears most frequently in at least one of the clicked product name list, the other query list, and the tag list related to the target keyword. The synonym extraction method according to claim 5, further comprising a step of determining a word having a pattern to be used as a final English synonym .
前記同義語を抽出する段階は、
前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つに前記対象キーワードとマッチングされる単語が出現するか否か、または出現する頻度に基づいて前記同義語を決定する段階
をさらに含む、請求項5に記載の同義語抽出方法。
The stage of extracting the synonyms is
A word that matches the target keyword in at least one of the product name list clicked after entering the target keyword as a search query, other query lists related to each click product, and the tag list associated with each click product. The synonym extraction method according to claim 5, further comprising a step of determining the synonym based on whether or not the item appears or how often the item appears.
前記生成する段階は、
前記商品辞書に含まれる各商品別に、該当の商品にマッチングされる商品情報をキーワードに変換する段階、および
前記商品辞書から前記商品にマッチングされる情報間の関係データをキーワード間の関係データとして抽出する段階
を含む、請求項に記載の同義語抽出方法。
The generation stage is
For each product included in the product dictionary, the stage of converting the product information matched to the corresponding product into a keyword, and extracting the relationship data between the information matched to the product from the product dictionary as the relationship data between the keywords. The synonym extraction method according to claim 1 , which comprises the step of performing.
前記追加登録する段階は、
前記マルチグラフ上に前記対象キーワードと前記同義語との関係を追加する
求項10または11に記載の同義語抽出方法。
The stage of additional registration is
Add the relationship between the target keyword and the synonym on the multigraph .
The synonym extraction method according to claim 10 .
請求項1~12のうちのいずれか一項に記載の同義語抽出方法をコンピュータに実行させるためのプログラム。 A program for causing a computer to execute the synonym extraction method according to any one of claims 1 to 12 . コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
商品辞書上のキーワード間の関係を示すマルチグラフを生成するグラフ生成部、
前記商品辞書に含まれるキーワードのうちの外来語に該当する対象キーワードに対し、前記対象キーワードと関連するキーワードリストを抽出した後、音訳モデルを利用して前記キーワードリストから前記対象キーワードの原語表記キーワードを前記対象キーワードの同義語として抽出する同義語抽出部、および、
前記同義語を前記マルチグラフに追加登録する同義語追加部
を備える、コンピュータシステム。
It ’s a computer system,
Contains at least one processor configured to execute computer-readable instructions contained in memory.
The at least one processor
Graph generator that generates a multi-graph showing the relationship between keywords in the product dictionary,
After extracting a keyword list related to the target keyword for the target keyword corresponding to a loan word among the keywords included in the product dictionary, the original word notation keyword of the target keyword is used from the keyword list using a transliteration model. As a synonym of the target keyword, a synonym extraction unit, and
Synonym addition unit that additionally registers the synonym in the multigraph
A computer system.
前記同義語抽出部は、
前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つを抽出する、
請求項1に記載のコンピュータシステム。
The synonym extraction unit
Extract at least one of the product name list clicked after inputting the target keyword as a search query, other query lists related to each clicked product, and tag list related to each clicked product.
The computer system according to claim 14 .
前記同義語抽出部は、
発音の最小単位を利用した音訳モデルを利用して前記同義語を抽出する、
請求項1に記載のコンピュータシステム。
The synonym extraction unit
Extract the synonyms using a transliteration model that uses the smallest unit of pronunciation.
The computer system according to claim 14 .
前記同義語抽出部は、
LBG(linked bi-gramed)のデータ形式を利用して前記対象キーワードを発音の最小単位に分離する、
請求項1に記載のコンピュータシステム。
The synonym extraction unit
Using the LBG (linked bi-graded) data format, the target keyword is separated into the smallest units of pronunciation.
The computer system according to claim 16 .
前記同義語抽出部は、
前記音訳モデルを利用して前記キーワードリストから抽出された単語のうちで前記対象キーワードとマッチングされる単語を前記同義語として抽出する、
請求項1に記載のコンピュータシステム。
The synonym extraction unit
Among the words extracted from the keyword list using the transliteration model, the words that match the target keyword are extracted as synonyms.
The computer system according to claim 14 .
前記同義語抽出部は、
前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つに前記対象キーワードとマッチングされる単語が出現するか否か、または出現する頻度に基づいて前記同義語を決定するか、前記クリックした商品名リスト、前記他のクエリリスト、前記タグリストのうちの少なくとも1つに出現するパターンと一致する場合に前記同義語として決定するか、あるいは前記同義語候補が複数であるときには前記対象キーワードと関連する前記クリックした商品名リスト、前記他のクエリリスト、前記タグリストのうちの少なくとも1つで最も多く出現するパターンの単語を最終英文同義語として決定する
請求項1に記載のコンピュータシステム。
The synonym extraction unit
A word that matches the target keyword in at least one of the product name list clicked after entering the target keyword as a search query, other query lists related to each click product, and the tag list associated with each click product. Determines the synonym based on whether or not it appears, or how often it appears, or matches a pattern that appears in at least one of the clicked product name list, the other query list, or the tag list. In this case, it is determined as the synonym, or when there are a plurality of synonym candidates, at least one of the clicked product name list, the other query list, and the tag list related to the target keyword. Determine the word with the most frequently occurring pattern as the final English synonym ,
The computer system according to claim 18 .
JP2020018525A 2019-02-18 2020-02-06 Methods and systems for automatically extracting foreign synonyms using a transliteration model Active JP7014830B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190018535A KR102192376B1 (en) 2019-02-18 2019-02-18 Method and system for extracting foreign synonym using transliteration model
KR10-2019-0018535 2019-02-18

Publications (2)

Publication Number Publication Date
JP2020135877A JP2020135877A (en) 2020-08-31
JP7014830B2 true JP7014830B2 (en) 2022-02-01

Family

ID=72242536

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020018525A Active JP7014830B2 (en) 2019-02-18 2020-02-06 Methods and systems for automatically extracting foreign synonyms using a transliteration model

Country Status (2)

Country Link
JP (1) JP7014830B2 (en)
KR (1) KR102192376B1 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263429A (en) 2002-03-07 2003-09-19 Nippon Hoso Kyokai <Nhk> Loan work matching device and its program
JP2004280467A (en) 2003-03-14 2004-10-07 Nippon Hoso Kyokai <Nhk> Translation device, translation method, and its program
JP2004280353A (en) 2003-03-14 2004-10-07 Patolis Corp Method for automatically extracting korean foreign word
JP2009223463A (en) 2008-03-14 2009-10-01 Nippon Telegr & Teleph Corp <Ntt> Synonymy determination apparatus, method therefor, program, and recording medium
KR20100003178A (en) 2008-06-30 2010-01-07 주식회사 한글과 컴퓨터 Apparatus for searching multi-language apparatus
US20130338996A1 (en) 2008-07-18 2013-12-19 Google Inc. Transliteration For Query Expansion
JP2016200978A (en) 2015-04-10 2016-12-01 株式会社日立製作所 Training data generation device

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100511247B1 (en) * 2003-06-13 2005-08-31 홍광석 Language Modeling Method of Speech Recognition System
KR101231438B1 (en) * 2011-05-25 2013-02-07 엔에이치엔(주) Search reasult providing system and method for providing loan word pronunciation search service
KR101515416B1 (en) * 2014-05-28 2015-04-30 김수현 Differential display method and system for search result

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263429A (en) 2002-03-07 2003-09-19 Nippon Hoso Kyokai <Nhk> Loan work matching device and its program
JP2004280467A (en) 2003-03-14 2004-10-07 Nippon Hoso Kyokai <Nhk> Translation device, translation method, and its program
JP2004280353A (en) 2003-03-14 2004-10-07 Patolis Corp Method for automatically extracting korean foreign word
JP2009223463A (en) 2008-03-14 2009-10-01 Nippon Telegr & Teleph Corp <Ntt> Synonymy determination apparatus, method therefor, program, and recording medium
KR20100003178A (en) 2008-06-30 2010-01-07 주식회사 한글과 컴퓨터 Apparatus for searching multi-language apparatus
US20130338996A1 (en) 2008-07-18 2013-12-19 Google Inc. Transliteration For Query Expansion
JP2016200978A (en) 2015-04-10 2016-12-01 株式会社日立製作所 Training data generation device

Also Published As

Publication number Publication date
JP2020135877A (en) 2020-08-31
KR102192376B1 (en) 2020-12-17
KR20200100360A (en) 2020-08-26

Similar Documents

Publication Publication Date Title
JP6714024B2 (en) Automatic generation of N-grams and conceptual relationships from language input data
JP2021530818A (en) Natural language interface for databases with autonomous agents and thesaurus
KR102075505B1 (en) Method and system for extracting topic keyword
JP2016186805A5 (en)
JP2014142951A (en) Modular system and method for managing chinese, japanese and korean linguistic data in electronic form
US10134067B2 (en) Autocomplete of searches for data stored in multi-tenant architecture
WO2016121048A1 (en) Text generation device and text generation method
JP2021179979A (en) Method for extracting attribute of item for shopping search
US20160154885A1 (en) Method for searching a database
KR102277240B1 (en) Method and system for extracting synonym by using keyword relation structure
KR102415366B1 (en) Method and system for retrieving associative image through multimodality ranking model using different modal features
KR20200097949A (en) Method and system for extracting synonym by using keyword relation structure
JP2021072120A (en) Method and device for recommending short-cut of application function on the basis of application usage pattern and conversation analysis
JP7014830B2 (en) Methods and systems for automatically extracting foreign synonyms using a transliteration model
KR102195191B1 (en) Method and system for extracting new keyword by using keyword relation structure
KR20210006098A (en) Method and system for determining document consistence to improve document search quality
KR20190000061A (en) Method and system for providing relevant keywords based on keyword attribute
JP2020155108A (en) Method and system for grouping channels in plural social network services and non-temporary computer-readable storage medium
JP2022002034A (en) Extraction method, extraction program, and extraction device
KR102240454B1 (en) Method and system for extracting synonym by using query analysis based on keyword relation structure
US20240104297A1 (en) Analysis of spreadsheet table in response to user input
CN118070291B (en) Vulnerability information processing method and electronic equipment
US11397862B2 (en) Configuring metrics and recall levels for natural language processing annotator
KR102206289B1 (en) Method and system for integrating poi search coverage
KR20240029945A (en) Method, computer device, and computer program for item ledger platform

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220120