JP7014830B2 - 音訳モデルを利用して外来同義語を自動抽出する方法およびシステム - Google Patents
音訳モデルを利用して外来同義語を自動抽出する方法およびシステム Download PDFInfo
- Publication number
- JP7014830B2 JP7014830B2 JP2020018525A JP2020018525A JP7014830B2 JP 7014830 B2 JP7014830 B2 JP 7014830B2 JP 2020018525 A JP2020018525 A JP 2020018525A JP 2020018525 A JP2020018525 A JP 2020018525A JP 7014830 B2 JP7014830 B2 JP 7014830B2
- Authority
- JP
- Japan
- Prior art keywords
- synonym
- product
- keyword
- list
- target keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 43
- 238000000605 extraction Methods 0.000 claims description 41
- 230000015654 memory Effects 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 13
- 150000001875 compounds Chemical class 0.000 claims description 2
- 230000008569 process Effects 0.000 description 21
- 238000012545 processing Methods 0.000 description 21
- 238000004891 communication Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 208000006930 Pseudomyxoma Peritonei Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 229920000306 polymethylpentene Polymers 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/2448—Query languages for particular applications; for extensibility, e.g. user defined types
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Description
と関連するクリック商品名リスト1311と、
と関連するクリック商品名リスト1321を例示的に示している。
と関連するクリック商品名リスト1311から抽出された英文単語リスト1411と、
と関連するクリック商品名リスト1321から抽出された英文単語リスト1421を例示的に示している(なお、図14において、uniqloおよびエアリズム(airism)は登録商標である(他の図面においても同様))。
310:グラフ生成部
320:同義語抽出部
330:同義語追加部
Claims (19)
- コンピュータシステムが実行する同義語抽出方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
当該同義語抽出方法は、
前記少なくとも1つのプロセッサにより、商品辞書上のキーワード間の関係を示すマルチグラフを生成する段階、
前記少なくとも1つのプロセッサにより、前記商品辞書に含まれるキーワードのうちの外来語に該当する対象キーワードに対し、前記対象キーワードと関連するキーワードリストを抽出する段階、
前記少なくとも1つのプロセッサにより、音訳モデルを利用し、前記キーワードリストから前記対象キーワードの原語表記キーワードを前記対象キーワードの同義語として抽出する段階、および
前記少なくとも1つのプロセッサにより、前記同義語を前記マルチグラフに追加登録する段階を含む、同義語抽出方法。 - 前記キーワードリストを抽出する段階は、
前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つを抽出する、
請求項1に記載の同義語抽出方法。 - 前記同義語を抽出する段階は、
発音の最小単位を利用した音訳モデルを利用して前記同義語を抽出する、
請求項1または2に記載の同義語抽出方法。 - 前記同義語を抽出する段階は、
LBG(linked bi-gramed)のデータ形式を利用して前記対象キーワードを発音の最小単位に分離する段階
を含む、請求項3に記載の同義語抽出方法。 - 前記同義語を抽出する段階は、
前記音訳モデルを利用して前記キーワードリストから抽出された単語のうちから前記対象キーワードとマッチングされる単語を前記同義語として抽出する段階
を含む、請求項1または2に記載の同義語抽出方法。 - 前記同義語を抽出する段階は、
前記対象キーワードに対して前記マッチングされる単語を置換することで同義語候補を抽出する段階
をさらに含む、請求項5に記載の同義語抽出方法。 - 前記同義語を抽出する段階は、
前記キーワードリストから特定言語の単語を抽出する
ことを含む、請求項5に記載の同義語抽出方法。 - 前記同義語を抽出する段階は、
前記キーワードリストから抽出された単語のうちから前記対象キーワードとマッチングされる単語を前記同義語として抽出する段階以前に、前記対象キーワードが複合語からなる場合、単一語に分離する段階
をさらに含む、請求項5に記載の同義語抽出方法。 - 前記同義語を抽出する段階は、
前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つに出現するパターンと一致する場合に前記同義語として決定するか、あるいは前記同義語候補が複数であるときには前記対象キーワードと関連する前記クリックした商品名リスト、前記他のクエリリスト、前記タグリストのうちの少なくとも1つで最も多く出現するパターンの単語を最終英文同義語として決定する段階
をさらに含む、請求項5に記載の同義語抽出方法。 - 前記同義語を抽出する段階は、
前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つに前記対象キーワードとマッチングされる単語が出現するか否か、または出現する頻度に基づいて前記同義語を決定する段階
をさらに含む、請求項5に記載の同義語抽出方法。 - 前記生成する段階は、
前記商品辞書に含まれる各商品別に、該当の商品にマッチングされる商品情報をキーワードに変換する段階、および
前記商品辞書から前記商品にマッチングされる情報間の関係データをキーワード間の関係データとして抽出する段階
を含む、請求項1に記載の同義語抽出方法。 - 前記追加登録する段階は、
前記マルチグラフ上に前記対象キーワードと前記同義語との関係を追加する、
請求項10または11に記載の同義語抽出方法。 - 請求項1~12のうちのいずれか一項に記載の同義語抽出方法をコンピュータに実行させるためのプログラム。
- コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
商品辞書上のキーワード間の関係を示すマルチグラフを生成するグラフ生成部、
前記商品辞書に含まれるキーワードのうちの外来語に該当する対象キーワードに対し、前記対象キーワードと関連するキーワードリストを抽出した後、音訳モデルを利用して前記キーワードリストから前記対象キーワードの原語表記キーワードを前記対象キーワードの同義語として抽出する同義語抽出部、および、
前記同義語を前記マルチグラフに追加登録する同義語追加部
を備える、コンピュータシステム。 - 前記同義語抽出部は、
前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つを抽出する、
請求項14に記載のコンピュータシステム。 - 前記同義語抽出部は、
発音の最小単位を利用した音訳モデルを利用して前記同義語を抽出する、
請求項14に記載のコンピュータシステム。 - 前記同義語抽出部は、
LBG(linked bi-gramed)のデータ形式を利用して前記対象キーワードを発音の最小単位に分離する、
請求項16に記載のコンピュータシステム。 - 前記同義語抽出部は、
前記音訳モデルを利用して前記キーワードリストから抽出された単語のうちで前記対象キーワードとマッチングされる単語を前記同義語として抽出する、
請求項14に記載のコンピュータシステム。 - 前記同義語抽出部は、
前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つに前記対象キーワードとマッチングされる単語が出現するか否か、または出現する頻度に基づいて前記同義語を決定するか、前記クリックした商品名リスト、前記他のクエリリスト、前記タグリストのうちの少なくとも1つに出現するパターンと一致する場合に前記同義語として決定するか、あるいは前記同義語候補が複数であるときには前記対象キーワードと関連する前記クリックした商品名リスト、前記他のクエリリスト、前記タグリストのうちの少なくとも1つで最も多く出現するパターンの単語を最終英文同義語として決定する、
請求項18に記載のコンピュータシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190018535A KR102192376B1 (ko) | 2019-02-18 | 2019-02-18 | 음역 모델을 이용하여 외래 동의어를 자동 추출하는 방법 및 시스템 |
KR10-2019-0018535 | 2019-02-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020135877A JP2020135877A (ja) | 2020-08-31 |
JP7014830B2 true JP7014830B2 (ja) | 2022-02-01 |
Family
ID=72242536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020018525A Active JP7014830B2 (ja) | 2019-02-18 | 2020-02-06 | 音訳モデルを利用して外来同義語を自動抽出する方法およびシステム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7014830B2 (ja) |
KR (1) | KR102192376B1 (ja) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003263429A (ja) | 2002-03-07 | 2003-09-19 | Nippon Hoso Kyokai <Nhk> | 外来語対応付け装置及びそのプログラム |
JP2004280467A (ja) | 2003-03-14 | 2004-10-07 | Nippon Hoso Kyokai <Nhk> | 翻訳装置、翻訳方法、及びそのプログラム |
JP2004280353A (ja) | 2003-03-14 | 2004-10-07 | Patolis Corp | 韓国語の外来語自動抽出方法 |
JP2009223463A (ja) | 2008-03-14 | 2009-10-01 | Nippon Telegr & Teleph Corp <Ntt> | 同義性判定装置、その方法、プログラム及び記録媒体 |
KR20100003178A (ko) | 2008-06-30 | 2010-01-07 | 주식회사 한글과 컴퓨터 | 다국어 독음 검색 장치 |
US20130338996A1 (en) | 2008-07-18 | 2013-12-19 | Google Inc. | Transliteration For Query Expansion |
JP2016200978A (ja) | 2015-04-10 | 2016-12-01 | 株式会社日立製作所 | 教師データの生成装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100511247B1 (ko) * | 2003-06-13 | 2005-08-31 | 홍광석 | 음성 인식 시스템의 언어 모델링 방법 |
KR101231438B1 (ko) * | 2011-05-25 | 2013-02-07 | 엔에이치엔(주) | 외래어 발음 검색 서비스를 제공하는 검색결과 제공 시스템 및 방법 |
KR101515416B1 (ko) * | 2014-05-28 | 2015-04-30 | 김수현 | 검색결과의 차등적 표시방법 및 표시시스템 |
-
2019
- 2019-02-18 KR KR1020190018535A patent/KR102192376B1/ko active IP Right Grant
-
2020
- 2020-02-06 JP JP2020018525A patent/JP7014830B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003263429A (ja) | 2002-03-07 | 2003-09-19 | Nippon Hoso Kyokai <Nhk> | 外来語対応付け装置及びそのプログラム |
JP2004280467A (ja) | 2003-03-14 | 2004-10-07 | Nippon Hoso Kyokai <Nhk> | 翻訳装置、翻訳方法、及びそのプログラム |
JP2004280353A (ja) | 2003-03-14 | 2004-10-07 | Patolis Corp | 韓国語の外来語自動抽出方法 |
JP2009223463A (ja) | 2008-03-14 | 2009-10-01 | Nippon Telegr & Teleph Corp <Ntt> | 同義性判定装置、その方法、プログラム及び記録媒体 |
KR20100003178A (ko) | 2008-06-30 | 2010-01-07 | 주식회사 한글과 컴퓨터 | 다국어 독음 검색 장치 |
US20130338996A1 (en) | 2008-07-18 | 2013-12-19 | Google Inc. | Transliteration For Query Expansion |
JP2016200978A (ja) | 2015-04-10 | 2016-12-01 | 株式会社日立製作所 | 教師データの生成装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2020135877A (ja) | 2020-08-31 |
KR102192376B1 (ko) | 2020-12-17 |
KR20200100360A (ko) | 2020-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6714024B2 (ja) | 言語入力データからnグラムおよび概念関係の自動生成 | |
JP2021530818A (ja) | 自律型エージェントおよびシソーラスを用いるデータベースのための自然言語インターフェイス | |
KR102075505B1 (ko) | 핵심 키워드 추출 방법 및 시스템 | |
JP2016186805A5 (ja) | ||
JP2014142951A (ja) | 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法 | |
US10134067B2 (en) | Autocomplete of searches for data stored in multi-tenant architecture | |
WO2016121048A1 (ja) | 文章生成装置及び方法 | |
JP2021179979A (ja) | ショッピング検索のための商品属性抽出方法 | |
US20160154885A1 (en) | Method for searching a database | |
KR102277240B1 (ko) | 키워드 관계 구조를 이용한 동의어 추출 방법 및 시스템 | |
KR102415366B1 (ko) | 서로 다른 모달의 피처를 이용한 복합 랭킹 모델을 통해 연관 이미지를 검색하는 방법 및 시스템 | |
KR20200097949A (ko) | 키워드 관계 구조를 이용한 동의어 추출 방법 및 시스템 | |
JP2021072120A (ja) | アプリ使用パターンと会話分析に基づいてアプリ機能のショートカットを推薦する方法および装置 | |
JP7014830B2 (ja) | 音訳モデルを利用して外来同義語を自動抽出する方法およびシステム | |
KR102195191B1 (ko) | 키워드 관계 구조를 이용한 신규 키워드 추출 방법 및 시스템 | |
KR20210006098A (ko) | 문서 검색 품질 향상을 위한 문서 일관성 판단 방법 및 시스템 | |
KR20190000061A (ko) | 키워드 속성을 기준으로 관련 있는 키워드를 제공하는 방법 및 시스템 | |
JP2020155108A (ja) | 複数のソーシャルネットワークサービス内のチャンネルをグルーピングする方法、システム、および非一時的なコンピュータ読み取り可能な記憶媒体 | |
JP2022002034A (ja) | 抽出方法、抽出プログラム、及び、抽出装置 | |
KR102240454B1 (ko) | 키워드 관계 구조 기반의 질의 분석을 이용한 복합키워드 동의어 추출 방법 및 시스템 | |
US20240104297A1 (en) | Analysis of spreadsheet table in response to user input | |
CN118070291B (zh) | 一种漏洞信息处理方法和电子设备 | |
US11397862B2 (en) | Configuring metrics and recall levels for natural language processing annotator | |
KR102206289B1 (ko) | 장소 검색 커버리지를 통합하는 방법 및 시스템 | |
KR20240029945A (ko) | 아이템 원부 플랫폼을 위한 방법, 컴퓨터 장치, 및 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220111 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220120 |