JP2011008784A - ローマ字変換を用いる日本語自動推薦システムおよび方法 - Google Patents
ローマ字変換を用いる日本語自動推薦システムおよび方法 Download PDFInfo
- Publication number
- JP2011008784A JP2011008784A JP2010141508A JP2010141508A JP2011008784A JP 2011008784 A JP2011008784 A JP 2011008784A JP 2010141508 A JP2010141508 A JP 2010141508A JP 2010141508 A JP2010141508 A JP 2010141508A JP 2011008784 A JP2011008784 A JP 2011008784A
- Authority
- JP
- Japan
- Prior art keywords
- word
- japanese
- hiragana
- kanji
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】本発明の日本語自動推薦システムは、日本語のひらがな形態またはカタカナ形態で表現される単語の発音をローマ字に変換するローマ字変換部、および前記変換されたローマ字に基づいて前記単語に対する類似語を検索する類似語検索部を含む。
【選択図】図1
Description
長音:ハロワーク(誤字)、ハロ-ワ-ク(誤字)、ハローワーク(正解)
中点:ピートローズ(誤字)、ピート・ローズ(正解)
半濁音:オリゴン(誤字)、オリコン(正解)
促音:ビクカメラ(誤字)ビックカメラ(正解)
原型:花よりだんごファイナル(誤字)花より男子ファイナル(正解)
101:誤字判断部
102:漢字−ひらがな変換部
103:ローマ字変換部
104:類似語検索部
105:類似語推薦部
106:正解単語選択部
Claims (27)
- 日本語のひらがな形態またはカタカナ形態で表現される単語の発音をローマ字に変換するローマ字変換部と、
前記変換されたローマ字に基づいて前記単語に対する類似語を検索する類似語検索部と、
を含むことを特徴とする日本語自動推薦システム。 - 前記類似語検索部は、前記ローマ字に変換された単語の類似度点数に基づいて前記単語に対する類似語を検索し、
前記類似度点数は、前記単語の長さに応じる入力頻度、前記単語が長音、中点、促音、または濁音を含むか否かによる編集距離、または前記単語の原型状態の比較程度のうちの少なくとも1つに基づいて決定されることを特徴とする請求項1に記載の日本語自動推薦システム。 - 前記類似語検索部は、前記単語が漢字である場合、ローマ字に変換された形態の比較結果、ひらがなに変換された形態の比較結果および漢字本来の形態の比較結果に基づいて類似度点数を決めることを特徴とする請求項2に記載の日本語自動推薦システム。
- 前記検索された類似語を前記ひらがな、カタカナ、または漢字のうちのいずれか1つの日本語形態に変換して推薦する類似語推薦部をさらに含むことを特徴とする請求項1に記載の日本語自動推薦システム。
- 前記類似語推薦部は、(1)ローマ字に変換された状態の類似度とローマ字に変換されない状態の類似度との差が予め設定した基準を超える場合、または(2)前記単語が前記推薦される類似語よりもさらに多く用いられる場合に、前記類似語を推薦しないことを特徴とする請求項4に記載の日本語自動推薦システム。
- 前記類似語推薦部は、前記検索された類似語を前記単語の日本語形態と異なる形態に変換して推薦することを特徴とする請求項4に記載の日本語自動推薦システム。
- 入力された単語を分析して前記単語が誤字であるか否かを判断する誤字判断部をさらに含み、
前記ローマ字変換部は、前記入力された単語が誤字である場合、前記単語をローマ字に変換することを特徴とする請求項1に記載の日本語自動推薦システム。 - 前記誤字判断部は、前記単語が予め設定された誤字データに含まれるか否か、前記単語の入力頻度または文書出現の頻度が予め設定された基準頻度よりも低いか否か、または前記単語が形態素に分離するか否かに基づいて、前記単語が誤字であるか否かを判断することを特徴とする請求項7に記載の日本語自動推薦システム。
- 前記単語が誤字である場合、類似度点数または単語の入力頻度による編集距離に基づいて、前記検索された類似語のうちの前記単語に対する正解単語を選択する正解単語選択部をさらに含むことを特徴とする請求項7に記載の日本語自動推薦システム。
- 入力された単語が漢字である場合、トークン分割学習データを用いて前記単語をトークン別に分割し、漢字−ひらがな変換学習データを用いて前記分割されたトークンに対応するひらがなに変換する漢字−ひらがな変換部をさらに含むことを特徴とする請求項1に記載の日本語自動推薦システム。
- 前記トークン分割学習データは、前記漢字の形態素トークン別に分離するコーパスを用いて隠れマルコフモデル基盤の分かち書き学習によって決められることを特徴とする請求項10に記載の日本語自動推薦システム。
- 前記漢字−ひらがな変換学習データは、漢字の形態素トークン別に分離するコーパスに基づく学習によって決められるバイグラム辞書およびユニグラム辞書を含み、
前記バイグラム辞書は、トークンとの間の頻度数で構築され、
前記ユニグラム辞書は、トークンとひらがなとの間の頻度数で構築されることを特徴とする請求項10に記載の日本語自動推薦システム。 - 前記漢字−ひらがな変換部は、前記分割されたトークンに対してバイグラム辞書を検索して最大の確率を示すトークンを選択し、前記選択されたトークンに対してユニグラム辞書に対応するひらがなに変換することを特徴とする請求項12に記載の日本語自動推薦システム。
- コンピュータにより実行されるステップが、
日本語のひらがな形態またはカタカナ形態で表現される単語の発音をローマ字に変換するステップと、
前記変換されたローマ字に基づいて前記単語に対する類似語を検索するステップと、
を含むことを特徴とする日本語自動推薦方法。 - 前記単語に対する類似語を検索するステップは、前記ローマ字に変換された単語の類似度点数に基づいて前記単語に対する類似語を検索し、
前記類似度点数は、前記単語の長さに応じる入力頻度、前記単語が長音、促音、または濁音を含むか否かによる編集距離、または前記単語の原型状態の比較程度のうちの少なくとも1つに基づいて決定されることを特徴とする請求項14に記載の日本語自動推薦方法。 - 前記単語に対する類似語を検索するステップは、前記単語が漢字である場合、ローマ字に変換された形態の比較結果、ひらがなに変換された形態の比較結果および漢字本来の形態の比較結果に基づいて類似度点数を決めることを特徴とする請求項15に記載の日本語自動推薦方法。
- 前記検索された類似語を前記ひらがな、カタカナ、または漢字のうちのいずれか1つの日本語形態に変換して推薦するステップをさらに含むことを特徴とする請求項14に記載の日本語自動推薦方法。
- 前記検索された類似語を前記ひらがな、カタカナ、または漢字のうちのいずれか1つの日本語形態に変換して推薦するステップは、(1)ローマ字に変換された状態の類似度とローマ字に変換されない状態の類似度との差が予め設定した基準を超える場合、または(2)前記単語が前記推薦される類似語よりもさらに多く用いられる場合に、前記類似語を推薦しないことを特徴とする請求項17に記載の日本語自動推薦方法。
- 前記検索された類似語を前記ひらがな、カタカナ、または漢字のうちのいずれか1つの日本語形態に変換して推薦するステップは、前記検索された類似語を前記単語の日本語形態と異なる形態に変換して推薦することを特徴とする請求項17に記載の日本語自動推薦方法。
- 入力された単語を分析して前記単語が誤字であるか否かを判断するステップをさらに含み、
前記単語の発音をローマ字に変換するステップは、前記入力された単語が誤字である場合、前記単語をローマ字に変換することを特徴とする請求項14に記載の日本語自動推薦方法。 - 前記単語が誤字であるか否かを判断するステップは、前記単語が予め設定された誤字データに含まれるか否か、前記単語の入力頻度または文書出現の頻度が予め設定された基準頻度よりも低いか否か、または前記単語が形態素に分離するか否かに基づいて、前記単語が誤字であるか否かを判断することを特徴とする請求項20に記載の日本語自動推薦方法。
- 前記単語が誤字である場合、類似度点数または単語の入力頻度による編集距離に基づいて、前記検索された類似語のうちの前記単語に対する正解単語を選択するステップをさらに含むことを特徴とする請求項20に記載の日本語自動推薦方法。
- 入力された単語が漢字である場合、トークン分割学習データを用いて前記単語をトークン別に分割し、漢字−ひらがな変換学習データを用いて前記分割されたトークンに対応するひらがなに変換するステップをさらに含むことを特徴とする請求項14に記載の日本語自動推薦方法。
- 前記トークン分割学習データは、前記漢字の形態素トークン別に分離するコーパスを用いて、隠れマルコフモデル基盤の分かち書き学習によって決められることを特徴とする請求項23に記載の日本語自動推薦方法。
- 前記漢字−ひらがな変換学習データは、漢字の形態素トークン別に分離するコーパスに基づく学習によって決定されたバイグラム辞書およびユニグラム辞書を含み、
前記バイグラム辞書は、トークンとの間の頻度数で構築され、
前記ユニグラム辞書は、トークンとひらがなとの間の頻度数で構築されることを特徴とする請求項23に記載の日本語自動推薦方法。 - 前記分割されたトークンに対応するひらがなに変換するステップは、
前記分割されたトークンに対し、バイグラム辞書を検索して最大の確率を表すトークンを選択するステップと、
前記選択されたトークンに対し、ユニグラム辞書に対応するひらがなに変換するステップと、
を含むことを特徴とする請求項23に記載の日本語自動推薦方法。 - コンピュータに、請求項14〜26のいずれか一項の方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090056609A KR101086550B1 (ko) | 2009-06-24 | 2009-06-24 | 로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법 |
KR10-2009-0056609 | 2009-06-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011008784A true JP2011008784A (ja) | 2011-01-13 |
JP5097802B2 JP5097802B2 (ja) | 2012-12-12 |
Family
ID=43511696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010141508A Active JP5097802B2 (ja) | 2009-06-24 | 2010-06-22 | ローマ字変換を用いる日本語自動推薦システムおよび方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5097802B2 (ja) |
KR (1) | KR101086550B1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462740A (zh) * | 2019-01-18 | 2020-07-28 | 奥多比公司 | 非语音字母语言的话音辅助应用原型测试的话音命令匹配 |
US20210342693A1 (en) * | 2017-08-18 | 2021-11-04 | MyFitnessPal, Inc. | Context and domain sensitive spelling correction in a database |
JP2023039822A (ja) * | 2021-09-09 | 2023-03-22 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
DE102019007797B4 (de) | 2019-01-18 | 2023-11-30 | Adobe Inc. | Abgleichen von Stimmbefehlen während des Testens von stimmunterstützten App-Prototypen für Sprachen mit nichtphonetischen Alphabeten |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047488B (zh) * | 2019-03-01 | 2022-04-12 | 北京彩云环太平洋科技有限公司 | 语音翻译方法、装置、设备及控制设备 |
US11250221B2 (en) | 2019-03-14 | 2022-02-15 | Sap Se | Learning system for contextual interpretation of Japanese words |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6211932A (ja) * | 1985-07-10 | 1987-01-20 | Hitachi Ltd | 情報検索方法 |
JPH0315980A (ja) * | 1989-06-14 | 1991-01-24 | Hitachi Ltd | 文字列検索装置 |
JP2009266110A (ja) * | 2008-04-28 | 2009-11-12 | Internatl Business Mach Corp <Ibm> | 情報処理装置、姓名識別方法、情報処理システム、およびプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10198676A (ja) * | 1997-01-13 | 1998-07-31 | Matsushita Electric Ind Co Ltd | 日本語形態素解析装置及び日本語形態素解析方法 |
AUPR824601A0 (en) * | 2001-10-15 | 2001-11-08 | Silverbrook Research Pty. Ltd. | Methods and system (npw004) |
-
2009
- 2009-06-24 KR KR1020090056609A patent/KR101086550B1/ko active IP Right Grant
-
2010
- 2010-06-22 JP JP2010141508A patent/JP5097802B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6211932A (ja) * | 1985-07-10 | 1987-01-20 | Hitachi Ltd | 情報検索方法 |
JPH0315980A (ja) * | 1989-06-14 | 1991-01-24 | Hitachi Ltd | 文字列検索装置 |
JP2009266110A (ja) * | 2008-04-28 | 2009-11-12 | Internatl Business Mach Corp <Ibm> | 情報処理装置、姓名識別方法、情報処理システム、およびプログラム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210342693A1 (en) * | 2017-08-18 | 2021-11-04 | MyFitnessPal, Inc. | Context and domain sensitive spelling correction in a database |
US11610123B2 (en) * | 2017-08-18 | 2023-03-21 | MyFitnessPal, Inc. | Context and domain sensitive spelling correction in a database |
CN111462740A (zh) * | 2019-01-18 | 2020-07-28 | 奥多比公司 | 非语音字母语言的话音辅助应用原型测试的话音命令匹配 |
JP2020118955A (ja) * | 2019-01-18 | 2020-08-06 | アドビ インコーポレイテッド | 非表音文字体系を使用する言語のための音声支援型アプリケーションプロトタイプの試験中の音声コマンドマッチング |
JP7111682B2 (ja) | 2019-01-18 | 2022-08-02 | アドビ インコーポレイテッド | 非表音文字体系を使用する言語のための音声支援型アプリケーションプロトタイプの試験中の音声コマンドマッチング |
US11727929B2 (en) | 2019-01-18 | 2023-08-15 | Adobe Inc. | Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets |
DE102019007797B4 (de) | 2019-01-18 | 2023-11-30 | Adobe Inc. | Abgleichen von Stimmbefehlen während des Testens von stimmunterstützten App-Prototypen für Sprachen mit nichtphonetischen Alphabeten |
CN111462740B (zh) * | 2019-01-18 | 2024-05-24 | 奥多比公司 | 非语音字母语言的话音辅助应用原型测试的话音命令匹配 |
JP2023039822A (ja) * | 2021-09-09 | 2023-03-22 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5097802B2 (ja) | 2012-12-12 |
KR101086550B1 (ko) | 2011-11-23 |
KR20100138194A (ko) | 2010-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
KR101435265B1 (ko) | 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법 | |
US8364470B2 (en) | Text analysis method for finding acronyms | |
US9069753B2 (en) | Determining proximity measurements indicating respective intended inputs | |
KR101650112B1 (ko) | 음역을 위한 기계 학습 | |
US20050044495A1 (en) | Language input architecture for converting one text form to another text form with tolerance to spelling typographical and conversion errors | |
CN107291684B (zh) | 语言文本的分词方法和系统 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
WO2009035863A2 (en) | Mining bilingual dictionaries from monolingual web pages | |
JP2003527676A (ja) | モードレス入力で一方のテキスト形式を他方のテキスト形式に変換する言語入力アーキテクチャ | |
KR102552811B1 (ko) | 클라우드 기반 문법 교정 서비스 제공 시스템 | |
US20070179779A1 (en) | Language information translating device and method | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
CN111460793A (zh) | 纠错方法、装置、设备及存储介质 | |
JP6778655B2 (ja) | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
CN107870900B (zh) | 提供翻译文的方法、装置以及记录介质 | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
CN106294310B (zh) | 一种藏语声调预测方法及系统 | |
JP3952964B2 (ja) | 読み情報決定方法及び装置及びプログラム | |
JPWO2009041661A1 (ja) | 情報処理装置、及びプログラム | |
JP5169602B2 (ja) | 形態素解析装置、形態素解析方法及びコンピュータプログラム | |
JP2017156890A (ja) | 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム | |
KR101461062B1 (ko) | 로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법 | |
JP6303508B2 (ja) | 文書分析装置、文書分析システム、文書分析方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120522 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120817 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120904 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120924 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5097802 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150928 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |