JP5238395B2 - 言語モデル作成装置および言語モデル作成方法 - Google Patents
言語モデル作成装置および言語モデル作成方法 Download PDFInfo
- Publication number
- JP5238395B2 JP5238395B2 JP2008198451A JP2008198451A JP5238395B2 JP 5238395 B2 JP5238395 B2 JP 5238395B2 JP 2008198451 A JP2008198451 A JP 2008198451A JP 2008198451 A JP2008198451 A JP 2008198451A JP 5238395 B2 JP5238395 B2 JP 5238395B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- model
- language model
- unit
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
図1は、本実施形態のクライアント装置110と、クライアント装置110から送信された音声を認識しその認識結果をクライアント装置110に返信するサーバ装置120と、を備える通信システムのシステム構成図である。本実施形態では、クライアント装置110は、例えば携帯電話などの携帯端末であって、ユーザが発声した音声を入力し、入力した音声を無線ネットワーク経由でサーバ装置120に送信し、サーバ装置120からの返信である認識結果を無線ネットワーク経由で受信する構成とされている。
参考文献:李晃伸、河原達也、鹿野清宏、「2パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法」、情報処理学会研究報告、2003-SLP-49-48、2003-12.
図4では、例えば、認識結果である「いる」は、58フレームから71フレームまでで構成され、その品詞は非自立の動詞で、その信頼度は0.52であることが示されている。
また、品詞などの単語情報がない場合は、音声認識結果を形態素解析することで生成してもよい。形態素解析は、MeCabやChaSenなどの形態素解析ツールをもちいて実施することができる。品詞の情報が品詞番号など別の形式で送られてくる場合、その形式と品詞の情報形式の対応表を予め用意して、変換してもよい。
上記のように構成されたクライアント装置110の動作について説明する。図6は、クライアント装置110の動作を示すフローチャートである。マイクを介して入力された音声は、特徴量算出部210によりその特徴量データが抽出される(S101)。そして、抽出された特徴量データは特徴量保存部230に保存される(S102)。次に、特徴量圧縮部220により特徴量データは圧縮される(S103)。圧縮された特徴量データは、送信部225によりサーバ装置120に送信される(S104)。
Claims (7)
- 対象単語の前に隣接する単語と前記対象単語の後ろに隣接する単語の両方または片方を含む隣接単語と、前記対象単語と、を含む単語列の単語情報を抽出する単語列抽出手段と、
前記単語列抽出手段により抽出された単語列の単語情報に基づいて、言語モデル保持部から、前記単語列の単語情報を含むモデルを抽出するモデル抽出手段と、
前記モデル抽出手段により抽出されたモデルから、前記対象単語に対応するモデルを作成するモデル作成手段と、
を備え、
前記モデル抽出手段は、
前記単語列抽出手段により抽出された単語列の単語情報に基づいて、前記言語モデル保持部から、前記対象単語候補を抽出し、
前記対象単語候補に基づいて、前記言語モデル保持部から、モデルを抽出する、
ことを特徴とする言語モデル作成装置。 - 前記モデル抽出手段は、
前記単語列に含まれた対象単語に関する品詞、係り受け、読み、表記および単語クラスのうち少なくとも1つを含む単語情報、および、前記単語列に含まれた隣接単語に関する品詞、係り受け、読み、表記および単語クラスのうち少なくとも1つを含む単語情報を参照して、前記単語列を含むモデルを抽出する、
ことを特徴とする請求項1に記載の言語モデル作成装置。 - 前記モデル抽出手段は、
前記単語列に含まれた隣接単語に関する信頼度をさらに参照して、前記単語列を含むモデルを抽出する、
ことを特徴とする請求項1または2に記載の言語モデル作成装置。 - 前記単語列抽出手段は、
対象単語の前に隣接する単語に関する信頼度および前記対象単語の後ろに隣接する単語に関する信頼度を参照して、前記単語列を抽出する、
ことを特徴とする請求項1乃至3のいずれか1項に記載の言語モデル作成装置。 - 前記モデル作成手段により作成された前記対象単語に対応するモデルを、前記言語モデル保持部に登録する言語モデル登録手段、をさらに具備することを特徴とする請求項1乃至4のいずれか1項に記載の言語モデル作成装置。
- 前記言語モデル登録手段は、
前記作成された前記対象単語に対応するモデルが前記言語モデル保持部に既に登録されている場合、前記作成された前記対象単語に対応するモデルをもって、既に登録されているモデルを更新する、
ことを特徴とする請求項1乃至5のいずれか1項に記載の言語モデル作成装置。 - 言語モデル作成装置により実行される言語モデル作成方法であって、
対象単語の前に隣接する単語と前記対象単語の後ろに隣接する単語の両方または片方を含む隣接単語と、前記対象単語と、を含む単語列の単語情報を抽出する単語列抽出ステップと、
前記単語列抽出ステップにて抽出された単語列の単語情報に基づいて、言語モデル保持部から、前記単語列の単語情報を含むモデルを抽出するモデル抽出ステップと、
前記モデル抽出ステップにて抽出されたモデルから、前記対象単語に対応するモデルを作成するモデル作成ステップと、
を備え、
前記モデル抽出ステップにて、前記言語モデル作成装置は、
前記単語列抽出ステップにより抽出された単語列の単語情報に基づいて、前記言語モデル保持部から、前記対象単語候補を抽出し、
前記対象単語候補に基づいて、前記言語モデル保持部から、モデルを抽出する、
ことを特徴とする言語モデル作成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008198451A JP5238395B2 (ja) | 2008-07-31 | 2008-07-31 | 言語モデル作成装置および言語モデル作成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008198451A JP5238395B2 (ja) | 2008-07-31 | 2008-07-31 | 言語モデル作成装置および言語モデル作成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010039539A JP2010039539A (ja) | 2010-02-18 |
JP5238395B2 true JP5238395B2 (ja) | 2013-07-17 |
Family
ID=42012062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008198451A Active JP5238395B2 (ja) | 2008-07-31 | 2008-07-31 | 言語モデル作成装置および言語モデル作成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5238395B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4941495B2 (ja) * | 2009-03-31 | 2012-05-30 | 日本電気株式会社 | ユーザ辞書作成システム、方法、及び、プログラム |
JP6150268B2 (ja) * | 2012-08-31 | 2017-06-21 | 国立研究開発法人情報通信研究機構 | 単語登録装置及びそのためのコンピュータプログラム |
JP7512288B2 (ja) | 2019-08-06 | 2024-07-08 | 株式会社Nttドコモ | 単語重み計算システム |
JP7479249B2 (ja) * | 2020-09-02 | 2024-05-08 | 株式会社日立ソリューションズ・テクノロジー | 未知語検出方法及び未知語検出装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000356997A (ja) * | 1999-06-15 | 2000-12-26 | Atr Interpreting Telecommunications Res Lab | 統計的言語モデル生成装置及び音声認識装置 |
JP2002358097A (ja) * | 2001-06-01 | 2002-12-13 | Mitsubishi Electric Corp | 音声認識装置 |
JP2005275348A (ja) * | 2004-02-23 | 2005-10-06 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
-
2008
- 2008-07-31 JP JP2008198451A patent/JP5238395B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010039539A (ja) | 2010-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4709887B2 (ja) | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム | |
JP5480760B2 (ja) | 端末装置、音声認識方法および音声認識プログラム | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
CN106663424B (zh) | 意图理解装置以及方法 | |
US8275618B2 (en) | Mobile dictation correction user interface | |
US9020819B2 (en) | Recognition dictionary system and recognition dictionary system updating method | |
US8126714B2 (en) | Voice search device | |
WO2013154010A1 (ja) | 音声認識サーバ統合装置および音声認識サーバ統合方法 | |
WO2008069139A1 (ja) | 音声認識システム及び音声認識システム用プログラム | |
KR100769029B1 (ko) | 다언어의 이름들의 음성 인식을 위한 방법 및 시스템 | |
JP2010020102A (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP5238395B2 (ja) | 言語モデル作成装置および言語モデル作成方法 | |
JP5396530B2 (ja) | 音声認識装置および音声認識方法 | |
JP4089861B2 (ja) | 音声認識文章入力装置 | |
JP5160594B2 (ja) | 音声認識装置および音声認識方法 | |
JP6233867B2 (ja) | 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム | |
JP2010048890A (ja) | クライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラム | |
JP5054711B2 (ja) | 音声認識装置および音声認識プログラム | |
JP4845955B2 (ja) | 音声認識結果訂正装置および音声認識結果訂正方法 | |
JP4230142B2 (ja) | 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術 | |
JP3911178B2 (ja) | 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体 | |
JP2000056795A (ja) | 音声認識装置 | |
JP2011039468A (ja) | 電子辞書で音声認識を用いた単語探索装置及びその方法 | |
CN113096667A (zh) | 一种错别字识别检测方法和系统 | |
Sakti et al. | The Asian network-based speech-to-speech translation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110329 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130401 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5238395 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160405 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |