Nothing Special   »   [go: up one dir, main page]

JP3084864B2 - 文章入力装置 - Google Patents

文章入力装置

Info

Publication number
JP3084864B2
JP3084864B2 JP03338552A JP33855291A JP3084864B2 JP 3084864 B2 JP3084864 B2 JP 3084864B2 JP 03338552 A JP03338552 A JP 03338552A JP 33855291 A JP33855291 A JP 33855291A JP 3084864 B2 JP3084864 B2 JP 3084864B2
Authority
JP
Japan
Prior art keywords
sentence
kana
word
kanji
priority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03338552A
Other languages
English (en)
Other versions
JPH05174007A (ja
Inventor
典之 大須賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP03338552A priority Critical patent/JP3084864B2/ja
Publication of JPH05174007A publication Critical patent/JPH05174007A/ja
Application granted granted Critical
Publication of JP3084864B2 publication Critical patent/JP3084864B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声入力ワードプロセ
ッサ、文章読み取り装置等の文章入力装置に関するもの
である。
【0002】
【従来の技術】従来、上記文章入力装置においては、あ
いまいさを含むかな文字列をかな漢字変換する際、膨大
な数のかな漢字混じり候補が作成されるので、構文情報
や統計情報を用いて候補の絞り込みを行っていた。そし
て、例えば音声入力ワードプロセッサにおいて、文節発
声された音声の音声認識結果をかな漢字変換する際に
は、文節内の文法的特性だけでなく、文単位の構文情報
や、以前の文脈情報を利用して、よりもっともらしい候
補を選択することが行われてきた。また、統計情報を用
いて変換精度を向上させる手法として、単語の出現頻度
を用い、高頻度の単語を含む候補を優先的に選択すると
いうことも行われてきた。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
たような従来の文章入力装置においては、構文情報を用
いて候補の選択を行う場合、構文解析、または文脈解析
を正確に行うことが困難であり、必ずしも正解候補が上
位に選ばれるとは限らなかった。また、統計情報を用い
て候補の選択を行う場合でも、頻度情報のみでは構文的
な情報が反映されていないため、あまり正確とは言えな
かった。例えば、文頭で発声した文節と、文末で発声し
た文節とでは、同じ単語でも出現頻度が異なるはずであ
る。
【0004】本発明は、上述した問題点を解決するため
になされたものであり、比較的簡単な手法で、統計的な
情報に構文的な情報を反映させることにより、かな漢字
変換の精度がより高い文章入力装置を提供することを目
的とする。
【0005】
【課題を解決するための手段】この目的を達成するため
に本発明の文章入力装置は、音声入力された文章をかな
文字単位で認識するかな文字認識手段と、その文字認識
手段が認識したあいまいさを含むかな文字列をかな漢字
混じり文に変換するかな漢字変換手段と、そのかな漢字
変換手段が変換を行う際に参酌する単語辞書とを備えた
文章入力装置において、前記単語辞書は、単語の読み
と、単語の表記と、単語の文章内における文頭からの距
毎の頻度情報とを記憶し、さらに、前記かな文字列の
文章内における文頭からの距離を求める位置決定手段
と、前記位置決定手段により求められた前記かな文字列
の文章内における文頭からの距離に基づいて、前記かな
文字列の変換候補の単語の頻度情報を前記単語辞書から
読み出す頻度情報読出手段と、前記頻度情報読出手段が
読み出した変換候補の単語の頻度情報に基づいて、当該
変換候補の単語の優先度を求める優先度決定手段とを備
え、前記かな漢字変換手段は、前記優先度決定手段が求
めた優先度に従って、前記かな文字列をかな漢字混じり
文に変換することを特徴としている。なお、前記文頭か
らの距離は、文頭からの単語数又は文頭からの文節数と
しても良い。
【0006】
【作用】上記の構成を有する本発明の文章入力装置で
は、あいまいさを含むかな文字列をかな漢字変換する
際、かな漢字変換手段が単語辞書を参酌しながらかな漢
字混じり候補を作成する。この時、位置決定手段は、前
記かな文字列の文章内における文頭からの距離を求め、
頻度情報読出手段は前記位置決定手段により求められた
前記かな文字列の文章内における文頭からの距離に基づ
いて、前記かな文字列の変換候補の単語の頻度情報を前
記単語辞書から読み出し、優先度決定手段が前記頻度情
報読出手段が読み出した変換候補の単語の頻度情報に基
づいて、当該変換候補の単語の優先度を求め、前記かな
漢字変換手段は、前記優先度決定手段が求めた優先度に
従って、前記かな文字列をかな漢字混じり文に変換す
る。なお、本発明の文章入力装置では、位置決定手段
は、前記かな文字列の文章内における文頭からの単語数
又は文頭からの文節数を求め、頻度情報読出手段は前記
位置決定手段により求められた前記かな文字列の文章内
における文頭からの単語数又は文頭からの文節数に基づ
いて、前記かな文字列の変換候補の単語の頻度情報を前
記単語辞書から読み出し、優先度決定手段が前記頻度情
報読出手段が読み出した変換候補の単語の頻度情報に基
づいて、当該変換候補の単語の優先度を求め、前記かな
漢字変換手段は、前記優先度決定手段が求めた優先度に
従って、前記かな文字列をかな漢字混じり文に変換する
ようにしてもよい。
【0007】
【実施例】以下、本発明を音声入力ワードプロセッサと
して具体化した一実施例を図面を参照して説明する。
【0008】最初に図2を用いて全体の構成を説明す
る。音声認識結果受取部10はかな漢字変換部であるC
PU(セントラルプロセッシングユニット)12に接続
されている。CPU12には音声認識結果をかな漢字変
換する際に参酌する単語辞書14、ワーキングエリアで
あるRAM(ランダムアクセスメモリ)16、かな漢字
変換の手順を記憶したROM(リードオンリメモリ)1
8が接続されている。また、CPU12にはかな漢字変
換されたかな漢字混じり候補(以下、単に候補と称す
る)を表示するディスプレイ装置20が接続されてい
る。
【0009】音声認識結果受取部10が音声認識結果で
あるあいまいさを含むかな文字列を受け取ると、それを
CPU12に渡す。CPU12は単語辞書14を参酌し
ながら、あいまいさを含むかな文字列をROM18に記
憶された手順に従ってかな漢字変換し、複数のかな漢字
混じり候補を作成する。この時、CPU12はかな漢字
混じり候補に含まれるそれぞれの単語について、単語辞
書14からその単語の文章内での位置に従って頻度を読
出し、その候補の優先度を計算し、候補とその優先度を
対応付けてRAM16に書き込む。優先度を計算する手
順については、図3のフローチャートを用いて後述す
る。すべての候補が作成された後、CPU12は、複数
のかな漢字混じり候補を、その優先度に従って並べ替
え、ディスプレイ装置20に表示する。
【0010】次に、図1を用いて、単語辞書14に記憶
された単語の文章内での位置毎の頻度情報について説明
する。あらかじめ、多数の文章を学習データとして単語
の頻度を求める。この時、文頭からの距離(例えば、単
語数)ごとに頻度を求め、最大の頻度が1になるように
頻度の値を正規化する。さらにその頻度の値を文頭から
の距離を入力、頻度の値を出力とした多次元関数で近似
し、グラフで表したものが図1である。例えば、図1の
左のグラフは、単語Aが文頭にあるときに最も頻度が高
く、文頭から離れるに従って頻度が下がることを表して
いる。また、図1の右のグラフは、単語Bが文頭にある
ときは頻度が低く、文頭から離れたところに頻度のピー
クがあることを表している。
【0011】この文章内での位置毎の頻度を用いて、候
補の優先度を計算する手順を図3のフローチャートを用
いて説明する。かな漢字変換で、かな漢字混じり候補を
1つ作成する毎に以下の手順に従って候補の優先度を計
算する。候補の優先度をpとして、まずpを初期値0に
設定する(ステップ1、以下S1と記す)。次に、その
候補を構成している単語を1つ取出す(S2)。そし
て、その単語の頻度h(文章内での位置毎の頻度ではな
く、学習データに現れた回数を単純に数えて0〜1にな
るように正規化したもの)を単語辞書14より読出す
(S3)。
【0012】また、その単語の文頭からの単語数を計算
し(S4)、文頭からの単語数を入力として、その単語
の文節内での位置毎の頻度h1を単語辞書14より読出
す(S5)。ここでは、先に説明したグラフより頻度h
1を求めている。そして、候補の優先度pに頻度hと文
章内での位置毎の頻度h1を加える(S6)。候補中に
まだ頻度を読出していない単語があるか否かを調べ(S
7)、あれば、まだ頻度を読出していない単語を1つ取
出し(S8)、S3に戻る。候補中のすべての単語につ
いて頻度を読み出していれば、頻度の値を1単語あたり
の値になおすために、優先度pを候補中の単語数で割っ
て、それを最終的にその候補の優先度pとする(S
9)。
【0013】例えば、文頭で“私は”と発声した場合、
音声認識してかな漢字変換した結果、“私は”、“渡し
た”等の候補が作成されたと仮定する。この時、動詞
“渡し”や“た”よりも、名詞“私”や係助詞“は”の
方が文頭での頻度が高いため、“渡した”よりも“私
は”の優先度が高くなり、ディスプレイ装置20に“私
は”が優先して出力される。逆に、文末で“渡した”と
発声した場合、候補として先と同様に“私は”、“渡し
た”等が作成されたとする。今度は、名詞“私”や係助
詞“は”よりも、動詞“渡し”や助動詞“た”の方が文
末での頻度が高いため、“私は”よりも“渡した”の優
先度が高くなり、ディスプレイ装置20に“渡した”が
優先して出力される。
【0014】また、本発明は上述した実施例に限定され
るものではなく、例えば、文章内での位置として、文頭
からの単語数を用いたが、文頭からの文節数を用いて、
文頭からの文節数毎にそれぞれの単語の頻度を計算して
もよい。また、候補の優先度として頻度のみではなく、
品詞情報、意味情報等から得られる優先度を加えてもよ
い。
【0015】
【発明の効果】以上説明したことから明かなように、本
発明の文章入力装置では、あいまいさを含むかな文字列
をかな漢字変換する際、かな漢字変換手段が単語辞書を
参酌しながらかな漢字混じり候補を作成する。この時、
位置決定手段は、前記かな文字列の文章内における文頭
からの距離を求め、頻度情報読出手段は前記位置決定手
段により求められた前記かな文字列の文章内における文
頭からの距離に基づいて、前記かな文字列の変換候補の
単語の頻度情報を前記単語辞書から読み出し、優先度決
定手段が前記頻度情報読出手段が読み出した変換候補の
単語の頻度情報に基づいて、当該変換候補の単語の優先
度を求め、前記かな漢字変換手段は、前記優先度決定手
段が求めた優先度に従って、前記かな文字列をかな漢字
混じり文に変換する。それにより、比較的簡単な手法
で、統計的な情報に構文的な情報を反映させ、かな漢字
変換の精度をより高くする効果がある。また、上記文頭
からの距離を文頭からの単語数又は文頭からの文節数と
した場合にも、比較的簡単な手法で、統計的な情報に構
文的な情報を反映させ、かな漢字変換の精度をより高く
する効果がある。
【図面の簡単な説明】
【図1】単語の文章内での位置毎の頻度情報を表すグラ
フである。
【図2】本実施例の全体の構成を示すブロック図であ
る。
【図3】かな漢字混じり候補の優先度の計算の手順を示
すフローチャートである。
【符号の説明】
10 音声認識結果受取部 12 CPU 14 単語辞書 16 RAM 18 ROM 20 ディスプレイ装置

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声入力された文章をかな文字単位で認
    識するかな文字認識手段と、 その文字認識手段が認識したあいまいさを含むかな文字
    列をかな漢字混じり文に変換するかな漢字変換手段と、 そのかな漢字変換手段が変換を行う際に参酌する単語辞
    書とを備えた文章入力装置において、 前記単語辞書は、単語の読みと、単語の表記と、単語の
    文章内における文頭からの距離毎の頻度情報とを記憶
    し、 さらに、 前記かな文字列の文章内における文頭からの距離を求め
    る位置決定手段と、 前記位置決定手段により求められた前記かな文字列の文
    章内における文頭からの距離に基づいて、前記かな文字
    列の変換候補の単語の頻度情報を前記単語辞書から読み
    出す頻度情報読出手段と、 前記頻度情報読出手段が読み出した変換候補の単語の頻
    度情報に基づいて、当該変換候補の単語の優先度を求め
    る優先度決定手段とを備え、 前記かな漢字変換手段は、前記優先度決定手段が求めた
    優先度に従って、前記かな文字列をかな漢字混じり文に
    変換することを特徴とする文章入力装置。
  2. 【請求項2】 前記文頭からの距離は、文頭からの単語
    数又は文頭からの文節数であることを特徴とする請求項
    1に記載の文章入力装置。
JP03338552A 1991-12-20 1991-12-20 文章入力装置 Expired - Fee Related JP3084864B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03338552A JP3084864B2 (ja) 1991-12-20 1991-12-20 文章入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03338552A JP3084864B2 (ja) 1991-12-20 1991-12-20 文章入力装置

Publications (2)

Publication Number Publication Date
JPH05174007A JPH05174007A (ja) 1993-07-13
JP3084864B2 true JP3084864B2 (ja) 2000-09-04

Family

ID=18319249

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03338552A Expired - Fee Related JP3084864B2 (ja) 1991-12-20 1991-12-20 文章入力装置

Country Status (1)

Country Link
JP (1) JP3084864B2 (ja)

Also Published As

Publication number Publication date
JPH05174007A (ja) 1993-07-13

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
JPH07191687A (ja) 自然言語処理装置及びその方法
JP3084864B2 (ja) 文章入力装置
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JPH11338498A (ja) 音声合成装置
JP3939264B2 (ja) 形態素解析装置
JPS61122781A (ja) 音声ワ−ドプロセツサ
JP2997151B2 (ja) 漢字変換装置
JP2655711B2 (ja) 同形語読み分け方式
JP2798683B2 (ja) 自然言語処理システム
JPH0350668A (ja) 文字処理装置
JPH0350669A (ja) 情報処理装置
JPH04372047A (ja) 仮名漢字変換装置
JPH06290182A (ja) 重辞変換装置と漢字変換装置
JPH0546612A (ja) 文章誤り検出装置
JPH01185766A (ja) かな漢字変換装置
JP2000330998A (ja) 発音電子辞書
JPH07141354A (ja) 漢字変換学習装置
JPH02257363A (ja) 自動翻訳装置
JPH10143186A (ja) 音声出力装置
JPS61177574A (ja) 日本語文章作成装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000606

LAPS Cancellation because of no payment of annual fees