JP2022191776A

JP2022191776A - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP2022191776A
Application number: JP2021100215A
Authority: JP
Inventors: 啓水奥間; Hiromi Okuma
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2022-12-28
Also published as: US20220406082A1

Abstract

【課題】文字画像を変形処理して疑似的な文字画像を生成する場面において、学習の妨げとなるような文字画像が生成されるのを抑制する。【解決手段】変形処理に用いるパラメータに関する条件であって第一のクラスに紐付けられた条件に基づき、変形処理のパラメータを決定して、第一のクラスに属する文字画像に対して変形処理を行なう。そして、当該変形処理によって生成された変形後の文字画像が、第一のクラスとは異なるクラスに属する文字画像と類似しているか否かを判定し、類似すると判定された場合、第一のクラスに紐付けられた前記条件を更新する。【選択図】図６

Description

本発明は、学習データの生成技術に関する。

近年、コンピュータの普及に伴う労働環境の変化により、業務文書をスキャンして電子化する機会が増加している。こうした電子化対象の文書には例えば領収書など、手書き文字が記入されたものも存在するところ、電子化された文書を集計等のデータ解析に活用するために、手書き文字領域に対して光学文字認識（ＯＣＲ)を行って文字データを抽出することが行われている。ここで、手書き文字に対応したＯＣＲ技術の１つに、ニューラルネットワークなどの機械学習を行って得た学習済モデルを用いる手法がある。この手法では、まず、手書きの文字が描画された文字画像と当該文字画像に含まれる文字をテキスト化した正解クラスとが対になった学習データ（教師データ或いは訓練データとも呼ばれる。）を用いて学習を行う。そして、学習済モデルに手書き文字を含んだ文字画像を入力することにより、スキャン文書中の手書き文字をテキスト情報として利用することが可能となる。

一般に機械学習によって画像認識を実施するためには膨大な量の画像が学習データとして必要になるところ、手書き文字には様々な形状が存在し、あらゆるパターンの手書き文字の画像を全て網羅して収集することは困難である。そこで、用意した学習データ用の文字画像に対して回転や拡縮等の変形処理を行い、学習データを増強すること（Data Augmentation）が一般的に行われている。特許文献１には、文字画像の学習データを増強するために、文字を構成する様々なへんやつくりの画像に対して変形処理を加え、変形された画像を合成することにより、疑似的な文字画像を学習データとして大量に生成する技術が開示されている。

特開２０１５－６９２５６号公報

疑似的な文字画像を得るための変形処理によって得られた文字画像が別の正解クラスの文字画像と似てしまう場合がある。図１０にその具体例を示す。いま、正解クラスが「７」の文字画像１０００に対して変形処理として反時計回りに３０度の回転処理を実行した結果、文字画像１００１が得られたとする。このとき、変形後の文字画像１００１の正解クラスは「７」であるが、正解クラスが「１」の文字画像１００２と字形が似てしまっている。このような変形後の文字画像１００１を学習データとして用いると、正解クラスが「１」の学習データと混同してしまい、正しい学習ができなくなってしまう。このような問題は上記特許文献１では考慮されておらず、当該問題を解決することができない。

本開示の技術に係る画像処理装置は、学習データに含まれる文字画像に対して変形処理を行って新たな学習データを生成する画像処理装置であって、第一のクラスに属する文字画像を取得する取得手段と、前記変形処理に用いるパラメータに関する条件であって、前記第一のクラスに紐付けられた条件を取得する取得手段と、前記第一のクラスに紐付けられた前記条件に基づき前記変形処理のパラメータを決定して、前記第一のクラスに属する文字画像に対して前記変形処理を行なう処理手段と、前記変形処理によって生成された変形後の文字画像が、前記第一のクラスとは異なるクラスに属する文字画像と類似しているか否かを判定する判定手段と、前記判定手段にて類似すると判定された場合、前記第一のクラスに紐付けられた前記条件を更新する更新手段と、を備え、前記処理手段は、前記更新手段が前記更新を行った場合、更新後の前記条件に基づき前記変形処理のパラメータを決定して、前記第一のクラスに属する文字画像に対して前記変形処理を行なう、ことを特徴とする。

本開示の技術によれば、文字画像を変形処理して疑似的な文字画像を生成する場面において、学習の妨げとなるような文字画像が生成されるのを抑制することができる。

画像処理システムの構成の一例を示した図。（ａ）は画像処理装置のハードウェア構成の一例を示したブロック図、（ｂ）は端末装置のハードウェア構成の一例を示したブロック図。文字画像ＤＢとしてのテーブルの一例を示す図。学習画像ＤＢとしてのテーブルの一例を示す図。（ａ）は学習処理の流れを示すフローチャート、（ｂ）は推論処理の流れを示すフローチャート。学習データ生成処理の流れを示すフローチャート。パラメータ条件を保持するデータベースとしてテーブルの一例を示す図。変形処理の詳細を示すフローチャート。（ａ）及び（ｂ）は、パラメータ条件の変更・更新を説明する図。本発明の課題を説明する図。

以下、図面を参照して本発明の実施の形態を詳しく説明する。なお、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。

［実施形態１］
＜画像処理システムの概要＞
図１は、本実施形態に係る、画像処理システムの構成の一例を示した図である。図１に示すように、画像処理システムは、画像処理装置１００、端末装置１１０で構成され、ネットワーク１２０を介して互いに接続される。

画像処理装置１００は、学習データ生成部１０１、学習部１０２、推論部１０３の各機能部を有する。学習データ生成部１０１は、学習部１０２にてニューラルネットワークのモデルを学習するための学習データを生成する。学習データは、手書き文字が描画された文字画像と、当該文字画像に含まれる手書き文字をテキスト化した正解クラスとが対になったデータである。学習データ生成部１０１で生成される学習データの詳細については図４を用いて後述する。

学習部１０２は、学習データ生成部１０１が生成した学習データを用いて、ニューラルネットワークのモデルを学習する。なお、学習部１０２によって生成されたニューラルネットワークのモデルを「学習済モデル」と呼称する。学習部１０２による学習処理については、図５（ａ）を用いて後述する。推論部１０３は、入力された文字画像に対し、学習部１０２が生成した学習済モデルを用いた推論によって、クラス情報を出力する。推論部１０３による推論処理については、図５（ｂ）用いて後述する。

端末装置１１０は、例えばＰＣやスマートフォンなどの情報処理装置である。ユーザやシステム管理者は、端末装置１１０からネットワーク１２０を介して画像処理装置１００へアクセスして、学習の実行指示や学習済モデルの確認をすることができる。

ネットワーク１２０は、画像処理装置１００と端末装置１１０との間を接続するＬＡＮや公衆回線（ＷＡＮ）等であって、ネットワーク１２０を介して装置間でのデータの送受信が行われる。

なお、上記のシステム構成は一例であり、本実施形態における説明に必要な機能のみを図示している。本実施形態に開示の技術を実現できる構成であれば、各装置はどのような論理構成であってもよい。例えば、図１に示す構成では、推論部１０３が画像処理装置１００に組み込まれているが、画像処理装置１００とは別の装置が推論部１０３を有していてもよい。

＜ハードウェア構成＞
図２は、図１に示す画像処理システムにおける画像処理装置１００及び端末装置１１０のハードウェア構成の一例を示したブロック図である。

図２（ａ）は、画像処理装置１００のハードウェア構成を示す図である。図２（ａ）に示すように、画像処理装置１００は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０４、ストレージ２０５、入力デバイス２０６、表示デバイス２０７、外部Ｉ／Ｆ２０８、ＧＰＵ２０９で構成され、データバス２０３を介して互いに接続される。

ＣＰＵ２０１は、画像処理装置１００における動作全体を制御するための制御装置である。ＣＰＵ２０１は、ＲＯＭ２０２に記憶されたブートプログラムを実行することで、画像処理装置１００のシステムを起動し、ストレージ２０５に記憶されたプログラムを実行する。また、ＣＰＵ２０１は、学習データ生成部１０１や学習部１０２が実行する計算処理の一部をＧＰＵ２０９と協調して実行する。ＲＯＭ２０２は、不揮発性メモリで実現されるものであって、画像処理装置１００を起動するブートプログラム等を格納する記憶装置である。データバス２０３は、画像処理装置１００を構成するデバイス間で相互にデータを送受信するための通信路である。ＲＡＭ２０４は、揮発性メモリで実現されるものであって、ＣＰＵ２０１がプログラムを実行する際のワークメモリとして使用される記憶装置である。ストレージ２０５は、ＨＤＤ（ハードディスクドライブ）やＳＳＤ（ソリッドステートドライブ）等で実現されるものであって、プログラムや学習データを記憶するための大容量記憶装置である。ここでプログラムには、後述する学習データ生成処理や学習処理、推論処理の実行をＣＰＵ２０１に指示するためのプログラムを含む。ＣＰＵ２０１がこれらプログラムを実行することにより、前述の学習データ生成部１０１、学習部１０２、推論部１０３が実現される。入力デバイス２０６は、マウスやキーボード等で実現されるものであって、エンジニアからの画像処理装置１００に対する操作入力を受け付ける。表示デバイス２０７は、液晶ディスプレイ等で実現されるものであって、画像処理装置１００の各種設定画面などをエンジニアに対して表示出力する。外部Ｉ／Ｆ２０８は、ネットワーク１２０を介して端末装置１１０との間で各種データやコマンド等をやり取りするためのインタフェースである。ＧＰＵ２０９は、画像処理に特化した演算処理装置である。ＧＰＵ２０９は、ＣＰＵ２０１による制御の下、与えられた学習データを元に、学習モデルを構成するパラメータを更新するための演算等を実行する。スキャナデバイス２１０は、ＣＣＤなどを用いて帳票などの原稿を走査し、得られた電気信号データを変換して画像データを生成する装置である。

図２（ｂ）は、端末装置１１０のハードウェア構成を示す図である。図２（ｂ）に示すように、端末装置１１０は、ＣＰＵ２１１、ＲＯＭ２１２、ＲＡＭ２１４、ストレージ２１５、入力デバイス２１６、表示デバイス２１７、外部Ｉ／Ｆ２１８で構成され、データバス２１３を介して互いに接続される。ＣＰＵ２１１は、端末装置１１０における動作全体を制御するための制御装置である。ＣＰＵ２１１は、ＲＯＭ２１２に記憶されたブートプログラムを実行することで、端末装置１１０のシステムを起動し、ストレージ２１５に記憶されたプログラムを実行する。ＲＯＭ２１２は、不揮発性メモリで実現されるものであって、端末装置１１０を起動するブートプログラム等を格納する記憶装置である。データバス２１３は、端末装置１１０を構成するデバイス間で相互にデータを送受信するための通信路である。ＲＡＭ２１４は、揮発性メモリで実現されるものであって、ＣＰＵ２１１が画像処理プログラムを実行する際のワークメモリとして使用される記憶装置である。ストレージ２１５は、ＨＤＤ（ハードディスクドライブ）やＳＳＤ（ソリッドステートドライブ）等で実現されるものであって、前述のプログラム等を記憶するための記憶装置である。入力デバイス２１６は、マウスやキーボード等で実現されるものであって、ユーザからの端末装置１１０に対する操作入力を受け付ける。表示デバイス２１７は、液晶ディスプレイ等で実現されるものであって、ユーザに対して様々な情報を表示出力する。外部Ｉ／Ｆ２１８は、ネットワーク１２０を介して画像処理装置１００との間で各種データやコマンド等をやり取りするためのインタフェースである。

＜学習データについて＞
次に、ニューラルネットワークの学習に用いる、文字画像と正解クラスとが対になった学習データについて説明する。ここで、用語について定義しておく。実際に手書きされた文書のスキャン画像から手書き文字の領域を一文字単位で切り出すことによって得られる画像を「文字画像」と呼ぶこととする。そして、この文字画像に対して学習データ生成部１０１が変形処理を行って得た画像を「学習画像」と呼ぶこととする。

≪文字画像データベース≫
図３は、文字画像を保存するためのデータベース（以下、「文字画像ＤＢ」と表記）としてのテーブルの一例を示す図である。文字画像ＤＢとしてのテーブル３００には、「レコードＩＤ」３０１、「文字画像」３０２、「正解クラス」３０３の各項目に対応するデータ又は値が格納される。なお、文字画像ＤＢは、ストレージ２０５の記憶領域の一部が専用に割り当てられるものとする。

「レコードＩＤ」３０１は、テーブル３００内の各レコードを一意に識別するための識別情報が入るフィールドである。このレコードＩＤは、テーブル３００へレコードが追加される度に、レコードに対して付与される。「文字画像」３０２は、手書き文字の文字１つ１つに対応する画像データが入るフィールドである。「正解クラス」３０３は、文字画像内に含まれる手書き文字をテキストデータとして保持するフィールドである。いま、図３に示すテーブル３００には、手書き数字の文字画像とその正解クラスとを紐付けた４つのレコード３０４～３０７が例示されている。

前述のとおり、テーブル３００に格納される各文字画像は、例えば、手書き文字を含んだ文書などをスキャンして得られた画像から手書き文字の部分だけを文字毎に切り出すことによって得られるものであるが、文字画像の取得方法はこれに限定されない。また、図３に示すテーブル３００のように複数の文字画像を一括して管理するのではなく、例えば正解クラス毎にテーブルを設けて管理してもよい。

≪学習画像データベース≫
次に、学習データ生成部１０１が、上述の文字画像ＤＢに格納された文字画像に対して変形処理を行って生成する、ニューラルネットワークの学習に用いる学習画像について説明する。図４は、学習データ生成部１０１が生成した学習画像を保存するためのデータベース（以下、「学習画像ＤＢ」と表記）としてのテーブルの一例を示す図である。学習画像ＤＢとしてのテーブル４００には、「レコードＩＤ」４０１、「学習画像」４０２、「正解クラス」４０３の各項目に対応するデータ又は値が格納される。なお、学習画像ＤＢは、ストレージ２０５の記憶領域の一部が専用に割り当てられるものとする。

「レコードＩＤ」４０１は、テーブル４００内の各レコードを一意に識別するための識別情報が入るフィールドである。この「レコードＩＤ」４０１値は、テーブル４００へレコードが追加される度に、レコードに対して付与される。「学習画像」４０２は、文字画像を変形して生成された画像データを保持するフィールドである。「正解クラス」４０３は、学習画像内に含まれる文字をテキストデータとして保持するフィールドである。いま、図４に示すテーブル４００には、図３のテーブル３００のレコード３０４～３０７の各文字画像に変形処理を施して得られた学習画像とその正解クラスとを紐付けた４つのレコード４０４～４０７が示されている。なお、図４のテーブルに示す具体例では、１つの学習画像に含まれる文字数が１個であるが、例えば上限を５文字に設定し、その範囲の中で文字画像を並べ変えるなどして任意の文字数から成る学習画像を生成する構成をとってもよい。

＜学習処理＞
次に、学習部１０２による学習処理について、図５（ａ）を用いて説明する。図５（ａ）は、学習処理の流れを示すフローチャートである。図５（ａ）のフローチャートに示す各ステップは、ＣＰＵ２０１が、ＲＯＭ２０２等に格納された所定のプログラムをＲＡＭ２０４に展開し、これを実行することで実現される。学習処理は、ユーザが、画像処理装置１００の入力デバイス２０６を介した所定の操作に応答して、或いはネットワーク１２０を介して端末装置１１０などから受け付けた所定の入力信号をトリガーとして開始される。本実施形態において、ニューラルネットワークの学習にはミニバッチ法を用いるものとする。なお、以下の説明において記号「Ｓ」はステップを意味する。

Ｓ５０１では、学習画像ＤＢから、学習に必要な学習データのデータセットが取得される。具体的には、学習画像ＤＢとしてのテーブル４００に含まれる各レコードを参照して、学習画像と正解クラスとの対からなる学習データが取得される。

Ｓ５０２では、ニューラルネットワークが初期化される。具体的には、ニューラルネットワークを構築し、当該ニューラルネットワークに含まれるパラメータの値を、ランダムに決定する。構築するニューラルネットワークの構造は様々なものを用いることができるが、例えば、ＣＮＮ（Convolutional Neural Networks）のような形態を取り得る。

Ｓ５０３では、Ｓ５０１で読み込んだ学習データのうち所定の数（ミニバッチサイズ、例えば１０個。ミニバッチの学習形態をとらないのであれば１個）の学習データが取得される。そして、Ｓ５０４及びＳ５０５にて、ニューラルネットワークの学習を行う。

Ｓ５０４では、ニューラルネットワークの誤差が算出される。具体的には、Ｓ５０３で取得したミニバッチ内の各学習データに含まれる学習画像をニューラルネットワークに入力して学習画像内の文字を表すクラス情報を出力し、当該出力と正解クラスとの差を評価して誤差を求める処理が行われる。当該評価には指標としてＣＴＣ（Connectionist Temporal Classification）Ｌｏｓｓなどを用いることができる。

Ｓ５０５では、ニューラルネットワークのパラメータが調整される。具体的には、Ｓ５０４にて算出した誤差に基づき、例えばバックプロパゲーション法によってニューラルネットワークのパラメータを変更する処理が行われる。

Ｓ５０６では、学習を終了するか否かが判定される。具体的には、Ｓ５０３～Ｓ５０５の処理を所定回数（例えば、４００００回）行ったか否かがチェックされる。ここで所定回数は、例えば学習処理の開始時にユーザが所望の回数を入力するなどして決定すればよい。所定回数の処理が完了していた場合には終了と判定し、Ｓ５０７に遷移する。所定回数の処理が完了していない場合はＳ５０３に戻ってニューラルネットワークの学習が続行される。

Ｓ５０７では、学習結果として、Ｓ５０５にて調整したニューラルネットワークのパラメータで構成される学習済モデルが、ストレージ２０５に保存される。

以上が、学習処理の内容である。なお、図５（ａ）のフローチャートでは、学習データ取得処理（Ｓ５０１）において、事前に生成した学習データを読み込むように処理しているが、学習データと学習処理を並行して行ってもよい。すなわち、学習データ取得処理（Ｓ５０１）に先立って後述の学習データ生成処理を実行し、生成された学習データから順次読み込んで取得するような構成でもよい。

＜推論処理＞
次に、推論部１０３による推論処理について図５（ｂ）を用いて説明する。図５（ｂ）は、推論処理の流れを示すフローチャートである。図５（ｂ）のフローチャートに示す各ステップは、ＣＰＵ２０１が、ＲＯＭ２０２等に格納された所定のプログラムをＲＡＭ２０４に展開し、これを実行することで実現される。推論処理は、ユーザが、画像処理装置１００の入力デバイス２０６を介した所定の操作に応答して、或いはネットワーク１２０を介して端末装置１１０などから受け付けた所定の入力信号をトリガーとして開始される。なお、以下の説明において記号「Ｓ」はステップを意味する。

Ｓ５１１では、学習済モデルの読み込みが行われる。具体的には、まず、前述の図５（ａ）のフローチャートのＳ５０２で構築されたニューラルネットワークと同一構造のニューラルネットワークが構築され、構築したニューラルネットワークに、前述のＳ５０７で保存された学習済モデルが反映される。

Ｓ５１２では、推論処理の対象となる画像（以降、「処理対象画像」と呼称する。）を生成する処理が実行される。具体的には、領収書等の文書をスキャンして得られたスキャン画像から手書き文字に相当する画素を抽出し、抽出画素塊の外接矩形を求めて、当該外接矩形内部の画素で構成される画像を得る。この処理は、一般に「ブロックセレクション」と呼ばれ、これにより得られた画像は「文字ブロック」と呼ばれる。こうして、領収書等のスキャン画像から１又は複数の処理対象画像が生成される。

Ｓ５１３では、Ｓ５１２で生成された処理対象画像のうち注目する処理対象画像が学習済モデルに入力される。これにより、注目する処理対象画像に含まれる文字に対応したテキスト情報が、推論結果として出力される。

Ｓ５１４では、Ｓ５１３で取得した推論結果が送信される。本実施形態では、ネットワーク１２０を介して端末装置１１０に送信されることになる。なお、推論結果を端末装置１１０に送信するのではなく、ストレージ２０５に保存するような構成をとってもよい。

Ｓ５１５では、推論処理を終了するか否かが判定される。Ｓ５１２で生成された全ての処理対象画像についての推論処理が完了していた場合は、本処理を終了する。一方、未処理の処理対象画像が残っている場合はＳ５１３に戻って次の注目する処理対象画像を学習済みモデルに入力して推論処理を続行する。

以上が、推論処理の内容である。

＜学習データ生成処理＞
続いて、学習データ生成部１０１による学習データ生成処理について、図６を用いて説明する。図６は、学習データ生成処理の大まかな流れを示すフローチャートである。図６のフローチャートに示す各ステップは、ＣＰＵ２０１が、ＲＯＭ２０２等に格納された所定のプログラムをＲＡＭ２０４に展開し、これを実行することで実現される。学習データ生成処理は、画像処理装置１００の入力デバイス２０６を介した所定のユーザ操作に応答して、或いはネットワーク１２０を介して端末装置１１０などから受け付けた所定の入力信号をトリガーとして開始される。なお、以下の説明において記号「Ｓ」はステップを意味する。

Ｓ６０１では、文字画像ＤＢ（例えば上述のテーブル３００）から、注目する文字画像と正解クラスのペアが取得される。

Ｓ６０２では、後述の変形処理（Ｓ６０４）における処理パラメータの条件（以下、「パラメータ条件」と表記）が、Ｓ６０１で取得した正解クラスに基づき取得される。具体的には、予め正解クラス毎（ここでは“１”～“９”のそれぞれ）に用意した図７に示すようなテーブル７００を参照して、処理パラメータの条件が取得される。いま、図７のテーブル７００には、「変形処理」７０１及び「パラメータ条件」７０２の各項目に対応するデータ又は値が格納されている。「変形処理」７０１は、文字画像を変形させる具体的な処理内容を規定するフィールドである。「パラメータ条件」７０２は、「変形処理」７０１で規定される画像処理毎の変形量の範囲（最大でどの程度変形させるのか）を規定するフィールドである。テーブル７００において、変形処理の内容として“回転”を規定するレコード７０３では、「パラメータ条件」７０２が示す範囲は“－１０度～＋１０度”である。この場合、注目する文字画像を－１０度～＋１０度の範囲で回転させることを意味している。そして、文字画像に対して回転処理を適用する際には、“－１０度～＋１０度”の範囲内で実際に回転させる角度がランダムに決定されることになる。同様に、変形処理の内容として“拡大縮小”を規定するレコード７０４では、「パラメータ条件」７０２が示す範囲は“８０％～１７５％”である。この場合、注目する文字画像を０．８倍から１．７５倍までの範囲で縮小又は拡大させることを意味しており、実際に拡大縮小処理を適用する際には、“８０％～１７５％”の範囲内で変倍率がランダムに決定されることになる。同様に、変形処理の内容として“膨張収縮”を規定するレコード７０５では、「パラメータ条件」７０２が示す範囲は“－２ｐｘｌ～２ｐｘｌ”である。この場合、処理対象の文字画像内の画素を－２個から＋２個までの範囲で収縮又は膨張させることを意味しており、実際に膨張収縮処理を適用する際には、“－２ｐｘｌ～２ｐｘｌ”の範囲内で収縮率或いは膨張率がランダムに決定されることになる。同様に、変形処理の内容として“アスペクト比変更”を規定するレコード７０６では、「パラメータ条件」７０２が示す範囲は“高さ：幅＝１：０．８～１．５”である。この場合、注目する文字画像の高さを１としたときの幅を０．８から１．５の範囲で拡大又は縮小させることを意味している。そして、実際にアスペクト比変更処理を適用する際には、文字画像の高さを１としたときの幅が０．８から１．５までの範囲内でランダムに決定されることになる。なお、パラメータ条件を格納するデータベースとしてのテーブルは、正解クラス毎に設けるとしたが、複数の正解クラスについて共通化してもよい。

Ｓ６０３では、Ｓ６０２で取得したパラメータ条件に基づき、次の変形処理（Ｓ６０４）において適用する処理パラメータが決定される。具体的には、回転処理、拡大縮小処理、膨張収縮処理、アスペクト比変更処理の各画像処理におけるパラメータ値が、図７のテーブル７００の「パラメータ条件」７０２に示す範囲からランダムに選択される。なお、パラメータ条件で規定された範囲の中から“０”が選択された場合は、変形処理としての画像処理を実行しないことを示す“Ｎｏｎｅ”がパラメータ値となる。

Ｓ６０４では、Ｓ６０１で取得された文字画像に対して、Ｓ６０３で決定された処理パラメータを用いた変形処理が実行される。

≪変形処理の詳細≫
図８は、変形処理の詳細を示すフローチャートである。以下、図８のフローに沿って、変形処理の内容について詳しく説明する。

Ｓ８０１では、Ｓ６０３にて膨張収縮処理用に決定された処理パラメータに基づき、Ｓ６０１にて取得された文字画像に対し、膨張収縮処理が実行される。この際、パラメータ値が“Ｎｏｎｅ”の場合は膨張収縮処理を実行しない。膨張収縮処理は公知技術であり詳細は割愛するが、例えば画像内の文字の境界部を検出し、境界部の外側を一定ピクセル埋めることで膨張を、境界部の内側を一定ピクセル白画素で埋めることで収縮を、それぞれ実現できる。また、一定サイズのフィルタを用いてフィルタ内の画素状態に応じて置換処理を行うことで膨張収縮を実現してもよい。

Ｓ８０２では、Ｓ６０３にて拡大縮小処理用に決定された処理パラメータに基づき、Ｓ６０１にて取得された文字画像に対し、拡大縮小処理が実行される。この際、パラメータ値が“Ｎｏｎｅ”の場合は拡大縮小処理を実行しない。拡大縮小処理は公知技術であるため、詳細は割愛する。

Ｓ８０３では、Ｓ６０３にてアスペクト比変更処理用に決定された処理パラメータに基づき、Ｓ６０１にて取得された文字画像に対し、アスペクト比変更処理が実行される。この際、パラメータ値が“Ｎｏｎｅ”の場合はアスペクト比変更処理を実行しない。アスペクト比変更処理は公知技術であるため、詳細は割愛する。

Ｓ８０４では、Ｓ６０３にて回転処理用に決定された処理パラメータに基づき、Ｓ６０１にて取得された文字画像に対し、回転処理が実行される。この際、パラメータ値が“Ｎｏｎｅ”の場合は回転処理を実行しない。回転処理は公知技術であるため、詳細は割愛する。

以上が、変形処理の内容である。なお、図８のフローチャートは一例であり、例えば上記４種類の画像処理の順番を入れ替えたり、別の種類の画像処理を新たに組み込んだりしてもよい。図６のフローチャートの説明に戻る。

Ｓ６０５では、Ｓ６０４の変形処理によって得られた文字画像が、別の正解クラスに属する文字画像と類似しているか否かが判定される。この判定は例えば、ストレージ２０５に保持された学習済モデルを用いて行う。学習済モデルに対して変形後の文字画像を入力し、当該入力した文字画像の正解クラスと学習済モデルが出力したクラス情報が示すクラスとが異なる場合、別の正解クラスに属する文字画像と類似していると判定することができる。変形後の文字画像が別の正解クラスの文字画像と類似する場合はＳ６０６へ進み、類似していない場合はＳ６０７へ進む。

Ｓ６０６では、Ｓ６０１で取得した正解クラスに紐付くパラメータ条件が更新される。更新処理の詳細については後述する。パラメータ条件の更新処理が完了するとＳ６０３に戻り、更新後のパラメータ条件に従って、変形処理において適用する処理パラメータが再決定され、当該再決定した処理パラメータを適用した変形処理が再実行される。

Ｓ６０７では、Ｓ６０４の変形処理の結果（変形後の文字画像）が学習画像ＤＢに格納される。格納後は、Ｓ６０８にて、文字画像ＤＢ内の全ての文字画像が処理されたか否かが判定される。未処理の文字画像があればＳ６０１に戻って、次の注目する文字画像と正解クラスのペアが取得され、処理が続行される。一方、全ての文字画像が処理されていれば本処理を終了する。

以上が、学習データ生成処理の内容である。ここで、具体例を用いて、本実施形態においてどのように学習データが生成されるのかを、図６のフローに沿って説明する。まず、注目する文字画像とその正解クラスのペアとして、図９（ａ）に示す文字画像９００と正解クラス“１”のペアが取得される（Ｓ６０１）。次に、パラメータ条件として図７のテーブル７００に示す内容が取得される（Ｓ６０２）。続いて、取得したパラメータ条件を基に、図９（ａ）の枠９０１内のように各処理パラメータが決定される（Ｓ６０３）。いま、回転処理について“８度”、拡大縮小処理及び膨張収縮処理について“Ｎｏｎｅ”、アスペクト比変更処理について“高さ：幅＝１：１．４”が決定されている。これら処理パラメータに従った変形処理（Ｓ６０４）の結果が文字画像９０２である。そして、変形後の文字画像９０２が別の正解クラスの文字画像と類似しているとのかどうかが判定される（Ｓ６０５）。図９（ａ）の例では、変形後の文字画像９０２の推定結果がクラス“７”となっており、変形前の文字画像９００の正解クラス“１”とは異なっている。よって、別の正解クラスに属する文字画像に“類似している”と判定されることになる（Ｓ６０５でＹｅｓ）。この判定結果を受け、図９（ｂ）に示すように、正解クラス“１”に紐付くパラメータ条件が、Ｓ６０２で決定した処理パラメータを含まないよう、更新後のテーブル７００’のようにパラメータ条件が更新される。いま、回転処理に関しＳ６０２で決定した処理パラメータは“８度”であるため、これを含まない条件範囲“－１０度～＋７．９度”に変更されている。また、アスペクト比変更処理に関しても同様に、Ｓ６０２で決定した処理パラメータは“高さ：幅＝１：１．４”であるため、これを含まない条件範囲“高さ：幅＝１：０．８～１．３９”に変更されている。こうして更新された後のパラメータ条件に従って処理パラメータを再度決定し（Ｓ６０３）、再び変形処理を実行する。そして、パラメータ条件を更新後の変形処理によって得られた変形後の文字画像が別の正解クラスの文字画像と類似していなければ、当該変形後の文字画像が学習画像ＤＢに格納されることになる。このように、パラメータ条件の更新と変形処理とを繰り返し実行することにより、変形後の文字画像が別の正解クラスの文字画像と類似してしまうことが抑制され、学習データの品位が向上することになる。

＜変形例１＞
上述の実施形態では、変形後の文字画像が他の正解クラスの文字画像と類似すると判定された場合、その変形時に適用した処理パラメータをすべて含まないようにパラメータ条件を変更・更新していた。しかしながら、例えば変形時に適用した処理パラメータの一部だけを含まないようにパラメータ条件を変更・更新してもよい。この場合、例えば前述の図９（ａ）の具体例において、処理パラメータとして決定された回転角度とアスペクト比の一方ずつを適用して変形処理を行い、それぞれの変形後の文字画像について類否判定を行なう。そして、類似するとの判定結果が出た方のパラメータ条件を対象として、その変形時に適用した処理パラメータを含まないように変更・更新すればよい。このように、類似するとの判定結果の原因を突き止め、影響を及ぼしている方のパラメータ条件だけを変更・更新の対象としてもよい。

＜変形例２＞
上述の実施形態１では、文字画像ＤＢより取得した一枚の文字画像に対して変形処理を実行し、その結果に対する類否判定の結果に基づき、パラメータ条件の更新要否を判定していた。しかしながら、一枚の文字画像に対する類否判定の結果だけに基づきパラメータ条件を更新すると、特異な文字画像（例えば変形前の文字画像が元々別の正解クラスの文字画像に似ているようなケース）によってパラメータ条件が左右されてしまう可能性がある。そこで、パラメータ条件の更新の要否を、複数枚の変形後の文字画像についての類否判定の結果に基づき決定するようにしてもよい。その際は、以下のような手順で行えばよい。

まず、Ｓ６０１にて文字画像ＤＢから正解クラスが同一の複数の文字画像（例えば正解クラスが“１”の文字画像を５つ）を取得する。そして、Ｓ６０２にて当該正解クラスに紐づくパラメータ条件を取得し、Ｓ６０３にて当該パラメータ条件に従って処理パラメータを決定して、Ｓ６０４にて複数の文字画像に対し変形処理を実行する。そして、Ｓ６０５にて変形後の文字画像それぞれについて別の正解クラスの文字画像との類否判定を行う。その結果、“類似する”との判定結果が所定数以上（例えば５つのうち３つ以上）であれば、Ｓ６０６にてパラメータ条件の更新を行うようにする。これにより、特異な文字画像による影響を軽減することができる。

以上のとおり、本実施形態によれば、文字画像を変形処理して疑似的な文字画像を生成する場面において、学習の妨げとなるような文字画像が生成されるのを抑制することができる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

Claims

学習データに含まれる文字画像に対して変形処理を行って新たな学習データを生成する画像処理装置であって、
第一のクラスに属する文字画像を取得する取得手段と、
前記変形処理に用いるパラメータに関する条件であって、前記第一のクラスに紐付けられた条件を取得する取得手段と、
前記第一のクラスに紐付けられた前記条件に基づき前記変形処理のパラメータを決定して、前記第一のクラスに属する文字画像に対して前記変形処理を行なう処理手段と、
前記変形処理によって生成された変形後の文字画像が、前記第一のクラスとは異なるクラスに属する文字画像と類似しているか否かを判定する判定手段と、
前記判定手段にて類似すると判定された場合、前記第一のクラスに紐付けられた前記条件を更新する更新手段と、
を備え、
前記処理手段は、前記更新手段が前記更新を行った場合、更新後の前記条件に基づき前記変形処理のパラメータを決定して、前記第一のクラスに属する文字画像に対して前記変形処理を行なう、
ことを特徴とする画像処理装置。
前記更新手段は、前記第一のクラスに属する複数の文字画像について前記変形処理を行って得られた複数の変形後の文字画像のうち所定数以上の文字画像が、前記第一のクラスとは異なるクラスに属する文字画像と類似していると判定された場合に、前記第一のクラスに紐付けられた前記条件を更新する、ことを特徴とする請求項１に記載の画像処理装置。
前記更新手段は、前記変形後の文字画像が生成された際の前記変形処理で適用したパラメータを含まないように、前記第一のクラスに紐付けられた前記条件を更新する、ことを特徴とする請求項１又は２に記載の画像処理装置。
前記変形処理は、回転、拡大又は縮小、膨張又は収縮、アスぺクト比変更のいずれかを含むことを特徴とする請求項１乃至３のいずれか一項に記載の画像処理装置。
前記更新手段は、前記処理手段にて前記変形処理として、回転、拡大又は縮小、膨張又は収縮、アスぺクト比変更のうち複数の画像処理が行われていた場合、当該複数の画像処理のうち一部の画像処理において適用した処理パラメータを含まないように前記条件を更新する、ことを特徴とする請求項４に記載の画像処理装置。
前記更新手段は、前記複数の画像処理のうち一部の画像処理において適用した処理パラメータを含まないように前記条件を更新する場合、前記複数の画像処理それぞれについて決定された処理パラメータを一方ずつ適用して画像処理を行い、それぞれの変形後の文字画像について、前記第一のクラスとは異なるクラスに属する文字画像と類似しているか否かを判定し、類似するとの判定結果が出た方の条件を更新する、ことを特徴とする請求項５に記載の画像処理装置。
学習データに含まれる文字画像に対して変形処理を行って新たな学習データを生成する方法であって、
第一のクラスに属する文字画像を取得する取得ステップと、
前記変形処理に用いるパラメータに関する条件であって、前記第一のクラスに紐付けられた条件を取得する取得ステップと、
前記第一のクラスに紐付けられた前記条件に基づき前記変形処理のパラメータを決定して、前記第一のクラスに属する文字画像に対して前記変形処理を行なう処理ステップと、
前記変形処理によって生成された変形後の文字画像が、前記第一のクラスとは異なるクラスに属する文字画像と類似しているか否かを判定する判定ステップと、
前記判定ステップにて類似すると判定された場合、前記第一のクラスに紐付けられた前記条件を更新する更新ステップと、
を含み、
前記処理ステップでは、前記更新ステップにて前記更新を行われた場合、更新後の前記条件に基づき前記変形処理のパラメータを決定して、前記第一のクラスに属する文字画像に対して前記変形処理を行なう、
ことを特徴とする方法。
コンピュータを、請求項１乃至６のいずれか一項に記載の画像処理装置として機能させるためのプログラム。