Nothing Special   »   [go: up one dir, main page]

CN101034435A - 图像处理装置和记录图像处理程序的记录媒介 - Google Patents

图像处理装置和记录图像处理程序的记录媒介 Download PDF

Info

Publication number
CN101034435A
CN101034435A CNA2006101317616A CN200610131761A CN101034435A CN 101034435 A CN101034435 A CN 101034435A CN A2006101317616 A CNA2006101317616 A CN A2006101317616A CN 200610131761 A CN200610131761 A CN 200610131761A CN 101034435 A CN101034435 A CN 101034435A
Authority
CN
China
Prior art keywords
character string
mark
document
given
recognition unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101317616A
Other languages
English (en)
Other versions
CN100576232C (zh
Inventor
加藤雅弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN101034435A publication Critical patent/CN101034435A/zh
Application granted granted Critical
Publication of CN100576232C publication Critical patent/CN100576232C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1448Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

一种图像处理装置包含:文档输入单元,其输入文档的文档数据;第一识别单元,其识别文档中包含的字符串的位置;第二识别单元,其基于字符串的方位来识别文档中给定的标记的范围;以及字符串提取单元,其基于第一识别单元所识别的字符串的位置和第二识别单元所识别的标记的范围来提取经受标记的字符串。

Description

图像处理装置和记录图像处理程序的记录媒介
技术领域
本发明涉及一种图像处理装置和记录图像处理程序的记录媒介,其可用于文档的电子化和归档。
背景技术
近年来,印刷在纸媒介上的文档(纸文档)常通过扫描仪进行扫描,并经过电子化而成为文档数据,且文档数据例如可存储在硬盘上以供使用。为了增加所存储文档的可用性,一般对每一文档数据给定一些属性信息(attribute information)。属性信息的典型实例可包含用于文档查找的关键字。用户可在存储文档数据时通过键盘输入所需关键字来登记用作属性信息的关键字。然而,在必须处理大量文档数据时,由于将要登记的关键字的数目由此而增加,因此通过键盘输入关键字可能变得繁重。
发明内容
根据本发明的一目的,本发明提供一种图像处理装置,包括:文档输入单元,其输入文档的文档数据;第一识别单元,其识别文档中包含的字符串的位置;第二识别单元,其基于字符串的方位来识别文档中给定的标记的范围;以及字符串提取单元,其根据第一识别单元所识别的字符串的位置和第二识别单元所识别的标记的范围来提取经受标记的字符串。
附图说明
将基于以下图式详细描述本发明的示范性实施例,其中:
图1为绘示根据本发明示范性实施例的图像处理装置的构造实例的方框图。
图2为绘示根据本发明示范性实施例的图像处理方法的流程图。
图3为描述检测字符位置的处理的示意图。
图4为绘示一实例中的字符串被划分为词的示意图。
图5为描述定位字符串的处理的示意图。
图6为描述识别标记范围的处理的示意图。
图7为绘示通过字符串方位识别的标记范围的示意图。
具体实施方式
以下参看附图详细描述本发明的特定示范性实施例。
图1为绘示根据本发明示范性实施例的图像处理装置的构造实例的方框图。图1中,文档输入单元1(document input unit)输入位图格式(bitmap format)的电子化文档数据。文档输入单元1例如包含:图像扫描仪,用以光学性地扫描纸文档上的图像,并将经扫描的图像转换(电子化)为文档数据;或是一输入接口(input interface),通过电缆而获取从图像扫描仪输出的文档数据。
这里假定文档数据单元的原始纸文档包含有标记的部分。例如,通过用本身含有半透明荧光墨水的荧光记号笔或行标记笔在文档中填充将要登记为属性信息的字符串来执行标记。可采用多种颜色作为荧光墨水的颜色,例如黄色、淡蓝色、粉红色、桔黄色、黄绿色、蓝色、红色和绿色。只要纸文档是黑白印刷的,那么任何颜色都可用于标记,但考虑到字符的可读性最好使用淡颜色(例如黄色、淡蓝色和粉红色)而不是深颜色。对于彩色印刷的文档,可采用与彩色印刷的纸张上呈现的颜色不同的颜色进行标记。
字符辨识单元2(character recognizing unit)使用从文档输入单元1输入的文档数据来辨识包含在文档数据中的字符。字符位置检测单元3(character position detecting unit)检测由字符辨识单元2所辨识的字符的位置。字符串位置识别单元4(position-of-string identifying unit)将以字符辨识单元2所辨识的字符而表示的文本划分为词形式的字符串(stringsin words),并基于字符位置检测单元3所检测到的字符的位置信息来识别每一字符串的位置。
标记像素提取单元5(mark pixel extracting unit)提取一像素,该像素表示从文档输入单元1输入的文档数据的文档中给定的标记(下文中可称为“标记像素”)。根据文档中给定的标记的颜色而在标记像素提取单元5中定义将要提取的像素的颜色信息。例如,在用于标记的荧光墨水的颜色为黄色时,通过根据荧光墨水的黄色的颜色信息而在其中定义将要提取的像素的颜色信息。当文档中使用多种颜色进行标记时,将标记颜色定义为将要提取的像素的颜色信息,且每种标记颜色与关于文档登记的属性信息可映射。例如,当黄色、粉红色和淡蓝色为标记颜色时,在用颜色标记的字符串与各种类型的属性信息(例如,用于文档查找的关键字、文档的文件名、创建日期和创建者)之间定义对应关系。
连接像素区提取单元6(connected pixel area extracting unit)在标记像素提取单元5所提取的标记像素中确定相互连接的标记像素作为“连接像素(connected pixels)”,并提取属于一个连接组的多个(或许多)连接像素所占据的像素区作为连接像素区。方位识别单元7(orientationidentifying unit)识别文档中给定的标记的方位。标记末端识别单元8(end-of-mark identifying unit)基于方位识别单元7所识别的标记的方位和连接像素区提取单元6所提取的连接像素区的范围,而识别一标记的开端和末端。标记范围识别单元9(range-of-mark identifying unit)基于标记末端识别单元8所识别的标记的开端和末端并依据字符串方位来识别标记的范围。
字符串提取单元10(string extracting unit)基于字符串位置识别单元4所识别的字符串的位置和标记范围识别单元9所识别的标记的范围来提取经受标记的字符串。文档登记单元11(document registering unit)向数据库单元12(database unit)登记从文档输入单元1输入的文档数据,在登记文档数据时,并向数据库单元12登记字符串提取单元10所提取的字符串以作为文档数据的属性信息。数据库单元12可为大容量数据存储器件,例如硬盘。
上述各组件中的字符辨识单元2、字符位置检测单元3和字符串位置识别单元4是包含在本发明的一目的中的“第一识别单元(first identifyingunit)”内,亦即,通过使用文档输入单元1所输入的文档数据来识别文档中包含的字符串位置的单元(unit)。标记像素提取单元5、连接像素区提取单元6、方位识别单元7、标记末端识别单元8和标记范围识别单元9包含在本发明的一目的中的“第二识别单元(second identifying unit)”内,亦即,通过使用文档输入单元1所输入的文档数据来识别文档中藉由字符串方位所给定标记的范围的单元。
随后,将参看图2中的流程图来描述应用根据本发明的示范性实施例的图像处理装置的图像处理方法。此图像处理方法的实施方式,其是将存储在ROM(Read Only Memory,只读存储器)或硬盘中的图像处理程序(image processing program)通过CPU(Central Processing Unit,中央处理单元)调用到RAM(Read Access Memory,随机存取存储器)并执行。图像处理程序可预先安装在图像处理装置中、或可存储并提供于例如CD-ROM、MO和DVD等计算机可读媒介中。或者,可在不使用记录媒介的情况下以有线或无线方式通过通信网络来提供图像处理程序。
首先,从文档输入单元1输入文档数据(步骤S1)。可通过抓取经由已预先标记的纸文档上图像的光学扫描所产生的文档数据来输入文档数据。随后,经由进行步骤(proceeding step)而输入的文档数据,其被用以执行定位文档中所包含的字符串(步骤S2)的处理以及识别文档中给定标记的范围(步骤S3)的处理。步骤S2中的处理和步骤S3中的处理可以任何次序执行,或可并行地(in parallel)同时执行。
定位字符串(步骤S2)的处理由第一识别单元中所包含的字符辨识单元2、字符位置检测单元3和字符串位置识别单元4来执行。此情况下,字符辨识单元2通过使用众所周知的字符辨识技术(例如,光学字符辨识处理(optical character recognition,OCR))来辨识文档中包含的每一个字符,并将所辨识的每一个字符转换为文本码(text code)。字符位置检测单元3检测文档中包含的每一字符的位置的坐标数据(coordinatedata)。例如,如图3所示,当由字符辨识单元2转换为文本码的字符为“a”时,检测出指示限定此字符的矩形区域位置的坐标数据(x11,y11)-(x12,y12)作为字符的位置信息。
字符串位置识别单元4对由字符辨识单元2转换为文本码的每一字符执行形态分析(morphological analysis),从而将文档中包含的字符串划分为词(words),且通过使用字符位置检测单元3检测到的坐标数据来识别每个词表示的字符串的位置。例如,如图4所示,可将字符串“familiarwith the task in advance in order to register a document having an image file”划分为以下的词:“familiar”“with”“the”“task”“in”“advance”“in”“order”“to”“register”“a”“document”“having”“an”“image”“file”。如图5所示,可基于字符串开端处的字符“a”的坐标数据(x11,y11)-(x12,y12)和末端处的字符“e”的坐标数据(x51,y51)-(x52,y52),通过角落的坐标数据(x11,y11)-(x52,y52)来识别包含含有多个字符的词(例如“advance”)的字符串的位置。
另一方面,识别标记的范围(步骤S3)的处理由第二识别单元中所包含的标记像素提取单元5、连接像素区提取单元6、方位识别单元7、标记末端识别单元8和标记范围识别单元9来执行。标记像素提取单元5提取具有与预定义的颜色信息匹配的像素值的像素作为标记像素。例如,在将由标记像素提取单元5提取的像素的颜色信息由黄色荧光墨水定义时,提取具有与黄色荧光墨水匹配的像素值的像素作为标记像素。
连接像素区提取单元6在标记像素提取单元5提取的标记像素中确定相互连接的标记像素作为连接像素,并提取属于一个连接组的多个连接像素所占据的像素区作为连接像素区。例如,可通过如下方法来确定给定标记像素是否有连接。即,在中心处用一个标记像素(焦点像素(focuspixel))定义预定尺寸(m×n像素尺寸)的窗口(window),并且,如果具有与焦点像素的颜色相同颜色的另一标记像素存在于窗口内,那么将这两个标记像素确定为连接像素。因此,将实际上指示一行中标记的像素全部确定为属于一个连接组的连接像素。当文档中多个部分有标记时,会提取数目等于标记数目的连接像素区。
方位识别单元7识别文档中给定的标记的方位。一般来说,标记的方位遵循文档中字符的方位。例如,由于字符在水平线方位文档中水平对准,因此在其上水平地给出标记。由于字符在垂直线方位文档中垂直对准,因此在其上垂直地给出标记。在水平线方位文档中,词中包含的多个字符的方位是水平的,而在垂直线方位文档中,词中包含的多个字符的方位是垂直的。因而,方位识别单元7会识别由字符串位置识别单元4进行的字符串划分而形成的词中所包含的多个字符的方位,以作为标记的方位。或者,由连接像素确定单元5确定为连接像素的属于一个组的像素可被包围在限定像素的矩形区域中,且可将矩形区域的纵向方位识别为标记的方位。
标记末端识别单元8沿着方位识别单元7所识别的标记的方位,进而识别由连接像素区提取单元6所提取的连接像素区的一个末端和另一末端,以作为标记的开端和末端。例如,如图6所示,当方位识别单元7所识别的标记的方位为方位X时,将方位X中的由连接像素区提取单元6所提取的连接像素区的一个末端P1和另一末端P2识别为标记的开端和末端。
标记范围识别单元9基于标记末端识别单元8所识别的标记的开端P1和末端P2来识别给定标记在字符串的方位中覆盖的范围(即,字符实际对准的区域)的开端和末端。例如,如图7所示,当文档中沿着方位X1提供其上具有标记M的字符串时,在字符串的排列(排列区域)的方位X1中识别标记M的从开端P1到末端P2的范围,以作为标记的范围E。换句话说,即使标记M在其中途部份弯曲,仍可忽略此弯曲,且由实际提供有字符串的区域(行/列)识别标记的范围E。
以此方式,即使在文档中用户给定的标记的位置偏离了用户所希望的在标记中间部份的位置,依据字符串的方位X1对标记范围E的识别可通过忽略偏离而允许适当识别用户希望的标记范围。因此,即使字符在标记M的中途部份偏离标记M,仍可将包含此字符的范围识别为标记的范围E。另外,通过识别垂直与水平线方位之间的标记M的方位,并沿着标记方位识别连接像素区的一个末端和另一末端,可适当识别用户希望的标记范围的开端和末端,以分别作为标记的开端P1和末端P2。
随后,字符串提取单元10基于字符串位置识别单元4所识别的字符串的位置和标记范围识别单元9所识别的标记的范围来提取经受标记的字符串。更特定来说,从位置由字符串位置识别单元4所识别的字符串中,提取包含在标记范围识别单元9所识别的标记范围中的字符串,以作为经受标记的字符串(步骤S4)。例如,如图7所示,在通过字符串的方位X1识别标记的范围E时,提取标记范围E中所包含的字符串以作为经受标记的字符串。标记范围中包含的字符串表示至少一部分与标记范围重叠的字符串。
这里,标记M的开端P1位于表示给定词的给定字符串“familiar”的中途部份,而标记M的末端P2位于表示给定词的给定字符串“file”的中途部份。在此情况下,字符串提取单元10基于预先定义的提取条件来确定是否提取字符串以作为“经受标记的字符串”。
提取条件可基于给定字符串(例如“familiar”和“file”)与标记范围识别单元9所识别的标记范围E重叠的部分与给定字符串不与标记范围E重叠的部分之间的比率。此情况下,字符串位置识别单元4所识别的字符串的位置叠加在标记范围识别单元9所识别的标记范围E上,随后确定字符串与标记范围E重叠的部分和字符串不与标记范围E重叠的部分。如果给定字符串与标记范围E的一半或超过一半重叠,那么可将此字符串提取作为“经受标记的字符串”,且可不提取另一部分。
在提取条件下,在字符串“familiar”中,与标记范围E重叠的部分(字符部分“amiliar”)比不与标记范围E重叠的部分(字符部分“f”)具有更高的比率。因此,字符串提取单元10提取给定字符串“familiar”作为“经受标记的字符串”。另一方面,在字符串“file”中,与标记范围E重叠的部分(字符部分“f”)比不与标记范围E重叠的部分(字符部分“ile”)具有更低的比率。因此,字符串提取单元10不会提取给定字符串“file”作为“经受标记的字符串”。
因此,字符串提取单元10提取用户希望标记的字符串,即,字符串“familiar with the task in advance in order to register a document having animage”。特别地,在先前技术中,由于标记部分经受OCR处理,所以提取的字符串为“amiliar”和“document having an image f”。
另一替代的提取条件可基于给定字符串表示的词的类型。例如,可将各种类型的词划分为独立词(包含名词和动词)和依附词(包含冠词),且如果字符串表示的词的类型是独立词,那么可将给定字符串提取作为经受标记的字符串,而如果字符串表示的词的类型是依附词,那么可不提取给定字符串。可分离地或组合地采用所示范的两种提取条件。或者,可在标记末端识别单元8所识别的标记的开端P1与末端P2之间定义不同的提取条件。
即使当文档中由用户给定的标记的末端偏离用户所希望的位置时,基于预先定义的提取条件的字符串提取的确定,仍允许进行用户希望的字符串的适当提取。
随后,文档登记单元11在登记文档数据时向数据库单元12登记从文档输入单元1所输入的文档数据,并向数据库单元12登记字符串提取单元10所提取的字符串,以作为文档数据的属性信息(步骤S5)。此情况下,文档数据与属性信息在登记时相互形成对应关系。当文档数据的属性信息除用于文档查找的关键字之外还包含如文档的文件名和创建日期等多种不同类型的属性信息时,多种不同类型的属性信息在登记时与一条文档数据(one piece of document data)形成对应关系。因此,可将用户通过标记而希望的字符串登记作为文档数据的属性信息。
用于输入文档数据的文档(或纸文档)不仅可为办公室文档,例如也可为杂志或海报。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的结构及技术内容作出些许的更动或修饰为等同变化的等效实施例,但是凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种图像处理装置,其特征在于包括:
文档输入单元,其输入文档的文档数据;
第一识别单元,其识别所述文档中包含的字符串的位置;
第二识别单元,其基于所述字符串的方位来识别所述文档中给定的标记的范围;以及
字符串提取单元,其根据所述第一识别单元所识别的所述字符串的所述位置和所述第二识别单元所识别的所述标记的所述范围来提取被给定所述标记的字符串。
2.根据权利要求1所述的图像处理装置,其特征在于还包括:
登记单元,其登记由所述字符串提取单元提取的所述字符串以作为所述文档数据的属性信息。
3.根据权利要求1所述的图像处理装置,其特征在于:
所述字符串提取单元提取由所述第二识别单元识别的所述标记的所述范围中包含的字符串,以作为被给定所述标记的所述字符串,而所述字符串的位置由所述第一识别单元所识别。
4.根据权利要求1所述的图像处理装置,其特征在于:
当界定由所述第二识别单元识别的所述标记的所述范围的所述标记的开端和末端的至少一者位于给定字符串的中途部份时,所述字符串提取单元基于预设的提取条件确定是否提取所述给定字符串,以作为被给定所述标记的所述字符串。
5.根据权利要求4所述的图像处理装置,其特征在于:
所述提取条件是基于所述给定字符串与所述标记的所述范围重叠的部分与所述给定字符串不与所述标记的所述范围重叠的部分之间的比率。
6.根据权利要求4所述的图像处理装置,其特征在于:
所述提取条件是基于由所述给定字符串表示的词的类型。
7.根据权利要求1所述的图像处理装置,其特征在于所述第二识别单元包括:
连接像素区提取单元,其提取其中表示所述文档中给定的标记的像素已连接的连接像素区;
方位识别单元,其识别所述文档中给定的所述标记的方位;以及
标记末端识别单元,其基于所述方位识别单元所识别的所述标记的所述方位和所述连接像素区提取单元所提取的所述连接像素区的所述范围来识别所述标记的开端和末端。
8.根据权利要求7所述的图像处理装置,其特征在于:
所述标记末端识别单元沿着所述方位识别单元所识别的所述标记的所述方位识别由所述连接像素区提取单元提取的所述连接像素区的一个末端和另一末端,作为所述标记的所述开端和所述末端。
9.一种记录媒介,记录促使计算机执行一处理的图像处理程序,其特征在于所述处理包括:
输入一文档的文档数据;
识别所述文档中包含的字符串的位置;
基于所述字符串的方位来识别所述文档中给定的标记的范围;以及
根据所述经识别的字符串的所述位置和所述标记的所述经识别的范围来提取被给定所述标记的字符串。
10.一种图像处理方法,其特征在于包括:
输入文档的文档数据的步骤;
识别所述文档中包含的字符串的位置的步骤;
基于所述字符串的方位来识别所述文档中给定的标记的范围的步骤;以及
基于所述经识别的字符串的所述位置和所述标记的所述经识别的范围来提取被给定所述标记的字符串的步骤。
CN200610131761A 2006-03-06 2006-10-08 图像处理装置和图像处理方法 Expired - Fee Related CN100576232C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006058997A JP4807618B2 (ja) 2006-03-06 2006-03-06 画像処理装置及び画像処理プログラム
JP2006058997 2006-03-06

Publications (2)

Publication Number Publication Date
CN101034435A true CN101034435A (zh) 2007-09-12
CN100576232C CN100576232C (zh) 2009-12-30

Family

ID=38471564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610131761A Expired - Fee Related CN100576232C (zh) 2006-03-06 2006-10-08 图像处理装置和图像处理方法

Country Status (3)

Country Link
US (1) US7920742B2 (zh)
JP (1) JP4807618B2 (zh)
CN (1) CN100576232C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541499A (zh) * 2019-09-20 2021-03-23 富士施乐株式会社 信息处理装置以及记录媒体

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4807618B2 (ja) * 2006-03-06 2011-11-02 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP5057186B2 (ja) 2010-06-29 2012-10-24 ブラザー工業株式会社 画像読取装置、スキャナドライバ、及び画像格納方法
JP6561876B2 (ja) * 2016-03-01 2019-08-21 京セラドキュメントソリューションズ株式会社 情報処理装置及びプログラム
JP6565740B2 (ja) * 2016-03-01 2019-08-28 京セラドキュメントソリューションズ株式会社 情報処理装置及びプログラム

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5313527A (en) * 1991-06-07 1994-05-17 Paragraph International Method and apparatus for recognizing cursive writing from sequential input information
JPH05233705A (ja) 1992-02-20 1993-09-10 Nec Corp イメージファイリングシステムにおけるインデックス作成方式
US5359667A (en) * 1992-08-24 1994-10-25 Unisys Corporation Method for identifying and tracking document characteristics in a document image processing system
US6535897B1 (en) * 1993-05-20 2003-03-18 Microsoft Corporation System and methods for spacing, storing and recognizing electronic representations of handwriting printing and drawings
GB9313640D0 (en) * 1993-07-01 1993-08-18 Ncr Int Inc Document transaction apparatus
JP3050007B2 (ja) * 1993-08-26 2000-06-05 ミノルタ株式会社 画像読取装置およびこれを備えた画像形成装置
US5588072A (en) * 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
US5737440A (en) * 1994-07-27 1998-04-07 Kunkler; Todd M. Method of detecting a mark on a oraphic icon
US6246794B1 (en) * 1995-12-13 2001-06-12 Hitachi, Ltd. Method of reading characters and method of reading postal addresses
US5850480A (en) * 1996-05-30 1998-12-15 Scan-Optics, Inc. OCR error correction methods and apparatus utilizing contextual comparison
JPH09330327A (ja) * 1996-06-10 1997-12-22 Toshiba Corp 画像ファイル方法及びその装置
US20010029513A1 (en) * 1997-03-05 2001-10-11 Hideyuki Kuwano Integrated apparatus and system for storing, retrieving, and transmitting documents using document IDs and document ID marks
US6917720B1 (en) * 1997-07-04 2005-07-12 Daimlerchrysler Ag Reference mark, method for recognizing reference marks and method for object measuring
JP3601658B2 (ja) * 1997-12-19 2004-12-15 富士通株式会社 文字列抽出装置及びパターン抽出装置
JPH11184966A (ja) * 1997-12-22 1999-07-09 Canon Inc 文字認識装置及びその方法
JP4323606B2 (ja) * 1999-03-01 2009-09-02 理想科学工業株式会社 文書画像傾き検出装置
US6731413B1 (en) * 1999-07-23 2004-05-04 Konica Corporation Ink jet recording method and apparatus for monochromatic medical image
US6845366B1 (en) * 1999-11-22 2005-01-18 Ncr Corporation Method of processing a check and an apparatus therefor
JP3854024B2 (ja) * 1999-11-30 2006-12-06 株式会社Pfu 文字認識前処理装置及び方法並びにプログラム記録媒体
JP2002189984A (ja) 2000-12-21 2002-07-05 Oki Electric Ind Co Ltd 文書読取装置
JP2002211068A (ja) * 2001-01-12 2002-07-31 Seiko Epson Corp 印刷装置および印刷方法
JP2002324166A (ja) * 2001-04-25 2002-11-08 Hitachi Ltd 帳票、帳票処理システム、帳票作成システム、帳票印刷システム、帳票処理方法、帳票作成方法、及び、帳票印刷方法
US7298510B2 (en) * 2001-05-10 2007-11-20 Canon Kabushiki Kaisha Image enlargement through poster printing by combining pattern data with image data
US7110604B2 (en) * 2001-06-26 2006-09-19 Anoto Ab Processing of digital images
JP4651876B2 (ja) * 2001-07-19 2011-03-16 富士通株式会社 パターン識別装置、パターン識別方法及びパターン識別用プログラム
US6870947B2 (en) * 2001-07-24 2005-03-22 Ncr Corporation Method of processing items in a check processing system and an apparatus therefor
JP3918531B2 (ja) * 2001-11-29 2007-05-23 株式会社日立製作所 類似文書検索方法およびシステム
US7228428B2 (en) * 2001-12-14 2007-06-05 Xerox Corporation Method and apparatus for embedding encrypted images of signatures and other data on checks
US7020320B2 (en) * 2002-03-06 2006-03-28 Parascript, Llc Extracting text written on a check
US7221796B2 (en) * 2002-03-08 2007-05-22 Nec Corporation Character input device, character input method and character input program
EP1345163B2 (en) * 2002-03-15 2010-12-29 Computer Sciences Corporation Methods for analysis of writing in documents
US7054483B2 (en) * 2002-03-15 2006-05-30 Ncr Corporation Methods for selecting high visual contrast colors in user-interface design
JP2004246597A (ja) * 2003-02-13 2004-09-02 Ricoh Co Ltd 画像処理装置、記録媒体およびプログラム
JP2004295674A (ja) * 2003-03-27 2004-10-21 Fujitsu Ltd Xml文書解析方法、xml文書検索方法、xml文書解析プログラム、xml文書検索プログラムおよびxml文書検索装置
JP2005020227A (ja) * 2003-06-25 2005-01-20 Pfu Ltd 画像圧縮装置
US7474780B2 (en) * 2003-08-30 2009-01-06 Opex Corp. Method and apparatus for determining unknown magnetic ink characters
JP4307287B2 (ja) 2004-02-23 2009-08-05 三菱電機株式会社 メタデータ抽出装置
JP3990375B2 (ja) * 2004-03-30 2007-10-10 東芝ソリューション株式会社 画像処理装置および画像処理方法
JP4549725B2 (ja) * 2004-04-30 2010-09-22 大日本スクリーン製造株式会社 印刷データ処理装置、印刷データ処理方法、およびプログラム
JP2005332062A (ja) * 2004-05-18 2005-12-02 Sharp Corp 画像処理装置,画像処理システム,画像処理方法,画像処理プログラム及びその画像処理プログラムが記録されたコンピュータ読み取り可能な記録媒体
US20060008148A1 (en) * 2004-07-06 2006-01-12 Fuji Photo Film Co., Ltd. Character recognition device and method
WO2006059246A2 (en) * 2004-11-08 2006-06-08 Dspv, Ltd. System and method of enabling a cellular/wireless device with imaging capabilities to decode printed alphanumeric characters
JP2006134191A (ja) * 2004-11-09 2006-05-25 Hitachi Ltd 文書検索方法およびそのシステム
JP2006166155A (ja) * 2004-12-09 2006-06-22 Konica Minolta Business Technologies Inc 画像処理装置および画像処理方法
JP2007004523A (ja) * 2005-06-24 2007-01-11 Fuji Xerox Co Ltd 問題用紙作成装置及び問題用紙作成方法
US20070206024A1 (en) * 2006-03-03 2007-09-06 Ravishankar Rao System and method for smooth pointing of objects during a presentation
JP4807618B2 (ja) * 2006-03-06 2011-11-02 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US7657091B2 (en) * 2006-03-06 2010-02-02 Mitek Systems, Inc. Method for automatic removal of text from a signature area
JP4712613B2 (ja) * 2006-05-25 2011-06-29 富士通株式会社 情報処理装置、情報処理方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541499A (zh) * 2019-09-20 2021-03-23 富士施乐株式会社 信息处理装置以及记录媒体

Also Published As

Publication number Publication date
CN100576232C (zh) 2009-12-30
US7920742B2 (en) 2011-04-05
JP2007241355A (ja) 2007-09-20
US20070206883A1 (en) 2007-09-06
JP4807618B2 (ja) 2011-11-02

Similar Documents

Publication Publication Date Title
CN100351839C (zh) 文档检索·阅览方法以及文档检索·阅览装置
CN101661465B (zh) 图像处理装置及图像处理方法
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
US5119437A (en) Tabular document reader service
JPH05307638A (ja) ビットマップ・イメージ・ドキュメントのコード化データへの変換方法
CN101408874A (zh) 图像文字翻译装置及方法
CN100576232C (zh) 图像处理装置和图像处理方法
CN103455806A (zh) 文档处理装置、文档处理方法以及扫描仪
CN109241555B (zh) 一种改善绘图精度的多图元Gerber文件解析及绘制方法
CN114663897A (zh) 表格提取方法与表格提取系统
JP2000285190A (ja) 帳票識別方法および帳票識別装置および記憶媒体
CN109685061A (zh) 适用于结构化的数学公式的识别方法
JP5601027B2 (ja) 画像処理装置及び画像処理プログラム
Rashtehroudi et al. PESTD: a large-scale Persian-English scene text dataset
JP2008077201A (ja) 筆記媒体、加筆情報検出装置、加筆情報検出方法、プログラム及び記録媒体
JP4853313B2 (ja) 文字認識装置
JP5445740B2 (ja) 画像処理装置、画像処理システムおよび処理プログラム
WO2011027113A1 (en) Method and apparatus for segmenting images
JP2007295320A (ja) 追記情報処理方法、追記情報処理装置、およびプログラム
CN113449602A (zh) 一种基于机器视觉的文本与内容识别分析方法
US20060188863A1 (en) Material processing apparatus, material processing method, and material processing program product
CN114332875A (zh) 一种笔记卡片结构化方法
CN115659964A (zh) 一种基于多模态信息的表格实体抽取方法及系统
CN116052197A (zh) 一种带标签的票据信息识别方法
CN116704531A (zh) 一种基于轻量级yolo模型的财务报表检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20091230

Termination date: 20181008