CN101408874A

CN101408874A - 图像文字翻译装置及方法

Info

Publication number: CN101408874A
Application number: CNA2007102019835A
Authority: CN
Inventors: 毛华仁
Original assignee: Shenzhen Futaihong Precision Industry Co Ltd; Chi Mei Communication Systems Inc
Current assignee: Shenzhen Futaihong Precision Industry Co Ltd; Chi Mei Communication Systems Inc
Priority date: 2007-10-09
Filing date: 2007-10-09
Publication date: 2009-04-15
Also published as: US20090094016A1

Abstract

一种图像文字翻译装置，其包括：存储单元，用于存储多个字库，每个字库对应一个文字类型；图像输入单元，用于攫取图像，提供翻译模式供用户选择以对所攫取图像中的文字进行翻译，确认所攫取图像中的文字所属的类型，并指定翻译语言；文字识别单元，用于分析所攫取的图像，转换图像的格式为可编辑的文本资料，从该文本资料中提取文字物件，将文字物件转化为内码，并将该内码与所确认的文字类型对应的字库中的数据进行比对从而识别文字；及语言翻译单元，用于将识别出的文字翻译成指定语言并得出翻译结果。本发明还提供一种图像文字翻译方法。利用本发明可实时翻译不同语言的图像数据，以识别图像中的文字信息。

Description

图像文字翻译装置及方法

技术领域

本发明涉及一种图像文字翻译装置及方法。

背景技术

目前，我们所面对的是一个多语种的环境，不同国家之间的人们彼此的交流越来越频繁，出国旅游、购物、交友，不可避免的需要接触很多种未曾学习的外语。例如，一个不懂任何外语的旅游者去往法国旅游，无法看懂路标、菜单、景点介绍等等，如此造成诸多不便。

光学字符识别(Optical Character Recognition，OCR)技术的发展，可以在一定程度上实现文本图像信息的自动获取，其通常用于将纸本文件经过扫描成电子文件，并对该电子文件进行处理以识别其中的文字内容。然而，生活场景中的很多外文字无法通过纸本扫描的方式进行操作。

发明内容

鉴于以上内容，有必要提供一种图像文字翻译装置，其可实时拍摄不同语言的图像数据，通过对图像中的文字进行识别与翻译以获取文字信息。

此外，还有必要提供一种图像文字翻译方法，其可实时拍摄不同语言的图像数据，通过对图像中的文字进行识别与翻译以获取文字信息。

一种图像文字翻译装置，其包括：存储单元，用于存储多个字库，其中每个字库对应一个文字类型；图像输入单元，用于攫取图像，提供翻译模式供用户选择，确认所攫取图像中的文字所属的类型，并指定翻译语言；文字识别单元，用于分析所攫取的图像，转换图像的格式为可编辑的文本资料，从该文本资料中提取文字物件，将文字物件转化为内码，并将该内码与所确认的文字类型对应的字库中的数据进行比对从而识别文字；及语言翻译单元，用于将识别出的文字翻译成指定语言并得出翻译结果。

一种图像文字翻译方法，该方法包括如下步骤：提供一个存储单元以存储多个字库，其中每个字库对应一个文字类型；攫取图像，并提供翻译模式供用户选择以对所攫取图像中的文字进行翻译；确认所攫取图像中的文字所属的类型，并提供多个翻译语言供用户指定；分析所攫取的图像，转换图像的格式为可编辑的文本资料，并从该文本资料中提取文字物件；将文字物件转化为内码，并将该内码与所确认的文字类型对应的字库中的数据进行比对从而识别文字；及将识别出的文字翻译成指定语言并得出翻译结果。

相较于现有技术，所述的图像文字翻译装置及方法，其可实时拍摄不同语言的图像数据，通过对图像中的文字进行识别与翻译以知悉文字信息。此外，该图像文字翻译装置及方法还可为数字移动产品增加附加价值。

附图说明

图1是本发明图像文字翻译装置的较佳实施例的功能模块图。

图2是本发明图像文字翻译装置的较佳实施例的翻译界面示意图。

图3是本发明图像文字翻译方法的较佳实施例的流程图。

图4是本发明图像文字翻译装置的较佳实施例的数据流向示意图。

具体实施方式

如图1所示，是本发明图像文字翻译装置的较佳实施例的功能模块图。本较佳实施例的图像文字翻译装置1可以安装在各类电子装置中，例如：计算机，尤其适用于移动式电子装置，例如：移动电话、数码相机、数码摄影机、笔记本电脑、PDA(Personal DigitalAssistant，个人数字助理)等。所述的图像文字翻译装置1提供一个操作界面给用户进行相关操作，例如，获取图像、选择获取图像的模式、对图像中包括的文字进行翻译、查看翻译结果等操作。

所述的图像文字翻译装置10主要包括五个功能模块，分别是：存储单元10、图像输入单元12、文字识别单元14、语言翻译单元16及显示单元18。

在本较佳实施例中，以一个具备摄像头的移动电话为例，该图像文字翻译装置1安装在该移动电话中。用户在需要利用图像文字翻译装置10翻译某件事物上的文字时，例如菜单上的菜肴名称、旅游地点的地理标示、书籍中的文字等等，可先通过图像输入单元12拍摄包括待翻译文字的图像并利用文字识别单元14及语言翻译单元16对图像中的文字进行翻译。

所述的存储单元10用于存储多个字库，其中每个字库对应一个文字类型。例如，存储单元10所存储的字库包括：汉字字库、英文字库、符号字库、德语字库等，每一字库对应一个文字类型。字库中包括不同文字的内码(也可称为机内码)，用于机器内部对文字进行存储与处理，例如，计算机、移动电话、PDA等对汉字进行存储与处理的是汉字内码。此外，汉字字库中还包括汉字字型码(也叫字模或汉字输出码)以确定一个汉字字形点阵的代码。一个汉字字型码的信息占若干字节，所占字节数由汉字的字形决定。

以计算机对汉字的存储为例，汉字和图形符号在计算机中通常是用点阵来描述的，其中，点阵是一组二进制数。一个m行n列的点阵共有m×n个点。每个点可以是“黑”点或“白”点，用二进制位值0表示点阵中对应点为“白”点，而位值1表示对应点为“黑”点。一个汉字在存储时所占用的字节，是由该汉字的点阵信息决定。例如，对于16×16点阵的汉字来说，一个汉字的点阵信息共有16行，每一行上有16个点，每一行上的16个点需要用两个字节来存放，因此，一个16×16点阵的汉字字形需要用32个字节来存放。

该存储单元10可以是任何一种存储装置，例如：闪存(Flash Memory)、硬盘(HD)等。

所述的图像输入单元12用于攫取图像以输入到图像文字翻译装置10中。该图像输入单元12可以是拍摄装置，例如摄像头，也可以是扫描装置，例如：与计算机连接的扫描仪器等。经由图像输入单元12所获取的图像可存储为不同的格式，例如BMP(位图文件)、JPG(使用JPEG文件交换格式存储的编码图像文件)、GIF(可交换的图像文件)、PNG(PortableNetwork Graphic，可移植的网络图象文件格式)等。用户可通过图像输入单元12拍摄所有包括待翻译文字的事物以生成二维图像，并通过显示单元18呈现给用户。

所述的图像输入单元12在攫取图像时提供多种模式供用户进行选择，例如图2所示的模式选择界面30中列举了三种拍摄模式，分别是：户外模式、室内模式以及翻译模式。若用户选择户外模式以及室内模式，则图像输入单元12仅对图像进行拍摄及存储；若用户选择翻译模式，则图像输入单元12在进行图像拍摄与存储后，还将该图像传输至文字识别单元14及语言翻译单元16对图像中的文字进行辨识与翻译。其中，不同的拍摄模式下可对分辨率等进行不同等级的设置。

此外，所述的图像输入单元12还用于通过用户的选择以确认所攫取图像中的文字所属的类型，以及提供多个翻译语言供用户指定。其中，该翻译语言是为后续对识别后的文字进行翻译，其可预先指定为用户母语，例如中文简体，或者根据用户情况进行调整。

例如，若用户在法国旅行时无法识别路标，其可利用图像输入单元12拍摄该路标，选择拍摄模式为翻译模式，选择图像中的文字类型为法语，并通过图像输入单元12选择翻译语言为简体中文，则文字识别单元14与语言翻译单元16进行后续的识别与翻译动作。

所述的文字识别单元14用于分析所攫取的图像，转换图像的格式为可编辑的文本资料，从该文本资料中提取文字物件，将文字物件转化为内码，并将该内码与所确认的文字类型对应的字库中的数据进行比对从而识别文字。其中，分析图像包括对图像的格式进行分析。

此外，所述的文字识别单元14还用于对图像进行版面分析及定位，例如判别图像内文字是横排文本区、竖排文本区、表格区还是图像区，从而将识别后的文字依序排列。

对于汉字、英文与数字的识别，该文字识别单元14可自动识别宋、仿宋、楷、隶书、行楷等中文简繁体、英文、数字、表格、图片混排的稿件，识别出来的文字内码可以是GB码、BIG5码、GBK码。

所述的语言翻译单元16用于将识别出的文字翻译成指定语言并得出翻译结果。

所述的显示单元18用于显示各类数据，例如：攫取的图像、识别后的文字、翻译结果等数据。该显示单元18可以是液晶显示屏、也可以是LED(发光二级管，Light-EmittingDiode)荧幕等显示装置。

所述的存储单元10还用于储存其他各类数据，包括攫取的图像、识别后的文字、翻译结果等数据。

如图2所示，是本发明图像文字翻译装置的较佳实施例的翻译界面示意图。用户在对图像进行拍摄之前，首先需在图像输入单元12所提供的模式选择界面30中选择一种拍摄模式，例如，该模式选择界面30列举了三种拍摄模式，分别是：户外模式、室内模式以及翻译模式。若用户选择户外模式以及室内模式，则图像输入单元12仅对图像进行拍摄及存储；若用户选择翻译模式，则图像输入单元12在进行图像拍摄与存储后，还将该图像传输至文字识别单元14及语言翻译单元16对图像中的文字进行辨识与翻译。在其它实施例中，可包括更多的拍摄模式供用户进行选择。

选择翻译模式，通过图像输入单元12确定该图像中文字所属的类型以及翻译语言，继而将拍摄下图像传送至文字识别单元14。该文字识别单元将图像的格式转换为可编辑文本资料后从该文本资料中提取文字物件，并识别该文字物件中的文字，如界面32所示即为识别后的文字，例如：“How are you？”。识别后的文字将传送至语言翻译单元16进行翻译，界面34显示翻译正在后台进行中，若得出翻译结果，则通过界面36显示该翻译结果，例如：对“How are you？”的翻译结果是“你好吗？”。

如图3所示，是本发明图像文字翻译方法的较佳实施例的流程图。首先，步骤S2，提供一个存储单元10以存储多个字库，其中每个字库对应一个文字类型。

步骤S4，用户通过图像输入单元12所提供的拍摄模式中选择翻译模式，该图像输入单元12攫取相关事物的图像。

步骤S6，图像输入单元12通过用户的选择以确认所攫取图像中的文字所属的类型，以及提供多个翻译语言供用户指定，继而将所攫取的图像传送至文字识别单元14以对图像中的文字进行识别，以及存储该图像至存储单元10中。该翻译语言可预先指定为用户母语，例如中文简体，或者根据用户情况进行调整。例如，图象中的文字为“MENU”，则用户可选择文字类型为“英文”，并指定翻译语言为简体中文。

步骤S8，文字识别单元14分析所攫取的图像，转换图像的格式为可编辑的文本资料，并从该文本资料中提取文字物件。其中，分析图像包括对图像的存储格式进行分析。

步骤S10，文字识别单元14将提取的文字物件转化为内码，并将该内码与存储单元10中的字库进行比对从而识别文字。此外，该文字识别单元14还可对图像进行版面分析及定位，例如判别图像内文字是横排文本区、竖排文本区、表格区还是图像区，从而将识别后的文字依序排列。

步骤S12，语言翻译单元16将识别出的文字翻译成指定语言并得出翻译结果。

步骤S14，显示单元18显示翻译结果，并结束本流程。该翻译结果可存储至存储单元10中。

如图4所示，是本发明图像文字翻译装置的较佳实施例的数据流向示意图。首先，图像输入单元12通过拍摄等方式获取图像来源20的二维图像22，该图像来源20可以是任何事物，例如路标、菜单、书籍、名片等物，并且用户在利用图像输入单元12攫取图像22之前需选择“翻译模式”。文字识别单元14分析所攫取的图像22，转换图像22的格式为可编辑的文本资料并从中提取文字物件，以及将文字物件转化为内码以识别文字24。语言翻译单元16将识别出的文字24翻译成指定语言并得出翻译结果26。最终，显示单元18将翻译结果26呈现给用户。

Claims

1.一种图像文字翻译装置，其特征在于，该装置包括：

存储单元，用于存储多个字库，其中每个字库对应一个文字类型；

图像输入单元，用于攫取图像，提供翻译模式供用户选择，确认所攫取图像中的文字所属的类型，并指定翻译语言；

文字识别单元，用于分析所攫取的图像，转换图像的格式为可编辑的文本资料，从该文本资料中提取文字物件，将文字物件转化为内码，并将该内码与所确认的文字类型对应的字库中的数据进行比对从而识别文字；及

语言翻译单元，用于将识别出的文字翻译成指定语言并得出翻译结果。

2.如权利要求1所述的图像文字翻译装置，其特征在于，该装置还包括显示单元，用于显示所攫取的图像、识别的文字以及翻译结果。

3.如权利要求1所述的图像文字翻译装置，其特征在于，该文字识别单元还用于对所攫取的图像进行版面分析及定位。

4.一种图像文字翻译方法，其特征在于，该方法包括如下步骤：

提供一个存储单元以存储多个字库，其中每个字库对应一个文字类型；

攫取图像，并提供翻译模式供用户选择以对所攫取图像中的文字进行翻译；

确认所攫取图像中的文字所属的类型，并提供多个翻译语言供用户指定；

分析所攫取的图像，转换图像的格式为可编辑的文本资料，并从该文本资料中提取文字物件；

将文字物件转化为内码，并将该内码与所确认的文字类型对应的字库中的数据进行比对从而识别文字；及

将识别出的文字翻译成指定语言并得出翻译结果。

5.如权利要求4所述的图像文字翻译方法，其特征在于，该方法还包括如下步骤：

显示所攫取的图像、识别的文字以及翻译结果。

6.如权利要求4所述的图像文字翻译方法，其特征在于，该方法在分析步骤之前还包括如下步骤：

对所攫取的图像进行版面分析及定位。