CN103677618B

CN103677618B - 用于终端的文本识别设备和方法

Info

Publication number: CN103677618B
Application number: CN201310380550.6A
Authority: CN
Inventors: 张时学; 金善花; 金熙琎; 朴美贞
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-08-28
Filing date: 2013-08-28
Publication date: 2019-10-25
Anticipated expiration: 2033-08-28
Also published as: CN103677618A; KR20140030391A; EP2703980A2; EP2703980A3; KR102068604B1; US9471219B2; US20140062962A1; EP2703980B1

Abstract

提供一种用于终端的文本识别设备和方法。所述文本识别设备和方法在屏幕上将由笔选择的文本图像识别为文本。本发明的文本识别方法包括：显示图像；响应于用笔做出的手势，在图像上配置识别区域；在识别区域中识别文本；显示识别的文本和与文本相应的动作项；当动作项中的一个被选择时，执行与选择的动作项相应的动作。

Description

用于终端的文本识别设备和方法

技术领域

本公开涉及一种便携式终端，具体地讲，涉及一种使用触摸笔识别显示在屏幕图像上的文本的文本识别设备和方法。

背景技术

便携式终端通常配备有用户能通过简单或者多点触摸手势控制的触摸面板和用于捕捉图像的照相机。最近很多便携式终端被设置为包括文本识别和语音识别功能以增加用户的体验。

触摸面板感测使用手指或者触摸笔的输入。前一类型的触摸面板可被实现为电容触摸面板，后一类型的触摸面板可被实现为电磁共振（EMR）触摸面板。触摸笔可被实现为电容型触摸笔和EMR型触摸笔。在使用电容型触摸笔的情况下，电容触摸面板能感测由人体（如手指）和电容型触摸笔两者做出的触摸输入。

最近，存在识别照相机实时拍摄的图像中的文本的需求。即，需要识别包括在照相机捕捉的预览图像中的文本并根据识别结果采取行动的方法。

发明内容

本发明提供了一种在配备有照相机和触摸面板的便携式终端中使用的文本识别设备和方法，该文本识别设备和方法能够在图像上（预览图像、静态图像等）定位由触摸笔指定的至少一个文本，并且在文本识别模式期间，识别通过接触选择的位置处的字符图像。

本发明的另一方面提供一种在便携式终端中使用的文本识别设备和方法，该文本识别设备和方法在文本识别模式期间，由触摸笔做出接触或由悬停手势在上面指出至少一个文本以开始字符识别。

本发明的另一方面提供：响应于笔触摸或者没有接触的笔悬停手势捕捉预览图像作为静态图像，从而使用笔动作识别的文本连同待选择的与识别文本相应的可执行项的列表一起被显示。

根据本发明的一方面，一种终端的文本识别方法包括：显示图像；响应于使用物体的输入手势来配置或者限定图像上的识别区域；识别在识别区域中的至少一个文本；显示识别的文本和待选择的与文本相应的可选择的动作项的列表。

根据本发明的另一方面，一种终端的文本识别设备包括：照相机，提供图像；触摸面板，检测使用物体做出的输入手势；显示单元，显示捕捉的图像；控制单元，控制显示单元用于响应于输入手势配置或限定图像上的识别区域，识别在识别区域中的至少一个文本，并且显示识别的文本和相应于文本的可选择的动作项的列表。

附图说明

图1是示出根据本发明实施例的终端的配置的框图；

图2是示出根据本发明实施例的在显示在终端屏幕上的图像中识别和处理文本的处理的流程图；

图3是示出根据本发明实施例的由工作在文本识别模式下的终端显示的示例性屏幕图像的示图；

图4A和图4B是示出用于解释根据本发明实施例的在文本识别方法中响应于笔手势输入配置识别区域的示例性屏幕图像的示图；

图5是示出根据本发明实施例的工作在预览模式下的终端的基于笔触摸的文本识别方法的流程图；

图6A和图6B是示出用于解释图5中的文本识别过程的示例性屏幕图像的示图；

图7是示出根据本发明实施例的文本识别方法的流程图；

图8A和图8B是示出用于解释图7中的文本识别过程的示例性屏幕图像的示图。

具体实施方式

参照附图详细地描述本发明的示例性实施例。贯穿附图，相同的附图标号用于指示同一或者相同的部件。

以下描述中使用的术语和词语不限于字面含义，而是仅由发明者使用以使人能够清楚一致地理解本发明。因此，对于本领域的技术人员很明显的是，以下对本发明示例性实施例的描述仅被提供用于说明目的，而不是用于限制由权利要求及其等同物限定的本发明的目的。

应理解，单数形式包括复数形式，除非上下文明确地相反指示。因此，例如，提到“元件表面”包括提到的一个或者多个这样的表面。

术语“大体上地”表示列举的特性、参数或者数值不需要精确地实现，而是可出现在数量上不排除该特征意欲提供的效果的偏差或变化，偏差或变化包括例如公差、测量误差、测量精确度限制和本领域技术人员所知的其他因素。

在本发明的实施例中，配备有照相机和笔触摸敏感触摸面板的终端能够在图像（预览图像、静态图像等）上选择由触摸笔接触的位置，而且识别选择的位置处的文本图像。为了完成这些，终端包括对笔触摸敏感的触摸面板，该触摸面板能够感测到在接触面板上经过接触做出的触摸手势或者在触摸面板上方未经过接触做出的悬停手势。

在本发明的实施例中，工作在预览模式下的终端操作能够响应于笔触摸手势捕捉预览图像作为静态图像。如果在触摸面板上方检测到笔触摸手势或者悬停手势，则终端分析在检测到笔触摸或者悬停手势的位置处的图像，并且根据分析结果识别字符，然后显示与识别的字符相应的可执行项的列表。根据本发明的实施例，如果在显示由照相机捕捉的预览图像的状态下检测到笔触摸手势，则终端识别在笔触摸的位置处的文本图像，显示识别的字符数据，并显示与识别的字符数据相应的至少一个动作项，如果用户选择了动作项，则执行与选择的动作项相应的功能。

根据本发明的实施例，如果在显示静态图像的状态下检测到笔触摸手势，则终端识别在检测到笔触摸的位置附近的文本图像，显示识别的字符数据，并显示与字符数据相应的至少一个动作项，如果用户选择动作项，则执行与选择的动作项相应的功能。

图1是示出根据本发明实施例的终端的配置的框图。这里，终端可以是各种数字装置（诸如移动终端）中的任意一个，包括智能手机、MP3播放器、平板电脑和台式机/膝上型PC。

参照图1，通信单元120负责无线电与基站或者其他终端通信。这里，通信单元120可包括：发射器，用于将要发射的信号上变换和放大；接收器，用于低噪声地放大和下变换接收到的信号。通信单元120可包括调制器和解调器。调制器调制传输到发射器的传输信号，解调器解调由接收器接收的信号。调制器/解调器可是LTE、WCDMA、GSM、Wi-Fi、WiBro、NFC、蓝牙调制器/解调器中的任何一个。在本发明的实施例中，在假设通信单元120包括LTE、Wi-Fi和蓝牙通信模块的前提下进行描述。

照相机160负责响应于照相机驱动命令拍摄图像。

控制单元100控制终端的所有操作，在文本识别模式下，控制单元100在由照相机160提供的预览图像的焦点位置处识别字符，并识别包括在响应于捕捉请求捕捉的屏幕图像中的字符。在文本识别模式下，控制单元100检查在文本识别模式下配置的功能，显示与功能关联的、相应于识别的字符的动作项，并控制与用户选择的项相应的动作的执行。

存储器110包括：程序存储器，用于储存终端的操作系统（OS）和与根据本发明实施例的方法相关联的应用程序；数据存储器，用于存储与终端的操作相关联的表和程序的数据。

显示单元130显示关于在控制单元100的控制下当前运行的应用的信息。显示单元130可用液晶显示器（LCD）和有机发光二极管（OLED）中的一个实现。第一触摸面板140可被实现为电容型或者电阻型以产生触摸（在下文中，假设为手指触摸）的位置信息给控制单元100。第二触摸面板150被设置为具有EMR传感器板，用于检测笔触摸并产生相应的输入信号给控制单元100。这里，控制单元130、触摸面板140和ERM面板150可被整合到信号装置中。

在以上配置的终端中，如果在终端屏幕上显示的图像的特定位置处检测到触摸输入，则控制单元100将笔触摸位置附近的区域配置或限定为识别区域，识别在识别区域中限定的字符数据或者文本，然后将识别的字符数据连同用于执行与字符相应的功能的菜单（在下文中，指的是可执行项或者动作项）一起显示。

图2是示出根据本发明实施例的在显示在终端屏幕上的图像中识别和处理文本的处理的流程图。图3是示出根据本发明实施例的由工作在文本识别模式下的终端显示的屏幕图像的示图。

参照图2和图3，在步骤211，控制单元100控制显示单元130以显示图像。注意在终端中显示的图像可从外部源（诸如另一个终端、互联网、云、服务器等）接收。此时，由显示单元130显示的图像可以是包括图像和字符的图像，或者是仅包括字符的图像（例如文档图像）。如果用户在图像上通过笔做出触摸输入或者手势，则控制单元100在步骤213通过第二触摸面板150检测到笔接触，而且在步骤215，检查由第二触摸面板150检测到的笔接触的位置以执行文本识别。即，如图3中的示例性屏幕图像350和370所示，如果用户通过笔311在图像上绘出由附图标号315所表示的线，则控制单元100通过第二触摸面板150检测到笔手势，并且将笔绘图周围的区域（笔绘图区域）配置为识别区域。或者，根据本发明的实施例，在下划线315的上面或者下面放置的单词被识别。然后，控制单元100识别在识别区域中的字符并且在步骤219根据分析结果以弹出窗口的形式显示识别的字符321和动作项323，如示例性屏幕图像360和380所示。

在图3中，屏幕图像350表示的示例性情况是在图像中的电话号码上进行笔绘图，而屏幕图像370表示的示例性情况是在图像的文本上进行笔绘图。在本发明的实施例上，假设文本分类为带有某些链接信息的链接文本和没有链接信息的普通文本之一。在这种情况下，带有链接信息的链接文本可以是统一资源定位符（URL）、电子邮件、电话号码、地址和社交网络服务（SNS）身份信息中的任何一个。如果识别这样的链接文本，则控制单元100能够显示可利用链接信息执行的动作项（菜单项）。这里，链接文本的动作项可被总结如表1所示。

表1

在普通文本的情况下，控制单元100能显示动作项323，诸如‘复制到粘贴板’、‘网页搜索’、‘分享’、‘字典’等。

此后，在响应于笔触摸配置的识别区域处显示与文本相应的动作项的状态下，控制单元100在步骤221执行与选择的动作项相应的动作。

同时，在步骤213和步骤215，基于笔触摸的文本识别区域配置可以以不同的形式被执行。即，控制单元100检测由笔选择的文本，并以单词或者直线为单位执行识别。

图4A和图4B是示出用于解释根据本发明实施例的在文本识别方法期间响应于笔手势输入配置识别区域的示例性屏幕图像的示图。

参照图4A，响应于如附图标号410所表示在文本绘下划线，或者如附图标号420所示绘出封闭的曲线，或者如附图标号430所表示的使用触摸笔突出显示的笔触摸手势，可配置识别区域。在文本下划线的情况中，如果在两个字母间距短的文本字符串之间绘线，则控制单元100识别一个或者两个文本字符串。在本发明的实施例中，假设识别和处理绘线上方的文本字符串。

参照图4B，在如屏幕图像440所示用笔配置识别的情况下（附图标号410表示通过在文本上绘出横穿线做出触摸输入的示例性情况），由笔绘出的下划线可在句子的中间结束。在这种情况下，控制单元100以这样的方式配置识别区域：下划线上的单词被包括在识别区域内。因此，如图4B中的屏幕图像440所示，如果做出笔触摸输入，则控制单元100配置识别区域以识别文本并连同显示如屏幕图像450所示的动作项。

图5是示出根据本发明实施例的工作在预览模式下的终端的基于笔触摸的文本识别方法的流程图。图6A和6B是示出用于解释图5的文本识别过程的示例性屏幕图像的示图。

参照图5、图6A和图6B，控制单元100能够在终端工作在预览模式的状态下激活文本识别模式，或者在配置完文本识别模式的状态下激活照相机进入预览模式。在这种状态下，在步骤511，控制单元100控制显示单元130以显示由照相机160提供的预览图像（实时图像）。由照相机160提供的预览图像可以是包括图片和文本的图像（例如招牌图片），或者是只包括文本的文档图像。如果用户在由显示单元130显示的预览图像上进行笔输入，则控制单元100在步骤513通过第二触摸面板150检测笔触摸输入，并且在步骤515捕捉预览图像作为静态图像。注意可从外部源接收预览图像或者静态图像。

在本实施例中捕捉静态图像的原因是因为由于终端的晃动而难以在预览图像本身上进行笔触摸输入。为了提供正确的无图像晃动的触摸输入，控制单元100捕捉预览图像作为静态图像，静态图像用于检测笔触摸输入。由于在不平稳的预览图像上难以做出正确的笔触摸输入，所以控制单元100控制在检测到笔触摸输入时立即捕捉当前屏幕图像作为静态图像。如此，显示单元130显示捕捉的动态图像，从而使用户能够在完全不晃动图像的情况下（例如在用一只手握住终端或者将终端放置在固定物体上的状态下）通过笔在静态图像上选择文本。

因此，如图6A所示，如果在预览图像被显示为如附图标号610所表示的状态下，在屏幕上检测到笔触摸输入，则控制单元100捕捉如附图标号620所表示的预览图像作为静态图像，从而用户可在静态图像上做出笔触摸输入。

如果笔触摸输入已经完成，则在步骤517，控制单元100基于通过第二触摸面板150检测到的笔触摸的位置，在图像中配置文本识别区域。在实施例中，如之前参照图4A的描述，以在屏幕上接触或者悬停在屏幕之上的形式做出笔触摸输入。

然后，在步骤519，控制单元100在文本识别区域内识别文本，并且在步骤521，控制单元100分析识别的文本，然后根据分析的结果以弹出窗口的形式显示文本数据和相应的动作项。这里，动作项可根据识别的文本是链接文本还是正常文本而改变，在链接文本的情况下，动作项可被设置为如表1中总结的。如果用户选择了动作项中的一个，则控制单元100执行与选择的动作项相应的动作。

图6B是示出用于解释根据本发明可选实施例的终端响应于由笔做出的悬停手势输入的操作的示例性屏幕图像。如图6B中的屏幕图像640所示，如果笔接近显示单元130的预定范围，则第二触摸面板150检测笔的路径。如果检测到悬停手势输入，则控制单元100控制捕捉预览图像作为静态图像，从而用户可绘出下划线并且平稳地做出其他的手势。利用在终端上预先设计的激活按钮或者在触摸笔中设置的激活按钮，可实现静态图像的笔记捕捉。

一旦显示静态图像，则控制单元100能够将利用某个笔悬停手势或者下划线接触手势选择的区域配置作为文本识别区域。如屏幕图像660所示，控制单元100识别在文本识别区域中的文本，并且显示识别的文本数据和相应的动作项。

图7是示出根据本发明另一实施例的文本识别方法的流程图。图8A和8B是示出用于解释图7中的文本识别过程的示例性屏幕图像的示图。

参照图7、图8A和图8B，在步骤711，控制单元100控制显示单元130以显示图像。在步骤711显示的图像可以是由照相机160捕捉的静态图像或者是由通信单元120接收的静态图像。图像可以是包括图片和文本的图像，或者是只包括文本的文档图像。如图8A中的附图标号810和图8B中的附图标号850（获得文本）所示如果用户输入识别文本的请求，则控制单元100在步骤713检测用户请求，并在步骤715显示图像中所有文本。此时，可以以单词为单位执行文本识别。随后，如果在相应于识别的文本的位置处做出笔触摸手势，则控制单元100在步骤717通过第二触摸面板150检测笔触摸，并且在步骤719，控制单元100将笔触摸的位置配置为文本识别区域以选择其中的文本。此时，笔触摸可以是接触手势或者是悬停手势。随后，在步骤721，控制单元100分析选择的文本，根据分析结果显示文本数据和相应于文本数据的动作项。这里，动作项可以根据选择的文本是链接文本或者是普通文本变化动作项。在链接文本的情况下，动作项可被设置为如表1中总结的。如果用户选择动作项中的一个，则在步骤723，控制单元100执行相应于选择的动作项的动作。

图8A和图8B表示在图7的过程中显示的示例性屏幕图像：图8A表示选择电话号码的情况，图8B表示选择普通文本的情况。

参照图8A，如屏幕图像810所示，如果激活文本识别模式（获得文本），则控制单元100执行步骤713和715以识别在屏幕图像中的所有文本项。此时，若干识别的文本项可以在显示单元130上的特定区域（如顶部区域）显示。如屏幕图像820所示，如果用户用笔触摸手势选择文本项中的一个，则如屏幕图像830所示，控制单元100执行步骤719和721以显示选择的文本项的文本数据和若干相应于文本数据的动作项/可执行项，如果用户选择动作项中的一个，则执行相应于选择的动作项的动作。

参照图8B，如屏幕图像850所示，如果激活文本识别模式（获得文本），则控制单元100执行步骤713和715以识别在屏幕图像中的所有文本项。此时，若干识别的文本项可以在显示单元130的特定区域（如顶部区域）上显示。如屏幕图像860所示，如果用户用笔触摸手势选择文本项中的一个或者选择全部的识别的文本，则如屏幕图像870所示，控制单元100执行步骤719和721以显示选择的文本项的文本数据。可选地，可显示与文本数据相应的动作项/可执行项的列表以供用户进一步选择。

对于选择，如屏幕图像860所示，用户能够通过在对角方向上移动笔来选择多个文本项，从而如屏幕图像870所示，显示多个选择的文本项的文本数据。在这种情况下，可以在特定的位置（例如，在屏幕图像870的屏幕的顶部区域）处显示动作项。如果用户选择动作项中的一个（在屏幕图像870的情况下的网页搜索），则如屏幕图像880所示，控制单元100执行相应于选择的动作项的动作。

根据本发明的上述方法可以以硬件、固件来实现，或者被实现为能被存储在诸如CD ROM、RAM、软盘、磁光盘的记录介质上的软件或计算机代码，或者被实现为最初存储在远程记录介质或非暂态机器可读介质上、通过网络下载并存储在本地记录介质上的计算机代码，从而使本文中描述的方法可以使用通用计算机或专用处理器或诸如ASIC或FPGA的可编程或专用硬件在存储在记录介质上的这样的软件中被实施。正如本领域中所理解的，计算机、处理器、微处理器、控制器或可编程硬件包括可以存储或接收软件或计算机代码的存储器部件（例如，RAM、ROM、闪存等），当由计算机、处理器或硬件访问和执行时，处理器或者硬件实现本文中描述的处理方法。另外，应当认识到，当通用计算机访问用于实现本文中示出的处理的代码时，代码的执行将通用计算机转换为用于执行本文中示出的处理的专用计算机。

从上文中可以明显的看出，本发明的优点在于：在显示来自于照相机或者其他源的图像的屏幕上，简单的笔手势能够使用户激活一些功能，这些功能是响应于屏幕上的笔手势与选择的文本相关的功能。本发明的便携式终端能够响应于笔触摸手势，捕捉由照相机提供的预览图像作为静态图像，并且响应于后来的笔触摸手势配置触摸识别区域以便提高基于笔触摸的文本识别区域配置的精确度。

优选实施例的以上描述被提供用于使本领域的技术人员能够做出或者使用本发明。因此，为了帮助理解本发明，说明书和附图应被视为说明性的而非限制性的。对于本领域技术人员显而易见的是，在不脱离本发明更广泛的精神和范围下，可以做出各种修改和改变。

Claims

1.一种终端的文本识别方法，所述方法包括：

在终端的显示单元上显示由相机提供的预览图像；

响应于通过触摸面板检测到的悬停手势，捕捉预览图像作为静态图像；

响应于通过触摸面板检测到的触摸手势，在静态图像上配置识别区域；

识别在识别区域中的至少一个文本；

在显示单元上显示识别的文本和与识别的文本相应的能够执行的多个动作项的列表；以及

响应于选择所述多个动作项之一，执行与选择的动作项相应的动作，

其中，所述列表中所包括的所述多个动作项根据识别的文本的信息的特征而被不同地显示。

2.如权利要求1所述的文本识别方法，其中，通过在所述至少一个文本上、附近或下方绘线来限定识别区域。

3.如权利要求2所述的文本识别方法，其中，配置识别区域的步骤包括：当线绘在上方文本串和下方文本串之间时，将在线上方的上方文本串配置为识别区域的一部分。

4.如权利要求2所述的文本识别方法，其中，配置识别区域的步骤包括：当线绘在单词的至少一个字母的底部时，将该单词配置为识别区域的一部分。

5.一种终端的文本识别设备，包括：

相机；

触摸面板；

显示单元；

控制单元，被配置为：

控制显示单元显示由相机提供的预览图像；

识别在识别区域中的至少一个文本；

控制显示单元显示识别的文本和与识别的文本相应的能够执行的多个动作项的列表；以及

6.如权利要求5所述的文本识别设备，其中，通过在所述至少一个文本上、附近或下方绘线来限定识别区域。

7.如权利要求6所述的文本识别设备，其中，当线绘在上方文本串和下方文本串之间时，控制单元将线上方的上方文本串配置为识别区域的一部分。

8.如权利要求6所述的文本识别设备，其中，当线绘在单词的至少一个字母的底部时，控制单元将该单词配置为识别区域的一部分。