Nothing Special   »   [go: up one dir, main page]

CN104834645B - 用于展示版式文档的方法和装置 - Google Patents

用于展示版式文档的方法和装置 Download PDF

Info

Publication number
CN104834645B
CN104834645B CN201410047910.5A CN201410047910A CN104834645B CN 104834645 B CN104834645 B CN 104834645B CN 201410047910 A CN201410047910 A CN 201410047910A CN 104834645 B CN104834645 B CN 104834645B
Authority
CN
China
Prior art keywords
format
page
row
equipment
visual elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410047910.5A
Other languages
English (en)
Other versions
CN104834645A (zh
Inventor
何正军
陈国权
周必奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201410047910.5A priority Critical patent/CN104834645B/zh
Publication of CN104834645A publication Critical patent/CN104834645A/zh
Priority to HK15109914.7A priority patent/HK1209214A1/zh
Application granted granted Critical
Publication of CN104834645B publication Critical patent/CN104834645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本申请涉及一种用于展示版式文档的方法和装置。该方法包括:基于版式文档数据,生成版式文档中的每个版式页的图像;从每个版式页的图像中识别出每个版式行的可视元素区域;根据设备屏幕的尺寸,对所述每个版式行的可视元素区域进行重排,以生成用于展示版式文档的设备页。从而可以实现展示版式文档的通用方式,同时支持扫描版的版式文档和非扫描版的版式文档在移动终端设备上的流式展示,避免了用于重排后可视元素显示的渲染功能的开发和自适应重排引擎的重复开发,从而降低了开发成本,方便了用户的使用。另外,可以实现快速翻页,更加方便用户的使用和增强用户的阅读翻页体验。

Description

用于展示版式文档的方法和装置
技术领域
本申请涉及图像数据处理领域,更具体地涉及用于在移动终端设备上展示版式文档的方法和装置。
背景技术
随着无线互联网的蓬勃发展以及移动终端设备硬件水平的不断提升,利用移动终端设备进行阅读已经越来越普遍。由于大量优秀读物通常存在于纸质出版物或版式文档电子出版物中,所以如何让用户在移动终端设备上方便地阅读扫描版的版式电子文档和非扫描版的版式电子文档,已经成为当前研究的热点。
在现有解决方案中,是先从版式文档中提取出流式信息,以将版式文档转化为流式文档,再通过流式文档的显示装置进行显示,由此实现版式文档的流式显示。在申请号为200810114437.2的专利文献中描述了一种基于版式文件的文档流式信息处理方法。在该方法中从版式文件提取流式信息的过程为:获取版式文件的文档流式信息,所述文档流式信息为所述版式文件中文档内容结构信息和/或所述版式文件中文档版面自适应呈现信息;根据所述获得的文档流式信息,对所述版式文件的文档内容进行内容块划分;描述所述版式文件的内容块划分结果信息;根据所述内容块划分结果信息,描述基于内容块划分后的该版式文件的文档流式信息。
然而,从版式文档中提取出流式信息的方法需要在移动终端设备上开辟不少的硬盘空间用于保存文档流式信息、内容块划分信息、内容块划分结果信息,同时对于原有版式文档中存在的复杂数学公式、矢量图等在移动终端设备上的显示也需要实现相应的渲染功能,这为渲染功能的开发带来了较大的难度和工作量。
另外,由于针对扫描版的版式文档无法提取相应的流式信息,所以通常需要另外开发相应的自适应重排引擎,来对扫描版的版式文档进行自适应重排以在移动终端设备上展示。因而自适应重排引擎的开发带来了额外的工作量。
同时,由于扫描的版式文档保存的是每页的图像数据,而不是字符信息等数据的缘故,当前对于扫描版的版式文档的自适应重排都是实时计算重排位置信息,然后显示在移动终端设备上。这样会存在翻页时卡顿、甚至是较久的停顿现象。同时,进行快速地跳进和倒退时,只能从被跳进到的版式页开始重排分页,并且进行反复地跳进、后退等操作后会出现相同的内容出现在不同的设备页上的现象。
因此需要一种改进的用于在移动终端设备上展示版式文档的方案,来解决上述现有方案中存在的问题。
发明内容
本申请的目的就在于,提供一种改进的用于展示版式文档的技术,用以解决现有方案中针对扫描版的版式文档在移动终端设备上的自适应重排显示难度高、工作量大以及翻页时卡顿等的问题。
具体而言,根据本申请的一个方面,提供一种用于展示版式文档的方法,其特征在于,包括:基于版式文档数据,生成版式文档中的每个版式页的图像;从每个版式页的图像中识别出每个版式行的可视元素区域;根据设备屏幕的尺寸,对所述每个版式行的可视元素区域进行重排,以生成用于展示版式文档的设备页。
根据本申请的另一方面,提供一种用于展示版式文档的装置,其特征在于,包括:图像生成模块,用于基于版式文档数据,生成版式文档中的每个版式页的图像;图像识别模块,用于从每个版式页的图像中识别出每个版式行的可视元素区域;重排模块,用于根据设备屏幕的尺寸,对所述每个版式行的可视元素区域进行重排,以生成用于展示版式文档的设备页。
与现有技术相比,根据本申请的技术方案,通过基于图像识别处理技术实现版式文档的自适应重排,从而可以实现展示版式文档的通用方式,同时支持扫描版的版式文档和非扫描版的版式文档在移动终端设备上的流式展示,避免了用于重排后可视元素显示的渲染功能的开发和自适应重排引擎的重复开发,从而降低了开发成本,方便了用户的使用。
另外,根据本申请的技术方案,可以记录对版式文档的实时重排结果并根据作为重排结果的映射关系快速生成移动设备屏幕内容,从而可以实现快速翻页,更加方便用户的使用和增强用户的阅读翻页体验。并且,可以实现绝对的设备页分页,进而可以为日后开发从服务器端向客户端推送相同书籍的分页结果信息提供快速、便捷的分页机制。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了根据本申请一个实施例的用于展示版式文档的方法的流程图;
图2示出了根据本申请另一实施例的用于展示版式文档的方法的流程图;
图3示出了根据本申请又一实施例的用于展示版式文档的方法的流程图;
图4示出了根据本申请一个实施例的用于对版式文档进行自适应重排的方法的流程图;以及
图5示出了根据本申请一个实施例的用于展示版式文档的装置的结构框图。
具体实施方式
本申请的主要思想就在于,基于图像识别处理技术对版式文档进行自适应重排,由此提供版式文档展示的通用方式,可以同时支持扫描版的版式文档和非扫描版的版式文档在移动终端设备上的流式展示,避免了用于重排后可视元素显示的渲染功能的开发和自适应重排引擎的重复开发,从而降低了开发成本,方便了用户的使用。
另外,本申请的思想还在于,通过记录实时重排结果(即,存储可视元素区域从版式页到设备页的位置映射关系)并根据映射关系快速生成移动设备屏幕内容(设备页),实现快速翻页,更加方便用户的使用并且为用户提供流畅的阅读翻页体验。并且,由此可以实现绝对的设备页分页,同时也可以为日后开发从服务器向客户端推送相同书籍的分页结果信息提供快速、便捷的分页机制。
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参照图1,图1示出了根据本申请一个实施例的用于展示版式文档的方法100的流程图。
如图1所示,在步骤S110处,基于版式文档数据,生成版式文档中的每个版式页的图像。
具体而言,本申请的方法基于图像识别处理技术,因此需要获取版式文档的图像数据以供后续自适应重排使用。根据本申请的一个实施例,可以基于版式文档的保存数据,获取版式文档中每个版式页的BMP位图图像。当然,本申请并不限于此,而是可以采用本领域已知或未来开发的其它任意合适图像数据类型。
通常,针对非扫描版的版式文档保存的是字符信息字节流数据或图像数据,而扫描版的版式文档保存的是图像数据。根据本申请的实施例,不管哪种版式文档,都需要获取该版式文档中每个版式页的位图图像。例如,可以通过对版式文档的解析和渲染,生成相应的位图图像。在一个具体实施例中,为了满足不同移动终端设备上不同分辨率(DPI)屏幕上设置显示字体大小的功能,可以在生成不同尺寸大小的位图时保持相当的清晰度。例如,PDF版式文档的默认分辨率分别为72ppi(pixels per Inch,每英寸拥有的像素数目),而ipad3、ipad4等高清视网膜屏的分辨率为264ppi,如果需要在高清视网膜屏显示和PDF版式文档中一样的文字大小,则需要首先将PDF的每页渲染出来的位图放大(264/72=3.67)倍。
接下来,在步骤S120处,从每个版式页的图像中识别出每个版式行的可视元素区域。
具体而言,按照版式文档的行文方向,对各个版式页逐个地进行重排处理。在针对每个版式页的图像处理中,同样按照行文方向逐行地进行重排处理。更具体地,可以通过本领域已知或未来开发的任意合适图像识别技术,来识别每个版式行的可视元素区域。在本文中,可视元素区域广义上讲是指版式文档中需展示给读者/用户的内容部分,狭义上讲通常是指版式文档中的正文内容部分,例如可以包括文本行、图、表等可视元素的几何区域。后续结合图2会对此进行更详细描述。
接下来,在步骤S130处,根据设备屏幕的尺寸,对每个版式行的可视元素区域进行重排,以生成用于展示版式文档的设备页。
具体而言,可以根据设备屏幕的宽度,将每个版式行的可视元素区域按照行文方向一部分一部分地进行重新排列,形成新的设备行,以适应设备屏幕的宽度。按照版式行是否是版式段落的首行,确定是否在下一设备行继续该版式行的重排。当当前版式行是段落首行时,在下一设备行中缩进状态下对该版式行的可视元素区域开始重排,否则在当前设备行中继续重排。由此可以将各个版式行的可视元素区域按照行文方向重排成多个设备行。然后根据设备屏幕的高度,将所重排出的多个设备行切分到一个或多个设备页中,以适应设备屏幕的显示。由此可以确定出各版式行的可视元素区域在设备页中的设备行的具体位置,从而可以生成相应的设备页,用于在移动终端设备上自适应地展示版式文档。
至此结合图1描述了根据本申请一个实施例的用于展示版式文档的方法,其中通过图像识别处理技术实现对任意版式文档的自适应重排,由此可以实现展示版式文档的通用方式,进而降低开发成本,并且方便了用户的使用。
图2示出了根据本申请另一实施例的用于展示版式文档的方法200的流程图。如图2所示,方法200包括步骤S210至S240,其中步骤S210和步骤S220的处理类似于前面结合图1描述的步骤S110和S120,因此这里不再赘述。下面仅针对本实施例与前一实施例的不同之处即步骤S230和S240进行描述。
在步骤S230处,根据设备屏幕的宽度和高度,对每个版式行的可视元素区域进行重排,以确定可视元素区域从版式页到设备页的位置映射关系。
具体而言,在本实施例中,通过根据设备屏幕的宽度和高度,对各版式行的可视元素区域进行自适应重排,并记录可视元素区域从版式页到设备页的位置映射关系。
然后,在步骤S240处,根据位置映射关系,生成用于展示版式文档的设备页。
应注意到,本申请的自适应重排可以是在实时操作过程中进行的。也就是说,可以在进行自适应重排并实时记录自适应重排结果的同时,根据记录结果生成所需的设备页。
与现有技术中响应于翻页请求实时执行自适应重排的过程不同,本申请实施例的方案在于,可以利用用户阅读当前设备页的时间(通常阅读一个设备页需要花费1秒到几秒,甚至几分钟的时间),对后续的版式页进行自适应重排并记录自适应重排结果,并且当用户进行翻页时,可以直接利用记录的结果生成用户所需的设备页,而不需要进行耗时的重排计算。由此可以保证快速翻页,同时也为快进、后翻、前翻等复杂组合翻页等操作结果的一致性提供了保障。从而,可以针对相同规格的设备屏幕和相同的版式页,从服务器端获取分页结果信息,从而可以实现高效便捷的分页、翻页效果,更加方便用户的使用。
下面结合图3和图4描述根据本申请更具体实施例的用于展示版式文档的方法。
参照图3,图3示出了根据本申请另一实施例的用于展示版式文档的方法300的流程图。
在步骤S310处,确定每个版式页的版心区域。
根据本申请的实施例,可以通过以下步骤来确定版式页的版心区域:识别并去除版式页的边白部分;识别并去除版式页的页眉和页脚部分;以及基于与背景色的比较,确定版式页的版心区域。
具体而言,可以将获取到的版式文档页图像,如BMP位图,通过与检测到的背景色的比较,不断从上下左右四个方向向里逼近,确定版心的位置区域,从而确定该位置区域为后续图像处理的起止区域。
更具体地,通过对版式页的背景色的检测,然后通过与背景色的比较,检测出边白部分并去除该边白部分。同时,可以通过在版式文档的图像中检测出出现在通常的版心以外区域(根据经验值获取)并且可以将在位置上具有较大相似性(一般至少在奇数和偶数页保持一致)的文本行,作为页眉和/或页脚,并将其剔除,不显示在最终的设备页上。这样就可以较好的确定设备页,而不会产生中间插入页眉、页脚的不美观的效果。然后,继续从上下左右四个方向向里逼近,通过与背景色的比较,确定出版心区域。该版心区域中通常包括版式页的正文内容部分。
在步骤S320处,从版心区域中确定每个版式行的可视元素区域。也就是说,识别版心区域中的每个版式行,版式行中包括将展示给读者/用户的可视元素区域。
根据本申请的一个实施例,可以通过图像的直方图分析等图像处理手段,检测出文本行、图、表等可视元素的几何区域,即可视元素区域。
在步骤S330处,将每个版式行的可视元素区域划分成一个或多个可切分子区域。
具体地,可以按照行文方向(通常是从左到右),针对各个版式行逐个地进行自适应重排。更具体而言,针对每个版式行的可视元素区域,可以识别出一个或多个可切分子区域。可切分子区域是指可视元素区域中所有的可进行重排切分的区域。例如,可以是指文本行中的文字区域,即文字间的空白间隔区之间的区域。
应理解到,这里的可切分子区域的宽度可以根据需要任意设置。根据本申请的优选实施例,可切分子区域可以是可进行重排切分的最小区域。例如,如果是图表等可视元素区域,则其最小可切分子区域是其本身。如果是文本行等可视元素区域,则其最小可切分子区域可以是容纳单个文字、符号等的最小矩形区域。
然后在步骤S340处,根据设备屏幕的宽度和可切分子区域的宽度,确定可切分子区域的设备行位置信息。
具体而言,可以按照行文方向,对版式行中的各个可切分子区域进行自适应重排。更具体地,可以将待重排的可切分子区域的宽度与当前设备行的剩余宽度进行比较,来判断当前设备行是否还能容纳该可切分子区域,如果不能容纳,则将可切分子区域容纳在下一设备行中,以此类推,对版式行中所有的可切分子区域自适应重排到相应设备行的相应位置。稍后将结合图4对此进行更详细描述。
并且,根据本申请的实施例,可以在针对每个版式行进行自适应重排之前,判断当前版式行是否为版式段落的首行。如果是,则在下一设备行中开始对当前版式行的可视元素区域进行自适应重排。如果否,则在当前设备行中开始对当前版式行的可视元素区域进行自适应重排。以此可以实现不同版式页在设备页上的无缝接续。
通过步骤S340,可以将版式行中的各可切分子区域重排到一个或多个设备行中,从而可以确定可切分子区域在设备行中的位置信息。
接下来,在步骤S350处,根据设备屏幕的高度,确定可切分子区域的设备页位置信息。
也就是说,在步骤S340中将可视元素区域重排到一个或多个设备行中之后,可以根据设备屏幕的高度,将这些设备行切分到一个或多个设备页中,以适应设备屏幕的高度限制,方便用户的阅读。由此可以确定出可切分子区域的设备页中的位置信息。
然后,在步骤S360处,存储可切分子区域的设备行位置信息和设备页位置信息,作为可视元素区域从版式页到设备页的位置映射关系。
优选地,可以将位置映射关系保存在二进制数据文件中。这样就可以避免保存映射数据时需要进行结果数据的封装,获取映射数据时进行解析,同时可以减少文件的尺寸。当然,也可以在其他类似XML的文件中保存位置映射关系。本申请对位置映射关系的存储方式并不作任何限制。
在步骤S370处,可以根据存储的位置映射关系生成用于展示版式文档的所需设备页。
具体地,在实时操作过程中,当接收到针对后续设备页的翻页请求时,响应于该翻页请求,可以根据预先存储的位置映射关系,通过将版式页中的相应可视元素区域拷贝到设备页的相应位置中,即可生成与翻页请求对应的设备页。在一种优选实施例中,可根据可切分子区域的映射位置,将多个可切分子区域一次或多次地拷贝到设备页的相应位置中。从而避免了耗时的实时自适应重排计算过程,可以实现快速翻页,方便用户的使用并且增强了用户的翻页体验。
下面结合图4详细描述根据本申请实施例的对版式文档进行自适应重排的过程。参照图4,图4示出了根据本申请一个实施例的用于对版式文档进行自适应重排的方法400的流程图。
在步骤S410处,将当前版式行的可视元素区域划分成一个或多个可切分子区域。该步骤的处理类似于前面结合图3描述的步骤S330,这里不再赘述。
在划分成可切分子区域之后,针对各可切分子区域进行自适应重排。具体地,在步骤S420处,判断当前可切分子区域的宽度是否小于等于设备屏幕的宽度。在一种优选实施例中,设备屏幕的宽度可以是指不包括边白部分的有效显示区域宽度。
如果在步骤S420处判定当前可切分子区域的宽度大于设备屏幕的宽度,则进入步骤S430,缩小当前可切分子区域,直到小于等于设备屏幕的宽度为止之后,再对缩小后的可切分子区域进行自适应重排。即,在步骤S430后,进入步骤S440。
如果在步骤S420处判定当前可切分子区域的宽度小于等于设备屏幕的宽度,则进入步骤S440。
在步骤S440处,判断当前设备行的剩余宽度是否能够容纳当前可切分子区域。
如果在步骤S440处判定当前设备行的剩余宽度不能容纳下当前可切分子区域,则进入步骤S450,将下一设备行作为当前设备行继续进行重排,即返回步骤S440继续重排。
如果在步骤S440处判定当前设备行的剩余宽度能够容纳下当前可切分子区域,则进入步骤S460。
在步骤S460处,判断是否还存在当前版式行的可切分子区域。
如果在步骤S460处判定还存在当前版式行的可切分子区域,则进入步骤S470,获取下一可切分子区域作为当前可切分子区域继续进行重排,即返回步骤S440继续针对下一可切分子区域进行重排。
如果在步骤S460处判定不存在当前版式行的可切分子区域,则进入步骤S480,判断是否还存在下一版式行。
如果在步骤S480处判定还存在下一版式行,则进入步骤S490,切换到下一版式行继续进行重排,即,返回步骤S401继续针对下一版式行的可视元素区域进行重排。
根据本申请的实施例,在针对每个版式行进行重排之前,可以判断该版式行是否为版式段落的首行。如果是,则在下一设备行中缩进状态下开始对该版式行的自适应重排。如果否,则在当前设备行中开始对该版式行的自适应重排。由此确保实现不同版式页在设备页上的无缝接续。
如果在步骤S480处判定不存在下一版式行,则整个重排流程结束。
以上结合图1至图4描述了根据本申请实施例的用于展示版式文档的方法。与上述用于展示版式文档的方法类似,本申请实施例还提供相应的用于展示版式文档的装置。
参照图5,图5示出了根据本申请一个实施例的用于展示版式文档的装500的结构框图。
如图5所示,装置500可以包括图像生成模块510、图像识别模块520和重排模块530。
具体而言,图像生成模块510可以用于基于版式文档数据,生成版式文档中的每个版式页的图像。图像识别模块520可以用于从每个版式页的图像中识别出每个版式行的可视元素区域。重排模块530可以用于根据设备屏幕的尺寸,对每个版式行的可视元素区域进行重排,以生成用于展示版式文档的设备页。
根据本申请的实施例,图像识别模块520可以进一步包括:第一确定子模块,用于确定每个版式页的版心区域;以及第二确定子模块,用于从所述版心区域中确定每个版式行的可视元素区域。
根据本申请的更具体实施例,第一确定子模块可以进一步包括:第一识别和去除子模块,用于识别并去除版式页的边白部分;第二识别和去除子模块,用于识别并去除版式页的页眉和页脚部分;以及版心确定子模块,用于基于与背景色的比较,确定版式页的版心区域。
根据本申请的实施例,重排模块530可以进一步包括:映射关系确定子模块,用于根据设备屏幕的宽度和高度,对所述每个版式行的可视元素区域进行重排,以确定所述可视元素区域从所述版式页到设备页的位置映射关系;以及设备页生成子模块,用于根据所述位置映射关系,生成用于展示版式文档的设备页。
根据本申请的更具体实施例,映射关系确定子模块可以进一步包括:划分子模块,用于将当前版式行的所述可视元素区域划分成一个或多个可切分子区域;第一位置确定子模块,用于根据设备屏幕的宽度和所述可切分子区域的宽度,确定所述可切分子区域的设备行位置信息;第二位置确定子模块,用于根据设备屏幕的高度,确定所述可切分子区域的设备页位置信息;以及存储子模块,用于存储所述可切分子区域的所述设备行位置信息和所述设备页位置信息,作为所述可视元素区域从版式页到设备页的位置映射关系。
根据本申请的更具体实施例,设备页生成子模块可以进一步包括:复制子模块,用于根据存储的所述位置映射关系,通过将版本页中包括的可切分子区域的图像数据复制到设备页的相应位置,生成与所述翻页请求对应的设备页。
根据本申请的更具体实施例,第一位置确定子模块可以进一步包括检测子模块,用于:当当前可切分子区域的宽度小于等于设备屏幕的宽度时,检测当前设备行的剩余宽度是否能够容纳可视元素区域中的当前可切分子区域;如果否,则在下一设备行中容纳所述当前可切分子区域;以及如果是,则继续检测容纳所述当前可切分子区域后当前设备行的剩余宽度是否能够容纳可视元素区域中的行文方向上的下一可切分子区域。
根据本申请的更具体实施例,第一位置确定子模块可以进一步包括缩小子模块,用于:当当前可切分子区域的宽度大于设备屏幕的宽度时,将当前可切分子区域缩小,直至当前可切分子区域的宽度小于等于设备屏幕的宽度为止。
根据本申请的更具体实施例,映射关系确定子模块可以进一步包括判断子模块,用于:判断当前版式行是否为当前版式段落的首行;如果否,则在当前设备行中开始对当前版式行的可视元素区域进行重排;以及如果是,则在下一设备行中开始对当前版式行的可视元素区域进行重排。
至此描述了根据本申请实施例的用于展示版式文档的装置。以上描述的用于展示版式文档的装置与之前描述的用于展示版式文档的方法的处理是对应的,因此,关于其具体细节,可以参见之前描述的用于展示版式文档的方法,这里不再赘述。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域内的技术人员应明白,本申请的实施例可提供为方法、设备、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (9)

1.一种用于展示版式文档的方法,其特征在于,包括:
基于版式文档数据,生成版式文档中的每个版式页的图像;
从每个版式页的图像中识别出每个版式行的可视元素区域;
根据设备屏幕的宽度和高度,对所述每个版式行的可视元素区域进行重排,以确定所述可视元素区域从所述版式页到设备页的位置映射关系;以及根据所述位置映射关系,生成用于展示版式文档的设备页。
2.根据权利要求1所述的方法,其特征在于,从每个版式页的图像中识别出每个版式行的可视元素区域的步骤,进一步包括:
确定每个版式页的版心区域;以及
从所述版心区域中确定每个版式行的可视元素区域。
3.根据权利要求2所述的方法,其特征在于,确定每个版式页的版心区域的步骤,进一步包括:
识别并去除版式页的边白部分;
识别并去除版式页的页眉和页脚部分;以及
基于与背景色的比较,确定版式页的版心区域。
4.根据权利要求1所述的方法,其特征在于,根据设备屏幕的宽度和高度对每个版式行的可视元素区域进行重排以确定所述可视元素区域从所述版式页到设备页的位置映射关系的步骤,进一步包括:
将当前版式行的所述可视元素区域划分成一个或多个可切分子区域;
根据设备屏幕的宽度和所述可切分子区域的宽度,确定所述可切分子区域的设备行位置信息;
根据设备屏幕的高度确定所述可切分子区域的设备页位置信息;以及
存储所述可切分子区域的所述设备行位置信息和所述设备页位置信息,作为所述可视元素区域从版式页到设备页的位置映射关系。
5.根据权利要求1所述的方法,其特征在于,根据所述位置映射关系,生成用于展示版式文档的设备页的步骤,进一步包括:
根据存储的所述位置映射关系,通过将版本页中包括的可切分子区域的图像数据复制到设备页的相应位置,生成用于展示版式文档的所需设备页。
6.根据权利要求4所述的方法,其特征在于,根据设备屏幕的宽度和所述可切分子区域的宽度,确定所述可切分子区域的设备行位置信息的步骤,进一步包括:
当当前可切分子区域的宽度小于等于设备屏幕的宽度时,检测当前设备行的剩余宽度是否能够容纳可视元素区域中的当前可切分子区域;
如果否,则在下一设备行中容纳所述当前可切分子区域;以及
如果是,则继续检测容纳所述当前可切分子区域后当前设备行的剩余宽度是否能够容纳可视元素区域中的行文方向上的下一可切分子区域。
7.根据权利要求4所述的方法,其特征在于,根据设备屏幕的宽度和所述可切分子区域的宽度,确定所述可切分子区域的设备行位置信息的步骤,进一步包括:
当当前可切分子区域的宽度大于设备屏幕的宽度时,将当前可切分子区域缩小,直至当前可切分子区域的宽度小于等于设备屏幕的宽度为止。
8.根据权利要求4所述的方法,其特征在于,根据设备屏幕的宽度和高度对每个版式行的可视元素区域进行重排以确定所述可视元素区域从所述版式页到设备页的位置映射关系的步骤,进一步包括:
判断当前版式行是否为当前版式段落的首行;
如果否,则在当前设备行中开始对当前版式行的可视元素区域进行重排;以及
如果是,则在下一设备行中开始对当前版式行的可视元素区域进行重排。
9.一种用于展示版式文档的装置,其特征在于,包括:
图像生成模块,用于基于版式文档数据,生成版式文档中的每个版式页的图像;
图像识别模块,用于从每个版式页的图像中识别出每个版式行的可视元素区域;
重排模块,用于根据设备屏幕的宽度和高度,对所述每个版式行的可视元素区域进行重排,以确定所述可视元素区域从所述版式页到设备页的位置映射关系;以及根据所述位置映射关系,生成用于展示版式文档的设备页。
CN201410047910.5A 2014-02-11 2014-02-11 用于展示版式文档的方法和装置 Active CN104834645B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410047910.5A CN104834645B (zh) 2014-02-11 2014-02-11 用于展示版式文档的方法和装置
HK15109914.7A HK1209214A1 (zh) 2014-02-11 2015-10-12 用於展示版式文檔的方法和裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410047910.5A CN104834645B (zh) 2014-02-11 2014-02-11 用于展示版式文档的方法和装置

Publications (2)

Publication Number Publication Date
CN104834645A CN104834645A (zh) 2015-08-12
CN104834645B true CN104834645B (zh) 2019-04-02

Family

ID=53812541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410047910.5A Active CN104834645B (zh) 2014-02-11 2014-02-11 用于展示版式文档的方法和装置

Country Status (2)

Country Link
CN (1) CN104834645B (zh)
HK (1) HK1209214A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718437A (zh) * 2016-01-19 2016-06-29 《中国学术期刊(光盘版)》电子杂志社有限公司 电子档版式文件在小屏幕设备智能分版的方法及装置
CN105512647A (zh) * 2016-01-19 2016-04-20 同方知网(北京)技术有限公司 扫描版文件在小屏幕设备智能分版的方法及装置
CN107291682B (zh) * 2016-03-30 2020-12-08 同方知网(北京)技术有限公司 一种基于跳转处理及双重校验的多篇电子文档分篇算法
CN107678635A (zh) * 2016-08-01 2018-02-09 广州市动景计算机科技有限公司 电子设备的页面展现方法和装置
CN107678636A (zh) * 2016-08-01 2018-02-09 广州市动景计算机科技有限公司 电子设备的页面展现方法和装置
CN106303133B (zh) * 2016-08-11 2019-03-29 广东小天才科技有限公司 一种图书页面的扫描控制方法及装置、扫描设备
CN108733643A (zh) * 2017-04-25 2018-11-02 北大方正集团有限公司 基于版心的pdf文件对比的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101169777A (zh) * 2007-11-13 2008-04-30 无锡永中科技有限公司 实现文字处理软件版式兼容的方法
CN101540041A (zh) * 2008-03-21 2009-09-23 中国科学院计算技术研究所 一种扫描文档浏览适配方法
CN101923723A (zh) * 2009-06-16 2010-12-22 汉王科技股份有限公司 实现电子文档显示的方法
CN102479215A (zh) * 2010-11-30 2012-05-30 汉王科技股份有限公司 文件自动导出的方法及电子阅读装置
CN103116604A (zh) * 2013-01-15 2013-05-22 北京天智通达信息技术有限公司 一种数字阅读格式到数字多维度多媒体(dmm)格式的转换方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101169777A (zh) * 2007-11-13 2008-04-30 无锡永中科技有限公司 实现文字处理软件版式兼容的方法
CN101540041A (zh) * 2008-03-21 2009-09-23 中国科学院计算技术研究所 一种扫描文档浏览适配方法
CN101923723A (zh) * 2009-06-16 2010-12-22 汉王科技股份有限公司 实现电子文档显示的方法
CN102479215A (zh) * 2010-11-30 2012-05-30 汉王科技股份有限公司 文件自动导出的方法及电子阅读装置
CN103116604A (zh) * 2013-01-15 2013-05-22 北京天智通达信息技术有限公司 一种数字阅读格式到数字多维度多媒体(dmm)格式的转换方法

Also Published As

Publication number Publication date
HK1209214A1 (zh) 2016-03-24
CN104834645A (zh) 2015-08-12

Similar Documents

Publication Publication Date Title
CN104834645B (zh) 用于展示版式文档的方法和装置
CN104281626B (zh) 基于图片化处理的网页展示方法及网页展示装置
JP5658986B2 (ja) 電子書籍表示装置、方法およびプログラム
US20190197309A1 (en) Method for entering text based on image
CN105843800A (zh) 一种基于doi的语言信息展示方法及装置
CN111859865A (zh) 用于转换pdf文档的方法、装置、终端及介质
CN108089865A (zh) 应用裁剪方法、装置及存储介质
CN105094753A (zh) 一种线框图的绘制方法、装置和系统
CN109271607A (zh) 用户页面布局检测方法和装置、电子设备
JP5565130B2 (ja) 縮小画像生成装置及びプログラム
CN114359533B (zh) 一种基于页面文本的页码识别方法和计算机设备
US9798724B2 (en) Document discovery strategy to find original electronic file from hardcopy version
CN113591827B (zh) 文本图像的处理方法、装置、电子设备及可读存储介质
JP5984880B2 (ja) 画像処理装置
US9779263B2 (en) Access right estimation apparatus and non-transitory computer readable medium
CN108804652B (zh) 封面图片的生成方法、装置、存储介质和电子装置
JP7037180B2 (ja) 学習用データ判別装置および学習用データ判別プログラム
JP2017084304A (ja) 画像表示装置、画像表示方法
US8705871B2 (en) Form image managing system and method
CN102346771A (zh) 信息展现方法及装置
US9224305B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium storing information processing program
US11206336B2 (en) Information processing apparatus, method, and non-transitory computer readable medium
JP6606885B2 (ja) 画像処理装置及び画像処理プログラム
CN110929479A (zh) 转换pdf扫描件的方法、装置、电子设备及存储介质
US9170725B2 (en) Information processing apparatus, non-transitory computer readable medium, and information processing method that detect associated documents based on distance between documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1209214

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant