Nothing Special   »   [go: up one dir, main page]

DE102012216165A1 - Method for providing print media content in digital format for mobile display device, involves optimizing print media contents for specific display device by converting portable document format data files - Google Patents

Method for providing print media content in digital format for mobile display device, involves optimizing print media contents for specific display device by converting portable document format data files Download PDF

Info

Publication number
DE102012216165A1
DE102012216165A1 DE102012216165A DE102012216165A DE102012216165A1 DE 102012216165 A1 DE102012216165 A1 DE 102012216165A1 DE 102012216165 A DE102012216165 A DE 102012216165A DE 102012216165 A DE102012216165 A DE 102012216165A DE 102012216165 A1 DE102012216165 A1 DE 102012216165A1
Authority
DE
Germany
Prior art keywords
print media
mobile display
display device
digital
display devices
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102012216165A
Other languages
German (de)
Inventor
Ludwig Neer
Alexander Meyer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeserAuskunft GmbH
Original Assignee
LeserAuskunft GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeserAuskunft GmbH filed Critical LeserAuskunft GmbH
Priority to DE102012216165A priority Critical patent/DE102012216165A1/en
Publication of DE102012216165A1 publication Critical patent/DE102012216165A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

The text, picture and/or layout information of print media are converted into digital format by generating PDFdata files of the print media. The digital format is converted by mobile display devices and operating system using optical character recognition (OCR) engine to optimize the print media contents for specific display device.

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Bereitstellen von Printmedien-Inhalten in digitaler Form für mobile Anzeigegeräte nach dem Oberbegriff des Patentanspruchs 1. The present invention relates to a method for providing print media content in digital form for mobile display devices according to the preamble of patent claim 1.

Inhalte von klassischen Printmedien, wie Zeitungen, Zeitschriften, Magazinen und Büchern, werden zunehmend in elektronischer Form bezogen und an mobilen Anzeigegeräten, wie Smartphones, Tablet-Computern, E-Book-Readern und dergleichen gelesen. Content from traditional print media, such as newspapers, magazines, magazines and books, is increasingly being sourced in electronic form and read on mobile displays such as smartphones, tablet computers, e-book readers and the like.

Bei vielen Printmedien ist allerdings nicht nur der eigentliche Textinhalt, sondern auch das Layout der einzelnen Seiten wichtig, sei es als Gestaltungsmerkmal, wie insbesondere bei Zeitschriften, oder sei es als Hilfe für den Leser, die ihn interessierende Information leichter zugänglich zu machen, wie dies insbesondere bei klassischen Zeitungen der Fall ist. For many print media, however, not only the actual text content, but also the layout of the individual pages is important, be it as a design feature, especially for magazines, or as an aid to the reader to make the information he or she is interested in more accessible, like this especially in classic newspapers is the case.

Die Darstellung von interessierenden Printmedienseiten als Bilddatei, etwa im pdf-Format, stößt bei vielen mobilen Anzeigegeräten auf Schwierigkeiten, weil deren Prozessoren einen wünschenswert schnellen Bildaufbau nicht ermöglichen, oder weil die Fläche des Displays, etwa bei Smartphones zu klein ist, um die Inhalte für den Leser im Original-Layout in handhabbarer Art und Weise zugänglich zu machen. Werden stattdessen vom mobilen Anzeigegerät die Textinhalte und gegebenenfalls auch Bildinhalte von Printmedien konvertiert und angezeigt, geht hierbei das Layout verloren. Mit Layout ist in diesem Zusammenhang nicht nur die grundsätzliche Gestaltung einer Printmedienseite gemeint, sondern auch Schriftart, Schriftgröße, Schriftfarbe, Anordnung von Texten, Überschriften und dergleichen, die für das Erscheinungsbild und die Zugänglichkeit der Information von großer Wichtigkeit sind. The presentation of interesting print media pages as an image file, such as in pdf format, encounters difficulties in many mobile display devices because their processors do not allow a desirable fast image or because the surface of the display, for example, is too small for smartphones to the content for to make the reader accessible in the original layout in a manageable manner. If instead of this the mobile display device converts and displays the text contents and possibly also image contents of print media, the layout will be lost. With layout in this context is meant not only the basic design of a print media page, but also font, font size, font color, arrangement of texts, headings and the like, which are of great importance for the appearance and accessibility of the information.

Große Verlage erstellen daher für die von ihnen vertriebenen Printmedien eigens Dateien mit digitalen Darstellungsinformationen, insbesondere im XML-Format, die neben den Inhalten auch Steuerbefehle für die spezifischen Anzeigegeräte enthalten, so dass entsprechende Dateien über Internet-Plattformen vertrieben und den Anzeigegerät-Nutzern zum Herunterladen angeboten werden können. Mit Hilfe dieser Darstellungsinformationen können die mobilen Anzeigegeräte die entsprechenden Printmedien-Inhalte in einer dem Betriebssystem und dem Darstellungsformat angepassten Form darstellen, so dass der Leser keine Nachteile gegenüber physischen Printmedien mehr hat. Large publishers, therefore, specifically create files with digital representation information, in particular in XML format, for the print media they distribute, which in addition to the content also contain control commands for the specific display devices, so that corresponding files are distributed via Internet platforms and downloadable to display device users can be offered. With the help of this presentation information, the mobile display devices can display the corresponding print media content in a form adapted to the operating system and the presentation format so that the reader no longer has any disadvantages compared to physical print media.

Für kleine Verlage, die Bücher oder Zeitschriften in kleinen Auflagen vertreiben oder die regionale Zeitungen, Amtsblätter und dergleichen herstellen, und die für die Vielfalt der Printmedien-Landschaft unverzichtbar sind, ist jedoch der Aufwand zu groß, für die existierende Mehrzahl von mobilen Anzeigegeräten jeweils spezifisch angepasste digitale Darstellungsinformationen und Darstellungsdateien zu generieren bzw. bereitzustellen. Damit droht der sogenannte E-Paper / E-Book-Markt gegenüber dem klassischen Printmedien-Markt zu verarmen, so dass zum einen mobile Anzeigegeräte nur Zugriff auf einen Teil der Printmedien haben und zum anderen ein Konzentrierungsprozess, der nicht durch Nachfrage gesteuert ist, stattfindet. However, for small publishers who distribute books or magazines in small editions, or who produce regional newspapers, official journals, and the like, and who are indispensable to the diversity of the print media landscape, the expense is too great, specific to the existing plurality of mobile display devices to generate or provide customized digital presentation information and presentation files. This threatens to impoverish the so-called e-paper / e-book market compared to the traditional print media market, so that mobile display devices only have access to some of the print media and a concentration process that is not controlled by demand takes place ,

Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren zum Bereitstellen von Printmedien-Inhalten in digitaler Form für mobile Anzeigegeräte zu schaffen, das den freien Zugang zu diesem Markt auch für kleine und kleinste Verlage ermöglicht. The present invention is therefore based on the object of providing a method for providing print media content in digital form for mobile display devices, which enables free access to this market even for small and very small publishers.

Gelöst ist diese Aufgabe durch ein Verfahren mit den Merkmalen des Anspruchs 1. Bevorzugte Ausgestaltungen des erfindungsgemäßen Verfahrens finden sich in den Ansprüchen 2 bis 8. This object is achieved by a method having the features of claim 1. Preferred embodiments of the method according to the invention can be found in claims 2 to 8.

Als ersten Schritt zur Lösung des gegebenen Problems schlägt die vorliegende Erfindung also vor, zum Konvertieren der interessierenden Printmedien-Seiten in digitale Darstellungsinformationen die Druck-pdf-Dateien der interessierenden Seiten zu verwenden. Solche Druck-pdf-Dateien liegen heutzutage grundsätzlich bei allen Printmedien vor, da diese Dateien für die Steuerung der Druckmaschinen zur Herstellung der Printmedien verwendet werden. Mit dem erfindungsgemäßen Verfahren ist es also nicht notwendig, dass die Verlage spezielle Darstellungsdateien erzeugen und bereitstellen. As a first step in solving the given problem, therefore, the present invention proposes to use the print pdf files of the pages of interest for converting the print media pages of interest into digital representation information. Nowadays, such print pdf files basically exist in all print media, since these files are used for the control of the printing presses for the production of the print media. With the method according to the invention, it is therefore not necessary that the publishers generate and provide special presentation files.

Als zweiten Schritt zur Lösung des Problems werden die Druck-pdf-Dateien erfindungsgemäß mittels einer OCR-Engine, also dem Kern einer Texterkennungs-Software, analysiert und so die Texte aus den pdf-Dateien ausgelesen sowie gleichzeitig Informationen über die Farben, Schriftgrößen, Anordnungen, bzw. Format- und Layoutinformationen gewonnen. Liegen die Informationen in der Druck-pdf-Datei nur als Vektorgrafik vor, so werden durch die Bearbeitung mittels einer OCR-Engine wieder editierbare digitale Text-, Bild- und Layoutinformationen daraus gewonnen, die in digitale Darstellungsinformationen konvertiert werden können. Diese können den unterschiedlichen mobilen Anzeigegeräten angepasst werden, so dass diese die interessierenden Printmedien-Inhalte in leserfreundlicher Form, und gegebenenfalls vom Leser selbst am Gerät veränderbar, darstellen können. As a second step to solve the problem, the print pdf files according to the invention by means of an OCR engine, so the core of a text recognition software, analyzed and read the texts from the pdf files and at the same time information about the colors, font sizes, arrangements , or format and layout information won. If the information in the print pdf file is only available as a vector graphic, editing with an OCR engine produces editable digital text, image and layout information that can be converted into digital representation information. These can be adapted to the different mobile display devices, so that they can present the print media contents of interest in a reader-friendly form, and possibly changeable by the reader himself on the device.

Hierbei ist auch eine personalisierte Auswahl von einzelnen Teilen der Printmedien-Inhalte möglich, da die OCR-Engine recherchierbare Daten bereitstellt. Here, a personalized selection of individual parts of the print media content is possible because the OCR engine provides searchable data.

Pdf-Dokumente waren ursprünglich dazu gedacht, Dokumente Dritten elektronisch zur Verfügung zu stellen, ohne dass diese die Dokumente ändern können. Pdf-Dateien sind daher an eine feste Seitengröße gebunden, die nachträglich nicht mehr veränderbar ist. Außerdem werden darin enthaltene Texte nicht relativ, sondern absolut im Dokument positioniert. Dies geht soweit, dass einzelne Wörter und Textzeichen bzw. Buchstaben einzeln, absolut auf eine Seite bezogen definiert werden. PDF documents were originally intended to make documents available to third parties electronically, without them being able to change the documents. Pdf files are therefore bound to a fixed page size that can not be changed afterwards. In addition, texts contained therein are not relative but absolutely positioned in the document. This goes so far that individual words and text characters or letters are defined individually, absolutely on one page.

Wenn Dokumente, die in einem Textverarbeitungsprogramm oder einem Satzprogramm erstellt worden sind, in eine pdf-Datei umgewandelt werden, gehen wichtige Informationen, wie beispielsweise Daten zu Seiten, Spalten, Absätzen, verwendete Schriftarten, Schriftgrößen und Schriftfarben verloren. Des Weiteren gehen Informationen verloren, wie diejenige, ob eine Zeile endet, weil in einer Spalte oder allgemein auf einer Seite ein neuer Absatz durch den Autor erzwungen und begonnen wurde, oder ob das Ende einer Zeile erreicht ist und die Software selbständig einen automatischen Zeilenumbruch vornimmt. When documents created in a word processing program or sentence program are converted to a PDF file, important information such as page, column, paragraph, font data, font size, and font color data is lost. Furthermore, information is lost, such as whether a line ends because in a column or generally on a page a new paragraph has been forced and started by the author, or if the end of a line is reached and the software automatically performs a line break ,

Aus diesen Gründen kann das pdf-Format als „destruktives“ Format bezeichnet werden, und es ist das denkbar schlechteste Format, um den eigentlichen Inhalt des Dokuments weiterzuverarbeiten und an unterschiedliche Systeme, insbesondere mobile Anzeigegeräte spezifisch anzupassen. For these reasons, the PDF format can be termed a "destructive" format, and it is the worst possible format for further processing the actual content of the document and tailoring it to different systems, especially mobile display devices.

Die erfindungsgemäße Verwendung von Druck-pdf-Dateien erfordert daher eine Art Re-Layouting des Dokumenteninhalts, das durch marktübliche Konvertierungsprogramme, die pdf-Dateien zum Anzeigen auf mobilen Anzeigegeräten konvertieren, nicht in befriedigender Weise vorgenommen werden kann. Mit dem Re-Layouting werden vorhandene Layout-Elemente in ein neues Format überführt und dort neu angeordnet. Die Neuanordnung der Layout-Elemente muss spezifisch für die mobilen Anzeigegeräte erfolgen, da diese keine fest vorgeschriebene Displaygrößen und Seitenverhältnisse der Displays besitzen. The use of print pdf files in accordance with the invention therefore requires a kind of re-layouting of the document content that can not be satisfactorily performed by commercially available conversion programs that convert pdf files for display on mobile display devices. Re-layouting converts existing layout elements into a new format and rearranges them there. The rearrangement of the layout elements must be specific to the mobile display devices, since they have no fixed display sizes and aspect ratios of the displays.

Um die Layout-Informationen, die in der digitalen Form der pdf-Dokumente verlorengegangen waren, wiederzugewinnen und digital weiterverarbeitbar abzulegen, wird erfindungsgemäß eine OCR-Engine verwendet. Eine OCR-Engine ist der funktionale Kern einer OCR-Software (Optical Character Recognition), die in bekannter Weise zur Umwandlung bzw. Extrahierung von Texten aus Pixelgrafiken, insbesondere eingescannten Textseiten, für eine weitere Bearbeitung in digitalen Textverarbeitungsprogrammen verwendet wird. Die OCR-Engine, die den Anwendungskern der OCR-Software – ohne Benutzeroberfläche – bildet, untersucht die Pixelgrafiken und interpretiert dabei erkannte Umrisse und Formen in Zeichen um. Mitentscheidend ist hierbei, dass die OCR-Engine auch Layout-Informationen, wie Schriftgröße und Schriftfarbe sowie Zeilenumbrüche und dergleichen erkennt und in digitale Informationen umsetzt. Ein durch eine OCR-Engine re-Layoutetes pdf-Dokument enthält also entscheidende Informationen, die auch einem digital erstellten pdf-Dokument mit noch darin enthaltenen Text- bzw. Zeicheninformationen weit ist. In order to retrieve the layout information which had been lost in the digital form of the pdf documents and store it in a digitally processable manner, an OCR engine is used according to the invention. An OCR engine is the functional core of Optical Character Recognition (OCR) software, which is used in a known manner to convert text from pixel graphics, especially scanned text pages, for further processing in digital word processors. The OCR engine, which forms the application core of the OCR software, with no user interface, examines the pixel graphics, interpreting recognized outlines and shapes into characters. The decisive factor here is that the OCR engine also recognizes layout information, such as font size and font color as well as line breaks and the like, and converts them into digital information. A pdf document re-layouted by an OCR engine thus contains crucial information that is also widely available to a digitally generated pdf document with text or character information still contained therein.

Besonders bevorzugt ist es im Rahmen der vorliegenden Erfindung, wenn die Druck-pdf-Dateien der interessierenden Printmedien-Seiten in Erkennungsbereiche eingeteilt werden. Aus den einzelnen Erkennungsbereichen werden dann mittels einer OCR-Engine erkennungsbereichsspezifische digitale Text-, Bild- und/oder Layoutinformationen generiert, um diese in digitale Darstellungsinformationen zu konvertieren. Diese können den mobilen Anzeigegeräten und deren Betriebssystemen angepasst werden, um die Printmedien-Inhalte für spezifische Anzeigegeräte optimiert darstellen zu können. It is particularly preferred in the context of the present invention if the print pdf files of the print media pages of interest are divided into recognition areas. Recognition area-specific digital text, image and / or layout information is then generated from the individual recognition areas by means of an OCR engine, in order to convert these into digital presentation information. These can be adapted to the mobile display devices and their operating systems in order to optimally display the print media content for specific display devices.

Mit solchen Erkennungsbereichen kann eine Art „Artikel-Prinzip“ umgesetzt werden: Printmedien, wie Zeitungen, Zeitschriften und Magazine bestehen aus einer Ansammlung von einzelnen Artikeln. Viele Artikel bestehen aus verschiedenen Elementen, und zwar aus einem Titel, eventuell mit Untertitel, dem Haupttext sowie gegebenenfalls Bildern und/oder Info-Boxen. Zusätzlich zu den Artikeln gibt es in vielen Printmedien außerdem Bildbereiche, Tabellenbereiche sowie gegebenenfalls Barcodebereiche. With such recognition areas, a kind of "article principle" can be implemented: Print media, such as newspapers, magazines and magazines consist of a collection of individual articles. Many articles consist of different elements, namely a title, possibly with subtitles, the main text as well as possibly pictures and / or info boxes. In addition to the articles, there are also image areas, table areas and possibly barcode areas in many print media.

Werden die Erkennungsbereiche einzeln mit der OCR-Engine erfasst, können sie anzeigegerätspezifisch neu zusammengesetzt werden, um auf dem jeweiligen Display des Anzeigegeräts eine für den Nutzer sinnvolle und dem Verständnis förderliche Darstellung zu erhalten. If the detection areas are detected individually with the OCR engine, they can be recomposed specifically display device-specific in order to obtain on the respective display of the display device a meaningful for the user and the understanding conducive representation.

Nach einer bevorzugten Weiterbildung der vorliegenden Erfindung kann der Nutzer an seinem mobilen Anzeigegerät die Erkennungsbereiche zum Einlesen mittels der OCR-Engine per Zugriff über das Internet selbst auswählen. In der Regel wird die Auswahl der Erkennungsbereiche jedoch automatisiert erfolgen, oder vom Vertrieb der digitalisierten Printmedien vorgenommen und gegebenenfalls manuell überarbeitet. According to a preferred embodiment of the present invention, the user can select on his mobile display device, the detection areas for reading by means of the OCR engine by accessing the Internet itself. In general, however, the selection of the detection areas will be automated, or made by the distribution of digitized print media and optionally revised manually.

Eine bevorzugte Anwendung des erfindungsgemäßen Verfahrens besteht darin, aus dem mittels der OCR-Engine ermittelten digitalen Text-, Bild- und Layoutinformationen unterschiedliche digitale Darstellungsinformationen für unterschiedliche mobile Anzeigegeräte zu erzeugen und in Darstellungsdateien zusammenzufassen, die dann zum Herunterladen über das Internet bereitgestellt werden. Dies ermöglicht einen Vertrieb von Printmedien auf digitalem Wege über das Internet, wobei auch Printmedien mit kleinen Auflagen, deren Verlage sich ein aufwändiges Herstellen von digitalen Dateien nicht leisten können, in einer Form angeboten werden können, die unterschiedlichen mobilen Anzeigegeräten angepasst ist und von diesen nach dem erfindungsgemäßen Re-Layouting in spezifischer Form angezeigt werden können. A preferred application of the method according to the invention is to generate different digital representation information for different mobile display devices from the digital text, image and layout information determined by means of the OCR engine and to combine these into presentation files, which are then made available for downloading via the Internet. This allows a distribution of print media on digital way over the Internet, whereby also print media with small editions, whose publishers can not afford a complex production of digital files, can be offered in a form that is adapted to different mobile display devices and of these after the re-layouting according to the invention in more specific Form can be displayed.

Hierbei kann es vorteilhaft sein, wenn von einem Nutzer an seinem mobilen Anzeigegerät ausgewählt wird, welche Inhalte von ihn interessierenden Printmedien-Seiten als digitale Darstellungsinformationen und Darstellungsdateien zum Herunterladen über das Internet bereitgestellt werden bzw. über das Internet auf das mobile Anzeigegerät heruntergeladen werden. Dies kann mit einer Recherchefunktion verknüpft werden, so dass Nutzer beispielsweise durch Eingabe von Stichworten diejenigen Inhalte ermitteln können, die sie interessant finden. Als weiteres Beispiel wäre es möglich, dass Nutzer beispielsweise nur den Sport-Teil oder nur den Wirtschafts-Teil einer Tageszeitung herunterladen oder zum Herunterladen bereitstellen lassen. In this case, it may be advantageous if a user selects on his mobile display device which contents of print media pages of interest to him as digital presentation information and presentation files for downloading via the Internet are provided or downloaded via the Internet to the mobile display device. This can be linked to a search function, so that users, for example, by entering keywords, can identify the content that they find interesting. As another example, it would be possible for users, for example, to download only the sports part or only the economic part of a daily newspaper or have them made available for downloading.

Besonders vorteilhaft ist in diesem Zusammenhang eine weitere Weiterbildung der vorliegenden Erfindung, nach der am mobilen Anzeigegerät anhand einer heruntergeladenen und angezeigten pdf-Datei (ohne Re-Layouting) ausgewählt wird, welcher Bereich der pdf-Datei als angepasste Darstellungsdatei heruntergeladen wird, um sie parallel anzuzeigen. Insbesondere für Tablet-Computer als mobile Anzeigegeräte ist diese Weiterbildung der Erfindung interessant. Denn deren Display ist gerade groß genug, um eine pdf-Datei mit dem originalen Layout einer Printmedienseite anzuzeigen, ohne dass sämtliche Inhalte unlesbar werden. Es kann dann auf einen Blick erfasst werden, welcher Artikel oder welche Tabelle oder welches Bildelement gerade interessiert, so dass dies als Bereich markiert wird, der als erfindungsgemäß angepasste Darstellungsdatei heruntergeladen wird, um das entsprechende Element in einer spezifisch an dieses mobile Anzeigegerät angepassten Form anzuzeigen. Dies kann vorzugsweise auf dem Display parallel erfolgen, beispielsweise indem eine Hälfte des Displays die originale pdf-Datei anzeigt und die andere Hälfte nur den gerade interessierenden Bereich, beispielsweise einen bestimmten Artikel. Dieser muss allerdings nicht unbedingt neben der pdf-Datei angezeigt werden und die andere Hälfte des Displays einnehmen, sondern es ist auch möglich, diesen speziell ausgewählten Artikel oder ein sonstiges Element zumindest teilweise über die pdf-Seite überlappend im Vordergrund darzustellen. Die verkleinerte Ansicht des Original-Dokuments im pdf-Format gibt dem Nutzer das Lesegefühl des originalen Printmediums, wobei die im Vordergrund oder in einer zweiten Hälfte des Displays eingeblendete Leseansicht von aktuell interessierenden Bereichen eine gute Lesbarkeit sicherstellt. Particularly advantageous in this context is a further development of the present invention, according to which is selected on the mobile display device based on a downloaded and displayed pdf file (without re-layouting), which area of the pdf file is downloaded as a customized presentation file to parallel them display. In particular for tablet computers as mobile display devices, this development of the invention is interesting. Because their display is just large enough to display a pdf file with the original layout of a print media page, without all the contents are unreadable. It can then be grasped at a glance which article or table or picture element is currently interested, so that this is marked as an area which is downloaded as a presentation file adapted according to the invention in order to display the corresponding element in a form specifically adapted to this mobile display device , This may preferably be done in parallel on the display, for example, in that one half of the display shows the original pdf file and the other half only the area of interest, for example a particular article. However, this does not necessarily have to be displayed next to the pdf file and occupy the other half of the display, but it is also possible to present this specially selected article or other element at least partially overlapping in the foreground via the pdf page. The reduced view of the original document in pdf format gives the user the reading feeling of the original print medium, whereby the read view of currently interesting areas in the foreground or in a second half of the display ensures good readability.

Angewendet wird die vorliegende Erfindung vorzugsweise im Rahmen eines Vertriebs von Printmedien in digitaler Form für mobile Anzeigegeräte, wobei die von den Printmedien-Verlagen hereingegebenen Druck-pdf-Dateien durch das erfindungsgemäße Re-Layouting in eine Mehrzahl von spezifischen Darstellungsdateien für unterschiedliche mobile Anzeigegeräte umgewandelt wird. Je nach der Art des benutzten mobilen Anzeigegeräts, kann der Kunde dann Darstellungsdateien entweder vollständig, oder jeweils nur solche Teile, die ihn interessieren, über das Internet herunterladen und sich anzeigen lassen. The present invention is preferably used in the context of distribution of print media in digital form for mobile display devices, whereby the print pdf files sent in by the print media publishers are converted by the inventive re-layout into a plurality of specific presentation files for different mobile display devices , Depending on the type of mobile display device used, the customer can then download presentation files either completely or only those parts that interest him via the Internet and display them.

Ein Beispiel für die Anwendung des erfindungsgemäßen Re-Layouting-Verfahrens bei einem Vertrieb für digitale Printmedien wird im Folgenden anhand der beigefügten Zeichnungen näher beschrieben und erläutert. Es zeigen: An example of the application of the re-layouting method according to the invention in a distribution for digital print media will be described and explained in more detail below with reference to the attached drawings. Show it:

1 eine schematische Darstellung des Kerns des erfindungsgemäßen Verfahrens; 1 a schematic representation of the core of the method according to the invention;

2 ein Beispiel für eine zu konvertierende Printmedien-Seite; 2 an example of a print media page to be converted;

3 das Beispiel aus 2 mit zwei verschiedenen Bereichserkennungs-Verfahren (3a und 3b); 3 the example 2 with two different area detection methods ( 3a and 3b );

4 zwei Beispiele für eine Hybrid-Anwendung bei Tablet-Computern; 4 two examples of a hybrid application for tablet computers;

5 ein Flussdiagramm für ein Anwendungsbeispiel des erfindungsgemäßen Verfahrens. 5 a flowchart for an application example of the method according to the invention.

In 1 ist der prinzipielle Ablauf des Kerns des erfindungsgemäßen Verfahrens skizziert: Aus einer Druck-pdf-Datei wird mittels einer OCR-Engine insbesondere ein Text mit Formatinformationen. Hierbei wird nicht eine Schnittstelle einer OCR-Software verwendet, sondern es wird auf die Rohdaten der OCR-Engine, die den Kern einer OCR-Software bildet, zugegriffen. In 1 the basic procedure of the core of the method according to the invention is outlined: From a print pdf file by means of an OCR engine in particular a text with format information. In this case, an interface of an OCR software is not used, but the raw data of the OCR engine, which forms the core of an OCR software, is accessed.

Die in den 2 bis 4 dargestellten Ausführungsbeispiele für die Durchführung eines erfindungsgemäßen Verfahrens arbeiten mit Erkennungsbereichen im „Artikel-Prinzip“. Ein Beispiel für einen zweispaltigen Artikel mit eingebetteter Grafik aus einer Printmedienseite ist in 2 dargestellt. Wenn ein solcher Artikel im pdf-Format vorliegt, ist es für übliche Konvertierungsprogramme und selbst für eine OCR-Software kaum möglich, den Textinhalt zu extrahieren, um ihn auf mobilen Anzeigegeräten spezifisch angepasst darzustellen. Dies liegt nicht nur an der Mehrspaltigkeit des Artikels, sondern insbesondere an den grafischen Rahmenelementen und an der eingebetteten Grafik mit Bildunterschrift. The in the 2 to 4 illustrated embodiments for carrying out a method according to the invention work with recognition areas in the "article principle". An example of a two-column article with embedded graphics from a print media page is in 2 shown. If such an article is in PDF format, it is hardly possible for conventional conversion programs, and even for OCR software, to extract the text content to render it specifically adapted to mobile displays. This is not only due to the multi-column nature of the article, but in particular to the graphic frame elements and the embedded graphic with caption.

Im Rahmen der beispielhaften Anwendung der vorliegenden Erfindung werden noch vor dem Konvertieren Erkennungsbereiche ausgewählt, und zwar entweder automatisiert, wie in 3a vorgestellt, oder händisch, wie in 3b dargestellt:
In 3a wird die OCR-Engine so eingesetzt, dass sie nicht nur die einzelnen Textzeichen, sondern auch zusammenhängende Textblöcke erkennt und diese mittels eines Rahmens markiert. Die Eckpunkte des Rahmens werden visualisiert, so dass sie händisch korrigiert werden können, falls dies nötig ist.
Within the scope of the exemplary application of the present invention, detection areas are selected, either automated, as before, or before conversion 3a presented, or by hand, as in 3b shown:
In 3a The OCR engine is used in such a way that it recognizes not only the individual text characters but also coherent text blocks and marks them with a frame. The corner points of the frame are visualized so that they can be manually corrected if necessary.

3b visualisiert die etwas aufwändigere Variante des händischen Auswählens von Erkennungsbereichen. Dies erfolgt beispielsweise durch Zeichnen eines Rahmens um einen gewünschten Erkennungsbereich per Maus oder per Touchscreen. 3b visualizes the slightly more elaborate variant of manually selecting detection areas. This is done, for example, by drawing a frame around a desired recognition area by mouse or touchscreen.

Im hier beschriebenen Ausführungsbeispiel für die Umsetzung eines erfindungsgemäßen Verfahrens werden an einer zentralen Stelle, nämlich einem Vertrieb von digital verfügbar gemachten Printmedien über das Internet, die per Druck-pdf-Dateien vorliegenden, digital verarbeitbaren Printmedien-Inhalte zentral in mehrere Darstellungsdateien konvertiert, die jeweils einer Typklasse von mobilen Anzeigegeräten angepasst sind. Der Vertrieb stellt diese Darstellungsdateien zum Herunterladen über das Internet bereit. In the exemplary embodiment described here for the implementation of a method according to the invention, at a central point, namely a distribution of digitally made print media via the Internet, the printable pdf files present, digitally processable print media contents are converted centrally into several presentation files, each one a type class of mobile display devices are adapted. Sales provides these presentation files for download over the Internet.

Dies ist schematisch in 5 dargestellt: Aus der ursprünglichen pdf-Datei wird mit Hilfe der erfindungsgemäßen OCR-Engine ein Dokument erstellt, das in ein CSS-Modul integriert wird und letztlich als HTML-Dokument oder als EPUB-Datei und dergleichen zum Herunterladen über das Internet bereitgestellt wird. This is schematically in 5 A document is created from the original pdf file with the aid of the OCR engine according to the invention, which document is integrated into a CSS module and is ultimately made available as an HTML document or EPUB file and the like for downloading via the Internet.

Hierbei werden zunächst pdf-Dateien eingelesen und dargestellt, sodann werden die OCR-Bereiche händisch oder automatisiert, oder mit Softwareunterstützung festgelegt, daraus die Inhalte herausgelesen und verarbeitet. Sodann werden die Inhalte in ein neues Format ausgegeben. Die OCR-Bereiche können Textbereiche, Bildbereiche, Tabellenbereiche oder Barcodebereiche sein. Bei den Textbereichen wird der reguläre OCR-Vorgang ausgeführt, der im Ergebnis einen Text liefert. Bei einem Bildbereich wird der OCR-Vorgang nicht ausgeführt, sondern der für das Bild ausgewählte Bereich ausgeschnitten und exportiert. OCR-Bereiche werden nur artikelweise gesetzt, so dass Artikel für Artikel konvertiert wird. Wird eine automatische Layout-Erkennung durchgeführt, ergeben sich eventuell mehr Bereiche als notwendig wären. Überzählige Erkennungsbereiche müssen dann händisch gelöscht werden. Firstly, pdf files are read in and displayed, then the OCR areas are defined manually or automatically, or with software support, from which the contents are read out and processed. Then the contents are output in a new format. The OCR areas can be text areas, image areas, table spaces, or barcode areas. For the text areas, the regular OCR process is executed, which returns a text as a result. For an image area, the OCR operation is not performed, but the area selected for the image is cut and exported. OCR ranges are set only by item, so item by item is converted. If an automatic layout recognition is performed, there may be more areas than necessary. Excessive detection areas must then be deleted manually.

Die einzelnen Erkennungsbereiche eines Artikels liegen letztlich separat vor, so dass beim Bereitstellen zum Herunterladen über das Internet eine Art Hybrid-Anwendung angeboten werden kann, wie sie in den 4a und 4b dargestellt ist. Diese beiden Figuren zeigen das Display eines Tablet-Computers im Querformat (4a) und im Hochformat (4b). In beiden Formaten zeigt der Tablet-Computer die pdf-Darstellung der originalen Printmedien-Seite an. Der Leser sieht also das gewohnte Bild seiner Zeitschrift. Durch Antippen eines ihn interessierenden Artikels, hier des Artikels mit der Überschrift „Taschencamcorder und Projektor“ wird über das Internet auf die konvertierten Daten dieses Artikels zugegriffen und der entsprechende Artikel in einem für den spezifischen Tablet-Computer angepassten Format heruntergeladen. Die Anzeige erfolgt im Falle der 4a in der rechten Hälfte des Displays, im Falle der 4b in einem separaten Fenster, das im Vordergrund geöffnet wird. Da dieses Anzeigeformat des Artikels auf den spezifischen Tablet-Computer angepasst ist, stimmt das Layout nicht mit der Anordnung des ursprünglichen Artikels überein: Er durchlief das erfindungsgemäße Re-Layouting. Dafür ist der interessierende Artikel für den Nutzer exzellent lesbar, und durch die Hybrid-Darstellung nimmt der Nutzer das auf der Printmedien-Seite vorhandene Layout dennoch auf. The individual detection areas of an article are ultimately separate, so that when providing for downloading via the Internet, a kind of hybrid application can be offered, as in the 4a and 4b is shown. These two figures show the display of a tablet computer in landscape mode ( 4a ) and in portrait format ( 4b ). In both formats, the tablet computer displays the pdf representation of the original print media page. The reader sees the familiar picture of his magazine. By tapping an article of interest to him, here the article entitled "Pocket Camcorder and Projector", the converted data of this article is accessed via the Internet and the corresponding article is downloaded in a format adapted for the specific tablet computer. The display takes place in case of 4a in the right half of the display, in the case of 4b in a separate window that opens in the foreground. Since this display format of the article is adapted to the specific tablet computer, the layout does not match the order of the original article: he went through the re-layouting according to the invention. For the user, the article of interest is excellently legible, and the hybrid presentation allows the user to record the existing layout on the print media page.

Claims (8)

Verfahren zum Bereitstellen von Printmedien-Inhalten in digitaler Form für mobile Anzeigegeräte, wobei Text-, Bild- und/oder Layoutinformationen von interessierenden Printmedien-Seiten in digitale Darstellungsinformationen konvertiert werden, die den mobilen Anzeigegeräten und deren Betriebssystemen angepasst sind, um die Printmedien-Inhalte für spezifische Anzeigegeräte optimiert darstellen zu können, dadurch gekennzeichnet, dass Druck-pdf-Dateien der interessierenden Printmedien-Seiten verwendet und aus diesen mittels einer OCR-Engine digitale Text-, Bild- und/oder Layoutinformationen generiert werden, um diese in digitale Darstellungsinformationen zu konvertieren, welche den mobilen Anzeigegeräten und deren Betriebssystemen anpassbar sind, um die Printmedien-Inhalte für spezifische Anzeigegeräte optimiert darstellen zu können. A method for providing print media content in digital form to mobile display devices, wherein text, image and / or layout information of print media pages of interest are converted to digital presentation information adapted to the mobile display devices and their operating systems to enhance the print media content. To be able to display content for specific display devices in an optimized manner, characterized in that print pdf files of the print media pages of interest are used and from these by means of an OCR engine digital text, image and / or layout information are generated, in order to convert these into digital presentation information which are adaptable to the mobile display devices and their operating systems in order to optimally display the print media content for specific display devices. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Druck-pdf-Dateien der interessierenden Printmedien-Seiten automatisiert und/oder bedienerunterstützt in Erkennungsbereiche eingeteilt werden und dass aus den einzelnen Erkennungsbereichen mittels einer OCR-Engine erkennungsbereichsspezifische digitale Text-, Bild- und/oder Layoutinformationen generiert werden, um diese in digitale Darstellungsinformationen zu konvertieren, welche den mobilen Anzeigegeräten und deren Betriebssystemen anpassbar sind, um die Printmedien-Inhalte für spezifische Anzeigegeräte optimiert darstellen zu können. A method according to claim 1, characterized in that the print pdf files of the print media pages of interest are automatically and / or user-assisted divided into recognition areas and that from the individual recognition areas by means of an OCR engine recognition area specific digital text, image and / or Layout information is generated to convert it into digital presentation information that is customizable to the mobile display devices and their operating systems to optimally display the print media content for specific display devices. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Druck-pdf-Dateien der interessierenden Printmedien-Seiten zum Herunterladen über das Internet bereitgestellt und die Erkennungsbereiche zum Einlesen mittels der OCR-Engine an einem über das Internet zugreifenden mobilen Anzeigegerät eingeteilt werden A method according to claim 2, characterized in that the print pdf files of the print media pages of interest are made available for downloading via the Internet and the recognition areas for reading in by means of the OCR engine are classified on an internet access mobile display device Verfahren nach mindestens einem der Ansprüche 1 oder 3, dadurch gekennzeichnet, dass aus den digitalen Text-, Bild- und Layout-Informationen unterschiedliche digitale Darstellungsinformationen für unterschiedliche mobile Anzeigegeräte erzeugt und in Darstellungsdateien zusammengefasst werden, um diese zum Herunterladen über das Internet bereitzustellen. Method according to at least one of claims 1 or 3, characterized in that generated from the digital text, image and layout information different digital representation information for different mobile display devices and summarized in presentation files to provide them for downloading via the Internet. Verfahren nach einem der Ansprüche 3 oder 4, dadurch gekennzeichnet, dass an einem mobilen Anzeigegerät ausgewählt wird, welche Inhalte von interessierenden Printmedien-Seiten als digitale Darstellungsinformationen und Darstellungsdateien zum Herunterladen über das Internet bereitgestellt und/oder heruntergeladen werden. Method according to one of claims 3 or 4, characterized in that it is selected on a mobile display device, which contents of interest of print media pages as digital presentation information and presentation files for downloading over the Internet are provided and / or downloaded. Verfahren nach mindestens einem der Ansprüche 4 oder 5, dadurch gekennzeichnet, dass neben den digitalen Darstellungsinformationen, die den mobilen Anzeigegeräten und deren Betriebssystemen angepasst sind, auch die zugrundeliegenden Druck-pdf-Dateien zum Herunterladen über das Internet bereitgestellt werden, um den interessierenden Inhalt sowohl als pdf-Datei als auch parallel und/oder seriell als angepasste Darstellungsdatei anzeigen zu können. Method according to at least one of claims 4 or 5, characterized in that, in addition to the digital representation information adapted to the mobile display devices and their operating systems, the underlying print pdf files are also made available for downloading via the Internet for the content of interest as a pdf file as well as parallel and / or serial as a customized presentation file. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass am mobilen Anzeigegerät anhand einer heruntergeladenen und angezeigten pdf-Datei ausgewählt wird, welcher Bereich der pdf-Datei als angepasste Darstellungsdatei heruntergeladen wird, um sie parallel anzuzeigen. A method according to claim 6, characterized in that is selected on the mobile display device based on a downloaded and displayed pdf file, which area of the pdf file is downloaded as a customized presentation file to display them in parallel. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die Auswahl anhand von am mobilen Anzeigegerät eingegebenen Stichworten erfolgt. A method according to claim 5, characterized in that the selection is made on the basis of keywords entered on the mobile display device.
DE102012216165A 2011-09-12 2012-09-12 Method for providing print media content in digital format for mobile display device, involves optimizing print media contents for specific display device by converting portable document format data files Pending DE102012216165A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102012216165A DE102012216165A1 (en) 2011-09-12 2012-09-12 Method for providing print media content in digital format for mobile display device, involves optimizing print media contents for specific display device by converting portable document format data files

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102011112845.3 2011-09-12
DE102011112845 2011-09-12
DE102012216165A DE102012216165A1 (en) 2011-09-12 2012-09-12 Method for providing print media content in digital format for mobile display device, involves optimizing print media contents for specific display device by converting portable document format data files

Publications (1)

Publication Number Publication Date
DE102012216165A1 true DE102012216165A1 (en) 2013-03-14

Family

ID=47740399

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102012216165A Pending DE102012216165A1 (en) 2011-09-12 2012-09-12 Method for providing print media content in digital format for mobile display device, involves optimizing print media contents for specific display device by converting portable document format data files

Country Status (1)

Country Link
DE (1) DE102012216165A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170212870A1 (en) * 2016-01-26 2017-07-27 Issuu, Inc. Method and System to Display Content from a PDF Document on a Small Screen
US11934774B2 (en) 2018-12-04 2024-03-19 Issuu, Inc. Systems and methods for generating social assets from electronic publications

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170212870A1 (en) * 2016-01-26 2017-07-27 Issuu, Inc. Method and System to Display Content from a PDF Document on a Small Screen
US11934774B2 (en) 2018-12-04 2024-03-19 Issuu, Inc. Systems and methods for generating social assets from electronic publications

Similar Documents

Publication Publication Date Title
Haslam Book design
EP1669852B1 (en) Method and computer program for converting an incoming document data stream comprising one or more documents into a structured data file
Schwabish Better presentations: A guide for scholars, researchers, and wonks
WO2005119580A1 (en) Method and device for the structural analysis of a document
DE102012216165A1 (en) Method for providing print media content in digital format for mobile display device, involves optimizing print media contents for specific display device by converting portable document format data files
DE60005706T2 (en) ADAPTABLE TECHNOLOGY FOR AUTOMATIC DOCUMENT ANALYSIS
EP1368769A2 (en) Data processing device for the preparation of a goods catalogue in the form of a graphics file
DE69332135T2 (en) Automatic change of the properties of a text by rearranging word images
DE102008010264A1 (en) Method and device for page-wise provision of an electronic document as computer graphics
Rehbein et al. Codicology and Palaeography in the Digital Age
DE102006043166B4 (en) Method for processing a digital original layout of a print object, electronic system and computer program
DE69307128T2 (en) METHOD AND DEVICE FOR SAVING AND DISPLAYING A DOCUMENT
EP2164000A1 (en) Method for converting text information into a document in pdf format
EP0990218B1 (en) Method for selectively detecting and reading a character string
AT522291B1 (en) Method for providing information on content for a technical display device
Boozari et al. A Reflection on the Design of the First Nasta'liq Typeface Attributed to Charles Wilkins in the Gladwins a Compendious Vocabulary (1192 AH/1780 AD)
DE102018122626B3 (en) Photo album, method for loading such a photo album and printing device for performing the method
DE102023200066A1 (en) TECHNOLOGIES FOR VISUALLY RECOGNIZING A FONT AND OTHER ELEMENTS IN A VISUAL DESIGN
WO2024173967A1 (en) Method for generating a personalized digital file
Ebbing Design of a newpaper for people with dyslexia
Hassaan Evaluation of interactive journalistic design in the Egyptian daily online newspapers
DE10049144A1 (en) Integrated media management and editing system
DE2741822C2 (en)
EP1260913A2 (en) Data processing apparatus for generating printed documents
DE19936588A1 (en) Computer text and graphics system with document processing has a display facility to present sections at the same time

Legal Events

Date Code Title Description
R012 Request for examination validly filed