-
Die vorliegende Erfindung betrifft ein Verfahren zum Bereitstellen von Printmedien-Inhalten in digitaler Form für mobile Anzeigegeräte nach dem Oberbegriff des Patentanspruchs 1.
-
Inhalte von klassischen Printmedien, wie Zeitungen, Zeitschriften, Magazinen und Büchern, werden zunehmend in elektronischer Form bezogen und an mobilen Anzeigegeräten, wie Smartphones, Tablet-Computern, E-Book-Readern und dergleichen gelesen.
-
Bei vielen Printmedien ist allerdings nicht nur der eigentliche Textinhalt, sondern auch das Layout der einzelnen Seiten wichtig, sei es als Gestaltungsmerkmal, wie insbesondere bei Zeitschriften, oder sei es als Hilfe für den Leser, die ihn interessierende Information leichter zugänglich zu machen, wie dies insbesondere bei klassischen Zeitungen der Fall ist.
-
Die Darstellung von interessierenden Printmedienseiten als Bilddatei, etwa im pdf-Format, stößt bei vielen mobilen Anzeigegeräten auf Schwierigkeiten, weil deren Prozessoren einen wünschenswert schnellen Bildaufbau nicht ermöglichen, oder weil die Fläche des Displays, etwa bei Smartphones zu klein ist, um die Inhalte für den Leser im Original-Layout in handhabbarer Art und Weise zugänglich zu machen. Werden stattdessen vom mobilen Anzeigegerät die Textinhalte und gegebenenfalls auch Bildinhalte von Printmedien konvertiert und angezeigt, geht hierbei das Layout verloren. Mit Layout ist in diesem Zusammenhang nicht nur die grundsätzliche Gestaltung einer Printmedienseite gemeint, sondern auch Schriftart, Schriftgröße, Schriftfarbe, Anordnung von Texten, Überschriften und dergleichen, die für das Erscheinungsbild und die Zugänglichkeit der Information von großer Wichtigkeit sind.
-
Große Verlage erstellen daher für die von ihnen vertriebenen Printmedien eigens Dateien mit digitalen Darstellungsinformationen, insbesondere im XML-Format, die neben den Inhalten auch Steuerbefehle für die spezifischen Anzeigegeräte enthalten, so dass entsprechende Dateien über Internet-Plattformen vertrieben und den Anzeigegerät-Nutzern zum Herunterladen angeboten werden können. Mit Hilfe dieser Darstellungsinformationen können die mobilen Anzeigegeräte die entsprechenden Printmedien-Inhalte in einer dem Betriebssystem und dem Darstellungsformat angepassten Form darstellen, so dass der Leser keine Nachteile gegenüber physischen Printmedien mehr hat.
-
Für kleine Verlage, die Bücher oder Zeitschriften in kleinen Auflagen vertreiben oder die regionale Zeitungen, Amtsblätter und dergleichen herstellen, und die für die Vielfalt der Printmedien-Landschaft unverzichtbar sind, ist jedoch der Aufwand zu groß, für die existierende Mehrzahl von mobilen Anzeigegeräten jeweils spezifisch angepasste digitale Darstellungsinformationen und Darstellungsdateien zu generieren bzw. bereitzustellen. Damit droht der sogenannte E-Paper / E-Book-Markt gegenüber dem klassischen Printmedien-Markt zu verarmen, so dass zum einen mobile Anzeigegeräte nur Zugriff auf einen Teil der Printmedien haben und zum anderen ein Konzentrierungsprozess, der nicht durch Nachfrage gesteuert ist, stattfindet.
-
Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren zum Bereitstellen von Printmedien-Inhalten in digitaler Form für mobile Anzeigegeräte zu schaffen, das den freien Zugang zu diesem Markt auch für kleine und kleinste Verlage ermöglicht.
-
Gelöst ist diese Aufgabe durch ein Verfahren mit den Merkmalen des Anspruchs 1. Bevorzugte Ausgestaltungen des erfindungsgemäßen Verfahrens finden sich in den Ansprüchen 2 bis 8.
-
Als ersten Schritt zur Lösung des gegebenen Problems schlägt die vorliegende Erfindung also vor, zum Konvertieren der interessierenden Printmedien-Seiten in digitale Darstellungsinformationen die Druck-pdf-Dateien der interessierenden Seiten zu verwenden. Solche Druck-pdf-Dateien liegen heutzutage grundsätzlich bei allen Printmedien vor, da diese Dateien für die Steuerung der Druckmaschinen zur Herstellung der Printmedien verwendet werden. Mit dem erfindungsgemäßen Verfahren ist es also nicht notwendig, dass die Verlage spezielle Darstellungsdateien erzeugen und bereitstellen.
-
Als zweiten Schritt zur Lösung des Problems werden die Druck-pdf-Dateien erfindungsgemäß mittels einer OCR-Engine, also dem Kern einer Texterkennungs-Software, analysiert und so die Texte aus den pdf-Dateien ausgelesen sowie gleichzeitig Informationen über die Farben, Schriftgrößen, Anordnungen, bzw. Format- und Layoutinformationen gewonnen. Liegen die Informationen in der Druck-pdf-Datei nur als Vektorgrafik vor, so werden durch die Bearbeitung mittels einer OCR-Engine wieder editierbare digitale Text-, Bild- und Layoutinformationen daraus gewonnen, die in digitale Darstellungsinformationen konvertiert werden können. Diese können den unterschiedlichen mobilen Anzeigegeräten angepasst werden, so dass diese die interessierenden Printmedien-Inhalte in leserfreundlicher Form, und gegebenenfalls vom Leser selbst am Gerät veränderbar, darstellen können.
-
Hierbei ist auch eine personalisierte Auswahl von einzelnen Teilen der Printmedien-Inhalte möglich, da die OCR-Engine recherchierbare Daten bereitstellt.
-
Pdf-Dokumente waren ursprünglich dazu gedacht, Dokumente Dritten elektronisch zur Verfügung zu stellen, ohne dass diese die Dokumente ändern können. Pdf-Dateien sind daher an eine feste Seitengröße gebunden, die nachträglich nicht mehr veränderbar ist. Außerdem werden darin enthaltene Texte nicht relativ, sondern absolut im Dokument positioniert. Dies geht soweit, dass einzelne Wörter und Textzeichen bzw. Buchstaben einzeln, absolut auf eine Seite bezogen definiert werden.
-
Wenn Dokumente, die in einem Textverarbeitungsprogramm oder einem Satzprogramm erstellt worden sind, in eine pdf-Datei umgewandelt werden, gehen wichtige Informationen, wie beispielsweise Daten zu Seiten, Spalten, Absätzen, verwendete Schriftarten, Schriftgrößen und Schriftfarben verloren. Des Weiteren gehen Informationen verloren, wie diejenige, ob eine Zeile endet, weil in einer Spalte oder allgemein auf einer Seite ein neuer Absatz durch den Autor erzwungen und begonnen wurde, oder ob das Ende einer Zeile erreicht ist und die Software selbständig einen automatischen Zeilenumbruch vornimmt.
-
Aus diesen Gründen kann das pdf-Format als „destruktives“ Format bezeichnet werden, und es ist das denkbar schlechteste Format, um den eigentlichen Inhalt des Dokuments weiterzuverarbeiten und an unterschiedliche Systeme, insbesondere mobile Anzeigegeräte spezifisch anzupassen.
-
Die erfindungsgemäße Verwendung von Druck-pdf-Dateien erfordert daher eine Art Re-Layouting des Dokumenteninhalts, das durch marktübliche Konvertierungsprogramme, die pdf-Dateien zum Anzeigen auf mobilen Anzeigegeräten konvertieren, nicht in befriedigender Weise vorgenommen werden kann. Mit dem Re-Layouting werden vorhandene Layout-Elemente in ein neues Format überführt und dort neu angeordnet. Die Neuanordnung der Layout-Elemente muss spezifisch für die mobilen Anzeigegeräte erfolgen, da diese keine fest vorgeschriebene Displaygrößen und Seitenverhältnisse der Displays besitzen.
-
Um die Layout-Informationen, die in der digitalen Form der pdf-Dokumente verlorengegangen waren, wiederzugewinnen und digital weiterverarbeitbar abzulegen, wird erfindungsgemäß eine OCR-Engine verwendet. Eine OCR-Engine ist der funktionale Kern einer OCR-Software (Optical Character Recognition), die in bekannter Weise zur Umwandlung bzw. Extrahierung von Texten aus Pixelgrafiken, insbesondere eingescannten Textseiten, für eine weitere Bearbeitung in digitalen Textverarbeitungsprogrammen verwendet wird. Die OCR-Engine, die den Anwendungskern der OCR-Software – ohne Benutzeroberfläche – bildet, untersucht die Pixelgrafiken und interpretiert dabei erkannte Umrisse und Formen in Zeichen um. Mitentscheidend ist hierbei, dass die OCR-Engine auch Layout-Informationen, wie Schriftgröße und Schriftfarbe sowie Zeilenumbrüche und dergleichen erkennt und in digitale Informationen umsetzt. Ein durch eine OCR-Engine re-Layoutetes pdf-Dokument enthält also entscheidende Informationen, die auch einem digital erstellten pdf-Dokument mit noch darin enthaltenen Text- bzw. Zeicheninformationen weit ist.
-
Besonders bevorzugt ist es im Rahmen der vorliegenden Erfindung, wenn die Druck-pdf-Dateien der interessierenden Printmedien-Seiten in Erkennungsbereiche eingeteilt werden. Aus den einzelnen Erkennungsbereichen werden dann mittels einer OCR-Engine erkennungsbereichsspezifische digitale Text-, Bild- und/oder Layoutinformationen generiert, um diese in digitale Darstellungsinformationen zu konvertieren. Diese können den mobilen Anzeigegeräten und deren Betriebssystemen angepasst werden, um die Printmedien-Inhalte für spezifische Anzeigegeräte optimiert darstellen zu können.
-
Mit solchen Erkennungsbereichen kann eine Art „Artikel-Prinzip“ umgesetzt werden: Printmedien, wie Zeitungen, Zeitschriften und Magazine bestehen aus einer Ansammlung von einzelnen Artikeln. Viele Artikel bestehen aus verschiedenen Elementen, und zwar aus einem Titel, eventuell mit Untertitel, dem Haupttext sowie gegebenenfalls Bildern und/oder Info-Boxen. Zusätzlich zu den Artikeln gibt es in vielen Printmedien außerdem Bildbereiche, Tabellenbereiche sowie gegebenenfalls Barcodebereiche.
-
Werden die Erkennungsbereiche einzeln mit der OCR-Engine erfasst, können sie anzeigegerätspezifisch neu zusammengesetzt werden, um auf dem jeweiligen Display des Anzeigegeräts eine für den Nutzer sinnvolle und dem Verständnis förderliche Darstellung zu erhalten.
-
Nach einer bevorzugten Weiterbildung der vorliegenden Erfindung kann der Nutzer an seinem mobilen Anzeigegerät die Erkennungsbereiche zum Einlesen mittels der OCR-Engine per Zugriff über das Internet selbst auswählen. In der Regel wird die Auswahl der Erkennungsbereiche jedoch automatisiert erfolgen, oder vom Vertrieb der digitalisierten Printmedien vorgenommen und gegebenenfalls manuell überarbeitet.
-
Eine bevorzugte Anwendung des erfindungsgemäßen Verfahrens besteht darin, aus dem mittels der OCR-Engine ermittelten digitalen Text-, Bild- und Layoutinformationen unterschiedliche digitale Darstellungsinformationen für unterschiedliche mobile Anzeigegeräte zu erzeugen und in Darstellungsdateien zusammenzufassen, die dann zum Herunterladen über das Internet bereitgestellt werden. Dies ermöglicht einen Vertrieb von Printmedien auf digitalem Wege über das Internet, wobei auch Printmedien mit kleinen Auflagen, deren Verlage sich ein aufwändiges Herstellen von digitalen Dateien nicht leisten können, in einer Form angeboten werden können, die unterschiedlichen mobilen Anzeigegeräten angepasst ist und von diesen nach dem erfindungsgemäßen Re-Layouting in spezifischer Form angezeigt werden können.
-
Hierbei kann es vorteilhaft sein, wenn von einem Nutzer an seinem mobilen Anzeigegerät ausgewählt wird, welche Inhalte von ihn interessierenden Printmedien-Seiten als digitale Darstellungsinformationen und Darstellungsdateien zum Herunterladen über das Internet bereitgestellt werden bzw. über das Internet auf das mobile Anzeigegerät heruntergeladen werden. Dies kann mit einer Recherchefunktion verknüpft werden, so dass Nutzer beispielsweise durch Eingabe von Stichworten diejenigen Inhalte ermitteln können, die sie interessant finden. Als weiteres Beispiel wäre es möglich, dass Nutzer beispielsweise nur den Sport-Teil oder nur den Wirtschafts-Teil einer Tageszeitung herunterladen oder zum Herunterladen bereitstellen lassen.
-
Besonders vorteilhaft ist in diesem Zusammenhang eine weitere Weiterbildung der vorliegenden Erfindung, nach der am mobilen Anzeigegerät anhand einer heruntergeladenen und angezeigten pdf-Datei (ohne Re-Layouting) ausgewählt wird, welcher Bereich der pdf-Datei als angepasste Darstellungsdatei heruntergeladen wird, um sie parallel anzuzeigen. Insbesondere für Tablet-Computer als mobile Anzeigegeräte ist diese Weiterbildung der Erfindung interessant. Denn deren Display ist gerade groß genug, um eine pdf-Datei mit dem originalen Layout einer Printmedienseite anzuzeigen, ohne dass sämtliche Inhalte unlesbar werden. Es kann dann auf einen Blick erfasst werden, welcher Artikel oder welche Tabelle oder welches Bildelement gerade interessiert, so dass dies als Bereich markiert wird, der als erfindungsgemäß angepasste Darstellungsdatei heruntergeladen wird, um das entsprechende Element in einer spezifisch an dieses mobile Anzeigegerät angepassten Form anzuzeigen. Dies kann vorzugsweise auf dem Display parallel erfolgen, beispielsweise indem eine Hälfte des Displays die originale pdf-Datei anzeigt und die andere Hälfte nur den gerade interessierenden Bereich, beispielsweise einen bestimmten Artikel. Dieser muss allerdings nicht unbedingt neben der pdf-Datei angezeigt werden und die andere Hälfte des Displays einnehmen, sondern es ist auch möglich, diesen speziell ausgewählten Artikel oder ein sonstiges Element zumindest teilweise über die pdf-Seite überlappend im Vordergrund darzustellen. Die verkleinerte Ansicht des Original-Dokuments im pdf-Format gibt dem Nutzer das Lesegefühl des originalen Printmediums, wobei die im Vordergrund oder in einer zweiten Hälfte des Displays eingeblendete Leseansicht von aktuell interessierenden Bereichen eine gute Lesbarkeit sicherstellt.
-
Angewendet wird die vorliegende Erfindung vorzugsweise im Rahmen eines Vertriebs von Printmedien in digitaler Form für mobile Anzeigegeräte, wobei die von den Printmedien-Verlagen hereingegebenen Druck-pdf-Dateien durch das erfindungsgemäße Re-Layouting in eine Mehrzahl von spezifischen Darstellungsdateien für unterschiedliche mobile Anzeigegeräte umgewandelt wird. Je nach der Art des benutzten mobilen Anzeigegeräts, kann der Kunde dann Darstellungsdateien entweder vollständig, oder jeweils nur solche Teile, die ihn interessieren, über das Internet herunterladen und sich anzeigen lassen.
-
Ein Beispiel für die Anwendung des erfindungsgemäßen Re-Layouting-Verfahrens bei einem Vertrieb für digitale Printmedien wird im Folgenden anhand der beigefügten Zeichnungen näher beschrieben und erläutert. Es zeigen:
-
1 eine schematische Darstellung des Kerns des erfindungsgemäßen Verfahrens;
-
2 ein Beispiel für eine zu konvertierende Printmedien-Seite;
-
3 das Beispiel aus 2 mit zwei verschiedenen Bereichserkennungs-Verfahren (3a und 3b);
-
4 zwei Beispiele für eine Hybrid-Anwendung bei Tablet-Computern;
-
5 ein Flussdiagramm für ein Anwendungsbeispiel des erfindungsgemäßen Verfahrens.
-
In 1 ist der prinzipielle Ablauf des Kerns des erfindungsgemäßen Verfahrens skizziert: Aus einer Druck-pdf-Datei wird mittels einer OCR-Engine insbesondere ein Text mit Formatinformationen. Hierbei wird nicht eine Schnittstelle einer OCR-Software verwendet, sondern es wird auf die Rohdaten der OCR-Engine, die den Kern einer OCR-Software bildet, zugegriffen.
-
Die in den 2 bis 4 dargestellten Ausführungsbeispiele für die Durchführung eines erfindungsgemäßen Verfahrens arbeiten mit Erkennungsbereichen im „Artikel-Prinzip“. Ein Beispiel für einen zweispaltigen Artikel mit eingebetteter Grafik aus einer Printmedienseite ist in 2 dargestellt. Wenn ein solcher Artikel im pdf-Format vorliegt, ist es für übliche Konvertierungsprogramme und selbst für eine OCR-Software kaum möglich, den Textinhalt zu extrahieren, um ihn auf mobilen Anzeigegeräten spezifisch angepasst darzustellen. Dies liegt nicht nur an der Mehrspaltigkeit des Artikels, sondern insbesondere an den grafischen Rahmenelementen und an der eingebetteten Grafik mit Bildunterschrift.
-
Im Rahmen der beispielhaften Anwendung der vorliegenden Erfindung werden noch vor dem Konvertieren Erkennungsbereiche ausgewählt, und zwar entweder automatisiert, wie in 3a vorgestellt, oder händisch, wie in 3b dargestellt:
In 3a wird die OCR-Engine so eingesetzt, dass sie nicht nur die einzelnen Textzeichen, sondern auch zusammenhängende Textblöcke erkennt und diese mittels eines Rahmens markiert. Die Eckpunkte des Rahmens werden visualisiert, so dass sie händisch korrigiert werden können, falls dies nötig ist.
-
3b visualisiert die etwas aufwändigere Variante des händischen Auswählens von Erkennungsbereichen. Dies erfolgt beispielsweise durch Zeichnen eines Rahmens um einen gewünschten Erkennungsbereich per Maus oder per Touchscreen.
-
Im hier beschriebenen Ausführungsbeispiel für die Umsetzung eines erfindungsgemäßen Verfahrens werden an einer zentralen Stelle, nämlich einem Vertrieb von digital verfügbar gemachten Printmedien über das Internet, die per Druck-pdf-Dateien vorliegenden, digital verarbeitbaren Printmedien-Inhalte zentral in mehrere Darstellungsdateien konvertiert, die jeweils einer Typklasse von mobilen Anzeigegeräten angepasst sind. Der Vertrieb stellt diese Darstellungsdateien zum Herunterladen über das Internet bereit.
-
Dies ist schematisch in 5 dargestellt: Aus der ursprünglichen pdf-Datei wird mit Hilfe der erfindungsgemäßen OCR-Engine ein Dokument erstellt, das in ein CSS-Modul integriert wird und letztlich als HTML-Dokument oder als EPUB-Datei und dergleichen zum Herunterladen über das Internet bereitgestellt wird.
-
Hierbei werden zunächst pdf-Dateien eingelesen und dargestellt, sodann werden die OCR-Bereiche händisch oder automatisiert, oder mit Softwareunterstützung festgelegt, daraus die Inhalte herausgelesen und verarbeitet. Sodann werden die Inhalte in ein neues Format ausgegeben. Die OCR-Bereiche können Textbereiche, Bildbereiche, Tabellenbereiche oder Barcodebereiche sein. Bei den Textbereichen wird der reguläre OCR-Vorgang ausgeführt, der im Ergebnis einen Text liefert. Bei einem Bildbereich wird der OCR-Vorgang nicht ausgeführt, sondern der für das Bild ausgewählte Bereich ausgeschnitten und exportiert. OCR-Bereiche werden nur artikelweise gesetzt, so dass Artikel für Artikel konvertiert wird. Wird eine automatische Layout-Erkennung durchgeführt, ergeben sich eventuell mehr Bereiche als notwendig wären. Überzählige Erkennungsbereiche müssen dann händisch gelöscht werden.
-
Die einzelnen Erkennungsbereiche eines Artikels liegen letztlich separat vor, so dass beim Bereitstellen zum Herunterladen über das Internet eine Art Hybrid-Anwendung angeboten werden kann, wie sie in den 4a und 4b dargestellt ist. Diese beiden Figuren zeigen das Display eines Tablet-Computers im Querformat (4a) und im Hochformat (4b). In beiden Formaten zeigt der Tablet-Computer die pdf-Darstellung der originalen Printmedien-Seite an. Der Leser sieht also das gewohnte Bild seiner Zeitschrift. Durch Antippen eines ihn interessierenden Artikels, hier des Artikels mit der Überschrift „Taschencamcorder und Projektor“ wird über das Internet auf die konvertierten Daten dieses Artikels zugegriffen und der entsprechende Artikel in einem für den spezifischen Tablet-Computer angepassten Format heruntergeladen. Die Anzeige erfolgt im Falle der 4a in der rechten Hälfte des Displays, im Falle der 4b in einem separaten Fenster, das im Vordergrund geöffnet wird. Da dieses Anzeigeformat des Artikels auf den spezifischen Tablet-Computer angepasst ist, stimmt das Layout nicht mit der Anordnung des ursprünglichen Artikels überein: Er durchlief das erfindungsgemäße Re-Layouting. Dafür ist der interessierende Artikel für den Nutzer exzellent lesbar, und durch die Hybrid-Darstellung nimmt der Nutzer das auf der Printmedien-Seite vorhandene Layout dennoch auf.