Nothing Special   »   [go: up one dir, main page]

DE10124429B4 - System und Verfahren für eine verbesserte Rechtschreibprüfung - Google Patents

System und Verfahren für eine verbesserte Rechtschreibprüfung Download PDF

Info

Publication number
DE10124429B4
DE10124429B4 DE10124429A DE10124429A DE10124429B4 DE 10124429 B4 DE10124429 B4 DE 10124429B4 DE 10124429 A DE10124429 A DE 10124429A DE 10124429 A DE10124429 A DE 10124429A DE 10124429 B4 DE10124429 B4 DE 10124429B4
Authority
DE
Germany
Prior art keywords
words
letter
user
word
replacement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE10124429A
Other languages
English (en)
Other versions
DE10124429A1 (de
Inventor
Clifford Alan Pickover
Alexander Zlatsin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE10124429A1 publication Critical patent/DE10124429A1/de
Application granted granted Critical
Publication of DE10124429B4 publication Critical patent/DE10124429B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

Verfahren zur elektronischen Prüfung der Rechtschreibung eines elektronischen Dokumentes, das von einem Textverarbeitungsprogramm in einem Datenverarbeitungssystem verarbeitet wird, wobei das Verfahren Folgendes umfasst:
a) Ausgeben einer elektronischen Meldung eines falsch geschriebenen Wortes an einen Benutzer;
b) Elektronisches Ermitteln einer Gruppe von einem oder mehreren Wörtern, die jeweils einen Ersatzbuchstaben für einen in einem falsch geschriebenen Wort des elektronischen Dokuments enthaltenen Buchstaben enthalten, wobei eine Tastaturtaste des Ersatzbuchstabens eine nahe gelegene Tastaturtaste des im falsch geschriebenen Wort enthaltenen Buchstabens ist;
c) Präsentieren einer elektronischen Liste von Ersatzwörtern für den Benutzer, wobei die Liste ein oder mehrere aus der Gruppe von Wörtern ausgewählte Wörter enthält, wobei Ersatzwörter mit einem geringen Abstand zwischen der Tastaturtaste des jeweiligen Ersatzbuchstabens und der jeweiligen Tastaturtaste des im falsch geschriebenen Wort enthaltenen Buchstabens vor Ersatzwörtern mit einem größeren solchen Abstand aufgelistet werden.

Description

  • GEBIET DER ERFINDUNG
  • Diese Erfindung betrifft ein System und Verfahren zur elektronischen Prüfung der Rechtschreibung eines elektronischen Dokumentes.
  • GRUNDLAGEN
  • Computer, insbesondere Personal Computer, werden hauptsächlich zur "Textverarbeitung" verwendet. Textverarbeitungsprogramme (word processors) haben die Schreibmaschine als hauptsächliches Mittel zur Dokumentenerstellung ersetzt. Bei der Erstellung von Dokumenten ist es normalerweise sehr wichtig, dass jedes Wort richtig geschrieben wird. In Textverarbeitungsprogrammen wird oftmals ein Rechtschreibprüfprogramm verwendet, um die Rechtschreibung von Worten in einem Dokument zu überprüfen. Der Benutzer ruft normalerweise ein Rechtschreibprüfprogramm (spell checker) auf, indem er eine Rechtschreib-Hilfsprogrammoption (spelling tool option) auswählt. Ein Rechtschreibprüfprogramm weist eine zugeordnete Wörterbuchdatei (dictionary file) auf, die eine Liste von richtig geschriebenen Wörtern enthält. Um die Rechtschreibung eines Wortes im Dokument zu überprüfen, sucht das Rechtschreibprüfprogramm nach diesem Wort. Falls das Wort im Wörterbuch vorhanden ist, ist das Wort richtig geschrieben. Andernfalls ist das Wort falsch geschrieben. Das Rechtschreibprüfprogramm meldet dem Benutzer normalerweise falsch geschriebene Wörter und fordert zur korrekten Schreibweise auf. Das Rechtschreibhilfsprogramm (spelling tool) kann den Benutzer bei jedem möglicherweise falsch geschriebenen Wort auffordern, das Wort zu ersetzen, zu ignorieren oder zu bearbeiten. Diese Aufforderung beinhaltet oftmals die Darstellung einer wählbaren Liste von ähnlich buchstabierten Wörtern, aus der der Benutzer wählen kann. Wenn der Benutzer das gewünschte Wort auswählt, ersetzt das Rechtschreibprüfprogramm das falsch geschriebene Wort durch das richtig geschriebene Wort.
  • Eine Rechtschreibprüfung wird außerdem auf verschiedenen Internet-Web-Seiten bereitgestellt, beispielsweise auf der bekannten Web-Site von Alta Vista bei www.altavista.com, die alternative Schreibweisen für falsch geschriebene Worte bereitstellt, wenn Benutzer Wörter eingeben, um Informationen im World-Wide Web zu suchen. Ein System und Verfahren für ein verbessertes Rechtschreibprüfprogramm ist daher hilfreich bei der Textverarbeitung in jedem Bereich, in dem Text getippt wird, beispielsweise in Computern oder in Web-Suchmaschinen (web search engines). Die Verwendung eines verbesserten Rechtschreibprüfprogramms ist nicht auf Dokumente begrenzt, die durch Tippen auf einer Tastatur erzeugt werden, sondern kann auch auf Text angewandt werden, der durch Spracheingabe oder handschriftliche Eingabe erzeugt wurde.
  • Eine Rechtschreibprüfung gemäß dem gegenwärtigen Prozess ist nicht leistungsfähig, da die wählbare Liste von ähnlich buchstabierten Wörtern möglicherweise nicht tatsächlich das Wort enthält, das der Benutzer zu buchstabieren versuchte. Falls die Liste das Wort enthält, ist es oftmals mühsam, das richtige Wort in einer Liste zu finden, die viele alternative Schreibweisen enthält. Obwohl die gegenwärtige Rechtschreibprüfung eine hilfreiche Funktion ist, ist sie daher bezüglich der erforderlichen Benutzerinteraktion nicht leistungsfähig.
  • Beispiele für Rechtschreibprüfprogramme, die Datenbanken von ähnlich buchstabierten Wörtern verwenden, werden in der am 23. Februar 1999 von Nielsen veröffentlichten US-Patentschrift 5 875 443 A erläutert. Dieses Patent erläutert die Verwendung von im Internet verfügbaren fernen Datenbanken und ist in seiner Gesamtheit durch Bezugnahme hierin aufgenommen. Beispiele für eine "Hintergrund"-Rechtschreibprüfung werden in der am 28. Juli 1998 von Mogilevsky veröffentlichten US-Patentschrift 5 787 451 A erläutert, die in ihrer Gesamtheit durch Bezugnahme hierin aufgenommen ist. "Hintergrund"-Rechtschreibprüfung bezieht sich auf eine Rechtschreibprüfung, die während Leerlaufperioden des Textverarbeitungsprogramms ausgeführt wird. Das Rechtschreibprüfprogramm führt eine "Hintergrund"-Rechtschreibprüfung aus, so dass Rechtschreibfehler während einer Bearbeitungssitzung im Dokument entsprechend hervorgehoben werden können.
  • Es ist daher Aufgabe der vorliegenden Erfindung, ein verbessertes Verfahren und System zur elektronischen Prüfung der Rechtschreibung eines elektronischen Dokumentes bereitzustellen.
  • Diese Aufgabe wird durch das Verfahren nach einem der Ansprüche 1 bis 4 und das System nach Anspruch 5 und dem Datenträger nach Anspruch 6 gelöst.
  • Um die Probleme und Nachteile vorhandener Rechtschreibprüfprogramme anzugehen, stellt diese Erfindung ein Verfahren zum Darstellen einer wählbaren Liste von ähnlich buchstabierten Wörtern bereit, wenn ein falsch geschriebenes Wort vom Benutzer ausgewählt wird, der die korrekte Schreibweise herausfinden möchte. Hierbei prüft das Rechtschreibprogramm für jeden Buchstaben im Wort "nahe beieinander liegende" Buchstaben auf Tastaturtasten, um die Liste von Ersatzwörtern des Rechtschreibprüfprogramms zu verbessern. Das System überwacht außerdem das Verwendungsprotokoll (history of use) eines Benutzers bezüglich nahe beieinander liegenden Ersetzungen oder Tasten-(d. h. Buchstaben-)Ersetzungen und geht bei der Darstellung von Listen von alternativen Wörtern von diesen Informationen aus. Ein Benutzer kann diese Informationen manuell ergänzen. Das verbesserte Rechtschreibprüfprogramm korrigiert außerdem die Rechtschreibung, indem es ein Benutzerprotokoll von Rechtschreibprüfkorrekturen überwacht. Datenverbundtabellen (aggregate tables) von Korrekturen für mehr als einen Benutzer können von Rechtschreibprüfprogrammen verwaltet, gemeinsam genutzt und bereitgestellt werden.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Die Erfindung wird besser mit Bezugnahme auf die folgende ausführliche Beschreibung verstanden, wenn sie in Verbindung mit den begleitenden Zeichnungen gelesen wird, in denen:
  • 1 eine bildliche Darstellung eines Beispielcomputersystems zeigt, das die vorliegende Erfindung ausführt.
  • 2 zeigt eine bildliche Darstellung eines Fensters eines Textverarbeitungsprogramms, das mit einem Rechtschreibprüfprogramm ausgestattet ist.
  • 3 ist ein Flussdiagramm, das die Schritte darstellt, die vom verbesserten Rechtschreibprüfprogramm in dem in 1 gezeigten Computersystem ausgeführt werden.
  • 4 ist ein Flussdiagramm, das darstellt, wie für die Schritte 310, 330 und 340 räumlich eine Priorität vergeben werden kann.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Mit Bezugnahme auf die Figuren und insbesondere auf 1 wird nun ein Computersystem 12 gemäß dem Verfahren und System der vorliegenden Erfindung dargestellt. Das Computersystem 12 enthält einen Computer 36, eine Computeranzeige 38, eine Tastatur 40 und mehrere Eingabezeigereinheiten (input pointing devices) 42. Fachleute werden verstehen, dass die Eingabezeigereinheiten 42 unter Verwendung eines Zeigestabes 44, einer Maus 46, einer Rollkugel 48, eines Stiftes 50, eines Bildschirms 52 (z. B. eines berührungsempfindlichen Bildschirms 52) oder irgendeiner anderen Einheit realisiert werden können, die es einem Benutzer ermöglicht, Objekte, Symbole und andere Anzeigeelemente auf eine grafische Weise auf der Computeranzeige 38 zu bearbeiten. Mit dem Computersystem 12 können außerdem Lautsprecher 54 und/oder Toneingabeeinheiten (audio input devices) 51 verbunden sein. (Siehe beispielsweise VoiceType-Diktiersystem von IBM. "VoiceType" ist ein Warenzeichen der IBM Corporation.)
  • Auf dem Bildschirm 52 kann eine grafische Benutzerschnittstelle 53 angezeigt werden und unter Verwendung irgendeiner Eingabezeigereinheit 42 bearbeitet werden. Die grafische Benutzerschnittstelle 53 kann die Anzeige einer Textverarbeitungsanwendung 60 enthalten, die Texte in einem Dokument 62 unter Verwendung irgendeines bekannten Textverarbeitungsprogramms 90 mit einer Rechtschreibprüffunktion 93 anzeigt, die die Rechtschreibung von Wörtern in einem Dokument überprüft. Das Dokument kann grafische Informationen, akustische Informationen oder Textinformationen 67 enthalten, die dem Benutzer über den Bildschirm 52, Lautsprecher 54 oder andere Ausgabeeinheiten dargeboten werden. Die Informationsseiten können wählbare Verbindungen 66 enthalten, beispielsweise im World-Wide Web verwendete Hypertextverbindungen zu anderen Informationsseiten 62, wobei solche Verbindungen durch eine der Eingabeeinheiten 42 aktiviert werden können, um die zugeordneten Informationsseiten anzufordern. Diese Hardware ist nach dem Stand der Technik gut bekannt und wird auch in Verbindung mit Fernsehen ("Web-TV") und Multimedia-Unterhaltungszentren verwendet. Das Computersystem 12 enthält einen oder mehrere Speicher 65, in denen die Erfindung Speicherplatz eines Cachespeichers 80 reserviert. Ein Server 130, der über ein Netz 110 mit dem Computersystem 12 verbunden ist, kann Seiten von Multimediainformationen zum Cachespeicher 80 senden. Das Netz 110 kann irgendein bekanntes lokales Netz (LAN) oder Weitverkehrsnetz (WAN) sein, z. B. das Internet.
  • Mit Bezugnahme auf 1A wird nun ein Blockschaltbild der Architektur des Computersystems 12 gemäß der vorliegenden Erfindung dargestellt. Die Kernarchitektur (core architecture) enthält eine Zentraleinheit 165, eine Speichersteuereinheit 162, einen Systemspeicher 65, einen Plattenspeicher 70 und eine Plattenspeichersteuereinheit 75. Ein Teil des Systemspeichers 65 wird für den Informationsseiten-Cachespeicher 80 genutzt. Außerdem kann ein Dateispeicherplatz 85 in der Plattenspeichereinheit 70 als zusätzlicher Dokumentseiten-Cachespeicher genutzt werden. Im Allgemeinen ist ein Cachespeicher ein Ort, wo Daten (Dateien, Bilder und andere Informationen) gespeichert werden können, um zu verhindern, dass die Daten aus einer langsameren Einheit gelesen werden müssen, beispielsweise aus einer fernen mit dem Netz verbundenen Computerplatte. Ein Plattencachespeicher kann beispielsweise Informationen speichern, die ohne Zugriff auf einen fernen Plattenspeicher gelesen werden können.
  • Mit Bezugnahme auf 2 wird nun ein Bildschirm 52 mit einer Anzeige einer Textverarbeitungsanwendung 60 gezeigt. Falsch geschriebene Wörter, beispielsweise das falsch geschriebene Wort "cimputee" 210 werden oftmals durch das Rechtschreibprüfprogramm 93 eines Textverarbeitungsprogramms 90 (siehe 1) hervorgehoben 215, oder der Benutzer wird auf andere Weise darauf aufmerksam gemacht. Wenn der Benutzer das Wort 210 auswählt, wird dem Benutzer eine Liste von alternativen ähnlichen Schreibweisen präsentiert, aus der der Benutzer die korrekte Schreibweise des im Dokument vorgesehenen Wortes wählen kann. Das erste korrekt buchstabierte alternative Wort 225 ist beispielsweise "compute".
  • 3 umfasst ein Flussdiagramm für einen bevorzugten Rechtschreibprüfprozess 300, der vom Textverarbeitungsprogramm 90 und vom Rechtschreibprüfprogramm 93 realisiert wird. Im Schritt 310 ermittelt das Rechtschreibprüfprogramm den "Inhalt" oder das "Thema" eines Dokumentes. Dies kann erreicht werden, indem die Wörter im Titel des Dokuments, in den Hauptüberschriften und im Text überprüft werden, indem gezählt wird, wie oft das Wort verwendet wurde. Das Rechtschreibprüfprogramm 93 kann beispielsweise ermitteln, dass das Wort "divination" im Titel des Dokuments vorkommt. Außerdem kommt das Wort eventuell 20 Mal im Text vor. Dies deutet daraufhin, das "divination" wahrscheinlich ein wichtiges Wort ist, das sich auf den "Inhalt" des Dokuments bezieht. Falls ein Benutzer "devination" manchmal falsch als "duvonation" schreibt, muss das Rechtschreibprüfprogramm 93 zuerst das Wort "divination" als möglicherweise richtig geschriebenes Wort 225 präsentieren (in der Liste 220 von 2), bevor eine andere mögliche Wahl für Wörter präsentiert wird, wie "deviation".
  • Falls das Rechtschreibprüfprogramm 93 im Schritt 310 feststellt, dass "divination" der Inhalt des Dokumentes ist und für das Dokument wichtig ist, verwendet es außerdem eine latente semantische Indizierung (latent semantic indexing), synonyme Listen und Thesauren 92 (in 1 gezeigt) und/oder verwandte Verfahren, um festzustellen, ob wahrscheinlich verwandte Wörter, beispielsweise "fortune-telling", mit einiger Wahrscheinlichkeit im Dokument vorkommen können, und gibt diese wahrscheinlich verwandten Wörter in der Liste 220 von alternativen Wörtern zuerst an. Das falsch geschriebene Wort "fotune-telling" ist wahrscheinlich "fortune-telling", da "fortune-telling" ein mit "divination" verwandtes Wort ist, was das Thema des Dokumentes ist oder für den Inhalt des Dokumentes von Bedeutung ist. Die latente semantische Indizierung ist ein Fachleuten gut bekanntes Verfahren, um den Inhalt von Dokumenten festzustellen. Die Reihenfolge der Liste 220 von richtig geschriebenen Wörtern entspricht der Wahrscheinlichkeit, mit der das Wort mit dem Thema des Dokumentes verwandt ist. Falls beispielsweise "rodent" zwanzigmal im Dokument vorkommt und "computer" zehnmal und das Wort "shrew" (ein Art von Nagetier) als "shriw" falsch geschrieben wird, erscheint das Ersatzwort "shrew" in der Liste 220 vor "screw", da "shrew" eher mit Nagetieren verwandt ist als mit Computern. Falls ein Wort in einer Überschrift oder in einem Titel oder in einer expliziten Liste von Schlüsselwörtern vorkommt, die entweder im Dokument vorhanden sind oder vom Benutzer manuell eingegeben wurden, betreffen diese Wörter mit hoher Wahrscheinlichkeit den Inhalt eines Dokumentes. Die latente semantische Indizierung kann verwendet werden, um die Bedeutung durch bekannte Verfahren festzustellen, und kann daher ebenfalls verwendet werden, um die Liste 220 von alternativen Wörtern so zu ordnen, dass sich die wichtigsten Wörter am Anfang befinden.
  • Im Schritt 330 führt der Rechtschreibprüfprozess 300 zur Verbesserung des Rechtschreibprogramms außerdem eine Prüfung auf "nahe beieinander liegende" Tasten auf der Tastatur aus. Diese Liste von Tasten und ihren Positionen wird in einer Datei 91 gespeichert. Die Datei kann beispielsweise Datensätze mit den Tastennamen (z. B. "Q", "W", "E", usw.) und (x, y)-Positionen der Taste enthalten. Die Prüfung im Schritt 330 beinhaltet eine Berechnung einer Abstandsfunktion (distance function) oder der Nähe auf der Grundlage des Abstandes von einer Taste zur einer anderen. Die Taste V auf einer typischen US-Tastatur befindet sich beispielsweise neben der Taste C. Der Abstand von V zu C kann mit DV-C bezeichnet werden. Die Taste G ist weiter von der Taste C entfernt als die Taste V. Der Abstand von G zu C kann mit DG-C bezeichnet werden. Es ist zu beachten, dass DG-C > DV-C. Der Abstand kann unter Verwendung von bekannten Abstandsformeln aus der Geometrie berechnet werden. Diese Abstandsinformationen können verwendet werden, um wahrscheinliche Kandidaten zu ermitteln, die in der Liste 220 von ähnlich buchstabierten Wörtern enthalten sind. Das Wort "loce" ist wahrscheinlich "love", da die Taste "V" in der Nähe der Taste "C" ist (z. B. benachbart). Der Schritt 320 berücksichtigt diese möglichen Buchstabenersetzungen und präsentiert eine Liste von gültigen Wörtern mit diesen wahrscheinlichen Ersetzungen. Kandidaten mit einer höheren Wahrscheinlichkeit werden auf der Grundlage des Abstandes D vor weniger wahrscheinlichen Kandidaten aufgelistet. Ein geringerer Abstand ist mit einem wahrscheinlicheren Ersatzzeichen verbunden als ein größerer Abstand. Es ist zu beachten, dass eine solche Lösung bei verschiedenen Arten von Tastaturen hilfreich wäre, beispielsweise bei chinesischen Tastaturen mit über 100 Tasten.
  • Der Schritt 340 überwacht das Verwendungsprotokoll eines Benutzers bezüglich Buchstabenersetzungen und berücksichtigt diese Informationen bei der Darstellung von Listen von alternativen Wörtern im Schritt 320. Falls der Benutzer beispielsweise häufig "v" anstelle des nahegelegenen korrekten "c" tippt, wird dies berücksichtigt, wenn eine wahrscheinliche Liste von korrekten Wörtern zum Ersetzen des falsch geschriebenen Wortes ermittelt wird. Informationen, die Listen von vergangenen Tastenersetzungen enthalten, können in einer Datenbank 94 (in 1 gezeigt) oder in einem fernen Computer gespeichert werden, beispielsweise dem Server 130. Jeder Datensatz in der Datenbank kann einen Buchstaben und seinen wahrscheinlich falsch getippten Buchstaben enthalten. Außerdem kann ein Benutzer Informationen zu wahrscheinlichen Tastenersetzungen manuell ergänzen. Falls ein Benutzer beispielsweise weiß, dass er häufig "v" anstelle von "c" tippt, kann er das System darüber informieren, so dass es diese Information bei der Darstellung einer Liste von korrekten Wörtern (Schritt 320) zum Ersetzen des falsch geschriebenen Wortes berücksichtigen kann. Der Schritt 340 zeigt außerdem das Verwendungsprotokoll eines Benutzers bezüglich des "Vertauschens" ("swaps") von Buchstaben an und berücksichtigt diese Informationen bei der Darstellung von Listen von alternativen Worten im Schritt 320. Der Begriff "Vertauschen" von Buchstaben bezieht sich auf das Verwenden von zwei Buchstaben in der falschen Reihenfolge. Beispielsweise vertauscht ein Benutzer möglicherweise häufig die Buchstaben "i" und "s", so dass er "si" tippt, wenn er "is" meint, oder er kann "is" tippen, wenn er "si" meint. Das System kann dieses Vertauschen automatisch protokollieren, oder ein Benutzer kann das System manuell informieren, dass diese Vertauschvorgänge wahrscheinlich auftreten. Der Schritt 320 überwacht außerdem das Verwendungsprotokoll eines Benutzers von Wortkorrekturen und verwaltet eine Liste von wahrscheinlichen Ersetzungen, die automatisch von einem früheren Tipp-Protokoll eines Benutzers abgeleitet wird. Falls beispielsweise "dive" falsch "duve" geschrieben wird, nimmt der Prozess 300 zur Kenntnis, dass ein falsches Tippen von u statt i und das falsche Tippen von "duve" statt "dive" stattfanden, und verwendet diese Informationen künftig, wenn der Schritt 320 eine Liste von korrekten Wörtern zum Ersetzen des falsch geschriebenen Wortes darstellt. Im Beispiel des falschen Tippens von "duve" statt "dive" wird ein Benutzerprotokoll von Rechtschreibprüfkorrekturen angezeigt. In gewissem Sinne lernt das Programm die Muster von Rechtschreibfehlern eines Benutzers, indem es die Anzahl und die Art von früheren ausgewählten Korrekturen für Wörter überwacht, die von einem Benutzer auf Rechtschreibfehler geprüft wurden. Diese Informationen können in einer Korrekturtabelle 96 (in 1 gezeigt) gespeichert werden. Ein weiteres Beispiel ist, dass ein Benutzer häufig "behavior" falsch als "behavoir" schreibt und diese Korrektur in früheren Verwendungen über das Rechtschreibprüfprogramm ausführt. Der Schritt 320 verwaltet die Tabelle 96 mit Datensätzen, beispielsweise "behavior – behavoir", um Listen 220 von alternativen richtig geschriebenen Wörtern leistungsfähig zu präsentieren.
  • Die verschiedenen Korrekturtabellen können die persönlichen Vorlieben eines Benutzers, ein Protokoll und so weiter widerspiegeln, oder sie können Tabellen von Korrekturen zusammenfassen, die mehr als einen Benutzer widerspiegeln. Die Tabellen können von Rechtschreibprüfprogrammen verwaltet, über Netze gemeinsam genutzt und bereitgestellt werden.
  • Die zuvor erwähnten Verfahren zur Verbesserung der Rechtschreibprüfung können alleine verwendet oder als eine Folge von Prüfungen sequenziell ausgeführt werden. Es können verschiedene Prioritäten verwendet werden, so dass ein Lösungsweg vor einem anderen bevorzugt wird. Falls beispielsweise ein Verfahren mit einer höheren Priorität (z. B. das Dokumenteninhalt-Verfahren im Schritt 310) eine Liste von drei Alternativen liefert und ein Verfahren mit einer geringeren Priorität (z. B. das Tastenabstand-Verfahren im Schritt 330) eine Alternative liefert, werden die Alternativen mit höherer Priorität vor den Alternativen mit geringerer Priorität aufgelistet. Die Prioritäten können durch manuelle Eingabe eines Benutzers festgelegt oder von der Systemsoftware automatisch bereitgestellt werden.
  • Mit Bezugnahme auf die 2 und 3 kann der Schritt 350 außerdem ein zusätzliches Fenster 230 bereitstellen. Der Schritt 355 stellt die am häufigsten falsch geschriebenen Wörter eines Benutzers in einem zusätzlichen Fenster 230 bereit. Der Schritt 357 stellt die kürzlich falsch geschriebenen Wörter eines Benutzers im zusätzlichen Fenster 230 bereit. Diese Informationen können in einer Datenbank gespeichert werden, um im zusätzlichen Fenster 230 angezeigt zu werden, wenn das Textverarbeitungsprogramm 90 aufgerufen wird. Der Benutzer kann die Maus 46 verwenden, um Wörter von Interesse aus dem zusätzlichen Fenster 230 in das aktuelle Dokument 62 zu kopieren und einzufügen, wobei die in vielen Betriebssystemen bereitgestellte "Zwischenablage" verwendet wird. In einer Fensterumgebung, wie Microsoft Windows 95 oder Macintosh Finder, ist ein Zwischenspeicherbereich im Speicher ("der Zwischenablagespeicher") vorhanden, in den Material aus einem Dokument ausgeschnitten oder kopiert wird. Das Material wird gespeichert, bis es der Benutzer an anderer Stelle einfügt. Der Rechtschreibprüfprozess 300 stellt beispielsweise fest, dass ein Benutzer häufig die Wörter "behavior" und "dive" falsch schreibt. Diese Wörter werden im zusätzlichen Fenster 230 aufgelistet. Der Benutzer kann die Wörter bei Bedarf kopieren und einfügen oder ziehen und ablegen. Das Sehen der richtigen Wörter auf dem Bildschirm kann außerdem einen erzieherischen Wert haben, wodurch die korrekte Schreibweise für jedes Wort im Gedächtnis des Benutzers eingeprägt wird. Der Problembereich des Wortes, beispielsweise die am häufigsten falsch ersetzen Buchstaben, kann hervorgehoben werden 235. Dies kann ebenfalls einen erzieherischen Wert haben. Das Hervorheben 235 wird durch den Schritt 260 ausgeführt. Auf Wunsch kann die Hervorhebung 235 auch im Hauptfenster erfolgen, in dem sich das Wort befindet. Ein Buchstabe in einem Wort kann beispielsweise eine Farbe 236 ändern, um anzuzeigen, dass er falsch ist.
  • 4 ist ein Flussdiagramm, das einen Prioritätsvergabeprozess (prioritizing process) 400 darstellt, durch den das Rechtschreibprüfprogramm 93 eine Priorität für das Sammeln von Informationen im Rechtschreibprüfprozess 300 vergeben kann. Wenn das Rechtschreibprüfprogramm 93 den Inhalt (Schritt 310) und das Protokoll eines Benutzers (Schritt 330) prüft, kann es Prioritäten so vergeben, dass Informationen bezüglich auf dem Bildschirm sichtbaren Wörtern "räumlich" bevorzugt werden, anschließend Wörter im aktuellen Dokumentteil (z. B. Kapitel), anschließend Wörter im Dokument, anschließend Wörter in anderen offenen Dokumenten, anschließend Wörter für alle Dokumente, die der Benutzer bearbeitet hat. Auf diese Weise können Informationen gesammelt werden, die für den Bedarf eines Benutzers von großer Bedeutung sind. Insbesondere ermittelt der Schritt 410 den Inhalt und Buchstabenersetzungen für den Text desselben Satzes, der das falsch geschriebene Wort enthält. Der Schritt 415 ermittelt den Inhalt und Buchstabenersetzungen für den Text desselben Absatzes, der das falsch geschriebene Wort enthält. Der Schritt 420 ermittelt den Inhalt und Buchstabenersetzungen für den Text, der auf dem Bildschirm sichtbar ist. Der Schritt 425 ermittelt den Inhalt und Buchstabenersetzungen für den Text desselben Dokumentteils, der das falsch geschriebene Wort enthält. Ein Dokumentteil kann sich auf Text zwischen Hauptüberschriften beziehen, beispielsweise Text in einem Kapitel, in dem sich das falsch geschriebene Wort befindet. Der Schritt 430 ermittelt den Inhalt und Buchstabenersetzungen für das restliche Dokument. Der Schritt 435 ermittelt den Inhalt und Buchstabenersetzungen für alle offenen Dokumente. Der Schritt 440 ermittelt den Inhalt und Buchstabenersetzungen für alle Dokumente, auf die der Benutzer kürzlich zugegriffen hat. Der Begriff "kürzlich" kann sich beispielsweise auf Dokumente beziehen, die während der vorhergehenden N Stunden offen waren. Der Wert von N kann vom Benutzer gesetzt werden. Der Schritt 445 ermittelt den Inhalt und Buchstabenersetzungen für die Dokumente, auf die ein Benutzer am häufigsten zugegriffen hat. Der Begriff "am häufigsten" bezieht sich beispielsweise auf Dokumente, auf die öfter als M-mal zugegriffen wurde. Der Wert von M kann vom Benutzer gesetzt werden. Der Schritt 450 ermittelt den Inhalt und Buchstabenersetzungen für alle Dokumente, auf die alle Benutzer kürzlich zugegriffen haben. Das Rechtschreibprüfprogramm 93 kann Zugang zu Dokumenten haben, die von anderen Benutzern über das Internet erstellt wurden oder in einem zugänglichen Verwahrungsort (repository) von Dokumenten gespeichert wurden. Der Schritt 455 ermittelt den Inhalt und Buchstabenersetzungen für die Dokumente, auf die verschiedene Benutzer am häufigsten zugegriffen haben. Der Schritt 460 ermittelt den Inhalt und Buchstabenersetzungen für alle verfügbaren Dokumente. Diese Informationen können in Datenbanken gespeichert werden. Diese zusätzlichen Informationen können auf viele Arten verwendet werden. Falls der Inhalt des Dokumentes für den auf dem Bildschirm sichtbaren Text beispielsweise "Flut" ist (wie im Schritt 420 geprüft wurde) und der Inhalt des gesamten Dokumentes "Bibel" ist (wie im Schritt 430 geprüft wurde), werden entsprechende Wörter, die in der Liste 220 präsentiert werden, so geordnet, dass korrekt geschriebene Wörter bezüglich "Flut" möglicherweise vor den Wörtern bezüglich "Bibel" erscheinen.
  • Obwohl Beispiele bezüglich einer Tastatureingabe angegeben wurden, ist zu beachten, dass die hier dargestellten Verfahren auf Systeme mit Spracheingabe und Handschrifterkennung angewandt werden können. Daher können das System und Verfahren auch zur Verbesserung von Handschrift- und Spracherkennung verwendet werden. Ein Benutzer spricht beispielsweise das Wort "proof" in das Mikrofon 51. Ein Spracherkennungssystem 98 weiß möglicherweise nicht, welches von mehreren Wörtern wie "proof", "prude" oder "prune" der Benutzer ausgesprochen hat. Durch das Erkennen des Inhaltes des erstellten Dokumentes (Schritt 310) oder das Überwachen des Protokolls eines Benutzers (Schritt 340) kann dem Benutzer jedoch eine sachdienlichere Liste und Reihenfolge von alternativen Wörtern dargestellt werden, aus denen er wählen kann.
  • Dieses intelligente Rechtschreibprüfprogramm 93 kann sich in einem lokalen oder fernen Computer, einem Personal Digital Assistant, einer Telefonzelle (kiosk), einem Decoder (set-top box), einem Fernsehgerät, einer Kamera oder einer anderen Einheit befinden. Dieses Rechtschreibprüfprogramm ist in jeder Textverarbeitungssituation hilfreich, in der ein Benutzer Text eingibt, beispielsweise beim Ausfüllen von Online-Formularen und beim Tippen von URLs oder Suchbegriffen in Web-Browsern.
  • Bei der Beschreibung der vorliegenden Erfindung mit besonderer Bezugnahme auf die bevorzugten Formen davon ist es offensichtlich, dass verschiedene Änderungen daran vorgenommen werden können, ohne von der Wesensart und vom Umfang der vorliegenden Erfindung abzuweichen, wie sie in den angehängten Ansprüchen definiert wird.

Claims (6)

  1. Verfahren zur elektronischen Prüfung der Rechtschreibung eines elektronischen Dokumentes, das von einem Textverarbeitungsprogramm in einem Datenverarbeitungssystem verarbeitet wird, wobei das Verfahren Folgendes umfasst: a) Ausgeben einer elektronischen Meldung eines falsch geschriebenen Wortes an einen Benutzer; b) Elektronisches Ermitteln einer Gruppe von einem oder mehreren Wörtern, die jeweils einen Ersatzbuchstaben für einen in einem falsch geschriebenen Wort des elektronischen Dokuments enthaltenen Buchstaben enthalten, wobei eine Tastaturtaste des Ersatzbuchstabens eine nahe gelegene Tastaturtaste des im falsch geschriebenen Wort enthaltenen Buchstabens ist; c) Präsentieren einer elektronischen Liste von Ersatzwörtern für den Benutzer, wobei die Liste ein oder mehrere aus der Gruppe von Wörtern ausgewählte Wörter enthält, wobei Ersatzwörter mit einem geringen Abstand zwischen der Tastaturtaste des jeweiligen Ersatzbuchstabens und der jeweiligen Tastaturtaste des im falsch geschriebenen Wort enthaltenen Buchstabens vor Ersatzwörtern mit einem größeren solchen Abstand aufgelistet werden.
  2. Verfahren nach Anspruch 1, wobei die ausgewählten Wörter auf der Grundlage eines Protokolls der früheren Buchstabenersetzungen des Benutzers ausgewählt werden.
  3. Verfahren nach Anspruch 1, wobei das Protokoll die vertauschten Buchstaben des Benutzers enthält und wobei die Ersatzliste alternative Wörter auf der Grundlage des Protokolls von vertauschten Buchstaben enthält.
  4. Verfahren nach Anspruch 3, das außerdem Folgendes umfasst: Überwachen der Tippfehler des Benutzers, die vertauschte Buchstaben enthalten, und Aufnehmen der Tippfehler in das Protokoll und wobei das Protokoll Wörter enthält, die Buchstabenersetzungen oder vertauschte Buchstaben enthalten, die vom Benutzer stammen.
  5. Datenverarbeitungssystem enthaltend Mittel elektronischen Prüfung der Rechtschreibung eines elektronischen Dokumentes, das von einem Textverarbeitungsprogramm in einem Datenverarbeitungssystem verarbeitet wird, wobei das Datenverarbeitungssystem Folgendes umfasst: a) Mittel zum Ausgeben einer elektronischen Meldung eines falsch geschriebenen Wortes an einen Benutzer; b) Mitttel zum elektronisches Ermitteln einer Gruppe von einem oder mehreren Wörtern, die jeweils einen Ersatzbuchstaben für einen in einem falsch geschriebenen Wort des elektronischen Dokuments enthaltenen Buchstaben enthalten, wobei eine Tastaturtaste des Ersatzbuchstabens eine nahe gelegene Tastaturtaste des im falsch geschriebenen Wort enthaltenen Buchstabens ist; c) Mittel zum Präsentieren einer elektronischen Liste von Ersatzwörtern für den Benutzer, wobei die Liste ein oder. mehrere aus der Gruppe von Wörtern ausgewählte Wörter enthält, wobei Ersatzwörter mit einem geringen Abstand zwischen der Tastaturtaste des jeweiligen Ersatzbuchstabens und der jeweiligen Tastaturtaste des im falsch geschriebenen Wort enthaltenen Buchstabens vor Ersatzwörtern mit einem größeren solchen Abstand aufgelistet werden.
  6. Datenträger, auf dem ein maschinenlesbares Computerprogramm gespeichert ist, das ein Verfahren nach einem der Ansprüche 1 bis 4 ausführt, wenn es in einem Computer abgearbeitet wird.
DE10124429A 2000-07-07 2001-05-18 System und Verfahren für eine verbesserte Rechtschreibprüfung Expired - Fee Related DE10124429B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US61200600A 2000-07-07 2000-07-07
US09/612,006 2000-07-07

Publications (2)

Publication Number Publication Date
DE10124429A1 DE10124429A1 (de) 2002-01-17
DE10124429B4 true DE10124429B4 (de) 2008-11-27

Family

ID=24451327

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10124429A Expired - Fee Related DE10124429B4 (de) 2000-07-07 2001-05-18 System und Verfahren für eine verbesserte Rechtschreibprüfung

Country Status (3)

Country Link
US (1) US7647554B2 (de)
KR (1) KR100455329B1 (de)
DE (1) DE10124429B4 (de)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7194684B1 (en) * 2002-04-09 2007-03-20 Google Inc. Method of spell-checking search queries
US8667547B2 (en) * 2002-07-31 2014-03-04 Comverse, Ltd. Method and system for editing text messages conveyed via a CATV infrastructure at a TV set-top box
US7315811B2 (en) * 2003-12-31 2008-01-01 Dictaphone Corporation System and method for accented modification of a language model
US7814155B2 (en) 2004-03-31 2010-10-12 Google Inc. Email conversation management system
US9819624B2 (en) * 2004-03-31 2017-11-14 Google Inc. Displaying conversations in a conversation-based email system
US7912904B2 (en) 2004-03-31 2011-03-22 Google Inc. Email system with conversation-centric user interface
US8775931B2 (en) * 2007-03-30 2014-07-08 Blackberry Limited Spell check function that applies a preference to a spell check algorithm based upon extensive user selection of spell check results generated by the algorithm, and associated handheld electronic device
US20080266261A1 (en) * 2007-04-25 2008-10-30 Idzik Jacek S Keystroke Error Correction Method
EP1986080B1 (de) * 2007-04-25 2009-12-16 Research In Motion Limited Tippfehlerkorrekturverfahren
WO2009016631A2 (en) 2007-08-01 2009-02-05 Ginger Software, Inc. Automatic context sensitive language correction and enhancement using an internet corpus
KR200449305Y1 (ko) * 2007-12-17 2010-06-30 한국 고덴시 주식회사 광소자 패키지 및 그 실장구조
US8176419B2 (en) * 2007-12-19 2012-05-08 Microsoft Corporation Self learning contextual spell corrector
US20090254818A1 (en) * 2008-04-03 2009-10-08 International Business Machines Corporation Method, system and user interface for providing inline spelling assistance
US8219905B2 (en) * 2008-11-17 2012-07-10 International Business Machines Corporation Automatically detecting keyboard layout in order to improve the quality of spelling suggestions
JP5077210B2 (ja) * 2008-12-04 2012-11-21 富士通モバイルコミュニケーションズ株式会社 携帯型情報処理装置
US8739055B2 (en) * 2009-05-07 2014-05-27 Microsoft Corporation Correction of typographical errors on touch displays
CN102884518A (zh) 2010-02-01 2013-01-16 金格软件有限公司 尤其用于小键盘装置的使用互联网语料库的自动的上下文相关的语言校正
US8266528B1 (en) * 2010-06-24 2012-09-11 Google Inc. Spelling suggestions based on an input sequence including accidental “delete”
US8988365B2 (en) 2010-09-01 2015-03-24 Telefonaktiebolaget L M Ericsson (Publ) Input precision method for minimizing erroneous entries stemming from instability of a mobile device using an accelerometer and apparatus to detect a shake and apparatus and computer program thereof
US9489372B2 (en) * 2013-03-15 2016-11-08 Apple Inc. Web-based spell checker
EP3062212A1 (de) * 2015-02-25 2016-08-31 Kyocera Document Solutions Inc. Textbearbeitungsvorrichtung und druckdatenspeicherungsvorrichtung
US11093709B2 (en) 2017-08-10 2021-08-17 International Business Machine Corporation Confidence models based on error-to-correction mapping
CN111859920B (zh) * 2020-06-19 2024-06-04 北京国音红杉树教育科技有限公司 单词拼写错误的识别方法、系统及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4323241A1 (de) * 1993-07-12 1995-02-02 Ibm Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4847766A (en) * 1988-01-05 1989-07-11 Smith Corona Corporation Dictionary typewriter with correction of commonly confused words
JPH0793328A (ja) * 1993-09-24 1995-04-07 Matsushita Electric Ind Co Ltd 綴り不適切訂正装置
US5649222A (en) * 1995-05-08 1997-07-15 Microsoft Corporation Method for background spell checking a word processing document
US5875443A (en) * 1996-01-30 1999-02-23 Sun Microsystems, Inc. Internet-based spelling checker dictionary system with automatic updating
US5991742A (en) * 1996-05-20 1999-11-23 Tran; Bao Q. Time and expense logging system
US6047300A (en) * 1997-05-15 2000-04-04 Microsoft Corporation System and method for automatically correcting a misspelled word
US6018735A (en) * 1997-08-22 2000-01-25 Canon Kabushiki Kaisha Non-literal textual search using fuzzy finite-state linear non-deterministic automata
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
US6131102A (en) * 1998-06-15 2000-10-10 Microsoft Corporation Method and system for cost computation of spelling suggestions and automatic replacement
US6507816B2 (en) * 1999-05-04 2003-01-14 International Business Machines Corporation Method and apparatus for evaluating the accuracy of a speech recognition system
US6918086B2 (en) * 2000-03-28 2005-07-12 Ariel S. Rogson Method and apparatus for updating database of automatic spelling corrections
AU2001253403A1 (en) * 2000-04-14 2001-10-30 Justaddsales. Com, Inc. Computer-based interpretation and location system
US20020103834A1 (en) * 2000-06-27 2002-08-01 Thompson James C. Method and apparatus for analyzing documents in electronic form
US6578032B1 (en) * 2000-06-28 2003-06-10 Microsoft Corporation Method and system for performing phrase/word clustering and cluster merging

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4323241A1 (de) * 1993-07-12 1995-02-02 Ibm Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Forster, S.: Winword: Answers to common ques- tions 1, August 1999, University of Wales, Bangor, S. 1-2, [http://www.sos.bangor.ac.uk/~oss046/ oxx1001_pracs/word97_questions.pdf]
Forster, S.: Winword: Answers to common questions 1, August 1999, University of Wales, Bangor, S. 1-2, [http://www.sos.bangor.ac.uk/~oss046/ oxx1001_pracs/word97_questions.pdf] *

Also Published As

Publication number Publication date
DE10124429A1 (de) 2002-01-17
KR20020005427A (ko) 2002-01-17
KR100455329B1 (ko) 2004-11-09
US7647554B2 (en) 2010-01-12
US20060224586A1 (en) 2006-10-05

Similar Documents

Publication Publication Date Title
DE10124429B4 (de) System und Verfahren für eine verbesserte Rechtschreibprüfung
DE69812162T2 (de) Vorrichtung zur Verwendung bei der Identifizierung semantischer Mehrdeutigkeiten
DE69428590T2 (de) Auf kombiniertem lexikon und zeichenreihenwahrscheinlichkeit basierte handschrifterkennung
DE4440598C1 (de) Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments
DE69428868T2 (de) Verfahren und System zum Aufzeigen von Alternativen zur Auswahl durch Gebrauch von adaptiven Lernen
DE202016008241U1 (de) Bereitstellen von Vorschlägen für die Interaktion mit einem automatisierten Assistenten in einem Multi-User Nachrichtenaustausch-Thread
DE69330633T2 (de) Verfahren und Apparat zum Vergleichen von semantischen Mustern für das Wiederauffinden von Texten
DE69030862T2 (de) Automatisches Ikonerzeugungssystem
DE69931256T2 (de) Verfahren und system zum zurückholen einer elektronischen akte
DE102013205737A1 (de) System und Verfahren zum automatischen Erkennen und interaktiven Anzeigen von Informationen über Entitäten, Aktivitäten und Ereignisse aus multimodalen natürlichen Sprachquellen
DE102004012839B4 (de) System und Verfahren zur Bereitstellung von Hilfeinformation
DE102017122308A1 (de) Kontextabhängige einfügeziel-vorhersage
DE202016008173U1 (de) Einbindung von auswählbaren Anwendungsverknüpfungen in Nachrichtenaustausch-Threads
DE10308550A1 (de) System und Verfahren zur automatischen Daten-Prüfung und -Korrektur
DE112013004769T5 (de) Leerstellenvorhersage für eine Texteingabe
DE102018007165A1 (de) Vorhersage von stilbrüchen innerhalb eines textinhalts
DE102016125594A1 (de) Automatisch augmentierende Nachrichtenaustauschthread basierend auf der Nachrichtenklassifizierung
DE112012001794T5 (de) Verfahren zum Bestimmen einer Stimmung aus einem Text
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE202016008323U1 (de) Das Einbeziehen auswählbarer Anwendungslinks in Konversationen mit persönlichen Assistenz-Modulen
DE102010020829A1 (de) System und Verfahren zum Generieren von Suchtermen
DE69421326T2 (de) Verfahren und Gerät zum Steuern der Darstellungen von Objekten auf einer Benutzerschnittstelle eines Datenverarbeitungssystems
DE102018008188A1 (de) Erstellen von Inhalt basierend auf einer Mehr-Satz-Komprimierung eines Quellinhalts
DE102017122356A1 (de) Benachrichtigungssystem mit inhaltsspezifischen schlüsselworten
DE112016002275T5 (de) Koordinierte benutzerwortauswahl zum übersetzen und erhalten von kontextinformtionen für das ausgewählte wort

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8320 Willingness to grant licences declared (paragraph 23)
8364 No opposition during term of opposition
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0017270000

Ipc: G06F0040200000

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee