Nothing Special   »   [go: up one dir, main page]

CN101802812B - 使用互联网语料库的自动的上下文相关的语言校正和增强 - Google Patents

使用互联网语料库的自动的上下文相关的语言校正和增强 Download PDF

Info

Publication number
CN101802812B
CN101802812B CN200880101405.7A CN200880101405A CN101802812B CN 101802812 B CN101802812 B CN 101802812B CN 200880101405 A CN200880101405 A CN 200880101405A CN 101802812 B CN101802812 B CN 101802812B
Authority
CN
China
Prior art keywords
word
contextual feature
gram
feature sequence
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200880101405.7A
Other languages
English (en)
Other versions
CN101802812A (zh
Inventor
Y·卡罗夫赞格威尔
A·赞格威尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ginger Software Inc
Original Assignee
Ginger Software Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ginger Software Inc filed Critical Ginger Software Inc
Priority to CN201510351019.5A priority Critical patent/CN105045777A/zh
Publication of CN101802812A publication Critical patent/CN101802812A/zh
Application granted granted Critical
Publication of CN101802812B publication Critical patent/CN101802812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种计算机辅助语言校正系统,其包括使用互联网语料库的利用上下文特征序列功能的拼写校正功能、误用词校正功能、语法校正功能和词汇增强功能。

Description

使用互联网语料库的自动的上下文相关的语言校正和增强
相关申请的参考
参考2007年8月1日提交的、题目为“METHODS FOR CONTEXTSENSITIVE ERROR DETECTION AND CORRECTION”、申请号为60/953,209的美国临时专利申请,以引用方式将其公开并入本文,并且依照37CFR 1.78(a)(4)和(5)(i)要求其优先权。
技术领域
本发明总体上涉及计算机辅助语言校正。
背景技术
认为以下公开代表技术的当前状态:
美国专利号为5,659,771;5,907,839;6,424,983;7,296,019;5,956,73925和4,674,065的专利
美国公开专利申请号为2006/0247914和2007/0106937的申请。
发明内容
本发明尝试提供用于计算机辅助语言校正的改进的系统和功能。
因此,根据本发明的优选实施例提供了一种计算机辅助语言校正系统,其包括备选词生成器,基于输入句子,生成为所述句子中的多个词的中每一个提供多个备选词的基于文本的表示,选择器,用于至少部分地基于互联网语料库,针对所述句子中的所述多个词的每一个,在至少所述多个备选词中进行选择,以及校正生成器,用于基于所述选择器做出的选择来提供校正输出。
优选地,所述选择器用于,基于以下校正功能中的至少一个来做出所述选择:拼写校正、误用词校正、语法校正和词汇增强。
根据本发明的优选实施例,所述选择器用于,基于以下校正功能中的 至少两个来做出所述选择:拼写校正、误用词校正、语法校正和词汇增强。此外,所述选择器用于,基于校正的以下时间顺序中的至少一项来做出所述选择:先于误用词校正、语法校正和词汇增强的至少一个的拼写校正,以及先于词汇增强的误用词校正和语法校正。
此外或可选地,由以下功能中的一个来提供所述输入句子:词处理器功能、机器翻译功能、语音到文本转换功能、光学字符识别功能,以及即时通信功能,并且所述选择器用于,基于以下校正功能中的至少一个来做出所述选择:误用词校正、语法校正以及词汇增强。
优选地,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。此外或可选地,所述语法校正功能包括标点、动词变形、单数/复数、冠词和介词校正功能中的至少一个。
根据本发明的优选实施例,所述语法校正功能包括替换、插入和省略校正功能中的至少一个。
优选地,所述选择器包括基于上下文计分功能,用于至少部分地基于在互联网语料库中上下文特征序列(CFS)出现的频率,排序所述多个备选词。此外,所述基于上下文计分功能,还用于至少部分地基于在所述互联网语料库中标准化CFS出现的频率,排序所述多个备选词。
根据本发明的另一个优选实施例还提供了一种计算机辅助语言校正系统,其包括以下中的至少一个:拼写校正功能、误用词校正功能、语法校正功能、词汇增强功能,以及与以下各项中的至少一个协作并且使用互联网语料库的上下文特征序列功能:所述拼写校正功能;所述误用词校正功能、语法校正功能和所述词汇增强功能。
优选地,所述语法校正功能包括标点、动词变形、单数/复数、冠词和介词校正功能中的至少一个。此外或可选地,所述语法校正功能包括替换、插入和省略校正功能中的至少一个。
根据本发明的优选实施例,所述计算机辅助语言校正系统包括以下各项中的至少两个:所述拼写校正功能、所述误用词校正功能、所述语法校正功能、所述词汇增强功能,并且所述上下文特征序列功能与以下各项中的至少两个进行协作并且使用互联网语料库:所述拼写校正功能、所述误 用词校正功能、所述语法校正功能和所述词汇增强功能。
优选地,所述计算机辅助语言校正系统还包括以下各项中的至少三个:所述拼写校正功能、所述误用词校正功能、所述语法校正功能、所述词汇增强功能,并且所述上下文特征序列功能与以下各项中的至少三个进行协作并且使用互联网语料库:所述拼写校正功能;所述误用词校正功能,所述语法校正功能和所述词汇增强功能。
根据本发明的优选实施例,所述的计算机辅助语言校正系统还包括:所述拼写校正功能、所述误用词校正功能、所述语法校正功能,和所述词汇增强功能,并且所述上下文特征序列功能与以下各项功能进行协作并且使用互联网语料库:所述拼写校正功能;所述误用词校正功能,所述语法校正功能和所述词汇增强功能。
优选地,所述校正生成器包括校正语言生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,用于提供校正语言输出。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,其包括:备选词生成器,基于语言输入,生成为所述句子中的多个词中的每一个提供多个备选词的基于文本的表示;选择器,用于至少部分地基于为所述语言输入中的所述多个词中的至少一些选择的所述多个备选词中的多个之间的关系,为所述语言输入中的所述多个词中的每一个,在至少所述多个备选词之间进行选择;校正生成器,用于基于由所述选择器做出的选择,来提供校正输出。
优选地,所述语言输入包括输入句子和输入文本中的至少一个。此外或可选地,所述语言输入是语音并且所述生成器将语音中的所述语言输入转换为为所述语言输入中的多个词提供多个备选词的基于文本的表示。
根据本发明的优选实施例,所述语言输入是以下各项中的至少一个:文本输入、光学字符识别功能的输出、机器翻译功能的输出,以及词处理功能的输出,并且所述生成器将文本中的所述语言输入转换为为语言输入中的多个词提供多个备选词的基于文本的表示。
优选地,所述选择器,用于至少基于以下校正功能中的两个,做出所述选择:拼写错误、误用词校正、语法校正,以及词汇增强。此外,所述选择器用于,基于校正的以下时间顺序中的至少一个来做出所述选择:先 于误用词校正、语法校正和词汇增强中的至少一个的拼写校正,以及先于词汇增强的误用词校正和语法校正。
根据本发明的优选实施例,所述语言输入是语音并且所述选择器用于基于以下校正功能中的至少一个来做出所述选择:误用词校正、语法校正,以及词汇增强。
优选地,所述选择器用于通过执行以下功能中的至少两个来做所述选择:选择包括比初始选择的所述语言输入中的所有所述多个词少的第一组词或词的组合;之后对所述第一组词或词的组合的元素进行排序以建立选择的优先级;之后为了所述第一组词的元素,当在所述多个备选词之间选择时,选择其它词而不是所有所述多个词作为上下文来影响所述选择。此外或可选地,所述选择器用于通过执行以下功能来做所述选择:当选择具有至少两个词的元素时,结合用于所述至少两个词彼此的所述多个备选词的每一个来评估用于所述至少两个词的每一个的所述多个备选词的每一个。
根据本发明的优选实施例,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,其包括:误用词怀疑器,基于所述语言输入的上下文中词的合适度来评估语言输入中的至少大部分词;校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出。
优选地,所述的计算机辅助语言校正系统还包括:备选词生成器,基于所述语言输入,生成为所述语言输入中的所述至少大部分词的至少一个提供多个备选词的基于文本的表示;选择器,用于为所述语言输入中的所述至少大部分的词中的所述至少一个的每一个,在至少所述多个备选词中进行选择,并且其中,所述校正生成器,用于基于所述检测器做出的选择,提供所述校正输出。此外或可选地,所述的计算机辅助语言校正系统还包括:怀疑词输出指示器,其指示所述语言输入中的所述词的所述至少大部分的至少一些被怀疑为误用词的程度。
根据本发明的优选实施例,所述校正生成器包括自动校正语言生成器,用于在不需要用户干预的情况下,至少部分地基于由所述怀疑器执行的评估,提供校正文本输出。
优选地,所述语言输入是语音并且所述选择器用于,基于以下校正功能的至少一个,做所述选择:误用词校正、语法校正,以及词汇增强。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:误用词怀疑器,用于评估语言输入中的词;备选词生成器,为由所述怀疑器评估为怀疑词的、所述语言输入中的至少一些词生成多个备选词,所述语言输入中的词的所述多个备选词的至少一个与互联网语料库中所述语言输入中的所述词的上下文特征一致;选择器,用于在至少所述多个备选词之间进行选择;校正生成器,用于至少部分地基于由所述选择器做出的选择,用于提供校正输出。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:误用词怀疑器,评估语言输入中的词并且识别怀疑的词;备选词生成器,生成用于所述怀疑词的多个备选词;选择器,根据多个选择标准对每个所述怀疑词以及为此由所述备选词生成器生成的所述多个备选词的一个进行评级,并且应用与为此由所述备选词生成器生成的所述多个备选词中的一个有关的所述怀疑的词有利的偏置;校正生成器,用于至少部分地基于由所述选择器做出的选择,提供校正输出。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:备选词生成器,基于输入为所述输入中的至少一个词生成多个备选词;选择器,根据多个选择标准对每一个所述至少一个词以及为此由所述备选词生成器生成的所述多个备选词的多个进行评级,并且应用与为此由所述备选词生成器生成的所述多个备选词中的一个有关的所述至少一个词有利的偏置,所述偏置是指示提供了输入的人的不确定度的所述输入不确定度度量的函数;校正生成器,用于基于所述选择器做出的选择,提供校正输出。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:不正确词怀疑器,评估语言输入中的词的至少大部分,所述怀疑器至少部分地响应于指示提供了输入的人的不确定度的输入不确定度度量,所述怀疑器提供怀疑的不正确词输出;备用词生成器,为由所述怀疑的不正确词输出所识别的怀疑的不正确词生成多个备选词;选择器,用于在每一个怀疑的不正确词和由所述备选词生成器生成的所述多个备选词中进行选择;用于基于所述选择器做出的选择,提供校正输出的校正生成器。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:接收多个词输入并且提供校正输出的拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的至少一个,拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的所述至少一个的每一个包括:备选词候选生成器包括语音相似性功能,用于基于与所述输入中的词的语音相似性,提出备选词,并且用于指示语音相似性的度量;字符串相似性功能,用于基于与所述输入中的词的字符串相似性,来提出备选词,并且指示用于每一个备选词的字符串相似性的度量;选择器,用于通过使用所述语音相似性和字符串相似性度量以及基于上下文选择功能,选择所述输出中的词或由所述备选词候选者生成器提出的备选词候选者。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:怀疑词识别功能,接收多个词语言输入并且提供指示怀疑词的怀疑词输出;特征识别功能,用于识别包括所述怀疑词的特征;备选词选择器,识别用于所述怀疑词的备选词;特征出现功能,使用语料库并提供出现输出,关于在所述语料库中的使用频率来排序包括所述备选词的各种特征;选择器,使用所述出现输出来提供校正输出,所述特征识别功能包括特征过滤功能,所述特征过滤功能包括以下中的至少一个:用于消除包含怀疑的错误的特征的功能;用于消极地偏置包含在所述多个词输入的较早的校正迭代中引入的词并且具有在可信度预定的阈值以下的可信度的特征的功能;用于消除包含在具有在预定的频率阈值之上的出现的频率的另一个特征中所包含的特征的功能。
优选地,所述选择器用于至少基于以下校正功能的两个来做该选择:拼写校正、误用词校正、语法校正,以及词汇增强。此外,所述选择器用于基于校正的以下时间顺序中的至少一个来做出所述选择:先于误用词校正、语法校正和词汇增强中的至少一个的拼写校正;先于词汇增强的误用词校正和语法校正。
根据本发明的优选实施例,所述语言输入是语音并且所述选择器是用于基于以下校正功能的至少一个来做所述选择:语法校正、误用词校正、词汇增强。
优选地,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。
根据本发明的优选实施例,所述选择器还用于,至少部分地基于用户输入不确定度度量来做所述选择。此外,所述用户输入不确定度度量是基于提供了所述输入的人的不确定度的测量的函数。此外或可选地,所述选择器还使用用户输入历史学习功能。
根据本发明的优选实施例,还提供了一种计算机辅助语言校正系统,包括:怀疑词识别功能,接收多个词语言输入并且提供指示怀疑词的怀疑词输出;特征识别功能,用于识别包括所述怀疑词的特征;备选词选择器,识别用于所述怀疑词的备选词;出现功能,使用语料库并提供出现输出,关于在所述语料库中词的使用频率来排序包括所述备选词的特征,;校正输出生成器,使用所述出现输出以提供校正输出,所述特征识别功能包括以下各项中的至少一个:N-gram识别功能;共同出现识别功能;以下各项中的至少一个:skip-gram识别功能、switch-gram识别功能,以及之前由用户使用的特征识别功能。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:语法错误怀疑器,基于在所述语言输入的上下文中词的适合度,评估语言输入中所述词的至少大部分;校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出。
优选地,所述的计算机辅助语言校正系统还包括:备选词生成器,基于所述语言输入,生成为在所述语言输入中的所述至少大部分词中的至少一个提供多个备选词的基于文本的表示;选择器,用于为所述语言输入中的所述至少大部分词中的所述至少一个的每一个,在至少所述多个备选词中进行选择,并且其中,所述校正生成器,用于基于由所述选择器做出的选择,提供所述校正输出。
根据本发明的优选实施例,所述的计算机辅助语言校正系统并且还包括:怀疑词输出指示器,其指示所述语言输入中的所述词的所述至少大部分的至少一些被怀疑为包含语法错误的程度。
优选地,所述校正生成器包括自动校正语言生成器,用于在不需要用户干预的情况下,至少部分地基于由所述怀疑器执行的评估,提供校正文本输出。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:语法错误怀疑器,评估语言输入中的词;备选词生成器,为由所述怀疑器评估为怀疑词的所述语言输入中的至少一些词生成多个备选词,用于所述语言输入中的词的所述多个备选词的至少一个与所述语言输入中的所述词的上下文特征一致;选择器,用于在至少所述多个备选词之间进行选择;校正生成器,用于至少部分地基于由所述检测器做出的选择,提供校正输出。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:语法错误怀疑器,评估语言输入中的词并且识别怀疑的词;备选生成器,生成用于所述怀疑词的多个备选词;选择器,根据多个选择标准对每一个所述怀疑的词以及为此由所述备选词生成器生成的所述多个备选词的一个进行评级,并且应用与为此由所述备选词生成器生成的所述多个备选词中的一个有关的所述怀疑的词有利的偏置;校正生成器,用于至少部分地基于由所述选择器做出的选择,提供校正输出。
优选地,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于由所述选择器做出的选择,提供校正语言输出。
根据本发明的另一个优选实施例,还提供了一种包括各种备选词校正的基于上下文计分的计算机辅助语言校正系统,至少部分地基于在互联网语料库中上下文特征序列(CFS)出现的频率。
优选地,所述计算机辅助语言校正系统还包括以下各项中的至少一个:与所述基于上下文计分协作的拼写校正功能、误用词校正功能、语法校正功能,以及词汇增强功能。
根据本发明的优选实施例,所述基于上下文计分还至少部分地基于在互联网语料库中的标准化CFS出现的频率。此外或可选地,所述基于上下文计分还至少部分地基于CFS重要性得分。此外,所述CFS重要性得分是以下各项中的至少一个的函数:词性标注和句子分析功能的操作;CFS长度;在CFS和CFS类型中的每一个词的出现的频率。
根据本发明的另一个优选实施例,还提供了一种包括词汇增强功能的计算机辅助语言校正系统,包括:词汇挑战的词识别功能;备选词词汇增强生成功能;基于上下文计分功能,其至少部分地基于在互联网语料库中上下文特征序列(CFS)出现的频率,所述备选词词汇增强生成功能,其包括词典预处理功能,用于生成备选词词汇增强。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:备选词生成器,基于输入句子,生成为所述句子中的多个词的每一个提供多个备选词的基于文本的表示;选择器,为了所述句子中的所述多个词的每一个,在至少所述多个备选词中选择;可信度分配器,用于将可信度分配到来自所述多个备选词的选择的备选词;校正生成器,用于基于所述选择器做出的选择并且至少部分地基于所述可信度,提供校正输出。
优选地,基于上下文特征序列(CFS)来评估所述多个备选词,并且所述可信度是基于以下参数中的至少一个:选择的CFS的数量、类型和得分;在CFS上下文中,所述多个备选词的出现的频率的统计显著性的测量;基于每一个所述CFS的优先选择度量和所述多个备选词的词相似性得分,选择所述多个备选词中的一个的一致性程度;所述多个备选词中的所述一个的不基于上下文相似性得分在第一预定的最低阈值以上;基于上下文数据可用性的程度,其由所述CFS的数量来指示,其中,所述CFS具有在第二预定最低阈值以上并且具有在第三预定阈值之上的优先选择得分。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:标点错误怀疑器,基于语言输入的上下文中的合适度,评估所述语言输入中的所述词和标点中的至少一些,其中,所述语言输入的合适度是基于互联网语料库中所述语言输入的feature-gram的出现的频率;校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出。
优选地,所述校正生成器包括丢失标点校正功能、冗余标点校正功能和标点替换校正功能中的至少一个。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:语法元素错误怀疑器,基于语言输入的上下文中的合适度, 评估所述语言输入中的所述词中的至少一些,其中,所述语言输入的合适度是基于互联网语料库中所述语言输入的feature-gram的出现的频率;校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出。
优选地,所述校正生成器至少包括丢失语法元素校正功能、冗余语法元素校正功能和语法元素替换校正功能中的至少一个。此外或可选地,所述语法元素是冠词、介词和连词中的一个。
附图说明
结合附图,根据以下详细的描述,将更全面地懂得并理解本发明,其中:
图1是用于根据本发明的优选实施例建造并操作的计算机辅助语言校正的系统和功能的简化的框图说明;
图2是说明了图1的系统和功能中优选地使用的拼写校正功能的简化的流程图;
图3是说明了图1的系统和功能中优选地使用的误用词和语法校正功能的简化的流程图;
图4是在图1的系统和功能中使用的、说明了词汇增强功能的简化的流程图;
图5是说明了图1的系统和功能中优选地使用的上下文特征序列(CFS)功能的简化的框图;
图6A是说明了根据本发明的优选实施例的图2的功能的拼写校正功能形成部分的简化的流程图;
图6B是说明了根据本发明的优选实施例的图3的功能的误用词和语法校正功能形成部分的简化的流程图;
图6C是说明了根据本发明的优选实施例的图4的功能的词汇增强功能形成部分的简化的流程图;
图7A是说明了用于生成在图2和3的功能中有用的备选词校正的功能的简化的流程图;
图7B是说明了用于生成在图4的功能中有用的备选词增强的功能的简化的流程图;
图8是说明了用于在图2的拼写校正功能中有用的各种备选词增强的不基于上下文词的基于相似性计分和基于上下文计分(优选地使用互联网语料库)的功能的简化的流程图;
图9是说明了用于在图3、10和11的误用词和语法校正功能以及在图4的词汇增强功能中有用的各种备选词校正的不基于上下文词的基于相似性计分和基于上下文计分(优选地使用互联网语料库)的功能的简化的流程图;
图10是说明了丢失冠词、介词和标点校正功能的操作的简化的流程图;以及
图11是冗余冠词、介词和标点校正功能的操作的简化的流程图。
具体实施方式
现在参照图1,其是用于根据本发明的优选实施例建造并操作的计算机辅助语言校正的系统和功能的简化的框图说明。如图1所示,从一个或多个源将校正文本提供给语言校正模块100,包括但并不限于:字处理功能102、机器翻译功能104、语音到文本转换功能106、光学字符识别功能108和任何其它文本源110,例如即时通信或互联网。
语言校正模块100优选地包括拼写校正功能112、误用词和语法校正功能114以及词汇增强功能116。
本发明的特定特征是拼写校正功能112、误用词和语法校正功能114以及词汇增强功能116中的每个都与上下文特征序列(CFS)功能118进行交互,所述上下文特征序列功能118使用互联网语料库120。
为了本描述的目的,定义了上下文特征序列或CFS,其包括N-gram、skip-gram、共同出现、“之前由用户特征使用”和其组合,参照图5下文依次对其进行定义。应当注意,为了描述的简便和清楚,以下的大多数示例仅使用n-gram。应当理解本发明并不限于此。
互联网语料库的使用很重要,因为它为极大量的上下文特征序列提供了显著的统计的数据,导致极为健壮的语言校正功能。在实践中,超过两个字的组合在传统的非互联网语料库中具有很少的统计,但是在互联网语料库中具有令人满意或良好的统计。
互联网语料库通常通过在互联网上爬行并从网站页面收集文本、从万维网收集的自然语言文本的大量代表性示例。优选地,还收集动态文本,例如聊天记录、来自网络论坛的文本和来自博客的文本。收集的文本用于积累关于自然语言文本的统计。互联网语料库的大小可以是,例如一万亿(1,000,000,000,000)字或几万亿字,与其形成对照的是,更典型的语料库大小为20亿字。网络的小的示例(例如,网络语料库)包括100亿字,其显著地小于由搜索引擎(例如, )建立索引的网络文本的百分之一。本发明可以与网络的示例(例如,网络语料库)一起工作,但是优选地它对文本校正的任务使用网络的显著地大的样本。
在以下两种方法中的一种中优选地使用互联网语料库:
使用CFS作为搜索查询来使用一个或多个互联网搜索引擎。每个这种查询的结果的数量提供了该CFS的出现的频率。
随着时间的过去,通过爬行并索引互联网来建立本地索引。每个CFS的出现的次数提供了CFS频率。本地索引以及搜索查询可以基于互联网的可选择的部分并且可以用这些选择的部分来识别。类似的,可以排除或适当地权衡互联网的部分,以校正在互联网使用与通用语言使用之间的异常。用这种方法,可以对从语言使用方面来说可靠的网站(例如,新闻和政府网站)给出比其它网站(例如,聊天或用户论坛)更高的权重。
优选地,在开始的时候,将输入文本提供给拼写校正功能112,之后提供给误用词和语法校正功能114。输入文本可以是任何合适的文本并且在字处理的情况下优选地是文档的部分,例如句子。词汇增强功能116优选地在用户对文本的选择的情况下工作,其中所述本文已经被提供给拼写校正功能112并且提供给误用词和语法校正功能114。
优选地,语言校正模块100提供了输出,所述输出包括带有每个校正的词或词的组的一个或多个建议的备选词的校正的文本。
现在,参照图2,其是说明了图1的系统和功能中优选地使用的拼写校正功能的简化的流程图。如图2所示,拼写校正功能优选地包括以下步骤:
识别输入文本中的拼写错误,优选地使用扩充了通常在互联网使用的专有名称和专有词的传统字典。
将拼写错误分成簇(所述簇可以包括连续的或几乎连续的、具有拼写 错误的单个或多个词)并且选择用于校正的簇。该选择尝试发现包含最大数量的校正基于上下文的数据的簇。优选地,选择具有在其附近正确拼写的词的最长序列或多个序列的簇。参照图6A,下文更详细地描述上述步骤。
优选地基于参照图7A下文描述的算法,来生成用于每个簇的一个备选校正或优选地生成用于每个簇的多个备选校正;
至少部分地不基于上下文的词基于相似性的计分和基于上下文的计分,优选地基于参照图8下文描述的拼写校正备选词计分算法,来优选地使用各种备选校正的互联网语料库;
对于每个簇,基于上述得分来选择单个拼写校正并示出大多数优选备选的拼写校正;以及
为每个误拼写的簇提供包括单个拼写校正的校正文本输出,所述校正文本输出代替了误拼写簇。
根据以下示例的考虑,可以更好地理解图2的功能的操作:
接收以下输入文本:
Physical ecudation can assits in strenghing muscles.Some students shouldeksersiv daily to inprove their strenth and helth becals thay ea so fate.
以下词被识别为拼写错误:
ecudation,assits;strenghing;eksersiv;inprove;strenth;helth;becals;thay,ea应当注意,“fate”没有被识别为拼写错误,因为它出现在字典中。
如表1所示,选择以下的簇:
表1
 簇#   簇
  1   eksersiv
  2   inprove their strenth
  3   ecudation
  4   assits in strenghing
  5   helth becals thay ea
关于簇2,应当注意,“their”是正确拼写,但是仍然包括在簇中,因为它被误拼写词包围。 
选择簇1“eksersiv”来校正,因为它具有在其附近正确拼写词的最长 序列或多个序列。
为误拼写词“eksersiv”生成以下备选校正:
excessive,expressive,obsessive,assertive,exercise,extensive,exclusive,exertion,excised,exorcism.
基于对误拼写词的发音和字符串的相似性,给出每个备选校正的不基于上下文词相似性得分,例如,如表2所示:
表2
  备选词   非上下文词相似性得分
  excessive   0.90
  expressive   0.83
  exercise   0.80
  exorcism   0.56
可以用各种方法来得出不基于上下文得分。一个示例是通过使用Levelnshtein距离算法,其可以在http://en.wikipedia.org/wiki/Levenshteindistance上找到。该算法可以意指字符串、词语音表达或其组合。 
如表3所示,基于在输入句子的上下文中其适合度,还给出每个备选词的上下文得分。在该示例中,其使用的上下文是“Some students should<eksersiv>daily”。
表3
  备选词 “Some students should <eksersiv>daily”的 上下文得分   不基于上下文词的  相似性得分
  excessive   0.00   0.90
  expressive   0.00   0.93
  exercise   1.00   0.80
  exorcism   0.00   0.56
  excised   0.16   0.62
上下文得分是参照图8按照下文描述来优选地得出的并且是基于互联网语料库中的上下文特征序列(CFS)频率。
参照图8,按照下文描述的,基于上下文得分和不基于上下文相似性得 分的组合,选择词“exercise”作为最佳备选词。
以相似的方式来校正所有簇。拼写校正输入文本,根据本发明的优选实施例的以下的拼写校正是:
Physical education can assist in strengthening muscles.Some studentsshould exercise daily to improve their strength and health because they are sofate.
应当注意,在拼写校正输入文本中仍然有误用词。词“fate”需要通过参照图3下文描述的误用和语法校正算法来校正。
现在参照图3,其是说明了图1的系统和功能中优选地使用的误用词和语法校正功能的简化的流程图。误用词和语法校正功能提供了拼写正确但在输入文本的上下文中是误用的词的校正,以及包括语法上不正确的词代替了语法上正确的词的使用、冗余词和丢词和标点的使用的语法错误的校正。
如图3所示,误用词和语法校正功能优选地包括以下步骤:
通过优选地评价输入句子的上下文内的词的至少大部分的适合度,来识别怀疑的误用词和具有从图2的拼写校正功能输出的拼写校正输入文本中的语法错误的词;
将怀疑的误用词和具有语法错误的词分成簇,所述簇优选地是不重叠的;以及
选择用于校正的簇。识别、分组和选择步骤优选地基于参照图6B下文描述的算法。
优选地基于参照图7A下文描述的备选校正生成算法,来为每个簇生成一个或优选地生成多个备选校正; 
基于参照图10下文描述的丢失的冠词、介词和标点校正算法,来为每个簇生成一个或优选地生成多个备选校正;
基于参照图11下文描述的冗余的冠词、介词和标点校正算法,来为每个簇生成一个或优选地生成多个备选校正;
优选地基于参照图9下文描述的误用词和语法校正备选词计分算法,至少部分地基于上下文和词的基于相似性来对各种备选校正计分;
对于每个簇,也参照图9按照下文描述的上述计分,来选择单个误用 词和语法校正并示出最优选的备选误用词和语法校正;以及
为每个簇提供包括单个误用词和语法校正的拼写、误用词和语法校正文本输出,所述簇代替不正确的簇。
优选地,计分包括:为此应用与多个备选词中的一个相比有利于怀疑的词的偏置,所述偏置是指示了提供输入的人的不确定度的输入不确定度的度量的函数。
根据以下示例的考虑,可以更好地理解图3的功能的操作:
接收以下输入文本:
I have money book
将以下词识别为怀疑的误用词:
money,book
生成以下簇:
money book
以下是备选校正的示例,其为簇而生成(部分的列出):
money books;money back;money box;money bulk;money Buick;moneyebook;money bank;mini book;mummy book;Monet book;honey book;mannerlybook;mono book;Monday book;many books;mini bike;mummy back;monkeybunk;Monday booked;Monarchy back;Mourned brook
在表4中示出了使用互联网语料库基于上下文和不基于上下文词的基于相似性的得分的至少部分的上下文计分的结果:
表4
  簇   不基于上下文  相似性得分   上下文  得分   总分
  money back   0.72   0.30   0.216
  many books   0.84   1.00   0.840
  mini bike   0.47   0.75   0.352
  money box   0.79   0.40   0.316
  money bank   0.65   0.50   0.325
  Monday booked   0.70   0.50   0.350
  monkey bunk   0.54   0.00   0.000
可以理解,存在得到总分的各种方法。优选的总分是基于参照图9下文描述的算法。
基于上述计分,选择备选词“many book”。因此,校正文本是:
I have many book
现在参照图4,其是说明了图1的系统和功能中使用的词汇增强功能的简化的流程图。如图4所示,词汇增强功能优选地包括以下步骤:
识别词汇挑战,其中所述词在从图3的误用词和语法校正功能输出的,在拼写、误用词和语法校正输入文本中,具有怀疑的不是最理想的词汇的使用;
将词汇挑战分成簇,其优选的是不重叠的;
选择用于校正的簇。识别、分组和选择步骤是优选地基于参照图6C下文描述的算法。
优选地基于参照图7B下文描述的词汇增强生成算法,来为每个簇生成一个或优选地生成多个备选词汇增强;
不基于上下文词的基于相似性的计分和上下文计分,优选地基于参照图9下文描述的词汇增强备选词计分算法,来优选地使用各种备选词汇增强的互联网语料库;
对于每个簇,基于参照图9下文还描述的上述计分,来选择单个词汇增强并示出最优选的备选词汇增强;以及 
为每个不是最理想的词汇簇提供词汇增强建议。
根据以下示例的考虑,可以更好地理解图4的功能的操作:
提供以下的拼写、误用词和语法校正输入文本:
Wearing colorful clothes will separate us from the rest of the children in theschool.
使用参照图6C下文描述的功能,为词汇增强选择以下簇:
separate
使用参照图7B下文描述的功能,基于图7B中描述的预处理词汇数据库(部分的列表),来生成如表5所示的以下备选簇校正: 
表5
  词   互联网语料库   预处理
    中出现频率   丰富性得分
  Furcated   1500   1.00
  Disjoin   7800   0.97
  Classify   1530500   0.93
  Discriminate   1600400   0.91
  Differentiate   1805600   0.90
  Divide   4605800   0.88
  Distinguish   4640900   0.88
  Split   14003700   0.75
  Branch   17106200   0.75
  Separate   32765953   0.73
  Break   39643000   0.72
  Part   211805500   0.66
至少部分地基于输入文本的上下文内的词的合适度并且还基于备选词的词意与词汇挑战“separate”的相似度,使用互联网语料库来对各种备选词汇增强计分。 
使用参照图5下文描述的功能,生成以下的CFS(部分地列出):
′will separate′,′separate us′,′clothes will separate′,′will separate us′,′separate us from′
使用参照图9的阶段IIA下文描述的功能,为CFS的上述列表中的备选簇校正的部分列表生成在表6所示的互联网语料库中的出现频率的矩阵:
表6
  CFS/备选词簇校正   will  separate   separate  us   clothes  will  separate   will  separate  us   separate  us from
  Classify   18180   1270   0   0   0
  Discriminate   6440   215   0   0   0
  Differentiate   24420   8365   0   740   5555
消除所有备选校正的出现的频率为零的所有CFS。在该示例中,消除以下feature-gram:
′clothes will separate′
所以,消除全部包括在至少具有出现的最低阈值频率的其它CFS中的所有CFS。例如,消除以下feature-gram:
′will separate′,′separate us′
在该示例中,剩余的CFS是feature-gram:
′will separate us′,′separate us from′
使用参照图9在阶段IID和IIE中下文描述的最终优先选择得分,选择备选“differentiate”,增强的句子是:
Wearing colorful clothes will differentiate us from the rest of the children inthe school.
现在参照图5,其是说明了在用于本发明的优选实施例的计算机辅助语言校正的系统和功能中有用的上下文特征序列(CFS)功能118(图1)的简化的框图。
CFS功能118优选地包括特征提取功能,其包括N-gram提取功能以及可选的至少一个skip-gram提取功能;switch-gram提取功能;共同出现提取功能;之前由用户使用的特征提取功能。
术语N-gram是技术的已知术语,指代输入文本中的N个连续词的序列。N-gram提取功能可以使用传统的词性标注(part-of-speech tagging)和句子分析功能以避免生成基于语法考虑不期望在语料库(优选的是互联网语料库)中高频率出现的某种n-gram。
为了本描述的目的,术语“skip-gram提取功能”意味着功能上用于提取“skip-gram”,所述“skip-gram”是修改的n-gram,所述n-gram省略了一些不重要的词或短语,例如形容词、副词、形容词短语和副词短语,或者所述n-gram仅包含具有预定的语法关系的词,例如主语-动词、动词-宾语、副词-动词或动词-时间短语。skip-gram提取功能可以使用传统的词性标注和句子分析功能来帮助确定在给定的上下文中可以跳过哪些词。
对于本描述的目的,术语“switch-gram提取功能”意味着识别“switchgram”的功能,所述“switch-gram”是修改的n-gram,其中,转换一些词的出现顺序。switch-gram提取功能可以使用传统的词性标注和句子分析功能来帮助确定在给定的上下文中可以转换哪些词的出现顺序。
为了本描述的目的,术语“共同出现提取功能”意味着识别在输入句子或包含多个输入句子的输入文档中的词的组合,所述功能具有用于在输入文本而不是在N-gram、switch-gram或skip-gram中包括的那些的输入文本词共同出现,以及指示到输入词和方向的距离,在此之后过滤除经常出现的词,例如介词、冠词、连词和其功能主要是起语法作用的其它词。
为了本描述的目的,术语“之前由用户使用的特征提取功能”意味着识别用户在其它文档中使用的词,在此之后滤除经常出现的词,例如介词、冠词、连词和其功能主要是起语法作用的其它词。
为了本描述的目的,N-gram、skip-gram、switch-gram和其组合被称为feature-gram。
为了本描述的目的,N-gram、skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合被称为上下文特征序列或CFS。
图5的功能优选地对输入文本中的单独的词或词的簇进行操作。
根据以下示例的考虑,可以更好地理解图5的功能的操作:
提供以下的输入文本:
Cherlock Homes the lead character and chief inspecter has been cold in bythe family doctor Dr Mortimer,to invesigate the death of sir Charles
对于输入文本中的簇“Cherlock Homes”,生成以下的CFS:
N-gram:
2-gram:Cherlock Homes;Homes the
3-gram:Cherlock Homes the;Homes the lead
4-gram:Cherlock Homes the lead;Homes the lead character
5-gram:Cherlock Homes the lead character
Skip-gram:
Cherlock Homes the character;Cherlock Homes the chiefinspecter;Cherlock Homes the inspecter;Cherlock Homes has been cold
Switch gram:
The lead character Cherlock Homes
输入文本中的共同出现:
Character;inspector;investigate;death
包含输入文本的文档中的共同出现:
Arthur Conan Doyle;story
用户的其它文档中的共同出现:
mystery
对于输入文本中的簇“cold”,生成以下的CFS:
N-gram:
2-gram:been cold;cold in
3-gram:has been cold;been cold in;cold in by
4-gram:inspector has been cold;has been cold in;been cold in by
5-gram:chief inspector has been cold;inspector has been cold in;has beencold in by;been cold in by the;cold in by the family
Skip-gram:
cold in to investigate;Chedock has been cold;cold by the doctor;cold by DrMortimer;character has been cold
基于以下中的至少一个,对每个CFS给出“重要性得分”,优选的是以下中的多于一个,并且最优选的是以下中的所有:
a、传统的词性标注和句子分析功能的操作。给包括多个分析树节点的CFS相对低的得分。CFS中包括的分析树节点的数量越多,该CFS的得分越低。
b、CFS的长度。CFS越长,得分越高。
c、在CFS而不是输入词中每个字的出现频率。这种词的出现频率越高,得分越低。
d、CFS的类型。例如,N-gram比共同出现优选。输入句子中的共同出现比输入文档中的共同出现优选,并且输入文档中的共同出现比“之前用户使用的特征”优选。
参照上述示例,如表7所示为典型的得分;
表7
  CFS类型   CFS   得分
  N-gram:2-gram   Cherlock Homes   0.50
  N-gram:2-gram   Homes the   0.30
  N-gram:3-gram   Cherlock Homes the   0.70
  N-gram:3-gram   Homes the lead   0.70
  N-gram:4-gram   Cherlock Homes the lead   0.90
  N-gram:4-gram   Homes the lead character   0.90
  N-gram:5-gram   Cherlock Homes the lead character   1.00
  Skip-gram   Cherlock Homes the character   0.80
  Skip-gram   Cherlock Homes the chief inspecter   0.95
  Skip-gram   Cherlock Homes the inspecter   0.93
  Skip-gram   Cherlock Homes has been cold   0.93
  Switch gram   The lead character Cherlock Homes   0.95
  在输入文本中共同出现   Character   0.40
  在输入文本中共同出现   Inspector   0.40
  在输入文本中共同出现   Investigate   0.40
  在输入文本中共同出现   Death   0.40
  在包含输入文本的  文档中的共同出现:   Arthur Conan Doyle   0.50
  在包含输入文本的  文档中的共同出现:   Story   0.30
  在用户的其它文档中的共同出现   Mystery   0.20
基于互联网语料库中的CFS出现频率,为了各种备选簇校正的基于上下文的得分,参照图8和9下文描述的功能中使用这些CFS和它们的重要性得分。
现在参照图6A,其是说明了用于识别输入文本中的误拼写词的功能;将误拼写词分成簇,其优选的是非重叠的;选择用于校正的簇。
如图6A所示,通过使用扩充了通常在互联网使用的专有名称和专有词的传统的字典,来优选地执行对误拼写词的识别。
通过将连续的或几乎连续的误拼写词分到带有具有语法关系的误拼写词的单个簇中,来优选地执行将误拼写词分成簇。
通过尝试找到包含大量不怀疑的基于上下文数据的簇,来优选地执行选择用于校正的簇。优选地,选择具有在正确拼写词附近的最长序列或多 个序列的簇。
现在参照图6B,其是说明了用于识别在拼写校正输入文本中的怀疑的误用词和具有语法错误的词;将怀疑的误用词和具有语法错误的词分成簇,其优选的是不重叠的;选择用于校正的簇。
按照以下来优选地执行识别怀疑的误用词:
在拼写校正输入文本中为每个词生成feature-gram
注意在语料库(优选的是互联网语料库)中的每个feature-gram的出现的频率;
注意用于每个词的怀疑的feature-gram的数量。怀疑的feature-gram具有比它们的期望的频率显著地低的频率或者在最低频率阈值以下的频率。基于feature-gram的组成元素和其组合来估计feature-gram的期望频率。
如果包含词的怀疑的feature-gram的数量超过预定的阈值,那么词受到怀疑。
根据本发明的优选实施例,确定语料库(优选的是互联网语料库)中的拼写校正输入文本中的每个feature-gram的出现频率(FREQ F-G)。还确定在该语料库中拼写校正输入文本中的每个词的出现的频率(FREQ W),并且还确定没有该词的每个feature-gram的出现的频率(FREQ FG-W)。
按照以下来计算每个feature-gram的出现的期望频率(EFREQ F-G):
EFREQ F-G=FREQ F-G-W*FREQ W/(在
互联网语料库中的所有词的总频率)
如果语料库(优选的是互联网语料库)中拼写校正输入文本中的每个feature-gram的出现的频率与每个feature-gram的期望的出现频率之比,即FREQ F-G/EFREQ F-G比预定的阈值小,或者如果FREQ F-G比另一个预定的阈值低,那么feature-gram将被认为是怀疑的feature-gram。包括在怀疑的feature-gram的每个词将被认为是怀疑的误用词或者具有怀疑的语法错误的词。
根据以下示例的考虑,可以更好地理解:用于识别拼写校正输入文本中的怀疑的误用词和具有语法错误的词的图6B的功能的操作:
提供以下拼写校正输入文本:
I have money book
feature-gram包括以下:
I;I have;I have money;I have money book
表8指示了上述feature-gram的互联网语料库中的出现的频率:
表8
  词/频  率   1-GRAM   2-GRAMS   3-GRAMS   4-GRAMS
  I   I  2744650600   I have  154980000   I have money  24600   I have money  book 0
  Have   have  1500601100   have money  390300   have money book  0  
  Money   money  124877160   money book  3100    
  Book   book  164065000      
按照如下为每个2-gram计算期望的出现频率:
EFREQ F-G=(FREQ F-G-W*FREQ W)/(在
互联网语料库中的所有词的总频率)
例如,对于2-gram,
2-gram(x,y)的期望的2-gram频率=(x的1-gram频率*y的1-gram频率)/在互联网语料库中词的数量。例如,一万亿(1,000,000,000,000)个词。
按照如下来计算在语料库(优选的是互联网语料库)中拼写校正输入文本中的每个feature-gram的出现频率与每个feature-gram的期望的出现频率之比:
FREQ F-G/EFREQ F-G
表9中示出了在语料库(优选的是互联网语料库)中拼写校正输入文本中的每个上述2-gram的出现频率与每个上述2-gram的期望的出现频率之比:
表9
  2-GRAMS   FREQ F-G   EFREQ F-G   FREQ F-G/EFREQ F-G
  I have   154980000   4118625.7   37.60
  have money   390300   187390.8   2.08
  money book   3100   20487.9   0.15
可以看出,“money book”的FREQ F-G比其期望的频率显著地低,因此FREQ F-G/EFREQ F-G可以被认为比预定阈值(例如,1)低,所以簇“money book”受到怀疑。
可以看出,包括词“money book”的3-gram和4-gram都在互联网语料库中具有零频率。这也可以是认为“money book”受到怀疑的根据。
按照如下优选地执行将怀疑的误用词和具有语法错误的词分到簇中:将连续或几乎连续的怀疑的误用词分到单个簇中;在它们自身之间具有语法关系的怀疑的误用词被分到相同的簇。
通过尝试找到包含最大数量的不怀疑的上下文数据的簇,来优选地执行选择用于校正的簇。优选地,选择具有在其附近的不怀疑的词的最长序列或多个序列的簇。
现在参照图6C,其是说明了用于识别在拼写、误用词和语法校正输入文本中具有怀疑的不是最理想的词汇的使用的词汇挑战;将词汇挑战分成簇,其优选的是不重叠的;选择用于校正的簇。
按照如下优选地执行识别词汇挑战:
对词典进行预处理以便为每个词分配语言丰富性得分,所述每个词指示了在等级中词的级别,其中,书面语言比口语更优选;其中,在互联网资源中,例如,文章和图书比聊天和论坛优选,并且其中,较少使用的词比更常使用的词更优选;
还对词典进行预处理以基于之前预处理步骤和语法规则的结果来消除不太可能用于词汇增强的候选者;
额外的预处理,其用于指示每个剩余的词、具有比输入词的语言丰富性得分高的词汇增强的候选者;以及
检查拼写、误用词和语法校正输入文本中的每个词是否作为多个预处理词典中的剩余词出现,并且识别每个这种词,哪个作为剩余的词出现,哪个作为用于词汇增强的候选者出现。
将词汇挑战分成簇(所述簇优选的是不重叠的)是可选的并且按照如下优选地执行:
将连续的词汇挑战分到单个簇中;以及
将具有语法关系的挑战的词分到相同的簇中。
通过尝试找到包含最大数量的非词汇挑战的词的簇来优选地执行选择用于校正的簇。优选地,选择在其附近的非词汇挑战的词的最长序列或多个序列。
现在参照图7A,其是说明了用于生成在图2和图3的功能中有用的簇的备选校正的功能。
如果原始输入词是正确拼写的,那么它被认为是备选词。
如图7A所示,对于簇中的每个词,以如下方式来初始地生成多个备选校正:
来自字典的多个词,类似于簇中的每个词,都基于以字符串相似度来表示的、词的书写外观并基于发音或语音相似度来检索。该功能是已知的并且作为免费软件在互联网上是可用的,例如GNU Aspell和 Gspell。检索和优先词提供了第一多个备选校正。例如,给出的输入词feezix,基于相似的发音,将从字典检索到词“physics”,尽管它仅具有一个共同字符,即“i”。基于其字符串的相似度来检索词“felix”,尽管它并不具有相似的发音。
可以通过使用基于已知的备选使用以及积累的用户输入的规则来生成额外的备选词。例如,u→you,r→are,Im→I am。
可以基于语法规则(优选地使用预定义列表)来生成其它备选词。以下是几个示例:
单数/复数规则:如果输入句子是“leaf fall off trees in the autumn”,那么生成复数备选词“leaves”。
冠词规则:如果输入文本是“a old lady”,那么生成备选冠词“an”和“the”。
介词规则:如果输入文本是“I am interested of football”,那么生成备选介词“in”、“at”、“to”、“on”、“through”等。
动词变形规则:如果输入文本是“He leave the room”,那么生成备选动词变形“left”、“leaves”、“had left”等。
合并词和拆分词规则:如果输入文本是“get a lot fitter”,那么生成备选 词“a lot”。
如果输入文本是“we have to wat ch out”,那么生成备选词“watch”。
如果输入文本是“do many sittups”,那么生成备选词“sit ups”。
本发明的优选实施例的特定特征是:使用上下文信息(例如,CFS以及更具体地说是feature-gram)来生成备选校正,并且不仅用于存储这种“上下文的检索”的备选校正。可以从现有的语料库(例如,互联网语料库)检索经常出现词的组合(例如,CFS以及更具体地说是feature-gram)。
以下示例说明了本发明的该方面:
如果输入句子是:“The cat has kts”,词“kts”可能与词“kittens”在发音或书写上不十分相似,由于缺少本发明的该方面,“kittens”可能不是备选词中的一个。
根据本发明的该方面,通过在通常出现在n-gram“cat has”之后(即,在查询“cat has*”中发现作为*的所有词)的词的互联网语料库中查找,来检索以下的备选词:
nine lives;left;fleas;dandruff;kittens;tapeworms;adopted;retractile-claws;been;urinated;diarrhea;eaten;swallowed;hairballs;gone;always been
根据本发明的优选实施例,然后过滤“基于上下文检索的”备选词,以使得具有与原始词有某种发音或书写相似的基于上下文检索的备选词,在本发明的示例为“kts”,仅该词保留。在该示例中,检索到具有最相似的发音和书写的备选词“kittens”。
其中通过外部系统(例如,光学字符识别、语音到文本或机器翻译系统)自动地生成输入文本,可以直接地从这种系统直接地接收额外的备选词。通常,在这种系统的操作的过程中生成这种额外备选词。例如,在机器翻译系统中,可以将外语词汇的备选翻译提供给本系统以作为备选词来使用。
一旦生成了在簇中的每个词的所有备选词,通过确定各种备选词的所有可能组合并且随后基于在语料库(优选的是互联网语料库)中的备选词的出现频率来过滤组合,生成用于整个簇的簇备选词。
以下示例是说明性的:
如果输入簇是“money book”,并且用于词“money”的备选词是:
Monday;many;monkey
并且用于词“book”的备选词是:
books;box;back
生成以下的簇备选词:
money books;money box;money back;Monday books;Monday box;Monday back;many books;many box;many back;monkey books;monkey box;monkey back;many book;monkey book;Monday book
现在参照图7B,其是说明了用于生成簇的备选词增强的功能的简化的流程图,所述功能在图4的功能中有用。
如在图7B中所示,以如下方式来初始地生成多个备选词增强:
如果原始输入词拼写正确,它被认为是备选词。
检索来自词典或其它词汇数据库(例如,在互联网上免费可用的Princeton WordNet,其与在簇中的每个词在语言上有关,作为同义词、超集或子集)的多个词。检索和优先词提供了第一多个备选词增强。
通过使用基于已知的备选词使用以及积累的用户输入的规则来生成额外的备选词。
本发明的优选实施例的特定特征是:使用上下文信息(例如,CFS以及更具体地说是feature-gram)来生成备选词增强,并且不仅用于存储这种“基于上下文的检索”的备选词增强。可以从现有的语料库(例如,互联网语料库)检索经常出现词的组合(例如,CFS以及更具体地说是feature-gram)。
一旦生成了簇中的每个词的所有备选词,通过确定各种词的备选词的所有可能组合并且基于现有语料库(例如,互联网)中的得到的多个词的组合的出现频率来过滤组合,生成用于整个簇的备选词。
以下示例是图7B的说明性的功能:
提供了以下输入文本:
it was nice to meet you
由语言数据库(例如,Princeton WordNet)来生成用于词“nice”的以下备选词(部分地列出):
pleasant,good,kind,polite,fine,decent,gracious,courteous, considerate,enjoyable,agreeable,satisfying,delightful,entertaining,amiable,friendly,elegant,precise,careful,meticulous
通过应用预定的规则来生成用于词“nice”的以下备选词:
cool
例如响应于查询(例如,“it was*to meet”),生成用于词“nice”的以下基于上下文检索的备选词:
great;apleasure;wonderful;lovely;good;impossible;fun;awesome;refreshing;exciting;agreed;fantastic;decided;inspiring
现在参照图8,其是说明了用于在图2的拼写校正功能中有用的各种备选词增强的基于上下文和基于词相似性计分的功能的简化的流程图。
如在图8中所示,各种备选词校正的基于上下文和基于词相似性的计分按照以下大体的阶段进行:
I、不基于上下文计分-按照词的书写外观和发音相似性,基于与输入文本中的簇的相似性来对各种簇备选词计分。
II、使用互联网语料库的基于上下文计分-基于提取的上下文特征序列(CFS)(所述CFS是按照参照图5上文描述来提供的),还对每个各种簇备选词计分。该计分包括以下子阶段:
IIA、在参照图5按照上文描述提取的CFS的情况下,在由图7A的功能产生的各种备选词簇校正上,优选地使用互联网语料库,来执行出现频率的分析。
IIB、具体地说是基于子阶段IIA的出现频率的分析结果来执行各种CFS选择并且权衡各种CFS。权衡还基于各种CFS的相对固有的重要性。可以理解,可以对一些CFS给出零权重,因此不选择它们。优选地,对选择的CFS给出相对的权重。
IIC、将出现频率的度量分配到用于在子阶段IIB中的每个选择的CFS的每个备选校正。
IID、具体地说基于子阶段IIA的出现频率的分析结果、子阶段IIC的出现频率的度量、子阶段IIB的CFS选择和权重来生成备选簇校正的减少的组。
IIE、为了用作参考簇校正,从子阶段IID中的减少的组中选择在阶段 I中具有最相似的不基于上下文的相似性得分的簇。
IIF、将出现频率的度量分配到用于在阶段IIB中的每个选择的CFS的子阶段IIE的参考簇校正。
IIG、将比率度量分配到在子阶段IIB中的每个选择的CFS,所述比率度量代表:对于该特征,每个备选校正的出现频率的度量与分配给子阶段IIE的参考簇的出现频率的度量之比。
III、基于阶段I的结果和阶段II的结果来选择最优选的备选簇校正。
IV、将可信度等级得分分配到最优选的备选簇校正。
下文示出了在阶段II-IV中上文描述的功能的更为详细的描述:
参照子阶段IIA,按照图5中上文描述来生成包括要被校正的簇的所有CFS。消除包含怀疑的错误而不是在输入簇中的错误的CFS。
生成矩阵,其指示了在语料库(优选的是互联网语料库)中,用于每个CFS的簇的每个备选词校正的出现频率。消除用于出现频率为零的所有备选校正的所有CFS。消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有CFS。
以下示例说明了出现频率矩阵的产生:
提供以下输入文本:
I lik tw play outside a lot
使用参照图6A上文描述的功能,为了校正选择以下簇:
lik tw
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
like to;like two;lick two;lack two;lack true;like true
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′lik tw;′I lik tw;′lik tw play′;′I lik tw play′;′lik tw play outside′;′I lik twplay outside′;′lik tw play outside a′
使用参照阶段IIA上文描述的功能,为了在CFS的上述列表中的备选词簇校正的上述列表,生成在表10中所示的互联网语料库中的出现频率矩阵:
表10
  CFS/备   lik tw   I lik tw   lik tw   I lik   lik tw I lik tw   lik tw
  选词簇校  正       play   tw  play   play  outside   play  outside   play  outside
  like to   75094300   3097250   432200   80500   1000   330   0
  like two   327500   2400   0   0   0   0   0
  lick two   600   0   0   0   0   0   0
  lack two   1800   100   0   0   0   0   0
  lack true   3400   90   0   0   0   0   0
  like true   27500   350   0   0   0   0   0
消除用于出现频率为0的所有备选校正的所有CFS。在该示例中,消除以下feature-gram:
′lik tw play outside a′
所以,消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有CFS:
′lik tw′;′I lik tw′;′lik tw play′;′I lik tw play′;′lik tw play outside′
在该示例中,仅剩余的CFS是feature-gram:
′I lik tw play outside′
得到的矩阵按照表11所示出现:
表11
  CFS/备选词  簇校正 ′I lik tw playoutside′
  like to   330
  like two   0
  lick two   0
  lack two   0
  lack true   0
  like true   0
上述示例说明了根据本发明的优选实施例的矩阵的生成。在该示例中,很明显,“like to”是优选的备选校正。可以理解,在现实中,选择通常不是如此简单。因此,在下文示出的其它示例中,提供了用于在备选校正中做更为困难的选择的功能。
返回考虑子阶段IIB,可选地,参照图5按照上文描述的,为每个剩余的CFS计分。此外,包含在多个词输入的较早的校正迭代中引入的词并且具有在预定的可信度阈值以下的可信度的CFS是消极有偏置的。
在通常的情况下,类似于在子阶段IIC中上文描述的那样,生成标准化频率矩阵,其指示在互联网语料库中的每个CFS的标准化出现频率。通过将每个CFS频率除以有关簇备选词的出现频率的函数,通常根据频率矩阵生成标准化频率矩阵。
标准化用于抵消在各种备选校正的总体普及度中的实质差别的影响。适合的标准化因子是在不考虑特定CFS的情况下,基于在作为整体的语料库中各种备选校正的总体出现频率。
以下示例说明了标准化出现频率矩阵的生成:
提供以下输入文本:
footprints of a mysterious haund said to be six feet tall
使用参照图6A上文描述的功能,为了校正选择以下簇:
haund
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
hound;hand;sound
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′a mysterious haund′;′haund said′
使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成在表12所示的互联网语料库中的出现频率和标准化出现频率的矩阵:
表12
可以从上述示例中理解,由于在各种备选校正的总体普及度中的实质差异,具有最高出现频率的词并非必然具有最高的标准化出现频率。在上述示例中,“hound”具有最高的标准化出现频率,并且从输入文本的上下文显然可以看出,“hound”是正确词,而不是在互联网语料库中具有较高出现频率的“hand”。
本发明的特定特征是,标准化出现频率(其抵消在各种备选校正的总体普及度中的实质差异)优选地用于在备选校正中的选择。可以理解,出现频率的其它度量而不是标准化出现频率可以可选地或额外地用作度量。在出现频率相对低或特别地高的情况下,额外的或可选的度量是有益的。
根据以下的讨论将可以理解,额外的功能通常在各种备选词校正中选择是有用的。下文描述了这些功能。
在子阶段IID,消除根据以下两种度量的、不优选于另一个备选簇校正的每个备选簇校正:
i、具有比其它备选簇校正低的词相似性得分;以及
ii、对于所有CFS,比其它备选簇校正具有较低的出现频率并且还优选地具有较低的标准化的出现频率。
以下示例说明了按照上文描述的备选校正的消除:
提供了以下输入文本;
I leav un a big house
使用参照图6A上文描述的功能,为校正选择以下簇:
leav un 
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
leave in;live in;love in
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′I leav un a′;′leav un a big′
使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表13所示的互联网语料库中的出现频率和标准化的出现频率的矩阵:
表13
在该示例中,如在表14中指示了备选簇校正的不基于上下文相似性得分:
表14
  备选词簇  校正   相似性  总分
  leave in   0.9
  live in   0.8
  love in   0.7
因为“love in”比“live in”具有较低的相似性得分以及较低的出现频率和较低的标准化出现频率,所以消除备选簇校正“love in”。因为“leave in”的相似性得分比“live in”的得分高,因此在该阶段不消除备选簇校正“leavein”。
从上述可以理解,阶段IID的功能的操作的结果是减少的频率矩阵并且优选地也是减少的标准化频率矩阵,所述矩阵指示了出现频率并且优选地还指示了减少的多个备选校正中的每个的标准化出现频率,每个矩阵具有用于减少的多个CFS的每个的相似性得分。从以下示例可以看出,对于所有其它备选簇选择功能,优选地使用备选簇校正的减少的组。
对于在减少的频率矩阵和优选的在减少的标准化频率矩阵中的每个备选校正,生成最终优先选择度量。可以使用以下备选度量中的一个或多个来生成用于每个备选校正的最终优先选择得分:
下文使用的术语“频率函数”指代:频率、标准化频率或频率和标准化频率两者的函数。
A、一种可能的优先选择度量是在减少的矩阵或多个矩阵中的任何CFS 的减少的矩阵或多个矩阵中的每个备选簇校正的最高的出现频率函数。例如,将按照如下来对各种备选簇校正计分:
提供以下输入文本:
A big agle in the sky
使用参照图6A上文描述的功能,为了校正选择以下簇:
agle
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
ogle;eagle;angel
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′big agle′;′agle in the sky′
使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表15所示的互联网语料库中的出现频率和标准化的出现频率的矩阵:
表15
在该示例中,如在表16中指示了备选簇校正的不基于上下文相似性得分:
表16
  备选词  簇校正   详细性  得分
  ogle   0.97
  eagle   0.91
  angel   0.83
因为′eagle′具有最大出现频率的CFS,所以选择备选词′eagle′。
B、另一个可能的优先选择度量是用于每个备选校正的所有CFS的平均出现频率函数。例如,将按照如下对各种备选校正计分:
提供以下输入文本:
A while ago sthe lived 3 dwarfs
使用参照图6A上文描述的功能,为了校正选择以下簇:
sthe
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
the;they;she;there
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′ago sthe lived′;′sthe lived 3′
使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表17和18所示的互联网语料库中的出现频率、标准化出现频率和平均出现频率的矩阵:
表17
表18
应当注意,基于平均出现频率来选择“there”。
在该示例中,如在表19中指示了备选簇校正的不基于上下文相似性得分:
表19
  备选词  簇校正   相似性  得分
  the   0.97
  they   0.86
  she   0.88
  there   0.67
应当注意,不选择具有最高相似性得分的备选簇校正。
C、其它可能优先选择度量是对于每个CFS的出现频率函数的每个备选校正的所有CFS的加权和,其中所述每个CFS的出现频率函数是在参照图5上文描述的功能来计算时,通过乘以该CFS的得分得到的。
D、参照子阶段iiE-iiG按照上文描述的,通过任意一个或多个,并且更优选的以及最优选的是,关于在减少的矩阵或多个矩阵中的备选校正的所有以下操作,生成特定备选校正/CFS优先选择度量:
i、选择具有不基于上下文相似性最高的得分的备选簇校正作为参考簇。
ii、产生修改的矩阵,其中,在每个优先选择矩阵中,在每个feature-gram中的每个备选校正的出现频率函数由每个备选校正的出现频率函数与参考簇的出现频率函数之比来代替。
iii、进一步修改在ii中上文描述的类型的修改的矩阵,从而通过用于减少在比率中的很大差异的计算重要性的比率的函数来代替每个优先选择度量中的比率。合适的这种函数是对数函数。该操作的目的是不强调在最优选的备选校正的最终优先选择得分中的出现频率中的很大差异的重要性,而是维持在最终优先选择计分中的出现频率中的很大差异,因此消除 最不优选的备选校正。
iv、通过将合适的比率或在每个优先选择度量中的比率的函数乘以合适的CFS得分,来额外地修改在ii或iii中上文描述的类型的修改的矩阵。这提供了基于正确语法使用和在CFS得分中反映的其它因素的强调。
v、通过生成合适的比率的函数、比率的函数、出现频率和标准化的出现频率,来额外地修改在ii、iii或iv中上文描述的类型的修改的矩阵。通过将合适的比率或在每个优先选择度量中的比率的函数乘以该CFS的出现频率,来生成优选的函数。
E、通过将备选校正的相似性得分乘以用于该备选校正的所有CFS的特定备选校正/CFS优先选择度量的和,基于在D中上文描述的特定备选校正/CFS优先选择度量,计算用于每个备选校正的最终优先选择度量。
说明了这种修改的矩阵的使用的示例如下:
提供以下输入文本:
I will be able to tach base with you next week
使用参照图6A上文描述的功能,为了校正选择以下簇:
tach
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
teach;touch
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′ago to tach′;′to tach base′
使用参照上述子阶段IIA和IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表20所示的互联网语料库中的出现频率和标准化的出现频率的矩阵:
表20
应当注意,对于一个特征,“teach”的出现频率和标准化出现频率两者都比“touch”的出现频率和标准化出现频率高,但是对于另一个特征,“touch”的出现频率和标准化出现频率两者都比“teach”的出现频率和标准化出现频率高。为了做出备选校正的正确选择,按照下文描述,优选地使用参照子阶段IIG上文描述的比率度量。
在该示例中,如在表21中指示了备选簇校正的不基于上下文相似性得分:
表21
  备选词  簇校正   相似性  得分
  teach   0.94
  touch   0.89
可以看出,因为“teach”具有最高相似性得分,所以参考簇是“teach”。尽管如此,基于上文描述的最终优先选择得分,还是选择“touch”。这不是直觉,因为可以根据上述矩阵的考虑来理解,其中,所述矩阵指示了“teach”具有最高的出现频率和最高的标准化出现频率。在该示例中,因为用于其中有利于“touch”的特征的出现频率的比率远高于用于其中有利于“teach”的特征的出现频率的比率。 
F、可选地,使用以下决定规则中的一个或多个,基于用于该备选校正和用于参考簇的频率函数值和优先选择度量的比较,可以滤除备选校正:
1、滤除具有低于预定阈值的相似性得分并且具有CFS频率函数(所述CFS频率函数比用于指示一个特征的参考簇的CFS频率函数低,其中,所述至少一个特征具有比预定阈值高的CFS得分)的备选校正。
2、滤除具有低于预定阈值的相似性得分并且具有优先选择度量(所述优先选择度量比用于至少一个特征的预定阈值低,其中,所述特征具有比另一个预定阈值高的CFS得分)的备选校正。
3、a、确定每个CFS的CFS得分;
b、对于每个CFS,确定用于参考簇和用于备选校正的CFS频率函 数,由此确定参考簇或备选校正是否具有用于该CFS的较高频率函数;
c、对备选校正具有比参考簇较高的频率的CFS的CFS得分进行求和;
d、对参考簇具有比备选校正较高的频率的CFS的CFS得分进行求和;以及
e、如果c中的和比d中的和低,那么滤除备选校正。
以下示例说明了过滤上面描述的过滤功能。
提供了以下输入文本:
I am faelling en love
使用参照图6A上文描述的功能,为了校正选择以下簇:
faelling en
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
falling on;falling in;feeling on;feeling in
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′am faelling en′;′faelling en love′;′am faelling en love′;′I am faelling en′
使用参照本文子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表22所示的互联网语料库中的出现频率的矩阵:
表22
  CFS/备选词簇  校正   ′am  faelling en′  ′faelling en love′  ′am faelling en love′   ′I am  faelling en′
  falling on   200   40   0   185
  falling in   4055   341800   3625   3345
  feeling on   435   70   0   370
  feeling in   1035   1055   0   895
消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有CFS。例如,消除以下feature-gram:
′am faelling en′;′faelling en love′
在该示例中,剩余的CFS是feature-gram:
′am faelling en love′;′I am faelling en′
在该示例中,如在表23中指示了备选簇校正的不基于上下文相似性得分:
表23
  备选词  簇校正   相似性  得分
  falling on   0.89
  falling in   0.89
  feeling on   0.82
  feeling in   0.82
滤除备选校正“falling on”、“feeling on”和“feeling in”,因为对于CFS中的一个,它们的出现频率为0。
G、参照阶段III按照上文所讨论的,基于在A-E上文描述开发的最终优先选择度量,对在F中过滤后留下的备选校正建立排序。
H、如参照阶段IV上文讨论的,将可信度分配给选择的备选校正。基于以下参数中的一个或多个来计算该可信度:
a、按照在上述子阶段IIB中提供的选择的CFS的数量、类型和得分;
b、在CFS的情况下,各种备选簇连接的出现频率的统计显著性;
c、基于每个CFS的优先选择度量和各种备选校正的词相似性得分,同意备选校正的选择的程度;
d、在预定最低阈值以上的选择的备选簇连接的不基于上下文的相似性得分(阶段I)。
e、上下文数据可用的程度,由在减少的矩阵中的CFS的数量来指示,其中,所述矩阵具有在预定最小阈值以上的CFS得分并且比另一个预定阈值具有优先选择的得分。
如果可信度在预定的阈值以上,那么在没有用户交互的情况下实现选择的备选校正。如果可信度在预定的阈值以下但是在较低预定的阈值以上,那么实现选择的备选校正,但是引发了用户交互。如果可信度在较低的预定阈值以下,那么引发基于备选校正的优选的列表的用户选择。
以下示例是可信度得分的说明性使用:
提供以下输入文本:
He was not feeling wehl when he returned
使用参照图6A上文描述的功能,为了校正选择以下簇:
wehl
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
wale;well
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′was not feeling wehl′;′not feeling wehl when′;′feeling wehl when he′;′wehl when he returned′
使用参照本文子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表24所示的互联网语料库中的出现频率的矩阵:
表24
  CFS/备选词  簇校正  ′was not feeling wehl′  ′not feeling wehl when′   ′feeling wehl  when he′   ′wehl when  he returened′
  Wale   0   0   0   0
  Well   31500   520   100   140
上述示例说明:根据在上述H中阐述的所有标准,选择′well′而不是′wale′,因为′well′具有高的可信度。
在以下示例中,可信度有些低,这是由于以下事实:备选校正′back′具有比在CFS′bech in the summer′中的′beach′较高的出现频率,但是′beach′具有比在CFS′on the beech in′和′the bech in the′较高的出现频率。基于标准H(c),选择带有中间可信度的备选校正′beach′。
提供以下输入文本:
I like to work on the bech in the summer
使用参照图6A上文描述的功能,为了校正选择以下簇:
bech
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
beach;beech;back
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′on the bech in′;′the bech in the′;′bech in the summer′
使用参照子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表25所示的互联网语料库中的出现频率的矩阵:
表25
  CFS/备选词  簇校正   ′on the bech in′  ′the bech in the′  ′bech in the summer′
  Beach   110560   42970   2670
  Beech   50   55   0
  Back   15300   10390   20090
基于标准H(c),选择带有中间可信度的备选校正′beach′。
在以下示例中,基于标准H(a),可信度更低:
接收以下输入文本:
Exarts are restoring the British Museum′s round reading room
使用参照图6A上文描述的功能,为了校正选择以下簇:
Exarts
使用参照图7A上文描述的功能,生成以下备选词簇校正(部分地列出):
Experts;Exerts;Exits
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′Exarts are′;′Exarts are restoring′;′Exarts are restoring the;′Exarts arerestoring the British′
使用参照子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表26所示的互联网语料库中的出现频率的矩阵:
表26
  CFS/备选词  簇校正   ′Exarts are′   ′Exarts are  restoring′   ′Exarts are  restoring the′   ′Exarts are  restoring  the British′
  Experts   62540   0   0   0
  Exerts   140   0   0   0
  Exists   8225   0   0   0
消除出现频率为零的所有备选校正的所有CFS。在该示例中,消除以下feature-gram:
′Exarts are restoring′;′Exarts are restoring the′;′Exarts are restoring theBritish′
在该示例中,仅剩余的CFS是feature-gram:
′Exarts are′
从上述示例看出,在过滤过程中存留的CFS是“exart are”。因此,可信度相当低,因为选择仅基于单个CFS,其相对地短并且除了怀疑的词之外仅包括一个词,所述词是经常出现的词。
现在参照图9,其是说明了在图3、10和11的误用词和预防校正功能中有用的并且也在图4的词汇增强功能中有用的各种备选词校正的基于上下文和词的基于相似性得分的功能的简化的流程图。
如图9所示,各种备选词校正的基于上下文和词的基于相似性得分在以下大体的阶段中进行:
I、不基于上下文计分-按照词的书写外观和发音相似性,基于与输入文本中的簇的相似性来对各种簇备选词计分。
II、使用互联网语料库的基于上下文计分-基于提取的上下文特征序列(CFS)(所述CFS是按照参照图5上文描述来提供的),还对每个各种簇备选词计分。该计分包括以下子阶段:
IIA、在参照图5按照上文描述提取的CFS的情况下,在由图7A或7B的功能产生的各种备选词簇校正上,优选地使用互联网语料库,来执行出现频率的分析。
IIB、具体地说是基于子阶段IIA的出现频率的分析结果来执行各种CFS选择并且权衡各种CFS。权衡还基于各种CFS的相对固有的重要性。可以理解,可以对一些CFS给出零权重,因此不选择它们。优选地,对选择的CFS给出相对的权重。
IIC、将出现频率的度量分配到用于在子阶段IIB中的每个选择的CFS的每个备选校正。
IID、具体地说基于子阶段IIA的出现频率的分析结果、子阶段IIC的出现频率的度量、子阶段IIB的CFS选择和权重来生成备选簇校正的减少 的组。
IIE、选择输入簇作为参考簇校正来使用。
IIF、将出现频率的度量分配到用于在阶段IIB中的每个选择的CFS的子阶段IIE的参考簇校正。
IIG、将比率度量分配到在子阶段IIB中的每个选择的CFS,所述比率度量代表:对于该特征,每个备选校正的出现频率的度量与分配给子阶段IIB的参考簇的出现频率的度量之比。
III、基于阶段I的结果和阶段II的结果来选择最优选的备选簇校正。
IV、将可信度等级得分分配到最优选的备选簇校正。
IV、将可信度等级得分分配到最优选的备选簇校正。
下文示出了在阶段II-IV中上文描述的功能的更为详细的描述:
参照子阶段IIA,按照图5中上文描述来生成包括要被校正的簇的所有CFS。消除包含怀疑的错误而不是在输入簇中的错误的CFS。
生成矩阵,其指示了在语料库(优选的是互联网语料库)中,用于每个CFS的簇的每个备选词校正的出现频率。消除用于出现频率为零的所有备选校正的所有CFS。消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有CFS。
以下示例说明了出现频率矩阵的产生:
提供以下输入文本:
I lick two play outside a lot
使用参照图6B上文描述的功能,为了校正选择以下簇:
lick two
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
like to;like two;lick two;lack two;lack true;like true
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
‘lick two’;‘I lick two’;‘lick two play’;‘I lick two play’;‘lick two playoutside’;‘I lick two play outside’;‘lick two play outside a’
使用参照阶段IIA上文描述的功能,为了在CFS的上述列表中的备选词簇校正的上述列表,生成在表27中所示的互联网语料库中的出现频率矩阵:
表27
  CFS/备  选词簇  校正   lick two   I lick  two   lick two  play   I lick  two  play   lick  two  play  outside   I lick  two  play  outside   lick  two  play  outside
  like to   75094300   3097250   432200   80500   1000   330   0
  like two   327500   2400   0   0   0   0   0
  lick two   600   0   0   0   0   0   0
  lack two   1800   100   0   0   0   0   0
  lack true   3400   90   0   0   0   0   0
  like true   27500   350   0   0   0   0   0
消除用于出现频率为0的所有备选校正的所有CFS。在该示例中,消除以下feature-gram:
‘lick two play outside a′
所以,消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有CFS:
‘lick two′;‘I lick two′;‘lick two play′;‘I lick two play′;‘lick two play outside′
在该示例中,仅剩余的CFS是feature-gram:
‘I lick two play outside′
得到的矩阵按照表28所示出现:
表28
  CFS/备选词  簇校正  ′I lick two play outside′
  like to   330
  like two   0
  lick two   0
  lack two   0
  lack true   0
  like true   0
上述示例说明了根据本发明的优选实施例的矩阵的生成。在该示例中, 很明显,“like to”是优选的备选校正。可以理解,在现实中,选择通常不是如此简单。因此,在下文示出的其它示例中,提供了用于在备选校正中做更为困难的选择的功能。 
返回考虑子阶段II B,可选地,参照图5按照上文描述的,为每个剩余的CFS计分。此外,包含在多个词输入的较早的校正迭代中引入的词并且具有在预定的可信度阈值以下的可信度的CFS是消极有偏置的。
在通常的情况下,类似于在子阶段II C中上文描述的那样,生成标准化频率矩阵,其指示在互联网语料库中的每个CFS的标准化出现频率。通过将每个CFS频率除以有关簇备选词的出现频率的函数,通常根据频率矩阵生成标准化频率矩阵。
标准化用于抵消在各种备选校正的总体普及度中的实质差别的影响。适合的标准化因子是在不考虑特定CFS的情况下,基于在作为整体的语料库中各种备选校正的总体出现频率。
以下示例说明了标准化出现频率矩阵的生成:
提供以下输入文本:
footprints of a mysterious[hound/hand]said to be six feet tall
使用参照图6B上文描述的功能,为了校正选择以下簇:
hound
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
hound;hand;sound
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′a mysterious hound′;′hound said′
使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成在表29所示的互联网语料库中的出现频率和标准化出现频率的矩阵:
表29
可以从上述示例中理解,由于在各种备选校正的总体普及度中的实质差异,具有最高出现频率的词并非必然具有最高的标准化出现频率。在上述示例中,“hound”具有最高的标准化出现频率,并且从输入文本的上下文显然可以看出,“hound”是正确词,而不是在互联网语料库中具有较高出现频率的“hand”。
本发明的特定特征是,标准化频率(其抵消在各种备选校正的总体普及度中的实质差异)优选地用于在备选校正中的选择。可以理解,出现频率的其它度量而不是标准化出现频率可以可选地或额外地用作度量。在出现频率相对低或特别地高的情况下,额外的或可选的度量是有益的。
根据以下的讨论将可以理解,额外的功能通常在各种备选词校正中选择是有用的。下文描述了这些功能。
在子阶段IID,消除根据以下两种度量的、不优选于另一个备选簇校正的每个备选簇校正:
i、具有比其它备选簇校正低的词相似性得分;以及
ii、对于所有CFS,比其它备选簇校正具有较低的出现频率并且还优选地具有较低的标准化的出现频率。
以下示例说明了按照上文描述的备选校正的消除:
提供了以下输入文本;
I leave on a big house
使用参照图6B上文描述的功能,为校正选择以下簇:
leave on
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
leave in;live in;love in;leave on
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′I leave on a′;′leave on a big′
使用参照本文的阶段IIE上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表30所示的互联网语料库中的出现频率和 标准化的出现频率的矩阵:
表30
在该示例中,如在表31中指示了备选簇校正的不基于上下文相似性得分:
表31
  备选词簇  校正   相似性  总分
  leave in   0.9
  live in   0.8
  love in   0.7
  leave on   1.00
因为“love in”比“live in”具有较低的相似性得分以及较低的出现频率和较低的标准化出现频率,所以消除备选簇校正“love in”。因为“leave in”的相似性得分比“live in”的得分高,因此在该阶段不消除备选簇校正“leavein”。
从上述可以理解,阶段IID的功能的操作的结果是减少的频率矩阵并且优选地也是减少的标准化频率矩阵,所述矩阵指示了出现频率并且优选地还指示了减少的多个备选校正中的每个的标准化出现频率,每个矩阵具有用于减少的多个CFS的每个的相似性得分。从以下示例可以看出,对于所有其它备选簇选择功能,优选地使用备选簇校正的减少的组。
对于在减少的频率矩阵和优选的在减少的标准化频率矩阵中的每个备选校正,生成最终优先选择度量。可以使用以下备选度量中的一个或多个 来生成用于每个备选校正的最终优先选择得分:
下文使用的术语“频率函数”指代:频率、标准化频率或频率和标准化频率两者的函数。
A、一种可能的优先选择度量是在减少的矩阵或多个矩阵中的任何CFS的减少的矩阵或多个矩阵中的每个备选簇校正的最高的出现频率函数。例如,将按照如下来对各种备选簇校正计分:
提供以下输入文本:
I am vary satisfied with your work
使用参照图6B上文描述的功能,为了校正选择以下簇:
vary
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
vary;very
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′am vary′;′vary satisfied′;′I am vary satisfied with′
使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表32和33所示的互联网语料库中的出现频率和标准化的出现频率的矩阵:
表32
表33
可以看出,在该示例中,根据出现频率和标准化出现频率两者,“very”具有最高出现频率函数。
B、另一个可能的优先选择度量是用于每个备选校正的所有CFS的平均出现频率函数。例如,将按照如下对各种备选校正计分:
提供以下输入文本:
A while ago the lived 3 dwarfs
使用参照图6B上文描述的功能,为了校正选择以下簇:
the
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
the;they;she;there
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′ago sthe lived′;′sthe lived 3′
使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表34和35所示的互联网语料库中的出现频率、标准化出现频率和平均出现频率的矩阵:
表34
表35
应当注意,尽管“there”具有其在矩阵中最大的出现频率的CFS,但是基于平均出现频率来选择“they”。
在该示例中,如在表36中指示了备选簇校正的不基于上下文相似性得分:
表36
  备选词  簇校正   相似性  得分
  the   1.00
  they   0.86
  she   0.76
  there   0.67
应当注意,不选择具有最高相似性得分的备选簇校正。
C、其它可能优先选择度量是对于每个CFS的出现频率函数的每个备选校正的所有CFS的加权和,其中所述每个CFS的出现频率函数是在参照图5上文描述的功能来计算时,通过乘以该CFS的得分得到的。
D、参照子阶段IIE-IIG按照上文描述的,通过任意一个或多个,并且更优选的以及最优选的是,关于在减少的矩阵或多个矩阵中的备选校正的所有以下操作,生成特定备选校正/CFS优先选择度量:
i、选择来自被旋转用于校正的原始输入文本的簇作为参考簇。
ii、产生修改的矩阵,其中,在每个优先选择矩阵中,在每个feature-gram中的每个备选校正的出现频率函数由每个备选校正的出现频率函数与参考簇的出现频率函数之比来代替。
iii、进一步修改在ii中上文描述的类型的修改的矩阵,从而通过用于减少在比率中的很大差异的计算重要性的比率的函数来代替每个优先选择度量中的比率。合适的这种函数是对数函数。该操作的目的是不强调在最优选的备选校正的最终优先选择得分中的出现频率中的很大差异的重要性,而是维持在最终优先选择计分中的出现频率中的很大差异,因此消除最不优选的备选校正。
iv、通过将合适的比率或在每个优先选择度量中的比率的函数乘以合适的CFS得分,来额外地修改在ii或iii中上文描述的类型的修改的矩阵。这提供了基于正确语法使用和在CFS得分中反映的其它因素的强调。
v、通过将每个优先选择矩阵中的合适的比率或比率的函数乘以用户不确定度量的函数,来额外地修改在ii、iii或iv中上文描述的类型的修改的矩阵。用户输入不确定度量的一些示例包括:与在词处理器中执行的输入词或簇有关的编辑操作的数量,与文档的其它词有关的编辑操作;在词处理器中执行的输入词或簇的写入的时序,与文档的其它词的写入的有关时间以及在语音识别输入功能中执行的输入词或簇的说的时序,与该用户说的其它词有关的时间。用户输入不确定度度量提供了某用户如何选择该词的指示。该步骤得到参考簇的计算偏置并且由关于该簇的用户的确定度或不确定度的函数来修改。
vi、通过生成合适的比率的函数、比率的函数、出现频率和标准化的出现频率,来额外地修改在ii、iii或iv中上文描述的类型的修改的矩阵。通过将合适的比率或在每个优先选择度量中的比率的函数乘以该CFS的出现频率,来生成优选的函数。
E、通过将备选校正的相似性得分乘以用于该备选校正的所有CFS的特定备选校正/CFS优先选择度量的和,基于在D中上文描述的特定备选校正/CFS优先选择度量,计算用于每个备选校正的最终优先选择度量。
说明了这种修改的矩阵的使用的示例如下:
提供以下输入文本:
I will be able to teach base with you next week
使用参照图6B上文描述的功能,为了校正选择以下簇:
teach
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
teach;touch
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′ago to tach′;′to tach base′
使用参照上述子阶段IIA和IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表37所示的互联网语料库中的出现频率和标准化的出现频率的矩阵:
表37
应当注意,对于一个特征,“teach”的出现频率和标准化出现频率两者都比“touch”的出现频率和标准化出现频率高,但是对于另一个特征,“touch”的出现频率和标准化出现频率两者都比“teach”的出现频率和标准化出现频率高。为了做出备选校正的正确选择,按照下文描述,优选地使用参照子阶段IIG上文描述的比率度量。
在该示例中,如在表38中指示了备选簇校正的不基于上下文相似性得分:
表38
  备选词  簇校正   相似性  得分
  Teach   1.00
  touch   0.89
可以看出,因为“teach”具有最高相似性得分,所以参考簇是“teach”。尽管如此,基于上文描述的最终优先选择得分,还是选择“touch”。这不是直觉,因为可以根据上述矩阵的考虑来理解,其中,所述矩阵指示了“teach”具有最高的出现频率和最高的标准化出现频率。在该示例中,因为用于其中有利于“touch”的特征的出现频率的比率远高于用于其中有利于“teach” 的特征的出现频率的比率。
F、可选地,使用以下决定规则中的一个或多个,基于用于该备选校正和用于参考簇的频率函数值和优先选择度量的比较,可以滤除备选校正:
1、滤除具有低于预定阈值的相似性得分并且具有CFS频率函数(所述CFS频率函数比用于指示一个特征的参考簇的CFS频率函数低,其中,所述至少一个特征具有比预定阈值高的CFS得分)的备选校正。
2、滤除具有低于预定阈值的相似性得分并且具有优先选择度量(所述优先选择度量比用于至少一个特征的预定阈值低,其中,所述特征具有比另一个预定阈值高的CFS得分)的备选校正。
3、a、确定每个CFS的CFS得分;
b、对于每个CFS,确定用于参考簇和用于备选校正的CFS频率函数,由此确定参考簇或备选校正是否具有用于该CFS的较高频率函数;
c、对备选校正具有比参考簇较高的频率的CFS的CFS得分进行求和;
d、对参考簇具有比备选校正较高的频率的CFS的CFS得分进行求和;以及
e、如果c中的和比d中的和低,那么滤除备选校正。
以下示例说明了过滤上面描述的过滤功能。
提供了以下输入文本,通常是由语音识别功能输入:
I want[two/to/too]item,please
使用参照图6B上文描述的功能,为了校正选择以下簇:
[two/to/too]
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
too;to;two
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′I want two′;′want two items′
使用参照本文子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表39所示的互联网语料库中的出现频率的矩阵:
表39
  CFS/  备选词簇  校正   ′I want two′   ′want two items′
  Too   9900   0
  To   18286300   0
  two   8450   140
尽管“to”具有一个CFS的最高出现频率,但是因为它对另一个CFS来说出现频率为零,所以滤除备选词校正“too”和“to”。
G、参照阶段III按照上文所讨论的,基于在A-E上文描述开发的最终优先选择度量,对在F中过滤后留下的备选校正建立排序。
H、如参照阶段IV上文讨论的,将可信度分配给选择的备选校正。基于以下参数中的一个或多个来计算该可信度:
a、按照在上述子阶段IIB中提供的选择的CFS的数量、类型和得分;
b、在CFS的情况下,各种备选簇连接的出现频率的统计显著性;
c、基于每个CFS的优先选择度量和各种备选校正的词相似性得分,同意备选校正的选择的程度;
d、在预定最低阈值以上的选择的备选簇连接的不基于上下文的相似性得分(阶段I)。
e、上下文数据可用的程度,由在减少的矩阵中的CFS的数量来指示,其中,所述矩阵具有在预定最小阈值以上的CFS得分并且比另一个预定阈值具有优先选择的得分。
如果可信度在预定的阈值以上,那么在没有用户交互的情况下实现选择的备选校正。如果可信度在预定的阈值以下但是在较低预定的阈值以上,那么实现选择的备选校正,但是引发了用户交互。如果可信度在较低的预定阈值以下,那么引发基于备选校正的优选的列表的用户选择。
以下示例是可信度得分的说明性使用:
提供以下输入文本:
He was not feeling wale when he returned
使用参照图6B上文描述的功能,为了校正选择以下簇:
wale
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
wale;well
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′was not feeling wale′;′not feeling wale when′;′feeling wale when he′;′walewhen he returned′
使用参照本文子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表40所示的互联网语料库中的出现频率的矩阵:
表40
  CFS/备选词  簇校正  ′was not feeling wale′  ′not feeling wale when′   ′feeling wale  when he′   ′wale when  he returened′
  Wale   0   0   0   0
  Well   31500   520   100   140
上述示例说明:根据在上述H中阐述的所有标准,选择′well′而不是′wale′,因为′well′具有高的可信度。
在以下示例中,可信度有些低,这是由于以下事实:备选校正′back′具有比在CFS′bech in the summer′中的′beach′较高的出现频率,但是′beach′具有比在CFS′on the beech in′和′the bech in the′较高的出现频率。基于标准H(c),选择带有中间可信度的备选校正′beach′。
提供以下输入文本:
I like to work on the beech in the summer
使用参照图6B上文描述的功能,为了校正选择以下簇:
beech
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
beach;beech;back
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′on the beech in′;′the beech in the′;′beech in the summer′
使用参照子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表41所示的互联网语料库中的出现频率的矩阵:
表41
  CFS/备选词  簇校正   ′on the beech  in′   ′the beech in  the′   ′beech in the  summer′
  Beach   110560   42970   2670
  Beech   50   55   0
  Back   15300   10390   20090
基于标准H(c),选择带有中间可信度的备选校正′beach′。
在以下示例中,基于标准H(a),可信度更低:
接收以下输入文本:
Exarts are restoring the British Museum′s round reading room
使用参照图6B上文描述的功能,为了校正选择以下簇:
Exarts
使用参照图7A上文描述的功能,生成以下备选词簇校正(部分地列出):
Experts;Exerts;Exits
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′Exarts are′;′Exarts are restoring′;′Exarts are restoring the;′Exarts arerestoring the British′
使用参照子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表42所示的互联网语料库中的出现频率的矩阵:
表42
  CFS/备选词  簇校正   ′Exarts are′   ′Exarts are  restoring′   ′Exarts are  restoring  the′   ′Exarts are  restoring  the British′
  Experts   62540   0   0   0
  Exerts   140   0   0   0
  Exists   8225   0   0   0
消除出现频率为零的所有备选校正的所有CFS。在该示例中,消除以下feature-gram:
′Exarts are restoring′;′Exarts are restoring the′;′Exarts are restoring the British′
在该示例中,仅剩余的CFS是feature-gram:
′Exarts are′
从上述示例看出,在过滤过程中存留的CFS是“Exart are”。因此,可信度相当低,因为选择仅基于单个CFS,其相对地短并且除了怀疑的词之外仅包括一个词,所述词是经常出现的词。
以下示例说明了在上述阶段D和E中描述的最终优先选择得分度量的使用。
提供了一些输入文本:
Some kids don′t do any sport and sit around doing nothing and getting fastso you will burn some calories and get a lot fitter if you exercise.
使用参照图6B上文描述的功能,为了校正选择以下簇:
fast
使用参照图7A上文描述的功能,生成以下备选词簇校正(部分地列出):
fat;fast
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′and getting fast′;′getting fast so′;′fast so you′;′fast so you will′
使用参照本文的子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表43所示的互联网语料库中的出现频率的矩阵:
表43
 CFS/ 备选词簇 校正  ′and getting′   ′getting  fast so′  ′fast so you′   ′fast so  you will′
 CFS重要性得分   0.8   0.8   0.05   0.2
 Fast   280   20   6500   250
 Fat   1960   100   1070   115
在该示例中,在表44中指示了备选簇校正的不基于上下文得分: 
表44
  备选词  簇校正   相似性  得分
  fast   1
  fat   0.89
使用在上述阶段D和E中描述的最终优先选择得分度量,选择带有低可信度的备选词校正“fat”。
现在参照图10,其是说明了丢失项目校正功能的操作的详细的流程图。丢失项目校正功能用于校正丢失的冠词、介词、标点和在输入文本中主要是语法功能的其它项目。该功能优选地对从图1的拼写校正功能输出的拼写校正输入文本进行操作。
以如下方式优选地执行怀疑的丢失项目的识别:
初始,生成用于拼写校正输入文本的feature-gram。确定在语料库(优选地是互联网语料库)中拼写校正输入中的每个feature-gram的出现频率(FREQ F-G)。
按照如下来计算每个feature-gram的期望的出现频率(EFREQ F-G):
假定feature-gram包含n个词,被识别为W1-Wn
Wi代表feature-gram中的第i个词。
给定的feature-gram的期望的出现频率被认为是基于feature-gram中的词分配到随后的词W1...W(n-1)的每个的两个连续的部分的该feature-gram的最高期望的频率。
按照如下可以表示基于feature-gram中的词分配到随后的词Wi的两个连续的部分的feature-gram的期望的频率:
关于Wi的EFREQ F-G=(FREQ(W1-Wi)*FREQ(Wi+1-Wn))/(互联网语料库中的所有词的总频率)
计算基于feature-gram中的词分配到两个连续的部分的所有可能的每个feature-gram的期望的频率。
如果关于Wi的FREQ F-G/EFREQ F-G比预定的阈值低,那么从以下方面来说:在该feature-gram中,在Wi与Wi+1之间有丢失的冠词、介词或标点,认为关于Wi的feature-gram是怀疑的。
优选地通过尝试找到由最大量的不怀疑的上下文数据所包围的词的联 结点,为了校正选择在拼写校正输入文本中的两个连续词之间的怀疑词联结点。优选地,选择在其附近具有不怀疑的词的联结点的最长序列或多个序列。
优选地基于可能丢失的标点、冠词、介词、连词或其它项目(其通常不包括名词、动词或形容词)的预定义的组,为每个词联结点生成一个或优选地多个备选词插入。
优选地基于参照图9和下文、上文描述的校正备选词计分算法,来提供各种备选词插入的至少部分地基于上下文和词的基于相似性得分。
以下示例是说明性的:
提供以下输入文本:
I can′t read please help me
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
I can′t read;can′t read please;read please help;please help me
使用参照上文描述的功能,为了通常像表45那样出现的feature-gram的上述列表,生成在互联网语料库中的出现频率的矩阵:
表45
  FEATURE-GRAM   出现的频率
  I can’tread   5600
  can’t read please   0
  read please help   55
  please help me   441185
根据以下表示,为了关于feature-gram中的每个词Wi的每个feature-gram,计算期望的出现频率:
关于Wi的EFREQ F-G=(FREQ(W1-Wi)*FREQ(Wi+1-Wn))/(互联网语料库中的所有词的总频率)
在表46和47中可以看出一些这些计算的示例性的结果:
表46
  FEATURE-  GRAM   出现的  频率   关于“read”的  期望的频率   关于“read”的  FREQ F-G/关于  “read”的
       EFREQ F-G
  can’t read please   0   0  0
  read please help   55   220  0.25
表47
  FEATURE-GRAM   出现的频率
  read   157996585
  please help   1391300
从上述结果可以看出,每个feature-gram的实际出现频率比其期望的出现频率低。这指示了怀疑缺少了项目,例如标点。
生成在词“read”之后的备选插入的列表。该列表优选地包括标点、冠词、连词和介词的预定的列表。具体地说,它将包括句号“.”。
备选的部分列表是:
′read please′;′read.Please′;′read of please′;′read a please′
使用参照图5上文描述的功能,生成以下CFS:
′I can′t read[?]′;′read[?]please help′;,[?]please help me′
使用在图9的阶段IIA中描述的功能,为了CFS的上述列表中备选词簇校正的上述列表,生成表48中所示的互联网语料库中的出现频率的矩阵:
当“.”包括在簇中时,对于在′.′之前和之后的文本分别地检索包括带有′.′的簇。即,feature-gram“can’t read.Please”将不生成,因为它包括两个分离的语法分析短语。
表48
  CFS/备选词  簇校正 ‘can’t read[?]’  ‘can’t[?]please  help’   ‘[?]please help  me’
  read please   0   0   0
  read.Please   1093   0   357945*
  read of please   0   0   0
  read a please   0   0   0
*当计算在语料库中词的出现频率时,从feature-gram的开始忽略了′.′。例如,“.Please help me”的频率等于“Please help me”的频率。
使用在图9的阶段D和E中描述的功能,最终优先选择度量选择备选 校正“read.Please”并且校正的输入文本是:
I can′t read.Please help me
以下示例说明了增加丢失的介词的功能。
提供以下输入文本:
I sit the sofa
使用下文描述的功能,为了校正选择以下簇:
′sit the′
使用上文描述的功能,生成以下备选簇校正(部分地列出):
sit on the;sit of the;sit the
使用参考图5上文描述的功能,生成以下CFS:
′I sit the′;′sit the sofa′
使用参照图9在子阶段IIA中描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表49所示的互联网语料库中的出现频率的矩阵:
表49
  CFS/备选词  簇校正   ‘I sit[?]the’   ‘sit[?]the sofa’
  sit on the   26370   7400
  sit of the   0   0
  sit the   2100   0
使用在图9的阶段IID和IIE中描述的功能,最终优先选择度量选择备选校正“sit on the”并且校正输入文本是:
I sit on the sofa.
现在参照图11,其是说明了冗余项目校正功能的操作的详细的流程图。冗余项目校正功能用于校正冗余的冠词、介词、标点和在输入文本中主要具有语法功能的其它项目。该功能优选地对从图1的拼写校正功能输出的拼写校正输入文本进行操作。
可以理解,图11的功能可以与图10的功能组合或者可选地与图10的功能并行地执行、在其操作之前或之后执行。
以如下方式优选地执行怀疑的冗余项目的识别:
执行关于拼写校正输入文本的搜索以识别属于可能的冗余标点、冠词、介词、连词的预定义的组的项目和其它项目(所述其它项目通常不包括名词、动词或形容词)。
对于每个这种项目,为了误用词和语法校正、包含这种项目的拼写校正输入文本的所有部分,生成feature-gram。计算每个这种feature-gram和其中项目被忽略的对应的feature-gram的出现频率。
如果其中项目被忽略的feature-gram的出现频率超过其中项目出现的对应的feature-gram的出现频率,那么项目被认为是怀疑的。
优选地通过尝试找到由最长的不怀疑的上下文数据包围的项目,来选择用于校正的在误用词和语法校正、拼写校正输入文本中的怀疑的项。优选地,选择具有在其附近具有最长的不怀疑的词的序列或多个序列的项目。
为每个怀疑的项目生成可能的项目删除。优选地基于参照图9和下文、上文描述的校正备选得分算法,来提供各种备选词的至少部分的基于上下文和词的基于相似性得分,即,项目的删除或项目的不删除。
以下示例是说明性的。
提供以下输入文本:
It is a nice,thing to wear.
搜索输入文本来识别属于普通的冗余项目(例如,标点、介词、连词和冠词)的预定的列表的任意项目。
在该示例中,逗号“,”被识别为属于这种列表。
使用参照图5上文描述的功能,生成包括逗号“,”的、在表50所示的feature-gram并且还生成没有逗号的相同的feature-gram(部分地列出):
表50
  带有逗号的FEATURE-GRAM   没有逗号的FEATURE-GRAM
  is a nice,thing   is anice thing
  a nice,thing to   a nice thing to
  nice,thing to wear   nice thing to wear
使用上文描述的功能,为了通常如表51所示出现的feature-gram的上述列表,生成互联网语料库中的出现频率的矩阵: 
表51
  带有逗号的  FEATURE-GRAM   带有逗号的  FEATURE-GRAM  的  出现的频率   没有逗号的  FEATURE-GRAM   没有逗号的  FEATURE-GRAM  的出现的频率
  is a nice,thing   0   is anice thing   10900
  a nice,thing to   0   a nice thing to   39165
  nice,thing to wear   0   nice thing to wear   100
如上述矩阵中所示,忽略“,”的feature-gram的出现频率超过出现“,”的对应的feature-gram的出现频率。因此,“,”被怀疑是冗余的。 
基于保留逗号和忽略逗号的以下备选词的基于上下文的得分,考虑逗号的可能的删除:
′nice,′;′nice′
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′a nice,′;′nice,thing′;′is a nice,′;′a nice,thing′;′nice,thing to′
使用参照图9上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表52所示的互联网语料库中的出现频率的矩阵:
表52
  CFS/备选词  簇校正   ‘a nice’   ‘nice  thing’   ‘is a  nice,’   ‘a nice,  thing’   ‘nice,  thing to’
  nice,   379400   0   37790   0   0
  Nice   118092290   300675   1127040   69100   58630
消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有CFS。例如,消除以下feature-gram:
′a nice,′;′nice,thing′
在该示例中,剩余的CFS是feature-gram:
′is a nice,′;′a nice,thing′;′nice,thing to′
使用在上述图9的阶段D和E中描述的最终优先选择得分,来选择没有逗号的备选校正“nice”。在逗号删除后的输入文本是:
It is a nice thing to wear
以下示例说明了删除冗余冠词的功能。
提供以下输入文本:
We should provide them a food and water
使用参照图11上文描述的功能,为了校正选择以下簇:
a food
使用参照图11上文描述的功能,生成以下备选簇校正(部分地列出):
a food;food
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′provide them a food′;′them a food and′;′a food and water′
使用参照本文子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表53所示的互联网语料库中的出现频率的矩阵:
表53
  CFS/备选词  簇校正   ‘provide  them a food’   ‘them a  food and’   ‘a food and  water’
  a food   0   0   950
  Food   790   12775   415620
使用在图9中描述的计分功能,最终优先选择度量选择备选校正“food”并且校正输入文本是:
We should provide them food and water.
本领域的技术人员应当理解,本发明并不限于特定地示出并且在上文描述的内容。而是,本发明的范围包括本领域的技术人员在阅读上述内容时想到的并且不在现有技术范围内的、上文描述和示出的各种特征的组合和子组合以及其修改。

Claims (57)

1.一种计算机辅助的自动的上下文相关语言校正系统,包括:
备选词生成器,基于输入句子,生成为所述句子中的多个词中的每一个提供多个备选词的基于文本的表示;
选择器,用于至少部分地基于互联网语料库,针对所述句子中的所述多个词中的每一个,在至少所述多个备选词中进行选择;以及
校正生成器,用于基于所述选择器做出的选择来提供校正输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述输入句子,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
2.根据权利要求1所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器用于,基于以下校正功能中的至少一个来做出所述选择:
拼写校正;
误用词校正;
语法校正;以及
词汇增强。
3.根据权利要求1所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器用于,基于以下校正功能中的至少两个来做出所述选择:
拼写校正;
误用词校正;
语法校正;以及
词汇增强。
4.根据权利要求3所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器用于,基于校正的以下时间顺序中的至少一个来做出所述选择:
先于误用词校正、语法校正和词汇增强中的至少一个的拼写校正;以及
先于词汇增强的误用词校正和语法校正。
5.根据权利要求1所述的计算机辅助的自动的上下文相关语言校正系统,其中:
由以下功能中的一个来提供所述输入句子:
词处理器功能;
机器翻译功能;
语音到文本转换功能;
光学字符识别功能;以及
即时通信功能;以及
所述选择器用于,基于以下校正功能中的至少一个来做出所述选择:
误用词校正;
语法校正;以及
词汇增强。
6.根据权利要求1所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。
7.根据权利要求2所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语法校正功能包括标点、动词变形、单数/复数、冠词和介词校正功能中的至少一个。
8.根据权利要求2所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语法校正功能包括替换、插入和省略校正功能中的至少一个。
9.根据权利要求1所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述基于上下文计分功能还用于至少部分地基于在所述互联网语料库中的标准化上下文特征序列出现的频率,来排序所述多个备选词。
10.一种计算机辅助的自动的上下文相关语言校正系统,包括以下各项中的至少一个:
拼写校正功能;
误用词校正功能;
语法校正功能;以及
词汇增强功能;以及
与以下各项中的至少一个协作的上下文特征序列功能:所述拼写校正功能;所述误用词校正功能、语法校正功能和所述词汇增强功能,所述上下文特征序列功能用于基于输入句子生成多个上下文特征序列;以及
基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
11.根据权利要求10所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语法校正功能包括标点、动词变形、单数/复数、冠词和介词校正功能中的至少一个。
12.根据权利要求10所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语法校正功能包括替换、插入和省略校正功能中的至少一个。
13.根据权利要求10所述的计算机辅助的自动的上下文相关语言校正系统,包括以下各项中的至少两个:
所述拼写校正功能;
所述误用词校正功能;
所述语法校正功能;以及
所述词汇增强功能;以及
其中,所述上下文特征序列功能与以下各项中的至少两个进行合作并且使用互联网语料库:所述拼写校正功能;所述误用词校正功能,所述语法校正功能和所述词汇增强功能。
14.根据权利要求10所述的计算机辅助的自动的上下文相关语言校正系统,包括以下各项中的至少三个:
所述拼写校正功能;
所述误用词校正功能;
所述语法校正功能;
所述词汇增强功能;以及
其中,所述上下文特征序列功能与以下各项中的至少三个进行合作并且使用互联网语料库:所述拼写校正功能;所述误用词校正功能,所述语法校正功能和所述词汇增强功能。
15.根据权利要求10所述的计算机辅助的自动的上下文相关语言校正系统,包括:
所述拼写校正功能;
所述误用词校正功能;
所述语法校正功能;以及
所述词汇增强功能;以及
其中,所述上下文特征序列功能与以下各项功能进行合作并且使用互联网语料库:所述拼写校正功能;所述误用词校正功能,所述语法校正功能和所述词汇增强功能。
16.一种计算机辅助的自动的上下文相关语言校正系统,包括:
备选词生成器,基于语言输入,生成为所述语言输入中的多个词中的每一个提供多个备选词的基于文本的表示;
选择器,用于至少部分地基于为所述语言输入中的所述多个词中的至少一些选择的所述多个备选词中的多个之间的关系,为所述语言输入中的所述多个词中的每一个,在至少所述多个备选词之间进行选择;以及
校正生成器,用于基于由所述选择器做出的选择,来提供校正输出;
并且其中,所述语言输入是以下各项中的至少一个:
文本输入;
光学字符识别功能的输出;
机器翻译功能的输出;以及
词处理功能的输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
17.根据权利要求16所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语言输入包括输入句子和输入文本中的至少一个。
18.根据权利要求16所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语言输入是语音并且所述生成器将语音中的所述语言输入转换为为所述语言输入中的多个词提供多个备选词的基于文本的表示。
19.根据权利要求16所述的计算机辅助的自动的上下文相关语言校正系统,其中:
所述生成器将文本中的所述语言输入转换为为所述语言输入中的多个词提供多个备选词的基于文本的表示。
20.根据权利要求16所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器,用于基于以下校正功能中的至少两个,做出所述选择:
拼写错误;
误用词校正;
语法校正;以及
词汇增强。
21.根据权利要求20所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器用于,基于校正的以下时间顺序中的至少一个来做出所述选择:
先于误用词校正、语法校正和词汇增强中的至少一个的拼写校正;以及
先于词汇增强的误用词校正和语法校正。
22.根据权利要求16所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语言输入是语音并且所述选择器用于基于以下校正功能中的至少一个来做出所述选择:
误用词校正;
语法校正;以及
词汇增强。
23.根据权利要求16所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器用于通过执行以下功能中的至少两个来做出所述选择:
选择包括比初始选择的所述语言输入中的所有所述多个词少的第一组词或词的组合;
之后对所述第一组词或词的组合的元素进行排序以建立选择的优先级;以及
之后为了所述第一组词的元素,当在所述多个备选词之间选择时,选择其它词而不是所有所述多个词作为上下文来影响所述选择。
24.根据权利要求16所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器用于通过执行以下功能来做出所述选择:
当选择具有至少两个词的元素时,结合用于所述至少两个词彼此的所述多个备选词的每个来评估用于所述至少两个词的每个的所述多个备选词的每个。
25.根据权利要求16所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。
26.一种计算机辅助的自动的上下文相关语言校正系统,包括:
误用词怀疑器,基于所述语言输入的上下文中词的合适度来评估语言输入中的至少大部分词;
校正生成器,用于至少部分地基于由所述怀疑器执行的评估,来提供校正输出,所述校正生成器包括自动校正语言生成器,用于在不需要用户干预的情况下,至少部分地基于由所述怀疑器执行的评估,来提供校正文本输出;
备选词生成器,基于所述语言输入,生成为所述语言输入中的所述至少大部分词中的至少一个提供多个备选词的基于文本的表示;以及
选择器,用于为所述语言输入中的所述至少大部分的词中的所述至少一个中的每一个,在至少所述多个备选词中进行选择,并且其中
所述校正生成器,用于基于所述误用词怀疑器做出的选择,来提供所述校正输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
27.根据权利要求26所述的计算机辅助的自动的上下文相关语言校正系统,还包括:
怀疑词输出指示器,其指示所述语言输入中的所述词的所述至少大部分中的至少一些被怀疑为误用词的程度。
28.根据权利要求26所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语言输入是语音并且所述选择器用于,基于以下校正功能中的至少一个,来做出所述选择:
误用词校正;
语法校正;以及
词汇增强。
29.一种计算机辅助的自动的上下文相关语言校正系统,包括:
误用词怀疑器,用于评估语言输入中的词;
备选词生成器,为由所述怀疑器评估为怀疑词的、所述语言输入中的至少一些词生成多个备选词,所述语言输入中的词的所述多个备选词中的至少一个与互联网语料库中所述语言输入中的所述词的上下文特征一致;
选择器,用于在至少所述多个备选词之间进行选择;以及
校正生成器,用于至少部分地基于由所述选择器做出的选择,提供校正输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
30.一种计算机辅助的自动的上下文相关语言校正系统,包括:
误用词怀疑器,评估语言输入中的词并且识别怀疑的词;
备选词生成器,生成用于所述怀疑词的多个备选词;
选择器,根据多个选择标准对每个所述怀疑词以及为此由所述备选词生成器生成的所述多个备选词的一个进行评级,并且应用与为此由所述备选词生成器生成的所述多个备选词中的一个有关的所述怀疑的词有利的偏置;以及
校正生成器,用于至少部分地基于由所述选择器做出的选择,提供校正输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
31.一种计算机辅助的自动的上下文相关语言校正系统,包括:
备选词生成器,基于输入为所述输入中的至少一个词生成多个备选词;
选择器,根据多个选择标准对每个所述至少一个词以及为此由所述备选词生成器生成的所述多个备选词中的多个进行评级,并且应用与为此由所述备选词生成器生成的所述多个备选词中的一个有关的所述至少一个词有利的偏置,所述偏置是指示提供了输入的人的不确定度的所述输入不确定度度量的函数;以及
校正生成器,用于基于所述选择器做出的选择,提供校正输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
32.一种计算机辅助的自动的上下文相关语言校正系统,包括:
不正确词怀疑器,评估语言输入中的词的至少大部分,所述怀疑器至少部分地响应于指示提供了输入的人的不确定度的输入不确定度度量,所述怀疑器提供怀疑的不正确词输出;以及
备用词生成器,为由所述怀疑的不正确词输出所识别的怀疑的不正确词生成多个备选词;
选择器,用于在每个怀疑的不正确词和由所述备选词生成器生成的所述多个备选词中进行选择;以及
用于基于所述选择器做出的选择,提供校正输出的校正生成器,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
33.一种计算机辅助的自动的上下文相关语言校正系统,包括:
接收多个词输入并且提供校正输出的拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的至少一个,拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的所述至少一个中的每一个包括:
备选词候选生成器,包括:
语音相似性功能,用于基于与所述输入中的词的语音相似性,提出备选词,并且用于指示语音相似性的度量;以及
字符串相似性功能,用于基于与所述输入中的词的字符串相似性,来提出备选词,并且指示用于每个备选词的字符串相似性的度量;以及
选择器,用于通过使用所述语音相似性和字符串相似性度量以及基于上下文选择功能,选择所述输出中的词或由所述备选词候选生成器提出的备选词候选者,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述词输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
34.一种计算机辅助的自动的上下文相关语言校正系统,包括:
怀疑词识别功能,接收多个词语言输入并且提供指示怀疑词的怀疑词输出;
特征识别功能,用于识别包括所述怀疑词的特征;
备选词选择器,识别用于所述怀疑词的备选词;
特征出现功能,使用语料库并提供出现输出;以及
选择器,使用所述出现输出来提供校正输出,
所述特征识别功能包括特征过滤功能,所述特征过滤功能包括以下中的至少一个:
用于消除包含怀疑的错误的特征的功能;
用于消极地偏置包含在所述多个词输入的较早的校正迭代中引入的词并且具有在可信度预定的阈值以下的可信度的特征的功能;以及
用于消除包含在具有在预定的频率阈值之上的出现频率的另一个特征中所包含的特征的功能,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述词语言输入,生成多个上下文特征序列;并且所述特征出现功能包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
35.根据权利要求29-34中的任意一项所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器用于至少基于以下校正功能的两个来做该选择:
拼写校正;
误用词校正;
语法校正;以及
词汇增强。
36.根据权利要求35所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器用于基于校正的以下时间顺序中的至少一个来做出所述选择:
先于误用词校正、语法校正和词汇增强中的至少一个的拼写校正;以及
先于词汇增强的误用词校正和语法校正。
37.根据权利要求29-34中的任意一项所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语言输入是语音并且所述选择器用于基于以下校正功能中的至少一个来做出所述选择:
语法校正;以及
误用词校正;以及
词汇增强。
38.根据权利要求29-34中的任意一项所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。
39.根据权利要求29-30和33-34中的任意一项所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器还用于,至少部分地基于用户输入不确定度度量来做出所述选择。
40.根据权利要求39所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述用户输入不确定度度量是基于提供了所述输入的人的不确定度的测量的函数。
41.根据权利要求29-34中的任意一项所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器还使用用户输入历史学习功能。
42.一种计算机辅助的自动的上下文相关语言校正系统,包括:
怀疑词识别功能,接收多个词语言输入并且提供指示怀疑词的怀疑词输出;
特征识别功能,用于识别包括所述怀疑词的特征;
备选词选择器,识别用于所述怀疑词的备选词;
出现功能,使用语料库并提供出现输出;以及
校正输出生成器,使用所述出现输出以提供校正输出,
所述特征识别功能包括以下各项中的至少一个:
N-gram识别功能;以及
共同出现识别功能;以及
以下各项中的至少一个:
skip-gram识别功能;
switch-gram识别功能;以及
之前由用户使用的特征识别功能,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述词语言输入,生成多个上下文特征序列;并且所述出现功能包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
43.一种计算机辅助的自动的上下文相关语言校正系统,包括:
语法错误怀疑器,基于在所述语言输入的上下文中词的适合度,评估语言输入中所述词的至少大部分;
校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出,所述校正生成器包括自动校正语言生成器,用于在不需要用户干预的情况下,至少部分地基于由所述怀疑器执行的评估,提供校正文本输出;
备选词生成器,基于所述语言输入,生成为所述语言输入中的所述至少大部分词中的至少一个提供多个备选词的基于文本的表示;以及
选择器,用于为所述语言输入中的所述至少大部分词中的所述至少一个中的每一个,在至少所述多个备选词中进行选择,并且其中,
所述校正生成器,用于基于由所述选择器做出的选择,提供所述校正输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
44.根据权利要求43所述的计算机辅助的自动的上下文相关语言校正系统,还包括:
怀疑词输出指示器,其指示所述语言输入中的所述词的所述至少大部分中的至少一些被怀疑为包含语法错误的程度。
45.一种计算机辅助的自动的上下文相关语言校正系统,包括:
语法错误怀疑器,评估语言输入中的词;
备选词生成器,为由所述怀疑器评估为怀疑词的所述语言输入中的至少一些词生成多个备选词,用于所述语言输入中的词的所述多个备选词的至少一个与所述语言输入中的所述词的上下文特征一致;
选择器,用于在至少所述多个备选词之间进行选择;以及
校正生成器,用于至少部分地基于由所述选择器做出的选择,提供校正输出,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于由所述选择器做出的选择,提供校正语言输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
46.一种计算机辅助的自动的上下文相关语言校正系统,包括:
语法错误怀疑器,评估语言输入中的词并且识别怀疑的词;
备选生成器,生成用于所述怀疑词的多个备选词;
选择器,根据多个选择标准对每个所述怀疑的词以及为此由所述备选词生成器生成的所述多个备选词的一个进行评级,并且应用与为此由所述备选词生成器生成的所述多个备选词中的一个有关的所述怀疑的词有利的偏置;以及
校正生成器,用于至少部分地基于由所述选择器做出的选择,提供校正输出,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于由所述选择器做出的选择,提供校正语言输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
47.一种包括各种备选词校正的基于上下文计分的计算机辅助的自动的上下文相关语言校正系统,
其特征在于,所述系统包括上下文特征序列功能,用于基于输入句子,生成多个上下文特征序列;并且所述系统还包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且其中,所述基于上下文计分至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
48.根据权利要求47所述的计算机辅助的自动的上下文相关语言校正系统,还包括以下各项中的至少一个:
与所述基于上下文计分协作的
拼写校正功能;
误用词校正功能;
语法校正功能;以及
词汇增强功能。
49.根据权利要求47所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述基于上下文计分还至少部分地基于在互联网语料库中的标准化上下文特征序列出现的频率。
50.根据权利要求47所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述基于上下文计分还至少部分地基于上下文特征序列重要性得分。
51.根据权利要求47所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述上下文特征序列重要性得分是以下各项中的至少一个的函数:
词性标注和句子分析功能的操作;上下文特征序列长度;在上下文特征序列和上下文特征序列类型中的每个词的出现的频率。
52.一种包括词汇增强功能的计算机辅助的自动的上下文相关语言校正系统,包括:
词汇挑战的词识别功能;
备选词词汇增强生成功能;
上下文特征序列功能,用于基于输入句子,生成多个上下文特征序列;以及
基于上下文计分功能,其针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序多个备选词,
所述备选词词汇增强生成功能,其包括词典预处理功能,用于生成备选词词汇增强,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
53.一种计算机辅助的自动的上下文相关语言校正系统,包括:
备选词生成器,基于输入句子,生成为所述句子中的多个词中的每一个提供多个备选词的基于文本的表示;
选择器,为了所述句子中的所述多个词中的每一个,在至少所述多个备选词中选择;
可信度分配器,用于将可信度分配到来自所述多个备选词的选择的备选词;以及
校正生成器,用于基于所述选择器做出的选择并且至少部分地基于所述可信度,提供校正输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述输入句子,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
54.根据权利要求53所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述可信度是基于以下参数中的至少一个:
选择的上下文特征序列的数量、类型和得分;
在上下文特征序列上下文中,所述多个备选词的出现的频率的统计显著性的测量;
基于每个所述上下文特征序列的优先选择度量和所述多个备选词的词相似性得分,选择所述多个备选词中的一个的一致性程度;
所述多个备选词中的所述一个的不基于上下文相似性得分在第一预定的最低阈值以上;以及
基于上下文数据可用性的程度,其由所述上下文特征序列的数量来指示,其中,所述上下文特征序列具有在第二预定最低阈值以上并且具有在第三预定阈值之上的优先选择得分。
55.一种计算机辅助的自动的上下文相关语言校正系统,包括:
标点错误怀疑器,基于语言输入的上下文中的合适度,评估所述语言输入中的至少一些词和标点,其中,所述语言输入的合适度是基于互联网语料库中所述语言输入的上下文特征序列的出现的频率;以及
校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出,所述校正生成器包括丢失标点校正功能、冗余标点校正功能和标点替换校正功能中的至少一个;
备选词生成器,基于所述语言输入,生成为所述语言输入中的所述至少大部分词中的至少一个提供多个备选词的基于文本的表示;以及
选择器,用于为所述语言输入中的所述至少大部分的词中的所述至少一个中的每一个,在至少所述多个备选词中进行选择,并且其中
所述校正生成器,用于基于所述标点错误怀疑器做出的选择,来提供所述校正输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
56.一种计算机辅助的自动的上下文相关语言校正系统,包括:
语法元素错误怀疑器,基于语言输入的上下文中的合适度,评估所述语言输入中的至少一些词,其中,所述语言输入的上下文合适度是基于互联网语料库中所述语言输入的上下文特征序列的出现的频率;以及
校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出,所述校正生成器至少包括丢失语法元素校正功能、冗余语法元素校正功能和语法元素替换校正功能中的至少一个;
备选词生成器,基于所述语言输入,生成为所述语言输入中的所述至少大部分词中的至少一个提供多个备选词的基于文本的表示;以及
选择器,用于为所述语言输入中的所述至少大部分的词中的所述至少一个中的每一个,在至少所述多个备选词中进行选择,并且其中
所述校正生成器,用于基于所述语法元素错误怀疑器做出的选择,来提供所述校正输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
57.根据权利要求56所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语法元素是冠词、介词和连词中的一个。
CN200880101405.7A 2007-08-01 2008-07-31 使用互联网语料库的自动的上下文相关的语言校正和增强 Active CN101802812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510351019.5A CN105045777A (zh) 2007-08-01 2008-07-31 使用互联网语料库的自动的上下文相关的语言校正和增强

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US95320907P 2007-08-01 2007-08-01
US60/953,209 2007-08-01
PCT/IL2008/001051 WO2009016631A2 (en) 2007-08-01 2008-07-31 Automatic context sensitive language correction and enhancement using an internet corpus

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201510351019.5A Division CN105045777A (zh) 2007-08-01 2008-07-31 使用互联网语料库的自动的上下文相关的语言校正和增强

Publications (2)

Publication Number Publication Date
CN101802812A CN101802812A (zh) 2010-08-11
CN101802812B true CN101802812B (zh) 2015-07-01

Family

ID=40305018

Family Applications (3)

Application Number Title Priority Date Filing Date
CN200880101405.7A Active CN101802812B (zh) 2007-08-01 2008-07-31 使用互联网语料库的自动的上下文相关的语言校正和增强
CN201510351019.5A Pending CN105045777A (zh) 2007-08-01 2008-07-31 使用互联网语料库的自动的上下文相关的语言校正和增强
CN200980138185.XA Expired - Fee Related CN102165435B (zh) 2007-08-01 2009-02-04 使用因特网语料库的自动上下文相关语言产生、校正和增强

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN201510351019.5A Pending CN105045777A (zh) 2007-08-01 2008-07-31 使用互联网语料库的自动的上下文相关的语言校正和增强
CN200980138185.XA Expired - Fee Related CN102165435B (zh) 2007-08-01 2009-02-04 使用因特网语料库的自动上下文相关语言产生、校正和增强

Country Status (6)

Country Link
US (5) US8914278B2 (zh)
EP (1) EP2183685A4 (zh)
JP (2) JP5638948B2 (zh)
CN (3) CN101802812B (zh)
CA (2) CA2694327A1 (zh)
WO (1) WO2009016631A2 (zh)

Families Citing this family (355)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0721987B2 (ja) * 1991-07-16 1995-03-08 株式会社愛知電機製作所 真空切替遮断器
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US9009590B2 (en) 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
US8799776B2 (en) 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP2009537038A (ja) 2006-05-07 2009-10-22 バーコード リミティド 製品ロジスティックチェーンにおける品質管理を改善するためのシステムおよび方法
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101286094A (zh) 2007-04-10 2008-10-15 谷歌股份有限公司 多模式输入法编辑器
EP2156369B1 (en) 2007-05-06 2015-09-02 Varcode Ltd. A system and method for quality management utilizing barcode indicators
WO2009016631A2 (en) 2007-08-01 2009-02-05 Ginger Software, Inc. Automatic context sensitive language correction and enhancement using an internet corpus
US8500014B2 (en) 2007-11-14 2013-08-06 Varcode Ltd. System and method for quality management utilizing barcode indicators
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20110086331A1 (en) * 2008-04-16 2011-04-14 Ginger Software, Inc. system for teaching writing based on a users past writing
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010021368A1 (ja) * 2008-08-20 2010-02-25 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US9871916B2 (en) 2009-03-05 2018-01-16 International Business Machines Corporation System and methods for providing voice transcription
KR20110134909A (ko) 2009-03-13 2011-12-15 인벤션 머신 코포레이션 텍스트 문서들 및 사용자 질문들의 의미적 라벨링에 기초한 질문-응답 시스템 및 방법
JP5244661B2 (ja) * 2009-03-17 2013-07-24 株式会社教育測定研究所 文末句読点の欠落検出装置及び欠落検出プログラム
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20100332217A1 (en) * 2009-06-29 2010-12-30 Shalom Wintner Method for text improvement via linguistic abstractions
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
EP3091535B1 (en) 2009-12-23 2023-10-11 Google LLC Multi-modal input on an electronic device
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
CN102884518A (zh) * 2010-02-01 2013-01-16 金格软件有限公司 尤其用于小键盘装置的使用互联网语料库的自动的上下文相关的语言校正
US8782556B2 (en) 2010-02-12 2014-07-15 Microsoft Corporation User-centric soft keyboard predictive technologies
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102193939B (zh) * 2010-03-10 2016-04-06 阿里巴巴集团控股有限公司 信息导航的实现方法、信息导航服务器和信息处理系统
US20110239111A1 (en) * 2010-03-24 2011-09-29 Avaya Inc. Spell checker interface
US8788260B2 (en) * 2010-05-11 2014-07-22 Microsoft Corporation Generating snippets based on content features
US9208147B1 (en) 2011-01-07 2015-12-08 Narrative Science Inc. Method and apparatus for triggering the automatic generation of narratives
US11989659B2 (en) 2010-05-13 2024-05-21 Salesforce, Inc. Method and apparatus for triggering the automatic generation of narratives
US8355903B1 (en) 2010-05-13 2013-01-15 Northwestern University System and method for using data and angles to automatically generate a narrative story
WO2012039686A1 (en) * 2010-09-24 2012-03-29 National University Of Singapore Methods and systems for automated text correction
WO2012047955A1 (en) * 2010-10-05 2012-04-12 Infraware, Inc. Language dictation recognition systems and methods for using the same
KR20120048140A (ko) * 2010-11-05 2012-05-15 한국전자통신연구원 자동 번역 장치 및 그 방법
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10657201B1 (en) 2011-01-07 2020-05-19 Narrative Science Inc. Configurable and portable system for generating narratives
US9720899B1 (en) 2011-01-07 2017-08-01 Narrative Science, Inc. Automatic generation of narratives from data using communication goals and narrative analytics
US10185477B1 (en) 2013-03-15 2019-01-22 Narrative Science Inc. Method and system for configuring automatic generation of narratives from data
US20120239381A1 (en) 2011-03-17 2012-09-20 Sap Ag Semantic phrase suggestion engine
US8527451B2 (en) 2011-03-17 2013-09-03 Sap Ag Business semantic network build
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9697871B2 (en) * 2011-03-23 2017-07-04 Audible, Inc. Synchronizing recorded audio content and companion content
US8855797B2 (en) 2011-03-23 2014-10-07 Audible, Inc. Managing playback of synchronized content
US9734153B2 (en) * 2011-03-23 2017-08-15 Audible, Inc. Managing related digital content
US8948892B2 (en) 2011-03-23 2015-02-03 Audible, Inc. Managing playback of synchronized content
US9703781B2 (en) * 2011-03-23 2017-07-11 Audible, Inc. Managing related digital content
US8862255B2 (en) 2011-03-23 2014-10-14 Audible, Inc. Managing playback of synchronized content
US9697265B2 (en) * 2011-03-23 2017-07-04 Audible, Inc. Synchronizing digital content
US9706247B2 (en) * 2011-03-23 2017-07-11 Audible, Inc. Synchronized digital content samples
US9760920B2 (en) * 2011-03-23 2017-09-12 Audible, Inc. Synchronizing digital content
EP2511831A1 (en) * 2011-04-14 2012-10-17 James Lawley Text processor and method of text processing
US20120304124A1 (en) * 2011-05-23 2012-11-29 Microsoft Corporation Context aware input engine
US8725760B2 (en) 2011-05-31 2014-05-13 Sap Ag Semantic terminology importer
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8712931B1 (en) * 2011-06-29 2014-04-29 Amazon Technologies, Inc. Adaptive input interface
US9135237B2 (en) * 2011-07-13 2015-09-15 Nuance Communications, Inc. System and a method for generating semantically similar sentences for building a robust SLM
US20140163969A1 (en) * 2011-07-20 2014-06-12 Tata Consultancy Services Limited Method and system for differentiating textual information embedded in streaming news video
US8935230B2 (en) 2011-08-25 2015-01-13 Sap Se Self-learning semantic search engine
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US20130060560A1 (en) * 2011-09-01 2013-03-07 Google Inc. Server-based spell checking
CN102999483B (zh) * 2011-09-16 2016-04-27 北京百度网讯科技有限公司 一种文本矫正的方法和装置
US8762156B2 (en) * 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
KR101522522B1 (ko) 2011-10-26 2015-05-27 에스케이텔레콤 주식회사 작문 자동 평가를 위한 예제 기반 오류 검출 시스템 및 방법
CN102567306B (zh) * 2011-11-07 2013-11-27 苏州大学 一种不同语言间词汇相似度的获取方法及系统
WO2013078388A1 (en) * 2011-11-21 2013-05-30 Robert Bosch Gmbh Methods and systems for adapting grammars in hybrid speech recognition engines for enhancing local sr performance
US9734132B1 (en) * 2011-12-20 2017-08-15 Amazon Technologies, Inc. Alignment and reflow of displayed character images
CN103186522B (zh) * 2011-12-29 2018-01-26 富泰华工业(深圳)有限公司 电子设备及其自然语言分析方法
US20130173254A1 (en) * 2011-12-31 2013-07-04 Farrokh Alemi Sentiment Analyzer
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9122673B2 (en) * 2012-03-07 2015-09-01 International Business Machines Corporation Domain specific natural language normalization
US9037956B2 (en) 2012-03-29 2015-05-19 Audible, Inc. Content customization
US8849676B2 (en) 2012-03-29 2014-09-30 Audible, Inc. Content customization
CN103366741B (zh) * 2012-03-31 2019-05-17 上海果壳电子有限公司 语音输入纠错方法及系统
JP5994366B2 (ja) * 2012-04-27 2016-09-21 ソニー株式会社 情報処理装置、情報処理方法、並びにプログラム
US9075760B2 (en) 2012-05-07 2015-07-07 Audible, Inc. Narration settings distribution for content customization
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9317500B2 (en) 2012-05-30 2016-04-19 Audible, Inc. Synchronizing translated digital content
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US8972265B1 (en) 2012-06-18 2015-03-03 Audible, Inc. Multiple voices in audio content
US9141257B1 (en) 2012-06-18 2015-09-22 Audible, Inc. Selecting and conveying supplemental content
US9536439B1 (en) 2012-06-27 2017-01-03 Audible, Inc. Conveying questions with content
US9679608B2 (en) 2012-06-28 2017-06-13 Audible, Inc. Pacing content
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US8661049B2 (en) 2012-07-09 2014-02-25 ZenDesk, Inc. Weight-based stemming for improving search quality
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US10109278B2 (en) 2012-08-02 2018-10-23 Audible, Inc. Aligning body matter across content formats
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
CN103678271B (zh) * 2012-09-10 2016-09-14 华为技术有限公司 一种文本校正方法及用户设备
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9292621B1 (en) * 2012-09-12 2016-03-22 Amazon Technologies, Inc. Managing autocorrect actions
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9400848B2 (en) * 2012-09-26 2016-07-26 Google Inc. Techniques for context-based grouping of messages for translation
US9367196B1 (en) 2012-09-26 2016-06-14 Audible, Inc. Conveying branched content
US9632647B1 (en) 2012-10-09 2017-04-25 Audible, Inc. Selecting presentation positions in dynamic content
US8713433B1 (en) * 2012-10-16 2014-04-29 Google Inc. Feature-based autocorrection
US9087508B1 (en) 2012-10-18 2015-07-21 Audible, Inc. Presenting representative content portions during content navigation
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
US9223830B1 (en) 2012-10-26 2015-12-29 Audible, Inc. Content presentation analysis
WO2014071330A2 (en) 2012-11-02 2014-05-08 Fido Labs Inc. Natural language processing system and method
CN103853702B (zh) * 2012-12-06 2016-08-17 富士通株式会社 校正语料中的成语错误的装置和方法
KR101374900B1 (ko) * 2012-12-13 2014-03-13 포항공과대학교 산학협력단 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법
JP6086714B2 (ja) * 2012-12-14 2017-03-01 日本放送協会 音声認識装置、誤り修正モデル学習方法、及びプログラム
US9280906B2 (en) 2013-02-04 2016-03-08 Audible. Inc. Prompting a user for input during a synchronous presentation of audio content and textual content
US9472113B1 (en) 2013-02-05 2016-10-18 Audible, Inc. Synchronizing playback of digital content with physical content
KR102380145B1 (ko) 2013-02-07 2022-03-29 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9218819B1 (en) * 2013-03-01 2015-12-22 Google Inc. Customizing actions based on contextual data and voice-based inputs
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US9183195B2 (en) * 2013-03-15 2015-11-10 Disney Enterprises, Inc. Autocorrecting text for the purpose of matching words from an approved corpus
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
JP6155821B2 (ja) * 2013-05-08 2017-07-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9317486B1 (en) 2013-06-07 2016-04-19 Audible, Inc. Synchronizing playback of digital content with captured physical content
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
US10073839B2 (en) 2013-06-28 2018-09-11 International Business Machines Corporation Electronically based thesaurus querying documents while leveraging context sensitivity
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US9489360B2 (en) 2013-09-05 2016-11-08 Audible, Inc. Identifying extra material in companion content
JP2015069334A (ja) * 2013-09-27 2015-04-13 富士通株式会社 文字変換プログラム、文字変換装置、及び文字変換方法
US8831969B1 (en) * 2013-10-02 2014-09-09 Linkedin Corporation System and method for determining users working for the same employers in a social network
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9037967B1 (en) * 2014-02-18 2015-05-19 King Fahd University Of Petroleum And Minerals Arabic spell checking technique
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
CN105095826B (zh) * 2014-04-17 2019-10-01 阿里巴巴集团控股有限公司 一种文字识别方法及装置
US9959296B1 (en) 2014-05-12 2018-05-01 Google Llc Providing suggestions within a document
US9607032B2 (en) 2014-05-12 2017-03-28 Google Inc. Updating text within a document
US9881010B1 (en) 2014-05-12 2018-01-30 Google Inc. Suggestions based on document topics
US9251141B1 (en) 2014-05-12 2016-02-02 Google Inc. Entity identification model training
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
RU2639684C2 (ru) * 2014-08-29 2017-12-21 Общество С Ограниченной Ответственностью "Яндекс" Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты)
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US20160110327A1 (en) * 2014-10-20 2016-04-21 Lenovo (Singapore) Pte. Ltd. Text correction based on context
US11288328B2 (en) 2014-10-22 2022-03-29 Narrative Science Inc. Interactive and conversational data exploration
US11922344B2 (en) 2014-10-22 2024-03-05 Narrative Science Llc Automatic generation of narratives from data using communication goals and narrative analytics
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10140293B2 (en) * 2015-05-18 2018-11-27 Google Llc Coordinated user word selection for translation and obtaining of contextual information for the selected word
WO2016185474A1 (en) 2015-05-18 2016-11-24 Varcode Ltd. Thermochromic ink indicia for activatable quality labels
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
JP6648421B2 (ja) * 2015-06-09 2020-02-14 富士通株式会社 文書を処理する情報処理装置、情報処理方法、およびプログラム
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN107709946B (zh) 2015-07-07 2022-05-10 发可有限公司 电子质量标志
US9753915B2 (en) 2015-08-06 2017-09-05 Disney Enterprises, Inc. Linguistic analysis and correction
US10565351B2 (en) * 2015-08-24 2020-02-18 3M Innovative Properties Company Analysis and rule generation of medical documents
US10255270B2 (en) 2015-08-28 2019-04-09 Freedom Solutions Group, Llc Automated document analysis comprising company name recognition
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11727198B2 (en) 2016-02-01 2023-08-15 Microsoft Technology Licensing, Llc Enterprise writing assistance
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9818405B2 (en) * 2016-03-15 2017-11-14 SAESTEK Ses ve Iletisim Bilgisayar Tekn. San. Ve Tic. A.S. Dialog management system
CN107291683A (zh) * 2016-04-11 2017-10-24 珠海金山办公软件有限公司 一种拼写检查方法及装置
CN105912712B (zh) * 2016-04-29 2019-09-17 华南师范大学 基于大数据的机器人对话控制方法和系统
CN105893626A (zh) * 2016-05-10 2016-08-24 中广核工程有限公司 一种用于核电工程的索引库创建方法及其采用其方法的索引系统
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
CN107515877B (zh) * 2016-06-16 2021-07-20 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN107767195A (zh) * 2016-08-16 2018-03-06 阿里巴巴集团控股有限公司 描述信息的展示系统和展示、生成方法及电子设备
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10366302B2 (en) 2016-10-10 2019-07-30 Gyrfalcon Technology Inc. Hierarchical category classification scheme using multiple sets of fully-connected networks with a CNN based integrated circuit as feature extractor
US10360470B2 (en) 2016-10-10 2019-07-23 Gyrfalcon Technology Inc. Implementation of MobileNet in a CNN based digital integrated circuit
US10339445B2 (en) 2016-10-10 2019-07-02 Gyrfalcon Technology Inc. Implementation of ResNet in a CNN based digital integrated circuit
US10366328B2 (en) 2017-09-19 2019-07-30 Gyrfalcon Technology Inc. Approximating fully-connected layers with multiple arrays of 3x3 convolutional filter kernels in a CNN based integrated circuit
US10083171B1 (en) * 2017-08-03 2018-09-25 Gyrfalcon Technology Inc. Natural language processing using a CNN based integrated circuit
US10102453B1 (en) * 2017-08-03 2018-10-16 Gyrfalcon Technology Inc. Natural language processing via a two-dimensional symbol having multiple ideograms contained therein
WO2018085757A1 (en) * 2016-11-07 2018-05-11 Equifax, Inc. Data processing systems and methods for efficiently transforming entity descriptors in textual data
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10559309B2 (en) * 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10713442B1 (en) 2017-02-17 2020-07-14 Narrative Science Inc. Applied artificial intelligence technology for interactive story editing to support natural language generation (NLG)
US11954445B2 (en) 2017-02-17 2024-04-09 Narrative Science Llc Applied artificial intelligence technology for narrative generation based on explanation communication goals
US11568148B1 (en) 2017-02-17 2023-01-31 Narrative Science Inc. Applied artificial intelligence technology for narrative generation based on explanation communication goals
CN106847288B (zh) * 2017-02-17 2020-12-25 上海创米科技有限公司 语音识别文本的纠错方法与装置
US10268674B2 (en) * 2017-04-10 2019-04-23 Dell Products L.P. Linguistic intelligence using language validator
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10789410B1 (en) * 2017-06-26 2020-09-29 Amazon Technologies, Inc. Identification of source languages for terms
KR20190004525A (ko) * 2017-07-04 2019-01-14 주식회사 마인즈랩 문장 학습 시스템 및 문장 학습 방법
US11263399B2 (en) 2017-07-31 2022-03-01 Apple Inc. Correcting input based on user context
US10275646B2 (en) 2017-08-03 2019-04-30 Gyrfalcon Technology Inc. Motion recognition via a two-dimensional symbol having multiple ideograms contained therein
US10192148B1 (en) * 2017-08-22 2019-01-29 Gyrfalcon Technology Inc. Machine learning of written Latin-alphabet based languages via super-character
GB201713728D0 (en) * 2017-08-25 2017-10-11 Just Eat Holding Ltd System and method of language processing
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
KR102102388B1 (ko) * 2017-11-20 2020-04-21 주식회사 마인즈랩 학습 문장 생성 시스템 및 이를 이용한 유사 문장 생성 방법
US11423208B1 (en) * 2017-11-29 2022-08-23 Amazon Technologies, Inc. Text encoding issue detection
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
KR102424514B1 (ko) * 2017-12-04 2022-07-25 삼성전자주식회사 언어 처리 방법 및 장치
US10942954B2 (en) * 2017-12-22 2021-03-09 International Business Machines Corporation Dataset adaptation for high-performance in specific natural language processing tasks
US11042709B1 (en) 2018-01-02 2021-06-22 Narrative Science Inc. Context saliency-based deictic parser for natural language processing
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US11023689B1 (en) 2018-01-17 2021-06-01 Narrative Science Inc. Applied artificial intelligence technology for narrative generation using an invocable analysis service with analysis libraries
US11625630B2 (en) 2018-01-26 2023-04-11 International Business Machines Corporation Identifying intent in dialog data through variant assessment
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11030408B1 (en) 2018-02-19 2021-06-08 Narrative Science Inc. Applied artificial intelligence technology for conversational inferencing using named entity reduction
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10956670B2 (en) 2018-03-03 2021-03-23 Samurai Labs Sp. Z O.O. System and method for detecting undesirable and potentially harmful online behavior
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
CN108595431B (zh) * 2018-04-28 2020-09-25 海信集团有限公司 语音交互文本纠错方法、装置、终端及存储介质
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
JP2021529382A (ja) 2018-06-19 2021-10-28 エリプシス・ヘルス・インコーポレイテッド 精神的健康評価のためのシステム及び方法
US11334726B1 (en) 2018-06-28 2022-05-17 Narrative Science Inc. Applied artificial intelligence technology for using natural language processing to train a natural language generation system with respect to date and number textual features
US10417342B1 (en) 2018-07-03 2019-09-17 Gyrfalcon Technology Inc. Deep learning device for local processing classical chinese poetry and verse
US10311149B1 (en) * 2018-08-08 2019-06-04 Gyrfalcon Technology Inc. Natural language translation device
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
JP7243106B2 (ja) * 2018-09-27 2023-03-22 富士通株式会社 修正候補提示方法、修正候補提示プログラムおよび情報処理装置
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
GB2577879B (en) 2018-10-08 2022-08-24 B & W Group Ltd Content playback system
US10387772B1 (en) 2018-10-22 2019-08-20 Gyrfalcon Technology Inc. Ensemble learning based image classification systems
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN109614499B (zh) * 2018-11-22 2023-02-17 创新先进技术有限公司 一种词典生成方法、新词发现方法、装置及电子设备
GB2579554A (en) * 2018-12-03 2020-07-01 Audiogum Uk Ltd Content playback system
US10331967B1 (en) * 2018-12-05 2019-06-25 Gyrfalcon Technology Inc. Machine learning via a two-dimensional symbol
CN109614621B (zh) * 2018-12-11 2023-09-19 中国移动通信集团江苏有限公司 一种校正文本的方法、装置及设备
US10909973B2 (en) * 2019-01-04 2021-02-02 International Business Machines Corporation Intelligent facilitation of communications
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11341330B1 (en) 2019-01-28 2022-05-24 Narrative Science Inc. Applied artificial intelligence technology for adaptive natural language understanding with term discovery
US11151317B1 (en) * 2019-01-29 2021-10-19 Amazon Technologies, Inc. Contextual spelling correction system
US11392853B2 (en) 2019-02-27 2022-07-19 Capital One Services, Llc Methods and arrangements to adjust communications
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN111859946B (zh) * 2019-04-22 2023-09-29 百度在线网络技术(北京)有限公司 对评论进行排序的方法和装置及机器可读存储介质
US11281911B2 (en) 2019-04-27 2022-03-22 Gyrfalcon Technology Inc. 2-D graphical symbols for representing semantic meaning of a video clip
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US10713830B1 (en) 2019-05-13 2020-07-14 Gyrfalcon Technology Inc. Artificial intelligence based image caption creation systems and methods thereof
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11526723B2 (en) 2019-07-09 2022-12-13 Gyrfalcon Technology Inc. Apparatus and methods of obtaining multi-scale feature vector using CNN based integrated circuits
CN110309289B (zh) * 2019-08-23 2019-12-06 深圳市优必选科技股份有限公司 一种句子生成方法、句子生成装置及智能设备
CN110503958A (zh) * 2019-08-30 2019-11-26 厦门快商通科技股份有限公司 语音识别方法、系统、移动终端及存储介质
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11301626B2 (en) 2019-11-11 2022-04-12 International Business Machines Corporation Artificial intelligence based context dependent spellchecking
US20210182663A1 (en) * 2019-12-17 2021-06-17 Sony Interactive Entertainment LLC Methods and systems for defining emotional machines
EP4080399A4 (en) * 2019-12-18 2022-11-23 Fujitsu Limited INFORMATION PROCESSING PROGRAM, INFORMATION PROCESSING METHOD AND INFORMATION PROCESSING DEVICE
US12118303B2 (en) 2020-11-30 2024-10-15 Tata Consultancy Services Limited Method and system for text cleaning
CN112966479A (zh) 2021-03-02 2021-06-15 北京彩彻区明科技有限公司 基于语言模型的辅助写作方法、装置和系统
CN115293154A (zh) * 2021-07-30 2022-11-04 苏州七星天专利运营管理有限责任公司 一种基于文本检索的词汇扩展方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1460948A (zh) * 2002-05-22 2003-12-10 夏普株式会社 修改或改进词语使用的方法和装置

Family Cites Families (135)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4674065A (en) 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
JPH0778165B2 (ja) 1986-06-27 1995-08-23 東芝ケミカル株式会社 成形用耐熱性樹脂組成物
US5146405A (en) 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
US5258909A (en) * 1989-08-31 1993-11-02 International Business Machines Corporation Method and apparatus for "wrong word" spelling error detection and correction
US5369577A (en) * 1991-02-01 1994-11-29 Wang Laboratories, Inc. Text searching system
SE513456C2 (sv) 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
US5485372A (en) * 1994-06-01 1996-01-16 Mitsubishi Electric Research Laboratories, Inc. System for underlying spelling recovery
JPH07325825A (ja) * 1994-06-01 1995-12-12 Mitsubishi Electric Corp 英文法チェックシステム装置
JP3260979B2 (ja) * 1994-07-15 2002-02-25 株式会社リコー 文字認識方法
US5617488A (en) * 1995-02-01 1997-04-01 The Research Foundation Of State University Of New York Relaxation word recognizer
US5659771A (en) 1995-05-19 1997-08-19 Mitsubishi Electric Information Technology Center America, Inc. System for spelling correction in which the context of a target word in a sentence is utilized to determine which of several possible words was intended
US5828991A (en) * 1995-06-30 1998-10-27 The Research Foundation Of The State University Of New York Sentence reconstruction using word ambiguity resolution
US6006221A (en) * 1995-08-16 1999-12-21 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US6173261B1 (en) * 1998-09-30 2001-01-09 At&T Corp Grammar fragment acquisition using syntactic and semantic clustering
WO1997017694A1 (en) * 1995-11-04 1997-05-15 International Business Machines Corporation Method and apparatus for adapting the language model's size in a speech recognition system
US6098034A (en) * 1996-03-18 2000-08-01 Expert Ease Development, Ltd. Method for standardizing phrasing in a document
US6085206A (en) 1996-06-20 2000-07-04 Microsoft Corporation Method and system for verifying accuracy of spelling and grammatical composition of a document
US5956739A (en) 1996-06-25 1999-09-21 Mitsubishi Electric Information Technology Center America, Inc. System for text correction adaptive to the text being corrected
US5907839A (en) 1996-07-03 1999-05-25 Yeda Reseach And Development, Co., Ltd. Algorithm for context sensitive spelling correction
US6181909B1 (en) 1997-07-22 2001-01-30 Educational Testing Service System and method for computer-based automatic essay scoring
US6154722A (en) * 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US6424983B1 (en) 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
US7072826B1 (en) 1998-06-04 2006-07-04 Matsushita Electric Industrial Co., Ltd. Language conversion rule preparing device, language conversion device and program recording medium
DE19842404A1 (de) * 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente
DE69909806T2 (de) * 1998-09-30 2004-01-22 Lernout & Hauspie Speech Products N.V. Graphische Benutzerschnittstelle zur Navigation in Grammatiken eines Spracherkennungssystems
US6317707B1 (en) * 1998-12-07 2001-11-13 At&T Corp. Automatic clustering of tokens from a corpus for grammar acquisition
KR100723738B1 (ko) * 1999-05-27 2007-05-30 에이오엘 엘엘씨 자동 교정 기능을 갖는 키보드 시스템
US7030863B2 (en) * 2000-05-26 2006-04-18 America Online, Incorporated Virtual keyboard system with automatic correction
AU5451800A (en) * 1999-05-28 2000-12-18 Sehda, Inc. Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
US6848080B1 (en) 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7165019B1 (en) * 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US6862566B2 (en) * 2000-03-10 2005-03-01 Matushita Electric Industrial Co., Ltd. Method and apparatus for converting an expression using key words
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US7035788B1 (en) * 2000-04-25 2006-04-25 Microsoft Corporation Language model sharing
US7149970B1 (en) * 2000-06-23 2006-12-12 Microsoft Corporation Method and system for filtering and selecting from a candidate list generated by a stochastic input method
DE10124429B4 (de) 2000-07-07 2008-11-27 International Business Machines Corp. System und Verfahren für eine verbesserte Rechtschreibprüfung
TW472232B (en) * 2000-08-11 2002-01-11 Ind Tech Res Inst Probability-base fault-tolerance natural language understanding method
JP3396734B2 (ja) * 2000-09-14 2003-04-14 独立行政法人通信総合研究所 コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体
US6885985B2 (en) * 2000-12-18 2005-04-26 Xerox Corporation Terminology translation for unaligned comparable corpora using category based translation probabilities
US7254773B2 (en) * 2000-12-29 2007-08-07 International Business Machines Corporation Automated spell analysis
CN100568222C (zh) * 2001-01-31 2009-12-09 微软公司 歧义消除语言模型
US7269545B2 (en) * 2001-03-30 2007-09-11 Nec Laboratories America, Inc. Method for retrieving answers from an information retrieval system
US7117144B2 (en) * 2001-03-31 2006-10-03 Microsoft Corporation Spell checking for text input via reduced keypad keys
FR2824978B1 (fr) 2001-05-15 2003-09-19 Wavecom Sa Dispositif et procede de traitement d'un signal audio
CN1391180A (zh) * 2001-06-11 2003-01-15 国际商业机器公司 外语写作辅助方法和辅助工具
GB2376335B (en) * 2001-06-28 2003-07-23 Vox Generation Ltd Address recognition using an automatic speech recogniser
US7295965B2 (en) * 2001-06-29 2007-11-13 Honeywell International Inc. Method and apparatus for determining a measure of similarity between natural language sentences
US7003444B2 (en) * 2001-07-12 2006-02-21 Microsoft Corporation Method and apparatus for improved grammar checking using a stochastic parser
US7296019B1 (en) 2001-10-23 2007-11-13 Microsoft Corporation System and methods for providing runtime spelling analysis and correction
NO316480B1 (no) 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
US6952691B2 (en) * 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
AU2003267953A1 (en) * 2002-03-26 2003-12-22 University Of Southern California Statistical machine translation using a large monlingual corpus
US20030187632A1 (en) * 2002-04-02 2003-10-02 Menich Barry J. Multimedia conferencing system
US7020338B1 (en) * 2002-04-08 2006-03-28 The United States Of America As Represented By The National Security Agency Method of identifying script of line of text
US20030204569A1 (en) 2002-04-29 2003-10-30 Michael R. Andrews Method and apparatus for filtering e-mail infected with a previously unidentified computer virus
US20030210249A1 (en) 2002-05-08 2003-11-13 Simske Steven J. System and method of automatic data checking and correction
US20040002849A1 (en) * 2002-06-28 2004-01-01 Ming Zhou System and method for automatic retrieval of example sentences based upon weighted editing distance
US7386442B2 (en) 2002-07-03 2008-06-10 Word Data Corp. Code, system and method for representing a natural-language text in a form suitable for text manipulation
US20040030540A1 (en) * 2002-08-07 2004-02-12 Joel Ovil Method and apparatus for language processing
US7293015B2 (en) * 2002-09-19 2007-11-06 Microsoft Corporation Method and system for detecting user intentions in retrieval of hint sentences
EP1556854B1 (en) * 2002-09-27 2011-05-04 Callminer, Inc. Method for statistical analysis of speech
US7542908B2 (en) * 2002-10-18 2009-06-02 Xerox Corporation System for learning a language
US7092567B2 (en) * 2002-11-04 2006-08-15 Matsushita Electric Industrial Co., Ltd. Post-processing system and method for correcting machine recognized text
FR2848688A1 (fr) * 2002-12-17 2004-06-18 France Telecom Identification de langue d'un texte
US7346487B2 (en) * 2003-07-23 2008-03-18 Microsoft Corporation Method and apparatus for identifying translations
US20050043940A1 (en) 2003-08-20 2005-02-24 Marvin Elder Preparing a data source for a natural language query
US7475015B2 (en) * 2003-09-05 2009-01-06 International Business Machines Corporation Semantic language modeling and confidence measurement
US20050053900A1 (en) 2003-09-05 2005-03-10 Steven Kaufmann Method of teaching a foreign language to a student providing measurement in a context based learning system
US20050120002A1 (en) 2003-10-02 2005-06-02 Hassan Behbehani Automated text generation process
US7447627B2 (en) 2003-10-23 2008-11-04 Microsoft Corporation Compound word breaker and spell checker
US7720675B2 (en) * 2003-10-27 2010-05-18 Educational Testing Service Method and system for determining text coherence
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7813916B2 (en) * 2003-11-18 2010-10-12 University Of Utah Acquisition and application of contextual role knowledge for coreference resolution
JP4584148B2 (ja) 2003-11-28 2010-11-17 株式会社言葉の森 作文小論文の評価採点装置
US7254774B2 (en) 2004-03-16 2007-08-07 Microsoft Corporation Systems and methods for improved spell checking
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
US7779354B2 (en) * 2004-05-13 2010-08-17 International Business Machines Corporation Method and data processing system for recognizing and correcting dyslexia-related spelling errors
US20060003297A1 (en) 2004-06-16 2006-01-05 Elisabeth Wiig Language disorder assessment and associated methods
US8321786B2 (en) * 2004-06-17 2012-11-27 Apple Inc. Routine and interface for correcting electronic text
US20070016401A1 (en) * 2004-08-12 2007-01-18 Farzad Ehsani Speech-to-speech translation system with user-modifiable paraphrasing grammars
CA2577075C (en) * 2004-08-13 2014-10-07 5 Examples, Inc. The one-row keyboard and approximate typing
US20060048055A1 (en) * 2004-08-25 2006-03-02 Jun Wu Fault-tolerant romanized input method for non-roman characters
US7392187B2 (en) * 2004-09-20 2008-06-24 Educational Testing Service Method and system for the automatic generation of speech features for scoring high entropy speech
US7401293B2 (en) 2004-11-19 2008-07-15 Spelldoctor, Llc System and method for teaching spelling
AU2005327096A1 (en) * 2004-12-01 2006-08-17 Whitesmoke, Inc. System and method for automatic enrichment of documents
US7457808B2 (en) * 2004-12-17 2008-11-25 Xerox Corporation Method and apparatus for explaining categorization decisions
US7630980B2 (en) * 2005-01-21 2009-12-08 Prashant Parikh Automatic dynamic contextual data entry completion system
US7805300B2 (en) * 2005-03-21 2010-09-28 At&T Intellectual Property Ii, L.P. Apparatus and method for analysis of language model changes
US7584093B2 (en) * 2005-04-25 2009-09-01 Microsoft Corporation Method and system for generating spelling suggestions
US8131746B2 (en) 2005-06-23 2012-03-06 International Business Machines Corporation Dynamic language checking
US8433711B2 (en) * 2005-09-09 2013-04-30 Kang Jo Mgmt. Limited Liability Company System and method for networked decision making support
JP4087400B2 (ja) * 2005-09-15 2008-05-21 株式会社東芝 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
CN100533431C (zh) * 2005-09-21 2009-08-26 富士通株式会社 一种基于语素标注的自然语言成分识别、校正装置及方法
US7908132B2 (en) * 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques
US20070094024A1 (en) * 2005-10-22 2007-04-26 International Business Machines Corporation System and method for improving text input in a shorthand-on-keyboard interface
JP2007122509A (ja) * 2005-10-28 2007-05-17 Rozetta Corp 語句配列の自然度判定装置、方法及びプログラム
US7747427B2 (en) * 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain
US8126700B2 (en) * 2006-03-29 2012-02-28 International Business Machines Corporation Computer-assisted comprehension of texts
US8608477B2 (en) 2006-04-06 2013-12-17 Vantage Technologies Knowledge Assessment, L.L.C. Selective writing assessment with tutoring
US20070265831A1 (en) 2006-05-09 2007-11-15 Itai Dinur System-Level Correction Service
US7558725B2 (en) * 2006-05-23 2009-07-07 Lexisnexis, A Division Of Reed Elsevier Inc. Method and apparatus for multilingual spelling corrections
US8271266B2 (en) * 2006-08-31 2012-09-18 Waggner Edstrom Worldwide, Inc. Media content assessment and control systems
US7689408B2 (en) * 2006-09-01 2010-03-30 Microsoft Corporation Identifying language of origin for words using estimates of normalized appearance frequency
US8626486B2 (en) * 2006-09-05 2014-01-07 Google Inc. Automatic spelling correction for machine translation
US20100050074A1 (en) 2006-10-30 2010-02-25 Cellesense Technologies Ltd. Context sensitive, error correction of short text messages
US7590626B2 (en) * 2006-10-30 2009-09-15 Microsoft Corporation Distributional similarity-based models for query correction
US7702680B2 (en) * 2006-11-02 2010-04-20 Microsoft Corporation Document summarization by maximizing informative content words
US20080154600A1 (en) * 2006-12-21 2008-06-26 Nokia Corporation System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition
EP1936606B1 (en) * 2006-12-21 2011-10-05 Harman Becker Automotive Systems GmbH Multi-stage speech recognition
US7957955B2 (en) * 2007-01-05 2011-06-07 Apple Inc. Method and system for providing word recommendations for text input
US9465791B2 (en) * 2007-02-09 2016-10-11 International Business Machines Corporation Method and apparatus for automatic detection of spelling errors in one or more documents
US7991609B2 (en) * 2007-02-28 2011-08-02 Microsoft Corporation Web-based proofing and usage guidance
US8005664B2 (en) * 2007-04-30 2011-08-23 Tachyon Technologies Pvt. Ltd. System, method to generate transliteration and method for generating decision tree to obtain transliteration
WO2009016631A2 (en) 2007-08-01 2009-02-05 Ginger Software, Inc. Automatic context sensitive language correction and enhancement using an internet corpus
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
US20120239834A1 (en) * 2007-08-31 2012-09-20 Google Inc. Automatic correction of user input using transliteration
US8341520B2 (en) 2007-09-24 2012-12-25 Ghotit Ltd. Method and system for spell checking
US8176419B2 (en) * 2007-12-19 2012-05-08 Microsoft Corporation Self learning contextual spell corrector
US8232973B2 (en) * 2008-01-09 2012-07-31 Apple Inc. Method, device, and graphical user interface providing word recommendations for text input
US20090198671A1 (en) * 2008-02-05 2009-08-06 Yahoo! Inc. System and method for generating subphrase queries
US8706474B2 (en) * 2008-02-23 2014-04-22 Fair Isaac Corporation Translation of entity names based on source document publication date, and frequency and co-occurrence of the entity names
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
KR101491581B1 (ko) 2008-04-07 2015-02-24 삼성전자주식회사 철자 오류 보정 시스템 및 방법
US20110086331A1 (en) 2008-04-16 2011-04-14 Ginger Software, Inc. system for teaching writing based on a users past writing
WO2009130692A2 (en) 2008-04-22 2009-10-29 Robert Iakobashvili Method and system for user-interactive iterative spell checking
US8473278B2 (en) * 2008-07-24 2013-06-25 Educational Testing Service Systems and methods for identifying collocation errors in text
JP5584212B2 (ja) 2008-07-31 2014-09-03 ジンジャー ソフトウェア、インコーポレイティッド インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善
US8219905B2 (en) 2008-11-17 2012-07-10 International Business Machines Corporation Automatically detecting keyboard layout in order to improve the quality of spelling suggestions
US8868402B2 (en) * 2009-12-30 2014-10-21 Google Inc. Construction of text classifiers
CN102884518A (zh) 2010-02-01 2013-01-16 金格软件有限公司 尤其用于小键盘装置的使用互联网语料库的自动的上下文相关的语言校正
US8838453B2 (en) * 2010-08-31 2014-09-16 Red Hat, Inc. Interactive input method
US9053095B2 (en) * 2010-10-31 2015-06-09 Speech Morphing, Inc. Speech morphing communication system
US8484218B2 (en) * 2011-04-21 2013-07-09 Google Inc. Translating keywords from a source language to a target language

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1460948A (zh) * 2002-05-22 2003-12-10 夏普株式会社 修改或改进词语使用的方法和装置

Also Published As

Publication number Publication date
CA2731899C (en) 2016-10-25
JP2010535377A (ja) 2010-11-18
US20150142422A1 (en) 2015-05-21
US20110184720A1 (en) 2011-07-28
CN105045777A (zh) 2015-11-11
CN102165435B (zh) 2014-12-24
WO2009016631A2 (en) 2009-02-05
CN102165435A (zh) 2011-08-24
US20100286979A1 (en) 2010-11-11
CA2731899A1 (en) 2010-02-04
US9026432B2 (en) 2015-05-05
EP2183685A2 (en) 2010-05-12
EP2183685A4 (en) 2012-08-08
WO2009016631A3 (en) 2010-03-04
US8914278B2 (en) 2014-12-16
US8645124B2 (en) 2014-02-04
JP5638948B2 (ja) 2014-12-10
US20140122062A1 (en) 2014-05-01
CN101802812A (zh) 2010-08-11
JP2015057716A (ja) 2015-03-26
US20150186336A1 (en) 2015-07-02
CA2694327A1 (en) 2009-02-05

Similar Documents

Publication Publication Date Title
CN101802812B (zh) 使用互联网语料库的自动的上下文相关的语言校正和增强
JP5584212B2 (ja) インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善
CN102884518A (zh) 尤其用于小键盘装置的使用互联网语料库的自动的上下文相关的语言校正
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
Abdul-Mageed Modeling Arabic subjectivity and sentiment in lexical space
CN108920455A (zh) 一种汉语自动生成文本的自动评价方法
CN103608805B (zh) 辞典产生装置及方法
Eskander et al. Creating resources for Dialectal Arabic from a single annotation: A case study on Egyptian and Levantine
CN112860781A (zh) 一种词汇搭配提取和语义分类相结合的挖掘和展示方法
Dekker et al. Synthetic Data for English Lexical Normalization: How Close Can We Get to Manually Annotated Data?
Nielsen A corpus-based study of verb phrase ellipsis identification and resolution
Theijssen et al. On the difficulty of making concreteness concrete
JP2005115628A (ja) 定型表現を用いた文書分類装置・方法・プログラム
Ihalainen A source of data for the study of English dialectal syntax: The Helsinki corpus
Stehouwer Statistical language models for alternative sequence selection
Kotait Richness Lost in Machine Translationese
Battisti Automatic Cluster Analysis of Texts in Simplified German
Alsaad Enhanced root extraction and document classification algorithm for Arabic text
Teshome Design of Anaphora Resolution for Afaan Oromo Personal Pronoun
Zhao et al. Automatic Recognition and Extraction of English Verb Types Based on Index Line Clustering
Andonov et al. A framework for sentiment analysis of financial news–using heuristics-based classifier
Wu et al. Supporting Asynchronous Discussion Text Analysis with an Automatic Coding Approach
Kaneko et al. An Abstract Generation System for Social Scientific Papers
Faulhaber Enhancing hypernym extraction for named entities using machine learning based classification
Menzel Identifying English gerunds and their translation equivalents in an English-German translation corpus

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant