CN101802812B - 使用互联网语料库的自动的上下文相关的语言校正和增强 - Google Patents
使用互联网语料库的自动的上下文相关的语言校正和增强 Download PDFInfo
- Publication number
- CN101802812B CN101802812B CN200880101405.7A CN200880101405A CN101802812B CN 101802812 B CN101802812 B CN 101802812B CN 200880101405 A CN200880101405 A CN 200880101405A CN 101802812 B CN101802812 B CN 101802812B
- Authority
- CN
- China
- Prior art keywords
- word
- contextual feature
- gram
- feature sequence
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 402
- 230000006870 function Effects 0.000 claims description 530
- 239000002773 nucleotide Substances 0.000 claims description 28
- 125000003729 nucleotide group Chemical group 0.000 claims description 28
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000013519 translation Methods 0.000 claims description 11
- 238000011109 contamination Methods 0.000 claims description 8
- 230000021615 conjugation Effects 0.000 claims description 6
- 230000002349 favourable effect Effects 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000005728 strengthening Methods 0.000 claims description 6
- 238000012015 optical character recognition Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000009897 systematic effect Effects 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims 57
- 239000011159 matrix material Substances 0.000 description 92
- 238000000034 method Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 23
- 238000001914 filtration Methods 0.000 description 18
- 241001070947 Fagus Species 0.000 description 14
- 235000010099 Fagus sylvatica Nutrition 0.000 description 14
- 235000013305 food Nutrition 0.000 description 14
- 241000282693 Cercopithecidae Species 0.000 description 6
- 230000002708 enhancing effect Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 206010013883 Dwarfism Diseases 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 206010004542 Bezoar Diseases 0.000 description 1
- 241000242722 Cestoda Species 0.000 description 1
- 208000001840 Dandruff Diseases 0.000 description 1
- 206010012735 Diarrhoea Diseases 0.000 description 1
- 241001122315 Polites Species 0.000 description 1
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 235000012907 honey Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种计算机辅助语言校正系统,其包括使用互联网语料库的利用上下文特征序列功能的拼写校正功能、误用词校正功能、语法校正功能和词汇增强功能。
Description
相关申请的参考
参考2007年8月1日提交的、题目为“METHODS FOR CONTEXTSENSITIVE ERROR DETECTION AND CORRECTION”、申请号为60/953,209的美国临时专利申请,以引用方式将其公开并入本文,并且依照37CFR 1.78(a)(4)和(5)(i)要求其优先权。
技术领域
本发明总体上涉及计算机辅助语言校正。
背景技术
认为以下公开代表技术的当前状态:
美国专利号为5,659,771;5,907,839;6,424,983;7,296,019;5,956,73925和4,674,065的专利
美国公开专利申请号为2006/0247914和2007/0106937的申请。
发明内容
本发明尝试提供用于计算机辅助语言校正的改进的系统和功能。
因此,根据本发明的优选实施例提供了一种计算机辅助语言校正系统,其包括备选词生成器,基于输入句子,生成为所述句子中的多个词的中每一个提供多个备选词的基于文本的表示,选择器,用于至少部分地基于互联网语料库,针对所述句子中的所述多个词的每一个,在至少所述多个备选词中进行选择,以及校正生成器,用于基于所述选择器做出的选择来提供校正输出。
优选地,所述选择器用于,基于以下校正功能中的至少一个来做出所述选择:拼写校正、误用词校正、语法校正和词汇增强。
根据本发明的优选实施例,所述选择器用于,基于以下校正功能中的 至少两个来做出所述选择:拼写校正、误用词校正、语法校正和词汇增强。此外,所述选择器用于,基于校正的以下时间顺序中的至少一项来做出所述选择:先于误用词校正、语法校正和词汇增强的至少一个的拼写校正,以及先于词汇增强的误用词校正和语法校正。
此外或可选地,由以下功能中的一个来提供所述输入句子:词处理器功能、机器翻译功能、语音到文本转换功能、光学字符识别功能,以及即时通信功能,并且所述选择器用于,基于以下校正功能中的至少一个来做出所述选择:误用词校正、语法校正以及词汇增强。
优选地,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。此外或可选地,所述语法校正功能包括标点、动词变形、单数/复数、冠词和介词校正功能中的至少一个。
根据本发明的优选实施例,所述语法校正功能包括替换、插入和省略校正功能中的至少一个。
优选地,所述选择器包括基于上下文计分功能,用于至少部分地基于在互联网语料库中上下文特征序列(CFS)出现的频率,排序所述多个备选词。此外,所述基于上下文计分功能,还用于至少部分地基于在所述互联网语料库中标准化CFS出现的频率,排序所述多个备选词。
根据本发明的另一个优选实施例还提供了一种计算机辅助语言校正系统,其包括以下中的至少一个:拼写校正功能、误用词校正功能、语法校正功能、词汇增强功能,以及与以下各项中的至少一个协作并且使用互联网语料库的上下文特征序列功能:所述拼写校正功能;所述误用词校正功能、语法校正功能和所述词汇增强功能。
优选地,所述语法校正功能包括标点、动词变形、单数/复数、冠词和介词校正功能中的至少一个。此外或可选地,所述语法校正功能包括替换、插入和省略校正功能中的至少一个。
根据本发明的优选实施例,所述计算机辅助语言校正系统包括以下各项中的至少两个:所述拼写校正功能、所述误用词校正功能、所述语法校正功能、所述词汇增强功能,并且所述上下文特征序列功能与以下各项中的至少两个进行协作并且使用互联网语料库:所述拼写校正功能、所述误 用词校正功能、所述语法校正功能和所述词汇增强功能。
优选地,所述计算机辅助语言校正系统还包括以下各项中的至少三个:所述拼写校正功能、所述误用词校正功能、所述语法校正功能、所述词汇增强功能,并且所述上下文特征序列功能与以下各项中的至少三个进行协作并且使用互联网语料库:所述拼写校正功能;所述误用词校正功能,所述语法校正功能和所述词汇增强功能。
根据本发明的优选实施例,所述的计算机辅助语言校正系统还包括:所述拼写校正功能、所述误用词校正功能、所述语法校正功能,和所述词汇增强功能,并且所述上下文特征序列功能与以下各项功能进行协作并且使用互联网语料库:所述拼写校正功能;所述误用词校正功能,所述语法校正功能和所述词汇增强功能。
优选地,所述校正生成器包括校正语言生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,用于提供校正语言输出。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,其包括:备选词生成器,基于语言输入,生成为所述句子中的多个词中的每一个提供多个备选词的基于文本的表示;选择器,用于至少部分地基于为所述语言输入中的所述多个词中的至少一些选择的所述多个备选词中的多个之间的关系,为所述语言输入中的所述多个词中的每一个,在至少所述多个备选词之间进行选择;校正生成器,用于基于由所述选择器做出的选择,来提供校正输出。
优选地,所述语言输入包括输入句子和输入文本中的至少一个。此外或可选地,所述语言输入是语音并且所述生成器将语音中的所述语言输入转换为为所述语言输入中的多个词提供多个备选词的基于文本的表示。
根据本发明的优选实施例,所述语言输入是以下各项中的至少一个:文本输入、光学字符识别功能的输出、机器翻译功能的输出,以及词处理功能的输出,并且所述生成器将文本中的所述语言输入转换为为语言输入中的多个词提供多个备选词的基于文本的表示。
优选地,所述选择器,用于至少基于以下校正功能中的两个,做出所述选择:拼写错误、误用词校正、语法校正,以及词汇增强。此外,所述选择器用于,基于校正的以下时间顺序中的至少一个来做出所述选择:先 于误用词校正、语法校正和词汇增强中的至少一个的拼写校正,以及先于词汇增强的误用词校正和语法校正。
根据本发明的优选实施例,所述语言输入是语音并且所述选择器用于基于以下校正功能中的至少一个来做出所述选择:误用词校正、语法校正,以及词汇增强。
优选地,所述选择器用于通过执行以下功能中的至少两个来做所述选择:选择包括比初始选择的所述语言输入中的所有所述多个词少的第一组词或词的组合;之后对所述第一组词或词的组合的元素进行排序以建立选择的优先级;之后为了所述第一组词的元素,当在所述多个备选词之间选择时,选择其它词而不是所有所述多个词作为上下文来影响所述选择。此外或可选地,所述选择器用于通过执行以下功能来做所述选择:当选择具有至少两个词的元素时,结合用于所述至少两个词彼此的所述多个备选词的每一个来评估用于所述至少两个词的每一个的所述多个备选词的每一个。
根据本发明的优选实施例,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,其包括:误用词怀疑器,基于所述语言输入的上下文中词的合适度来评估语言输入中的至少大部分词;校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出。
优选地,所述的计算机辅助语言校正系统还包括:备选词生成器,基于所述语言输入,生成为所述语言输入中的所述至少大部分词的至少一个提供多个备选词的基于文本的表示;选择器,用于为所述语言输入中的所述至少大部分的词中的所述至少一个的每一个,在至少所述多个备选词中进行选择,并且其中,所述校正生成器,用于基于所述检测器做出的选择,提供所述校正输出。此外或可选地,所述的计算机辅助语言校正系统还包括:怀疑词输出指示器,其指示所述语言输入中的所述词的所述至少大部分的至少一些被怀疑为误用词的程度。
根据本发明的优选实施例,所述校正生成器包括自动校正语言生成器,用于在不需要用户干预的情况下,至少部分地基于由所述怀疑器执行的评估,提供校正文本输出。
优选地,所述语言输入是语音并且所述选择器用于,基于以下校正功能的至少一个,做所述选择:误用词校正、语法校正,以及词汇增强。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:误用词怀疑器,用于评估语言输入中的词;备选词生成器,为由所述怀疑器评估为怀疑词的、所述语言输入中的至少一些词生成多个备选词,所述语言输入中的词的所述多个备选词的至少一个与互联网语料库中所述语言输入中的所述词的上下文特征一致;选择器,用于在至少所述多个备选词之间进行选择;校正生成器,用于至少部分地基于由所述选择器做出的选择,用于提供校正输出。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:误用词怀疑器,评估语言输入中的词并且识别怀疑的词;备选词生成器,生成用于所述怀疑词的多个备选词;选择器,根据多个选择标准对每个所述怀疑词以及为此由所述备选词生成器生成的所述多个备选词的一个进行评级,并且应用与为此由所述备选词生成器生成的所述多个备选词中的一个有关的所述怀疑的词有利的偏置;校正生成器,用于至少部分地基于由所述选择器做出的选择,提供校正输出。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:备选词生成器,基于输入为所述输入中的至少一个词生成多个备选词;选择器,根据多个选择标准对每一个所述至少一个词以及为此由所述备选词生成器生成的所述多个备选词的多个进行评级,并且应用与为此由所述备选词生成器生成的所述多个备选词中的一个有关的所述至少一个词有利的偏置,所述偏置是指示提供了输入的人的不确定度的所述输入不确定度度量的函数;校正生成器,用于基于所述选择器做出的选择,提供校正输出。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:不正确词怀疑器,评估语言输入中的词的至少大部分,所述怀疑器至少部分地响应于指示提供了输入的人的不确定度的输入不确定度度量,所述怀疑器提供怀疑的不正确词输出;备用词生成器,为由所述怀疑的不正确词输出所识别的怀疑的不正确词生成多个备选词;选择器,用于在每一个怀疑的不正确词和由所述备选词生成器生成的所述多个备选词中进行选择;用于基于所述选择器做出的选择,提供校正输出的校正生成器。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:接收多个词输入并且提供校正输出的拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的至少一个,拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的所述至少一个的每一个包括:备选词候选生成器包括语音相似性功能,用于基于与所述输入中的词的语音相似性,提出备选词,并且用于指示语音相似性的度量;字符串相似性功能,用于基于与所述输入中的词的字符串相似性,来提出备选词,并且指示用于每一个备选词的字符串相似性的度量;选择器,用于通过使用所述语音相似性和字符串相似性度量以及基于上下文选择功能,选择所述输出中的词或由所述备选词候选者生成器提出的备选词候选者。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:怀疑词识别功能,接收多个词语言输入并且提供指示怀疑词的怀疑词输出;特征识别功能,用于识别包括所述怀疑词的特征;备选词选择器,识别用于所述怀疑词的备选词;特征出现功能,使用语料库并提供出现输出,关于在所述语料库中的使用频率来排序包括所述备选词的各种特征;选择器,使用所述出现输出来提供校正输出,所述特征识别功能包括特征过滤功能,所述特征过滤功能包括以下中的至少一个:用于消除包含怀疑的错误的特征的功能;用于消极地偏置包含在所述多个词输入的较早的校正迭代中引入的词并且具有在可信度预定的阈值以下的可信度的特征的功能;用于消除包含在具有在预定的频率阈值之上的出现的频率的另一个特征中所包含的特征的功能。
优选地,所述选择器用于至少基于以下校正功能的两个来做该选择:拼写校正、误用词校正、语法校正,以及词汇增强。此外,所述选择器用于基于校正的以下时间顺序中的至少一个来做出所述选择:先于误用词校正、语法校正和词汇增强中的至少一个的拼写校正;先于词汇增强的误用词校正和语法校正。
根据本发明的优选实施例,所述语言输入是语音并且所述选择器是用于基于以下校正功能的至少一个来做所述选择:语法校正、误用词校正、词汇增强。
优选地,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。
根据本发明的优选实施例,所述选择器还用于,至少部分地基于用户输入不确定度度量来做所述选择。此外,所述用户输入不确定度度量是基于提供了所述输入的人的不确定度的测量的函数。此外或可选地,所述选择器还使用用户输入历史学习功能。
根据本发明的优选实施例,还提供了一种计算机辅助语言校正系统,包括:怀疑词识别功能,接收多个词语言输入并且提供指示怀疑词的怀疑词输出;特征识别功能,用于识别包括所述怀疑词的特征;备选词选择器,识别用于所述怀疑词的备选词;出现功能,使用语料库并提供出现输出,关于在所述语料库中词的使用频率来排序包括所述备选词的特征,;校正输出生成器,使用所述出现输出以提供校正输出,所述特征识别功能包括以下各项中的至少一个:N-gram识别功能;共同出现识别功能;以下各项中的至少一个:skip-gram识别功能、switch-gram识别功能,以及之前由用户使用的特征识别功能。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:语法错误怀疑器,基于在所述语言输入的上下文中词的适合度,评估语言输入中所述词的至少大部分;校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出。
优选地,所述的计算机辅助语言校正系统还包括:备选词生成器,基于所述语言输入,生成为在所述语言输入中的所述至少大部分词中的至少一个提供多个备选词的基于文本的表示;选择器,用于为所述语言输入中的所述至少大部分词中的所述至少一个的每一个,在至少所述多个备选词中进行选择,并且其中,所述校正生成器,用于基于由所述选择器做出的选择,提供所述校正输出。
根据本发明的优选实施例,所述的计算机辅助语言校正系统并且还包括:怀疑词输出指示器,其指示所述语言输入中的所述词的所述至少大部分的至少一些被怀疑为包含语法错误的程度。
优选地,所述校正生成器包括自动校正语言生成器,用于在不需要用户干预的情况下,至少部分地基于由所述怀疑器执行的评估,提供校正文本输出。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:语法错误怀疑器,评估语言输入中的词;备选词生成器,为由所述怀疑器评估为怀疑词的所述语言输入中的至少一些词生成多个备选词,用于所述语言输入中的词的所述多个备选词的至少一个与所述语言输入中的所述词的上下文特征一致;选择器,用于在至少所述多个备选词之间进行选择;校正生成器,用于至少部分地基于由所述检测器做出的选择,提供校正输出。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:语法错误怀疑器,评估语言输入中的词并且识别怀疑的词;备选生成器,生成用于所述怀疑词的多个备选词;选择器,根据多个选择标准对每一个所述怀疑的词以及为此由所述备选词生成器生成的所述多个备选词的一个进行评级,并且应用与为此由所述备选词生成器生成的所述多个备选词中的一个有关的所述怀疑的词有利的偏置;校正生成器,用于至少部分地基于由所述选择器做出的选择,提供校正输出。
优选地,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于由所述选择器做出的选择,提供校正语言输出。
根据本发明的另一个优选实施例,还提供了一种包括各种备选词校正的基于上下文计分的计算机辅助语言校正系统,至少部分地基于在互联网语料库中上下文特征序列(CFS)出现的频率。
优选地,所述计算机辅助语言校正系统还包括以下各项中的至少一个:与所述基于上下文计分协作的拼写校正功能、误用词校正功能、语法校正功能,以及词汇增强功能。
根据本发明的优选实施例,所述基于上下文计分还至少部分地基于在互联网语料库中的标准化CFS出现的频率。此外或可选地,所述基于上下文计分还至少部分地基于CFS重要性得分。此外,所述CFS重要性得分是以下各项中的至少一个的函数:词性标注和句子分析功能的操作;CFS长度;在CFS和CFS类型中的每一个词的出现的频率。
根据本发明的另一个优选实施例,还提供了一种包括词汇增强功能的计算机辅助语言校正系统,包括:词汇挑战的词识别功能;备选词词汇增强生成功能;基于上下文计分功能,其至少部分地基于在互联网语料库中上下文特征序列(CFS)出现的频率,所述备选词词汇增强生成功能,其包括词典预处理功能,用于生成备选词词汇增强。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:备选词生成器,基于输入句子,生成为所述句子中的多个词的每一个提供多个备选词的基于文本的表示;选择器,为了所述句子中的所述多个词的每一个,在至少所述多个备选词中选择;可信度分配器,用于将可信度分配到来自所述多个备选词的选择的备选词;校正生成器,用于基于所述选择器做出的选择并且至少部分地基于所述可信度,提供校正输出。
优选地,基于上下文特征序列(CFS)来评估所述多个备选词,并且所述可信度是基于以下参数中的至少一个:选择的CFS的数量、类型和得分;在CFS上下文中,所述多个备选词的出现的频率的统计显著性的测量;基于每一个所述CFS的优先选择度量和所述多个备选词的词相似性得分,选择所述多个备选词中的一个的一致性程度;所述多个备选词中的所述一个的不基于上下文相似性得分在第一预定的最低阈值以上;基于上下文数据可用性的程度,其由所述CFS的数量来指示,其中,所述CFS具有在第二预定最低阈值以上并且具有在第三预定阈值之上的优先选择得分。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:标点错误怀疑器,基于语言输入的上下文中的合适度,评估所述语言输入中的所述词和标点中的至少一些,其中,所述语言输入的合适度是基于互联网语料库中所述语言输入的feature-gram的出现的频率;校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出。
优选地,所述校正生成器包括丢失标点校正功能、冗余标点校正功能和标点替换校正功能中的至少一个。
根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正系统,包括:语法元素错误怀疑器,基于语言输入的上下文中的合适度, 评估所述语言输入中的所述词中的至少一些,其中,所述语言输入的合适度是基于互联网语料库中所述语言输入的feature-gram的出现的频率;校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出。
优选地,所述校正生成器至少包括丢失语法元素校正功能、冗余语法元素校正功能和语法元素替换校正功能中的至少一个。此外或可选地,所述语法元素是冠词、介词和连词中的一个。
附图说明
结合附图,根据以下详细的描述,将更全面地懂得并理解本发明,其中:
图1是用于根据本发明的优选实施例建造并操作的计算机辅助语言校正的系统和功能的简化的框图说明;
图2是说明了图1的系统和功能中优选地使用的拼写校正功能的简化的流程图;
图3是说明了图1的系统和功能中优选地使用的误用词和语法校正功能的简化的流程图;
图4是在图1的系统和功能中使用的、说明了词汇增强功能的简化的流程图;
图5是说明了图1的系统和功能中优选地使用的上下文特征序列(CFS)功能的简化的框图;
图6A是说明了根据本发明的优选实施例的图2的功能的拼写校正功能形成部分的简化的流程图;
图6B是说明了根据本发明的优选实施例的图3的功能的误用词和语法校正功能形成部分的简化的流程图;
图6C是说明了根据本发明的优选实施例的图4的功能的词汇增强功能形成部分的简化的流程图;
图7A是说明了用于生成在图2和3的功能中有用的备选词校正的功能的简化的流程图;
图7B是说明了用于生成在图4的功能中有用的备选词增强的功能的简化的流程图;
图8是说明了用于在图2的拼写校正功能中有用的各种备选词增强的不基于上下文词的基于相似性计分和基于上下文计分(优选地使用互联网语料库)的功能的简化的流程图;
图9是说明了用于在图3、10和11的误用词和语法校正功能以及在图4的词汇增强功能中有用的各种备选词校正的不基于上下文词的基于相似性计分和基于上下文计分(优选地使用互联网语料库)的功能的简化的流程图;
图10是说明了丢失冠词、介词和标点校正功能的操作的简化的流程图;以及
图11是冗余冠词、介词和标点校正功能的操作的简化的流程图。
具体实施方式
现在参照图1,其是用于根据本发明的优选实施例建造并操作的计算机辅助语言校正的系统和功能的简化的框图说明。如图1所示,从一个或多个源将校正文本提供给语言校正模块100,包括但并不限于:字处理功能102、机器翻译功能104、语音到文本转换功能106、光学字符识别功能108和任何其它文本源110,例如即时通信或互联网。
语言校正模块100优选地包括拼写校正功能112、误用词和语法校正功能114以及词汇增强功能116。
本发明的特定特征是拼写校正功能112、误用词和语法校正功能114以及词汇增强功能116中的每个都与上下文特征序列(CFS)功能118进行交互,所述上下文特征序列功能118使用互联网语料库120。
为了本描述的目的,定义了上下文特征序列或CFS,其包括N-gram、skip-gram、共同出现、“之前由用户特征使用”和其组合,参照图5下文依次对其进行定义。应当注意,为了描述的简便和清楚,以下的大多数示例仅使用n-gram。应当理解本发明并不限于此。
互联网语料库的使用很重要,因为它为极大量的上下文特征序列提供了显著的统计的数据,导致极为健壮的语言校正功能。在实践中,超过两个字的组合在传统的非互联网语料库中具有很少的统计,但是在互联网语料库中具有令人满意或良好的统计。
互联网语料库通常通过在互联网上爬行并从网站页面收集文本、从万维网收集的自然语言文本的大量代表性示例。优选地,还收集动态文本,例如聊天记录、来自网络论坛的文本和来自博客的文本。收集的文本用于积累关于自然语言文本的统计。互联网语料库的大小可以是,例如一万亿(1,000,000,000,000)字或几万亿字,与其形成对照的是,更典型的语料库大小为20亿字。网络的小的示例(例如,网络语料库)包括100亿字,其显著地小于由搜索引擎(例如, )建立索引的网络文本的百分之一。本发明可以与网络的示例(例如,网络语料库)一起工作,但是优选地它对文本校正的任务使用网络的显著地大的样本。
在以下两种方法中的一种中优选地使用互联网语料库:
使用CFS作为搜索查询来使用一个或多个互联网搜索引擎。每个这种查询的结果的数量提供了该CFS的出现的频率。
随着时间的过去,通过爬行并索引互联网来建立本地索引。每个CFS的出现的次数提供了CFS频率。本地索引以及搜索查询可以基于互联网的可选择的部分并且可以用这些选择的部分来识别。类似的,可以排除或适当地权衡互联网的部分,以校正在互联网使用与通用语言使用之间的异常。用这种方法,可以对从语言使用方面来说可靠的网站(例如,新闻和政府网站)给出比其它网站(例如,聊天或用户论坛)更高的权重。
优选地,在开始的时候,将输入文本提供给拼写校正功能112,之后提供给误用词和语法校正功能114。输入文本可以是任何合适的文本并且在字处理的情况下优选地是文档的部分,例如句子。词汇增强功能116优选地在用户对文本的选择的情况下工作,其中所述本文已经被提供给拼写校正功能112并且提供给误用词和语法校正功能114。
优选地,语言校正模块100提供了输出,所述输出包括带有每个校正的词或词的组的一个或多个建议的备选词的校正的文本。
现在,参照图2,其是说明了图1的系统和功能中优选地使用的拼写校正功能的简化的流程图。如图2所示,拼写校正功能优选地包括以下步骤:
识别输入文本中的拼写错误,优选地使用扩充了通常在互联网使用的专有名称和专有词的传统字典。
将拼写错误分成簇(所述簇可以包括连续的或几乎连续的、具有拼写 错误的单个或多个词)并且选择用于校正的簇。该选择尝试发现包含最大数量的校正基于上下文的数据的簇。优选地,选择具有在其附近正确拼写的词的最长序列或多个序列的簇。参照图6A,下文更详细地描述上述步骤。
优选地基于参照图7A下文描述的算法,来生成用于每个簇的一个备选校正或优选地生成用于每个簇的多个备选校正;
至少部分地不基于上下文的词基于相似性的计分和基于上下文的计分,优选地基于参照图8下文描述的拼写校正备选词计分算法,来优选地使用各种备选校正的互联网语料库;
对于每个簇,基于上述得分来选择单个拼写校正并示出大多数优选备选的拼写校正;以及
为每个误拼写的簇提供包括单个拼写校正的校正文本输出,所述校正文本输出代替了误拼写簇。
根据以下示例的考虑,可以更好地理解图2的功能的操作:
接收以下输入文本:
Physical ecudation can assits in strenghing muscles.Some students shouldeksersiv daily to inprove their strenth and helth becals thay ea so fate.
以下词被识别为拼写错误:
ecudation,assits;strenghing;eksersiv;inprove;strenth;helth;becals;thay,ea应当注意,“fate”没有被识别为拼写错误,因为它出现在字典中。
如表1所示,选择以下的簇:
表1
簇# | 簇 |
1 | eksersiv |
2 | inprove their strenth |
3 | ecudation |
4 | assits in strenghing |
5 | helth becals thay ea |
关于簇2,应当注意,“their”是正确拼写,但是仍然包括在簇中,因为它被误拼写词包围。
选择簇1“eksersiv”来校正,因为它具有在其附近正确拼写词的最长 序列或多个序列。
为误拼写词“eksersiv”生成以下备选校正:
excessive,expressive,obsessive,assertive,exercise,extensive,exclusive,exertion,excised,exorcism.
基于对误拼写词的发音和字符串的相似性,给出每个备选校正的不基于上下文词相似性得分,例如,如表2所示:
表2
备选词 | 非上下文词相似性得分 |
excessive | 0.90 |
expressive | 0.83 |
exercise | 0.80 |
exorcism | 0.56 |
可以用各种方法来得出不基于上下文得分。一个示例是通过使用Levelnshtein距离算法,其可以在http://en.wikipedia.org/wiki/Levenshteindistance上找到。该算法可以意指字符串、词语音表达或其组合。
如表3所示,基于在输入句子的上下文中其适合度,还给出每个备选词的上下文得分。在该示例中,其使用的上下文是“Some students should<eksersiv>daily”。
表3
备选词 | “Some students should <eksersiv>daily”的 上下文得分 | 不基于上下文词的 相似性得分 |
excessive | 0.00 | 0.90 |
expressive | 0.00 | 0.93 |
exercise | 1.00 | 0.80 |
exorcism | 0.00 | 0.56 |
excised | 0.16 | 0.62 |
上下文得分是参照图8按照下文描述来优选地得出的并且是基于互联网语料库中的上下文特征序列(CFS)频率。
参照图8,按照下文描述的,基于上下文得分和不基于上下文相似性得 分的组合,选择词“exercise”作为最佳备选词。
以相似的方式来校正所有簇。拼写校正输入文本,根据本发明的优选实施例的以下的拼写校正是:
Physical education can assist in strengthening muscles.Some studentsshould exercise daily to improve their strength and health because they are sofate.
应当注意,在拼写校正输入文本中仍然有误用词。词“fate”需要通过参照图3下文描述的误用和语法校正算法来校正。
现在参照图3,其是说明了图1的系统和功能中优选地使用的误用词和语法校正功能的简化的流程图。误用词和语法校正功能提供了拼写正确但在输入文本的上下文中是误用的词的校正,以及包括语法上不正确的词代替了语法上正确的词的使用、冗余词和丢词和标点的使用的语法错误的校正。
如图3所示,误用词和语法校正功能优选地包括以下步骤:
通过优选地评价输入句子的上下文内的词的至少大部分的适合度,来识别怀疑的误用词和具有从图2的拼写校正功能输出的拼写校正输入文本中的语法错误的词;
将怀疑的误用词和具有语法错误的词分成簇,所述簇优选地是不重叠的;以及
选择用于校正的簇。识别、分组和选择步骤优选地基于参照图6B下文描述的算法。
优选地基于参照图7A下文描述的备选校正生成算法,来为每个簇生成一个或优选地生成多个备选校正;
基于参照图10下文描述的丢失的冠词、介词和标点校正算法,来为每个簇生成一个或优选地生成多个备选校正;
基于参照图11下文描述的冗余的冠词、介词和标点校正算法,来为每个簇生成一个或优选地生成多个备选校正;
优选地基于参照图9下文描述的误用词和语法校正备选词计分算法,至少部分地基于上下文和词的基于相似性来对各种备选校正计分;
对于每个簇,也参照图9按照下文描述的上述计分,来选择单个误用 词和语法校正并示出最优选的备选误用词和语法校正;以及
为每个簇提供包括单个误用词和语法校正的拼写、误用词和语法校正文本输出,所述簇代替不正确的簇。
优选地,计分包括:为此应用与多个备选词中的一个相比有利于怀疑的词的偏置,所述偏置是指示了提供输入的人的不确定度的输入不确定度的度量的函数。
根据以下示例的考虑,可以更好地理解图3的功能的操作:
接收以下输入文本:
I have money book
将以下词识别为怀疑的误用词:
money,book
生成以下簇:
money book
以下是备选校正的示例,其为簇而生成(部分的列出):
money books;money back;money box;money bulk;money Buick;moneyebook;money bank;mini book;mummy book;Monet book;honey book;mannerlybook;mono book;Monday book;many books;mini bike;mummy back;monkeybunk;Monday booked;Monarchy back;Mourned brook
在表4中示出了使用互联网语料库基于上下文和不基于上下文词的基于相似性的得分的至少部分的上下文计分的结果:
表4
簇 | 不基于上下文 相似性得分 | 上下文 得分 | 总分 |
money back | 0.72 | 0.30 | 0.216 |
many books | 0.84 | 1.00 | 0.840 |
mini bike | 0.47 | 0.75 | 0.352 |
money box | 0.79 | 0.40 | 0.316 |
money bank | 0.65 | 0.50 | 0.325 |
Monday booked | 0.70 | 0.50 | 0.350 |
monkey bunk | 0.54 | 0.00 | 0.000 |
可以理解,存在得到总分的各种方法。优选的总分是基于参照图9下文描述的算法。
基于上述计分,选择备选词“many book”。因此,校正文本是:
I have many book
现在参照图4,其是说明了图1的系统和功能中使用的词汇增强功能的简化的流程图。如图4所示,词汇增强功能优选地包括以下步骤:
识别词汇挑战,其中所述词在从图3的误用词和语法校正功能输出的,在拼写、误用词和语法校正输入文本中,具有怀疑的不是最理想的词汇的使用;
将词汇挑战分成簇,其优选的是不重叠的;
选择用于校正的簇。识别、分组和选择步骤是优选地基于参照图6C下文描述的算法。
优选地基于参照图7B下文描述的词汇增强生成算法,来为每个簇生成一个或优选地生成多个备选词汇增强;
不基于上下文词的基于相似性的计分和上下文计分,优选地基于参照图9下文描述的词汇增强备选词计分算法,来优选地使用各种备选词汇增强的互联网语料库;
对于每个簇,基于参照图9下文还描述的上述计分,来选择单个词汇增强并示出最优选的备选词汇增强;以及
为每个不是最理想的词汇簇提供词汇增强建议。
根据以下示例的考虑,可以更好地理解图4的功能的操作:
提供以下的拼写、误用词和语法校正输入文本:
Wearing colorful clothes will separate us from the rest of the children in theschool.
使用参照图6C下文描述的功能,为词汇增强选择以下簇:
separate
使用参照图7B下文描述的功能,基于图7B中描述的预处理词汇数据库(部分的列表),来生成如表5所示的以下备选簇校正:
表5
词 | 互联网语料库 | 预处理 |
中出现频率 | 丰富性得分 | |
Furcated | 1500 | 1.00 |
Disjoin | 7800 | 0.97 |
Classify | 1530500 | 0.93 |
Discriminate | 1600400 | 0.91 |
Differentiate | 1805600 | 0.90 |
Divide | 4605800 | 0.88 |
Distinguish | 4640900 | 0.88 |
Split | 14003700 | 0.75 |
Branch | 17106200 | 0.75 |
Separate | 32765953 | 0.73 |
Break | 39643000 | 0.72 |
Part | 211805500 | 0.66 |
至少部分地基于输入文本的上下文内的词的合适度并且还基于备选词的词意与词汇挑战“separate”的相似度,使用互联网语料库来对各种备选词汇增强计分。
使用参照图5下文描述的功能,生成以下的CFS(部分地列出):
′will separate′,′separate us′,′clothes will separate′,′will separate us′,′separate us from′
使用参照图9的阶段IIA下文描述的功能,为CFS的上述列表中的备选簇校正的部分列表生成在表6所示的互联网语料库中的出现频率的矩阵:
表6
CFS/备选词簇校正 | will separate | separate us | clothes will separate | will separate us | separate us from |
Classify | 18180 | 1270 | 0 | 0 | 0 |
Discriminate | 6440 | 215 | 0 | 0 | 0 |
Differentiate | 24420 | 8365 | 0 | 740 | 5555 |
消除所有备选校正的出现的频率为零的所有CFS。在该示例中,消除以下feature-gram:
′clothes will separate′
所以,消除全部包括在至少具有出现的最低阈值频率的其它CFS中的所有CFS。例如,消除以下feature-gram:
′will separate′,′separate us′
在该示例中,剩余的CFS是feature-gram:
′will separate us′,′separate us from′
使用参照图9在阶段IID和IIE中下文描述的最终优先选择得分,选择备选“differentiate”,增强的句子是:
Wearing colorful clothes will differentiate us from the rest of the children inthe school.
现在参照图5,其是说明了在用于本发明的优选实施例的计算机辅助语言校正的系统和功能中有用的上下文特征序列(CFS)功能118(图1)的简化的框图。
CFS功能118优选地包括特征提取功能,其包括N-gram提取功能以及可选的至少一个skip-gram提取功能;switch-gram提取功能;共同出现提取功能;之前由用户使用的特征提取功能。
术语N-gram是技术的已知术语,指代输入文本中的N个连续词的序列。N-gram提取功能可以使用传统的词性标注(part-of-speech tagging)和句子分析功能以避免生成基于语法考虑不期望在语料库(优选的是互联网语料库)中高频率出现的某种n-gram。
为了本描述的目的,术语“skip-gram提取功能”意味着功能上用于提取“skip-gram”,所述“skip-gram”是修改的n-gram,所述n-gram省略了一些不重要的词或短语,例如形容词、副词、形容词短语和副词短语,或者所述n-gram仅包含具有预定的语法关系的词,例如主语-动词、动词-宾语、副词-动词或动词-时间短语。skip-gram提取功能可以使用传统的词性标注和句子分析功能来帮助确定在给定的上下文中可以跳过哪些词。
对于本描述的目的,术语“switch-gram提取功能”意味着识别“switchgram”的功能,所述“switch-gram”是修改的n-gram,其中,转换一些词的出现顺序。switch-gram提取功能可以使用传统的词性标注和句子分析功能来帮助确定在给定的上下文中可以转换哪些词的出现顺序。
为了本描述的目的,术语“共同出现提取功能”意味着识别在输入句子或包含多个输入句子的输入文档中的词的组合,所述功能具有用于在输入文本而不是在N-gram、switch-gram或skip-gram中包括的那些的输入文本词共同出现,以及指示到输入词和方向的距离,在此之后过滤除经常出现的词,例如介词、冠词、连词和其功能主要是起语法作用的其它词。
为了本描述的目的,术语“之前由用户使用的特征提取功能”意味着识别用户在其它文档中使用的词,在此之后滤除经常出现的词,例如介词、冠词、连词和其功能主要是起语法作用的其它词。
为了本描述的目的,N-gram、skip-gram、switch-gram和其组合被称为feature-gram。
为了本描述的目的,N-gram、skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合被称为上下文特征序列或CFS。
图5的功能优选地对输入文本中的单独的词或词的簇进行操作。
根据以下示例的考虑,可以更好地理解图5的功能的操作:
提供以下的输入文本:
Cherlock Homes the lead character and chief inspecter has been cold in bythe family doctor Dr Mortimer,to invesigate the death of sir Charles
对于输入文本中的簇“Cherlock Homes”,生成以下的CFS:
N-gram:
2-gram:Cherlock Homes;Homes the
3-gram:Cherlock Homes the;Homes the lead
4-gram:Cherlock Homes the lead;Homes the lead character
5-gram:Cherlock Homes the lead character
Skip-gram:
Cherlock Homes the character;Cherlock Homes the chiefinspecter;Cherlock Homes the inspecter;Cherlock Homes has been cold
Switch gram:
The lead character Cherlock Homes
输入文本中的共同出现:
Character;inspector;investigate;death
包含输入文本的文档中的共同出现:
Arthur Conan Doyle;story
用户的其它文档中的共同出现:
mystery
对于输入文本中的簇“cold”,生成以下的CFS:
N-gram:
2-gram:been cold;cold in
3-gram:has been cold;been cold in;cold in by
4-gram:inspector has been cold;has been cold in;been cold in by
5-gram:chief inspector has been cold;inspector has been cold in;has beencold in by;been cold in by the;cold in by the family
Skip-gram:
cold in to investigate;Chedock has been cold;cold by the doctor;cold by DrMortimer;character has been cold
基于以下中的至少一个,对每个CFS给出“重要性得分”,优选的是以下中的多于一个,并且最优选的是以下中的所有:
a、传统的词性标注和句子分析功能的操作。给包括多个分析树节点的CFS相对低的得分。CFS中包括的分析树节点的数量越多,该CFS的得分越低。
b、CFS的长度。CFS越长,得分越高。
c、在CFS而不是输入词中每个字的出现频率。这种词的出现频率越高,得分越低。
d、CFS的类型。例如,N-gram比共同出现优选。输入句子中的共同出现比输入文档中的共同出现优选,并且输入文档中的共同出现比“之前用户使用的特征”优选。
参照上述示例,如表7所示为典型的得分;
表7
CFS类型 | CFS | 得分 |
N-gram:2-gram | Cherlock Homes | 0.50 |
N-gram:2-gram | Homes the | 0.30 |
N-gram:3-gram | Cherlock Homes the | 0.70 |
N-gram:3-gram | Homes the lead | 0.70 |
N-gram:4-gram | Cherlock Homes the lead | 0.90 |
N-gram:4-gram | Homes the lead character | 0.90 |
N-gram:5-gram | Cherlock Homes the lead character | 1.00 |
Skip-gram | Cherlock Homes the character | 0.80 |
Skip-gram | Cherlock Homes the chief inspecter | 0.95 |
Skip-gram | Cherlock Homes the inspecter | 0.93 |
Skip-gram | Cherlock Homes has been cold | 0.93 |
Switch gram | The lead character Cherlock Homes | 0.95 |
在输入文本中共同出现 | Character | 0.40 |
在输入文本中共同出现 | Inspector | 0.40 |
在输入文本中共同出现 | Investigate | 0.40 |
在输入文本中共同出现 | Death | 0.40 |
在包含输入文本的 文档中的共同出现: | Arthur Conan Doyle | 0.50 |
在包含输入文本的 文档中的共同出现: | Story | 0.30 |
在用户的其它文档中的共同出现 | Mystery | 0.20 |
基于互联网语料库中的CFS出现频率,为了各种备选簇校正的基于上下文的得分,参照图8和9下文描述的功能中使用这些CFS和它们的重要性得分。
现在参照图6A,其是说明了用于识别输入文本中的误拼写词的功能;将误拼写词分成簇,其优选的是非重叠的;选择用于校正的簇。
如图6A所示,通过使用扩充了通常在互联网使用的专有名称和专有词的传统的字典,来优选地执行对误拼写词的识别。
通过将连续的或几乎连续的误拼写词分到带有具有语法关系的误拼写词的单个簇中,来优选地执行将误拼写词分成簇。
通过尝试找到包含大量不怀疑的基于上下文数据的簇,来优选地执行选择用于校正的簇。优选地,选择具有在正确拼写词附近的最长序列或多 个序列的簇。
现在参照图6B,其是说明了用于识别在拼写校正输入文本中的怀疑的误用词和具有语法错误的词;将怀疑的误用词和具有语法错误的词分成簇,其优选的是不重叠的;选择用于校正的簇。
按照以下来优选地执行识别怀疑的误用词:
在拼写校正输入文本中为每个词生成feature-gram
注意在语料库(优选的是互联网语料库)中的每个feature-gram的出现的频率;
注意用于每个词的怀疑的feature-gram的数量。怀疑的feature-gram具有比它们的期望的频率显著地低的频率或者在最低频率阈值以下的频率。基于feature-gram的组成元素和其组合来估计feature-gram的期望频率。
如果包含词的怀疑的feature-gram的数量超过预定的阈值,那么词受到怀疑。
根据本发明的优选实施例,确定语料库(优选的是互联网语料库)中的拼写校正输入文本中的每个feature-gram的出现频率(FREQ F-G)。还确定在该语料库中拼写校正输入文本中的每个词的出现的频率(FREQ W),并且还确定没有该词的每个feature-gram的出现的频率(FREQ FG-W)。
按照以下来计算每个feature-gram的出现的期望频率(EFREQ F-G):
EFREQ F-G=FREQ F-G-W*FREQ W/(在
互联网语料库中的所有词的总频率)
如果语料库(优选的是互联网语料库)中拼写校正输入文本中的每个feature-gram的出现的频率与每个feature-gram的期望的出现频率之比,即FREQ F-G/EFREQ F-G比预定的阈值小,或者如果FREQ F-G比另一个预定的阈值低,那么feature-gram将被认为是怀疑的feature-gram。包括在怀疑的feature-gram的每个词将被认为是怀疑的误用词或者具有怀疑的语法错误的词。
根据以下示例的考虑,可以更好地理解:用于识别拼写校正输入文本中的怀疑的误用词和具有语法错误的词的图6B的功能的操作:
提供以下拼写校正输入文本:
I have money book
feature-gram包括以下:
I;I have;I have money;I have money book
表8指示了上述feature-gram的互联网语料库中的出现的频率:
表8
词/频 率 | 1-GRAM | 2-GRAMS | 3-GRAMS | 4-GRAMS |
I | I 2744650600 | I have 154980000 | I have money 24600 | I have money book 0 |
Have | have 1500601100 | have money 390300 | have money book 0 | |
Money | money 124877160 | money book 3100 | ||
Book | book 164065000 |
按照如下为每个2-gram计算期望的出现频率:
EFREQ F-G=(FREQ F-G-W*FREQ W)/(在
互联网语料库中的所有词的总频率)
例如,对于2-gram,
2-gram(x,y)的期望的2-gram频率=(x的1-gram频率*y的1-gram频率)/在互联网语料库中词的数量。例如,一万亿(1,000,000,000,000)个词。
按照如下来计算在语料库(优选的是互联网语料库)中拼写校正输入文本中的每个feature-gram的出现频率与每个feature-gram的期望的出现频率之比:
FREQ F-G/EFREQ F-G
表9中示出了在语料库(优选的是互联网语料库)中拼写校正输入文本中的每个上述2-gram的出现频率与每个上述2-gram的期望的出现频率之比:
表9
2-GRAMS | FREQ F-G | EFREQ F-G | FREQ F-G/EFREQ F-G |
I have | 154980000 | 4118625.7 | 37.60 |
have money | 390300 | 187390.8 | 2.08 |
money book | 3100 | 20487.9 | 0.15 |
可以看出,“money book”的FREQ F-G比其期望的频率显著地低,因此FREQ F-G/EFREQ F-G可以被认为比预定阈值(例如,1)低,所以簇“money book”受到怀疑。
可以看出,包括词“money book”的3-gram和4-gram都在互联网语料库中具有零频率。这也可以是认为“money book”受到怀疑的根据。
按照如下优选地执行将怀疑的误用词和具有语法错误的词分到簇中:将连续或几乎连续的怀疑的误用词分到单个簇中;在它们自身之间具有语法关系的怀疑的误用词被分到相同的簇。
通过尝试找到包含最大数量的不怀疑的上下文数据的簇,来优选地执行选择用于校正的簇。优选地,选择具有在其附近的不怀疑的词的最长序列或多个序列的簇。
现在参照图6C,其是说明了用于识别在拼写、误用词和语法校正输入文本中具有怀疑的不是最理想的词汇的使用的词汇挑战;将词汇挑战分成簇,其优选的是不重叠的;选择用于校正的簇。
按照如下优选地执行识别词汇挑战:
对词典进行预处理以便为每个词分配语言丰富性得分,所述每个词指示了在等级中词的级别,其中,书面语言比口语更优选;其中,在互联网资源中,例如,文章和图书比聊天和论坛优选,并且其中,较少使用的词比更常使用的词更优选;
还对词典进行预处理以基于之前预处理步骤和语法规则的结果来消除不太可能用于词汇增强的候选者;
额外的预处理,其用于指示每个剩余的词、具有比输入词的语言丰富性得分高的词汇增强的候选者;以及
检查拼写、误用词和语法校正输入文本中的每个词是否作为多个预处理词典中的剩余词出现,并且识别每个这种词,哪个作为剩余的词出现,哪个作为用于词汇增强的候选者出现。
将词汇挑战分成簇(所述簇优选的是不重叠的)是可选的并且按照如下优选地执行:
将连续的词汇挑战分到单个簇中;以及
将具有语法关系的挑战的词分到相同的簇中。
通过尝试找到包含最大数量的非词汇挑战的词的簇来优选地执行选择用于校正的簇。优选地,选择在其附近的非词汇挑战的词的最长序列或多个序列。
现在参照图7A,其是说明了用于生成在图2和图3的功能中有用的簇的备选校正的功能。
如果原始输入词是正确拼写的,那么它被认为是备选词。
如图7A所示,对于簇中的每个词,以如下方式来初始地生成多个备选校正:
来自字典的多个词,类似于簇中的每个词,都基于以字符串相似度来表示的、词的书写外观并基于发音或语音相似度来检索。该功能是已知的并且作为免费软件在互联网上是可用的,例如GNU Aspell和 Gspell。检索和优先词提供了第一多个备选校正。例如,给出的输入词feezix,基于相似的发音,将从字典检索到词“physics”,尽管它仅具有一个共同字符,即“i”。基于其字符串的相似度来检索词“felix”,尽管它并不具有相似的发音。
可以通过使用基于已知的备选使用以及积累的用户输入的规则来生成额外的备选词。例如,u→you,r→are,Im→I am。
可以基于语法规则(优选地使用预定义列表)来生成其它备选词。以下是几个示例:
单数/复数规则:如果输入句子是“leaf fall off trees in the autumn”,那么生成复数备选词“leaves”。
冠词规则:如果输入文本是“a old lady”,那么生成备选冠词“an”和“the”。
介词规则:如果输入文本是“I am interested of football”,那么生成备选介词“in”、“at”、“to”、“on”、“through”等。
动词变形规则:如果输入文本是“He leave the room”,那么生成备选动词变形“left”、“leaves”、“had left”等。
合并词和拆分词规则:如果输入文本是“get a lot fitter”,那么生成备选 词“a lot”。
如果输入文本是“we have to wat ch out”,那么生成备选词“watch”。
如果输入文本是“do many sittups”,那么生成备选词“sit ups”。
本发明的优选实施例的特定特征是:使用上下文信息(例如,CFS以及更具体地说是feature-gram)来生成备选校正,并且不仅用于存储这种“上下文的检索”的备选校正。可以从现有的语料库(例如,互联网语料库)检索经常出现词的组合(例如,CFS以及更具体地说是feature-gram)。
以下示例说明了本发明的该方面:
如果输入句子是:“The cat has kts”,词“kts”可能与词“kittens”在发音或书写上不十分相似,由于缺少本发明的该方面,“kittens”可能不是备选词中的一个。
根据本发明的该方面,通过在通常出现在n-gram“cat has”之后(即,在查询“cat has*”中发现作为*的所有词)的词的互联网语料库中查找,来检索以下的备选词:
nine lives;left;fleas;dandruff;kittens;tapeworms;adopted;retractile-claws;been;urinated;diarrhea;eaten;swallowed;hairballs;gone;always been
根据本发明的优选实施例,然后过滤“基于上下文检索的”备选词,以使得具有与原始词有某种发音或书写相似的基于上下文检索的备选词,在本发明的示例为“kts”,仅该词保留。在该示例中,检索到具有最相似的发音和书写的备选词“kittens”。
其中通过外部系统(例如,光学字符识别、语音到文本或机器翻译系统)自动地生成输入文本,可以直接地从这种系统直接地接收额外的备选词。通常,在这种系统的操作的过程中生成这种额外备选词。例如,在机器翻译系统中,可以将外语词汇的备选翻译提供给本系统以作为备选词来使用。
一旦生成了在簇中的每个词的所有备选词,通过确定各种备选词的所有可能组合并且随后基于在语料库(优选的是互联网语料库)中的备选词的出现频率来过滤组合,生成用于整个簇的簇备选词。
以下示例是说明性的:
如果输入簇是“money book”,并且用于词“money”的备选词是:
Monday;many;monkey
并且用于词“book”的备选词是:
books;box;back
生成以下的簇备选词:
money books;money box;money back;Monday books;Monday box;Monday back;many books;many box;many back;monkey books;monkey box;monkey back;many book;monkey book;Monday book
现在参照图7B,其是说明了用于生成簇的备选词增强的功能的简化的流程图,所述功能在图4的功能中有用。
如在图7B中所示,以如下方式来初始地生成多个备选词增强:
如果原始输入词拼写正确,它被认为是备选词。
检索来自词典或其它词汇数据库(例如,在互联网上免费可用的Princeton WordNet,其与在簇中的每个词在语言上有关,作为同义词、超集或子集)的多个词。检索和优先词提供了第一多个备选词增强。
通过使用基于已知的备选词使用以及积累的用户输入的规则来生成额外的备选词。
本发明的优选实施例的特定特征是:使用上下文信息(例如,CFS以及更具体地说是feature-gram)来生成备选词增强,并且不仅用于存储这种“基于上下文的检索”的备选词增强。可以从现有的语料库(例如,互联网语料库)检索经常出现词的组合(例如,CFS以及更具体地说是feature-gram)。
一旦生成了簇中的每个词的所有备选词,通过确定各种词的备选词的所有可能组合并且基于现有语料库(例如,互联网)中的得到的多个词的组合的出现频率来过滤组合,生成用于整个簇的备选词。
以下示例是图7B的说明性的功能:
提供了以下输入文本:
it was nice to meet you
由语言数据库(例如,Princeton WordNet)来生成用于词“nice”的以下备选词(部分地列出):
pleasant,good,kind,polite,fine,decent,gracious,courteous, considerate,enjoyable,agreeable,satisfying,delightful,entertaining,amiable,friendly,elegant,precise,careful,meticulous
通过应用预定的规则来生成用于词“nice”的以下备选词:
cool
例如响应于查询(例如,“it was*to meet”),生成用于词“nice”的以下基于上下文检索的备选词:
great;apleasure;wonderful;lovely;good;impossible;fun;awesome;refreshing;exciting;agreed;fantastic;decided;inspiring
现在参照图8,其是说明了用于在图2的拼写校正功能中有用的各种备选词增强的基于上下文和基于词相似性计分的功能的简化的流程图。
如在图8中所示,各种备选词校正的基于上下文和基于词相似性的计分按照以下大体的阶段进行:
I、不基于上下文计分-按照词的书写外观和发音相似性,基于与输入文本中的簇的相似性来对各种簇备选词计分。
II、使用互联网语料库的基于上下文计分-基于提取的上下文特征序列(CFS)(所述CFS是按照参照图5上文描述来提供的),还对每个各种簇备选词计分。该计分包括以下子阶段:
IIA、在参照图5按照上文描述提取的CFS的情况下,在由图7A的功能产生的各种备选词簇校正上,优选地使用互联网语料库,来执行出现频率的分析。
IIB、具体地说是基于子阶段IIA的出现频率的分析结果来执行各种CFS选择并且权衡各种CFS。权衡还基于各种CFS的相对固有的重要性。可以理解,可以对一些CFS给出零权重,因此不选择它们。优选地,对选择的CFS给出相对的权重。
IIC、将出现频率的度量分配到用于在子阶段IIB中的每个选择的CFS的每个备选校正。
IID、具体地说基于子阶段IIA的出现频率的分析结果、子阶段IIC的出现频率的度量、子阶段IIB的CFS选择和权重来生成备选簇校正的减少的组。
IIE、为了用作参考簇校正,从子阶段IID中的减少的组中选择在阶段 I中具有最相似的不基于上下文的相似性得分的簇。
IIF、将出现频率的度量分配到用于在阶段IIB中的每个选择的CFS的子阶段IIE的参考簇校正。
IIG、将比率度量分配到在子阶段IIB中的每个选择的CFS,所述比率度量代表:对于该特征,每个备选校正的出现频率的度量与分配给子阶段IIE的参考簇的出现频率的度量之比。
III、基于阶段I的结果和阶段II的结果来选择最优选的备选簇校正。
IV、将可信度等级得分分配到最优选的备选簇校正。
下文示出了在阶段II-IV中上文描述的功能的更为详细的描述:
参照子阶段IIA,按照图5中上文描述来生成包括要被校正的簇的所有CFS。消除包含怀疑的错误而不是在输入簇中的错误的CFS。
生成矩阵,其指示了在语料库(优选的是互联网语料库)中,用于每个CFS的簇的每个备选词校正的出现频率。消除用于出现频率为零的所有备选校正的所有CFS。消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有CFS。
以下示例说明了出现频率矩阵的产生:
提供以下输入文本:
I lik tw play outside a lot
使用参照图6A上文描述的功能,为了校正选择以下簇:
lik tw
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
like to;like two;lick two;lack two;lack true;like true
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′lik tw;′I lik tw;′lik tw play′;′I lik tw play′;′lik tw play outside′;′I lik twplay outside′;′lik tw play outside a′
使用参照阶段IIA上文描述的功能,为了在CFS的上述列表中的备选词簇校正的上述列表,生成在表10中所示的互联网语料库中的出现频率矩阵:
表10
CFS/备 | lik tw | I lik tw | lik tw | I lik | lik tw | I lik tw | lik tw |
选词簇校 正 | play | tw play | play outside | play outside | play outside | ||
like to | 75094300 | 3097250 | 432200 | 80500 | 1000 | 330 | 0 |
like two | 327500 | 2400 | 0 | 0 | 0 | 0 | 0 |
lick two | 600 | 0 | 0 | 0 | 0 | 0 | 0 |
lack two | 1800 | 100 | 0 | 0 | 0 | 0 | 0 |
lack true | 3400 | 90 | 0 | 0 | 0 | 0 | 0 |
like true | 27500 | 350 | 0 | 0 | 0 | 0 | 0 |
消除用于出现频率为0的所有备选校正的所有CFS。在该示例中,消除以下feature-gram:
′lik tw play outside a′
所以,消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有CFS:
′lik tw′;′I lik tw′;′lik tw play′;′I lik tw play′;′lik tw play outside′
在该示例中,仅剩余的CFS是feature-gram:
′I lik tw play outside′
得到的矩阵按照表11所示出现:
表11
CFS/备选词 簇校正 | ′I lik tw playoutside′ |
like to | 330 |
like two | 0 |
lick two | 0 |
lack two | 0 |
lack true | 0 |
like true | 0 |
上述示例说明了根据本发明的优选实施例的矩阵的生成。在该示例中,很明显,“like to”是优选的备选校正。可以理解,在现实中,选择通常不是如此简单。因此,在下文示出的其它示例中,提供了用于在备选校正中做更为困难的选择的功能。
返回考虑子阶段IIB,可选地,参照图5按照上文描述的,为每个剩余的CFS计分。此外,包含在多个词输入的较早的校正迭代中引入的词并且具有在预定的可信度阈值以下的可信度的CFS是消极有偏置的。
在通常的情况下,类似于在子阶段IIC中上文描述的那样,生成标准化频率矩阵,其指示在互联网语料库中的每个CFS的标准化出现频率。通过将每个CFS频率除以有关簇备选词的出现频率的函数,通常根据频率矩阵生成标准化频率矩阵。
标准化用于抵消在各种备选校正的总体普及度中的实质差别的影响。适合的标准化因子是在不考虑特定CFS的情况下,基于在作为整体的语料库中各种备选校正的总体出现频率。
以下示例说明了标准化出现频率矩阵的生成:
提供以下输入文本:
footprints of a mysterious haund said to be six feet tall
使用参照图6A上文描述的功能,为了校正选择以下簇:
haund
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
hound;hand;sound
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′a mysterious haund′;′haund said′
使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成在表12所示的互联网语料库中的出现频率和标准化出现频率的矩阵:
表12
可以从上述示例中理解,由于在各种备选校正的总体普及度中的实质差异,具有最高出现频率的词并非必然具有最高的标准化出现频率。在上述示例中,“hound”具有最高的标准化出现频率,并且从输入文本的上下文显然可以看出,“hound”是正确词,而不是在互联网语料库中具有较高出现频率的“hand”。
本发明的特定特征是,标准化出现频率(其抵消在各种备选校正的总体普及度中的实质差异)优选地用于在备选校正中的选择。可以理解,出现频率的其它度量而不是标准化出现频率可以可选地或额外地用作度量。在出现频率相对低或特别地高的情况下,额外的或可选的度量是有益的。
根据以下的讨论将可以理解,额外的功能通常在各种备选词校正中选择是有用的。下文描述了这些功能。
在子阶段IID,消除根据以下两种度量的、不优选于另一个备选簇校正的每个备选簇校正:
i、具有比其它备选簇校正低的词相似性得分;以及
ii、对于所有CFS,比其它备选簇校正具有较低的出现频率并且还优选地具有较低的标准化的出现频率。
以下示例说明了按照上文描述的备选校正的消除:
提供了以下输入文本;
I leav un a big house
使用参照图6A上文描述的功能,为校正选择以下簇:
leav un
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
leave in;live in;love in
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′I leav un a′;′leav un a big′
使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表13所示的互联网语料库中的出现频率和标准化的出现频率的矩阵:
表13
在该示例中,如在表14中指示了备选簇校正的不基于上下文相似性得分:
表14
备选词簇 校正 | 相似性 总分 |
leave in | 0.9 |
live in | 0.8 |
love in | 0.7 |
因为“love in”比“live in”具有较低的相似性得分以及较低的出现频率和较低的标准化出现频率,所以消除备选簇校正“love in”。因为“leave in”的相似性得分比“live in”的得分高,因此在该阶段不消除备选簇校正“leavein”。
从上述可以理解,阶段IID的功能的操作的结果是减少的频率矩阵并且优选地也是减少的标准化频率矩阵,所述矩阵指示了出现频率并且优选地还指示了减少的多个备选校正中的每个的标准化出现频率,每个矩阵具有用于减少的多个CFS的每个的相似性得分。从以下示例可以看出,对于所有其它备选簇选择功能,优选地使用备选簇校正的减少的组。
对于在减少的频率矩阵和优选的在减少的标准化频率矩阵中的每个备选校正,生成最终优先选择度量。可以使用以下备选度量中的一个或多个来生成用于每个备选校正的最终优先选择得分:
下文使用的术语“频率函数”指代:频率、标准化频率或频率和标准化频率两者的函数。
A、一种可能的优先选择度量是在减少的矩阵或多个矩阵中的任何CFS 的减少的矩阵或多个矩阵中的每个备选簇校正的最高的出现频率函数。例如,将按照如下来对各种备选簇校正计分:
提供以下输入文本:
A big agle in the sky
使用参照图6A上文描述的功能,为了校正选择以下簇:
agle
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
ogle;eagle;angel
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′big agle′;′agle in the sky′
使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表15所示的互联网语料库中的出现频率和标准化的出现频率的矩阵:
表15
在该示例中,如在表16中指示了备选簇校正的不基于上下文相似性得分:
表16
备选词 簇校正 | 详细性 得分 |
ogle | 0.97 |
eagle | 0.91 |
angel | 0.83 |
因为′eagle′具有最大出现频率的CFS,所以选择备选词′eagle′。
B、另一个可能的优先选择度量是用于每个备选校正的所有CFS的平均出现频率函数。例如,将按照如下对各种备选校正计分:
提供以下输入文本:
A while ago sthe lived 3 dwarfs
使用参照图6A上文描述的功能,为了校正选择以下簇:
sthe
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
the;they;she;there
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′ago sthe lived′;′sthe lived 3′
使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表17和18所示的互联网语料库中的出现频率、标准化出现频率和平均出现频率的矩阵:
表17
表18
应当注意,基于平均出现频率来选择“there”。
在该示例中,如在表19中指示了备选簇校正的不基于上下文相似性得分:
表19
备选词 簇校正 | 相似性 得分 |
the | 0.97 |
they | 0.86 |
she | 0.88 |
there | 0.67 |
应当注意,不选择具有最高相似性得分的备选簇校正。
C、其它可能优先选择度量是对于每个CFS的出现频率函数的每个备选校正的所有CFS的加权和,其中所述每个CFS的出现频率函数是在参照图5上文描述的功能来计算时,通过乘以该CFS的得分得到的。
D、参照子阶段iiE-iiG按照上文描述的,通过任意一个或多个,并且更优选的以及最优选的是,关于在减少的矩阵或多个矩阵中的备选校正的所有以下操作,生成特定备选校正/CFS优先选择度量:
i、选择具有不基于上下文相似性最高的得分的备选簇校正作为参考簇。
ii、产生修改的矩阵,其中,在每个优先选择矩阵中,在每个feature-gram中的每个备选校正的出现频率函数由每个备选校正的出现频率函数与参考簇的出现频率函数之比来代替。
iii、进一步修改在ii中上文描述的类型的修改的矩阵,从而通过用于减少在比率中的很大差异的计算重要性的比率的函数来代替每个优先选择度量中的比率。合适的这种函数是对数函数。该操作的目的是不强调在最优选的备选校正的最终优先选择得分中的出现频率中的很大差异的重要性,而是维持在最终优先选择计分中的出现频率中的很大差异,因此消除 最不优选的备选校正。
iv、通过将合适的比率或在每个优先选择度量中的比率的函数乘以合适的CFS得分,来额外地修改在ii或iii中上文描述的类型的修改的矩阵。这提供了基于正确语法使用和在CFS得分中反映的其它因素的强调。
v、通过生成合适的比率的函数、比率的函数、出现频率和标准化的出现频率,来额外地修改在ii、iii或iv中上文描述的类型的修改的矩阵。通过将合适的比率或在每个优先选择度量中的比率的函数乘以该CFS的出现频率,来生成优选的函数。
E、通过将备选校正的相似性得分乘以用于该备选校正的所有CFS的特定备选校正/CFS优先选择度量的和,基于在D中上文描述的特定备选校正/CFS优先选择度量,计算用于每个备选校正的最终优先选择度量。
说明了这种修改的矩阵的使用的示例如下:
提供以下输入文本:
I will be able to tach base with you next week
使用参照图6A上文描述的功能,为了校正选择以下簇:
tach
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
teach;touch
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′ago to tach′;′to tach base′
使用参照上述子阶段IIA和IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表20所示的互联网语料库中的出现频率和标准化的出现频率的矩阵:
表20
应当注意,对于一个特征,“teach”的出现频率和标准化出现频率两者都比“touch”的出现频率和标准化出现频率高,但是对于另一个特征,“touch”的出现频率和标准化出现频率两者都比“teach”的出现频率和标准化出现频率高。为了做出备选校正的正确选择,按照下文描述,优选地使用参照子阶段IIG上文描述的比率度量。
在该示例中,如在表21中指示了备选簇校正的不基于上下文相似性得分:
表21
备选词 簇校正 | 相似性 得分 |
teach | 0.94 |
touch | 0.89 |
可以看出,因为“teach”具有最高相似性得分,所以参考簇是“teach”。尽管如此,基于上文描述的最终优先选择得分,还是选择“touch”。这不是直觉,因为可以根据上述矩阵的考虑来理解,其中,所述矩阵指示了“teach”具有最高的出现频率和最高的标准化出现频率。在该示例中,因为用于其中有利于“touch”的特征的出现频率的比率远高于用于其中有利于“teach”的特征的出现频率的比率。
F、可选地,使用以下决定规则中的一个或多个,基于用于该备选校正和用于参考簇的频率函数值和优先选择度量的比较,可以滤除备选校正:
1、滤除具有低于预定阈值的相似性得分并且具有CFS频率函数(所述CFS频率函数比用于指示一个特征的参考簇的CFS频率函数低,其中,所述至少一个特征具有比预定阈值高的CFS得分)的备选校正。
2、滤除具有低于预定阈值的相似性得分并且具有优先选择度量(所述优先选择度量比用于至少一个特征的预定阈值低,其中,所述特征具有比另一个预定阈值高的CFS得分)的备选校正。
3、a、确定每个CFS的CFS得分;
b、对于每个CFS,确定用于参考簇和用于备选校正的CFS频率函 数,由此确定参考簇或备选校正是否具有用于该CFS的较高频率函数;
c、对备选校正具有比参考簇较高的频率的CFS的CFS得分进行求和;
d、对参考簇具有比备选校正较高的频率的CFS的CFS得分进行求和;以及
e、如果c中的和比d中的和低,那么滤除备选校正。
以下示例说明了过滤上面描述的过滤功能。
提供了以下输入文本:
I am faelling en love
使用参照图6A上文描述的功能,为了校正选择以下簇:
faelling en
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
falling on;falling in;feeling on;feeling in
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′am faelling en′;′faelling en love′;′am faelling en love′;′I am faelling en′
使用参照本文子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表22所示的互联网语料库中的出现频率的矩阵:
表22
CFS/备选词簇 校正 | ′am faelling en′ | ′faelling en love′ | ′am faelling en love′ | ′I am faelling en′ |
falling on | 200 | 40 | 0 | 185 |
falling in | 4055 | 341800 | 3625 | 3345 |
feeling on | 435 | 70 | 0 | 370 |
feeling in | 1035 | 1055 | 0 | 895 |
消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有CFS。例如,消除以下feature-gram:
′am faelling en′;′faelling en love′
在该示例中,剩余的CFS是feature-gram:
′am faelling en love′;′I am faelling en′
在该示例中,如在表23中指示了备选簇校正的不基于上下文相似性得分:
表23
备选词 簇校正 | 相似性 得分 |
falling on | 0.89 |
falling in | 0.89 |
feeling on | 0.82 |
feeling in | 0.82 |
滤除备选校正“falling on”、“feeling on”和“feeling in”,因为对于CFS中的一个,它们的出现频率为0。
G、参照阶段III按照上文所讨论的,基于在A-E上文描述开发的最终优先选择度量,对在F中过滤后留下的备选校正建立排序。
H、如参照阶段IV上文讨论的,将可信度分配给选择的备选校正。基于以下参数中的一个或多个来计算该可信度:
a、按照在上述子阶段IIB中提供的选择的CFS的数量、类型和得分;
b、在CFS的情况下,各种备选簇连接的出现频率的统计显著性;
c、基于每个CFS的优先选择度量和各种备选校正的词相似性得分,同意备选校正的选择的程度;
d、在预定最低阈值以上的选择的备选簇连接的不基于上下文的相似性得分(阶段I)。
e、上下文数据可用的程度,由在减少的矩阵中的CFS的数量来指示,其中,所述矩阵具有在预定最小阈值以上的CFS得分并且比另一个预定阈值具有优先选择的得分。
如果可信度在预定的阈值以上,那么在没有用户交互的情况下实现选择的备选校正。如果可信度在预定的阈值以下但是在较低预定的阈值以上,那么实现选择的备选校正,但是引发了用户交互。如果可信度在较低的预定阈值以下,那么引发基于备选校正的优选的列表的用户选择。
以下示例是可信度得分的说明性使用:
提供以下输入文本:
He was not feeling wehl when he returned
使用参照图6A上文描述的功能,为了校正选择以下簇:
wehl
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
wale;well
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′was not feeling wehl′;′not feeling wehl when′;′feeling wehl when he′;′wehl when he returned′
使用参照本文子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表24所示的互联网语料库中的出现频率的矩阵:
表24
CFS/备选词 簇校正 | ′was not feeling wehl′ | ′not feeling wehl when′ | ′feeling wehl when he′ | ′wehl when he returened′ |
Wale | 0 | 0 | 0 | 0 |
Well | 31500 | 520 | 100 | 140 |
上述示例说明:根据在上述H中阐述的所有标准,选择′well′而不是′wale′,因为′well′具有高的可信度。
在以下示例中,可信度有些低,这是由于以下事实:备选校正′back′具有比在CFS′bech in the summer′中的′beach′较高的出现频率,但是′beach′具有比在CFS′on the beech in′和′the bech in the′较高的出现频率。基于标准H(c),选择带有中间可信度的备选校正′beach′。
提供以下输入文本:
I like to work on the bech in the summer
使用参照图6A上文描述的功能,为了校正选择以下簇:
bech
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
beach;beech;back
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′on the bech in′;′the bech in the′;′bech in the summer′
使用参照子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表25所示的互联网语料库中的出现频率的矩阵:
表25
CFS/备选词 簇校正 | ′on the bech in′ | ′the bech in the′ | ′bech in the summer′ |
Beach | 110560 | 42970 | 2670 |
Beech | 50 | 55 | 0 |
Back | 15300 | 10390 | 20090 |
基于标准H(c),选择带有中间可信度的备选校正′beach′。
在以下示例中,基于标准H(a),可信度更低:
接收以下输入文本:
Exarts are restoring the British Museum′s round reading room
使用参照图6A上文描述的功能,为了校正选择以下簇:
Exarts
使用参照图7A上文描述的功能,生成以下备选词簇校正(部分地列出):
Experts;Exerts;Exits
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′Exarts are′;′Exarts are restoring′;′Exarts are restoring the;′Exarts arerestoring the British′
使用参照子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表26所示的互联网语料库中的出现频率的矩阵:
表26
CFS/备选词 簇校正 | ′Exarts are′ | ′Exarts are restoring′ | ′Exarts are restoring the′ | ′Exarts are restoring the British′ |
Experts | 62540 | 0 | 0 | 0 |
Exerts | 140 | 0 | 0 | 0 |
Exists | 8225 | 0 | 0 | 0 |
消除出现频率为零的所有备选校正的所有CFS。在该示例中,消除以下feature-gram:
′Exarts are restoring′;′Exarts are restoring the′;′Exarts are restoring theBritish′
在该示例中,仅剩余的CFS是feature-gram:
′Exarts are′
从上述示例看出,在过滤过程中存留的CFS是“exart are”。因此,可信度相当低,因为选择仅基于单个CFS,其相对地短并且除了怀疑的词之外仅包括一个词,所述词是经常出现的词。
现在参照图9,其是说明了在图3、10和11的误用词和预防校正功能中有用的并且也在图4的词汇增强功能中有用的各种备选词校正的基于上下文和词的基于相似性得分的功能的简化的流程图。
如图9所示,各种备选词校正的基于上下文和词的基于相似性得分在以下大体的阶段中进行:
I、不基于上下文计分-按照词的书写外观和发音相似性,基于与输入文本中的簇的相似性来对各种簇备选词计分。
II、使用互联网语料库的基于上下文计分-基于提取的上下文特征序列(CFS)(所述CFS是按照参照图5上文描述来提供的),还对每个各种簇备选词计分。该计分包括以下子阶段:
IIA、在参照图5按照上文描述提取的CFS的情况下,在由图7A或7B的功能产生的各种备选词簇校正上,优选地使用互联网语料库,来执行出现频率的分析。
IIB、具体地说是基于子阶段IIA的出现频率的分析结果来执行各种CFS选择并且权衡各种CFS。权衡还基于各种CFS的相对固有的重要性。可以理解,可以对一些CFS给出零权重,因此不选择它们。优选地,对选择的CFS给出相对的权重。
IIC、将出现频率的度量分配到用于在子阶段IIB中的每个选择的CFS的每个备选校正。
IID、具体地说基于子阶段IIA的出现频率的分析结果、子阶段IIC的出现频率的度量、子阶段IIB的CFS选择和权重来生成备选簇校正的减少 的组。
IIE、选择输入簇作为参考簇校正来使用。
IIF、将出现频率的度量分配到用于在阶段IIB中的每个选择的CFS的子阶段IIE的参考簇校正。
IIG、将比率度量分配到在子阶段IIB中的每个选择的CFS,所述比率度量代表:对于该特征,每个备选校正的出现频率的度量与分配给子阶段IIB的参考簇的出现频率的度量之比。
III、基于阶段I的结果和阶段II的结果来选择最优选的备选簇校正。
IV、将可信度等级得分分配到最优选的备选簇校正。
IV、将可信度等级得分分配到最优选的备选簇校正。
下文示出了在阶段II-IV中上文描述的功能的更为详细的描述:
参照子阶段IIA,按照图5中上文描述来生成包括要被校正的簇的所有CFS。消除包含怀疑的错误而不是在输入簇中的错误的CFS。
生成矩阵,其指示了在语料库(优选的是互联网语料库)中,用于每个CFS的簇的每个备选词校正的出现频率。消除用于出现频率为零的所有备选校正的所有CFS。消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有CFS。
以下示例说明了出现频率矩阵的产生:
提供以下输入文本:
I lick two play outside a lot
使用参照图6B上文描述的功能,为了校正选择以下簇:
lick two
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
like to;like two;lick two;lack two;lack true;like true
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
‘lick two’;‘I lick two’;‘lick two play’;‘I lick two play’;‘lick two playoutside’;‘I lick two play outside’;‘lick two play outside a’
使用参照阶段IIA上文描述的功能,为了在CFS的上述列表中的备选词簇校正的上述列表,生成在表27中所示的互联网语料库中的出现频率矩阵:
表27
CFS/备 选词簇 校正 | lick two | I lick two | lick two play | I lick two play | lick two play outside | I lick two play outside | lick two play outside |
like to | 75094300 | 3097250 | 432200 | 80500 | 1000 | 330 | 0 |
like two | 327500 | 2400 | 0 | 0 | 0 | 0 | 0 |
lick two | 600 | 0 | 0 | 0 | 0 | 0 | 0 |
lack two | 1800 | 100 | 0 | 0 | 0 | 0 | 0 |
lack true | 3400 | 90 | 0 | 0 | 0 | 0 | 0 |
like true | 27500 | 350 | 0 | 0 | 0 | 0 | 0 |
消除用于出现频率为0的所有备选校正的所有CFS。在该示例中,消除以下feature-gram:
‘lick two play outside a′
所以,消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有CFS:
‘lick two′;‘I lick two′;‘lick two play′;‘I lick two play′;‘lick two play outside′
在该示例中,仅剩余的CFS是feature-gram:
‘I lick two play outside′
得到的矩阵按照表28所示出现:
表28
CFS/备选词 簇校正 | ′I lick two play outside′ |
like to | 330 |
like two | 0 |
lick two | 0 |
lack two | 0 |
lack true | 0 |
like true | 0 |
上述示例说明了根据本发明的优选实施例的矩阵的生成。在该示例中, 很明显,“like to”是优选的备选校正。可以理解,在现实中,选择通常不是如此简单。因此,在下文示出的其它示例中,提供了用于在备选校正中做更为困难的选择的功能。
返回考虑子阶段II B,可选地,参照图5按照上文描述的,为每个剩余的CFS计分。此外,包含在多个词输入的较早的校正迭代中引入的词并且具有在预定的可信度阈值以下的可信度的CFS是消极有偏置的。
在通常的情况下,类似于在子阶段II C中上文描述的那样,生成标准化频率矩阵,其指示在互联网语料库中的每个CFS的标准化出现频率。通过将每个CFS频率除以有关簇备选词的出现频率的函数,通常根据频率矩阵生成标准化频率矩阵。
标准化用于抵消在各种备选校正的总体普及度中的实质差别的影响。适合的标准化因子是在不考虑特定CFS的情况下,基于在作为整体的语料库中各种备选校正的总体出现频率。
以下示例说明了标准化出现频率矩阵的生成:
提供以下输入文本:
footprints of a mysterious[hound/hand]said to be six feet tall
使用参照图6B上文描述的功能,为了校正选择以下簇:
hound
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
hound;hand;sound
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′a mysterious hound′;′hound said′
使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成在表29所示的互联网语料库中的出现频率和标准化出现频率的矩阵:
表29
可以从上述示例中理解,由于在各种备选校正的总体普及度中的实质差异,具有最高出现频率的词并非必然具有最高的标准化出现频率。在上述示例中,“hound”具有最高的标准化出现频率,并且从输入文本的上下文显然可以看出,“hound”是正确词,而不是在互联网语料库中具有较高出现频率的“hand”。
本发明的特定特征是,标准化频率(其抵消在各种备选校正的总体普及度中的实质差异)优选地用于在备选校正中的选择。可以理解,出现频率的其它度量而不是标准化出现频率可以可选地或额外地用作度量。在出现频率相对低或特别地高的情况下,额外的或可选的度量是有益的。
根据以下的讨论将可以理解,额外的功能通常在各种备选词校正中选择是有用的。下文描述了这些功能。
在子阶段IID,消除根据以下两种度量的、不优选于另一个备选簇校正的每个备选簇校正:
i、具有比其它备选簇校正低的词相似性得分;以及
ii、对于所有CFS,比其它备选簇校正具有较低的出现频率并且还优选地具有较低的标准化的出现频率。
以下示例说明了按照上文描述的备选校正的消除:
提供了以下输入文本;
I leave on a big house
使用参照图6B上文描述的功能,为校正选择以下簇:
leave on
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
leave in;live in;love in;leave on
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′I leave on a′;′leave on a big′
使用参照本文的阶段IIE上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表30所示的互联网语料库中的出现频率和 标准化的出现频率的矩阵:
表30
在该示例中,如在表31中指示了备选簇校正的不基于上下文相似性得分:
表31
备选词簇 校正 | 相似性 总分 |
leave in | 0.9 |
live in | 0.8 |
love in | 0.7 |
leave on | 1.00 |
因为“love in”比“live in”具有较低的相似性得分以及较低的出现频率和较低的标准化出现频率,所以消除备选簇校正“love in”。因为“leave in”的相似性得分比“live in”的得分高,因此在该阶段不消除备选簇校正“leavein”。
从上述可以理解,阶段IID的功能的操作的结果是减少的频率矩阵并且优选地也是减少的标准化频率矩阵,所述矩阵指示了出现频率并且优选地还指示了减少的多个备选校正中的每个的标准化出现频率,每个矩阵具有用于减少的多个CFS的每个的相似性得分。从以下示例可以看出,对于所有其它备选簇选择功能,优选地使用备选簇校正的减少的组。
对于在减少的频率矩阵和优选的在减少的标准化频率矩阵中的每个备选校正,生成最终优先选择度量。可以使用以下备选度量中的一个或多个 来生成用于每个备选校正的最终优先选择得分:
下文使用的术语“频率函数”指代:频率、标准化频率或频率和标准化频率两者的函数。
A、一种可能的优先选择度量是在减少的矩阵或多个矩阵中的任何CFS的减少的矩阵或多个矩阵中的每个备选簇校正的最高的出现频率函数。例如,将按照如下来对各种备选簇校正计分:
提供以下输入文本:
I am vary satisfied with your work
使用参照图6B上文描述的功能,为了校正选择以下簇:
vary
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
vary;very
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′am vary′;′vary satisfied′;′I am vary satisfied with′
使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表32和33所示的互联网语料库中的出现频率和标准化的出现频率的矩阵:
表32
表33
可以看出,在该示例中,根据出现频率和标准化出现频率两者,“very”具有最高出现频率函数。
B、另一个可能的优先选择度量是用于每个备选校正的所有CFS的平均出现频率函数。例如,将按照如下对各种备选校正计分:
提供以下输入文本:
A while ago the lived 3 dwarfs
使用参照图6B上文描述的功能,为了校正选择以下簇:
the
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
the;they;she;there
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′ago sthe lived′;′sthe lived 3′
使用参照本文的阶段IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表34和35所示的互联网语料库中的出现频率、标准化出现频率和平均出现频率的矩阵:
表34
表35
应当注意,尽管“there”具有其在矩阵中最大的出现频率的CFS,但是基于平均出现频率来选择“they”。
在该示例中,如在表36中指示了备选簇校正的不基于上下文相似性得分:
表36
备选词 簇校正 | 相似性 得分 |
the | 1.00 |
they | 0.86 |
she | 0.76 |
there | 0.67 |
应当注意,不选择具有最高相似性得分的备选簇校正。
C、其它可能优先选择度量是对于每个CFS的出现频率函数的每个备选校正的所有CFS的加权和,其中所述每个CFS的出现频率函数是在参照图5上文描述的功能来计算时,通过乘以该CFS的得分得到的。
D、参照子阶段IIE-IIG按照上文描述的,通过任意一个或多个,并且更优选的以及最优选的是,关于在减少的矩阵或多个矩阵中的备选校正的所有以下操作,生成特定备选校正/CFS优先选择度量:
i、选择来自被旋转用于校正的原始输入文本的簇作为参考簇。
ii、产生修改的矩阵,其中,在每个优先选择矩阵中,在每个feature-gram中的每个备选校正的出现频率函数由每个备选校正的出现频率函数与参考簇的出现频率函数之比来代替。
iii、进一步修改在ii中上文描述的类型的修改的矩阵,从而通过用于减少在比率中的很大差异的计算重要性的比率的函数来代替每个优先选择度量中的比率。合适的这种函数是对数函数。该操作的目的是不强调在最优选的备选校正的最终优先选择得分中的出现频率中的很大差异的重要性,而是维持在最终优先选择计分中的出现频率中的很大差异,因此消除最不优选的备选校正。
iv、通过将合适的比率或在每个优先选择度量中的比率的函数乘以合适的CFS得分,来额外地修改在ii或iii中上文描述的类型的修改的矩阵。这提供了基于正确语法使用和在CFS得分中反映的其它因素的强调。
v、通过将每个优先选择矩阵中的合适的比率或比率的函数乘以用户不确定度量的函数,来额外地修改在ii、iii或iv中上文描述的类型的修改的矩阵。用户输入不确定度量的一些示例包括:与在词处理器中执行的输入词或簇有关的编辑操作的数量,与文档的其它词有关的编辑操作;在词处理器中执行的输入词或簇的写入的时序,与文档的其它词的写入的有关时间以及在语音识别输入功能中执行的输入词或簇的说的时序,与该用户说的其它词有关的时间。用户输入不确定度度量提供了某用户如何选择该词的指示。该步骤得到参考簇的计算偏置并且由关于该簇的用户的确定度或不确定度的函数来修改。
vi、通过生成合适的比率的函数、比率的函数、出现频率和标准化的出现频率,来额外地修改在ii、iii或iv中上文描述的类型的修改的矩阵。通过将合适的比率或在每个优先选择度量中的比率的函数乘以该CFS的出现频率,来生成优选的函数。
E、通过将备选校正的相似性得分乘以用于该备选校正的所有CFS的特定备选校正/CFS优先选择度量的和,基于在D中上文描述的特定备选校正/CFS优先选择度量,计算用于每个备选校正的最终优先选择度量。
说明了这种修改的矩阵的使用的示例如下:
提供以下输入文本:
I will be able to teach base with you next week
使用参照图6B上文描述的功能,为了校正选择以下簇:
teach
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
teach;touch
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′ago to tach′;′to tach base′
使用参照上述子阶段IIA和IIC上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表37所示的互联网语料库中的出现频率和标准化的出现频率的矩阵:
表37
应当注意,对于一个特征,“teach”的出现频率和标准化出现频率两者都比“touch”的出现频率和标准化出现频率高,但是对于另一个特征,“touch”的出现频率和标准化出现频率两者都比“teach”的出现频率和标准化出现频率高。为了做出备选校正的正确选择,按照下文描述,优选地使用参照子阶段IIG上文描述的比率度量。
在该示例中,如在表38中指示了备选簇校正的不基于上下文相似性得分:
表38
备选词 簇校正 | 相似性 得分 |
Teach | 1.00 |
touch | 0.89 |
可以看出,因为“teach”具有最高相似性得分,所以参考簇是“teach”。尽管如此,基于上文描述的最终优先选择得分,还是选择“touch”。这不是直觉,因为可以根据上述矩阵的考虑来理解,其中,所述矩阵指示了“teach”具有最高的出现频率和最高的标准化出现频率。在该示例中,因为用于其中有利于“touch”的特征的出现频率的比率远高于用于其中有利于“teach” 的特征的出现频率的比率。
F、可选地,使用以下决定规则中的一个或多个,基于用于该备选校正和用于参考簇的频率函数值和优先选择度量的比较,可以滤除备选校正:
1、滤除具有低于预定阈值的相似性得分并且具有CFS频率函数(所述CFS频率函数比用于指示一个特征的参考簇的CFS频率函数低,其中,所述至少一个特征具有比预定阈值高的CFS得分)的备选校正。
2、滤除具有低于预定阈值的相似性得分并且具有优先选择度量(所述优先选择度量比用于至少一个特征的预定阈值低,其中,所述特征具有比另一个预定阈值高的CFS得分)的备选校正。
3、a、确定每个CFS的CFS得分;
b、对于每个CFS,确定用于参考簇和用于备选校正的CFS频率函数,由此确定参考簇或备选校正是否具有用于该CFS的较高频率函数;
c、对备选校正具有比参考簇较高的频率的CFS的CFS得分进行求和;
d、对参考簇具有比备选校正较高的频率的CFS的CFS得分进行求和;以及
e、如果c中的和比d中的和低,那么滤除备选校正。
以下示例说明了过滤上面描述的过滤功能。
提供了以下输入文本,通常是由语音识别功能输入:
I want[two/to/too]item,please
使用参照图6B上文描述的功能,为了校正选择以下簇:
[two/to/too]
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
too;to;two
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′I want two′;′want two items′
使用参照本文子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表39所示的互联网语料库中的出现频率的矩阵:
表39
CFS/ 备选词簇 校正 | ′I want two′ | ′want two items′ |
Too | 9900 | 0 |
To | 18286300 | 0 |
two | 8450 | 140 |
尽管“to”具有一个CFS的最高出现频率,但是因为它对另一个CFS来说出现频率为零,所以滤除备选词校正“too”和“to”。
G、参照阶段III按照上文所讨论的,基于在A-E上文描述开发的最终优先选择度量,对在F中过滤后留下的备选校正建立排序。
H、如参照阶段IV上文讨论的,将可信度分配给选择的备选校正。基于以下参数中的一个或多个来计算该可信度:
a、按照在上述子阶段IIB中提供的选择的CFS的数量、类型和得分;
b、在CFS的情况下,各种备选簇连接的出现频率的统计显著性;
c、基于每个CFS的优先选择度量和各种备选校正的词相似性得分,同意备选校正的选择的程度;
d、在预定最低阈值以上的选择的备选簇连接的不基于上下文的相似性得分(阶段I)。
e、上下文数据可用的程度,由在减少的矩阵中的CFS的数量来指示,其中,所述矩阵具有在预定最小阈值以上的CFS得分并且比另一个预定阈值具有优先选择的得分。
如果可信度在预定的阈值以上,那么在没有用户交互的情况下实现选择的备选校正。如果可信度在预定的阈值以下但是在较低预定的阈值以上,那么实现选择的备选校正,但是引发了用户交互。如果可信度在较低的预定阈值以下,那么引发基于备选校正的优选的列表的用户选择。
以下示例是可信度得分的说明性使用:
提供以下输入文本:
He was not feeling wale when he returned
使用参照图6B上文描述的功能,为了校正选择以下簇:
wale
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
wale;well
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′was not feeling wale′;′not feeling wale when′;′feeling wale when he′;′walewhen he returned′
使用参照本文子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表40所示的互联网语料库中的出现频率的矩阵:
表40
CFS/备选词 簇校正 | ′was not feeling wale′ | ′not feeling wale when′ | ′feeling wale when he′ | ′wale when he returened′ |
Wale | 0 | 0 | 0 | 0 |
Well | 31500 | 520 | 100 | 140 |
上述示例说明:根据在上述H中阐述的所有标准,选择′well′而不是′wale′,因为′well′具有高的可信度。
在以下示例中,可信度有些低,这是由于以下事实:备选校正′back′具有比在CFS′bech in the summer′中的′beach′较高的出现频率,但是′beach′具有比在CFS′on the beech in′和′the bech in the′较高的出现频率。基于标准H(c),选择带有中间可信度的备选校正′beach′。
提供以下输入文本:
I like to work on the beech in the summer
使用参照图6B上文描述的功能,为了校正选择以下簇:
beech
使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):
beach;beech;back
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′on the beech in′;′the beech in the′;′beech in the summer′
使用参照子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表41所示的互联网语料库中的出现频率的矩阵:
表41
CFS/备选词 簇校正 | ′on the beech in′ | ′the beech in the′ | ′beech in the summer′ |
Beach | 110560 | 42970 | 2670 |
Beech | 50 | 55 | 0 |
Back | 15300 | 10390 | 20090 |
基于标准H(c),选择带有中间可信度的备选校正′beach′。
在以下示例中,基于标准H(a),可信度更低:
接收以下输入文本:
Exarts are restoring the British Museum′s round reading room
使用参照图6B上文描述的功能,为了校正选择以下簇:
Exarts
使用参照图7A上文描述的功能,生成以下备选词簇校正(部分地列出):
Experts;Exerts;Exits
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′Exarts are′;′Exarts are restoring′;′Exarts are restoring the;′Exarts arerestoring the British′
使用参照子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表42所示的互联网语料库中的出现频率的矩阵:
表42
CFS/备选词 簇校正 | ′Exarts are′ | ′Exarts are restoring′ | ′Exarts are restoring the′ | ′Exarts are restoring the British′ |
Experts | 62540 | 0 | 0 | 0 |
Exerts | 140 | 0 | 0 | 0 |
Exists | 8225 | 0 | 0 | 0 |
消除出现频率为零的所有备选校正的所有CFS。在该示例中,消除以下feature-gram:
′Exarts are restoring′;′Exarts are restoring the′;′Exarts are restoring the British′
在该示例中,仅剩余的CFS是feature-gram:
′Exarts are′
从上述示例看出,在过滤过程中存留的CFS是“Exart are”。因此,可信度相当低,因为选择仅基于单个CFS,其相对地短并且除了怀疑的词之外仅包括一个词,所述词是经常出现的词。
以下示例说明了在上述阶段D和E中描述的最终优先选择得分度量的使用。
提供了一些输入文本:
Some kids don′t do any sport and sit around doing nothing and getting fastso you will burn some calories and get a lot fitter if you exercise.
使用参照图6B上文描述的功能,为了校正选择以下簇:
fast
使用参照图7A上文描述的功能,生成以下备选词簇校正(部分地列出):
fat;fast
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′and getting fast′;′getting fast so′;′fast so you′;′fast so you will′
使用参照本文的子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表43所示的互联网语料库中的出现频率的矩阵:
表43
CFS/ 备选词簇 校正 | ′and getting′ | ′getting fast so′ | ′fast so you′ | ′fast so you will′ |
CFS重要性得分 | 0.8 | 0.8 | 0.05 | 0.2 |
Fast | 280 | 20 | 6500 | 250 |
Fat | 1960 | 100 | 1070 | 115 |
在该示例中,在表44中指示了备选簇校正的不基于上下文得分:
表44
备选词 簇校正 | 相似性 得分 |
fast | 1 |
fat | 0.89 |
使用在上述阶段D和E中描述的最终优先选择得分度量,选择带有低可信度的备选词校正“fat”。
现在参照图10,其是说明了丢失项目校正功能的操作的详细的流程图。丢失项目校正功能用于校正丢失的冠词、介词、标点和在输入文本中主要是语法功能的其它项目。该功能优选地对从图1的拼写校正功能输出的拼写校正输入文本进行操作。
以如下方式优选地执行怀疑的丢失项目的识别:
初始,生成用于拼写校正输入文本的feature-gram。确定在语料库(优选地是互联网语料库)中拼写校正输入中的每个feature-gram的出现频率(FREQ F-G)。
按照如下来计算每个feature-gram的期望的出现频率(EFREQ F-G):
假定feature-gram包含n个词,被识别为W1-Wn。
Wi代表feature-gram中的第i个词。
给定的feature-gram的期望的出现频率被认为是基于feature-gram中的词分配到随后的词W1...W(n-1)的每个的两个连续的部分的该feature-gram的最高期望的频率。
按照如下可以表示基于feature-gram中的词分配到随后的词Wi的两个连续的部分的feature-gram的期望的频率:
关于Wi的EFREQ F-G=(FREQ(W1-Wi)*FREQ(Wi+1-Wn))/(互联网语料库中的所有词的总频率)
计算基于feature-gram中的词分配到两个连续的部分的所有可能的每个feature-gram的期望的频率。
如果关于Wi的FREQ F-G/EFREQ F-G比预定的阈值低,那么从以下方面来说:在该feature-gram中,在Wi与Wi+1之间有丢失的冠词、介词或标点,认为关于Wi的feature-gram是怀疑的。
优选地通过尝试找到由最大量的不怀疑的上下文数据所包围的词的联 结点,为了校正选择在拼写校正输入文本中的两个连续词之间的怀疑词联结点。优选地,选择在其附近具有不怀疑的词的联结点的最长序列或多个序列。
优选地基于可能丢失的标点、冠词、介词、连词或其它项目(其通常不包括名词、动词或形容词)的预定义的组,为每个词联结点生成一个或优选地多个备选词插入。
优选地基于参照图9和下文、上文描述的校正备选词计分算法,来提供各种备选词插入的至少部分地基于上下文和词的基于相似性得分。
以下示例是说明性的:
提供以下输入文本:
I can′t read please help me
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
I can′t read;can′t read please;read please help;please help me
使用参照上文描述的功能,为了通常像表45那样出现的feature-gram的上述列表,生成在互联网语料库中的出现频率的矩阵:
表45
FEATURE-GRAM | 出现的频率 |
I can’tread | 5600 |
can’t read please | 0 |
read please help | 55 |
please help me | 441185 |
根据以下表示,为了关于feature-gram中的每个词Wi的每个feature-gram,计算期望的出现频率:
关于Wi的EFREQ F-G=(FREQ(W1-Wi)*FREQ(Wi+1-Wn))/(互联网语料库中的所有词的总频率)
在表46和47中可以看出一些这些计算的示例性的结果:
表46
FEATURE- GRAM | 出现的 频率 | 关于“read”的 期望的频率 | 关于“read”的 FREQ F-G/关于 “read”的 |
EFREQ F-G | |||
can’t read please | 0 | 0 | 0 |
read please help | 55 | 220 | 0.25 |
表47
FEATURE-GRAM | 出现的频率 |
read | 157996585 |
please help | 1391300 |
从上述结果可以看出,每个feature-gram的实际出现频率比其期望的出现频率低。这指示了怀疑缺少了项目,例如标点。
生成在词“read”之后的备选插入的列表。该列表优选地包括标点、冠词、连词和介词的预定的列表。具体地说,它将包括句号“.”。
备选的部分列表是:
′read please′;′read.Please′;′read of please′;′read a please′
使用参照图5上文描述的功能,生成以下CFS:
′I can′t read[?]′;′read[?]please help′;,[?]please help me′
使用在图9的阶段IIA中描述的功能,为了CFS的上述列表中备选词簇校正的上述列表,生成表48中所示的互联网语料库中的出现频率的矩阵:
当“.”包括在簇中时,对于在′.′之前和之后的文本分别地检索包括带有′.′的簇。即,feature-gram“can’t read.Please”将不生成,因为它包括两个分离的语法分析短语。
表48
CFS/备选词 簇校正 | ‘can’t read[?]’ | ‘can’t[?]please help’ | ‘[?]please help me’ |
read please | 0 | 0 | 0 |
read.Please | 1093 | 0 | 357945* |
read of please | 0 | 0 | 0 |
read a please | 0 | 0 | 0 |
*当计算在语料库中词的出现频率时,从feature-gram的开始忽略了′.′。例如,“.Please help me”的频率等于“Please help me”的频率。
使用在图9的阶段D和E中描述的功能,最终优先选择度量选择备选 校正“read.Please”并且校正的输入文本是:
I can′t read.Please help me
以下示例说明了增加丢失的介词的功能。
提供以下输入文本:
I sit the sofa
使用下文描述的功能,为了校正选择以下簇:
′sit the′
使用上文描述的功能,生成以下备选簇校正(部分地列出):
sit on the;sit of the;sit the
使用参考图5上文描述的功能,生成以下CFS:
′I sit the′;′sit the sofa′
使用参照图9在子阶段IIA中描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表49所示的互联网语料库中的出现频率的矩阵:
表49
CFS/备选词 簇校正 | ‘I sit[?]the’ | ‘sit[?]the sofa’ |
sit on the | 26370 | 7400 |
sit of the | 0 | 0 |
sit the | 2100 | 0 |
使用在图9的阶段IID和IIE中描述的功能,最终优先选择度量选择备选校正“sit on the”并且校正输入文本是:
I sit on the sofa.
现在参照图11,其是说明了冗余项目校正功能的操作的详细的流程图。冗余项目校正功能用于校正冗余的冠词、介词、标点和在输入文本中主要具有语法功能的其它项目。该功能优选地对从图1的拼写校正功能输出的拼写校正输入文本进行操作。
可以理解,图11的功能可以与图10的功能组合或者可选地与图10的功能并行地执行、在其操作之前或之后执行。
以如下方式优选地执行怀疑的冗余项目的识别:
执行关于拼写校正输入文本的搜索以识别属于可能的冗余标点、冠词、介词、连词的预定义的组的项目和其它项目(所述其它项目通常不包括名词、动词或形容词)。
对于每个这种项目,为了误用词和语法校正、包含这种项目的拼写校正输入文本的所有部分,生成feature-gram。计算每个这种feature-gram和其中项目被忽略的对应的feature-gram的出现频率。
如果其中项目被忽略的feature-gram的出现频率超过其中项目出现的对应的feature-gram的出现频率,那么项目被认为是怀疑的。
优选地通过尝试找到由最长的不怀疑的上下文数据包围的项目,来选择用于校正的在误用词和语法校正、拼写校正输入文本中的怀疑的项。优选地,选择具有在其附近具有最长的不怀疑的词的序列或多个序列的项目。
为每个怀疑的项目生成可能的项目删除。优选地基于参照图9和下文、上文描述的校正备选得分算法,来提供各种备选词的至少部分的基于上下文和词的基于相似性得分,即,项目的删除或项目的不删除。
以下示例是说明性的。
提供以下输入文本:
It is a nice,thing to wear.
搜索输入文本来识别属于普通的冗余项目(例如,标点、介词、连词和冠词)的预定的列表的任意项目。
在该示例中,逗号“,”被识别为属于这种列表。
使用参照图5上文描述的功能,生成包括逗号“,”的、在表50所示的feature-gram并且还生成没有逗号的相同的feature-gram(部分地列出):
表50
带有逗号的FEATURE-GRAM | 没有逗号的FEATURE-GRAM |
is a nice,thing | is anice thing |
a nice,thing to | a nice thing to |
nice,thing to wear | nice thing to wear |
使用上文描述的功能,为了通常如表51所示出现的feature-gram的上述列表,生成互联网语料库中的出现频率的矩阵:
表51
带有逗号的 FEATURE-GRAM | 带有逗号的 FEATURE-GRAM 的 出现的频率 | 没有逗号的 FEATURE-GRAM | 没有逗号的 FEATURE-GRAM 的出现的频率 |
is a nice,thing | 0 | is anice thing | 10900 |
a nice,thing to | 0 | a nice thing to | 39165 |
nice,thing to wear | 0 | nice thing to wear | 100 |
如上述矩阵中所示,忽略“,”的feature-gram的出现频率超过出现“,”的对应的feature-gram的出现频率。因此,“,”被怀疑是冗余的。
基于保留逗号和忽略逗号的以下备选词的基于上下文的得分,考虑逗号的可能的删除:
′nice,′;′nice′
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′a nice,′;′nice,thing′;′is a nice,′;′a nice,thing′;′nice,thing to′
使用参照图9上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表52所示的互联网语料库中的出现频率的矩阵:
表52
CFS/备选词 簇校正 | ‘a nice’ | ‘nice thing’ | ‘is a nice,’ | ‘a nice, thing’ | ‘nice, thing to’ |
nice, | 379400 | 0 | 37790 | 0 | 0 |
Nice | 118092290 | 300675 | 1127040 | 69100 | 58630 |
消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有CFS。例如,消除以下feature-gram:
′a nice,′;′nice,thing′
在该示例中,剩余的CFS是feature-gram:
′is a nice,′;′a nice,thing′;′nice,thing to′
使用在上述图9的阶段D和E中描述的最终优先选择得分,来选择没有逗号的备选校正“nice”。在逗号删除后的输入文本是:
It is a nice thing to wear
以下示例说明了删除冗余冠词的功能。
提供以下输入文本:
We should provide them a food and water
使用参照图11上文描述的功能,为了校正选择以下簇:
a food
使用参照图11上文描述的功能,生成以下备选簇校正(部分地列出):
a food;food
使用参照图5上文描述的功能,生成以下CFS(部分地列出):
′provide them a food′;′them a food and′;′a food and water′
使用参照本文子阶段IIA上文描述的功能,为了在CFS的上述列表中的备选簇校正的上述列表,生成表53所示的互联网语料库中的出现频率的矩阵:
表53
CFS/备选词 簇校正 | ‘provide them a food’ | ‘them a food and’ | ‘a food and water’ |
a food | 0 | 0 | 950 |
Food | 790 | 12775 | 415620 |
使用在图9中描述的计分功能,最终优先选择度量选择备选校正“food”并且校正输入文本是:
We should provide them food and water.
本领域的技术人员应当理解,本发明并不限于特定地示出并且在上文描述的内容。而是,本发明的范围包括本领域的技术人员在阅读上述内容时想到的并且不在现有技术范围内的、上文描述和示出的各种特征的组合和子组合以及其修改。
Claims (57)
1.一种计算机辅助的自动的上下文相关语言校正系统,包括:
备选词生成器,基于输入句子,生成为所述句子中的多个词中的每一个提供多个备选词的基于文本的表示;
选择器,用于至少部分地基于互联网语料库,针对所述句子中的所述多个词中的每一个,在至少所述多个备选词中进行选择;以及
校正生成器,用于基于所述选择器做出的选择来提供校正输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述输入句子,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
2.根据权利要求1所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器用于,基于以下校正功能中的至少一个来做出所述选择:
拼写校正;
误用词校正;
语法校正;以及
词汇增强。
3.根据权利要求1所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器用于,基于以下校正功能中的至少两个来做出所述选择:
拼写校正;
误用词校正;
语法校正;以及
词汇增强。
4.根据权利要求3所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器用于,基于校正的以下时间顺序中的至少一个来做出所述选择:
先于误用词校正、语法校正和词汇增强中的至少一个的拼写校正;以及
先于词汇增强的误用词校正和语法校正。
5.根据权利要求1所述的计算机辅助的自动的上下文相关语言校正系统,其中:
由以下功能中的一个来提供所述输入句子:
词处理器功能;
机器翻译功能;
语音到文本转换功能;
光学字符识别功能;以及
即时通信功能;以及
所述选择器用于,基于以下校正功能中的至少一个来做出所述选择:
误用词校正;
语法校正;以及
词汇增强。
6.根据权利要求1所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。
7.根据权利要求2所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语法校正功能包括标点、动词变形、单数/复数、冠词和介词校正功能中的至少一个。
8.根据权利要求2所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语法校正功能包括替换、插入和省略校正功能中的至少一个。
9.根据权利要求1所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述基于上下文计分功能还用于至少部分地基于在所述互联网语料库中的标准化上下文特征序列出现的频率,来排序所述多个备选词。
10.一种计算机辅助的自动的上下文相关语言校正系统,包括以下各项中的至少一个:
拼写校正功能;
误用词校正功能;
语法校正功能;以及
词汇增强功能;以及
与以下各项中的至少一个协作的上下文特征序列功能:所述拼写校正功能;所述误用词校正功能、语法校正功能和所述词汇增强功能,所述上下文特征序列功能用于基于输入句子生成多个上下文特征序列;以及
基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
11.根据权利要求10所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语法校正功能包括标点、动词变形、单数/复数、冠词和介词校正功能中的至少一个。
12.根据权利要求10所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语法校正功能包括替换、插入和省略校正功能中的至少一个。
13.根据权利要求10所述的计算机辅助的自动的上下文相关语言校正系统,包括以下各项中的至少两个:
所述拼写校正功能;
所述误用词校正功能;
所述语法校正功能;以及
所述词汇增强功能;以及
其中,所述上下文特征序列功能与以下各项中的至少两个进行合作并且使用互联网语料库:所述拼写校正功能;所述误用词校正功能,所述语法校正功能和所述词汇增强功能。
14.根据权利要求10所述的计算机辅助的自动的上下文相关语言校正系统,包括以下各项中的至少三个:
所述拼写校正功能;
所述误用词校正功能;
所述语法校正功能;
所述词汇增强功能;以及
其中,所述上下文特征序列功能与以下各项中的至少三个进行合作并且使用互联网语料库:所述拼写校正功能;所述误用词校正功能,所述语法校正功能和所述词汇增强功能。
15.根据权利要求10所述的计算机辅助的自动的上下文相关语言校正系统,包括:
所述拼写校正功能;
所述误用词校正功能;
所述语法校正功能;以及
所述词汇增强功能;以及
其中,所述上下文特征序列功能与以下各项功能进行合作并且使用互联网语料库:所述拼写校正功能;所述误用词校正功能,所述语法校正功能和所述词汇增强功能。
16.一种计算机辅助的自动的上下文相关语言校正系统,包括:
备选词生成器,基于语言输入,生成为所述语言输入中的多个词中的每一个提供多个备选词的基于文本的表示;
选择器,用于至少部分地基于为所述语言输入中的所述多个词中的至少一些选择的所述多个备选词中的多个之间的关系,为所述语言输入中的所述多个词中的每一个,在至少所述多个备选词之间进行选择;以及
校正生成器,用于基于由所述选择器做出的选择,来提供校正输出;
并且其中,所述语言输入是以下各项中的至少一个:
文本输入;
光学字符识别功能的输出;
机器翻译功能的输出;以及
词处理功能的输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
17.根据权利要求16所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语言输入包括输入句子和输入文本中的至少一个。
18.根据权利要求16所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语言输入是语音并且所述生成器将语音中的所述语言输入转换为为所述语言输入中的多个词提供多个备选词的基于文本的表示。
19.根据权利要求16所述的计算机辅助的自动的上下文相关语言校正系统,其中:
所述生成器将文本中的所述语言输入转换为为所述语言输入中的多个词提供多个备选词的基于文本的表示。
20.根据权利要求16所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器,用于基于以下校正功能中的至少两个,做出所述选择:
拼写错误;
误用词校正;
语法校正;以及
词汇增强。
21.根据权利要求20所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器用于,基于校正的以下时间顺序中的至少一个来做出所述选择:
先于误用词校正、语法校正和词汇增强中的至少一个的拼写校正;以及
先于词汇增强的误用词校正和语法校正。
22.根据权利要求16所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语言输入是语音并且所述选择器用于基于以下校正功能中的至少一个来做出所述选择:
误用词校正;
语法校正;以及
词汇增强。
23.根据权利要求16所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器用于通过执行以下功能中的至少两个来做出所述选择:
选择包括比初始选择的所述语言输入中的所有所述多个词少的第一组词或词的组合;
之后对所述第一组词或词的组合的元素进行排序以建立选择的优先级;以及
之后为了所述第一组词的元素,当在所述多个备选词之间选择时,选择其它词而不是所有所述多个词作为上下文来影响所述选择。
24.根据权利要求16所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器用于通过执行以下功能来做出所述选择:
当选择具有至少两个词的元素时,结合用于所述至少两个词彼此的所述多个备选词的每个来评估用于所述至少两个词的每个的所述多个备选词的每个。
25.根据权利要求16所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。
26.一种计算机辅助的自动的上下文相关语言校正系统,包括:
误用词怀疑器,基于所述语言输入的上下文中词的合适度来评估语言输入中的至少大部分词;
校正生成器,用于至少部分地基于由所述怀疑器执行的评估,来提供校正输出,所述校正生成器包括自动校正语言生成器,用于在不需要用户干预的情况下,至少部分地基于由所述怀疑器执行的评估,来提供校正文本输出;
备选词生成器,基于所述语言输入,生成为所述语言输入中的所述至少大部分词中的至少一个提供多个备选词的基于文本的表示;以及
选择器,用于为所述语言输入中的所述至少大部分的词中的所述至少一个中的每一个,在至少所述多个备选词中进行选择,并且其中
所述校正生成器,用于基于所述误用词怀疑器做出的选择,来提供所述校正输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
27.根据权利要求26所述的计算机辅助的自动的上下文相关语言校正系统,还包括:
怀疑词输出指示器,其指示所述语言输入中的所述词的所述至少大部分中的至少一些被怀疑为误用词的程度。
28.根据权利要求26所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语言输入是语音并且所述选择器用于,基于以下校正功能中的至少一个,来做出所述选择:
误用词校正;
语法校正;以及
词汇增强。
29.一种计算机辅助的自动的上下文相关语言校正系统,包括:
误用词怀疑器,用于评估语言输入中的词;
备选词生成器,为由所述怀疑器评估为怀疑词的、所述语言输入中的至少一些词生成多个备选词,所述语言输入中的词的所述多个备选词中的至少一个与互联网语料库中所述语言输入中的所述词的上下文特征一致;
选择器,用于在至少所述多个备选词之间进行选择;以及
校正生成器,用于至少部分地基于由所述选择器做出的选择,提供校正输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
30.一种计算机辅助的自动的上下文相关语言校正系统,包括:
误用词怀疑器,评估语言输入中的词并且识别怀疑的词;
备选词生成器,生成用于所述怀疑词的多个备选词;
选择器,根据多个选择标准对每个所述怀疑词以及为此由所述备选词生成器生成的所述多个备选词的一个进行评级,并且应用与为此由所述备选词生成器生成的所述多个备选词中的一个有关的所述怀疑的词有利的偏置;以及
校正生成器,用于至少部分地基于由所述选择器做出的选择,提供校正输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
31.一种计算机辅助的自动的上下文相关语言校正系统,包括:
备选词生成器,基于输入为所述输入中的至少一个词生成多个备选词;
选择器,根据多个选择标准对每个所述至少一个词以及为此由所述备选词生成器生成的所述多个备选词中的多个进行评级,并且应用与为此由所述备选词生成器生成的所述多个备选词中的一个有关的所述至少一个词有利的偏置,所述偏置是指示提供了输入的人的不确定度的所述输入不确定度度量的函数;以及
校正生成器,用于基于所述选择器做出的选择,提供校正输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
32.一种计算机辅助的自动的上下文相关语言校正系统,包括:
不正确词怀疑器,评估语言输入中的词的至少大部分,所述怀疑器至少部分地响应于指示提供了输入的人的不确定度的输入不确定度度量,所述怀疑器提供怀疑的不正确词输出;以及
备用词生成器,为由所述怀疑的不正确词输出所识别的怀疑的不正确词生成多个备选词;
选择器,用于在每个怀疑的不正确词和由所述备选词生成器生成的所述多个备选词中进行选择;以及
用于基于所述选择器做出的选择,提供校正输出的校正生成器,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
33.一种计算机辅助的自动的上下文相关语言校正系统,包括:
接收多个词输入并且提供校正输出的拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的至少一个,拼写校正模块、误用词校正模块、语法校正模块和词汇增强模块中的所述至少一个中的每一个包括:
备选词候选生成器,包括:
语音相似性功能,用于基于与所述输入中的词的语音相似性,提出备选词,并且用于指示语音相似性的度量;以及
字符串相似性功能,用于基于与所述输入中的词的字符串相似性,来提出备选词,并且指示用于每个备选词的字符串相似性的度量;以及
选择器,用于通过使用所述语音相似性和字符串相似性度量以及基于上下文选择功能,选择所述输出中的词或由所述备选词候选生成器提出的备选词候选者,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述词输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
34.一种计算机辅助的自动的上下文相关语言校正系统,包括:
怀疑词识别功能,接收多个词语言输入并且提供指示怀疑词的怀疑词输出;
特征识别功能,用于识别包括所述怀疑词的特征;
备选词选择器,识别用于所述怀疑词的备选词;
特征出现功能,使用语料库并提供出现输出;以及
选择器,使用所述出现输出来提供校正输出,
所述特征识别功能包括特征过滤功能,所述特征过滤功能包括以下中的至少一个:
用于消除包含怀疑的错误的特征的功能;
用于消极地偏置包含在所述多个词输入的较早的校正迭代中引入的词并且具有在可信度预定的阈值以下的可信度的特征的功能;以及
用于消除包含在具有在预定的频率阈值之上的出现频率的另一个特征中所包含的特征的功能,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述词语言输入,生成多个上下文特征序列;并且所述特征出现功能包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
35.根据权利要求29-34中的任意一项所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器用于至少基于以下校正功能的两个来做该选择:
拼写校正;
误用词校正;
语法校正;以及
词汇增强。
36.根据权利要求35所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器用于基于校正的以下时间顺序中的至少一个来做出所述选择:
先于误用词校正、语法校正和词汇增强中的至少一个的拼写校正;以及
先于词汇增强的误用词校正和语法校正。
37.根据权利要求29-34中的任意一项所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语言输入是语音并且所述选择器用于基于以下校正功能中的至少一个来做出所述选择:
语法校正;以及
误用词校正;以及
词汇增强。
38.根据权利要求29-34中的任意一项所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。
39.根据权利要求29-30和33-34中的任意一项所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器还用于,至少部分地基于用户输入不确定度度量来做出所述选择。
40.根据权利要求39所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述用户输入不确定度度量是基于提供了所述输入的人的不确定度的测量的函数。
41.根据权利要求29-34中的任意一项所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述选择器还使用用户输入历史学习功能。
42.一种计算机辅助的自动的上下文相关语言校正系统,包括:
怀疑词识别功能,接收多个词语言输入并且提供指示怀疑词的怀疑词输出;
特征识别功能,用于识别包括所述怀疑词的特征;
备选词选择器,识别用于所述怀疑词的备选词;
出现功能,使用语料库并提供出现输出;以及
校正输出生成器,使用所述出现输出以提供校正输出,
所述特征识别功能包括以下各项中的至少一个:
N-gram识别功能;以及
共同出现识别功能;以及
以下各项中的至少一个:
skip-gram识别功能;
switch-gram识别功能;以及
之前由用户使用的特征识别功能,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述词语言输入,生成多个上下文特征序列;并且所述出现功能包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
43.一种计算机辅助的自动的上下文相关语言校正系统,包括:
语法错误怀疑器,基于在所述语言输入的上下文中词的适合度,评估语言输入中所述词的至少大部分;
校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出,所述校正生成器包括自动校正语言生成器,用于在不需要用户干预的情况下,至少部分地基于由所述怀疑器执行的评估,提供校正文本输出;
备选词生成器,基于所述语言输入,生成为所述语言输入中的所述至少大部分词中的至少一个提供多个备选词的基于文本的表示;以及
选择器,用于为所述语言输入中的所述至少大部分词中的所述至少一个中的每一个,在至少所述多个备选词中进行选择,并且其中,
所述校正生成器,用于基于由所述选择器做出的选择,提供所述校正输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
44.根据权利要求43所述的计算机辅助的自动的上下文相关语言校正系统,还包括:
怀疑词输出指示器,其指示所述语言输入中的所述词的所述至少大部分中的至少一些被怀疑为包含语法错误的程度。
45.一种计算机辅助的自动的上下文相关语言校正系统,包括:
语法错误怀疑器,评估语言输入中的词;
备选词生成器,为由所述怀疑器评估为怀疑词的所述语言输入中的至少一些词生成多个备选词,用于所述语言输入中的词的所述多个备选词的至少一个与所述语言输入中的所述词的上下文特征一致;
选择器,用于在至少所述多个备选词之间进行选择;以及
校正生成器,用于至少部分地基于由所述选择器做出的选择,提供校正输出,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于由所述选择器做出的选择,提供校正语言输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
46.一种计算机辅助的自动的上下文相关语言校正系统,包括:
语法错误怀疑器,评估语言输入中的词并且识别怀疑的词;
备选生成器,生成用于所述怀疑词的多个备选词;
选择器,根据多个选择标准对每个所述怀疑的词以及为此由所述备选词生成器生成的所述多个备选词的一个进行评级,并且应用与为此由所述备选词生成器生成的所述多个备选词中的一个有关的所述怀疑的词有利的偏置;以及
校正生成器,用于至少部分地基于由所述选择器做出的选择,提供校正输出,所述校正生成器包括校正语言输入生成器,用于在不需要用户干预的情况下,基于由所述选择器做出的选择,提供校正语言输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
47.一种包括各种备选词校正的基于上下文计分的计算机辅助的自动的上下文相关语言校正系统,
其特征在于,所述系统包括上下文特征序列功能,用于基于输入句子,生成多个上下文特征序列;并且所述系统还包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且其中,所述基于上下文计分至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
48.根据权利要求47所述的计算机辅助的自动的上下文相关语言校正系统,还包括以下各项中的至少一个:
与所述基于上下文计分协作的
拼写校正功能;
误用词校正功能;
语法校正功能;以及
词汇增强功能。
49.根据权利要求47所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述基于上下文计分还至少部分地基于在互联网语料库中的标准化上下文特征序列出现的频率。
50.根据权利要求47所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述基于上下文计分还至少部分地基于上下文特征序列重要性得分。
51.根据权利要求47所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述上下文特征序列重要性得分是以下各项中的至少一个的函数:
词性标注和句子分析功能的操作;上下文特征序列长度;在上下文特征序列和上下文特征序列类型中的每个词的出现的频率。
52.一种包括词汇增强功能的计算机辅助的自动的上下文相关语言校正系统,包括:
词汇挑战的词识别功能;
备选词词汇增强生成功能;
上下文特征序列功能,用于基于输入句子,生成多个上下文特征序列;以及
基于上下文计分功能,其针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序多个备选词,
所述备选词词汇增强生成功能,其包括词典预处理功能,用于生成备选词词汇增强,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
53.一种计算机辅助的自动的上下文相关语言校正系统,包括:
备选词生成器,基于输入句子,生成为所述句子中的多个词中的每一个提供多个备选词的基于文本的表示;
选择器,为了所述句子中的所述多个词中的每一个,在至少所述多个备选词中选择;
可信度分配器,用于将可信度分配到来自所述多个备选词的选择的备选词;以及
校正生成器,用于基于所述选择器做出的选择并且至少部分地基于所述可信度,提供校正输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述输入句子,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
54.根据权利要求53所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述可信度是基于以下参数中的至少一个:
选择的上下文特征序列的数量、类型和得分;
在上下文特征序列上下文中,所述多个备选词的出现的频率的统计显著性的测量;
基于每个所述上下文特征序列的优先选择度量和所述多个备选词的词相似性得分,选择所述多个备选词中的一个的一致性程度;
所述多个备选词中的所述一个的不基于上下文相似性得分在第一预定的最低阈值以上;以及
基于上下文数据可用性的程度,其由所述上下文特征序列的数量来指示,其中,所述上下文特征序列具有在第二预定最低阈值以上并且具有在第三预定阈值之上的优先选择得分。
55.一种计算机辅助的自动的上下文相关语言校正系统,包括:
标点错误怀疑器,基于语言输入的上下文中的合适度,评估所述语言输入中的至少一些词和标点,其中,所述语言输入的合适度是基于互联网语料库中所述语言输入的上下文特征序列的出现的频率;以及
校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出,所述校正生成器包括丢失标点校正功能、冗余标点校正功能和标点替换校正功能中的至少一个;
备选词生成器,基于所述语言输入,生成为所述语言输入中的所述至少大部分词中的至少一个提供多个备选词的基于文本的表示;以及
选择器,用于为所述语言输入中的所述至少大部分的词中的所述至少一个中的每一个,在至少所述多个备选词中进行选择,并且其中
所述校正生成器,用于基于所述标点错误怀疑器做出的选择,来提供所述校正输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
56.一种计算机辅助的自动的上下文相关语言校正系统,包括:
语法元素错误怀疑器,基于语言输入的上下文中的合适度,评估所述语言输入中的至少一些词,其中,所述语言输入的上下文合适度是基于互联网语料库中所述语言输入的上下文特征序列的出现的频率;以及
校正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出,所述校正生成器至少包括丢失语法元素校正功能、冗余语法元素校正功能和语法元素替换校正功能中的至少一个;
备选词生成器,基于所述语言输入,生成为所述语言输入中的所述至少大部分词中的至少一个提供多个备选词的基于文本的表示;以及
选择器,用于为所述语言输入中的所述至少大部分的词中的所述至少一个中的每一个,在至少所述多个备选词中进行选择,并且其中
所述校正生成器,用于基于所述语法元素错误怀疑器做出的选择,来提供所述校正输出,
其特征在于,所述系统包括上下文特征序列功能,用于基于所述语言输入,生成多个上下文特征序列;并且所述选择器包括基于上下文计分功能,用于针对所述多个上下文特征序列中的每一个,至少部分地基于在互联网语料库中的所述上下文特征序列出现的频率,排序所述多个备选词,
其中,所述上下文特征序列是指N-gram和以下中的至少一个:skip-gram、switch-gram、共同出现、“之前由用户使用的特征”和其组合,其中所述skip-gram是省略了一些不重要的词或短语的修改的N-gram,所述switch-gram是其中转换一些词的出现顺序的修改的N-gram,并且
其中,所述基于上下文计分功能至少部分地基于上下文特征序列重要性得分,所述上下文特征序列重要性得分基于以下各项中的至少一个:
a.所述上下文特征序列中包括的解析树节点的数量;
b.所述上下文特征序列的长度;
c.在所述上下文特征序列而不是输入词中每一个字的出现频率;
d.上下文特征序列的类型。
57.根据权利要求56所述的计算机辅助的自动的上下文相关语言校正系统,其中,所述语法元素是冠词、介词和连词中的一个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510351019.5A CN105045777A (zh) | 2007-08-01 | 2008-07-31 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US95320907P | 2007-08-01 | 2007-08-01 | |
US60/953,209 | 2007-08-01 | ||
PCT/IL2008/001051 WO2009016631A2 (en) | 2007-08-01 | 2008-07-31 | Automatic context sensitive language correction and enhancement using an internet corpus |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510351019.5A Division CN105045777A (zh) | 2007-08-01 | 2008-07-31 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101802812A CN101802812A (zh) | 2010-08-11 |
CN101802812B true CN101802812B (zh) | 2015-07-01 |
Family
ID=40305018
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200880101405.7A Active CN101802812B (zh) | 2007-08-01 | 2008-07-31 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
CN201510351019.5A Pending CN105045777A (zh) | 2007-08-01 | 2008-07-31 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
CN200980138185.XA Expired - Fee Related CN102165435B (zh) | 2007-08-01 | 2009-02-04 | 使用因特网语料库的自动上下文相关语言产生、校正和增强 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510351019.5A Pending CN105045777A (zh) | 2007-08-01 | 2008-07-31 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
CN200980138185.XA Expired - Fee Related CN102165435B (zh) | 2007-08-01 | 2009-02-04 | 使用因特网语料库的自动上下文相关语言产生、校正和增强 |
Country Status (6)
Country | Link |
---|---|
US (5) | US8914278B2 (zh) |
EP (1) | EP2183685A4 (zh) |
JP (2) | JP5638948B2 (zh) |
CN (3) | CN101802812B (zh) |
CA (2) | CA2694327A1 (zh) |
WO (1) | WO2009016631A2 (zh) |
Families Citing this family (355)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0721987B2 (ja) * | 1991-07-16 | 1995-03-08 | 株式会社愛知電機製作所 | 真空切替遮断器 |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US9009590B2 (en) | 2001-07-31 | 2015-04-14 | Invention Machines Corporation | Semantic processor for recognition of cause-effect relations in natural language documents |
US8799776B2 (en) | 2001-07-31 | 2014-08-05 | Invention Machine Corporation | Semantic processor for recognition of whole-part relations in natural language documents |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
JP2009537038A (ja) | 2006-05-07 | 2009-10-22 | バーコード リミティド | 製品ロジスティックチェーンにおける品質管理を改善するためのシステムおよび方法 |
US7562811B2 (en) | 2007-01-18 | 2009-07-21 | Varcode Ltd. | System and method for improved quality management in a product logistic chain |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
CN101286094A (zh) | 2007-04-10 | 2008-10-15 | 谷歌股份有限公司 | 多模式输入法编辑器 |
EP2156369B1 (en) | 2007-05-06 | 2015-09-02 | Varcode Ltd. | A system and method for quality management utilizing barcode indicators |
WO2009016631A2 (en) | 2007-08-01 | 2009-02-05 | Ginger Software, Inc. | Automatic context sensitive language correction and enhancement using an internet corpus |
US8500014B2 (en) | 2007-11-14 | 2013-08-06 | Varcode Ltd. | System and method for quality management utilizing barcode indicators |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20110086331A1 (en) * | 2008-04-16 | 2011-04-14 | Ginger Software, Inc. | system for teaching writing based on a users past writing |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US11704526B2 (en) | 2008-06-10 | 2023-07-18 | Varcode Ltd. | Barcoded indicators for quality management |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010021368A1 (ja) * | 2008-08-20 | 2010-02-25 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US9871916B2 (en) | 2009-03-05 | 2018-01-16 | International Business Machines Corporation | System and methods for providing voice transcription |
KR20110134909A (ko) | 2009-03-13 | 2011-12-15 | 인벤션 머신 코포레이션 | 텍스트 문서들 및 사용자 질문들의 의미적 라벨링에 기초한 질문-응답 시스템 및 방법 |
JP5244661B2 (ja) * | 2009-03-17 | 2013-07-24 | 株式会社教育測定研究所 | 文末句読点の欠落検出装置及び欠落検出プログラム |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20100332217A1 (en) * | 2009-06-29 | 2010-12-30 | Shalom Wintner | Method for text improvement via linguistic abstractions |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
EP3091535B1 (en) | 2009-12-23 | 2023-10-11 | Google LLC | Multi-modal input on an electronic device |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8977584B2 (en) | 2010-01-25 | 2015-03-10 | Newvaluexchange Global Ai Llp | Apparatuses, methods and systems for a digital conversation management platform |
CN102884518A (zh) * | 2010-02-01 | 2013-01-16 | 金格软件有限公司 | 尤其用于小键盘装置的使用互联网语料库的自动的上下文相关的语言校正 |
US8782556B2 (en) | 2010-02-12 | 2014-07-15 | Microsoft Corporation | User-centric soft keyboard predictive technologies |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
CN102193939B (zh) * | 2010-03-10 | 2016-04-06 | 阿里巴巴集团控股有限公司 | 信息导航的实现方法、信息导航服务器和信息处理系统 |
US20110239111A1 (en) * | 2010-03-24 | 2011-09-29 | Avaya Inc. | Spell checker interface |
US8788260B2 (en) * | 2010-05-11 | 2014-07-22 | Microsoft Corporation | Generating snippets based on content features |
US9208147B1 (en) | 2011-01-07 | 2015-12-08 | Narrative Science Inc. | Method and apparatus for triggering the automatic generation of narratives |
US11989659B2 (en) | 2010-05-13 | 2024-05-21 | Salesforce, Inc. | Method and apparatus for triggering the automatic generation of narratives |
US8355903B1 (en) | 2010-05-13 | 2013-01-15 | Northwestern University | System and method for using data and angles to automatically generate a narrative story |
WO2012039686A1 (en) * | 2010-09-24 | 2012-03-29 | National University Of Singapore | Methods and systems for automated text correction |
WO2012047955A1 (en) * | 2010-10-05 | 2012-04-12 | Infraware, Inc. | Language dictation recognition systems and methods for using the same |
KR20120048140A (ko) * | 2010-11-05 | 2012-05-15 | 한국전자통신연구원 | 자동 번역 장치 및 그 방법 |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10657201B1 (en) | 2011-01-07 | 2020-05-19 | Narrative Science Inc. | Configurable and portable system for generating narratives |
US9720899B1 (en) | 2011-01-07 | 2017-08-01 | Narrative Science, Inc. | Automatic generation of narratives from data using communication goals and narrative analytics |
US10185477B1 (en) | 2013-03-15 | 2019-01-22 | Narrative Science Inc. | Method and system for configuring automatic generation of narratives from data |
US20120239381A1 (en) | 2011-03-17 | 2012-09-20 | Sap Ag | Semantic phrase suggestion engine |
US8527451B2 (en) | 2011-03-17 | 2013-09-03 | Sap Ag | Business semantic network build |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9697871B2 (en) * | 2011-03-23 | 2017-07-04 | Audible, Inc. | Synchronizing recorded audio content and companion content |
US8855797B2 (en) | 2011-03-23 | 2014-10-07 | Audible, Inc. | Managing playback of synchronized content |
US9734153B2 (en) * | 2011-03-23 | 2017-08-15 | Audible, Inc. | Managing related digital content |
US8948892B2 (en) | 2011-03-23 | 2015-02-03 | Audible, Inc. | Managing playback of synchronized content |
US9703781B2 (en) * | 2011-03-23 | 2017-07-11 | Audible, Inc. | Managing related digital content |
US8862255B2 (en) | 2011-03-23 | 2014-10-14 | Audible, Inc. | Managing playback of synchronized content |
US9697265B2 (en) * | 2011-03-23 | 2017-07-04 | Audible, Inc. | Synchronizing digital content |
US9706247B2 (en) * | 2011-03-23 | 2017-07-11 | Audible, Inc. | Synchronized digital content samples |
US9760920B2 (en) * | 2011-03-23 | 2017-09-12 | Audible, Inc. | Synchronizing digital content |
EP2511831A1 (en) * | 2011-04-14 | 2012-10-17 | James Lawley | Text processor and method of text processing |
US20120304124A1 (en) * | 2011-05-23 | 2012-11-29 | Microsoft Corporation | Context aware input engine |
US8725760B2 (en) | 2011-05-31 | 2014-05-13 | Sap Ag | Semantic terminology importer |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8712931B1 (en) * | 2011-06-29 | 2014-04-29 | Amazon Technologies, Inc. | Adaptive input interface |
US9135237B2 (en) * | 2011-07-13 | 2015-09-15 | Nuance Communications, Inc. | System and a method for generating semantically similar sentences for building a robust SLM |
US20140163969A1 (en) * | 2011-07-20 | 2014-06-12 | Tata Consultancy Services Limited | Method and system for differentiating textual information embedded in streaming news video |
US8935230B2 (en) | 2011-08-25 | 2015-01-13 | Sap Se | Self-learning semantic search engine |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US20130060560A1 (en) * | 2011-09-01 | 2013-03-07 | Google Inc. | Server-based spell checking |
CN102999483B (zh) * | 2011-09-16 | 2016-04-27 | 北京百度网讯科技有限公司 | 一种文本矫正的方法和装置 |
US8762156B2 (en) * | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
KR101522522B1 (ko) | 2011-10-26 | 2015-05-27 | 에스케이텔레콤 주식회사 | 작문 자동 평가를 위한 예제 기반 오류 검출 시스템 및 방법 |
CN102567306B (zh) * | 2011-11-07 | 2013-11-27 | 苏州大学 | 一种不同语言间词汇相似度的获取方法及系统 |
WO2013078388A1 (en) * | 2011-11-21 | 2013-05-30 | Robert Bosch Gmbh | Methods and systems for adapting grammars in hybrid speech recognition engines for enhancing local sr performance |
US9734132B1 (en) * | 2011-12-20 | 2017-08-15 | Amazon Technologies, Inc. | Alignment and reflow of displayed character images |
CN103186522B (zh) * | 2011-12-29 | 2018-01-26 | 富泰华工业(深圳)有限公司 | 电子设备及其自然语言分析方法 |
US20130173254A1 (en) * | 2011-12-31 | 2013-07-04 | Farrokh Alemi | Sentiment Analyzer |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9122673B2 (en) * | 2012-03-07 | 2015-09-01 | International Business Machines Corporation | Domain specific natural language normalization |
US9037956B2 (en) | 2012-03-29 | 2015-05-19 | Audible, Inc. | Content customization |
US8849676B2 (en) | 2012-03-29 | 2014-09-30 | Audible, Inc. | Content customization |
CN103366741B (zh) * | 2012-03-31 | 2019-05-17 | 上海果壳电子有限公司 | 语音输入纠错方法及系统 |
JP5994366B2 (ja) * | 2012-04-27 | 2016-09-21 | ソニー株式会社 | 情報処理装置、情報処理方法、並びにプログラム |
US9075760B2 (en) | 2012-05-07 | 2015-07-07 | Audible, Inc. | Narration settings distribution for content customization |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9317500B2 (en) | 2012-05-30 | 2016-04-19 | Audible, Inc. | Synchronizing translated digital content |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US8972265B1 (en) | 2012-06-18 | 2015-03-03 | Audible, Inc. | Multiple voices in audio content |
US9141257B1 (en) | 2012-06-18 | 2015-09-22 | Audible, Inc. | Selecting and conveying supplemental content |
US9536439B1 (en) | 2012-06-27 | 2017-01-03 | Audible, Inc. | Conveying questions with content |
US9679608B2 (en) | 2012-06-28 | 2017-06-13 | Audible, Inc. | Pacing content |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US8661049B2 (en) | 2012-07-09 | 2014-02-25 | ZenDesk, Inc. | Weight-based stemming for improving search quality |
US10957310B1 (en) | 2012-07-23 | 2021-03-23 | Soundhound, Inc. | Integrated programming framework for speech and text understanding with meaning parsing |
US10109278B2 (en) | 2012-08-02 | 2018-10-23 | Audible, Inc. | Aligning body matter across content formats |
US9799328B2 (en) * | 2012-08-03 | 2017-10-24 | Veveo, Inc. | Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval |
CN103678271B (zh) * | 2012-09-10 | 2016-09-14 | 华为技术有限公司 | 一种文本校正方法及用户设备 |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9292621B1 (en) * | 2012-09-12 | 2016-03-22 | Amazon Technologies, Inc. | Managing autocorrect actions |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9400848B2 (en) * | 2012-09-26 | 2016-07-26 | Google Inc. | Techniques for context-based grouping of messages for translation |
US9367196B1 (en) | 2012-09-26 | 2016-06-14 | Audible, Inc. | Conveying branched content |
US9632647B1 (en) | 2012-10-09 | 2017-04-25 | Audible, Inc. | Selecting presentation positions in dynamic content |
US8713433B1 (en) * | 2012-10-16 | 2014-04-29 | Google Inc. | Feature-based autocorrection |
US9087508B1 (en) | 2012-10-18 | 2015-07-21 | Audible, Inc. | Presenting representative content portions during content navigation |
US8807422B2 (en) | 2012-10-22 | 2014-08-19 | Varcode Ltd. | Tamper-proof quality management barcode indicators |
US9223830B1 (en) | 2012-10-26 | 2015-12-29 | Audible, Inc. | Content presentation analysis |
WO2014071330A2 (en) | 2012-11-02 | 2014-05-08 | Fido Labs Inc. | Natural language processing system and method |
CN103853702B (zh) * | 2012-12-06 | 2016-08-17 | 富士通株式会社 | 校正语料中的成语错误的装置和方法 |
KR101374900B1 (ko) * | 2012-12-13 | 2014-03-13 | 포항공과대학교 산학협력단 | 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법 |
JP6086714B2 (ja) * | 2012-12-14 | 2017-03-01 | 日本放送協会 | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
US9280906B2 (en) | 2013-02-04 | 2016-03-08 | Audible. Inc. | Prompting a user for input during a synchronous presentation of audio content and textual content |
US9472113B1 (en) | 2013-02-05 | 2016-10-18 | Audible, Inc. | Synchronizing playback of digital content with physical content |
KR102380145B1 (ko) | 2013-02-07 | 2022-03-29 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9218819B1 (en) * | 2013-03-01 | 2015-12-22 | Google Inc. | Customizing actions based on contextual data and voice-based inputs |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US9183195B2 (en) * | 2013-03-15 | 2015-11-10 | Disney Enterprises, Inc. | Autocorrecting text for the purpose of matching words from an approved corpus |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
JP6155821B2 (ja) * | 2013-05-08 | 2017-07-05 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9317486B1 (en) | 2013-06-07 | 2016-04-19 | Audible, Inc. | Synchronizing playback of digital content with captured physical content |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
US10073839B2 (en) | 2013-06-28 | 2018-09-11 | International Business Machines Corporation | Electronically based thesaurus querying documents while leveraging context sensitivity |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US9489360B2 (en) | 2013-09-05 | 2016-11-08 | Audible, Inc. | Identifying extra material in companion content |
JP2015069334A (ja) * | 2013-09-27 | 2015-04-13 | 富士通株式会社 | 文字変換プログラム、文字変換装置、及び文字変換方法 |
US8831969B1 (en) * | 2013-10-02 | 2014-09-09 | Linkedin Corporation | System and method for determining users working for the same employers in a social network |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9037967B1 (en) * | 2014-02-18 | 2015-05-19 | King Fahd University Of Petroleum And Minerals | Arabic spell checking technique |
US11295730B1 (en) | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
CN105095826B (zh) * | 2014-04-17 | 2019-10-01 | 阿里巴巴集团控股有限公司 | 一种文字识别方法及装置 |
US9959296B1 (en) | 2014-05-12 | 2018-05-01 | Google Llc | Providing suggestions within a document |
US9607032B2 (en) | 2014-05-12 | 2017-03-28 | Google Inc. | Updating text within a document |
US9881010B1 (en) | 2014-05-12 | 2018-01-30 | Google Inc. | Suggestions based on document topics |
US9251141B1 (en) | 2014-05-12 | 2016-02-02 | Google Inc. | Entity identification model training |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
RU2639684C2 (ru) * | 2014-08-29 | 2017-12-21 | Общество С Ограниченной Ответственностью "Яндекс" | Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты) |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US20160110327A1 (en) * | 2014-10-20 | 2016-04-21 | Lenovo (Singapore) Pte. Ltd. | Text correction based on context |
US11288328B2 (en) | 2014-10-22 | 2022-03-29 | Narrative Science Inc. | Interactive and conversational data exploration |
US11922344B2 (en) | 2014-10-22 | 2024-03-05 | Narrative Science Llc | Automatic generation of narratives from data using communication goals and narrative analytics |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
KR102380833B1 (ko) * | 2014-12-02 | 2022-03-31 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10140293B2 (en) * | 2015-05-18 | 2018-11-27 | Google Llc | Coordinated user word selection for translation and obtaining of contextual information for the selected word |
WO2016185474A1 (en) | 2015-05-18 | 2016-11-24 | Varcode Ltd. | Thermochromic ink indicia for activatable quality labels |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
JP6648421B2 (ja) * | 2015-06-09 | 2020-02-14 | 富士通株式会社 | 文書を処理する情報処理装置、情報処理方法、およびプログラム |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
CN107709946B (zh) | 2015-07-07 | 2022-05-10 | 发可有限公司 | 电子质量标志 |
US9753915B2 (en) | 2015-08-06 | 2017-09-05 | Disney Enterprises, Inc. | Linguistic analysis and correction |
US10565351B2 (en) * | 2015-08-24 | 2020-02-18 | 3M Innovative Properties Company | Analysis and rule generation of medical documents |
US10255270B2 (en) | 2015-08-28 | 2019-04-09 | Freedom Solutions Group, Llc | Automated document analysis comprising company name recognition |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11727198B2 (en) | 2016-02-01 | 2023-08-15 | Microsoft Technology Licensing, Llc | Enterprise writing assistance |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9818405B2 (en) * | 2016-03-15 | 2017-11-14 | SAESTEK Ses ve Iletisim Bilgisayar Tekn. San. Ve Tic. A.S. | Dialog management system |
CN107291683A (zh) * | 2016-04-11 | 2017-10-24 | 珠海金山办公软件有限公司 | 一种拼写检查方法及装置 |
CN105912712B (zh) * | 2016-04-29 | 2019-09-17 | 华南师范大学 | 基于大数据的机器人对话控制方法和系统 |
CN105893626A (zh) * | 2016-05-10 | 2016-08-24 | 中广核工程有限公司 | 一种用于核电工程的索引库创建方法及其采用其方法的索引系统 |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
CN107515877B (zh) * | 2016-06-16 | 2021-07-20 | 百度在线网络技术(北京)有限公司 | 敏感主题词集的生成方法和装置 |
CN107767195A (zh) * | 2016-08-16 | 2018-03-06 | 阿里巴巴集团控股有限公司 | 描述信息的展示系统和展示、生成方法及电子设备 |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10366302B2 (en) | 2016-10-10 | 2019-07-30 | Gyrfalcon Technology Inc. | Hierarchical category classification scheme using multiple sets of fully-connected networks with a CNN based integrated circuit as feature extractor |
US10360470B2 (en) | 2016-10-10 | 2019-07-23 | Gyrfalcon Technology Inc. | Implementation of MobileNet in a CNN based digital integrated circuit |
US10339445B2 (en) | 2016-10-10 | 2019-07-02 | Gyrfalcon Technology Inc. | Implementation of ResNet in a CNN based digital integrated circuit |
US10366328B2 (en) | 2017-09-19 | 2019-07-30 | Gyrfalcon Technology Inc. | Approximating fully-connected layers with multiple arrays of 3x3 convolutional filter kernels in a CNN based integrated circuit |
US10083171B1 (en) * | 2017-08-03 | 2018-09-25 | Gyrfalcon Technology Inc. | Natural language processing using a CNN based integrated circuit |
US10102453B1 (en) * | 2017-08-03 | 2018-10-16 | Gyrfalcon Technology Inc. | Natural language processing via a two-dimensional symbol having multiple ideograms contained therein |
WO2018085757A1 (en) * | 2016-11-07 | 2018-05-11 | Equifax, Inc. | Data processing systems and methods for efficiently transforming entity descriptors in textual data |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10559309B2 (en) * | 2016-12-22 | 2020-02-11 | Google Llc | Collaborative voice controlled devices |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10713442B1 (en) | 2017-02-17 | 2020-07-14 | Narrative Science Inc. | Applied artificial intelligence technology for interactive story editing to support natural language generation (NLG) |
US11954445B2 (en) | 2017-02-17 | 2024-04-09 | Narrative Science Llc | Applied artificial intelligence technology for narrative generation based on explanation communication goals |
US11568148B1 (en) | 2017-02-17 | 2023-01-31 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation based on explanation communication goals |
CN106847288B (zh) * | 2017-02-17 | 2020-12-25 | 上海创米科技有限公司 | 语音识别文本的纠错方法与装置 |
US10268674B2 (en) * | 2017-04-10 | 2019-04-23 | Dell Products L.P. | Linguistic intelligence using language validator |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10789410B1 (en) * | 2017-06-26 | 2020-09-29 | Amazon Technologies, Inc. | Identification of source languages for terms |
KR20190004525A (ko) * | 2017-07-04 | 2019-01-14 | 주식회사 마인즈랩 | 문장 학습 시스템 및 문장 학습 방법 |
US11263399B2 (en) | 2017-07-31 | 2022-03-01 | Apple Inc. | Correcting input based on user context |
US10275646B2 (en) | 2017-08-03 | 2019-04-30 | Gyrfalcon Technology Inc. | Motion recognition via a two-dimensional symbol having multiple ideograms contained therein |
US10192148B1 (en) * | 2017-08-22 | 2019-01-29 | Gyrfalcon Technology Inc. | Machine learning of written Latin-alphabet based languages via super-character |
GB201713728D0 (en) * | 2017-08-25 | 2017-10-11 | Just Eat Holding Ltd | System and method of language processing |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
KR102102388B1 (ko) * | 2017-11-20 | 2020-04-21 | 주식회사 마인즈랩 | 학습 문장 생성 시스템 및 이를 이용한 유사 문장 생성 방법 |
US11423208B1 (en) * | 2017-11-29 | 2022-08-23 | Amazon Technologies, Inc. | Text encoding issue detection |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
KR102424514B1 (ko) * | 2017-12-04 | 2022-07-25 | 삼성전자주식회사 | 언어 처리 방법 및 장치 |
US10942954B2 (en) * | 2017-12-22 | 2021-03-09 | International Business Machines Corporation | Dataset adaptation for high-performance in specific natural language processing tasks |
US11042709B1 (en) | 2018-01-02 | 2021-06-22 | Narrative Science Inc. | Context saliency-based deictic parser for natural language processing |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US11023689B1 (en) | 2018-01-17 | 2021-06-01 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation using an invocable analysis service with analysis libraries |
US11625630B2 (en) | 2018-01-26 | 2023-04-11 | International Business Machines Corporation | Identifying intent in dialog data through variant assessment |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US11030408B1 (en) | 2018-02-19 | 2021-06-08 | Narrative Science Inc. | Applied artificial intelligence technology for conversational inferencing using named entity reduction |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10956670B2 (en) | 2018-03-03 | 2021-03-23 | Samurai Labs Sp. Z O.O. | System and method for detecting undesirable and potentially harmful online behavior |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
CN108595431B (zh) * | 2018-04-28 | 2020-09-25 | 海信集团有限公司 | 语音交互文本纠错方法、装置、终端及存储介质 |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US20190385711A1 (en) | 2018-06-19 | 2019-12-19 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
JP2021529382A (ja) | 2018-06-19 | 2021-10-28 | エリプシス・ヘルス・インコーポレイテッド | 精神的健康評価のためのシステム及び方法 |
US11334726B1 (en) | 2018-06-28 | 2022-05-17 | Narrative Science Inc. | Applied artificial intelligence technology for using natural language processing to train a natural language generation system with respect to date and number textual features |
US10417342B1 (en) | 2018-07-03 | 2019-09-17 | Gyrfalcon Technology Inc. | Deep learning device for local processing classical chinese poetry and verse |
US10311149B1 (en) * | 2018-08-08 | 2019-06-04 | Gyrfalcon Technology Inc. | Natural language translation device |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
JP7243106B2 (ja) * | 2018-09-27 | 2023-03-22 | 富士通株式会社 | 修正候補提示方法、修正候補提示プログラムおよび情報処理装置 |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
GB2577879B (en) | 2018-10-08 | 2022-08-24 | B & W Group Ltd | Content playback system |
US10387772B1 (en) | 2018-10-22 | 2019-08-20 | Gyrfalcon Technology Inc. | Ensemble learning based image classification systems |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
CN109614499B (zh) * | 2018-11-22 | 2023-02-17 | 创新先进技术有限公司 | 一种词典生成方法、新词发现方法、装置及电子设备 |
GB2579554A (en) * | 2018-12-03 | 2020-07-01 | Audiogum Uk Ltd | Content playback system |
US10331967B1 (en) * | 2018-12-05 | 2019-06-25 | Gyrfalcon Technology Inc. | Machine learning via a two-dimensional symbol |
CN109614621B (zh) * | 2018-12-11 | 2023-09-19 | 中国移动通信集团江苏有限公司 | 一种校正文本的方法、装置及设备 |
US10909973B2 (en) * | 2019-01-04 | 2021-02-02 | International Business Machines Corporation | Intelligent facilitation of communications |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11341330B1 (en) | 2019-01-28 | 2022-05-24 | Narrative Science Inc. | Applied artificial intelligence technology for adaptive natural language understanding with term discovery |
US11151317B1 (en) * | 2019-01-29 | 2021-10-19 | Amazon Technologies, Inc. | Contextual spelling correction system |
US11392853B2 (en) | 2019-02-27 | 2022-07-19 | Capital One Services, Llc | Methods and arrangements to adjust communications |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN111859946B (zh) * | 2019-04-22 | 2023-09-29 | 百度在线网络技术(北京)有限公司 | 对评论进行排序的方法和装置及机器可读存储介质 |
US11281911B2 (en) | 2019-04-27 | 2022-03-22 | Gyrfalcon Technology Inc. | 2-D graphical symbols for representing semantic meaning of a video clip |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US10713830B1 (en) | 2019-05-13 | 2020-07-14 | Gyrfalcon Technology Inc. | Artificial intelligence based image caption creation systems and methods thereof |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11526723B2 (en) | 2019-07-09 | 2022-12-13 | Gyrfalcon Technology Inc. | Apparatus and methods of obtaining multi-scale feature vector using CNN based integrated circuits |
CN110309289B (zh) * | 2019-08-23 | 2019-12-06 | 深圳市优必选科技股份有限公司 | 一种句子生成方法、句子生成装置及智能设备 |
CN110503958A (zh) * | 2019-08-30 | 2019-11-26 | 厦门快商通科技股份有限公司 | 语音识别方法、系统、移动终端及存储介质 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11301626B2 (en) | 2019-11-11 | 2022-04-12 | International Business Machines Corporation | Artificial intelligence based context dependent spellchecking |
US20210182663A1 (en) * | 2019-12-17 | 2021-06-17 | Sony Interactive Entertainment LLC | Methods and systems for defining emotional machines |
EP4080399A4 (en) * | 2019-12-18 | 2022-11-23 | Fujitsu Limited | INFORMATION PROCESSING PROGRAM, INFORMATION PROCESSING METHOD AND INFORMATION PROCESSING DEVICE |
US12118303B2 (en) | 2020-11-30 | 2024-10-15 | Tata Consultancy Services Limited | Method and system for text cleaning |
CN112966479A (zh) | 2021-03-02 | 2021-06-15 | 北京彩彻区明科技有限公司 | 基于语言模型的辅助写作方法、装置和系统 |
CN115293154A (zh) * | 2021-07-30 | 2022-11-04 | 苏州七星天专利运营管理有限责任公司 | 一种基于文本检索的词汇扩展方法和系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1460948A (zh) * | 2002-05-22 | 2003-12-10 | 夏普株式会社 | 修改或改进词语使用的方法和装置 |
Family Cites Families (135)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4674065A (en) | 1982-04-30 | 1987-06-16 | International Business Machines Corporation | System for detecting and correcting contextual errors in a text processing system |
JPH0778165B2 (ja) | 1986-06-27 | 1995-08-23 | 東芝ケミカル株式会社 | 成形用耐熱性樹脂組成物 |
US5146405A (en) | 1988-02-05 | 1992-09-08 | At&T Bell Laboratories | Methods for part-of-speech determination and usage |
US5258909A (en) * | 1989-08-31 | 1993-11-02 | International Business Machines Corporation | Method and apparatus for "wrong word" spelling error detection and correction |
US5369577A (en) * | 1991-02-01 | 1994-11-29 | Wang Laboratories, Inc. | Text searching system |
SE513456C2 (sv) | 1994-05-10 | 2000-09-18 | Telia Ab | Metod och anordning vid tal- till textomvandling |
US5485372A (en) * | 1994-06-01 | 1996-01-16 | Mitsubishi Electric Research Laboratories, Inc. | System for underlying spelling recovery |
JPH07325825A (ja) * | 1994-06-01 | 1995-12-12 | Mitsubishi Electric Corp | 英文法チェックシステム装置 |
JP3260979B2 (ja) * | 1994-07-15 | 2002-02-25 | 株式会社リコー | 文字認識方法 |
US5617488A (en) * | 1995-02-01 | 1997-04-01 | The Research Foundation Of State University Of New York | Relaxation word recognizer |
US5659771A (en) | 1995-05-19 | 1997-08-19 | Mitsubishi Electric Information Technology Center America, Inc. | System for spelling correction in which the context of a target word in a sentence is utilized to determine which of several possible words was intended |
US5828991A (en) * | 1995-06-30 | 1998-10-27 | The Research Foundation Of The State University Of New York | Sentence reconstruction using word ambiguity resolution |
US6006221A (en) * | 1995-08-16 | 1999-12-21 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
US5822728A (en) * | 1995-09-08 | 1998-10-13 | Matsushita Electric Industrial Co., Ltd. | Multistage word recognizer based on reliably detected phoneme similarity regions |
US6173261B1 (en) * | 1998-09-30 | 2001-01-09 | At&T Corp | Grammar fragment acquisition using syntactic and semantic clustering |
WO1997017694A1 (en) * | 1995-11-04 | 1997-05-15 | International Business Machines Corporation | Method and apparatus for adapting the language model's size in a speech recognition system |
US6098034A (en) * | 1996-03-18 | 2000-08-01 | Expert Ease Development, Ltd. | Method for standardizing phrasing in a document |
US6085206A (en) | 1996-06-20 | 2000-07-04 | Microsoft Corporation | Method and system for verifying accuracy of spelling and grammatical composition of a document |
US5956739A (en) | 1996-06-25 | 1999-09-21 | Mitsubishi Electric Information Technology Center America, Inc. | System for text correction adaptive to the text being corrected |
US5907839A (en) | 1996-07-03 | 1999-05-25 | Yeda Reseach And Development, Co., Ltd. | Algorithm for context sensitive spelling correction |
US6181909B1 (en) | 1997-07-22 | 2001-01-30 | Educational Testing Service | System and method for computer-based automatic essay scoring |
US6154722A (en) * | 1997-12-18 | 2000-11-28 | Apple Computer, Inc. | Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability |
US6424983B1 (en) | 1998-05-26 | 2002-07-23 | Global Information Research And Technologies, Llc | Spelling and grammar checking system |
US7072826B1 (en) | 1998-06-04 | 2006-07-04 | Matsushita Electric Industrial Co., Ltd. | Language conversion rule preparing device, language conversion device and program recording medium |
DE19842404A1 (de) * | 1998-09-16 | 2000-03-23 | Philips Corp Intellectual Pty | Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente |
DE69909806T2 (de) * | 1998-09-30 | 2004-01-22 | Lernout & Hauspie Speech Products N.V. | Graphische Benutzerschnittstelle zur Navigation in Grammatiken eines Spracherkennungssystems |
US6317707B1 (en) * | 1998-12-07 | 2001-11-13 | At&T Corp. | Automatic clustering of tokens from a corpus for grammar acquisition |
KR100723738B1 (ko) * | 1999-05-27 | 2007-05-30 | 에이오엘 엘엘씨 | 자동 교정 기능을 갖는 키보드 시스템 |
US7030863B2 (en) * | 2000-05-26 | 2006-04-18 | America Online, Incorporated | Virtual keyboard system with automatic correction |
AU5451800A (en) * | 1999-05-28 | 2000-12-18 | Sehda, Inc. | Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces |
US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
US6848080B1 (en) | 1999-11-05 | 2005-01-25 | Microsoft Corporation | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
US7165019B1 (en) * | 1999-11-05 | 2007-01-16 | Microsoft Corporation | Language input architecture for converting one text form to another text form with modeless entry |
US6862566B2 (en) * | 2000-03-10 | 2005-03-01 | Matushita Electric Industrial Co., Ltd. | Method and apparatus for converting an expression using key words |
US7107204B1 (en) * | 2000-04-24 | 2006-09-12 | Microsoft Corporation | Computer-aided writing system and method with cross-language writing wizard |
US7035788B1 (en) * | 2000-04-25 | 2006-04-25 | Microsoft Corporation | Language model sharing |
US7149970B1 (en) * | 2000-06-23 | 2006-12-12 | Microsoft Corporation | Method and system for filtering and selecting from a candidate list generated by a stochastic input method |
DE10124429B4 (de) | 2000-07-07 | 2008-11-27 | International Business Machines Corp. | System und Verfahren für eine verbesserte Rechtschreibprüfung |
TW472232B (en) * | 2000-08-11 | 2002-01-11 | Ind Tech Res Inst | Probability-base fault-tolerance natural language understanding method |
JP3396734B2 (ja) * | 2000-09-14 | 2003-04-14 | 独立行政法人通信総合研究所 | コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体 |
US6885985B2 (en) * | 2000-12-18 | 2005-04-26 | Xerox Corporation | Terminology translation for unaligned comparable corpora using category based translation probabilities |
US7254773B2 (en) * | 2000-12-29 | 2007-08-07 | International Business Machines Corporation | Automated spell analysis |
CN100568222C (zh) * | 2001-01-31 | 2009-12-09 | 微软公司 | 歧义消除语言模型 |
US7269545B2 (en) * | 2001-03-30 | 2007-09-11 | Nec Laboratories America, Inc. | Method for retrieving answers from an information retrieval system |
US7117144B2 (en) * | 2001-03-31 | 2006-10-03 | Microsoft Corporation | Spell checking for text input via reduced keypad keys |
FR2824978B1 (fr) | 2001-05-15 | 2003-09-19 | Wavecom Sa | Dispositif et procede de traitement d'un signal audio |
CN1391180A (zh) * | 2001-06-11 | 2003-01-15 | 国际商业机器公司 | 外语写作辅助方法和辅助工具 |
GB2376335B (en) * | 2001-06-28 | 2003-07-23 | Vox Generation Ltd | Address recognition using an automatic speech recogniser |
US7295965B2 (en) * | 2001-06-29 | 2007-11-13 | Honeywell International Inc. | Method and apparatus for determining a measure of similarity between natural language sentences |
US7003444B2 (en) * | 2001-07-12 | 2006-02-21 | Microsoft Corporation | Method and apparatus for improved grammar checking using a stochastic parser |
US7296019B1 (en) | 2001-10-23 | 2007-11-13 | Microsoft Corporation | System and methods for providing runtime spelling analysis and correction |
NO316480B1 (no) | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
US6952691B2 (en) * | 2002-02-01 | 2005-10-04 | International Business Machines Corporation | Method and system for searching a multi-lingual database |
AU2003267953A1 (en) * | 2002-03-26 | 2003-12-22 | University Of Southern California | Statistical machine translation using a large monlingual corpus |
US20030187632A1 (en) * | 2002-04-02 | 2003-10-02 | Menich Barry J. | Multimedia conferencing system |
US7020338B1 (en) * | 2002-04-08 | 2006-03-28 | The United States Of America As Represented By The National Security Agency | Method of identifying script of line of text |
US20030204569A1 (en) | 2002-04-29 | 2003-10-30 | Michael R. Andrews | Method and apparatus for filtering e-mail infected with a previously unidentified computer virus |
US20030210249A1 (en) | 2002-05-08 | 2003-11-13 | Simske Steven J. | System and method of automatic data checking and correction |
US20040002849A1 (en) * | 2002-06-28 | 2004-01-01 | Ming Zhou | System and method for automatic retrieval of example sentences based upon weighted editing distance |
US7386442B2 (en) | 2002-07-03 | 2008-06-10 | Word Data Corp. | Code, system and method for representing a natural-language text in a form suitable for text manipulation |
US20040030540A1 (en) * | 2002-08-07 | 2004-02-12 | Joel Ovil | Method and apparatus for language processing |
US7293015B2 (en) * | 2002-09-19 | 2007-11-06 | Microsoft Corporation | Method and system for detecting user intentions in retrieval of hint sentences |
EP1556854B1 (en) * | 2002-09-27 | 2011-05-04 | Callminer, Inc. | Method for statistical analysis of speech |
US7542908B2 (en) * | 2002-10-18 | 2009-06-02 | Xerox Corporation | System for learning a language |
US7092567B2 (en) * | 2002-11-04 | 2006-08-15 | Matsushita Electric Industrial Co., Ltd. | Post-processing system and method for correcting machine recognized text |
FR2848688A1 (fr) * | 2002-12-17 | 2004-06-18 | France Telecom | Identification de langue d'un texte |
US7346487B2 (en) * | 2003-07-23 | 2008-03-18 | Microsoft Corporation | Method and apparatus for identifying translations |
US20050043940A1 (en) | 2003-08-20 | 2005-02-24 | Marvin Elder | Preparing a data source for a natural language query |
US7475015B2 (en) * | 2003-09-05 | 2009-01-06 | International Business Machines Corporation | Semantic language modeling and confidence measurement |
US20050053900A1 (en) | 2003-09-05 | 2005-03-10 | Steven Kaufmann | Method of teaching a foreign language to a student providing measurement in a context based learning system |
US20050120002A1 (en) | 2003-10-02 | 2005-06-02 | Hassan Behbehani | Automated text generation process |
US7447627B2 (en) | 2003-10-23 | 2008-11-04 | Microsoft Corporation | Compound word breaker and spell checker |
US7720675B2 (en) * | 2003-10-27 | 2010-05-18 | Educational Testing Service | Method and system for determining text coherence |
US7412385B2 (en) * | 2003-11-12 | 2008-08-12 | Microsoft Corporation | System for identifying paraphrases using machine translation |
US7813916B2 (en) * | 2003-11-18 | 2010-10-12 | University Of Utah | Acquisition and application of contextual role knowledge for coreference resolution |
JP4584148B2 (ja) | 2003-11-28 | 2010-11-17 | 株式会社言葉の森 | 作文小論文の評価採点装置 |
US7254774B2 (en) | 2004-03-16 | 2007-08-07 | Microsoft Corporation | Systems and methods for improved spell checking |
US7478033B2 (en) * | 2004-03-16 | 2009-01-13 | Google Inc. | Systems and methods for translating Chinese pinyin to Chinese characters |
US7779354B2 (en) * | 2004-05-13 | 2010-08-17 | International Business Machines Corporation | Method and data processing system for recognizing and correcting dyslexia-related spelling errors |
US20060003297A1 (en) | 2004-06-16 | 2006-01-05 | Elisabeth Wiig | Language disorder assessment and associated methods |
US8321786B2 (en) * | 2004-06-17 | 2012-11-27 | Apple Inc. | Routine and interface for correcting electronic text |
US20070016401A1 (en) * | 2004-08-12 | 2007-01-18 | Farzad Ehsani | Speech-to-speech translation system with user-modifiable paraphrasing grammars |
CA2577075C (en) * | 2004-08-13 | 2014-10-07 | 5 Examples, Inc. | The one-row keyboard and approximate typing |
US20060048055A1 (en) * | 2004-08-25 | 2006-03-02 | Jun Wu | Fault-tolerant romanized input method for non-roman characters |
US7392187B2 (en) * | 2004-09-20 | 2008-06-24 | Educational Testing Service | Method and system for the automatic generation of speech features for scoring high entropy speech |
US7401293B2 (en) | 2004-11-19 | 2008-07-15 | Spelldoctor, Llc | System and method for teaching spelling |
AU2005327096A1 (en) * | 2004-12-01 | 2006-08-17 | Whitesmoke, Inc. | System and method for automatic enrichment of documents |
US7457808B2 (en) * | 2004-12-17 | 2008-11-25 | Xerox Corporation | Method and apparatus for explaining categorization decisions |
US7630980B2 (en) * | 2005-01-21 | 2009-12-08 | Prashant Parikh | Automatic dynamic contextual data entry completion system |
US7805300B2 (en) * | 2005-03-21 | 2010-09-28 | At&T Intellectual Property Ii, L.P. | Apparatus and method for analysis of language model changes |
US7584093B2 (en) * | 2005-04-25 | 2009-09-01 | Microsoft Corporation | Method and system for generating spelling suggestions |
US8131746B2 (en) | 2005-06-23 | 2012-03-06 | International Business Machines Corporation | Dynamic language checking |
US8433711B2 (en) * | 2005-09-09 | 2013-04-30 | Kang Jo Mgmt. Limited Liability Company | System and method for networked decision making support |
JP4087400B2 (ja) * | 2005-09-15 | 2008-05-21 | 株式会社東芝 | 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム |
CN100533431C (zh) * | 2005-09-21 | 2009-08-26 | 富士通株式会社 | 一种基于语素标注的自然语言成分识别、校正装置及方法 |
US7908132B2 (en) * | 2005-09-29 | 2011-03-15 | Microsoft Corporation | Writing assistance using machine translation techniques |
US20070094024A1 (en) * | 2005-10-22 | 2007-04-26 | International Business Machines Corporation | System and method for improving text input in a shorthand-on-keyboard interface |
JP2007122509A (ja) * | 2005-10-28 | 2007-05-17 | Rozetta Corp | 語句配列の自然度判定装置、方法及びプログラム |
US7747427B2 (en) * | 2005-12-05 | 2010-06-29 | Electronics And Telecommunications Research Institute | Apparatus and method for automatic translation customized for documents in restrictive domain |
US8126700B2 (en) * | 2006-03-29 | 2012-02-28 | International Business Machines Corporation | Computer-assisted comprehension of texts |
US8608477B2 (en) | 2006-04-06 | 2013-12-17 | Vantage Technologies Knowledge Assessment, L.L.C. | Selective writing assessment with tutoring |
US20070265831A1 (en) | 2006-05-09 | 2007-11-15 | Itai Dinur | System-Level Correction Service |
US7558725B2 (en) * | 2006-05-23 | 2009-07-07 | Lexisnexis, A Division Of Reed Elsevier Inc. | Method and apparatus for multilingual spelling corrections |
US8271266B2 (en) * | 2006-08-31 | 2012-09-18 | Waggner Edstrom Worldwide, Inc. | Media content assessment and control systems |
US7689408B2 (en) * | 2006-09-01 | 2010-03-30 | Microsoft Corporation | Identifying language of origin for words using estimates of normalized appearance frequency |
US8626486B2 (en) * | 2006-09-05 | 2014-01-07 | Google Inc. | Automatic spelling correction for machine translation |
US20100050074A1 (en) | 2006-10-30 | 2010-02-25 | Cellesense Technologies Ltd. | Context sensitive, error correction of short text messages |
US7590626B2 (en) * | 2006-10-30 | 2009-09-15 | Microsoft Corporation | Distributional similarity-based models for query correction |
US7702680B2 (en) * | 2006-11-02 | 2010-04-20 | Microsoft Corporation | Document summarization by maximizing informative content words |
US20080154600A1 (en) * | 2006-12-21 | 2008-06-26 | Nokia Corporation | System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition |
EP1936606B1 (en) * | 2006-12-21 | 2011-10-05 | Harman Becker Automotive Systems GmbH | Multi-stage speech recognition |
US7957955B2 (en) * | 2007-01-05 | 2011-06-07 | Apple Inc. | Method and system for providing word recommendations for text input |
US9465791B2 (en) * | 2007-02-09 | 2016-10-11 | International Business Machines Corporation | Method and apparatus for automatic detection of spelling errors in one or more documents |
US7991609B2 (en) * | 2007-02-28 | 2011-08-02 | Microsoft Corporation | Web-based proofing and usage guidance |
US8005664B2 (en) * | 2007-04-30 | 2011-08-23 | Tachyon Technologies Pvt. Ltd. | System, method to generate transliteration and method for generating decision tree to obtain transliteration |
WO2009016631A2 (en) | 2007-08-01 | 2009-02-05 | Ginger Software, Inc. | Automatic context sensitive language correction and enhancement using an internet corpus |
US7917355B2 (en) * | 2007-08-23 | 2011-03-29 | Google Inc. | Word detection |
US20120239834A1 (en) * | 2007-08-31 | 2012-09-20 | Google Inc. | Automatic correction of user input using transliteration |
US8341520B2 (en) | 2007-09-24 | 2012-12-25 | Ghotit Ltd. | Method and system for spell checking |
US8176419B2 (en) * | 2007-12-19 | 2012-05-08 | Microsoft Corporation | Self learning contextual spell corrector |
US8232973B2 (en) * | 2008-01-09 | 2012-07-31 | Apple Inc. | Method, device, and graphical user interface providing word recommendations for text input |
US20090198671A1 (en) * | 2008-02-05 | 2009-08-06 | Yahoo! Inc. | System and method for generating subphrase queries |
US8706474B2 (en) * | 2008-02-23 | 2014-04-22 | Fair Isaac Corporation | Translation of entity names based on source document publication date, and frequency and co-occurrence of the entity names |
US8521516B2 (en) * | 2008-03-26 | 2013-08-27 | Google Inc. | Linguistic key normalization |
KR101491581B1 (ko) | 2008-04-07 | 2015-02-24 | 삼성전자주식회사 | 철자 오류 보정 시스템 및 방법 |
US20110086331A1 (en) | 2008-04-16 | 2011-04-14 | Ginger Software, Inc. | system for teaching writing based on a users past writing |
WO2009130692A2 (en) | 2008-04-22 | 2009-10-29 | Robert Iakobashvili | Method and system for user-interactive iterative spell checking |
US8473278B2 (en) * | 2008-07-24 | 2013-06-25 | Educational Testing Service | Systems and methods for identifying collocation errors in text |
JP5584212B2 (ja) | 2008-07-31 | 2014-09-03 | ジンジャー ソフトウェア、インコーポレイティッド | インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善 |
US8219905B2 (en) | 2008-11-17 | 2012-07-10 | International Business Machines Corporation | Automatically detecting keyboard layout in order to improve the quality of spelling suggestions |
US8868402B2 (en) * | 2009-12-30 | 2014-10-21 | Google Inc. | Construction of text classifiers |
CN102884518A (zh) | 2010-02-01 | 2013-01-16 | 金格软件有限公司 | 尤其用于小键盘装置的使用互联网语料库的自动的上下文相关的语言校正 |
US8838453B2 (en) * | 2010-08-31 | 2014-09-16 | Red Hat, Inc. | Interactive input method |
US9053095B2 (en) * | 2010-10-31 | 2015-06-09 | Speech Morphing, Inc. | Speech morphing communication system |
US8484218B2 (en) * | 2011-04-21 | 2013-07-09 | Google Inc. | Translating keywords from a source language to a target language |
-
2008
- 2008-07-31 WO PCT/IL2008/001051 patent/WO2009016631A2/en active Application Filing
- 2008-07-31 CN CN200880101405.7A patent/CN101802812B/zh active Active
- 2008-07-31 CN CN201510351019.5A patent/CN105045777A/zh active Pending
- 2008-07-31 US US12/669,175 patent/US8914278B2/en active Active
- 2008-07-31 EP EP08789727A patent/EP2183685A4/en not_active Withdrawn
- 2008-07-31 JP JP2010518809A patent/JP5638948B2/ja not_active Expired - Fee Related
- 2008-07-31 CA CA2694327A patent/CA2694327A1/en not_active Abandoned
-
2009
- 2009-02-04 CN CN200980138185.XA patent/CN102165435B/zh not_active Expired - Fee Related
- 2009-02-04 CA CA2731899A patent/CA2731899C/en not_active Expired - Fee Related
- 2009-02-04 US US13/056,563 patent/US8645124B2/en active Active
-
2013
- 2013-12-30 US US14/143,827 patent/US9026432B2/en active Active
-
2014
- 2014-10-23 JP JP2014216025A patent/JP2015057716A/ja not_active Withdrawn
- 2014-11-03 US US14/531,947 patent/US20150142422A1/en not_active Abandoned
-
2015
- 2015-03-16 US US14/658,468 patent/US20150186336A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1460948A (zh) * | 2002-05-22 | 2003-12-10 | 夏普株式会社 | 修改或改进词语使用的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CA2731899C (en) | 2016-10-25 |
JP2010535377A (ja) | 2010-11-18 |
US20150142422A1 (en) | 2015-05-21 |
US20110184720A1 (en) | 2011-07-28 |
CN105045777A (zh) | 2015-11-11 |
CN102165435B (zh) | 2014-12-24 |
WO2009016631A2 (en) | 2009-02-05 |
CN102165435A (zh) | 2011-08-24 |
US20100286979A1 (en) | 2010-11-11 |
CA2731899A1 (en) | 2010-02-04 |
US9026432B2 (en) | 2015-05-05 |
EP2183685A2 (en) | 2010-05-12 |
EP2183685A4 (en) | 2012-08-08 |
WO2009016631A3 (en) | 2010-03-04 |
US8914278B2 (en) | 2014-12-16 |
US8645124B2 (en) | 2014-02-04 |
JP5638948B2 (ja) | 2014-12-10 |
US20140122062A1 (en) | 2014-05-01 |
CN101802812A (zh) | 2010-08-11 |
JP2015057716A (ja) | 2015-03-26 |
US20150186336A1 (en) | 2015-07-02 |
CA2694327A1 (en) | 2009-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101802812B (zh) | 使用互联网语料库的自动的上下文相关的语言校正和增强 | |
JP5584212B2 (ja) | インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善 | |
CN102884518A (zh) | 尤其用于小键盘装置的使用互联网语料库的自动的上下文相关的语言校正 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
Abdul-Mageed | Modeling Arabic subjectivity and sentiment in lexical space | |
CN108920455A (zh) | 一种汉语自动生成文本的自动评价方法 | |
CN103608805B (zh) | 辞典产生装置及方法 | |
Eskander et al. | Creating resources for Dialectal Arabic from a single annotation: A case study on Egyptian and Levantine | |
CN112860781A (zh) | 一种词汇搭配提取和语义分类相结合的挖掘和展示方法 | |
Dekker et al. | Synthetic Data for English Lexical Normalization: How Close Can We Get to Manually Annotated Data? | |
Nielsen | A corpus-based study of verb phrase ellipsis identification and resolution | |
Theijssen et al. | On the difficulty of making concreteness concrete | |
JP2005115628A (ja) | 定型表現を用いた文書分類装置・方法・プログラム | |
Ihalainen | A source of data for the study of English dialectal syntax: The Helsinki corpus | |
Stehouwer | Statistical language models for alternative sequence selection | |
Kotait | Richness Lost in Machine Translationese | |
Battisti | Automatic Cluster Analysis of Texts in Simplified German | |
Alsaad | Enhanced root extraction and document classification algorithm for Arabic text | |
Teshome | Design of Anaphora Resolution for Afaan Oromo Personal Pronoun | |
Zhao et al. | Automatic Recognition and Extraction of English Verb Types Based on Index Line Clustering | |
Andonov et al. | A framework for sentiment analysis of financial news–using heuristics-based classifier | |
Wu et al. | Supporting Asynchronous Discussion Text Analysis with an Automatic Coding Approach | |
Kaneko et al. | An Abstract Generation System for Social Scientific Papers | |
Faulhaber | Enhancing hypernym extraction for named entities using machine learning based classification | |
Menzel | Identifying English gerunds and their translation equivalents in an English-German translation corpus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |