CN108280065B - 一种外文文本评价方法及装置 - Google Patents
一种外文文本评价方法及装置 Download PDFInfo
- Publication number
- CN108280065B CN108280065B CN201710006544.2A CN201710006544A CN108280065B CN 108280065 B CN108280065 B CN 108280065B CN 201710006544 A CN201710006544 A CN 201710006544A CN 108280065 B CN108280065 B CN 108280065B
- Authority
- CN
- China
- Prior art keywords
- evaluation
- sentence
- paragraph
- foreign language
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种外文文本评价方法及装置,其中方法包括:获取待评价的外文文本数据;提取所述外文文本数据的评价特征,其中所述评价特征包括单词评价特征、句子评价特征、段落评价特征;根据所述外文文本数据的评价特征及预先构建的外文文本评价模型,获取所述外文文本数据的评价结果。在本发明实施例中,对于待评价的外文文本数据(例如一篇英文作文),分别从其单词、句子及段落三个角度提取评价特征,然后输入到预先构建的外文文本评价模型,以对待评价的外文文本进行评价,这样不但保证了评价的全面性,大大提高了对外文文本评价的准确度,而且也不需要人工参与,显著提高了评价时的效率和客观性。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种外文文本评价方法及装置。
背景技术
近年来,随着信息技术的迅猛发展,教育信息化也不断推进,教育行业开始大步进入信息化时代。以在线教育行业为例,当前越来越多的学生开始通过在线的方式学习及考试,在同一个在线教育平台上,往往会有众多教师用户和学生用户通过网络实现在线教学、在线学习、在线作业、在线考试等操作,线上教学活动中不再是传统的几十个学生与一个教师的互动,而是数以万计的学生用户接收少量教师的指导。
发明人在实现本发明的过程中发现,在这种新形势下,教师的工作量开始成倍增长,尤其是在外文作文等外文文本的阅读和批改等方面,更是费时费力。在现有技术中,在对外文作文进行评价时,往往需要教师阅读相应的外文内容后,给出相应的评价,效率非常低,当外文文本量比较多时(如大型考试),其弊端尤为明显;此外,教师个人对于不同作文的评价标准也往往具有较大的主观性,而不同教师之间的评价标准也存在差异,因此对同一篇作文的批改结果经常不同,不利于学生作文水平的提高。因此,如何快速且客观地对外文作文等外文文本进行自动评价,具有重大意义。
发明内容
本发明提供一种外文文本评价方法及装置,以解决如何对外文作文等外文文本进行快速且客观的评价的技术问题。
根据本发明实施例的第一方面,提供一种外文文本评价方法,所述方法包括:
获取待评价的外文文本数据;
提取所述外文文本数据的评价特征,其中所述评价特征包括单词评价特征、句子评价特征、段落评价特征;
根据所述外文文本数据的评价特征及预先构建的外文文本评价模型,获取所述外文文本数据的评价结果。
可选的,当所述评价特征包括单词评价特征时,所述提取所述外文文本数据的评价特征,包括:
获取所述外文文本数据的词汇信息,其中所述词汇信息包括以下信息中的一种或多种:单词总数、非重复单词数、多音节单词数、每个单词的词性、词性为指定词性的单词数;
根据所述词汇信息,计算所述外文文本数据的词汇得分,并将所述词汇得分作为所述外文文本数据的单词评价特征。
可选的,当所述评价特征包括句子评价特征时,所述提取所述外文文本数据的评价特征,包括:
获取所述外文文本数据的句子信息,其中所述句子信息包括以下信息中的一种或多种:句子水平平均得分、长短句比例、句式类别数;
根据所述句子信息,计算所述外文文本数据的句子得分,并将所述句子得分作为所述外文文本数据的句子评价特征。
可选的,当所述句子信息包括句子水平平均得分时,获取所述外文文本数据的句子信息,包括:
获取所述外文文本数据每个句子的特征数据,其中所述每个句子的特征数据包括以下一种或多种:单词难度、句子长度、句式类别得分;
根据每个句子的特征数据,获取每个句子的句子水平得分;
根据所述外文文本数据所有句子的句子水平得分,获得所述句子水平平均得分。
可选的,当所述评价特征包括段落评价特征时,所述提取所述外文文本数据的评价特征,包括:
获取所述外文文本数据的段落信息,其中所述段落信息包括以下信息中的一种或多种:段落水平平均得分、长短段落比例、段落间逻辑结构得分;
根据所述段落信息,计算所述外文文本数据的段落得分,并将所述段落得分作为所述外文文本数据的段落评价特征。
可选的,当所述段落信息包括段落水平平均得分时,获取所述外文文本数据的段落信息,包括:
获取所述外文文本数据每个段落的特征数据,其中所述每个段落的特征数据包括以下一种或多种:段落中句子的流畅度、段落长度、段落内部逻辑结构得分;
根据所述每个段落的特征数据,获取每个段落的段落水平得分;
根据所述外文文本数据所有段落的段落水平得分,获得所述段落水平平均得分。
可选的,根据所述外文文本数据的评价特征及预先构建的外文文本评价模型,获取所述外文文本数据的评价结果,包括:
将所述外文文本数据的所述单词评价特征、句子评价特征、段落评价特征作为所述外文文本评价模型的输入;
将所述外文文本评价模型输出的评价得分作为所述外文文本数据的评价结果。
根据本发明实施例的第二方面,提供一种外文文本评价装置,所述装置包括:
数据获取模块,用于获取待评价的外文文本数据;
特征提取模块,用于提取所述外文文本数据的评价特征,其中所述评价特征包括单词评价特征、句子评价特征、段落评价特征;
评价获取模块,用于根据所述外文文本数据的评价特征及预先构建的外文文本评价模型,获取所述外文文本数据的评价结果。
可选的,当所述评价特征包括单词评价特征时,所述特征提取模块包括:
词汇信息获取子模块,用于获取所述外文文本数据的词汇信息,其中所述词汇信息包括以下信息中的一种或多种:单词总数、非重复单词数、多音节单词数、每个单词的词性、词性为指定词性的单词数;
单词评价特征获取子模块,用于根据所述词汇信息,计算所述外文文本数据的词汇得分,并将所述词汇得分作为所述外文文本数据的单词评价特征。
可选的,当所述评价特征包括句子评价特征时,所述特征提取模块包括:
句子信息获取子模块,用于获取所述外文文本数据的句子信息,其中所述句子信息包括以下信息中的一种或多种:句子水平平均得分、长短句比例、句式类别数;
句子评价特征获取子模块,用于根据所述句子信息,计算所述外文文本数据的句子得分,并将所述句子得分作为所述外文文本数据的句子评价特征。
可选的,当所述句子信息包括句子水平平均得分时,所述句子信息获取子模块用于:
获取所述外文文本数据每个句子的特征数据,其中所述每个句子的特征数据包括以下一种或多种:单词难度、句子长度、句式类别得分;
根据每个句子的特征数据,获取每个句子的句子水平得分;
根据所述外文文本数据所有句子的句子水平得分,获得所述句子水平平均得分。
可选的,当所述评价特征包括段落评价特征时,所述特征提取模块包括:
段落信息获取子模块,用于获取所述外文文本数据的段落信息,其中所述段落信息包括以下信息中的一种或多种:段落水平平均得分、长短段落比例、段落间逻辑结构得分;
段落评价特征获取子模块,用于根据所述段落信息,计算所述外文文本数据的段落得分,并将所述段落得分作为所述外文文本数据的段落评价特征。
可选的,当所述段落信息包括段落水平平均得分时,所述段落信息获取子模块用于:
获取所述外文文本数据每个段落的特征数据,其中所述每个段落的特征数据包括以下一种或多种:段落中句子的流畅度、段落长度、段落内部逻辑结构得分;
根据所述每个段落的特征数据,获取每个段落的段落水平得分;
根据所述外文文本数据所有段落的段落水平得分,获得所述段落水平平均得分。
可选的,所述评价获取模块用于:
将所述外文文本数据的所述单词评价特征、句子评价特征、段落评价特征作为所述外文文本评价模型的输入;
将所述外文文本评价模型输出的评价得分作为所述外文文本数据的评价结果。
本发明实施例提供的技术方案可以包括以下有益效果:
在本发明实施例中,对于待评价的外文文本数据(例如一篇英文作文),分别从其单词、句子及段落三个角度提取评价特征,然后输入到预先构建的外文文本评价模型,以对待评价的外文文本进行评价,这样不但保证了评价的全面性,大大提高了对外文文本评价的准确度,而且也不需要人工参与,显著提高了评价时的效率和客观性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。此外,这些介绍并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明示例性实施例示出的一种外文文本评价方法的流程图;
图2是根据本发明示例性实施例示出的一种外文文本评价方法的流程图;
图3是根据本发明示例性实施例示出的一种外文文本评价方法的流程图;
图4是根据本发明示例性实施例示出的一种外文文本评价方法的流程图;
图5是根据本发明示例性实施例示出的一种外文文本评价装置的示意图;
图6是根据本发明示例性实施例示出的一种外文文本评价装置的示意图;
图7是根据本发明示例性实施例示出的一种外文文本评价装置的示意图;
图8是根据本发明示例性实施例示出的一种外文文本评价装置的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据本发明一示例性实施例示出的一种外文文本评价方法的流程图。作为示例该方法可用于手机、平板电脑、台式机电脑、笔记本电脑等各种终端以及服务器等设备。
参见图1所示,该方法可以包括如下步骤:
步骤S101,获取待评价的外文文本数据。
本发明实施例中的外文例如可以为英文、法文等各类由单词构成的自然语言,对此本发明实施例并不进行限制。外文文本数据例如可以为学生所写的一篇英文作文,等等。
步骤S102,提取所述外文文本数据的评价特征,其中所述评价特征包括单词评价特征、句子评价特征、段落评价特征。
对于一篇文章,可以对其进行评价,以便从一定程度上反映出该文章在通顺、优美、翔实、严谨等各种方面上的好坏。若以对学生作文进行评价为例,则该评价也即作文得分。
外文文本数据的评价特征即外文文本数据的用于对其进行评价的特征。在本发明实施例中,为了保证评价的全面性,分别从其单词、句子及段落三个角度提取评价特征。
对于单词评价特征、句子评价特征、段落评价特征的具体内容,本发明实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行选择、设计,可以在此处使用的这些选择和设计都没有背离本发明的精神和保护范围。
步骤S103,根据所述外文文本数据的评价特征及预先构建的外文文本评价模型,获取所述外文文本数据的评价结果。
对于如何预先构建该外文文本评价模型,本发明实施例并不进行限制。作为示例,外文文本评价模型可以为模式识别中的回归模型(如逻辑回归模型)、神经网络模型,等等。作为示例,下面对具体如何构建外文文本评价模型进行说明:
1)预先收集大量外文文本数据样本
例如外文文本数据样本可以是英文作文。这些英文作文可以从网络上收集得到,也可以对学生每次考试时的试卷进行图像识别得到,或者也可以从学生的作业练习中得到,具体收集方法本发明实施例不作限定。
收集时,可以收集已有评价的英文作文,如学生考试时的英文作文,学生的作业练习中的英文作文等,其评价也即其得分;也可以收集未评价的英文作文,如从网络上收集的英文作文,对于未评价的英文作文,可以由领域专家对英文作文进行评价,得到每篇作文的评价得分。
此外,如果收集的英文作文中包含中文、特殊符号、非英文标点等,则还可以先进行预处理,将英文作文中的中文、特殊符号删除,将非英文标点转换为英文标点。
2)分别从单词、句子及段落角度对每篇外文文本数据样本进行分析,提取其评价特征。
提取外文文本数据样本的单词评价特征、句子评价特征、段落评价特征时的具体方法可以与步骤S102相同,此处不再赘述。
3)根据外文文本数据样本所提取的评价特征,构建外文文本评价模型
具体构建时,可以以每篇作文为单位,将每篇作文的评价特征作为外文文本评价模型的输入,输出为每篇英文作文的评价得分,利用收集的大量英文作文对所述外文文本评价模型进行参数训练,训练结束后,得到外文文本评价模型的模型参数取值。
构建完成之后,在使用时,根据所述外文文本数据的评价特征及预先构建的外文文本评价模型,获取所述外文文本数据的评价结果,也即步骤S103,可以包括:
将所述外文文本数据的所述单词评价特征、句子评价特征、段落评价特征作为所述外文文本评价模型的输入;
将所述外文文本评价模型输出的评价得分作为所述外文文本数据的评价结果。
在本实施例中,对于待评价的外文文本(例如一篇英文作文),分别从其单词、句子及段落三个角度提取评价特征,然后输入到预先构建的外文文本评价模型,以对待评价的外文文本进行评价,这样不但保证了评价的全面性,提高了对外文文本评价的准确度,而且也不需要人工参与,大大提高了评价时的效率和客观性。
此外,在本实施例或本发明其他某些实施例中,还可以将上述单词评价特征、句子评价特征及段落评价特征直接输出,作为对该外文文本数据分别在单词、句子及段落方面的评价,从而给出多维度的评价结果,进一步有助于提升学生的写作水平。
下面再对单词评价特征、句子评价特征、段落评价特征分别进行进一步的说明:
图2是根据本发明一示例性实施例示出的一种外文文本评价方法的流程图。参见图2所示,当所述评价特征包括单词评价特征时,所述提取所述外文文本数据的评价特征,即步骤S102,可以包括:
步骤S201,获取所述外文文本数据的词汇信息,其中所述词汇信息包括以下信息中的一种或多种:单词总数、非重复单词数、多音节单词数、每个单词的词性、词性为指定词性的单词数。
1)单词总数
所述单词总数为外文文本数据中包含的所有单词的总数,单词总数中包括重复的单词。具体提取时,直接对当前外文文本数据中包含的单词总数进行统计即可。
2)非重复单词数
非重复单词数也可以简称为单词数,单词数中不包含重复的单词,也即在单词总数中去除重复的单词后的单词数量。
3)多音节单词数
多音节单词即一个单词中包含多个音节的单词,具体提取时,直接根据每个单词的发音,判断是否为多音节词,单词的发音可以通过词典查找到,统计多音节单词的数量(相同单词无需去重)即得到多音节单词数。
4)单词的词性
所述单词的词性指每个单词的词性,具体提取时,直接根据词典及单词的上下文可以得到每个单词的词性。
5)词性为指定词性的单词数
所述指定词性例如可以为动词、形容词、副词、介词等,具体可以根据应用需求预先确定,统计当前外文文本数据中每种指定词性的单词数(相同单词无需去重)即可得。
步骤S202,根据所述词汇信息,计算所述外文文本数据的词汇得分,并将所述词汇得分作为所述外文文本数据的单词评价特征。
对于具体如何根据词汇信息计算词汇得分,本发明实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行选择、设计,可以在此处使用的这些选择和设计都没有背离本发明的精神和保护范围。
作为示例,外文文本数据的词汇得分可以通过下式计算:
其中,Weva为当前外文文本数据的词汇得分,也即单词评价特征;xi为当前外文文本数据词汇信息中的第i种信息的取值;n1为当前外文文本数据词汇信息中所包含的信息种类数;wi为xi的系数,可以通过预先收集大量训练样本训练得到,或者根据应用需求预先设定。
图3是根据本发明一示例性实施例示出的一种外文文本评价方法的流程图。参见图3所示,当所述评价特征包括句子评价特征时,所述提取所述外文文本数据的评价特征,也即步骤S102,可以包括:
步骤S301,获取所述外文文本数据的句子信息,其中所述句子信息包括以下信息中的一种或多种:句子水平平均得分、长短句比例、句式类别数。
1)句子水平平均得分
句子水平也即句子的好坏水平,借助一些特征数据(例如单词难度、句子长度、句式类别得分等)可以从一定程度上衡量一个句子的好坏。
具体实施时,获取所述外文文本数据的句子水平平均得分,可以包括:
i)获取所述外文文本数据每个句子的特征数据,其中所述每个句子的特征数据包括以下一种或多种:单词难度、句子长度、句式类别得分;
ii)根据每个句子的特征数据,获取每个句子的句子水平得分;
iii)根据所述外文文本数据所有句子的句子水平得分,获得所述句子水平平均得分。
单词难度,可以通过查找每个单词的难度得分表得到,所述难度得分表可以根据单词的习得顺序,给出每个单词的难度得分,例如高年级单词难度得分较高,而低年级单词难度得分较低;
句子长度,可以直接统计每个句子中包含的单词总数得到;
句式类别得分,可以通过查找每种句式类别得分表得到,所述句式类别得分表可以根据应用需求预先构建得到,例如简单句得分为1,一般句式得分为2,复杂句式得分为3,等等。
对于具体如何根据每个句子的特征数据计算每个句子的句子水平得分,本发明实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行选择、设计,可以在此处使用的这些选择和设计都没有背离本发明的精神和保护范围。
作为示例,可以通过下式计算每个句子的句子水平得分:
其中,SLevelj为当前外文文本数据中第j个句子的句子水平得分,djk为第j个句子的第k个特征数据的取值;sjk为djk的系数,具体可以通过预先收集大量训练样本训练得到,也可以根据应用需求预先设定;n2j为当前外文文本数据第j个句子的特征数据的种类数。
2)长短句比例
所述长短句比例指当前外文文本数据中长句与短句的数量比值。长短句具体可以通过预先设定的长短句阈值来区分,例如超过5个单词的为长句,否则为短句,然后确定当前外文文本数据中长句数与短句数,将长句数与短句数的比值作为当前外文文本数据的长短句比例。
3)句式类别数
所述句式类别数指当前外文文本数据中所有句子使用的句式类别总数,如简单句式、一般句式、复杂句式等,通过分析外文文本数据中每个句子的结构即可得到。
步骤S302,根据所述句子信息,计算所述外文文本数据的句子得分,并将所述句子得分作为所述外文文本数据的句子评价特征。
对于具体如何根据句子信息计算所述外文文本数据的句子得分,本发明实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行选择、设计,可以在此处使用的这些选择和设计都没有背离本发明的精神和保护范围。
作为示例,所述外文文本数据的句子得分可以通过下式计算:
其中,Seva为当前外文文本数据的句子得分,也即句子评价特征;ql为当前外文文本数据的第l种句子信息;n2为当前外文文本数据句子信息的种类数;pl为的ql系数,具体可以通过预先收集大量训练样本训练得到,也可以根据应用需求预先设定。
图4是根据本发明一示例性实施例示出的一种外文文本评价方法的流程图。参见图4所示,当所述评价特征包括段落评价特征时,所述提取所述外文文本数据的评价特征,也即步骤S102,可以包括:
步骤S401,获取所述外文文本数据的段落信息,其中所述段落信息包括以下信息中的一种或多种:段落水平平均得分、长短段落比例、段落间逻辑结构得分。
1)段落水平平均得分
段落水平也即段落的好坏水平,借助一些特征数据(例如段落中句子的流畅度、段落长度、段落内部逻辑结构得分等)可以从一定程度上衡量一个段落的好坏。
具体实施时,获取所述外文文本数据的段落水平平均得分,可以包括:
i)获取所述外文文本数据每个段落的特征数据,其中所述每个段落的特征数据包括以下一种或多种:段落中句子的流畅度、段落长度、段落内部逻辑结构得分;
ii)根据所述每个段落的特征数据,获取每个段落的段落水平得分;
iii)根据所述外文文本数据所有段落的段落水平得分,获得所述段落水平平均得分。
段落中句子的流畅度,可以通过分析段落中的语法错误来判定,如语法错误较多,则流畅度得分较低(如1分),若语法错误较少,则流畅度得分较高(如5分);
段落长度,可以通过直接统计每个段落中包含的句子数得到;
段落内部逻辑结构得分,可以通过分析段落内每个句子的句子结构得到,如果句子结构存在层级关系,如总分结构、递进结构,则段落内部逻辑结构得分较高(如5分),而如果句子结构存在多种错误,则得分较低(如1分)。
这样,类似于计算SLevelj,将段落的各种特征数据与相应系数的乘积相加,便可得到该段落的段落水平得分,进而可以得到当前外文文本数据的段落水平平均得分。段落的各种特征数据的相应系数可以通过预先收集大量训练样本训练得到,也可以根据应用需求预先设定。
2)长短段落比例
所述长短段落比例是指当前外文文本数据中长段落与短段落的比值。具体可以先预先设定长短段落阈值,如5个句子,超过5个句子的为长段落,否则为短段落,然后确定当前外文文本数据中长段落数与短段落数,将所述长段落数与短段落数的比值作为当前外文文本数据的长短段落比例。
3)段落间逻辑结构得分
所述段落间逻辑结构得分可以通过分析当前外文文本数据中所有段落之间的句子的逻辑结构得到,如分析前一段的最后一句和后一段的第一句之间的逻辑关系,或者分析更多段落之间的句子的逻辑结构,如果所分析的句子之间存在层级关系,如总分结构、递进结构,则段落间逻辑结构得分较高(如5分),而如果分析的句子结构存在多处错误,则得分较低(如1分)。
步骤S402,根据所述段落信息,计算所述外文文本数据的段落得分,并将所述段落得分作为所述外文文本数据的段落评价特征。
这样,类似于计算Seva,将当前外文文本数据的各种段落信息与相应系数的乘积相加,便可得到当前外文文本数据的段落得分,也即当前外文文本数据的段落评价特征。段落信息的相应系数可以通过预先收集大量训练样本训练得到,也可以根据应用需求预先设定。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图5是根据本发明一示例性实施例示出的一种外文文本评价装置的示意图。参见图5所示,该装置可以包括:
数据获取模块501,用于获取待评价的外文文本数据;
特征提取模块502,用于提取所述外文文本数据的评价特征,其中所述评价特征包括单词评价特征、句子评价特征、段落评价特征;
评价获取模块503,用于根据所述外文文本数据的评价特征及预先构建的外文文本评价模型,获取所述外文文本数据的评价结果。
参见图6所示,在本实施例或本发明其他某些实施例中,当所述评价特征包括单词评价特征时,所述特征提取模块可以包括:
词汇信息获取子模块601,用于获取所述外文文本数据的词汇信息,其中所述词汇信息包括以下信息中的一种或多种:单词总数、非重复单词数、多音节单词数、每个单词的词性、词性为指定词性的单词数;
单词评价特征获取子模块602,用于根据所述词汇信息,计算所述外文文本数据的词汇得分,并将所述词汇得分作为所述外文文本数据的单词评价特征。
参见图7所示,在本实施例或本发明其他某些实施例中,当所述评价特征包括句子评价特征时,所述特征提取模块可以包括:
句子信息获取子模块701,用于获取所述外文文本数据的句子信息,其中所述句子信息包括以下信息中的一种或多种:句子水平平均得分、长短句比例、句式类别数;
句子评价特征获取子模块702,用于根据所述句子信息,计算所述外文文本数据的句子得分,并将所述句子得分作为所述外文文本数据的句子评价特征。
在本实施例或本发明其他某些实施例中,当所述句子信息包括句子水平平均得分时,所述句子信息获取子模块可以用于:
获取所述外文文本数据每个句子的特征数据,其中所述每个句子的特征数据包括以下一种或多种:单词难度、句子长度、句式类别得分;
根据每个句子的特征数据,获取每个句子的句子水平得分;
根据所述外文文本数据所有句子的句子水平得分,获得所述句子水平平均得分。
参见图8所示,在本实施例或本发明其他某些实施例中,当所述评价特征包括段落评价特征时,所述特征提取模块可以包括:
段落信息获取子模块801,用于获取所述外文文本数据的段落信息,其中所述段落信息包括以下信息中的一种或多种:段落水平平均得分、长短段落比例、段落间逻辑结构得分;
段落评价特征获取子模块802,用于根据所述段落信息,计算所述外文文本数据的段落得分,并将所述段落得分作为所述外文文本数据的段落评价特征。
在本实施例或本发明其他某些实施例中,当所述段落信息包括段落水平平均得分时,所述段落信息获取子模块可以用于:
获取所述外文文本数据每个段落的特征数据,其中所述每个段落的特征数据包括以下一种或多种:段落中句子的流畅度、段落长度、段落内部逻辑结构得分;
根据所述每个段落的特征数据,获取每个段落的段落水平得分;
根据所述外文文本数据所有段落的段落水平得分,获得所述段落水平平均得分。
在本实施例或本发明其他某些实施例中,所述评价获取模块可以用于:
将所述外文文本数据的所述单词评价特征、句子评价特征、段落评价特征作为所述外文文本评价模型的输入;
将所述外文文本评价模型输出的评价得分作为所述外文文本数据的评价结果。
在本实施例中,对于待评价的外文文本数据(例如一篇英文作文),分别从其单词、句子及段落三个角度提取评价特征,然后输入到预先构建的外文文本评价模型,以对待评价的外文文本进行评价,这样不但保证了评价的全面性,大大提高了对外文文本评价的准确度,而且也不需要人工参与,显著提高了评价时的效率和客观性。
关于上述实施例中的装置,其中各个单元\模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (12)
1.一种外文文本评价方法,其特征在于,所述方法包括:
获取待评价的外文文本数据;
提取所述外文文本数据的评价特征,其中所述评价特征包括单词评价特征、句子评价特征、段落评价特征;
根据所述外文文本数据的评价特征及预先构建的外文文本评价模型,获取所述外文文本数据的评价结果;
当所述评价特征包括单词评价特征时,所述提取所述外文文本数据的评价特征,包括:
获取所述外文文本数据的词汇信息,其中所述词汇信息包括以下信息中的一种或多种:单词总数、非重复单词数、多音节单词数、每个单词的词性、词性为指定词性的单词数;
根据所述词汇信息,计算所述外文文本数据的词汇得分,并将所述词汇得分作为所述外文文本数据的单词评价特征;
所述外文文本数据的词汇得分的计算方法包括:
其中,Weva为当前外文文本数据的词汇得分;xi为当前外文文本数据词汇信息中的第i种信息的取值;n1为当前外文文本数据词汇信息中所包含的信息种类数;wi为xi的预设的系数。
2.根据权利要求1所述的方法,其特征在于,当所述评价特征包括句子评价特征时,所述提取所述外文文本数据的评价特征,包括:
获取所述外文文本数据的句子信息,其中所述句子信息包括以下信息中的一种或多种:句子水平平均得分、长短句比例、句式类别数;
根据所述句子信息,计算所述外文文本数据的句子得分,并将所述句子得分作为所述外文文本数据的句子评价特征。
3.根据权利要求2所述的方法,其特征在于,当所述句子信息包括句子水平平均得分时,获取所述外文文本数据的句子信息,包括:
获取所述外文文本数据每个句子的特征数据,其中所述每个句子的特征数据包括以下一种或多种:单词难度、句子长度、句式类别得分;
根据每个句子的特征数据,获取每个句子的句子水平得分;
根据所述外文文本数据所有句子的句子水平得分,获得所述句子水平平均得分。
4.根据权利要求1所述的方法,其特征在于,当所述评价特征包括段落评价特征时,所述提取所述外文文本数据的评价特征,包括:
获取所述外文文本数据的段落信息,其中所述段落信息包括以下信息中的一种或多种:段落水平平均得分、长短段落比例、段落间逻辑结构得分;
根据所述段落信息,计算所述外文文本数据的段落得分,并将所述段落得分作为所述外文文本数据的段落评价特征。
5.根据权利要求4所述的方法,其特征在于,当所述段落信息包括段落水平平均得分时,获取所述外文文本数据的段落信息,包括:
获取所述外文文本数据每个段落的特征数据,其中所述每个段落的特征数据包括以下一种或多种:段落中句子的流畅度、段落长度、段落内部逻辑结构得分;
根据所述每个段落的特征数据,获取每个段落的段落水平得分;
根据所述外文文本数据所有段落的段落水平得分,获得所述段落水平平均得分。
6.根据权利要求1所述的方法,其特征在于,根据所述外文文本数据的评价特征及预先构建的外文文本评价模型,获取所述外文文本数据的评价结果,包括:
将所述外文文本数据的所述单词评价特征、句子评价特征、段落评价特征作为所述外文文本评价模型的输入;
将所述外文文本评价模型输出的评价得分作为所述外文文本数据的评价结果。
7.一种外文文本评价装置,其特征在于,所述装置包括:
数据获取模块,用于获取待评价的外文文本数据;
特征提取模块,用于提取所述外文文本数据的评价特征,其中所述评价特征包括单词评价特征、句子评价特征、段落评价特征;
评价获取模块,用于根据所述外文文本数据的评价特征及预先构建的外文文本评价模型,获取所述外文文本数据的评价结果;
当所述评价特征包括单词评价特征时,所述特征提取模块包括:
词汇信息获取子模块,用于获取所述外文文本数据的词汇信息,其中所述词汇信息包括以下信息中的一种或多种:单词总数、非重复单词数、多音节单词数、每个单词的词性、词性为指定词性的单词数;
单词评价特征获取子模块,用于根据所述词汇信息,计算所述外文文本数据的词汇得分,并将所述词汇得分作为所述外文文本数据的单词评价特征;
所述外文文本数据的词汇得分的计算方法包括:
其中,Weva为当前外文文本数据的词汇得分;xi为当前外文文本数据词汇信息中的第i种信息的取值;n1为当前外文文本数据词汇信息中所包含的信息种类数;wi为xi的预设的系数。
8.根据权利要求7所述的装置,其特征在于,当所述评价特征包括句子评价特征时,所述特征提取模块包括:
句子信息获取子模块,用于获取所述外文文本数据的句子信息,其中所述句子信息包括以下信息中的一种或多种:句子水平平均得分、长短句比例、句式类别数;
句子评价特征获取子模块,用于根据所述句子信息,计算所述外文文本数据的句子得分,并将所述句子得分作为所述外文文本数据的句子评价特征。
9.根据权利要求8所述的装置,其特征在于,当所述句子信息包括句子水平平均得分时,所述句子信息获取子模块用于:
获取所述外文文本数据每个句子的特征数据,其中所述每个句子的特征数据包括以下一种或多种:单词难度、句子长度、句式类别得分;
根据每个句子的特征数据,获取每个句子的句子水平得分;
根据所述外文文本数据所有句子的句子水平得分,获得所述句子水平平均得分。
10.根据权利要求7所述的装置,其特征在于,当所述评价特征包括段落评价特征时,所述特征提取模块包括:
段落信息获取子模块,用于获取所述外文文本数据的段落信息,其中所述段落信息包括以下信息中的一种或多种:段落水平平均得分、长短段落比例、段落间逻辑结构得分;
段落评价特征获取子模块,用于根据所述段落信息,计算所述外文文本数据的段落得分,并将所述段落得分作为所述外文文本数据的段落评价特征。
11.根据权利要求10所述的装置,其特征在于,当所述段落信息包括段落水平平均得分时,所述段落信息获取子模块用于:
获取所述外文文本数据每个段落的特征数据,其中所述每个段落的特征数据包括以下一种或多种:段落中句子的流畅度、段落长度、段落内部逻辑结构得分;
根据所述每个段落的特征数据,获取每个段落的段落水平得分;
根据所述外文文本数据所有段落的段落水平得分,获得所述段落水平平均得分。
12.根据权利要求7所述的装置,其特征在于,所述评价获取模块用于:
将所述外文文本数据的所述单词评价特征、句子评价特征、段落评价特征作为所述外文文本评价模型的输入;
将所述外文文本评价模型输出的评价得分作为所述外文文本数据的评价结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710006544.2A CN108280065B (zh) | 2017-01-05 | 2017-01-05 | 一种外文文本评价方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710006544.2A CN108280065B (zh) | 2017-01-05 | 2017-01-05 | 一种外文文本评价方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108280065A CN108280065A (zh) | 2018-07-13 |
CN108280065B true CN108280065B (zh) | 2021-12-14 |
Family
ID=62800260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710006544.2A Active CN108280065B (zh) | 2017-01-05 | 2017-01-05 | 一种外文文本评价方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108280065B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193805B (zh) * | 2017-06-06 | 2021-05-14 | 北京百度网讯科技有限公司 | 基于人工智能的文章价值评估方法、装置及存储介质 |
CN109582833B (zh) * | 2018-11-06 | 2023-09-22 | 创新先进技术有限公司 | 异常文本检测方法及装置 |
CN109614623B (zh) * | 2018-12-12 | 2023-06-30 | 广东小天才科技有限公司 | 一种基于句法分析的作文处理方法及系统 |
CN109710940A (zh) * | 2018-12-28 | 2019-05-03 | 安徽知学科技有限公司 | 一种文章立意的分析及文章评分方法、装置 |
CN110795538B (zh) * | 2019-10-30 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的文本评分方法和相关设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294660A (zh) * | 2012-02-29 | 2013-09-11 | 张跃 | 一种英语作文自动评分方法及系统 |
KR20140025130A (ko) * | 2012-08-21 | 2014-03-04 | 주식회사 터치엔텍 | 학습멘티와 학습멘토를 연결해주는 온라인 영어작문학습 서비스 제공장치 |
CN105183713A (zh) * | 2015-08-27 | 2015-12-23 | 北京时代焦点国际教育咨询有限责任公司 | 一种英语作文的自动批改方法及系统 |
-
2017
- 2017-01-05 CN CN201710006544.2A patent/CN108280065B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294660A (zh) * | 2012-02-29 | 2013-09-11 | 张跃 | 一种英语作文自动评分方法及系统 |
KR20140025130A (ko) * | 2012-08-21 | 2014-03-04 | 주식회사 터치엔텍 | 학습멘티와 학습멘토를 연결해주는 온라인 영어작문학습 서비스 제공장치 |
CN105183713A (zh) * | 2015-08-27 | 2015-12-23 | 北京时代焦点国际教育咨询有限责任公司 | 一种英语作文的自动批改方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108280065A (zh) | 2018-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280065B (zh) | 一种外文文本评价方法及装置 | |
US11409964B2 (en) | Method, apparatus, device and storage medium for evaluating quality of answer | |
CN108319581B (zh) | 一种自然语言语句评价方法及装置 | |
Jahanshahi et al. | Error analysis of English translation of Islamic texts by Iranian translators | |
Callies et al. | Learner corpora in language testing and assessment: Prospects and challenges | |
CN113205729A (zh) | 一种面向外国留学生的演讲评测方法、装置及系统 | |
Tobaili et al. | Senzi: A sentiment analysis lexicon for the latinised arabic (arabizi) | |
CN111832281A (zh) | 作文评分方法、装置、计算机设备及计算机可读存储介质 | |
Phuoc et al. | Complexity, accuracy, and fluency in L2 writing across proficiency levels: A matter of L1 background? | |
Lotz et al. | Omission and other sins: Tracking the quality of online machine translation output over four years | |
Wang et al. | Are perfect transcripts necessary when we analyze classroom dialogue using AIoT? | |
Duran et al. | Some issues on the normalization of a corpus of products reviews in Portuguese | |
Rayson et al. | Automatic error tagging of spelling mistakes in learner corpora | |
Munthe et al. | Comparing The Translation Accuracy Between Google Translate And Professional Translator | |
Cromico et al. | Translation Quality of English-Indonesian by Using Google Translate | |
Panjaitan et al. | An Analysis of Grammatical Errors from Indonesian into English in Translating Descriptive Texts | |
Zhu et al. | YUN111@ Dravidian-CodeMix-FIRE2020: Sentiment Analysis of Dravidian Code Mixed Text. | |
Luong et al. | Building a corpus for vietnamese text readability assessment in the literature domain | |
Duan et al. | Automatically build corpora for chinese spelling check based on the input method | |
US10755594B2 (en) | Method and system for analyzing a piece of text | |
CN113850087A (zh) | 一种翻译评分方法及其相关设备 | |
CN112085985B (zh) | 一种面向英语考试翻译题目的学生答案自动评分方法 | |
CN110674871B (zh) | 面向翻译译文的自动评分方法及自动评分系统 | |
Richter et al. | Tracking the evolution of written language competence: an NLP–based approach | |
Xu et al. | Using Coh-Metrix to Analyze Chinese ESL Learners’ Writing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |