Nothing Special   »   [go: up one dir, main page]

CN102831558A - 不依赖人工预评分的大学英语作文自动评分系统及方法 - Google Patents

不依赖人工预评分的大学英语作文自动评分系统及方法 Download PDF

Info

Publication number
CN102831558A
CN102831558A CN2012102516538A CN201210251653A CN102831558A CN 102831558 A CN102831558 A CN 102831558A CN 2012102516538 A CN2012102516538 A CN 2012102516538A CN 201210251653 A CN201210251653 A CN 201210251653A CN 102831558 A CN102831558 A CN 102831558A
Authority
CN
China
Prior art keywords
composition
word
mark
training
scoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012102516538A
Other languages
English (en)
Inventor
黄桂敏
周娅
曹国媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN2012102516538A priority Critical patent/CN102831558A/zh
Publication of CN102831558A publication Critical patent/CN102831558A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了不依赖人工预评分的大学英语作文自动评分系统及评分方法,该系统由训练作文特征词-作文矩阵生成模块、训练作文语义空间构建模块、待评分作文自动评分模块构成,训练作文特征词-作文矩阵生成模块中“构建特征词-作文矩阵”处理单元的处理结果“特征词-作文矩阵”,输入到训练作文语义空间构建模块中“构建训练作文集语义空间”处理单元,训练作文语义空间构建模块中“映射满分作文集特征词词频向量到训练作文集语义空间”处理单元的处理结果“满分作文集语义空间”,输入到待评分作文自动评分模块中“计算待评分作文分数”处理单元。本系统可以大大减轻大学英语教师批阅学生英语作文的工作量,而且评分的信度和效度高。

Description

不依赖人工预评分的大学英语作文自动评分系统及方法
技术领域
本发明涉及中国高校大学英语作文的自动评分技术与方法,具体是一种不依赖人工预评分的大学英语作文自动评分系统及评分方法。
背景技术
英语作文自动评分技术的研究起源于1966年美国杜克大学的Ellis Page等人研发的PEG系统。现有的英语作文自动评分系统可以分为三类:侧重语言特征的英语作文自动评分系统,如PEG系统;侧重内容不同的英语作文自动评分系统,如IEA系统、BETSY系统;两者兼顾的英语作文自动评分系统,如e-rater系统、IntelliMetric系统、梁茂成系统等。其中PEG系统以作文中可量化参数作为自变量,以作文的最后得分作为因变量,通过评估作文中可量化参数来计算待评分作文的最后得分。IEA系统通过预评分作文样本的分数参数来评分作文,通过综合考虑待评分作文的内容质量指标与写作技巧指标来对待评分作文进行评分。IntelliMetric系统通过训练预评分作文样本构建评分模型,对利用少量待评分作文检测评分模型的信度与效度,最后利用得到的评分模型对大量待评分作文进行评分。e-rater系统首先对待评分作文中单词进行词性标注,分析待评分作文中句法结构、篇章结构和词汇使用情况,然后按照评分标准对待评作文进行评分。BETSY系统通过使用特定内容与形式的大型语言学语料库,同时把待评分作文分为优、良、及格、不及格四种分数尺度,通过把待评分作文划分到其最合适的分数尺度中来得到待评分作文最后得分。
综上所述的英语作文自动评分技术,除了e-rater系统能够评分英语作为非母语的英语作文之外,其他只能评分英语作为母语的英语作文。根据相关研究表明:它们(除e-rater系统以外)评分英语作为非母语的英语作文的结果与人工评分的结果存在明显差异。事实上,对英语作为非母语的中国大学英语作文的自动评分,至今还没有较为成功的英语作文自动评分方法。而且,中国大学英语写作要求与英语作为母语的英语作文写作要求相比,其评分标准也不完全相同。因此,采用国外现有英语作文自动评分技术,对中国大学英语作文评分,其评分结果的信度与效度不会很理想。而且,目前关于英语作文自动评分技术的研究,主要是解决大规模英语考试中英语作文的自动评分问题,通常是针对一个待评分的英语作文题目,用该题目不同分数段的人工预评分作文训练出一个评分模型,用得到的评分模型对该题目待评分作文进行评分,这种方法在评分与人工预评分作文题目相同的待评分作文时具有较好信度与效度,但是在评分作文时收集不同分数段的人工预评分作文具有一定难度。因为这种方法在每次评分一个题目的待评分作文时,都收集该题目不同分数段的人工预评分作文,所以它在实际的中国高校英语教学中推广可行性较差。因此,从中国高校英语教学出发,更迫切需要一种能够满足中国大学英语教学要求与评分标准,不依赖不同分数段的人工预评分作文的大学英语作文自动评分方法,以解决自动评分大学英语作文时,收集不同分数段的人工预评分作文困难的问题,以及为中国高校英语教学提供一种可行的大学英语作文自动评分方法,降低中国高校英语教师批阅学生大学作文的工作量,提高学生学习英语写作积极性和英语写作水平。
发明内容
本发明的目的是要提供一种不依赖人工预评分的大学英语作文自动评分系统及评分方法,该系统对大学英语作文的自动评分具有较好的评分信度和效度,可以大大减轻大学英语教师批阅学生英语作文的工作量。
实现本发明目的的技术方案是:
一种不依赖人工预评分的大学英语作文自动评分系统,该评分系统由训练作文特征词-作文矩阵生成模块、训练作文语义空间构建模块、待评分作文自动评分模块构成,训练作文特征词-作文矩阵生成模块中“构建特征词-作文矩阵”处理单元的处理结果“特征词-作文矩阵”,输入到训练作文语义空间构建模块中“构建训练作文集语义空间”处理单元,训练作文语义空间构建模块中“映射满分作文集特征词词频向量到训练作文集语义空间”处理单元的处理结果“满分作文集语义空间”,输入到待评分作文自动评分模块中“计算待评分作文分数”处理单元,系统输出待评分英语作文的分数。
所述的训练作文特征词-作文矩阵生成模块包括处理训练作文集单元,其工作流程是:
(S201)开始;
(S202)读入停用词列表;
(S203)读入训练作文集中作文;
(S204)标注训练作文集中作文的单词词性并输出它们的标注单词列表;
(S205)如果单词列表没有结束,则通过正则表达式从标注单词列表中提取一个单词;否则转(S208)操作;
(S206)如果提取的单词是停用词,则从标注单词列表中删除该单词,并读取标注单词列表中下一个单词,然后转(S205)操作;否则统计训练作文集中出现该单词的作文数;
(S207)如果该单词出现的作文数≥2,则该单词是特征词并添加该单词到特征词列表中;否则转(S205)操作;
(S208)从特征词列表中统计特征词词频,并根据所得到的特征词词频构建训练作文集的特征词-作文矩阵;
(S209)生成训练作文集的特征词-作文矩阵;
(S210)结束。
所述的训练作文语义空间构建模块包括构建训练作文集语义空间、处理满分作文集单元、映射满分作文集特征词词频向量到训练作文集语义空间单元,其工作流程是:
(S301)开始;
(S302)读入满分作文集中作文;
(S303)标注满分作文集中作文的单词词性并输出它们的标注单词列表;
(S304)如果标注单词列表没有结束,则通过正则表达式从标注单词列表中提取一个单词;否则转(S306)操作;
(S305)如果提取的单词是特征词,则统计它的词频;否则从标注单词列表中删除该单词,并读取标注单词列表下一个单词,然后转(S304)操作;
(S306)构建满分作文集的特征词词频向量;
(S307)处理训练作文集的特征词-作文矩阵,并构建训练作文集的语义空间;
(S308)映射满分作文集的特征词词频向量到训练作文集的语义空间,并构建满分作文集语义空间;
(S309)结束。
所述的待评分作文自动评分模块包括处理待评分作文、计算待评分作文分数,其工作流程是:
(S401)开始;
(S402)读入评分作文;
(S403)句子分句与作文分段处理;
(S404)标注待评分作文的单词词性并输出标注单词列表;
(S405)如果单词列表没有结束,则通过正则表达式从标注单词列表中提取一个单词;否则转(S407)操作;
(S406)如果提取的单词是特征词,则统计它的词频;否则从标注单词列表中删除该单词,并读取标注单词列表下一个单词,然后转(S405)操作;
(S407)构建待评分作文语义空间;
(S408)提取待评分作文的层次语言学特征、主题表达清晰度、语言表达流畅度、表达内容可读度评分参数;
(S409)输出浅层次语言学特征、主题表达清晰度、语言表达流畅度、表达内容可读度;
(S410)根据浅层次语言学特征、主题表达清晰度、语言表达流畅度、表达内容可读度计算待评分作文的分数;
(S411)输出待评分作文分数;
(S412)结束。
一种不依赖人工预评分的大学英语作文自动评分方法,包括如下步骤:
(1)输入训练作文集,形成特征词-作文矩阵;
(2)输入满分作文集,形成满分作文集语义空间;
(3)输入待评分作文,该评分方法根据作文的浅层次语言学特征、主题表达清晰度、语言表达流畅度、表达内容可读度、评分权重评出作文分数。
所述的训练作文集取材于大量中国大学英语课本课文、中国大学英语四、六级作文范文、中国大学考研英语作文范文。训练作文集中作文主题要求尽量覆盖不同题目的英语范文,它们是没有任何单词错误、语法错误、表达错误与跑题错误,符合中国高校学生英语用词习惯与语法句法水平的英语范文。本发明方法规定的作文训练文本集格式如下:
第1篇作文题目<回车>
第1篇作文段落1<回车>
第1篇作文段落2<回车>
......
第一篇作文段落i<回车>
<空行>
第2篇作文题目<回车>
第2篇作文段落1<回车>
第2篇作文段落2<回车>
……
第2篇作文段落j<回车>
……
<空行>
第n篇作文题目<回车>
第n篇作文段落1<回车>
第n篇作文段落2<回车>
……
第n篇作文段落r<回车>
所述的满分作文集选材于大量不同主题的中国大学英语四、六级满分作文范文,它们是本发明方法用于判别待评分作文最高分数的参考。本发明方法规定的满分作文集格式如下:
第1篇作文题目<回车>
第1篇作文段落1<回车>
第1篇作文段落2<回车>
……
第一篇作文段落i<回车>
<空行>
第2篇作文题目<回车>
第2篇作文段落1<回车>
第2篇作文段落2<回车>
……
第2篇作文段落j<回车>
……
<空行>
第m篇作文题目<回车>
第m篇作文段落1<回车>
第m篇作文段落2<回车>
……
第m篇作文段落k<回车>
所述的待评分作文是中国高校学生撰写的大学英语作文习作。本发明方法规定的待评分作文格式如下:
待评分作文题目<回车>
待评分作文段落1<回车>
待评分作文段落2<回车>
……
待评分作文段落n<回车>
所述的停用词是在英语作文中语义贡献很小,但是又在英语作文中出现次数较多的英语单词,例如:冠词(a,the)、介词(in,for)和代词(it,his)等。由于停用词在英语作文中无法表达作文的主题思想,如果把它们作为大学英语作文的特征词进行提取,并作为评分待评分作文的参数,将会影响待评分作文的评分信度与效度。因此,本发明方法设计了一个大学英语作文中可能出现的停用词列表,用于本发明方法在评分大学英语作文时剔除其中的停用词,以提高待评分大学英语作文的评分信度与效度。本发明方法规定的作文中停用词列表格式如下:
单词1<回车>
单词2<回车>
……
单词n<回车>
本发明方法全部的停用词如下所示:
a,able,about,above,according,accordingly,across,actually,after,afterwards,again,against,ain’t,all,allow,allows,almost,alone,along,already,also,although,always,am,among,amongst,an,and,another,an,any,anybody,anyhow,anyone,anything,anyway,anyways,anywhere,apart,appear,appreciate,appropriate,are,aren’t,around,as,aside,ask,asking,associated,at,available,away,awfully,be,became,because,become,becomes,becoming,been,before,beforehand,behind,being believe,below,beside,besides,best,better,between,beyond,both,brief,but,by,c’mon,c’s,came,can,can’t,cannot,cant,cause,causes,certain,certainly,changes,clearly,co,com,come,comes,concerning,consequently,consider,considering,contain,containing,contains,corresponding,could,couldn’t,course,currently,definitely,described,despite,did,didn’t,different,do,does,doesn’t,doing,don’t,done,down,downwards,during,each,edu,eg,eight,either,else,elsewhere,enough,entirely,especially,et,etc,even,ever,every,everybody,everyone,everything,everywhere,ex,exactly,example,except,far,few,fifth,first,five,followed,ollowing,follows,for,former,formerly,forth,four,from,further,furthermore,get,gets,getting,given,gives,go,goes,going,gone,got,gotten,greetings,had,hadn’t,happens,hardly,has,hasn’t,have,haven’t,having,he,he’s,hello,help,hence,her,here,here’s,hereafter,hereby,herein,hereupon,hers,herself,hi,him,himself,his,hither,hopefully,how,howbeit,however,i’d,i’ll,i’m,i’ve,ie,if,ignored,immediate,in,inasmuch,inc,indeed,indicate,indicated,indicates,inner,insofar,instead,into,inward,is,isn’t,it,it’d it’ll,it’s,its,itself,just,keep,keeps,kept,know,knows,known,last,lately,later,latter,latterly,least,less,lest,let,let’s,like,liked,likely,little,look,looking,looks,ltd,mainly,many,may,maybe,me,mean,meanwhile,merely,might,more,moreover,most,mostly,much,must,my,myself,name,namely,nd,near,nearly,necessary,need,needs,neither,never,nevertheless,new,next,nine,no,nobody,non,none,nor,normallynot,nothing,novel,now,nowhere,obviously,of,off,often,oh,ok,okay,old,on,once,one,ones,only,onto,or,other,others,otherwise,ought,our,ours,ourselves,out,outside,over,overall,own,particular,particularly,per,perhaps,placed,please plus,possible,presumably,probably,provides,que,quite,qv,rather,rd,re,really,reasonably,regarding,regardless,regards,relatively,respectively,right,said,same,saw,say,saying,says,second,secondly,see,seeing,seem,seemed seeming,seems,seen,self,selves,sensible,sent,serious,seriously,seven,several,shall,she,should,shouldn’t,since,six,so,some,somebody,somehow,someone,something,sometime,sometimes,somewhat,somewhere,soon,sorry,specified,specify,specifying,still,sub,such,sup,sure,t’s,take,taken,tell,tends,than,thank,thanks,thanx,that,that’s,the,their,theirs,them,themselves,then,thence,there there’s,thereafter,thereby,therefore,therein,theres,thereupon,these,they,they’d,they’ll,they’re,they’ve,think,third,this,thorough,thoroughly,those,though,three,through,throughout,thru,thus,to,together,too,took,toward,towards,tried,tries,truly,try,trying,twice,two,un,under unfortunately,unless,unlikely,until,unto,up,upon,us,use,used,useful,uses,using,usually,various,very,via,viz,vs,want,wants,was,wasn’t,way,we,we’d,we’ll,we’re,we’ve,welcome,well,went,were,weren’t,what,what’s,whatever,when,whence,whenever,where,where’s,whereafter,whereas,whereby,wherein,whereupon,wherever,whether,which,while,whither,who,who’s,whoever whole,whom,whose,why,will,willing,wish,with,within,without,won’t,wonder,would,wouldn’t,yes,yet,you,you’d,you’ll,you’re,you’ve,your,yours,yourself,yourselves,zero
所述的单词词性标注是训练作文集、满分作文集与待评分大学英语作文的单词词性标注结果结构如下表1所示。
表1:大学英语作文单词词性标注结果结构
 单词   分隔符   词性
 commodities   _   Nns
 ......   ......   ......
  Harmful   _   Jj
所述的特征词是从大学英语作文中提取的单词,单词必须同时满足下面两个条件才是特征词:
(1)必须不是停用词列表中停用词。
(2)必须在训练作文集两篇或以上的英语作文中出现。
所述的特征词-作文矩阵是为训练作文集构建的一个矩阵空间,本发明方法规定的特征词-作文矩阵格式如下:
特征词-作文矩阵mxn=[元素ij]mxn
其中:特征词-作文矩阵m×n表示训练作文集中m个特征词与n篇作文组成的矩阵;m表示矩阵行的维数,其值取决于从n篇作文中所提取到特征词数;n表示矩阵列的维数,其值取决于训练作文集中作文数;元素ij表示特征词i在作文j中出现的频率。
所述的训练作文集语义空间由主题分布向量和特征词分布向量组成,主题分布向量中每个主题比例元素表示训练作文集中某主题作文数量占训练作文集所有作文总数的比例。本发明规定的主题分布向量格式如下:
主题分布向量m=[主题比例元素i]m
其中:m表示主题分布向量列的维数,主题比例元素i表示训练作文集中第i个主题作文数量占训练作文集所有作文总数的比例。
特征词分布向量中每个特征词比例元素表示训练作文集中在某个主题下特征词数量占训练作文集中所有特征词总数的比例。本发明规定的特征词分布向量格式如下:
特征词分布向量mxn=[特征词比例元素ij]mxn
其中:m表示特征词分布向量行的维数,其值取决于训练作文集的主题数;n表示特征词分布向量列的维数,其值取决于从训练作文集中提取的特征词数;特征词比例元素ij表示第i个主题下特征词j占训练作文集中所有特征词总数的比例。
所述的浅层次语言学特征用于大学英语作文自动评分,这些浅层次语言学特征见表如下2所示。
表2:浅层次语言学特征
Figure BDA00001909603900071
所述的主题表达清晰度的计算公式如下:
Figure BDA00001909603900081
其中:i是满分作文集中与待评分作文相同主题的作文序号,n为满分作文集作文总数,最高分数取值于作文评分标准中规定的最高作文得分。
所述的语言表达流畅度,它包括句子与句子之间连贯度、句子与段落之间连贯度、句子与作文之间连贯度、段落与段落之间连贯度、段落与作文之间连贯度,它们的计算公式如下:
其中:i为待评分作文的段落序号,j为待评分作文中评估段落的句子序号,n为待评分作文中段落总数;m为待评分作文中评估段落的句子总数。
Figure BDA00001909603900084
Figure BDA00001909603900085
其中:i为待评分作文的段落序号,j为待评分作文中评估段落的句子序号,n为待评分作文中段落总数;m为待评分作文中评估段落的句子总数。
其中:i为待评分作文中句子序号,n为待评分作文中句子总数。
Figure BDA00001909603900087
其中:i为待评分作文中段落序号,n为待评分作文中段落总数。
另外,上述公式中相似度的计算公式如下:
Figure BDA00001909603900088
其中:i为向量1、向量2中元素的序号;向量1、向量2是待评分作文中句子、段落、作文映射到训练作文语义空间所得到的向量。
所述的待评分作文的表达内容可读性度,它包括可读难易度、理解难易度、写作水平级别,它们的计算公式分别如下:
Figure BDA00001909603900091
其中阅读难易度在[8,18]之间视为可读性好,否则视为可读性差。
理解难易度=201.85-(1.24x句子平均单词数)-(74.1+单词平均音节数)
其中理解难易度在[60,70]之间视为容易理解,否则视为难以理解。
写作的级别=(0.14x句子平均单词数)+(1.53x单词平均音节数)-5.37
其中写作的级别在[7,8]之间视为写作水平好,,否则视为写作水平差。
所述的待评分作文分数权重计算时依赖待评分作文的浅层次语言学特征、语言表达流畅度、主题表达清晰度和表达内容可读度参数。其中本发明规定:主题表达清晰度在机器得分中所占比重是70%,它表示待评分作文中心思想是否鲜明突出,内容是否符合作文题目写作要求;语言表达流畅度在机器得分中所占比重是15%,它表示作文思想内容是否前后一致,语句之间是否自然流畅;表达内容可读度在机器得分中所占比重是10%,它表示待评分作文描述内容的可读性是否强,读者阅读是否容易理解;浅层语言学特征在机器得分中所占比重是5%,它是评价学生的大学英语作文对英语单词的掌握水平,作文写作技巧是否熟练。本发明规定的待评分作文机器得分计算公式如下:
机器得分=权重1x主题表达清晰度+权重2x语言表达流畅度+权重3x表达内容可读度+权重4x浅层次语言学特征
其中:权重1=70%,权重2=15%,权重3=10%3,权重4=5%,如下表3是机器得分参数说明。
表3:待评分作文分数计算参数
Figure BDA00001909603900092
Figure BDA00001909603900101
本发明的优点是:本评分系统及评分方法可以大大减轻大学英语教师批阅学生英语作文的工作量,而且评分的信度和效度高。
附图说明
图1是本发明方法的总体处理流程框图;
图2是图1中训练作文特征词-作文矩阵生成模块的处理流程框图;
图3是图1中训练作文语义空间构建模块的处理流程框图;
图4是图1中待评分作文自动评分模块的处理流程框图。
具体实施方式
本发明方法的具体实施方式可以分为下面三个步骤。
第一,生成训练作文特征词-作文矩阵
(1)收集大量不同题目的中国大学英语课本课文、中国大学英语四、六级作文范文、中国大学考研英语作文范文,按照本发明方法规定训练作文集作文格式,整理好一个训练作文集,下面是训练作文集中一篇作文题目是“The Language ofMusic”的作文示例。
The Language of Music
A painter hangs his or her finished pictures on a wall,and everyone can see it.A composer writesa work,but no one can hear it until it is performed.Professional singers and players have greatresponsibilities,for the composer is utterly dependent on them.A student of music needs as longand as arduous a training to become a performer as a medical student needs to become a doctor.Most training is concerned with technique,for musicians have to have the muscular proficiency ofan athlete or a ballet dancer.Singers practice breathing every day,as their vocal chords would beinadequate without controlled muscular support.String players practice moving the fingers of theleft hand up and down,while drawing the bow to and fro with the right arm-two entirely differentmovements.
Singers and instruments have to be able to get every note perfectly in tune.Pianists are sparedthis particular anxiety,for the notes are already there,waiting for them,and it is the piano tuner’sresponsibility to tune the instrument for them.But they have their own difficulties;the hammersthat hit the string have to be coaxed not to sound like percussion,and each overlapping tone has tosound clear.
This problem of getting clear texture is one that confronts student conductors:they have to learnto know every note of the music and how it should sound,and they have to aim at controlling thesesounds with fanatical but selfless authority.
Technique is of no use unless it is combined with musical knowledge and understanding.Greatartists are those who are so thoroughly at home in the language of music that they can enjoyperforming works written in any century.
(2)读入停用词列表与训练作文集中作文,对训练作文集中作文的单词进行词性标注,并输出它们的标注单词列表,作文“The Language ofMusic”的标注单词列表如下所示:
The Language of Music
A_at painter_nn hangs_vbz his_pp$or_cc her_pp$finished_vbn pictures_nns on_in a_atwall_nn,_,and_cc everyone_pn can_md see_vb it_ppo._.A_at composer_nn writes_vbz a_atwork_nn,_,but_cc no_at one_pn can_md hear_vb it_ppo until_cs it_pps is_bez performed_vbn._.Professional_jj singers_nns and_cc players_nns have_hv great_jj responsibilities_nns,_,for_inthe_at composer_nn is_bez utterly_ql dependent_jj on_in them_ppo._.A_at student_nn of_inmusic_nn needs_vbz as_ql long_jj and_cc as_ql arduous_jj a_at training_nn to_to become_vb a_atperformer_nn as_cs a_at medical_jj student_nn needs_vbz to_to become_vb a_at doctor_nn._.Most_ap training_nn is_bez concerned_vbn with_in technique_nn,_,for_in musicians_nnshave_hv to_to have_hv the_at muscular_jj proficiency_nn of_in an_at athlete_nn or_cc a_atballet_nn dancer_nn._.
Singers_np$practice_nn breathing_vbg every_at day_nn,_,as_cs their_pp$vocal_jj chords_nnswould_md be_be inadequate_jj without_in controlled_vbn muscular_jj support_nn._.String_vbgplayers_nns practice_vb moving_vbg the_at fingers_nns of_in the_at left_jj hand_nn up_rp and_ccdown_rp,_,while_cs drawing_vbg the_at bow_nn to_in and_cc fro_rb with_in the_at right_jjarm-two_nn entirely_ql different_jj movements_nns._.Singers_nns and_cc instruments_nnshave_hv to_to be_be able_jj to_to get_vb every_at note_nn perfectly_rb in_in tune_nn._.Pianists_nps are_ber spared_vbn this_dt particular_jj anxiety_nn,_,for_in the_at notes_nns are_beralready_rb there_rb,_,waiting_vbg for_in them_ppo,_,and__cc it_pps is_bez the_at piano_nntuner_nn’_nil s_nn$responsibility_nn to_to tune_vb the_at instrument_nn for_in them_ppo._.But_cc they_ppss have_hv their_pp$own_jj difficulties_nns;_.the_at hammers_nns that_wpshit_vbd the_at string_nn have_hv to_to be_be coaxed_vbn not_*to_to sound_vb like_cspercussion_nn,_,and_cc each_dt overlapping_vbg tone_nn has_hvz to_to sound_vb clear_jj._.
This_dt problem_nn of_in getting_vbg clear_jj texture_nn is_bez one_pn that_wps confronts_vbzstudent_nn conductors_nns:_:they_ppss have_hv to_to learn_vb to_to know_vb every_at note_nnof_in the_at music_nn and_cc how_wrb it_pps should_md sound_vb,_,and_cc they_pppss have_hvto_to aim_vb at_in controlling_vbg these_dts sounds_nns with_in fanatical_jj but_cc selfless_jjauthority_nn._.
Technique_nn is_bez of_in no_at use_nn unless_cs it_pps is_bez combined_vbn with_inmusical_jj knowledge_nn and_cc understanding_nn._.Great_jj artists_nns are_ber those_dtswho_wps are_ber so_ql thoroughly_rb at_in home_nn in_in the_at language_nn of_in music_nnthat_cs they_ppss can_md enioy_vb performing__vbg works_nns written_vbn in_in any_dticentury_nn._.
(3)如果单词列表没有结束,则通过正则表达式从标注单词列表中提取一个单词。若提取的单词是停用词,则从标注单词列表中删除该单词,并读取标注单词列表中下一个单词,否则统计训练作文集中出现该单词的作文数。如果该单词出现的作文数大于2,则该单词是特征词并添加该单词到特征词列表中,其中收集的5万篇不同题目的中国大学英语课本课文、中国大学英语四、六级作文范文、中国大学考研英语作文范文构成的训练作文集的特征词列表中部分内容如下所示:
ear_nn,odds_nns,edible_jj,waves_nns,agricultural_jj,ride_nn,bulb_nn,table_nn,acknowledges_vbz,weren_bed,treat_vb,fertile_jj,uncommon_jj,injuries_nns,retirement_nn,accordance_nn,flexibility_nn,rose_vbd,utterly_ql,authoritative_jj,pets_nns,historical_jj,elders_nns,wear_vb,banks_nns,accompany_vb,volunteer_vb,military_jj,founding_nn,exercise_nn,promises_vbz,actual_jj,profitable_jj,replace_vb,teaches_vbz,rod_nn,uncertainty_nn,guotuan_np,mushroomed_vbn,character_nn,spending_vbg,point_nn,breaks_vbz,aims_nns,cold_jj,bricks_nns,viewpoints_nns,visit_vb,event_nn,items_nns,glaciers_nns,idle_jj,method_nn,practice_vb,terrible_jj,breeze_nn,owned_vbn,illustrate_vb,hardest_jjt,preparations_nns,treat_nn,fourth_od,item_nn,result_vb,degree_nil,compared_vbn,won_jj,return_vb,individually_rb,final_jj,constructive_jj,modes_nns,inspires_vbz,shift_nn,trusted_vbn,mathematics_nn,difficulty_nn,closing_vbg,results_nns,stir_vb,states_nns,transmission_nn,climbing_vbg,graduates_nns,continent_nn,exercising_vbg,mastered_vbn,specialties_nns,feudal_jj,floods_nns,exposure_nn,souls_nns,demands_nns,ride_vb,accomplished_vbn,men_np,camera_nn,stretch_nn,initial_jj,humans_nns,amounted_vbn,wouldn_nil,mare_nn,charge_vb,typically_rb,colleges_nns,therapy_nn,congestion_nn,wavelengths_nns,spaceship_nn,worker_nn,professionals_nns,uncomfortable_jj,calamities_nns,fresh_jj,ondon r a_np,matches_nns,bored_vbn,destined_vbn,decline_vb,focuses_vbz,ondon_np,technologies_nn,hire_vb,sense_nn,smokers_nns,competent_jj,astonishing_jj,lucky_jj,beneficial_jj,wouldn_nns,strengthening_vbg,attraction_nn,lost_vbn,unit_nn,tradition_nn,lost_vbd,handsome_jj,sand_nn,admission_nn,promoted_vbn,chase_nn,legs_nns,sacrifices_nns,distance_nn,technique_nn,represents_vbz,relationships_nns,eras_nns,freely_rb,outing_nn,foot_nn,bumper_nn,difference_nn,thrown_vbn,spiritual_jj,developers_nns,senses_nns,amusement_nn,labels_nns,yellow_jj,attitude_nn,point_vb,unemployed_jj,enhanced_vbn,helping_vbg,demand_nn,controlled_jj,arts_nns,objective_nn,fact_nn,hungry_jj,dozens_nns,flexible_jj,absorb_vb,favored_vbn,expelled_vbn,ondon_np,fightened_vbn,stretch_vb,intense_jj,beautiful_jj,ondon r_np,addicted_vbn,voluntary_jj,due_rb,inventions_nns,metropolitan_jj,polite_jj,contest_nn,risks_nns,dwelling_nn,approaches_nns,tests_nns,recognition_nn,bring_vb,walking_vbg,ondon_np,habit_nn,twelve_cd,replaced_vbn,jiang_np,e-mail_nn,drivers_nns,proper_jj,decides_vbz,fertilizer_nn,collapse_nn,imported_vbn,proudly_rb,dioxide_nn,curious_jj,objective_jj,quicken_vb,worn_vbn,deng_np,bribes_nns,formed_vbn,amusing_jj,education_nn,applicant_nn,metal_nn,infastructure_nn,endless_jj,articles_nns,promotes_vbz,non-polluted_jj,broken_vbn,expense_nn,match_nn,setting_vbg,leaders_nns,……
(4)若读取单词标注列表结束,则从特征词列表中统计特征词词频,并根据所得到的特征词词频构建训练作文集的特征词-作文矩阵,其中收集的5万篇不同题目的中国大学英语课本课文、中国大学英语四、六级作文范文、中国大学考研英语作文范文构成的训练作文集的特征词-作文矩阵如下所示:
  1   0   0   1   0   0   0   0   0
  1   0   1   0   0   0   0   0   0
  1   1   0   0   0   0   0   0   0
  0   1   1   0   1   0   0   0   0
  0   1   1   2   0   0   0   0   0
  ...   ...   ...   ...   ...   ...   ...   ...   ...
  0   1   0   0   1   0   0   0   0
  0   1   0   0   1   0   0   0   0
  0   0   1   1   0   0   0   0   0
  0   1   0   0   0   0   0   0   1
  0   0   0   0   0   1   1   1   0
  0   0   0   0   0   0   1   1   1
  0   0   0   0   0   0   0   1   1
第二,构建训练作文语义空间
(1)收集的90篇不同题目的中国大学英语课本课文、中国大学英语四、六级作文范文、中国大学考研英语作文范文构成的满分作文集,下面是满分作文集中作文题目是“WhatElectives to Choose”的作文示例:
What Electives to Choose
Nowadays,there usually exists a wide selection of electives for college students to choose from.However,students have quite different plans?So they always end up learning courses based ontheir own ideas.
Some students may choose to learn a certain course in order to obtain an extra certificate for theirjob hunting after graduation.Because they assume that some more knowledge could ensure morechances of winning in finding a good job.Others may have their choice made just for fun.Theytend to hold the idea that college life could be more colorful if they could widen their knowledgethrough elective courses.
As far as I’m concerned,I’m inclined to choose electives based on both the value of the coursesand the interest of my own.
(2)读入满分作文集中作文,对满分作文集中作文的单词进行词性标注,并输出它的标注单词列表,下面是作文“What Electives to Choose”的标注单词列表。
Nowadays_rb,_,there_ex usually_rb exists_vbz a_at wide_jj selection_nn of_in electives_nnsfor_in college_nn students_nns to_to choose_vb from_in._np However_rb,_,students_nnshave_hv quite_ql different_jj plans_nns?_.so_cs they_ppss always_rb end_vb up_rp learning_vbgcourses_nns based_vbn on_in their_pp$own_jj ideas_nns._.
Some_dti students_nns may_md choose_vb to_to learn_vb a_at certain_jj course_nn in_inorder_nn to_to obtain_vb an_at extra_jj certificate_nn for_in their_pp$job_nn hunting_vbg after_ingraduation_nn._.Because_cs they_ppss assume_vb that_cs some_dti more_ap knowledge_nncould_md ensure_vb more_ap chances_nns of_in winning_vbg in_in finding_vbg a_at good_jjjob_nn._.Others_nns may_md have_hv their_pp$ choice_nn made_vbd just_rb for_in fun_nn._.They_ppss tend_vb to_to hold_vb the_at idea_nn that_cs college_nn life_nn could_md be_bemore_ql colorful_jj if_cs they_ppss could_md widen_vb their_pp$knowledge_nn through_inelective_jj courses_nns._.
As_ql far_rb as_cs I_ppss’_bem m_bem concerned_vbn,_,I_ppss’_bem m_beminclined_vbn to_to choose_vb electives_nns based_vbn on_in both_abx the_at value_nn of_inthe_at courses_nns and_cc the_at interest_nn of_in my_pp$own_jj._.
(3)通过正则表达式从标注单词列表中提取一个单词,若提取的单词是特征词,则统计它的词频。否则从标注单词列表中删除该单词,并读取标注单词列表下一个单词。如果读取单词标注列表结束,则构建满分作文集的特征词词频向量,收集的90篇不同题目的中国大学英语课本课文、中国大学英语四、六级作文范文、中国大学考研英语作文范文构成的满分作文集部分特征词词频向量如下所示:
0.0,1.0,0.0,0.0,1.0,0.0,3.0,0.0,0.0,0.0,1.0,0.0,0.0,2.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,3.0,1.0,0.0,2.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,2.0,0.0,0.0,1.0
(4)处理训练作文集的特征词-作文矩阵,并构建训练作文集的语义空间。其中收集的5万篇不同题目的中国大学英语课本课文、中国大学英语四、六级作文范文、中国大学考研英语作文范文构成的训练作文集语义空间主题分布向量部分数据如下所示:
0.10000000000000002,0.10000000000000002,0.09999999999999998,0.10000000000000002,0.10000000000000002,0.09999999999999994,0.1,0.09999999999999998,0.09999999999999999,0.09999999999999996
训练作文集的语义空间特征词分布向量部分数据如下所示:
0.0,0.0,2.3104059433666933E-4,0.0,0.0,0.0,3.79073712642451E-4,0.0,1.396387360784274E-4,0.0,0.0,0.0,0.0,0.0,2.051398424500576E-4,4.617325225372541E-124,0.0,2.557130286508114E-155,1.7269726067428078E-4,4.7099749196042185E-222,9.377596016594596E-4,3.826792776711087E-126,4.6269870931047087E-4,0.0,0.0,3.9234361239167586E-4,0.0,0.0,3.5445630822998736E-14,0.0,0.0,0.0,0.0,6.003526835487356E-4,0.0,0.0,0.0,0.0,4.2118458259727024E-4,1.5838616726475445E-4,5.83867686552013E-4,0.0,0.0,3.0748693159260206E-63,0.0,0.0,2.928013926338164E-4,6.160022684810207E-4,5.739855093352252E-4,2.2399400806901593E-4,5.298629182733358E-278,1.6758283017559816E-24,5.968809151536028E-4,1.5347217280689184E-160,0.0,0.0,0.0,0.0,6.081428195582997E-4,0.0,0.0159608403332779E-8,2.117508774805264E-57,3.331638760526554E-4,5.387962871303446E-113,0.0,0.0,0.0,3.1430166523312283E-4,0.0,0.0,0.0,0.0,5.326496130791357E-65,0.0,4.5660283761500146E-4,3.987677137337614E-178,6.523620133254861E-4
(5)映射满分作文集的特征词词频向量到训练作文集的语义空间,并构建满分作文集语义空间。其中满分作文集语义空间为:
2.1048344531412908E-35,4.236231273964853E-36,1.7220681543997666E-36,9.084148779561207E-37,4.598525107637358E-36,6.639263488434315E-36,1.573712871671752E-36,2.8130073442242834E-36,3.668408669374083E-36,3.812208155226934E-36
第三,待评分作文自动评分
(1)下面是一篇作文题目是“What Electives to Choose”待评分作文使用本发明方法评分实施结果。
What Elective to Choose
In order to cater for the need of student’s study,The university open a variety of electivecourses.Not only can it extends students filed of view,but also help them to find what they areinterested in.
Facing such abundant learning resources,students choose different elective courses because allkinds of reasons.Some of them may get suitable course,but there also a few can’t make it.
As a colleage student,the same problem bothers me.For example,because lacking of theNetwork equipment,I can’t elected course in time,so I missed the chance of studying UniversityStudents'Etiquette Education,which I eagerto learn.What’more,the school regulates us mustchoose a Situation and policy class,I had to choose the International Relations though I hate it.Besides,our scores can’t exceed32a term,we need more time to taking all the credit.In myopinion,the less barriers,the more get.The school should take measures to help studentschoocing more effective elective course.
(2)读入评分作文,并且对待评分作文进行句子分句与作文分段处理后,对待评分作文的单词词性进行标注并输出标注单词列表。待评分作文“What Electives to Choose”的标注单词列表如下所示:
In_in order_nn to_to cater_vb for_in the_at need_nn of_in student_nn’_nil s_nn$study_nn,_,The_at university_nn open_vb a_at variety_nn of_in elective_jj courses_nns._.Not_*only_rbcan_md it_pps extends_vbz students_nns filed_vbn of_in view_nn,_,but_cc also_rb help_vbthem_ppo to_to find_vb what_wdt they_ppss are_ber interested_vbn in_rp._.
Facing_vbg such_jj abundant_jj learning_vbg resources_nns,_,students_nns choose_vbdifferent_jj elective_jj courses_nns because_cs all_abn kinds_nns of_in reasons_nns._.Some_dtiof_in them_ppo may_md get_vb suitable_jj course_nn,_,but_cc there_ex also_rb a_at few_apcan_md’_rn t_rbt make_vb it_ppo._.
As_cs a_at colleage_nn student_nn,_,the_at same_ap problem_nn bothers_vbz me_ppo._.For_in example_nn,_,because_cs lacking_vbg of_in the_at Network_nn equipment_nn,_,I_ppss can_md’_rn t_rbt elected_vbn course_nn in_in time_nn,_,so_cs I_ppss missed_vbdthe_at chance_nn of_in studying_vbg University_nn Students'_nns$Etiquette_nn Education_nn,_,which_wdt I_ppss eager_jj to_to learn_vb._.What_wpo’_rn more_rbr,_,the_at school_nnregulates_vbz us_ppo must_md choose_vb a_at Situation_nn and_cc policy_nn class_nn,_,I_ppss had_hvd to_to choose_vb the_at International_jj Relations_nns though_cs I_ppss hate_vbit_ppo._.Besides_rb,_,our_pp$scores_nns can_md’_nil t_nil exceed_nil32_nil a_atterm_nn,_,we_ppss need_vb more_ap time_nn to_in taking_vbg all_abn the_at credit_nn._.In_in my_pp$opinion_nn,_,the_at less_ap barriers_nns,_,the_at more_ap get_vb._.The_atschool_nn should_md take_vb measures_nns to_to help_vb students_nns choocing_vbg more_qleffective_jj elective_jj course_nn._.
(3)如果单词标注列表没有结束,则通过正则表达式从标注单词列表中提取一个单词。如果提取的单词是特征词,则统计该单词的词频。否则从标注单词列表中删除该单词,并读取标注单词列表下一个单词。如果标注单词列表结束,则构建待评分作文语义空间。待评分作文“What Electives to Choose”的语义空间如下所示:
1.9966109661975638E-39,2.8627459377326613E-39,1.0657780723183122E-39,4.8482464202603464E-39,7.546014465648502E-39,5.225031995946507E-39,3.738615271793455E-39,7.233116503727976E-39,6.490352196551727E-39,3.3955837808029196E-39
(4)提取待评分作文的层次语言学特征、主题表达清晰度、语言表达流畅度、表达内容可读度评分参数。输出浅层次语言学特征、主题表达清晰度、语言表达流畅度、表达内容可读度的结果如下所示:
①浅层次语言学特征:
单词总数:173
不同的单词数:107
单词密度:0.618
复杂单词数:24
音节数>3的单词数:24
音节数>4的单词数:8
音节数>5的单词数:3
单词的平均音节数:1.555
由5个字母组成的单词数:63
由6个字母组成的单词数:45
由7个字母组成的单词数:28
由8个字母组成的单词数:13
单词的平均长度:4.607
句子数:10
句子的平均长度:17.300
段落数:3
②主题表达清晰度:9.414
③语言表达流畅度
句子与句子之间的平均连贯度:0.357
句子与段落之间的平均连贯度:0.530
句子与文本之间的平均连贯度:0.669
段落与文本之间的平均连贯度:0.903
④表达内容可读度
阅读难易度=6.975
理解难易度=57.730
写作的级别=9.505
(5)根据浅层次语言学特征、主题表达清晰度、语言表达流畅度、表达内容可读度计算待评分作文的分数。输出待评分作文的分数。
本发明方法评分分数是9.567
经检测验证,本发明方法与人工评分比较,差距很小,是可以被接受的:
选取了“What Electives to Choose”、“Haste Makes Waste”和“My View on FakeCommodities”三个题目的作文,每个题目下有三篇作文,分别给出本发明方法评分分数和人工评分分数,以比较本发明方法与人工评分之间的差异。
表4:机器得分与人工评分之间的比较
Figure BDA00001909603900171
从表4中可以看出题目为“What Electives to Choose”的作文第一篇待评分作文的人工评分与机器得分之间的差为:10-9.011=0.989,第二篇待评分作文的人工评分与机器得分之间的差为:9-8.576=0.424,第三篇待评分作文的人工评分与机器得分之间的差为:8-7.459=0.541,则题目为“What Electives to Choose”作文的人工评分与机器评分之间的平均误差为:(0.989+0.424+0.541)÷3≈0.651。题目为“Haste Makes Waste”的作文第一篇待评分作文的人工评分与机器得分之间的差为:12-11.549=0.451,第二篇待评分作文的人工评分与机器得分之间的差为:10-8.945=1.055,第三篇待评分作文的人工评分与机器得分之间的差为:9-8.423=0.577,则题目为“Haste Makes Waste”作文的人工评分与机器评分之间的平均误差为:(0.451+1.055+0.577)÷3≈0.694。题目为“My view on Fake Commodities”的作文第一篇待评分作文的人工评分与机器得分之间的差为:12-11.057=0.943,第二篇待评分作文的人工评分与机器得分之间的差为:10-9.456=0.544,第三篇待评分作文的人工评分与机器得分之间的差为:8-7.781=0.219,则题目为“My view on Fake Commodities”作文的人工评分与机器评分之间的平均误差为:(0.943+0.544+0.219)÷3≈0.569。从以上数据可以看出:人工评分与机器得分之间的差最小为0.219,最大为1.055,即人工评分与机器得分之间相差一分左右。其平均误差最小为0.569,最大为0.694。上述数据表明:第一,具体的每一篇作文的人工评分与机器得分相差1分左右,它们之间的差距是可以被接受的。第二,大量的批阅待评分作文时人工评分与机器得分的平均误差不大,也是可以被接受的。由此可以看出,本发明方法是可以胜任评分的工作的。

Claims (8)

1.一种不依赖人工预评分的大学英语作文自动评分系统,其特征是:该系统由训练作文特征词-作文矩阵生成模块、训练作文语义空间构建模块、待评分作文自动评分模块构成,训练作文特征词-作文矩阵生成模块中“构建特征词-作文矩阵”处理单元的处理结果“特征词-作文矩阵”,输入到训练作文语义空间构建模块中“构建训练作文集语义空间”处理单元,训练作文语义空间构建模块中“映射满分作文集特征词词频向量到训练作文集语义空间”处理单元的处理结果“满分作文集语义空间”,输入到待评分作文自动评分模块中“计算待评分作文分数”处理单元,系统输出待评分英语作文的分数。
2.根据权利要求1所述的不依赖人工预评分的大学英语作文自动评分系统,其特征是:所述的训练作文特征词-作文矩阵生成模块包括处理训练作文集单元,其工作流程是:
(S201)开始;
(S202)读入停用词列表;
(S203)读入训练作文集中作文;
(S204)标注训练作文集中作文的单词词性并输出它们的标注单词列表;
(S205)如果单词列表没有结束,则通过正则表达式从标注单词列表中提取一个单词;否则转(S208)操作;
(S206)如果提取的单词是停用词,则从标注单词列表中删除该单词,并读取标注单词列表中下一个单词,然后转(S205)操作;否则统计训练作文集中出现该单词的作文数;
(S207)如果该单词出现的作文数≥2,则该单词是特征词并添加该单词到特征词列表中;否则转(S205)操作;
(S208)从特征词列表中统计特征词词频,并根据所得到的特征词词频构建训练作文集的特征词-作文矩阵;
(S209)生成训练作文集的特征词-作文矩阵;
(S210)结束。
3.根据权利要求1所述的不依赖人工预评分的大学英语作文自动评分系统,其特征是:所述的训练作文语义空间构建模块包括构建训练作文集语义空间、处理满分作文集单元、映射满分作文集特征词词频向量到训练作文集语义空间单元,其工作流程是:
(S301)开始;
(S302)读入满分作文集中作文;
(S303)标注满分作文集中作文的单词词性并输出它们的标注单词列表;
(S304)如果标注单词列表没有结束,则通过正则表达式从标注单词列表中提取一个单词;否则转(S306)操作;
(S305)如果提取的单词是特征词,则统计它的词频;否则从标注单词列表中删除该单词,并读取标注单词列表下一个单词,然后转(S304)操作;
(S306)构建满分作文集的特征词词频向量;
(S307)处理训练作文集的特征词-作文矩阵,并构建训练作文集的语义空间;
(S308)映射满分作文集的特征词词频向量到训练作文集的语义空间,并构建满分作文集语义空间;
(S309)结束。
4.根据权利要求1所述的不依赖人工预评分的大学英语作文自动评分系统,其特征是:所述的待评分作文自动评分模块包括处理待评分作文、计算待评分作文分数,其工作流程是:
(S401)开始;
(S402)读入评分作文;
(S403)句子分句与作文分段处理;
(S404)标注待评分作文的单词词性并输出标注单词列表;
(S405)如果单词列表没有结束,则通过正则表达式从标注单词列表中提取一个单词;否则转(S407)操作;
(S406)如果提取的单词是特征词,则统计它的词频;否则从标注单词列表中删除该单词,并读取标注单词列表下一个单词,然后转(S405)操作;
(S407)构建待评分作文语义空间;
(S408)提取待评分作文的层次语言学特征、主题表达清晰度、语言表达流畅度、表达内容可读度评分参数;
(S409)输出浅层次语言学特征、主题表达清晰度、语言表达流畅度、表达内容可读度;
(S410)根据浅层次语言学特征、主题表达清晰度、语言表达流畅度、表达内容可读度计算待评分作文的分数;
(S411)输出待评分作文分数;
(S412)结束。
5.一种不依赖人工预评分的大学英语作文自动评分方法,其特征是:包括如下步骤:
(1)输入训练作文集,形成特征词-作文矩阵;
(2)输入满分作文集,形成满分作文集语义空间;
(3)输入待评分作文,该评分方法根据作文的浅层次语言学特征、主题表达清晰度、语言表达流畅度、表达内容可读度、评分权重评出作文分数。
6.根据权利要求1或5所述的不依赖人工预评分的大学英语作文自动评分系统及评分方法,其特征是:所述的主题表达清晰度的计算公式如下:
Figure FDA00001909603800031
其中:i是满分作文集中与待评分作文相同主题的作文序号,n为满分作文集作文总数,最高分数取值于作文评分标准中规定的最高作文得分。
7.根据权利要求1或5所述的不依赖人工预评分的大学英语作文自动评分系统及评分方法,其特征是:所述的待评分作文的表达内容可读性度的计算公式分别如下:
其中阅读难易度在[8,18]之间视为可读性好,否则视为可读性差,
理解难易度=201.85-(1.24x句子平均单词数)-(74.1+单词平均音节数)
其中理解难易度在[60,70]之间视为容易理解,否则视为难以理解,
写作的级别=(0.14x句子平均单词数)+(1.53x单词平均音节数)-5.37
其中写作的级别在[7,8]之间视为写作水平好,,否则视为写作水平差。
8.根据权利要求1或5所述的不依赖人工预评分的大学英语作文自动评分系统及评分方法,其特征是:所述的待评分作文分数权重计算时依赖待评分作文的浅层次语言学特征、语言表达流畅度、主题表达清晰度和表达内容可读度参数;其中本发明规定:主题表达清晰度在机器得分中所占比重是70%;语言表达流畅度在机器得分中所占比重是15%;表达内容可读度在机器得分中所占比重是10%;浅层语言学特征在机器得分中所占比重是5%,本发明规定的待评分作文机器得分计算公式如下:
机器得分=权重1x主题表达清晰度+权重2x语言表达流畅度+权重3x表达内容可读度+权重4x浅层次语言学特征,
其中:权重1=70%,权重2=15%,权重3=10%3,权重4=5%。
CN2012102516538A 2012-07-20 2012-07-20 不依赖人工预评分的大学英语作文自动评分系统及方法 Pending CN102831558A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012102516538A CN102831558A (zh) 2012-07-20 2012-07-20 不依赖人工预评分的大学英语作文自动评分系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012102516538A CN102831558A (zh) 2012-07-20 2012-07-20 不依赖人工预评分的大学英语作文自动评分系统及方法

Publications (1)

Publication Number Publication Date
CN102831558A true CN102831558A (zh) 2012-12-19

Family

ID=47334677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012102516538A Pending CN102831558A (zh) 2012-07-20 2012-07-20 不依赖人工预评分的大学英语作文自动评分系统及方法

Country Status (1)

Country Link
CN (1) CN102831558A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365838A (zh) * 2013-07-24 2013-10-23 桂林电子科技大学 基于多元特征的英语作文语法错误自动纠正方法
CN104572617A (zh) * 2014-12-30 2015-04-29 苏州驰声信息科技有限公司 一种口语考试偏题检测方法及装置
CN105183712A (zh) * 2015-08-27 2015-12-23 北京时代焦点国际教育咨询有限责任公司 一种用于对英语作文进行打分的方法以及装置
CN105224818A (zh) * 2015-11-10 2016-01-06 北京科技大学 一种作业程序自动评分方法及系统
CN105336235A (zh) * 2015-11-18 2016-02-17 浙江师范大学 一种用于智能学习系统的分值设定方法
CN106776550A (zh) * 2016-12-06 2017-05-31 桂林电子科技大学 一种英语作文语篇连贯质量的分析方法
CN106776551A (zh) * 2016-12-06 2017-05-31 桂林电子科技大学 一种英语作文情感观点的分析方法
CN106776549A (zh) * 2016-12-06 2017-05-31 桂林电子科技大学 一种基于规则的英语作文语法错误纠正方法
CN107506360A (zh) * 2016-06-14 2017-12-22 科大讯飞股份有限公司 一种文章评分方法及系统
CN107992613A (zh) * 2017-12-18 2018-05-04 广东广业开元科技有限公司 一种基于机器学习的文本挖掘技术消费维权指标分析方法
CN108241621A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 法律知识的检索方法及装置
CN108519975A (zh) * 2018-04-03 2018-09-11 北京先声教育科技有限公司 作文评分方法、装置及存储介质
CN109062887A (zh) * 2018-06-04 2018-12-21 昆明理工大学 一种基于平均感知器算法的词性标注方法
CN111104789A (zh) * 2019-11-22 2020-05-05 华中师范大学 文本评分方法、装置和系统
CN111160001A (zh) * 2019-12-23 2020-05-15 联想(北京)有限公司 一种数据处理方法及装置
CN111581392A (zh) * 2020-04-28 2020-08-25 电子科技大学 一种基于语句通顺度的自动作文评分计算方法
CN111832278A (zh) * 2020-06-15 2020-10-27 北京百度网讯科技有限公司 文档流畅度的检测方法、装置、电子设备及介质
CN111881694A (zh) * 2020-08-05 2020-11-03 科大讯飞股份有限公司 篇章要点检测方法、装置、设备及存储介质
CN116187339A (zh) * 2023-02-13 2023-05-30 首都师范大学 基于双塔模型进行特征语义融合的作文自动评分方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1700200A (zh) * 2005-05-30 2005-11-23 梁茂成 英语作文自动评分系统
US20070141544A1 (en) * 2003-11-28 2007-06-21 Katsuaki Nakane Apparatus for grading and evaluating compositional essays

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070141544A1 (en) * 2003-11-28 2007-06-21 Katsuaki Nakane Apparatus for grading and evaluating compositional essays
CN1700200A (zh) * 2005-05-30 2005-11-23 梁茂成 英语作文自动评分系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
唐进: "BETSY在自动作文评分中的原理与应用", 《当代外语研究》 *
韩宁: "几个英语作文自动评分系统的原理与评述", 《中国考试》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365838B (zh) * 2013-07-24 2016-04-20 桂林电子科技大学 基于多元特征的英语作文语法错误自动纠正方法
CN103365838A (zh) * 2013-07-24 2013-10-23 桂林电子科技大学 基于多元特征的英语作文语法错误自动纠正方法
CN104572617A (zh) * 2014-12-30 2015-04-29 苏州驰声信息科技有限公司 一种口语考试偏题检测方法及装置
CN105183712A (zh) * 2015-08-27 2015-12-23 北京时代焦点国际教育咨询有限责任公司 一种用于对英语作文进行打分的方法以及装置
CN105224818B (zh) * 2015-11-10 2018-09-25 北京科技大学 一种作业程序自动评分方法及系统
CN105224818A (zh) * 2015-11-10 2016-01-06 北京科技大学 一种作业程序自动评分方法及系统
CN105336235A (zh) * 2015-11-18 2016-02-17 浙江师范大学 一种用于智能学习系统的分值设定方法
CN107506360A (zh) * 2016-06-14 2017-12-22 科大讯飞股份有限公司 一种文章评分方法及系统
CN107506360B (zh) * 2016-06-14 2020-09-11 科大讯飞股份有限公司 一种文章评分方法及系统
CN106776549A (zh) * 2016-12-06 2017-05-31 桂林电子科技大学 一种基于规则的英语作文语法错误纠正方法
CN106776551B (zh) * 2016-12-06 2020-05-08 桂林电子科技大学 一种英语作文情感观点的分析方法
CN106776549B (zh) * 2016-12-06 2020-04-24 桂林电子科技大学 一种基于规则的英语作文语法错误纠正方法
CN106776550B (zh) * 2016-12-06 2019-12-13 桂林电子科技大学 一种英语作文语篇连贯质量的分析方法
CN106776551A (zh) * 2016-12-06 2017-05-31 桂林电子科技大学 一种英语作文情感观点的分析方法
CN106776550A (zh) * 2016-12-06 2017-05-31 桂林电子科技大学 一种英语作文语篇连贯质量的分析方法
CN108241621B (zh) * 2016-12-23 2019-12-10 北京国双科技有限公司 法律知识的检索方法及装置
CN108241621A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 法律知识的检索方法及装置
CN107992613A (zh) * 2017-12-18 2018-05-04 广东广业开元科技有限公司 一种基于机器学习的文本挖掘技术消费维权指标分析方法
CN108519975A (zh) * 2018-04-03 2018-09-11 北京先声教育科技有限公司 作文评分方法、装置及存储介质
CN108519975B (zh) * 2018-04-03 2021-09-28 北京先声教育科技有限公司 作文评分方法、装置及存储介质
CN109062887A (zh) * 2018-06-04 2018-12-21 昆明理工大学 一种基于平均感知器算法的词性标注方法
CN111104789A (zh) * 2019-11-22 2020-05-05 华中师范大学 文本评分方法、装置和系统
CN111104789B (zh) * 2019-11-22 2023-12-29 华中师范大学 文本评分方法、装置和系统
CN111160001A (zh) * 2019-12-23 2020-05-15 联想(北京)有限公司 一种数据处理方法及装置
CN111581392A (zh) * 2020-04-28 2020-08-25 电子科技大学 一种基于语句通顺度的自动作文评分计算方法
CN111581392B (zh) * 2020-04-28 2022-07-05 电子科技大学 一种基于语句通顺度的自动作文评分计算方法
CN111832278A (zh) * 2020-06-15 2020-10-27 北京百度网讯科技有限公司 文档流畅度的检测方法、装置、电子设备及介质
CN111832278B (zh) * 2020-06-15 2024-02-09 北京百度网讯科技有限公司 文档流畅度的检测方法、装置、电子设备及介质
CN111881694A (zh) * 2020-08-05 2020-11-03 科大讯飞股份有限公司 篇章要点检测方法、装置、设备及存储介质
CN116187339A (zh) * 2023-02-13 2023-05-30 首都师范大学 基于双塔模型进行特征语义融合的作文自动评分方法
CN116187339B (zh) * 2023-02-13 2024-03-01 首都师范大学 基于双塔模型进行特征语义融合的作文自动评分方法

Similar Documents

Publication Publication Date Title
CN102831558A (zh) 不依赖人工预评分的大学英语作文自动评分系统及方法
Steege Helmholtz and the modern listener
Wang Building societal capital: Chinese in the US
Yunusov Modern English
Yu et al. Early childhood English education in China
Althaqafi A Critical Review of Grammar Teaching Methodologies in the Saudi Context.
Vijaysimha ‘We are textbook badnekais!’: A Bernsteinian analysis of textbook culture in science classrooms
AR IMPROVING STUDENTS ABILITY IN SPEAKING DESCRIPTIVE TEXTBY USING MIND MAPPING
Elisa et al. A Classroom Action Research: The Use Of Chain Drill-Simulation For Teaching Speaking
Chokah Fifty years of the teaching/learning of French as a foreign language in Kenya: Challenges for teachers and learners
Cieri et al. Introducing nieuw: Novel incentives and workflows for eliciting linguistic data
Pimpuang et al. Efficiency of Educational Innovation to Enhance the Potential of Thai Conversation for Foreign Students at Kasetsart University
Jakubiak Mobility for all through English-language voluntourism
Doyle Creating mathematical models with structure
Svecova et al. Slovak as a foreign language-teaching language through stories and fairy tales
Gong Missionaries, reformers, and the beginnings of western music in late imperial China (1839-1911)
Nugraha et al. Mobile Application for Supporting English Language Learning for the Deaf Students
He et al. Narrative Understanding of Bilingualism
Ricart de Domingo The Main Difficulties for Spanish Speakers to Learn English. Phonics: a proposal
Paxton et al. Kanji Selection and Ordering in Beginner-Level Japanese Language Textbooks
Nampota Distribution of ‘science for all’and ‘science for scientists’ in the documentation of the integrated science curriculum in Malawi
Crappell et al. The ABCs of Gen X, Y (P), Z: A Column for Young Professionals: Considering The Benefits Of Collaborative Skills: An Interview With Timothy Hester
Bekele A modernising state and the emergence of modernist arts in Ethiopia (1930s to 1970s) with special reference to Gebre Kristos Desta (1932-1981) and Skunder Boghossian (1937-2003)
Oller Jr Practical ideas for language teachers from a quarter century of language testing
Datko EFL pronunciation training supported by online media sources

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20121219