CN107463866A - 一种用于成绩评价的识别手写实验报告的方法 - Google Patents
一种用于成绩评价的识别手写实验报告的方法 Download PDFInfo
- Publication number
- CN107463866A CN107463866A CN201610389442.9A CN201610389442A CN107463866A CN 107463866 A CN107463866 A CN 107463866A CN 201610389442 A CN201610389442 A CN 201610389442A CN 107463866 A CN107463866 A CN 107463866A
- Authority
- CN
- China
- Prior art keywords
- identification
- report
- word
- laboratory report
- hand
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Character Discrimination (AREA)
Abstract
一种用于成绩评价的识别手写实验报告的方法,其特征在于,包括以下步骤:S0:开始;S1:输入实验报告模板,将学生实验报告转化为电子图像;S2:对获取的学生实验报告电子图像进行预处理;S3:将学生实验报告电子图像分割成信息区和报告区;S4:对报告区进行图像相似度分析;S5:分别对信息区、报告区进行字符识别;S6:输出识别的文字结果、输出识别过程与结果的技术参数用于学生实验报告成绩评价;S7:结束。本发明大大地减少了教师的工作量,推进了教学的智能化。
Description
技术领域
本发明涉及学生成绩评价领域,更具体地涉及学生成绩智能评价技术领域。
背景技术
学生在做各种实验时通常会手写实验报告,然后教师对学生提交的手写实验报告采取人工批改的方式,主要的批改内容包括文字的准确性、书写的工整性、数据的准确性等。教师批改时要详细阅读后给予批改意见和成绩,工作量很大,劳动强度很高。此外教师很难保证统一标准予以批改,导致出现同等质量的报告而成绩不同的现象发生,学生成绩衡量失准。
目前对手写的作业、实验报告、试卷等的智能批改、自动批改还尚未普及,原因主要是涉及到手写文字的识别的准确率、文字内容的分数评定的问题。
现有的手写文字识别技术有以下方式,第一种方式是手写输入的识别,即联机手写体识别,人一边写,计算机一边识别,这是一种实时识别方式,结合笔画、笔顺,实时生成备选汉字,输入者选择正确文字;另一种是手写文字稿的识别,将大量已经生成的手写文字通过光学字符识别方式(OCR方式)予以识别,由于手写者的书写习惯、文字特征不同,实现自由手写体识别相当困难,识别时需要预先学习才能够识别相应手写者的文字,整体讲,识别率明显低于印刷字体,无法用于手写的作业、实验报告、试卷等的批改。
另外,就目前来说,文字内容的分数评定也存在问题。例如,得分点不固定。按得分点赋分可以分为两种:一种是按词,即写到一个固定的关键词就赋分;另一种是按意,即写到类似的意思就赋分。前者容易实现,单个语词读取在技术上没有太大困难。但后一种赋分方式需要实现语义的识别,这种技术还有很大的难题。
除了按点赋分问题外,还含有一些格式、逻辑、搭配问题,比如标题、抬头,落款等,也大大降低了文字内容的分数评定的准确性。
发明内容
本发明的目的是提供一种用于成绩评价的识别手写实验报告的方法。常见的汉字识别技术往往不能达到实际要求,而学生的实验报告是根据已有的标准实验报告模板所写,可作为识别的参照,可以大大提高识别的准确度。同时,将纸质报告转换为电子报告存档后,就不用占用大量的场地,节省教学资源,还有当需对某学生实验报告进行复查时,教师不需要在成堆的实验报告中寻找,而可以迅速查到学生的实验报告。
一种用于成绩评价的识别手写实验报告的方法,包括以下步骤:S0:开始;S1:输入实验报告模板,将学生实验报告转化为电子图像;S2:对获取的学生实验报告电子图像进行预处理;S3:将学生实验报告电子图像分割成信息区和报告区;S4:对报告区进行图像相似度分析;S5:分别对信息区、报告区进行字符识别;S6:输出识别的文字结果、输出识别过程与结果的技术参数用于学生实验报告成绩评价;S7:结束。
优选地,所述步骤(S2)中的预处理包括平滑去噪、倾斜校正。必要的时候也可以图像二值化。
通常,学生实验报告扫描图像可能会由于光线、纸张扫描设备的差异而有不同区别,且纸张的洁白度、油墨深浅、纸张摆放角度等对文字的识别都会有影响,因此在后续识别之前必须进行预处理。
在对图像进行预处理后,图像识别效果有较大提高。
学生实验报告有两个区域,信息区和报告区,信息区和报告区有着显著的差异。信息区在学生实验报告页面的上部,包含印刷体的姓名、学号、班级、实验名称等项目名称,项目名称周边有一填空处,填空处有时有下划线,学生在填空处填写相应的信息,有些还有条码、二维码等印刷体字符。报告区是学生手写的实验报告部分,包含实验目的,实验原理、实验器材、实验内容、实验数据、实验总结、思考和讨论等,有文字、图形、公式等多种形式。
优选地,所述步骤(S3)中将学生实验报告电子图像分割成信息区和报告区的方法如下:
(1)识别:将实验报告的文字、字符进行行切割、字切割,识别出印刷体项目名称;
(2)比对:将识别出的印刷体字符的信息和实验报告模板中的相应内容、实验数据库中的相应信息进行比对;
(3)划分:如果项目名称和实验报告模板中的相应内容相符,则将印刷体的项目名称所在的行作为信息区,将其余的行作为报告区,如果项目名称和实验报告模板中的相应内容不相符,则重新识别。
在所述步骤(S3)中的行切割、字切割可以采用任何可行的公知技术。
可能存在多个同学将同一份实验报告转化为电子图像,分别用作各自实验报告的情况,这种情况意味着报告存在真实性问题,因此需要进行真实性检验,保证每个同学独立完成各自的实验报告。
优选地,所述步骤(S4)中图像相似度分析方法如下:取不同的同一实验项目的实验报告,按照同一标准,将每份实验报告的报告区划分为若干个识别区域,将不同报告中对应的每个识别区域进行图像相似度分析,图像相似度大于图像相似阈值的识别区域记作为可疑区域,当可疑区域个数与识别区域个数的比值大于或等于真实性阈值时,则判定为存在报告真实性问题,按照预先设定的规则自动处理或者提交人工处理,其中划分的识别区域的个数介于1-100之间,真实性阈值介于0.1-1之间。
优选地,所述步骤(S5)中的字符识别包括根据信息区的印刷体字符、手写体文字的差异对信息区的字符进行识别(S51)和根据实验报告模板的内容对报告区的手写字符进行识别(S52)。
优选地,所述步骤(S51)中所述对信息区的字符进行识别的方法如下:
(1)识别:识别出印刷体字符的信息;
(2)印刷体字符判断:将识别出印刷体字符的信息和实验报告模板中的相应内容、实验数据库中的相应信息进行比对进行匹配;
(3)手写体文字判断:识别印刷体字符周边的手写文字,将识别结果和实验数据库中相应的信息进行比对、匹配,将匹配一致的文字信息存储起来用于后续步骤,对于无法匹配一致的文字信息,则对将结果和实验数据库中相应的信息进行比对,进行匹配,匹配一致的,将其储存用于后续步骤,无法匹配一致的,对所述信息区的手写文字重新进行识别,当重新切割识别次数超过重新识别次数阈值后仍然无法匹配一致的,则放弃识别,然后将输出识别失败信息到系统,然后按照预先设定的规则自动处理或者提交人工处理,其中,重新识别次数阈值介于1-30000之间,优选地,介于1-5000之间。
优选地,所述步骤(S52)中对报告区的手写字符进行识别的方法如下:
(1)版面分析:将报告区分成手写文字区、其他区域;
(2)文字区识别:对手写文字区进行识别,将切割出来的字识别出多个可能文字结果,选择出文字的识别相似度大于文字识别阈值的可能文字结果,将可能文字结果和实验报告模板中对应位置的字进行比较,选择与对应位置的字一致的字作为文字识别结果,如果可能文字结果中没有和其对应位置的字一致时,则重新进行切割、识别、比较,当重新切割识别次数超过重新识别阈值后仍然没有和对应位置的字一致时,输出识别相似度最高的文字作为识别结果,将输出识别失败信息到系统用于学生实验报告成绩的评价,开始识别其他切割出来的字。,其中,重新识别次数阈值介于1-30000之间,优选地,介于1-5000之间。
将识别的所有文字结果与实验报告模板比较,确定识别的文字结果与实验报告模板的相似程度。
确定相似程度的方法很多,例如论文查重系统。一种典型比较方式为将识别的文字结果按照顺序整合为一篇报告,和实验报告模板对比,查找出一致的文字的字数,将此字数除以实验报告模板的字数作为相似程度的定量数据。
优选地,所述步骤S6中,识别过程与结果的技术参数为下列参数中的一种或者几种的组合:
(1)识别的文字结果与实验报告模板的相似程度、(2)手写字符的识别失败比例、(3)手写字符识别时间、(4)识别准确率、(5)可疑区域个数和识别区域个数的比值。
优选地,将所述识别过程与结果的技术参数用于学生实验报告成绩评价的基本定量数据,识别的文字结果与实验报告模板的相似程度、识别准确率与成绩是正相关关系,手写字符的识别失败比例、手写字符识别时间、可疑区域个数和识别区域个数的比值,这三个技术参数与成绩是负相关关系。
上述方法中的阈值可以人为选择,也可以通过人工智能、机器学习的方法确定。
本发明有益的效果是:
1.本发明在原有汉字识别的基础上,利用实验报告的特殊性,即学生的实验报告是依据实验模板来写的,进而用实验模板来匹配学生实验报告的识别结果,可以使得汉字识别更加高效、准确,推进了教学的智能化步伐。
2.本发明将整个实验报告进行分块处理,划分为信息区和报告区,并将信息区、报告区进一步划分模块,使得识别的针对性更高,提高了识别效率。
3.本发明使用图像相似度分析对实验报告进行真实性比对,避免多人使用同一份实验报告情况的发生。
附图说明
图1为一种用于成绩评价的识别手写实验报告的方法的流程图。
具体实施方式
下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种用于成绩评价的识别手写实验报告的方法,包括以下步骤:S0:开始;
S1:输入实验报告模板,将学生实验报告转化为电子图像;S2:对获取的学生实验报告电子图像进行预处理;S3:将学生实验报告电子图像分割成信息区和报告区;S4:对报告区进行图像相似度分析;S5:字符识别;S6:输出识别的文字结果、输出识别过程与结果的技术参数用于学生实验报告成绩评价;S7:结束。
针对步骤S1,可以通过以下方式实现:即在任务开始时,对学生的实验报告进行扫描,得到学生实验报告电子图像,同时在系统中输入实验报告模板。学生的实验报告是在实验报告纸上的手写报告,通过外部设备,例如扫描仪、相机、手机等将手写报告转换为高分辨率的电子图像。实验报告的模板通常都有电子版的,例如word、TXT文档等。
针对步骤S2,可以通过以下方式实现:在对实验扫描图像进行预处理时,学生的实验扫描图像可能会由于光线、纸张扫描设备的差异而有不同区别,且纸张洁白度、油墨颜色深浅、纸张摆放角度等对文字的识别都有着影响,庞大的汉字数量,复杂的汉字结构,不同的书写风格导致汉字的识别比英文、拼音的识别更加困难,因此在后续汉字识别之前必须进行预处理。
首先平滑去噪,目的是消除图像中的各种噪声,常见的有频域法和空间域法。
这里采用空间域法,也即每一个像素点的像素均采用周围像素的平均值,这样对于图像的平滑去噪能起到很有效的作用。
然后,图像二值化,其目的是去掉图像中不必要的信息,并将图像转换为灰度图。如果图像二值化阈值过大会丢失原本的信息,如果图像二值化阈值太小会使页面残留有许多干扰信号,这里选用变化的动态全局阈值和静态局部阈值相结合的方法。
先通过整个图像的总体分析,选择一个合适的静态阈值,然后在每一格小的区域采用一个在静态阈值周围波动的动态局部阈值。
图像的倾斜校正,其目的是消除因图像摆放角度等导致学生实验报告的图像的角度不是水平竖直关系的问题,对此问题采用自动识别倾斜角并进行校正的方法。
通过整个页面的像素分析,在纸张摆放水平,图像采集也是水平的前提下,连续的一行文字在学生实验报告电子图像中表现为黑点的区域应该为一条带状的水平线,利用该原理,通过对每一块黑色区域角度统计并取平均的方法就可以求出倾斜的角度,然后在进行智能校正即可。
针对步骤S3,可以通过以下方式实现:在本步骤中通常切割分块,将整个视图分割为两块,一块为信息区,一块为报告区。将实验报告的文字、字符进行行切割、字切割,识别出印刷体的项目名称,将识别的印刷体的项目名称和实验报告模板中的相应内容进行比对,项目名称和实验报告模板中的相应内容相符的,将所述的印刷体项目名称所在的行作为信息区,将其余的行作为报告区。如果项目名称和实验报告模板中的相应内容不相符,则重新识别。
对于学生实验报告电子图像的切割分块主要是为了对不同信息的区别对待。对待信息区的信息,可以直接和学生的姓名、学号、实验项目等进行匹配,在匹配正确后对于学生信息登记、系统录入都有直接的作用,也就是说如果信息区的信息未能识别,那么即使报告区的信息识别正确也不能自动的录入信息,
步骤S4,可以通过以下方式实现:取不同的同一实验项目的实验报告,按照同一标准,将每份实验报告的报告区划分为若干个识别区域,将不同报告中对应的每个识别区域进行图像相似度分析,图像相似度大于图像相似阈值的识别区域记作为可疑区域,当可疑区域个数与识别区域个数的比值大于或等于真实性阈值时,则判定为存在报告真实性问题,按照预先设定的规则自动处理或者提交人工处理,其中划分的识别区域的个数介于1-100之间,真实性阈值介于0.1-1之间。
在一种实施例中,将每份实验报告的报告区划分为3个识别区域,对每份报告中对应的每个识别区域进行图像相似度分析。如上所述,图像相似度大于图像相似阈值的识别区域记做可疑区域,在本实施例中,真实性阈值为0.6,根据上述方法,则判定为存在报告真实性问题,提交人工处理。其他实施例在此不做详细的描述。
步骤S4是对于学生实验报告电子图像的真实性判别,主要是为了防止实验报告的重复使用。可能存在多个同学使用一份实验报告转化为电子图像,分别用作各自实验报告的情况,这种情况意味着报告存在真实性问题,因此需要进行真实性检验,保证每个同学独立完成各自的实验报告。
步骤S5、S6中,要对文字进行行切割、字切割。具体地,行切割是通过行段和间段的差异,将行段和间段分离开来,行段所对应的行对应文字行,间段所对应的行对应文字行之间的空白区域。
对文字进行行切时,信息区和报告区都要进行行切。信息区行数相对较少,印刷体字符识别准确性好,相对简单。报告区文字全部为手写区域,不同人的字迹、大小的差异十分明显,因此行切时也相对困难。
不失一般性,设电子图像的二值图像为f(i,j),电子图像的大小为Mx*My。
首先定义f(i,j)在i行上的投影函数为:
g(i)=,j=1,2,3,……,My,i=11,2,3,……,Mx
其中i,j是分别是像素点的坐标值。
显然g(i),j=1,2,3……,My,反映了电子图像的按行灰度累计密度分布情况。
通常,如果行图像处于行间隔,则以g(i)几乎为0,否则起码大于一个字的平均投影密度。这样,就可以在单字平均投影密度值和0之间选择一个投影阈值来对g(i)进行二值处理,形成二值序列。称序列中连续为1的子列为行段,连续为0的子列为间段,行段或间段中1或0的个数称为段长。
步骤S5、S6中,字切割是通过字段和字符间的差异将每一行的文字切割为单个文字,再将切分之后宽度相差较大的字段调整到适当较小的宽度。
在对文字进行字切时,在行切之后,就需要对已经行切的学生实验报告进行字切,将每一行的文字分为一个个单独的文字。在进行字切时,由于汉字复杂的结构,庞大的数量,学生书写的风格迥异,导致字切经常出现错误,因此字切也一直成为文字识别的难题。
不失一般性,f(i,j)在某一行j列上的投影函数为L(j),则投影函数L(j)为
L(j)= ;i=Nx1,Nx1+1,…,Nx2;j=1,2,3,……,My,
其中i,j是分别是像素点的坐标值,
Nx1为行切之后第Nx1行对应的一个边界,和第Nx0行相邻,Nx2是行切之后第Nx1行对应的另一个边界,和第Nx2行相邻。
设置一个字切阈值k,当L(i)大于k时,认定该行中该列为有字的区域,连续有字的区域定义为字段,连续无字的区域为字间断。
通过字段和字间断的差异将每一行的文字切割为单个的文字。同时没一个文字的字段宽度相差不应太大,都是相近的,再字切分之后,对于相差过大的字段可以进行适当调整。
针对步骤S5,字符识别包括根据信息区的印刷体字符、手写体文字的差异对信息区的字符进行识别(S51)、根据实验报告模板的内容对报告区的手写字符进行识别(S52)。
针对步骤S51,可以通过以下方式实现:
(1)识别:识别出印刷体字符的信息;
(2)印刷体字符判断:将识别出印刷体字符的信息和实验报告模板中的相应内容、实验数据库中的相应信息进行比对进行匹配,具体地为:当印刷体字符的信息与实验报告模板中的相应内容、实验数据库中的相应信息一致时,将识别出的印刷体字符的信息作为识别结果,保存识别后的结果用于评价学生实验报告成绩,当印刷体字符的信息与实验报告模板中的相应内容、实验数据库中的相应信息不一致时,则放弃识别,然后将输出识别失败信息到系统,然后按照预先设定的规则自动处理或者提交人工处理;
(3)手写体文字判断:识别印刷体字符周边的手写文字,将识别结果和实验数据库中相应的信息进行比对、匹配,将匹配一致的文字信息存储起来用于后续步骤,对于无法匹配一致的文字信息,则对所述信息区的手写文字重新进行识别,当重新切割识别次数超过重新识别次数阈值后仍然无法匹配一致的,则放弃识别,然后将输出识别失败信息到系统,然后按照预先设定的规则自动处理或者提交人工处理,其中,重新识别次数阈值介于1-30000之间,优选地,介于1-5000之间。
(1)识别:识别出印刷体字符的信息;
(2)比对:将识别出印刷体字符的信息和实验报告模板中的相应内容、实验数据库中的相应信息进行比对,当印刷体字符的信息与实验报告模板中的相应内容、实验数据库中的相应信息一致时,将识别出的印刷体字符的信息作为识别结果,保存识别后的结果用于评价学生实验报告成绩,当印刷体字符的信息与实验报告模板中的相应内容、实验数据库中的相应信息不一致时,则放弃识别,然后将输出识别失败信息到系统,然后按照预先设定的规则自动处理或者提交人工处理;
(3)手写体文字判断:在当印刷体字符的信息与实验报告模板中的相应内容、实验数据库中的相应信息一致时,识别印刷体字符周边的手写文字,将结果和实验数据库中相应的信息进行比本实施例中,在对手写体文字判断时,引入吻合阈值,即信息吻合比例是字符或者项目的个数与实验数据库中相应的信息中的字符或者项目的总个数一致的比例,对,当查找到信息吻合比例高于吻合阈值的学生时,并将该实验报告归属于该学生,其中,在本实施例中吻合阈值介于0.1-1之间;信息吻合比例是字符或者项目的个数与实验数据库中相应的信息中的字符或者项目的总个数一致的比例。
当无法查找到信息吻合比例高于吻合阈值的学生时,对所述信息区的手写文字重新进行识别,当重新切割识别的次数超过重新识别阈值后仍然没有信息吻合比例高于吻合阈值的学生时,则放弃识别,然后将输出识别失败信息到系统,然后按照预先设定的规则自动处理或者提交人工处理。
学生实验报告页面的上部有信息区,包含印刷体的姓名、学号、班级、实验名称等项目名称,项目名称后面有一填空处,学生在填空处填写相应的信息,姓名是张三,学号是201441609012,班级是化学1班,实验名称是电子天平的使用。
首先识别出“姓名”、“学号”、“班级”、“实验名称”等印刷体文字,将这些结果与实验报告模板中的相应内容进行比对,对比后结果一致,进行下一步。
继续识别手写文字,姓名是张三,识别结果为“张弛弧”、“三二王工”,学号是201441609012,识别结果为“201441609012、201441009012、201441609612”,班级是化学1班,识别结果为“化、他、代、什”、“学、当、字、孕”、“1、\、(、/、)”、“班、理、斑”,将上述项目的识别结果组合,组成“张三”、“张二”、“弛三”、“弧工”、“化学1班”、“他当(理”、“代字\斑”等各种结果,将上述结果和实验数据库中相应的信息进行比对,查找到的化学1班的学号是201441609012的张三,并将该实验报告归属于该学生。
本实施例中吻合阈值为1。,本实施例中,重新识别阈值设定为50次。
当无法查找到信息吻合比例高于吻合阈值的学生时,对所述信息区的手写文字重新进行识别,当多次重新切割识别后仍然没有信息吻合比例高于吻合阈值的学生时,则放弃识别,然后将输出识别失败信息到系统,然后按照预先设定的规则自动处理或者提交人工处理。
当识别出“姓名”、“学号”、“班级”、“实验名称”、“组别”、“日期”等印刷体文字,其中“组别”、“日期”与实验报告模板中的内容不一致,则放弃识别,然后将输出识别失败信息到系统,提交人工处理。
针对步骤S52,可以通过以下方式实现:
(1)版面分析:将报告区分成手写文字区、其他区域;
(2)文字区识别:对手写文字区进行识别,将切割出来的字识别出多个可能文字结果,选择出文字的识别相似度大于文字识别阈值的可能文字结果,将可能文字结果和实验报告模板中对应位置的字进行比较,选择与对应位置的字一致的字作为文字识别结果,如果可能文字结果中没有和其对应位置的字一致时,则重新进行切割、识别、比较,当重新切割识别次数超过重新识别阈值后仍然没有和对应位置的字一致时,输出识别相似度最高的文字作为识别结果,将输出识别失败信息到系统用于学生实验报告成绩的评价,开始识别其他切割出来的字。
在本发明中,重新识别次数阈值介于1-30000之间,优选地,介于1-5000之间,在本实施例中,重新识别阈值设定为5次。
例如实验报告模板中一句话为“实验原理的”,可以切割为“实、验、原、王、里、白、勺”、“实、验、原、理、白、勺”、“实、验、原、理、的”、“实、验、原、王、里、的”、“实、马、佥、原、理、的”等多种情形。
以识别成“实、验、原、理、白、勺”情形为例,“白”这个位置的图像还有可能被识别成“日”、“目”、“自”等多种选项,其中“白”、“日”、“自”高于文字识别阈值,取这些和实验报告模板中的“实验原理的”比较,没有一致的,重新切割识别,重新识别为“实、验、原、理、的”,“的”这个位置的图像还有可能被识别成“酌”、“们”、“的”等多种选项,其中“酌”、“的”高于文字识别阈值,取这些和实验报告模板中的“实验原理的”比较,“的”一致,识别的结果为“的”字。
如果学生错误写成“们”,“们”这个位置的图像还有可能被识别成“酌”、“们”、“的”等多种选项,其中“们”、“酌”高于文字识别阈值,取这些和实验报告模板中的“实验原理的”比较,没有一致的,“们”最相似,识别的结果为“们”字。同时输出识别失败的信息给系统用于学生实验报告成绩的评价,开始识别其他切割出来的字。
在本实施例中,所述步骤S6中,识别过程与结果的技术参数包括识别过程与结果的技术参数为下列参数中的一种或者几种的组合:
(1)识别的文字结果与实验报告模板的相似程度、(2)手写字符的识别失败比例、(3)手写字符识别时间、(4)识别准确率、(5)可疑区域个数和识别区域个数的比值。
在本实施例中,所述步骤S6中,将识别过程与结果的技术参数用于学生实验报告成绩的评价的基本定量数据,识别的文字结果与实验报告模板的相似程度、识别准确率、真实性与成绩是正相关关系,手写字符的识别失败比例、手写字符识别时间、可疑区域个数和识别区域个数的比值与成绩是负相关关系。
在本发明中,所述阈值可以人为选择,也可以通过人工智能、机器学习的方法确定,在本实施例中,所述阈值是人为选择的。
本发明有益的效果是:
1.本发明在原有汉字识别的基础上,利用实验报告的特殊性,也即学生的实验报告是依据实验模板来写的,进而用实验模板来匹配学生实验报告的识别结果,可以使得汉字识别更加高效、准确,推进了教学的智能化步伐。
2.本发明将整个实验报告进行分块处理,划分为信息区和报告区,并将信息区、报告区进一步划分模块,使得识别的针对性更高,提高了识别效率。
3.本发明对实验报告进行真实性比对,避免多人使用同一份实验报告情况的发生。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。
Claims (10)
1.一种用于成绩评价的识别手写实验报告的方法,其特征在于,包括以下步骤:
S0:开始;
S1:输入实验报告模板,将学生实验报告转化为电子图像;
S2:对获取的学生实验报告电子图像进行预处理;
S3:将学生实验报告电子图像分割成信息区和报告区;
S4:对报告区进行图像相似度分析;
S5:分别对信息区、报告区进行字符识别;
S6:输出识别的文字结果、输出识别过程与结果的技术参数用于学生实验报告成绩评价;
S7:结束。
2.根据权利要求1所述的一种用于成绩评价的识别手写实验报告的方法,其特征在于,所述步骤(S2)中的预处理包括平滑去噪、倾斜校正。
3.根据权利要求1所述的一种用于成绩评价的识别手写实验报告的方法,其特征在于,所述步骤(S3)中将学生实验报告电子图像分割成信息区和报告区的方法如下:(1)识别:将实验报告的文字、字符进行行切割、字切割,识别出印刷体的项目名称; (2)比对:将识别出的印刷体字符的信息和实验报告模板中的相应内容、实验数据库中的相应信息进行比对;(3)划分:如果项目名称和实验报告模板中的相应内容相符,则将印刷体的项目名称所在的行作为信息区,将其余的行作为报告区,如果项目名称和实验报告模板中的相应内容不相符,则重新识别。
4.根据权利要求1所述的一种用于成绩评价的识别手写实验报告的方法,其特征在于,所述步骤(S4)中图像相似度分析方法如下:
取不同的同一实验项目的实验报告,按照同一标准,将每份实验报告的报告区划分为若干个识别区域,将不同报告中对应的每个识别区域进行图像相似度分析,图像相似度大于图像相似阈值的识别区域记作为可疑区域,当可疑区域个数与识别区域个数的比值大于或等于真实性阈值时,则判定为存在报告真实性问题,按照预先设定的规则自动处理或者提交人工处理;其中,划分的识别区域的个数介于1-100之间,真实性阈值介于0.1-1之间。
5.据权利要求1所述的一种用于成绩评价的识别手写实验报告的方法,其特征在于,所述步骤(S5)中的的字符识别包括根据信息区的印刷体字符、手写体文字的差异对信息区的字符进行识别(S51)和根据实验报告模板的内容对报告区的手写字符进行识别(S52)。
6.根据权利要求5所述的一种用于成绩评价的识别手写实验报告的方法,所述步骤(S51)中所述对信息区的字符进行识别的方法如下:
(1)识别:识别出印刷体字符的信息; (2)印刷体字符判断:将识别出印刷体字符的信息和实验报告模板中的相应内容、实验数据库中的相应信息进行比对进行匹配; (3)手写体文字判断:识别印刷体字符周边的手写文字,将识别结果和实验数据库中相应的信息进行比对、匹配,将匹配一致的文字信息存储起来用于后续步骤,对于无法匹配一致的文字信息,则对所述信息区的手写文字重新进行识别,当重新切割识别次数超过重新识别次数阈值后仍然无法匹配一致的,则放弃识别,然后将输出识别失败信息到系统,然后按照预先设定的规则自动处理或者提交人工处理,其中,重新识别次数阈值介于1-30000之间,优选地,介于1-5000之间。
7.根据权利要求5所述的一种用于成绩评价的识别手写实验报告的方法,其特征在于,所述步骤(S52)中对报告区的手写字符进行识别的方法如下:
(1)版面分析:将报告区分成手写文字区、其他区域;
(2)文字区识别:对手写文字区进行识别,将切割出来的字识别出多个可能文字结果,选择出文字的识别相似度大于文字识别阈值的可能文字结果,将可能文字结果和实验报告模板中对应位置的字进行比较,选择与对应位置的字一致的字作为文字识别结果,如果可能文字结果中没有和其对应位置的字一致时,则重新进行切割、识别、比较,当重新切割识别次数超过重新识别阈值后仍然没有和对应位置的字一致时,输出识别相似度最高的文字作为识别结果,将输出识别失败信息到系统用于学生实验报告成绩的评价,开始识别其他切割出来的字,其中,重新识别次数阈值介于1-30000之间,优选地,介于1-5000之间。
8.根据权利要求1或4或6或7所述的一种用于成绩评价的识别手写实验报告的方法,其特征在于,识别过程与结果的技术参数为下列参数中的一种或者几种的组合: (1)识别的文字结果与实验报告模板的相似程度、(2)手写字符的识别失败比例、(3)手写字符识别时间、(4)识别准确率、(5)可疑区域个数和识别区域个数的比值。
9.根据权利要求8所述的一种用于成绩评价的识别手写实验报告的方法,其特征在于,将所述识别过程与结果的技术参数用于学生实验报告成绩评价的基本定量数据,识别的文字结果与实验报告模板的相似程度、识别准确率与成绩是正相关关系,手写字符的识别失败比例、手写字符识别时间、可疑区域个数和识别区域个数的比值,这三个技术参数与成绩是负相关关系。
10.根据权利要求4或6或7所述的一种用于成绩评价的识别手写实验报告的方法,其特征在于,所述阈值可以人为选择,也可以通过人工智能、机器学习的方法确定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610389442.9A CN107463866A (zh) | 2016-06-06 | 2016-06-06 | 一种用于成绩评价的识别手写实验报告的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610389442.9A CN107463866A (zh) | 2016-06-06 | 2016-06-06 | 一种用于成绩评价的识别手写实验报告的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107463866A true CN107463866A (zh) | 2017-12-12 |
Family
ID=60545563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610389442.9A Pending CN107463866A (zh) | 2016-06-06 | 2016-06-06 | 一种用于成绩评价的识别手写实验报告的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107463866A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344373A (zh) * | 2018-08-20 | 2019-02-15 | 中国平安人寿保险股份有限公司 | 基于智能匹配的报告生成方法及终端设备 |
CN109919153A (zh) * | 2019-02-22 | 2019-06-21 | 北京印刷学院 | 基于手写识别人工智能技术的自动单据录入系统及方法 |
CN111931828A (zh) * | 2020-07-23 | 2020-11-13 | 联想(北京)有限公司 | 一种信息确定方法、电子设备和计算机可读存储介质 |
CN112633950A (zh) * | 2021-01-06 | 2021-04-09 | 上海归程网络科技有限公司 | 一种移动数字营销效果评估系统 |
CN114444564A (zh) * | 2021-12-14 | 2022-05-06 | 广州锐竞信息科技有限责任公司 | 一种基于深度神经网络模型的高相似度论文图片比对方法 |
CN114690982A (zh) * | 2022-03-31 | 2022-07-01 | 呼和浩特民族学院 | 用于物理教学的智能教学方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101334814A (zh) * | 2008-04-28 | 2008-12-31 | 华北电力大学 | 一种自动化的扫描阅卷系统及阅卷方法 |
CN103985279A (zh) * | 2014-05-27 | 2014-08-13 | 北京师范大学 | 一种社会化的作业批阅和学生学习过程信息记录系统及方法 |
CN104143094A (zh) * | 2014-07-08 | 2014-11-12 | 北京彩云动力教育科技有限公司 | 一种无需答题卡的试卷自动阅卷处理方法及系统 |
US20150063699A1 (en) * | 2013-08-30 | 2015-03-05 | Konica Minolta Laboratory U.S.A., Inc. | Line segmentation method applicable to document images containing handwriting and printed text characters or skewed text lines |
CN104598702A (zh) * | 2013-10-31 | 2015-05-06 | 鸿富锦精密工业(深圳)有限公司 | 测试报告生成方法及系统 |
CN105373978A (zh) * | 2015-08-12 | 2016-03-02 | 高学 | 基于ocr的人工评判试卷处理装置及方法 |
-
2016
- 2016-06-06 CN CN201610389442.9A patent/CN107463866A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101334814A (zh) * | 2008-04-28 | 2008-12-31 | 华北电力大学 | 一种自动化的扫描阅卷系统及阅卷方法 |
US20150063699A1 (en) * | 2013-08-30 | 2015-03-05 | Konica Minolta Laboratory U.S.A., Inc. | Line segmentation method applicable to document images containing handwriting and printed text characters or skewed text lines |
CN104598702A (zh) * | 2013-10-31 | 2015-05-06 | 鸿富锦精密工业(深圳)有限公司 | 测试报告生成方法及系统 |
CN103985279A (zh) * | 2014-05-27 | 2014-08-13 | 北京师范大学 | 一种社会化的作业批阅和学生学习过程信息记录系统及方法 |
CN104143094A (zh) * | 2014-07-08 | 2014-11-12 | 北京彩云动力教育科技有限公司 | 一种无需答题卡的试卷自动阅卷处理方法及系统 |
CN105373978A (zh) * | 2015-08-12 | 2016-03-02 | 高学 | 基于ocr的人工评判试卷处理装置及方法 |
Non-Patent Citations (2)
Title |
---|
SIRVAN KHALIGHI,AND ETC: "A Novel OCR System for Calculating Handwritten Persian Arithmetic Expressions", 《2009 INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND APPLICATIONS》 * |
胡明晓: "一种带有抄袭识别的电子版实验报告管理系统", 《温州大学学报(自然科学版)》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344373A (zh) * | 2018-08-20 | 2019-02-15 | 中国平安人寿保险股份有限公司 | 基于智能匹配的报告生成方法及终端设备 |
CN109344373B (zh) * | 2018-08-20 | 2023-02-03 | 中国平安人寿保险股份有限公司 | 基于智能匹配的报告生成方法及终端设备 |
CN109919153A (zh) * | 2019-02-22 | 2019-06-21 | 北京印刷学院 | 基于手写识别人工智能技术的自动单据录入系统及方法 |
CN111931828A (zh) * | 2020-07-23 | 2020-11-13 | 联想(北京)有限公司 | 一种信息确定方法、电子设备和计算机可读存储介质 |
CN111931828B (zh) * | 2020-07-23 | 2024-03-01 | 联想(北京)有限公司 | 一种信息确定方法、电子设备和计算机可读存储介质 |
CN112633950A (zh) * | 2021-01-06 | 2021-04-09 | 上海归程网络科技有限公司 | 一种移动数字营销效果评估系统 |
CN114444564A (zh) * | 2021-12-14 | 2022-05-06 | 广州锐竞信息科技有限责任公司 | 一种基于深度神经网络模型的高相似度论文图片比对方法 |
CN114690982A (zh) * | 2022-03-31 | 2022-07-01 | 呼和浩特民族学院 | 用于物理教学的智能教学方法 |
CN114690982B (zh) * | 2022-03-31 | 2023-03-31 | 呼和浩特民族学院 | 用于物理教学的智能教学方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110766014B (zh) | 票据信息定位方法、系统及计算机可读存储介质 | |
CN111753767B (zh) | 一种作业自动批改的方法、装置、电子设备和存储介质 | |
US10846553B2 (en) | Recognizing typewritten and handwritten characters using end-to-end deep learning | |
JP5379085B2 (ja) | スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム | |
CN107463866A (zh) | 一种用于成绩评价的识别手写实验报告的方法 | |
US8494273B2 (en) | Adaptive optical character recognition on a document with distorted characters | |
CN107798321A (zh) | 一种试卷分析方法和计算设备 | |
Gebhardt et al. | Document authentication using printing technique features and unsupervised anomaly detection | |
CN104809481A (zh) | 一种基于自适应色彩聚类的自然场景文本检测的方法 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
CN112446259A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN106611174A (zh) | 一种非常见字体的ocr识别方法 | |
CN105184329A (zh) | 一种基于云平台的脱机手写识别方法 | |
CN106778717A (zh) | 一种基于图像识别和k近邻的测评表识别方法 | |
CN114550189A (zh) | 票据识别方法、装置、设备、计算机存储介质和程序产品 | |
RU2259592C2 (ru) | Способ распознавания графических объектов с использованием принципа целостности | |
KR101486495B1 (ko) | 사후 광학 문자 인식 처리에서의 형상 클러스터링 기법 | |
Suresh et al. | Telugu Optical Character Recognition Using Deep Learning | |
CN112508000B (zh) | 一种用于ocr图像识别模型训练数据生成的方法及设备 | |
Tomaschek | Evaluation of off-the-shelf OCR technologies | |
CN109522892A (zh) | 神经网络辅助的文字图像信息标注方法 | |
CN116030469A (zh) | 一种处理方法、装置、设备和计算机可读存储介质 | |
TWM618756U (zh) | 影像識別系統 | |
US10657404B2 (en) | Character recognition device, character recognition method, and character recognition program | |
CN114627457A (zh) | 一种票面信息识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171212 |