CN115205072A - 一种面向长周期测评的认知诊断方法 - Google Patents
一种面向长周期测评的认知诊断方法 Download PDFInfo
- Publication number
- CN115205072A CN115205072A CN202210630251.2A CN202210630251A CN115205072A CN 115205072 A CN115205072 A CN 115205072A CN 202210630251 A CN202210630251 A CN 202210630251A CN 115205072 A CN115205072 A CN 115205072A
- Authority
- CN
- China
- Prior art keywords
- diagnosis
- student
- cognitive
- cognitive diagnosis
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 148
- 230000001149 cognitive effect Effects 0.000 title claims abstract description 114
- 238000011156 evaluation Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012360 testing method Methods 0.000 claims abstract description 98
- 238000013528 artificial neural network Methods 0.000 claims abstract description 31
- 230000004044 response Effects 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 14
- 238000012512 characterization method Methods 0.000 claims abstract description 12
- 230000003993 interaction Effects 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 10
- 238000011835 investigation Methods 0.000 claims description 10
- 230000002452 interceptive effect Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 230000007774 longterm Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000002405 diagnostic procedure Methods 0.000 claims 1
- 238000005259 measurement Methods 0.000 abstract description 5
- 238000009825 accumulation Methods 0.000 abstract description 4
- 230000008859 change Effects 0.000 abstract description 2
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 230000005284 excitation Effects 0.000 description 5
- 238000012886 linear function Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000006998 cognitive state Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 241000675108 Citrus tangerina Species 0.000 description 1
- 241000404883 Pisa Species 0.000 description 1
- 208000037063 Thinness Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000013067 intermediate product Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 206010048828 underweight Diseases 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明属于教育数据挖掘领域,提供一种面向长周期测评的认知诊断方法,包括:(1)构建面向长周期测评的认知诊断框架;(2)融合提取到的学生特征、试题特征、交互特征和时序特征,获得最终的输入表征向量;(3)利用神经网络结构建模诊断算法,将步骤(2)获得的最终输入表征向量作为网络结构的输入,输出学生作答结果;诊断算法由神经网络结构与损失函数构成;(4)收集数据集,训练网络结构,预测学生作答反应;(5)根据具体应用场景,设计认知诊断系统获得学生的诊断报告。本发明方法分别满足不存在长周期测评数据积累的单次教育测量需求和有长周期测评数据积累的教育诊断需求,较好的解决了教育数据形式变化带来的新问题。
Description
技术领域
本发明属于教育数据挖掘领域,具体地说涉及一种面向长周期测评的认知诊断方法,用于智能诊断学习者的知识技能掌握程度。
背景技术
认知诊断理论作为新一代的教育测量理论,通过对学习者的认知加工过程进行建模,并挖掘学习者的潜在能力和技能状态,能够对学习者的薄弱知识技能进行及时反馈。精准的技能诊断结果也在许多的教育情境中得到应用,包括助力教师因材施教与学习者的个性化学习与资源推荐。
认知诊断模型是实现认知诊断的重要手段,目前已经越来越多的研究者致力于认知诊断模型的开发。传统的认知诊断模型通过不同的学习假设,对学生的作答过程进行概率建模,进而对学习者的技能掌握状态进行诊断。一方面,基于学习者的技能状态,一般可分为潜在的特征能力和特定的知识技能两种情况。基于学习者的潜在特征能力进行建模的认知诊断模型是以项目反应理论为代表,其特征是假设学习者的作答结果是受到学习者的潜在能力以及试题难度的影响,并将学生潜在的认知能力作为为连续参数进行建模。另一方面,基于特定的知识技能状态进行建模的认知诊断模型以连接的确定性输入噪声“与”门模型为代表模型,该模型将学生的认知状态建模为一个二元离散向量,向量的每个维度代表学生对某一特定知识能力的掌握程度,假设学习者只有掌握试题考察的所有知识点,才能答对该试题。传统的认知诊断根据学习者的答题记录来评估学生的技能、知识点掌握程度,综合分析学生学习能力和认知水平。虽然认知诊断理论的出现已经足以满足在理想状况下对学生的教育诊断需求,但教育测量模型仍有长足的改进空间。例如,主要与概率论相结合的CDT存在现实应用场景鲁棒性较低、可适用场景单一(局限于单次静态的考试)、存在缺失值的教育数据难以处理、教育数据总体利用率低下等仅在概率论的范畴内较难解决问题。受益于新一代信息科技的蓬勃发展,困扰着基于概率论的认知诊断难题在拥抱了以深度学习为代表的新一代信息技术之后迎刃而解。
为了利用认知诊断过程中试题的文本信息,相关研究者实现了基于神经网络的IRT模型;为使得主观问题的相关模糊能力量化成可能,研究者利用模糊集的相关概念实现认知诊断;在认知诊断与神经网络相结合的过程中,大量的研究工作更多地关注于提高学生正确答案的预测能力,而没有对认知诊断的中间产品(即学生技能掌握状态)进行深入的探索。虽然Neural CDM在诊断学生技能掌握情况方面也取得了一些成绩,但这些结果有些含糊,所有学生的技能掌握状态区分度较低,与实际情况不相符合。综上所述,虽然深度学习技术在认知诊断方面显现出独特的优势,但是如何解决深度学习的“黑盒”特性,增强诊断过程的可解释性成为了亟待解决的问题之一。
深度学习技术在认知诊断方面显现出独特的优势,但由于当前CDA更多的关注于学生的静态认知诊断状况,即采用横向认知诊断仅通过单次测试对学生进行诊断,导致教育测量依据仅局限于当前时刻的作答数据,忽视了学生长周期测评中的过程性数据。随着在线教育平台数据在总体教育数据占比逐年上升,历史作答记录被基于深度学习的CDA所忽视这一问题,愈发严重亟需解决。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种面向长周期测评的认知诊断方法,分别满足不存在长周期测评数据积累的单次教育测量需求和有长周期测评数据积累的教育诊断需求,并且覆盖了单次测试和多次测试的诊断场景,且都适用于传统教育数据集和线上教育数据集,较好的解决了教育数据形式变化带来的新问题。
本发明的目的是通过以下技术措施实现的。
一种面向长周期测评的认知诊断方法,包括以下步骤:
(1)构建面向长周期测评的认知诊断框架;包括特征提取、特征融合、面向单次测评的两级增强认知诊断建模与融合时序特征的面向多次测评的认知诊断建模;
(2)融合提取到的学生特征、试题特征、交互特征和时序特征,获得最终的输入表征向量;
(3)利用神经网络结构建模诊断算法,将步骤(2)获得的最终输入表征向量作为网络结构的输入,输出学生作答结果;诊断算法由神经网络结构与损失函数构成;
(4)收集数据集,训练网络结构,预测学生作答反应;
(5)根据具体应用场景,设计认知诊断系统获得学生的诊断报告。
在上述技术方案中,步骤(1)所述的“构建面向长周期测评的认知诊断框架”具体包括:
(1-1)特征提取,包括提取学生特征、试题特征、交互特征和时序特征,学生特征包括试题掌握程度,试题特征包括题目难度、区分度和Q矩阵(Q矩阵用于表示试题考察的知识点,列为知识点,行为试题,元素只取0或1的二值矩阵,例如第一题考察了知识点1,则第一行第一列标1,第一行其他列标0),交互特征包括猜测因子和失误因子,时序特征包括时间戳,即试题的作答时间;
(1-2)面向单次测评的两级增强认知诊断建模,从学生对试题的熟练程度和难度入手,计算出学生对测试所需的知识点掌握程度,然后通过失误门和猜测门进行过滤,矫正学生对试题的考察技能掌握程度,预测学生在测试上取得的最终得分;
(1-3)在面向单次测评的两级增强认知诊断模型基础上,融合提取到的时序特征建立面向多次测评的认知诊断建模,用以标注不同时间节点的测评对最终诊断结果的权重。
在上述技术方案中,步骤(2)中融合特征的具体方法包括:
(2-1)通过传统的IRT模型整合学生特征中试题掌握程度和试题特征中的题目难度、区分度和Q矩阵;
(2-2)将步骤(2-1)中整合后特征再融合猜测参数和失误参数得到面向单次测评的特征;
(2-3)将步骤(2-2)中得到的面向单次测评的特征融合时序特征得到最终的输入表征向量。
在上述技术方案中,步骤(3)中神经网络结构建模诊断算法具体包括:
(3-1)选择合适的网络结构,基于神经网络的强拟合能力对学生和试题双方进行拟合,再结合人工建模的参数估计的方式构建网络结构;
(3-2)随机初始化参数,包括初始化学生的试题掌握程度、初始化试题的难度和初始化猜测参数和失误参数;
(3-3)应用深度残差网络,在构建神经网络的过程中引入残差块,使得模型可以加强输入;
(3-4)采用实时计算各权重下误差梯度的方法,做梯度下降减小损失函数,以优化参数。
在上述技术方案中,步骤(4)中训练网络结构的具体方法包括:
(4-1)收集三个真实世界的数据集,即PISA2015、Math和Assist;
(4-2)在反馈神经网络结构中,选择交叉熵损失函数作为损失函数来度量预测值与真值之间的损失;
(4-3)执行反向传播,选择实时计算各权重下误差梯度方法用以更新参数;
(4-4)选择最优化算法optimizer.step()和反向传播算法backward()最小化损失函数。
在上述技术方案中,步骤(5)中设计的认知诊断系统包括:
用户管理模块,用于实现用户单次上传、批量上传和上传记录查询;
作答数据预处理模块,对传入的原始信息进行数据清洗和时序权重标注服务;
认知诊断呈现模块,使用面向单次测评的两级增强认知诊断模型与融合时序特征的面向多次测评的认知诊断模型对用户输入的作答信息和相应的标注进行融合学习,输出用户的试题掌握程度的模拟矩阵以及对预测答题的最终结果。
本发明面向长周期测评的认知诊断方法与现有技术相比,其有益效果在于:
1、针对传统认知诊断模型对于学生的学习过程性数据的建模能力不足的问题,本发明提出一个面向长周期测评的认知诊断框架,基于认知诊断理论,对学生与试题的多维特征进行表征,以及交互特征以及时序特征,进一步采用深度学习的方法对多维特征进行建模与训练,诊断学生的知识掌握状态,并对学生的将来表现进行预测。
2、面向长周期测评的认知诊断方法包括面向单次测评和面向多次测评的认知诊断方法,面向单次测评提出了两级增强,包含学生对试题的掌握程度的增强和加入猜测门和失误门的增强。面向多次测评的认知诊断方法是在面向单次测评基础上融合时序特征。该方法可以学习过往教育数据中相同考察技能矩阵的教育数据,并将时间维度本身作为可以影响认知诊断结果的信息量进行学习,用以标注不同时间节点的测评对最终诊断结果的权重。
3、设计并实现了一个面向长周期测评的认知诊断系统。通过将实现的面向单次测评和面向多次测评的认知诊断方法嵌入到系统的后台服务中,使之具备对答题记录的多时间截面进行认知诊断和预测的能力。
附图说明
图1为认知诊断的场景图。
图2为本发明中面向长周期测评的认知诊断框架示意图。
图3为诊断报告页面。
具体实施方式
本发明公开了一种面向长周期测评的认知诊断框架,主要通过不同的方法对学习者和测评试题进行表征,通过融合时序特征(时间权重)的方式将具备长周期测评数据结合试题和学生特征,对学生在t时刻所做出的测评作答反应赋予不同时间权重,并在结合后作为输入端传递给神经网络,从而得到该学习者在当前的试题掌握情况。具体来说,首先提出面向单次测评的两级增强诊断方法,利用融合后的学生特征、试题特征和交互特征,学习出学习者的掌握情况;之后,为融合历史信息充分利用教育数据,对具备时间戳的数据集的诊断结果赋予可解释性,提出了一种面向多次测评的认知诊断方法。最后设计并实现了一个面向长周期测评的认知诊断系统。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
(1)构建面向长周期测评的认知诊断框架
认知诊断的场景图如图1所示,利用学生作答信息学习出试题难度、区分度,学生对试题掌握程度和时序特征。利用这些特征和专家标注的Q矩阵建模,学习学生的试题掌握程度和学习者在当前的学习状态表示。
如图2所示,面向长周期测评的认知诊断框架包含特征提取、特征融合、建模诊断算法。其中特征包含学生特征(技能掌握程度)、试题特征(Q矩阵、难度、区分度)、交互特征和时序特征,其中单次认知诊断不考虑时序特征。特征融合将提取得特征进行聚合之后获得最终的输入表征向量,然后丢入深度神经网络进行训练。
(1-1)特征提取
根据特征的不同来源,可以将提取的特征分为:学生特征、试题特征、交互特征和时序特征。
(1-1-1)学生特征:在学生测评作答结果的过程中,每次测评作答结果都会依据学生当前的试题掌握程度,在本模型中即为学生的试题掌握程度Si=[α1,α2,...,αk]。
(1-1-2)试题特征:对于评测项目而言,其具备的潜在特征较为多元化。同一学生在考察相同技能的不同题目上测评反应会存在差异。Q矩阵不足以直接描述试题特征,因此选取了Q矩阵和难度矩阵作为试题特征。在试题技能难度矩阵的表征上,选用神经网络的拟合来提取试题难度特征,在神经网络的强大拟合能力支持下,可以通过学生作答数据来拟合考察难度,并将考察难度结合到后向反馈迭代中去,在提升指标的同时,使得拟合考察难度趋向于的真实考察难度。
(1-1-3)交互特征:在得到了学生和试题本身的特征后,需要进一步考虑两者之间的关系。交互本身也蕴含着可提取的特征,猜测系数和失误系数被认为是交互特征。
(1-1-4)时序特征:时间权重显然也需进行考量,学生在测评项目上作答时,才会产生对应的时间权重,用来标注当前作答对t时刻的潜在认知状态的影响权重。通过引入时间权重,可以在诊断中使用以往的测评数据,作为t时刻测评数据的有效补充。
(1-2)面向单次测评的两级增强认知诊断建模
为了达到准确诊断的目的,面向单次测评的两级增强认知诊断包含三部分:初始化参数、二级增强输入和深度诊断。
(1-2-1)初始化参数,以tensor paratmeter的形式初始化参数。初始化每个学生对每个概念的连续化掌握程度。这样的初始化模式可以为逆向反馈迭代提供更宽广的修正空间,使学生对每个知识点的掌握更接近真实值。
(1-2-2)在二级增强输入中,充分利用认知心理学的参数(难度、区分度、Q矩阵,掌握程度),增加和优化输入信息的维数(交互特征),不仅为神经网络训练参数提供可解释性和理论支持,而且提高了神经网络的训练效果。
两级增强主要功能是将各种随机生成的参数以HODINA公式的形式进行组合,然后将结果提供给下一步作为输入。使用一个两层模型来进行输入合成:
第一层通过αi和Q矩阵得到学生对试题的理想掌握情况。将第i个学生掌握的知识点与试题难度、j问题检验的相关知识点进行计算,得到ηij=(αi-kj)*qj,其中qj为专家标注矩阵用0-1的值将问题检验的相应知识点标记出来。
在第二层,根据认知诊断理论的影响因素,设置失误门(sj)和猜测门(gj)对信息进行过滤,优化学生对试题的掌握,得到输入矩阵E。
参数ηij∈[0,1]表示学生I对项目J的掌握程度。sj是失误门,它过滤了当学生已经掌握了问题所需要的所有知识点时,他/她依然回答错误的情况。gj是猜测门,过滤了当学生未能完全掌握问题所需要的所有知识点时,却依然回答正确的情况。通过两扇门的机制,增强了对学生的掌握知识点的拟合度。
(1-2-3)深度诊断,在前两者的基础上,利用神经网络的良好拟合来预测学生正确答案的概率。在这一过程中,逆向反馈可以得到丰富的中间结果。例如学生对某一具体知识的掌握程度,考题考试中知识点的难度等。这样的中间结论是对认知诊断的有益补充。
(1-3)面向多次测评的认知诊断建模
面向多次测评的认知诊断依据被试者的长周期诊断数据输出最终诊断预测的结果(如知识掌握状态结果、被试在测试项目作答预测上得分等)。面向多次测评的认知诊断由提取时序特征、混合输入、深度诊断组成。首先加工数据集的时间轴信息,其次在混合输入交互不同维度信息之间的内在关联,最后通过深度诊断进行学生认知状态建模。以以上的融合方式为最终诊断提供可优化信息空间,以填补当前时间段测试所未覆盖的技能掌握状况。
提取时序特征:所用的历史信息时序权重通过线性函数归一化处理获得,使用最早答题记录时间戳作为Tmin,当前诊断时间节点时间戳作为Tmax,待处理作答记录的对于时间戳为T,则可以通过线性函数归一化处理获得该记录在当前诊断节点上的时间权重为:
混合输入:混合输入会在学习被试者、测试项目、交换关系三方面的信息的基础上,通过拼接的方式接受时间权重的相关信息,最终统一作为输入传递给深度诊断。
为了更好的利用离散化的线上教育数据,在面向单次测评的两级增强认知诊断基础之上,引入学生作答的外在信息时间维度。面向多次测评的认知诊断在混合输入会拼接三个矩阵,分别是由面向单次测评的两级增强认知诊断方法提供的包含了Q矩阵、S\G(失误\猜测)、测试难度矩阵K等试题因素输出的试题矩阵E,代表学生内在因素的试题掌握程度矩阵S,以及由时间权重模块处理提供的T。
深度诊断:通过相应的网络结构和前馈传播、后向反馈,调整作答预测至最佳状态。深度诊断根据学生的测评项目的作答反应来预测学生在其他测评上的作答表现。
深度诊断是由神经网络结构与损失函数构成,它接受混合输入的最终输入,返回学生的作答反应。深度诊断的主要任务是在假设已知学生、测评项目和两者交互的情况下,拟合学生的知识技能掌握矩阵和预测学生在某测评上的作答反应。两者是同时进行的,基于神经网络的认知诊断模型在逐步提高对学生在评测上作答反应预测精度的同时,也在驱动学生的拟合知识技能掌握矩阵向真实掌握矩阵靠近。
(2)融合特征的不同表征
在得到了学生和测评项目、交互各特征的不同表征后,需要将所提取的特征聚合成一个整体的特征表示,以获得最终输入的表征向量xij。
参照传统认知诊断理论去结合不同维度的特征表征,以获取神经网络的参数可解释性,达到依据理论构建参数的目的。
xij=F[Si,Eij,Tij]
F代表着聚合多维特征的某一函数,Si,Eij,Tij分别代表学生在整体知识技能上的掌握程度、学生在测评项目上的作答预测、学生在测评项目上作答时间的表征,其中当数据集不存在长周期测评数据时,调用面向单次测评的认知诊断方法进行处理并忽视Tij。
(2-1)学生特征中试题掌握程度和试题特征中的难度、区分度和Q矩阵特征融合
在输入端的学生与评测项目交互表征xij中,xij也会依据不同的输入包含多类隐藏信息,xij=F[Si,Eij,Tij],Si=[α1,α2,...,αk]代表第i名学生在t时刻所掌握的知识技能程度,
通过αi和Q矩阵得到学生对试题的理想掌握情况。将第i个学生掌握的知识点与j问题检验的相关知识点进行计算,得到ηij=(αi-kj)*qj,表示综合考虑学生掌握程度和试题考察难度以及Q矩阵的情况下,第i名学生在第j个知识技能上的反应。
(2-2)融合猜测参数和失误参数
根据认知诊断理论的影响因素,设置失误门(sj)和猜测门(gj)对信息进行过滤,优化学生对试题的掌握,得到输入矩阵E。
参数ηij∈[0,1]表示学生I对项目J的掌握程度。
(2-3)融合时序特征
依据每条作答信息的时间戳进行相应的线性函数归一化处理,在将时间戳转换成时间权重后,再通过全连接层进行投射至相应适宜的维度空间以供混合输入使用。
认知诊断的任务有两个:(1)预测学生在当前时刻t对于知识技能的掌握程度S=[α1,α2,...,αk]。(2)预测学生在同属Q矩阵上的未知测评中作答反应情况。因此,认知诊断的目标函数可以表示为:
其中xij包含学生、测评项目以及两者交互三方面信息,学生维度有αk,测评项目有项目对应的qj,代表试题难度的kj,试题与样本学生共同组成的sj、gj。F表示面向长周期测评的认知诊断函数,αk代表学生在知识点k上掌握程度,代表其t时刻对于知识技能的掌握程度,表示学生第t时刻在考察了技能k的试题j上的得分。
(3)构建面向长周期的认知诊断网络
(3-1)选择合适的网络结构
基于神经网络的强拟合能力对学生和试题双方进行拟合。既有拟合参数再结合人工建模的参数估计的方式,也有直接拟合全部过程的端到端模式,且拟合的参数多样化。从试题困难度、猜测失误系数到区分度等传统认知诊断常用参数,也有试题文本表征、知识点关系图表征等仅限于深度学习领域的新兴参数。网络结构具体公式如下:
f1=φ(w1×xT+b1)
f2=φ(w2×f1+b2)
f3=[xT,f2]
y=φ(W3×f3+b3)
其中,f1、f2为第一、第二全连接层的输出,f3为残差网络的输出,也是对f2和x的拼接。Wi为各全连接层的权重参数,bi为其偏置参数,y为最终输出预测结果。
(3-2)随机初始化参数
参数取自认知诊断模型HODINA模型,并在神经网络中以适当的数据形式表示。假设一个技能测试,有J个问题的测试题,测试K个技能,由I个学生回答。
矩阵Q={qjk}J×K是试题与技能的关联矩阵,qjk=1表示试题j考察技能k,qjk=0表示试题j不考察技能k。学生回答矩阵Yi={yij}I×j,yij=1表示学生I正确回答了问题j,否则yij=0。要构建模型,初始化以下参数:
问题初始化:初始化试题难度矩阵K={kjk}j×R,kjk∈[0,1]表示技能K在问题J中应用的难度系数。随机初始化两个参数向量S和G,分别表示被试的误差系数和猜测系数。S=[s1,s2,...,sj],G=[g1,g2,…,gj]分别为检验j的误差系数和猜测系数。
学生初始化:初始化学生i的技能掌握模式αi={αik},αik∈[0,1]表示学生i对技能k的掌握状态。
(3-3)应用深度残差网络
深度残差网络是在构建神经网络的过程中引入残差块,用以加强输入。残差模型以X为输入,通过多层隐藏层后得到映射X2,利用拼接方式,直接将X和X2进行拼接作为整体输入到输出层中。
(3-4)采用实时计算各权重下误差梯度
它是一种结合优化方法(如梯度下降等)训练神经网络的经典方法,由激励传播和权值更新两部分组成。
在激励传播阶段,每次迭代分两步进行:
1)将训练结果输入网络,获得激励响应;
2)将激励响应与对应的输出目标进行差分,得到输出层和隐含层的响应误差。
在权值更新阶段,对每个权值进行两个步骤:
1)将输入的激励和响应误差相乘,得到权值梯度;
2)使用这个梯度乘以学习速率,然后取其逆,并将其加到权值。
(4)收集数据集,训练网络结构
(4-1)收集三个真实世界的数据集,即PISA2015、Math和Assist
Math数据集由客观问题和主观问题组成,包含了15个客观题和5个主观题。PISA2015由17道客观题组成。Assist由123道客观题组成。每个数据集由教育专家使用评分矩阵和给定的考察技能Q矩阵表示。主观题和客观题都在预测模型中完成了回答预测。
Math:Math是某次高中生期末数学考试的数据集,由客观题与主观题作答数据组成,是传统静态单次测试数据集之一。
PISA2015:PISA是全球权威的在线测试,项目高质量。本方法选取17个经过计算机评分的二分类项目进行分析。
Assist:Assist是一个开放的数据集,它只提供学生响应日志和试题对应知识概念。
(4-2)选择交叉熵损失函数作为损失函数
在反馈神经网络的结构中,选择交叉熵损失函数(Cross Entropy LossFunction)作为损失函数来度量预测值与真值之间的损失,并通过追求较低的损失值来证明模型的有效性。Cross Entropy Loss Function公式可以描绘为:
(4-3)执行反向传播,选择实时计算各权重下误差梯度方法用以更新参数
前面融合试题特征难度、区分度和学生特征试题掌握程度以及猜测参数和失误参数得到X,公式表示如下:
接收到混合输入X后,将X转移到第一全连接层(Linear层)。X在第一全连接层经过线性映射得到z1,再通过sigmoid激活函数进行处理得到X1。然后传输X1进入第二全连接层,重复上述步骤。重复linear-sigmoid处理两次后,得到了映射产物X2。公式描述如下:
Xi+1=sigmoid(zi)
在本实施例中,反向传播起到了更新参数进行拟合的作用,ΔWij为参数的更新公式,公式描述如下:
变量Wij表示i和j之间的神经元权重,定义ΔWij为权重更新,η为学习速率,表示平方误差函数的偏导数。Xi为当前神经元的输出,δj为当前层的j神经元产生的误差(即实际值与预测值之间的误差)。通往神经元j的输入部分Xi是由上层神经元I的输出Xi的加权和得到的。
(4-4)选择最优化算法optimizer.step()和反向传播算法backward()最小化损失函数
Wij=Wij+ΔWij,故Wij=Wij—ηXiδj
(5)设计认知诊断系统获得学生的诊断报告
系统采用Web形式搭建,使用的B/S框架,由三个模块组成,分别为用户管理、作答数据预处理、认知诊断。其中用户管理包含两个功能:诊断结果可视化呈现和用户上传服务(如上传和上传记录查询)。作答数据预处理模块包含以下两类功能:作答数据清洗、自动标注时序。在认知诊断模块则主要提供单次认知诊断和全局认知诊断两个功能。
系统功能模块主要包含:用户管理模块、作答数据预处理模块和认知诊断模块。用户管理模块的主要功能是提供用户单次上传、批量上传和上传记录查询,认知诊断模块处理的诊断报告也会呈现在用户页面下。作答数据预处理模块会对传入的原始信息进行数据清洗和时序权重标注服务。
(5-1)用户管理模块
用户管理模块为用户提上传相关功能和用户诊断报告的。单次上传和多次上传功能分别对应不同的用户身份,该用户既可能是学生个体也可能是教师个体,前者通常单次上传即可满足,后者则批量操作更为方便。同样出自用户身份不同层面的考虑,用户诊断报告可视化方面,
(5-2)作答数据预处理模块
作答数据预处理模块主要是为用户提供数据清洗以及时间权重标注服务,数据清洗的主要内容包含检测作答信息一致性(如得分为负或超出分数段)、处理无效作答信息(如答题信息user_id字段为空)和缺失值(答题信息score字段为空)等情况。而时间权重标注则根据系统当前时间,采用线性函数归一化的方式计算处理并存储在对应用户答题信息的time_weight字段,作为训练信息融合的一部分。
(5-3)认知诊断呈现模块
认知诊断呈现模块主要是使用了面向单次测评的两级增强认知诊断方法为单次认知诊断提供服务,和使用了融合历史的认知诊断方法为长周期测评的认知诊断做功能支撑。后台方法分为自动训练和诊断预测两个部分。自动训练是指部署在线上服务器部分的已有模型和最优权重参数文件会不断根据新上传的作答信息,继续进行更优化的训练,在贴近更优预测效果的同时,确保诊断结果更接近于最新的作答结果。
诊断预测是指后台模型根据用户选择调用不同的方法去处理。在认知诊断过程中,当前系统的瞬时状态对需要诊断的用户信息进行模拟权重的汇总以及预备预测题目的预测结果进行可视化呈现。在此过程中,模型只会执行前向传导和参数输出,因为没有反向传播的过程,并不会更新当前的参数矩阵。
如图3所示,用户诊断报告页面汇总了试题信息和被测人员两方面的信息,其中试题信息来自于用户上传,被测人员信息来源于认知诊断模块生成。试题信息方面,除了基础的考察点可视化外,系统还会提供统计学信息,通过红橘蓝三色标注出知识点对应的总体表现情况。被测人员则是以雷达图的形式展现个人或者班级在各个知识点维度上的表现情况。
用户可以通过切换页面标签的形式选定不同的诊断模式,单次诊断将基于整个用户的上传记录库和矩阵参数模型进行结果输出,过程性诊断将基于指定诊断日期重新生成时间权重进行前向反馈输出,两者最终的展现形式都是雷达图和表格汇总。该页面提供其所有作答信息汇总,每道知识点练习得分率,以知识树的形式总结归纳为图表。提供此页面,用户可以查看自己近期知识点专项练习情况,可以针对均分较低的知识点增强练习。知识点雷达图则能帮助用户根据自己的弱点去调整训练方向和强度。
本说明书中未作详细描述的内容,属于本专业技术人员公知的现有技术。
应当说明的是,以上包含的本发明实例内容说明,是为了详解释本发明的技术特征。在不脱离本发明的前提下,所作出的若干改进和修饰也受本发明的保护,因此本发明的保护范围应当以本申请的权利要求所界定的内容为标准。
Claims (6)
1.一种面向长周期测评的认知诊断方法,其特征在于该方法包括以下步骤:
(1)构建面向长周期测评的认知诊断框架;包括特征提取、特征融合、面向单次测评的两级增强认知诊断建模与融合时序特征的面向多次测评的认知诊断建模;
(2)融合提取到的学生特征、试题特征、交互特征和时序特征,获得最终的输入表征向量;
(3)利用神经网络结构建模诊断算法,将步骤(2)获得的最终输入表征向量作为网络结构的输入,输出学生作答结果;诊断算法由神经网络结构与损失函数构成;
(4)收集数据集,训练网络结构,预测学生作答反应;
(5)根据具体应用场景,设计认知诊断系统获得学生的诊断报告。
2.根据权利要求1所述的面向长周期测评的认知诊断方法,其特征在于步骤(1)所述的“构建面向长周期测评的认知诊断框架”具体包括:
(1-1)特征提取,包括提取学生特征、试题特征、交互特征和时序特征,学生特征包括试题掌握程度,试题特征包括题目难度、区分度和Q矩阵,交互特征包括猜测因子和失误因子,时序特征包括时间戳,即试题的作答时间;
(1-2)面向单次测评的两级增强认知诊断建模,从学生对试题的熟练程度和难度入手,计算出学生对测试所需的知识点掌握程度,然后通过失误门和猜测门进行过滤,矫正学生对试题的考察技能掌握程度,预测学生在测试上取得的最终得分;
(1-3)在面向单次测评的两级增强认知诊断模型基础上,融合提取到的时序特征建立面向多次测评的认知诊断建模,用以标注不同时间节点的测评对最终诊断结果的权重。
3.根据权利要求1所述的面向长周期测评的认知诊断方法,其特征在于步骤(2)中融合特征的具体方法包括:
(2-1)通过传统的IRT模型整合学生特征中试题掌握程度和试题特征中的题目难度、区分度和Q矩阵;
(2-2)将步骤(2-1)中整合后特征再融合猜测参数和失误参数得到面向单次测评的特征;
(2-3)将步骤(2-2)中得到的面向单次测评的特征融合时序特征得到最终的输入表征向量。
4.根据权利要求1所述的面向长周期测评的认知诊断方法,其特征在于步骤(3)中神经网络结构建模诊断算法的具体包括:
(3-1)选择合适的网络结构,基于神经网络的强拟合能力对学生和试题双方进行拟合,再结合人工建模的参数估计的方式构建网络结构;
(3-2)随机初始化参数,包括初始化学生的试题掌握程度、初始化试题的难度和初始化猜测参数和失误参数;
(3-3)应用深度残差网络,在构建神经网络的过程中引入残差块,使得模型可以加强输入;
(3-4)采用实时计算各权重下误差梯度的方法,做梯度下降减小损失函数,以优化参数。
5.根据权利要求1所述的面向长周期测评的认知诊断方法,其特征在于步骤(4)中训练网络结构的具体方法包括:
(4-1)收集三个真实世界的数据集,即PISA2015、Math和Assist;
(4-2)在反馈神经网络结构中,选择交叉熵损失函数作为损失函数来度量预测值与真值之间的损失;
(4-3)执行反向传播,选择实时计算各权重下误差梯度方法用以更新参数;
(4-4)选择最优化算法optimizer.step()和反向传播算法backward()最小化损失函数。
6.根据权利要求1所述的面向长周期测评的认知诊断方法,其特征在于步骤(5)中设计的认知诊断系统包括:
用户管理模块,用于实现用户单次上传、批量上传和上传记录查询;
作答数据预处理模块,对传入的原始信息进行数据清洗和时序权重标注服务;
认知诊断呈现模块,使用面向单次测评的两级增强认知诊断模型与融合时序特征的面向多次测评的认知诊断模型对用户输入的作答信息和相应的标注进行融合学习,输出用户的试题掌握程度的模拟矩阵以及对预测答题的最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210630251.2A CN115205072A (zh) | 2022-06-06 | 2022-06-06 | 一种面向长周期测评的认知诊断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210630251.2A CN115205072A (zh) | 2022-06-06 | 2022-06-06 | 一种面向长周期测评的认知诊断方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115205072A true CN115205072A (zh) | 2022-10-18 |
Family
ID=83577213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210630251.2A Pending CN115205072A (zh) | 2022-06-06 | 2022-06-06 | 一种面向长周期测评的认知诊断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205072A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556381A (zh) * | 2024-01-04 | 2024-02-13 | 华中师范大学 | 一种面向跨学科主观试题的知识水平深度挖掘方法及系统 |
-
2022
- 2022-06-06 CN CN202210630251.2A patent/CN115205072A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556381A (zh) * | 2024-01-04 | 2024-02-13 | 华中师范大学 | 一种面向跨学科主观试题的知识水平深度挖掘方法及系统 |
CN117556381B (zh) * | 2024-01-04 | 2024-04-02 | 华中师范大学 | 一种面向跨学科主观试题的知识水平深度挖掘方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109919810A (zh) | 在线学习系统中的学生建模与个性化课程推荐方法 | |
Mislevy et al. | Psychometric principles in student assessment | |
CN108228674B (zh) | 一种基于dkt的信息处理方法及装置 | |
CN110516116A (zh) | 一种多步分层的学习者认知水平挖掘方法及系统 | |
CN112529155A (zh) | 动态知识掌握建模方法、建模系统、存储介质及处理终端 | |
Fazlollahtabar et al. | User/tutor optimal learning path in e-learning using comprehensive neuro-fuzzy approach | |
Wang et al. | A unified interpretable intelligent learning diagnosis framework for learning performance prediction in intelligent tutoring systems | |
Giabbanelli et al. | Overcoming the PBL assessment challenge: Design and development of the incremental thesaurus for assessing causal maps (ITACM) | |
Tian | Teaching effect evaluation system of ideological and political teaching based on supervised learning | |
Almohammadi et al. | Users-centric adaptive learning system based on interval type-2 fuzzy logic for massively crowded E-learning platforms | |
CN114429212A (zh) | 智能学习知识能力跟踪方法、电子设备及存储介质 | |
Almohammadi et al. | An interval type-2 fuzzy logic based system for customised knowledge delivery within pervasive e-learning platforms | |
CN115205072A (zh) | 一种面向长周期测评的认知诊断方法 | |
CN114676903A (zh) | 一种基于时间感知和认知诊断的在线预测方法及系统 | |
Bhusal | Predicting Student's Performance Through Data Mining | |
CN117807422A (zh) | 一种基于多层注意力网络的高阶认知诊断方法 | |
CN114117033B (zh) | 知识追踪方法及系统 | |
Zhou | Research on teaching resource recommendation algorithm based on deep learning and cognitive diagnosis | |
CN116705294A (zh) | 一种基于记忆网络的可解释动态认知诊断方法 | |
CN115795015A (zh) | 一种试题难度增强的综合知识追踪方法 | |
Mazorodze et al. | Cognitive and metacognitive problem-solving strategies in post-16 physics: a case study using action research | |
Gorin et al. | Test design with higher order cognition in mind | |
Daniati et al. | Evaluation Framework for Decision Making Based on Sentiment Analysis in Social Media | |
CN114492848A (zh) | 一种兼容多学习模型的自适应学习系统、方法及应用 | |
CN113919983A (zh) | 试题画像方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |