CN117474094A

CN117474094A - 基于Transformer的融合领域特征的知识追踪方法

Info

Publication number: CN117474094A
Application number: CN202311775002.3A
Authority: CN
Inventors: 甘健侯; 韩晓瑜; 周菊香; 邹伟; 王俊
Original assignee: Yunnan Normal University
Current assignee: Yunnan Normal University
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-01-30
Anticipated expiration: 2043-12-22
Also published as: CN117474094B

Abstract

本发明涉及基于Transformer的融合领域特征的知识追踪方法，属于知识追踪领域和学习分析领域。本发明结合知识追踪的领域特征对Transformer模型的解码器进行变形，并训练得到由编码器和解码器组成的TKT‑DF知识追踪模型，编码器和解码器均由N层堆栈组成，每一层堆栈由多头注意力机制和前馈神经网络组成，并且结合残差连接和层归一化；在编码器上形成结合上下文的对题目的向量表征，在解码器上计算题目的表征向量之间的相似度，更新学生的知识掌握程度，并通过Mask机制来处理序列中未来的信息，最后在解码器上更新的学生知识掌握程度向量上拼接将要预测的题目，完成对学生题目答题正误的预测。本发明在大规模数据集和小规模数据集上提升了Transformer系列知识追踪模型的预测准确率。

Description

基于Transformer的融合领域特征的知识追踪方法

技术领域

本发明涉及基于Transformer的融合领域特征的知识追踪方法，属于知识追踪领域和学习分析领域。

背景技术

线上教学作为一种新式的教学方式，在教育领域起着越来越重要的作用。在线上教学中，知识追踪可以通过学习者的在线行为和学习数据，精确地了解学习者的知识水平和学习进展。通过分析学习者的做题记录、在线交互和学习轨迹等数据，知识追踪系统可以准确预测学习者的知识掌握情况，并针对性地提供个性化的学习建议和资源推荐。这有助于学生更有效地学习，填补个人知识差距，自主规划学习路径，提高学习效果。在线下教学中，知识追踪可以辅助教师进行课堂教学和学生评估。教师可以利用知识追踪系统分析学生的学习数据，了解每个学生的知识水平和学习需求，从而有针对性地进行教学计划和指导。知识追踪还可以帮助教师实时监测学生的学习进展，及时发现学习困难和问题，并采取相应的教学措施来提供支持和帮助。总之，知识追踪为学生的学习和教师的教学提供技术支持。通过利用计算机科学和人工智能的技术手段，知识追踪试图为教育领域带来创新的教学和学习方式。

Transformer模型在多个领域得到了广泛的应用，如机器翻译、语音识别、语言生成、问答系统、推荐系统、图像处理等领域，并且其效果得到了验证。知识追踪任务通常涉及处理学习者的做题序列或学习行为序列。Transformer模型在处理序列数据方面表现出色，能够对序列中的上下文信息进行建模。通过自注意力机制，Transformer能够学习到序列中不同位置之间的关系，并捕捉长距离的依赖关系。这种能力使得Transformer模型理论上在知识追踪领域也可以得到不错的效果甚至突破。但是从现有的研究来看，Transformer模型或者其变体在知识追踪领域的应用效果并不突出。SAINT知识追踪模型完全地使用了Transformer模型结构，但是其效果仅在大规模的数据集上表现好，在规模较小的数据集上和原有模型的效果相差较大。如果以本次实验所用到的数据集进行划分，小于35万条数据的为小规模数据集，大于35万条数据的为大规模数据集。这使得后续较少有人研究对SAINT模型的改进，以及较少有人研究Transformer及其变体与知识追踪领域的融合，使得该方向的研究到达瓶颈。

SAINT模型在大规模数据集和小规模数据集上的差异，其原因归结为：Transformer模型通常具有大量的参数，可以通过大规模数据集进行有效训练。较大的数据集提供了更多的样本用于参数学习和优化，有助于模型更好地捕捉数据中的关联和规律。但是对于小规模数据集往往难以捕捉数据中的抽象特征和关联。显然，将Transformer模型完全不变地搬进知识追踪领域，没有融合知识追踪的领域特征，是无法在知识追踪领域完全发挥Transformer模型的优势的。

发明内容

本发明提供一种基于Transformer的融合领域特征的知识追踪方法，用于解决基于Transformer的知识追踪模型由于参数庞大，在小规模数据上难以捕捉数据的抽象特征和关联，导致预测效果不佳的问题。

本发明的具体技术方案是：将Transformer模型结合知识追踪的领域特征进行变形，并训练得到由编码器和解码器组成的TKT-DF（Transformer Knowledge Tracing-Domain Feature）知识追踪模型，编码器和解码器均由N层堆栈组成，每一层堆栈由多头注意力机制和前馈神经网络组成，并且结合残差连接和层归一化；在编码器上形成结合上下文的对题目的向量表征，在解码器上对题目的表征向量之间的相似度计算，来更新学生的知识掌握程度，并通过Mask机制来处理序列中未来的信息，最后在解码器上更新的学生知识掌握程度向量上拼接将要预测的题目，完成对学生题目答题正误的预测。

具体步骤如下：

Step1、构建训练数据集

收集学生数据，其中每条数据包含学生信息、题目信息、知识点信息和答题信息，对数据进行预处理得到训练数据集；

Step1.1、将数据归一化为适合用于训练知识追踪模型的大小，由于每个学生的做题数目不同，需要将学生数据进行切分或补零，将序列长度统一成，对于学生做题数目超过长度的，进行切分，对于学生做题数目不足的，进行补零；

Step1.2、将归一化之后的数据进行嵌入，嵌入之后的数据表示为题目序列、知识点序列、答题序列；

Step1.3、若数据集中既包含题目信息，也包含知识点信息，则将题目序列和知识点序列对应位置相加，形成做题序列，其中=+，若数据集中只包含题目信息，则=，若数据集中只包含知识点信息，则=。

Step2、构建并训练TKT-DF知识追踪模型

构建TKT-DF知识追踪模型，并利用训练数据集对模型进行训练，过程如下：

Step2.1通过编码器形成结合上下文的对题目的向量表征：

TKT-DF的编码器继承Transformer的编码器，由N层堆栈组成，每一层堆栈由多头注意力机制和前馈神经网络组成，并且结合残差连接和层归一化等技术，以加速训练过程并提高模型的性能。

多头注意力机制（Multi-head Attention）：注意力机制使用查询（query）、键（key）来计算每个查询向量与键向量的注意力权重，并将注意力权重应用于值向量V。为了增强模型的表达能力和稳健性，采用多头注意力机制。多头注意力允许模型学习多个不同的注意力权重，并将它们在表示空间中进行融合，其公式如下，为了方便理解，采用总分的形式呈现：

多头注意力会将每个头形成的结合上下文表示的向量表征进行拼接，再乘以权重矩阵来聚合不同头上的信息，形成最终的结合上下文的向量表征；

每个头通过Q和K来计算注意力权重，d为缩放因子，i表示第几个头，softmax对注意力权重进行归一化，Mask机制来处理序列中未来的信息，确保在预测时只依赖已有的信息，最终将注意力权重应用于V向量。在注意力机制中，softmax函数常用于计算注意力权重，将注意力权重归一化到0到1之间，以确保注意力权重之和为1，从而使得注意力权重可以被视为合理的概率分布，用于对值进行加权求和。这样做有助于模型更好地关注重要的位置并进行信息交互；

每个头上的,,不同，会通过不同的W矩阵来实现Q,K,V维度的变换以及学习不同的权重矩阵。

前馈神经网络由两个线性变换和一个激活函数组成，多头注意力机制能够捕捉序列中不同位置之间的依赖关系，但它并没有进行显式的特征映射或非线性变换。前馈神经网络的作用是对多头注意力的输出进行映射和非线性变换，从而引入更高维度的表示空间和更复杂的特征表示。这有助于模型更好地学习输入序列的特征和语义信息，提升模型的表达能力。具体公式如下：

其中和是两个可学习权重矩阵，和为偏置。

Step2.1.1、通过多头注意力学习学生做题序列中各个问题之间的依赖关系和重要性。由于该计算的目的是得到题目的上下文表示，即题目嵌入不再是孤立的向量表示，而是根据题目间的相似性形成结合上下文的向量表示，所以该位置使用的是自注意力机制，所以、、都为做题序列的向量表示。具体公式如下：

其中为多头注意力机制，多头注意力机制中的、、均为做题序列的向量表示，做题序列为题目序列E和知识点序列K的和，实际表示题目ID嵌入、题目类别嵌入和位置嵌入的和，为层归一化，加号后面部分相当于残差连接；

Step2.1.2、将Step2.1.1得到的题目表示，输入到前馈神经网络中，进行特征映射或非线性变换，结合残差连接和层归一化，以加速训练过程并提高模型的性能。具体公式如下：

其中为前馈神经网络，为该堆栈的输出，加号后面部分相当于残差连接。

Step2.2、结合编码器的输出和学生的答题序列，通过解码器更新学生的知识掌握程度：

TKT-DF的解码器与SAINT模型不同，由N层堆栈组成，每一层由一个多头注意力机制和前馈神经网络组成，并且结合残差连接和层归一化等技术，以加速训练过程并提高模型的性能。

Step2.2.1、将学生的答题序列当作学生初步的知识点掌握程度，将多头注意力机制的输入分为两种情况，具体公式如下：

；

Step2.2.2、将多头注意力计算出的学生知识掌握程度的向量表示，输入到前馈神经网络中，进行特征映射或非线性变换，结合残差连接和层归一化，得到该堆栈的最终学生知识掌握程度的向量表示，具体公式如下：

；

对于，输入到多头注意力中的Q为编码器输出/>去掉第一条信息，K为编码器输出/>去掉最后一条信息，V为答题序列R去掉第一条信息；对于/>，输入到多头注意力中的Q为编码器输出/>的全部信息，K为编码器输出/>的全部信息，V为学生掌握程度/>的全部信息；

Step2.2.3、将步骤Step2.2.1- Step2.2.2重复N次，得到最终解码器的输出序列中的所有知识点掌握程度的向量表示；

Step2.3、拼接题目序列，进行预测：

由于TKT-DF，只使用了编码器Encoder输出的结合上下文的题目的向量表征作为 query和key来计算相关性，value值为学生知识的掌握程度。并没有告诉模型要预测的题目信息，使得模型难以捕捉到预测题目的信息。因此将解码器的输出与题目序列进行拼接，提高模型预测准确率：

其中为题目序列与解码器的输出的拼接，再将其放入一个线性层中进行维度调整和特征映射，最终经过激活函数得到对学生题目答对答错的预测，为权重矩阵，为偏置项。

Step2.4、使用超参数搜索找到最优的超参数配置，得到训练好的TKT-DF知识追踪模型。

Step3、利用训练完成的TKT-DF知识追踪模型对待预测的学生数据进行预测。

本发明的有益效果是：

本发明提出的知识追踪方法，基于Transformer模型融合知识追踪的领域特征，即使在Transformer有很大参数量的情况下，在小规模数据集也能较容易地提取到数据中的特征和关联，使模型训练更加简单，该方法使模型在不同规模数据集上预测效果均达到不同程度的提升，具体总结为以下三点：

1）设计了一种基于Transformer变体的知识追踪模型TKT-DF，解决了Transformer模型在大规模数据集表现好，在小规模数据集表现差的缺陷。

2）设计了融合知识追踪领域特征的解码器，使得该模型能更加容易地捕捉数据中的抽象特征和关联。

3）TKT-DF在四个不同规模的公共基准数据集上进行了验证，其性能分别得到了不同程度的提升。

附图说明

图1为基于Transformer的融合领域特征的知识追踪方法图；

图2为解码器First block输入示意图；

图3为解码器Other block输入示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

基于Transformer的融合领域特征的知识追踪方法，将Transformer模型结合知识追踪的领域特征进行变形，并训练得到由编码器和解码器组成的TKT-DF知识追踪模型，编码器和解码器均由N层堆栈组成，每一层堆栈由多头注意力机制和前馈神经网络组成，并且结合残差连接和层归一化；在编码器上形成结合上下文的对题目的向量表征，在解码器上对题目的表征向量之间的相似度计算，来更新学生的知识掌握程度，并通过Mask机制来处理序列中未来的信息，最后在解码器上更新的学生知识掌握程度向量上拼接将要预测的题目，完成对学生题目答题正误的预测。

具体步骤如下：

Step1、构建训练数据集

Step1.3、若数据集中既包含题目信息，也包含知识点信息，则将题目序列和知识点序列对应位置相加，形成做题序列，其中=+，若数据集中只包含题目信息，则=，若数据集中只包含知识点信息，则=；

Step2、构建并训练TKT-DF知识追踪模型

Step2.1通过编码器形成结合上下文的对题目的向量表征：

如图1所示，TKT-DF的编码器继承Transformer的编码器，由N层堆栈组成，每一层堆栈由多头注意力机制和前馈神经网络组成，并且结合残差连接和层归一化等技术，以加速训练过程并提高模型的性能。

其中和是两个可学习权重矩阵，和为偏置。

Step2.2.1、将学生的答题序列当作学生初步的知识点掌握程度，为了将多头注意力机制形成权重矩阵与答题序列对应，以及避免泄漏未来信息，将多头注意力机制的输入分为两种情况，具体公式如下：

；

由于在第一个block中是没有学生对知识点掌握程度的信息的。将学生的答题序列（由0或1组成）当作学生初步的知识点掌握程度，根据已有的学生初步的知识点掌握程度经过解码器，得到序列中每个知识点的掌握程度。由于在做第一个题时，是没有以前的信息可以参考的，所以不再对其操作，如图2 a图注意力权重矩阵所示，右上的统一灰度部分为 Mask，表示不再参考该部分的信息，query查询从开始，可以参考的答题信息，可以参考，的答题信息，可以参考，，的答题信息，以此类推。

从第二个block开始，中就包含了序列中的所有知识点掌握程度的信息了，不必再参考学生的答题序列，同样在右上的统一灰度部分为Mask，表示不参考该部分的信息, 如图3所示。query查询从开始，可以参考的知识点掌握程度信息，可以参考，的知识点掌握程度信息，可以参考，，的知识点掌握程度信息，以此类推。

；

Step2.3、拼接题目序列，进行预测：

本实施例中共收集有条学生数据，每条数据，包含学生信息，题目信息，知识点信息、答题信息等，数据处理具体如下：

将数据归一化为网络模型适合的大小，由于每个学生的做题数目不同，需要将学生数据进行切分或补零，将序列统一成一样的长度，对于学生做题数目超过长度的，进行切分，对于学生做题数目不足的，进行补零，以下描述的维度均为一个学生嵌入的维度。

将归一化之后的数据进行嵌入，即向量表示，嵌入维度为64，嵌入之后的数据表示为题目序列、知识点序列、答题序列，每个学生的题目序列、知识点序列和答题序列的维度均为200*64。

若数据集中既包含题目信息，也包含知识点信息，则将题目序列和知识点序列对应位置相加，形成序列，其中=+，若数据集中只包含题目信息，则 =，若数据集中只包含知识点信息，则=，序列的维度为200*64。

本实施例中模型的编码器和解码器均由8层堆栈组成，每一层由多头注意力机制和前馈神经网络组成，并且结合残差连接和层归一化。按照上述步骤来训练模型。

为了展示模型的最佳效果，本发明使用了超参数搜索找到最优的超参数配置，以提高模型的性能和泛化能力。超参数是指在模型训练过程中需要手动设置的参数，而不是通过学习从数据中获得的参数。这些超参数可以影响模型的学习过程、容量和鲁棒性等方面。为了公平的与已有模型进行比较，本发明将所有的模型都进行了超参数搜索，以求在所有模型的最优性能上进行比较。

将TKT-DF知识追踪模型与多个经典模型进行了比较，包括DKT、DKT+、DKVMN、SAKT和SAINT模型。由于本发明的目的是提升Transformer与知识追踪融合后的效果，使得该方向的研究突破瓶颈，所以只需要关注TKT-DF的预测效果相比较SAINT模型是否提升以及TKT-DF在经典模型中的排名相对于SAINT模型是否有提升即可。从表1可以看出该目的明显已经达到了。在ASSISTments2009数据集上TKT-DF相对于SAINT模型的AUC提升了6.31个百分点，在ASSISTments2017数据集上TKT-DF相对于SAINT模型的AUC提升了1.65个百分点，在NIPS34数据集上TKT-DF相对于SAINT模型的AUC提升了0.58个百分点，在ASSISTments2012数据集上TKT-DF相对于SAINT模型的AUC提升了1.24个百分点。均取得了不同程度的提升。

从数据上可以看出，不同数据集上的提升程度相差较大。根据提升程度和数据量的大小本发明将ASSISTments2009数据集称之为‘小数据集’，其他三个数据集归为‘大数据集’。TKT-DF相对于SAINT模型在小数据集上提升大，在大数据集上相对提升小的原因在于：在大数据集上训练的Transformer模型通常具备更好的鲁棒性，大数据集提供了更多的样本来平衡不同的噪声来源，使模型能够更好地适应各种情况，所以在大数据集上Transformer即使没有结合领域特征也能达到较好的效果。将Transformer结合知识追踪的领域特征，虽然减少了模型的训练难度，但是由于Transformer模型的参数量和深度，也难有很大的提升。但是对于小数据集来说，数据集提供的数据量难以训练Transformer中的大规模参数，所以将Transformer结合知识追踪的领域特征进行变形，减少了模型的训练难度，可以在预测效果上产生较大的提升。

Claims

1.一种基于Transformer的融合领域特征的知识追踪方法，其特征在于：将Transformer模型结合知识追踪的领域特征进行变形，并训练得到由编码器和解码器组成的TKT-DF知识追踪模型，编码器和解码器均由N层堆栈组成，每一层堆栈由多头注意力机制和前馈神经网络组成，并且结合残差连接和层归一化；在编码器上形成结合上下文的对题目的向量表征，在解码器上计算题目的表征向量之间的相似度，来更新学生的知识掌握程度，并通过Mask机制来处理序列中未来的信息，最后在解码器上更新的学生知识掌握程度向量上拼接将要预测的题目，完成对学生题目答题正误的预测。

2.根据权利要求1所述的基于Transformer的融合领域特征的知识追踪方法，其特征在于，具体步骤如下：

Step1、构建训练数据集

Step1.1、将数据归一化为适合用于训练知识追踪模型的大小，将学生数据进行切分或补零，将序列长度统一成，对于学生做题数目超过长度/>的，进行切分，对于学生做题数目不足/>的，进行补零；

Step1.2、将归一化之后的数据进行嵌入，嵌入之后的数据表示为题目序列、知识点序列/>、答题序列/>；

Step1.3、若数据集中既包含题目信息，也包含知识点信息，则将题目序列和知识点序列对应位置相加，形成做题序列，其中/>=/>+/>，若数据集中只包含题目信息，则/>=/>，若数据集中只包含知识点信息，则/>=/>；

Step2、构建并训练TKT-DF知识追踪模型

Step2.1通过编码器形成结合上下文的对题目的向量表征：

Step2.1.1、通过多头注意力学习学生做题序列中各个问题之间的依赖关系和重要性，具体公式如下：

；

其中为多头注意力机制，多头注意力机制中的/>、/>、/>均为做题序列/>的向量表示，/>为层归一化；

Step2.1.2、将Step2.1.1得到的题目表示，输入到前馈神经网络中，进行特征映射或非线性变换，结合残差连接和层归一化，具体公式如下：

；

其中为前馈神经网络，/>为该堆栈的输出；

Step2.2、结合编码器的输出和学生的答题序列/>，通过解码器更新学生的知识掌握程度：

；

Step2.3、拼接题目序列，进行预测：

将解码器的输出与题目序列/>进行拼接，提高模型预测准确率：

；

其中为题目序列/>与解码器的输出/>的拼接，再将其放入一个线性层中进行维度调整和特征映射，最终经过/>激活函数得到对学生题目答对答错的预测/>，/>为权重矩阵，/>为偏置项；

Step2.4、使用超参数搜索找到最优的超参数配置，得到训练好的TKT-DF知识追踪模型；

3.根据权利要求2所述的基于Transformer的融合领域特征的知识追踪方法，其特征在于，所述Step2中的多头注意力机制计算每个查询向量与键向量/>的注意力权重，并将注意力权重应用于值向量/>，从而得到/>的上下文表示，公式如下：

；

多头注意力将每个头形成的结合上下文表示的向量表征进行拼接，再乘以权重矩阵来聚合不同头上的信息，形成最终的结合上下文的向量表征；

；

每个头通过和/>来计算注意力权重，/>为缩放因子，softmax对注意力权重进行归一化，Mask机制来处理序列中未来的信息，最终将注意力权重应用于V向量，i表示第几个头；

；

每个头上的,/>,/>不同，通过不同的W矩阵来实现Q,K,V维度的变换以及学习不同的权重矩阵。

4.根据权利要求2所述的基于Transformer的融合领域特征的知识追

踪方法，其特征在于，所述Step2中前馈神经网络由两个线性变换和一个激活函数组成，具体公式如下：

；

其中和/>是两个可学习权重矩阵，/>和/>为偏置。