CN112785039B

CN112785039B - 一种试题作答得分率的预测方法及相关装置

Info

Publication number: CN112785039B
Application number: CN202011626419.XA
Authority: CN
Inventors: 李旭浩; 沙晶; 付瑞吉; 王士进; 魏思; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-12-01
Anticipated expiration: 2040-12-31
Also published as: CN112785039A

Abstract

本申请公开了一种试题作答得分率的预测方法及相关装置，该试题作答得分率的预测方法包括：获取到试题序列、作答序列以及试题序列对应的时间序列；其中，试题序列的多个试题的题目类型为至少一种；计算得到试题序列对应的试题序列特征表示、作答序列对应的作答记录序列特征表示以及时间序列对应的时间序列特征表示；对试题序列特征表示、作答记录序列特征表示以及时间序列特征表示进行融合，以得到当前试题表示；基于当前试题表示对待预测试题的作答得分率进行预测，得到待预测试题的预测得分率。通过上述方式，本申请中的试题作答得分率的预测方法能够对不同类型的试题进行预测，可扩展性较好，适应场景广，且综合考虑了作答时间的影响。

Description

一种试题作答得分率的预测方法及相关装置

技术领域

本申请涉及辅助教学的技术领域，尤其涉及一种试题作答得分率的预测方法及相关装置。

背景技术

在传统的班级教学模式中，老师是以班级为单位，同时对几十名学生进行教学，意在使教学内容和教学时间方面有统一的规定和要求，使教学能有计划、有组织地进行，能多为社会培养人才。但是，这样的教学模型无法兼顾学生个人的兴趣，爱好，能力等的差异，而且很难全面照顾到优生，差生的学习和发展。因而，根据学生自身的学习特点，对不同的学生采用不同的方法，即因材施教，将无疑能够克服传统班级教学模式的缺点，使得全体学生都能够得到发展，也即，需要在不改变教学模型的情况下，智能诊断每一学生的薄弱环节，使得后续的练习和学习更有针对性，大大提升了学生的学习效率，做到因材施“练”。

其中，现有技术中针对学生薄弱点的诊断，通常是针对每一个学生的历史作答记录(包含题目信息x和作答记录a)(x₁，a₁)，(x₂，a₂)，…， (x_n-1，a_n-1)，采用QKV模型，预测当前题目x_n该学生能否答对。在QKV 模型中，Q_n为当前题目x_n的表示，K_i为历史作答题目x_i(i＝1，2，...， n-1)的表示，V_i为历史作答(x_i，a_i)(i＝1，2，...，n-1)的表示。通过Q_n与K_i的attention(注意力机制)交互，得到当前题目与历史题目的相关程度c_i，因而历史作答记录对当前题目是否答对的影响表示为所有c_i*V_i的求和，即学生能力。最后，QKV模型能够根据该表示，预测当前题目x_n能否答对。实际应用中，薄弱点的诊断基于锚点(一类题目) 图谱，每个锚点均有一定量的具有代表性的题目。对锚点下的所有题目，用上述模型得到预测结果，并统计正确率。如果正确率低于某个阈值，则认为该锚点为学生薄弱点。

然而，上述方式在一些场景下，取得了不错的效果，但是仍然存在一些缺点：1)依赖于锚点图谱，由于图谱中的题目是固定的，因而研究的对象为闭集，可扩展性较差；2)锚点为一类题目，适应场景单一； 3)Q和K对于题目的表示是固定的，表示能力弱，且无法进一步微调； 4)未考虑历史作答记录中的时间信息。

发明内容

本申请提供了一种试题作答得分率的预测方法及相关装置，该试题作答得分率的预测方法能够有效解决现有试题作答得分率的预测方法依赖于锚点图谱，研究的对象为闭集，可扩展性较差，适应场景单一，未考虑历史作答记录中的时间信息的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种试题作答得分率的预测方法，其中，该试题作答得分率的预测方法包括：获取到试题序列、作答序列以及试题序列对应的时间序列；其中，试题序列包括已作答试题序列和待预测试题，作答序列包括已作答试题序列及其对应的作答得分率序列，试题序列的多个试题的题目类型为至少一种；计算得到试题序列对应的试题序列特征表示、作答序列对应的作答记录序列特征表示以及时间序列对应的时间序列特征表示；对试题序列特征表示、作答记录序列特征表示以及时间序列特征表示进行融合，以得到当前试题表示；基于当前试题表示对待预测试题的作答得分率进行预测，得到待预测试题的预测得分率。

其中，获取到试题序列、作答序列以及试题序列对应的时间序列的步骤之后，计算得到试题序列对应的试题序列特征表示、作答序列对应的作答记录序列特征表示以及时间序列对应的时间序列特征表示的步骤之前，还包括：获取作答得分率序列的作答得分率表示，以及已作答试题序列的试题难度表示、知识点偏差表示及知识点组合表示；计算得到试题序列对应的试题序列特征表示、作答序列对应的作答记录序列特征表示以及时间序列对应的时间序列特征表示的步骤，包括：通过作答得分率表示、试题难度表示、知识点偏差表示、知识点组合表示计算得到作答记录序列特征表示；计算得到试题序列对应的试题序列特征表示以及时间序列对应的时间序列特征表示。

其中，通过作答得分率表示、试题难度表示、知识点偏差表示、知识点组合表示计算得到作答记录序列特征表示的步骤，包括：将试题难度表示和作答得分率表示相加；将试题难度表示和作答得分率表示相加的和与知识点偏差表示相乘，并将相乘得到的积与知识点组合表示相加，得到作答记录序列特征表示。

其中，获取作答得分率序列的作答得分率表示，以及已作答试题序列的试题难度表示、知识点偏差表示及知识点组合表示的步骤包括：获取题库数据；其中，题库数据包括作答序列；对作答序列中的已作答试题序列进行分词处理及向量表示转换，得到知识点组合表示；对分词后的已作答试题序列进行难度特征提取，得到试题难度表示；对作答得分率序列进行向量表示转换，得到作答得分率表示；获取已作答试题序列中每一试题的知识点表示，对得到的每一知识点表示求取方差，得到知识点偏差表示。

其中，题库数据还包括难度标注数据，对分词后的已作答试题序列进行难度特征提取，得到试题难度表示的步骤包括：基于难度标注数据对分词后的已作答试题序列的难度特征进行提取，以得到试题难度表示。

其中，对分词后的已作答试题序列进行难度特征提取，得到试题难度表示的步骤包括：通过难度预测网络模型对分词后的已作答试题序列进行难度预测，得到试题难度表示。

其中，通过难度预测网络模型对分词后的已作答试题序列进行难度预测，得到试题难度表示的步骤包括：通过难度预测网络模型获取分词后的已作答试题序列中每一试题组合得到的向量表示矩阵；通过多个设定卷积核分别与向量表示矩阵相乘，以对每一相乘得到的积进行最大池化处理，并将每一最大池化处理后的数值进行拼接，以得到试题向量表示；对试题向量表示进行全连接，以得到试题难度表示。

其中，对试题序列特征表示、作答记录序列特征表示以及时间序列特征表示进行融合，以得到当前试题表示的步骤包括：通过试题序列特征表示计算得到试题序列中每一试题之间的试题相关性权重矩阵；通过逻辑回归函数对时间序列特征表示进行处理，以得到时间序列权重矩阵；将试题相关性权重矩阵与时间序列权重矩阵相乘，以通过逻辑回归函数对相乘得到的积进行归一化处理后得到综合权重矩阵；将综合权重矩阵与作答记录序列特征表示相乘，以得到当前试题表示。

其中，当前试题表示对待预测试题的作答得分率进行预测，得到待预测试题的预测得分率的步骤包括：将当前试题表示与设定权重矩阵相乘，以将相乘的积与设定偏置矩阵相加，并通过设定激活函数处理后得到待预测试题的预测得分率。

其中，基于当前试题表示对待预测试题的作答得分率进行预测，以得到待预测试题的预测得分率的步骤之后，还包括：判断预测得分率是否不小于设定阈值；如果预测得分率小于设定阈值，将待预测试题标记为未掌握试题。

其中，判断预测得分率是否大于设定阈值的步骤包括：对预测得分率进行归一化处理，以判断归一化处理后的预测得分率是否不小于设定阈值。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种智能终端，其中，该智能终端包括相互耦接的存储器和处理器，存储器存储有程序数据，处理器用于执行程序数据，以实现如上任一项所述的试题作答得分率的预测方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种计算机可读存储介质，其中，该计算机可读存储介质存储有程序数据，该程序数据能够被执行以实现如上任一所述的试题作答得分率的预测方法。

本申请的有益效果是：区别于现有技术，本申请中的试题作答得分率的预测方法是通过获取到试题序列、作答序列以及试题序列对应的时间序列，以计算得到试题序列对应的试题序列特征表示、作答序列对应的作答记录序列特征表示以及时间序列对应的时间序列特征表示，并对试题序列特征表示、作答记录序列特征表示以及时间序列特征表示进行融合，以得到当前试题表示；其中，试题序列包括已作答试题序列和待预测试题，作答序列包括已作答试题序列及其对应的作答得分率序列，试题序列的多个试题的题目类型为至少一种，以能够基于当前试题表示对待预测试题的作答得分率进行预测，进而得到待预测试题的预测得分率，由此可知，本申请中的试题作答得分率的预测方法能够对不同类型的试题进行预测，可扩展性较好，适应场景广，且综合考虑了试题序列中每一试题对应的作答时间的影响，从而能够使相应得到的作答得分率更有效。

附图说明

为了更清楚地说明本申请实施方式中的技术方案，下面将对实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请试题作答得分率的预测方法第一实施方式的流程示意图；

图2是图1中试题作答得分率的预测方法一具体应用场景中的试题作答得分率预测网络模型的结构示意图；

图3是本申请试题作答得分率的预测方法第二实施方式的流程示意图；

图4是图3中S32的具体流程示意图；

图5是图3中S33的具体流程示意图；

图6是图3中试题作答得分率的预测方法一具体应用场景中获取作答记录序列特征表示的网络模型的结构示意图；

图7是本申请试题作答得分率的预测方法第三实施方式的流程示意图；

图8是本申请试题作答得分率的预测方法第四实施方式的流程示意图；

图9是本申请智能终端一实施方式的结构示意图；

图10是本申请计算机可读存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，均属于本申请保护的范围。

请参阅图1，图1为本申请试题作答得分率的预测方法第一实施方式的流程示意图。本实施方式包括如下步骤：

S11：获取到试题序列、作答序列以及试题序列对应的时间序列。

在对学生的薄弱点进行诊断的教学方式中，主要的目的是基于试题本身的难度及学生自身的能力，对该学生在对当前试题进行作答时，能够得到的分数、也即当前试题的作答得分率进行预测，以在判定该作答得分率能够达到某一阈值时，比如，拿到满分，或满分的60％时，则判定当前试题已被该学生掌握；而在低于该阈值时，则判定当前试题为该学生的薄弱点，需要进行加强练习。其中，该当前试题可以是一个，也可以是多个，以能够将某一题库中对于该学生而言，所有可能存在的薄弱点全部提取出来，以进行针对性的训练。

具体地，在本实施方式中，首先获取到试题序列、作答序列以及试题序列对应的时间序列，比如，在对一学生进行薄弱点判断时，首先获取到包括有该学生作答记录的题库数据，以进而将该题库数据整理分类得到题库数据中每一试题构成的试题序列、已进行过作答的试题所对应的作答序列以及试题序列中每一试题的作答时间所对应的时间序列。

其中，该试题序列包括已作答试题序列和待预测试题，作答序列包括已作答试题序列及其对应的作答得分率序列，且试题序列的多个试题的题目类型为至少一种，时间序列中每一时间均唯一对应于已作答试题序列中每一试题的作答时间，以及当前进行预测的时间。

则可理解的是，本申请中的试题作答得分率的预测方法可针对不用题目类型的试题进行作答得分率的预测，因而其相应研究的对象，也即该试题序列为开集，可扩展性较好，且通过加入历史作答记录中的时间信息，能够更合理地进行薄弱点预测。

S12：计算得到试题序列对应的试题序列特征表示、作答序列对应的作答记录序列特征表示以及时间序列对应的时间序列特征表示。

进一步地，基于获取到的试题序列、作答序列以及试题序列对应的时间序列，分别进行相应的特征提取、矩阵运算以及卷积运算等中的一种或多种，以计算得到试题序列对应的试题序列特征表示、作答序列对应的作答记录序列特征表示以及时间序列对应的时间序列特征表示。

S13：对试题序列特征表示、作答记录序列特征表示以及时间序列特征表示进行融合，以得到当前试题表示。

又进一步地，对计算得到的试题序列特征表示、作答记录序列特征表示以及时间序列特征表示进行融合，比如，通过一设定网络交互模型，对试题序列特征表示、作答记录序列特征表示以及时间序列特征进行特征融合运算，以得到当前试题表示。

S14：基于当前试题表示对待预测试题的作答得分率进行预测，得到待预测试题的预测得分率。

具体地，基于融合得到的当前试题表示对待预测试题的作答得分率进行预测，也即对相应学生在当前时刻对待预测试题进行作答时，能够得到的分数进行预测，以得到待预测试题的预测得分率，从而能够根据预测得到的该预测得分率判断该待预测试题是否为该学生未掌握的薄弱点。

在一些具体的实施例中，本申请中的试题作答得分率的预测方法具体是由集成于智能终端上的网络模型完成，或也可理解为由智能终端上的教学软件系统完成。

其中，如图2所示，图2是图1中试题作答得分率的预测方法一具体应用场景中的试题作答得分率预测网络模型的结构示意图，对于题目序列x₁，x₂，...，x_n和作答序列(x₁，a₁)，(x₂，a₂)，…，(x_n-1,a_n-1)，首先分别通过作答记录表示模块对试题序列和作答序列进行建模，以得到试题序列特征表示q和作答记录序列特征表示r。其次，将得到的试题序列特征表示q和作答记录序列特征表示r分别通过题序列建模模块和作答记录模块，交互当前题目(待预测试题)与历史题目(已作答试题)，得到观察到历史记录的题目表示(试题序列特征表示)。另外，对于试题序列对应的时间序列t₁，t₂，...，t_n，通过时间序列建模模块，获得历史作答对当前作答在时间维度上的影响权重w。然后，将各序列建模模块通过交互模块融合，得到历史作答以及作答时间对当前题目的作答结果的影响的表示，也即当前试题表示。最后，将上一步骤得到的当前试题表示通过回归器，预测当前题目，也即待预测试题x_n的得分。

其中，上述提到的各种模块具体可理解为包括有设定架构的网络模型，以在获取到相应的输入后，能够进行相应的特征提取、卷积运算、池化处理、函数运算等中的一种或多种，以得到相应的特征输出。

具体来说，在一实施方式中，本申请的试题作答得分率的预测方法的上述S12，进一步具体包括如下步骤：通过一序列建模模块对试题序列、作答序列以及试题序列对应的时间序列进行相应的运算过程。其中，该序列建模模块针对序列化的输入，建模历史序列表示对当前表示的影响，这个影响可以通过软方式反映，如attention(注意力机制)，也可以通过硬方式反映，如根据先验知识。该模块有三个子模块：题序列建模模块，作答序列建模模块和时间序列建模模块，以分别负责不同信息的建模。这三个模块可以使用相同的模型架构，也可以根据各自序列不同的特点，使用不同的模型架构。本实施方式使用的是前者，也即软方式反映，其中，以题序列作答建模模块为例，这里涉及的是试题序列x₁， x₂，...，x_n(n为正整数)，针对每一个题目x_i(i＝1至n中的任一个)，观察到的序列为x₁，x₂，...，x_i-1。对于这样的序列化建模，可以使用天然可以表示序列关系的LSTM(Long Short-Term Memory，长短期记忆网络)框架，也可以使用通过self-attention(自注意力机制)表示序列关系Transformer(自然语言处理模型)的框架。本实施方式使用抽取特征更强大的transformer框架。对于一道题目，通过三种映射得到query (元素)，key(地址)和value(值)表示，即(q₁，k₁，v₁),(q₁，k₁， v₁),(q₂，k₂，v₂)，...，(q_i，k_i，v_i)。由当前查询q_i对历史地址k₁， k₂，…，k_i检索(计算距离)，得到相应的归一化权重，并将得到的归一化权重与v₁，v₂，...，v_i相乘求和得到基于历史表示的试题序列特征表示x_i。作答序列模块和时间序列模块可进行类似处理，以得到作答记录序列特征表示和时间序列特征表示。

其中，可理解的，在一实施方式中，本申请的试题作答得分率的预测方法的上述S13，进一步具体包括如下步骤：通过交互模块对试题序列特征表示、作答记录序列特征表示以及时间序列特征表示进行融合。

其中，该交互模块是基于试题序列特征表示、作答记录序列特征表示以及时间序列特征表示，对三个维度的表示进行融合，得到包含更多历史信息的表示。此处，仍采用Transformer框架，通过试题序列特征表示得到query和key，通过作答序列化表示得到value。与题序列建模模块类似，通过query和key可以得到相应的归一化权重。但是这个权重只考虑了顺序信息，没有考虑作答时间和作答间隔时间。而为了解决这个缺陷，加入时间信息，以引入时间序列模块。该交互模块的输出w 即是考虑了作答时间和作答时间间隔的影响。将w和由query，key得到的权重相乘后再归一化，得到考虑了作答时间，作答时间间隔和作答顺序影响的attention weights(注意力机制权重)。最后将attention weights 与value相乘求和，得到综合历史作答等各方面因素的当前试题表示。

其中，可理解的，在一实施方式中，本申请的试题作答得分率的预测方法的上述S14，进一步具体包括如下步骤：通过回归器基于当前试题表示对待预测试题的作答得分率进行预测，以得到待预测试题的预测得分率。

具体地，该回归器是由一个多层感知机构组成，该回归器是以交互模块中得到的向量表示，也即当前试题表示作为输入，进而输出为该学生在待预测试题上的预测得分率。

其中，该回归器具体对应的运算过程包括：将当前试题表示与设定权重矩阵相乘，以将相乘的积与设定偏置矩阵相加，并通过设定激活函数处理后得到待预测试题的预测得分率。

可理解的，该设定权重矩阵、设定偏置矩阵及设定激活函数由该回归器给定。

进一步地，如果该预测得分率高于设定阈值时，则认为该学生掌握了待预测试题对应的知识点，否则认为没有掌握。

其中，为了方便说明，在一具体的实施方式中，本申请的试题作答得分率的预测方法涉及的各网络模块中的具体计算方式包括：

作答记表示录模块：(得到的图2中的q和r)

两类输入：试题序列(x₁，x₂，...，x_n)，作答序列(x₁，a₁)，(x₂， a₂)，…，(x_n-1,a_n-1)；

两类输出：试题序列特征表示，作答记录序列特征表示；

输入x_i，通过知识点预测得到x_i的知识点表示k_i1，k_i2，...，k_im，并进行最大池化处理后，得到知识点融合表示k_i，该k_i为1024维向量；

输入x_i，通过难度预测得到难度值d_i；

得到试题序列特征表示：k_i+(d_i+0)*σ_i，作答记录序列特征表示： k_i+(d_i+a_i)*σ_i。

其中，如何得到σ_i，针对该知识点，通过专家知识筛选一组考试题目y₁，y₂，...，y_n，通过知识点预测得到每道题目的知识点表示，求方差即为σ_i。

题序列建模模块/作答序列建模模块/时间序列建模模块：这三者计算思路基本一致。

输入：序列向量表示(z₁，z₂，...，z_n)；

输出：每个向量和其历史的交互表示；

计算过程(以计算z_i为例，假设向量维度为d，其历史序列为(z₁， z₂，...，z_i-1)：

对于每个z，作三类变换得到q，k，v:即q＝W_qz，k＝W_kz，v＝W_vz，其中，W_q，W_k，W_v均为hxd的矩阵，q表示查询，k表示地址，v表示内容；

对于每个z_i，我们获得三个表示(q_i，k_i，v_i)；

通过q_i对地址检索k₁，k₂，...，k_i，计算w＝softmax[q_i*k₁，q_i*k₂，...， q_i*k_i]，而则相应的

区别于现有技术，本申请中的试题作答得分率的预测方法是通过获取到试题序列、作答序列以及试题序列对应的时间序列，以计算得到试题序列对应的试题序列特征表示、作答序列对应的作答记录序列特征表示以及时间序列对应的时间序列特征表示，并对试题序列特征表示、作答记录序列特征表示以及时间序列特征表示进行融合，以得到当前试题表示；其中，试题序列包括已作答试题序列和待预测试题，作答序列包括已作答试题序列及其对应的作答得分率序列，试题序列的多个试题的题目类型为至少一种，以能够基于当前试题表示对待预测试题的作答得分率进行预测，进而得到待预测试题的预测得分率，由此可知，本申请中的试题作答得分率的预测方法能够对不同类型的试题进行预测，可扩展性较好，适应场景广，且综合考虑了试题序列中每一试题对应的作答时间的影响，从而能够使相应得到的作答得分率更有效。

请参阅图3，图3是本申请试题作答得分率的预测方法第二实施方式的流程示意图。本实施方式的试题作答得分率的预测方法是图1中的试题作答得分率的预测方法的一细化实施方式的流程示意图，包括如下步骤：

S31：获取到试题序列、作答序列以及试题序列对应的时间序列。

其中，S31与图1中的S11相同，具体请参阅S11及其相关的文字描述，在此不再赘述。

S32：获取作答得分率序列的作答得分率表示，以及已作答试题序列的试题难度表示、知识点偏差表示及知识点组合表示。

具体地，对作答得分率序列进行特征提取，以得到作答得分率序列的作答得分率表示，并进而对已作答试题序列进行分词解析和特征提取，以得到已作答试题序列的试题难度表示、知识点偏差表示及知识点组合表示。

S33：通过作答得分率表示、试题难度表示、知识点偏差表示、知识点组合表示计算得到作答记录序列特征表示。

进一步地，对获取到的作答得分率表示、试题难度表示、知识点偏差表示、知识点组合表示进行设定函数或卷积运算等，以得到作答记录序列特征表示。

S34：计算得到试题序列对应的试题序列特征表示以及时间序列对应的时间序列特征表示。

又进一步地，基于获取到的试题序列及其对应的时间序列，分别进行相应的特征提取、矩阵运算以及卷积运算等中的一种或多种，以计算得到试题序列对应的试题序列特征表示和时间序列对应的时间序列特征表示。

S35：对试题序列特征表示、作答记录序列特征表示以及时间序列特征表示进行融合，以得到当前试题表示。

S36：基于当前试题表示对待预测试题的作答得分率进行预测，得到待预测试题的预测得分率。

其中，S35和S36与图1中的S13和S14相同，具体请参阅S13和 S14及其相关的文字描述，在此不再赘述。

进一步地，在一实施例中，具体请参阅图4，图4是图3中上述S32 的具体流程示意图，本申请的试题作答得分率的预测方法的上述S32，进一步具体包括如下步骤：

S321：获取题库数据。

具体地，首先获取到智能终端当地存储的，或云端存储的包括有该学生作答记录的题库数据。

其中，该题库数据具体可以是智能终端一终端应用程序上存储的题库数据，比如，驾考应用程序上驾考科目一的题库数据，且该题库数据包括有终端用户的作答记录。

S322：对作答序列中的已作答试题序列进行分词处理及向量表示转换，得到知识点组合表示。

具体地，对从题库数据中获取的作答序列中的已作答试题序列进行分词处理，比如，通过一数学数据分词系统对该已作答试题序列进行分词处理，以进而对分词后的已作答试题序列进行相应的向量表示转换，得到知识点组合表示。

S323：对分词后的已作答试题序列进行难度特征提取，得到试题难度表示。

进一步地，对分词后的已作答试题序列进行难度特征提取，比如，通过一难度网络模型对分词后的已作答试题序列进行难度特征提取，以得到试题难度表示。

S324：对作答得分率序列进行向量表示转换，得到作答得分率表示。

具体地，对作答得分率序列进行相应的向量表示转换，以得到作答得分率表示。

S325：获取已作答试题序列中每一试题的知识点表示，对得到的每一知识点表示求取方差，得到知识点偏差表示。

具体地，获取已作答试题序列中每一试题的知识点表示，以进而对得到的每一知识点表示求取方差，得到知识点偏差表示。

其中，针对该知识点，通过专家知识筛选一组考试题目y1，y2，...， yn，通过知识点预测得到每道题目的知识点表示，并求取方差后，即为知识点偏差表示。

进一步地，在一实施例中，具体请参阅图5，图5是图3中上述S33 的具体流程示意图，本申请的试题作答得分率的预测方法的上述S33，进一步具体包括如下步骤：

S331：将试题难度表示和作答得分率表示相加。

具体地，将获取到的试题难度表示和作答得分率表示相加。

S332：将试题难度表示和作答得分率表示相加的和与知识点偏差表示相乘，并将相乘得到的积与知识点组合表示相加，得到作答记录序列特征表示。

进一步地，将试题难度表示和作答得分率表示相加的和与知识点偏差表示相乘，并将相乘得到的积与知识点组合表示相加，进而得到作答记录序列特征表示。

进一步地，在一实施例中，上述S323具体还包括如下步骤：基于难度标注数据对分词后的已作答试题序列的难度特征进行提取，以得到试题难度表示。

其中，在题库数据中存在有难度标注数据，也即预先由网络模型，或专家老师对题库数据中较难的试题进行标注的数据时，则可以直接基于该难度标注数据对分词后的已作答试题序列的难度特征进行提取，也即，将对应有难度标注的分词后的目标试题给出一较高的难度值，而对不存在难度标注的分词后的目标试题给出一较低的难度值。

进一步地，在一实施例中，上述S323具体还包括如下步骤：通过难度预测网络模型对分词后的已作答试题序列进行难度预测，得到试题难度表示。

具体地，首先通过难度预测网络模型获取到分词后的已作答试题序列中每一试题组合得到的向量表示矩阵，以进而通过难度预测网络模型中的多个设定卷积核分别与向量表示矩阵相乘，以对每一相乘得到的积进行最大池化处理，并将每一最大池化处理后的数值进行拼接，以得到试题向量表示，并进而对试题向量表示进行全连接，以得到试题难度表示。

在一些具体的实施例中，计算得到作答记录序列特征表示的步骤具体可以是如图6所示，图6是图3中试题作答得分率的预测方法一具体应用场景中获取作答记录序列特征表示的网络模型的结构示意图。

其中，对于作答记录的表征，也即作答序列主要包含两个部分：题目信息x的表征和含有学生作答记录a的(x，a)的表征。实际上，一道题目能够作答正确和题目考察的知识点和题目本身的难度密切相关，因而该部分主要通过知识点(或锚点)和难度对作答记录进行建模，使得其相应得到的表示更加符合直观，并适用于开放集，且适用于各粒度知识点。

具体步骤如图6所示，首先，从题库获取某个学生的其中一道作答的信息：题面，解析，标准答案，学生作答，该题得分率。其次，将题面+解析+标准答案进过数学分词系统后输入到知识点预测模型(难度预测)中获得题目的知识点向量表示(难度值)。然后，从题库获取学生在该题的得分率并通过专家知识获得知识点的偏差表示。最后，融合知识点表示，难度值，得分率，知识点偏差表示得到题目信息x的表征(a＝0) 和学生作答记录(x，a)的表征。

进一步地，通过分词系统对作答序列进行分词，其中，分词的作用是将句子切分为语义上符合人的理解，计算机可识别的最小单位，即词 (组)。且由于数学数据的特殊性(包含中文，英文字母，英文符号，数学特殊符号等)，此处需要构造适用于数学数据的分词系统。该系统能够充分考虑数学数据的特殊性，采用多种开源分词系统融合的方式处理，并将对应的结果根据数学的内在逻辑，数学常用词词表合并，得到最终结果。

又进一步地，采用知识点表示模块将已作答试题序列转换为知识点组合表示。作答记录表征中很重要的一个环节就是对知识点本身的表示，该知识点表示模块意在通过模型学习知识点的表示。其中，在深度学习中，通常有如下三种处理方法：1)随机初始化；2)在中间任务上 (如知识点预测任务)做预训练，获得知识点表示并固定；3)如同二，获得知识点表示并将模型加入进行联合训练。在现有的深度学习算法中，端到端的模式(即3)最终的表现效果最好。本实施方式中采用第三种方法学习知识点的表示，以期获得更优的效果。对于知识点预测模型本身，可以根据具体场景和需求，选择TextCNN(文本分类模型)， Bi-LSTM+attention等监督模型直接做预测任务，或者使用Bert(Bidirectional EncoderRepresentations from Transformers，双向编码器表示)等预训练模型，并在知识点预测任务上进行微调的方式。

又进一步地，在获取知识点偏差表示时，对于每一个知识点，均有一个平均表示和一个偏差表示，且偏差的多少由绝对难度和相对难度控制。而知识点表示模块得到的是一个平均知识点表示，专家知识给出的是知识点的偏差表示。事实上，在教育场景中，专家知识为教研老师的经验，需要通过进一步建模将其转化为向量表示。进而利用该表示作为初始化，通过数据驱动微调，得到最终的偏差表示。这样的表示结合了教研老师经验和数据的统计特性，更加完备。

其中，在作答记录表征中，另一个重要的点即是题目的难度。而这里面主要涉及两个方面：题目本身的难度(绝对难度)和学生的实际得分率(相对难度)。学生的实际得分率，可以通过学生的作答记录获得。对于题目本身的难度，1)如果题库中存在标注数据，则可以直接从题库获取；2)通过难度预测模型得到。但因对题库所有的题目进行人工标注，成本较高，不符合实际场景需求，本实施方式可采用第二种方式。模型的架构与知识点预测模型类似，可根据具体场景和需求设计，这里不再赘述。

且如图6所示，在依次获取到知识点组合表示、试题难度表示、作答得分率表示以及知识点偏差表示后，将试题难度表示和作答得分率表示相加，以将试题难度表示和作答得分率表示相加的和与知识点偏差表示相乘，并将相乘得到的积与知识点组合表示相加，以能够得到作答记录序列特征表示。

其中，为了方便说明，在一具体的实施方式中，本申请的试题作答得分率的预测方法涉及的具体计算方式包括：

难度模块(以TextCNN实现方式为例)：

输入：试题序列的分词(token1，token2，…，tokenN)在分词字典中(字典大小为v)的索引(10，2，…，100)；

输出：试题的难度值；

参数说明：embedding(嵌入)矩阵E_v*d，卷积核F_3*d；

则相应计算过程为：

通过索引从E_v*d获取题目的向量表示矩阵Q_N*d；

对Q_N*d进行卷积操作，得到一维向量q_(N-2)*1，并对其进行max pooling (最大池化)操作，即取最大值，得到一个数值q₁；

采用不同的卷积核大小(如3种)，分别重复2多次(如128)，并将所得结果拼接，得到试题向量表示q＝(q₁，q₂，...，q_128*3)；

两层全连接得到难度值，即d＝sigmoid(W₂Relu(W₁q+b₁)+b₂)，其中 W₁是1024x386矩阵，b₁是1024x1矩阵，W₂是1x1024矩阵，b₁是数值。

请参阅图7，图7是本申请试题作答得分率的预测方法第三实施方式的流程示意图。本实施方式的试题作答得分率的预测方法是图1中的试题作答得分率的预测方法的一细化实施方式的流程示意图，包括如下步骤：

S71：获取到试题序列、作答序列以及试题序列对应的时间序列。

S72：计算得到试题序列对应的试题序列特征表示、作答序列对应的作答记录序列特征表示以及时间序列对应的时间序列特征表示。

其中，S71和S72与图1中的S11和S12相同，具体请参阅S11和 S12及其相关的文字描述，在此不再赘述。

S73：通过试题序列特征表示计算得到试题序列中每一试题之间的试题相关性权重矩阵。

具体地，在获取到试题序列特征表示后，进一步计算得到试题序列中每一试题之间的试题相关性权重矩阵。

可理解的，试题序列中各试题之间的关联度，尤其是每一已作答的试题对待预测试题的关联度，会对当前得到的预测得分率带来极大的影响，因而需对试题序列中每一试题之间的相关性进行特征提取，以得到相应的试题相关性权重矩阵。

S74：通过逻辑回归函数对时间序列特征表示进行处理，以得到时间序列权重矩阵。

进一步地，通过逻辑回归函数，比如，softmax对时间序列特征表示进行处理，以得到时间序列权重矩阵。

S75：将试题相关性权重矩阵与时间序列权重矩阵相乘，以通过逻辑回归函数对相乘得到的积进行归一化处理后得到综合权重矩阵。

又进一步地，将分别计算得到的试题相关性权重矩阵与时间序列权重矩阵相乘，以再次通过逻辑回归函数，如softmax对相乘得到的积进行归一化处理后，得到综合权重矩阵。

S76：将综合权重矩阵与作答记录序列特征表示相乘，以得到当前试题表示。

又进一步地，将计算得到的综合权重矩阵与作答记录序列特征表示相乘，以得到当前试题表示。

S77：基于当前试题表示对待预测试题的作答得分率进行预测，得到待预测试题的预测得分率。

其中，S77与图1中的S14相同，具体请参阅S14及其相关的文字描述，在此不再赘述。

进一步地，在一具体实施例中，为了方便说明，上述S73-S76的具体计算过程还可以包括如下步骤：通过交互模块对试题序列特征表示、作答记录序列特征表示以及时间序列特征表示进行融合，以得到当前试题表示。

其中，该交互模块的三个输入具体为：试题序列特征表示q₁，q₂，...， q_n，作答记录序列特征表示r₁，r₂，...，r_n-1，时间序列特征表示t₁，t₂，...， t_n。

对试题序列特征表示进行矩阵变换得到(i＝1,2，...，n)(i＝1,2，...，n)；其中，分别对应于交互模块集成的已作答题目序列的权重矩阵和待预测试题的权重矩阵。

对作答记录序列特征表示进行矩阵变换得到其中，对应于交互模块集成的作答得分率序列的权重矩阵。

计算得到试题相关性权重矩阵

通过softmax时间序列特征表示进行处理得到时间序列权重矩阵

将试题相关性权重矩阵与时间序列权重矩阵相乘得到并通过softmax归一化后，得到综合权重矩阵

则最终表示为

进一步地，在一具体实施例中，上述S77的具体计算过程还可以包括如下步骤：通过回归器基于当前试题表示对待预测试题的作答得分率进行预测，以得到待预测试题的预测得分率。

其中，该回归器的输入即为上述交互模块得到结果h，则其输出为输出：s＝sigmoid(Wh+b)(w，b分别为回归器给出的权重矩阵和偏置矩阵)。

请参阅图8，图8是本申请试题作答得分率的预测方法第四实施方式的流程示意图。本实施方式包括如下步骤：

S81：获取到试题序列、作答序列以及试题序列对应的时间序列。

S82：计算得到试题序列对应的试题序列特征表示、作答序列对应的作答记录序列特征表示以及时间序列对应的时间序列特征表示。

S83：对试题序列特征表示、作答记录序列特征表示以及时间序列特征表示进行融合，以得到当前试题表示。

S84：基于当前试题表示对待预测试题的作答得分率进行预测，得到待预测试题的预测得分率。

其中，S81、S82、S83以及S84与图1中的S11、S12、S13以及S14 相同，具体请参阅S11、S12、S13以及S14及其相关的文字描述，在此不再赘述。

S85：判断预测得分率是否不小于设定阈值。

具体地，在获取到待预测试题的预测得分率后，进一步判断该预测得分率是否不小于设定阈值。

可理解的，该设定阈值具体可以是待预测试题对应的满分，或该满分的60％或70％等任一合理的分值，以能够根据预测得到的该预测得分率判断该待预测试题是否为该学生未掌握的薄弱点试题。

其中，如果预测得分率不小于设定阈值，则执行S86，而如果预测得分率小于设定阈值，则执行S87。

S86：将待预测试题标记为已掌握试题。

具体地，当对待预测试题进行预测而得到的预测得分率不小于设定阈值，也即相应的学生能够在待预测试题上得到合格的分数时，则判定该待预测试题为已掌握试题。

S87：将待预测试题标记为未掌握试题。

具体地，当对待预测试题进行预测而得到的预测得分率小于设定阈值，也即相应的学生不能在待预测试题上得到足够合格的分数时，则判定该待预测试题为未掌握试题，也即确定为该学生的薄弱点。

其中，在获取到一题库后，通过上述方式，可根据该学生的作答记录，有效的将其中尚未作答的至少一个未掌握试题挑选出来，以能够更有针对性、更有效率对该学生进行教学训练。

其中，可理解的，在一实施方式中，本申请的试题作答得分率的预测方法的上述S85，进一步具体包括如下步骤：对预测得分率进行归一化处理，以判断归一化处理后的预测得分率是否大于设定阈值，从而能够针对具有不同满分值的试题，设定统一阈值，从而能够更有效的判断当前试题是否为相应学生的薄弱点。

基于总的发明构思，本申请还提供了一种智能终端，请参阅图9，图9是本申请智能终端一实施方式的结构示意图。其中，该智能终端91 包括相互耦接的存储器911和处理器912，存储器911存储有程序数据，处理器912用于执行程序数据，以实现如上任一项所述的试题作答得分率的预测方法。

基于总的发明构思，本申请还提供了一种计算机可读存储介质，请参阅图10，图10是本申请计算机可读存储介质一实施方式的结构示意图。其中，该计算机可读存储介质101存储有程序数据1011，该程序数据1011能够被执行以实现如上任一所述的试题作答得分率的预测方法。

在一个实施方式中，计算机可读存储介质101可以是终端中的存储芯片、硬盘或者是移动硬盘或者优盘、光盘等其他可读写存储的工具，还可以是服务器等等。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，处理器或存储器的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个处理器与存储器实现的功能可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或连接可以是通过一些接口，装置或单元的间接耦合或连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor) 执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种试题作答得分率的预测方法，其特征在于，所述试题作答得分率的预测方法包括：

获取到试题序列、作答序列以及所述试题序列对应的时间序列；其中，所述试题序列包括已作答试题序列和待预测试题，所述作答序列包括所述已作答试题序列及其对应的作答得分率序列，所述试题序列的多个试题的题目类型为至少一种；

获取所述作答得分率序列的作答得分率表示，以及所述已作答试题序列的试题难度表示及知识点组合表示；

获取所述已作答试题序列中每一试题的知识点表示，对得到的每一所述知识点表示求取方差，得到所述知识点偏差表示；

将所述试题难度表示和所述作答得分率表示相加；

将所述试题难度表示和所述作答得分率表示相加的和与所述知识点偏差表示相乘，并将相乘得到的积与所述知识点组合表示相加，得到所述作答记录序列特征表示；

计算得到所述试题序列对应的所述试题序列特征表示以及所述时间序列对应的所述时间序列特征表示；

对所述试题序列特征表示、所述作答记录序列特征表示以及所述时间序列特征表示进行融合，以得到当前试题表示；

基于所述当前试题表示对所述待预测试题的作答得分率进行预测，得到所述待预测试题的预测得分率。

2.根据权利要求1所述的试题作答得分率的预测方法，其特征在于，所述获取所述作答得分率序列的作答得分率表示，以及所述已作答试题序列的试题难度表示及知识点组合表示的步骤包括：

获取题库数据；其中，所述题库数据包括所述作答序列；

对所述作答序列中的所述已作答试题序列进行分词处理及向量表示转换，得到所述知识点组合表示；

对分词后的所述已作答试题序列进行难度特征提取，得到所述试题难度表示；

对所述作答得分率序列进行向量表示转换，得到所述作答得分率表示。

3.根据权利要求2所述的试题作答得分率的预测方法，所述题库数据还包括难度标注数据，所述对分词后的所述已作答试题序列进行难度特征提取，得到所述试题难度表示的步骤包括：

基于所述难度标注数据对分词后的所述已作答试题序列的难度特征进行提取，以得到所述试题难度表示。

4.根据权利要求2所述的试题作答得分率的预测方法，所述对分词后的所述已作答试题序列进行难度特征提取，得到所述试题难度表示的步骤包括：

通过难度预测网络模型对分词后的所述已作答试题序列进行难度预测，得到所述试题难度表示。

5.根据权利要求4所述的试题作答得分率的预测方法，所述通过难度预测网络模型对分词后的所述已作答试题序列进行难度预测，得到所述试题难度表示的步骤包括：

通过所述难度预测网络模型获取分词后的所述已作答试题序列中每一试题组合得到的向量表示矩阵；

通过多个设定卷积核分别与所述向量表示矩阵相乘，以对每一相乘得到的积进行最大池化处理，并将每一最大池化处理后的数值进行拼接，以得到试题向量表示；

对所述试题向量表示进行全连接，以得到所述试题难度表示。

6.根据权利要求1所述的试题作答得分率的预测方法，所述对所述试题序列特征表示、所述作答记录序列特征表示以及所述时间序列特征表示进行融合，以得到当前试题表示的步骤包括：

通过所述试题序列特征表示计算得到所述试题序列中每一试题之间的试题相关性权重矩阵；

通过逻辑回归函数对所述时间序列特征表示进行处理，以得到所述时间序列权重矩阵；

将所述试题相关性权重矩阵与所述时间序列权重矩阵相乘，以通过逻辑回归函数对相乘得到的积进行归一化处理后得到综合权重矩阵；

将所述综合权重矩阵与所述作答记录序列特征表示相乘，以得到当前试题表示。

7.根据权利要求1所述的试题作答得分率的预测方法，所述基于所述当前试题表示对所述待预测试题的作答得分率进行预测，得到所述待预测试题的预测得分率的步骤包括：

将所述当前试题表示与设定权重矩阵相乘，以将相乘的积与设定偏置矩阵相加，并通过设定激活函数处理后得到所述待预测试题的预测得分率。

8.根据权利要求1所述的试题作答得分率的预测方法，其特征在于，所述基于所述当前试题表示对所述待预测试题的作答得分率进行预测，以得到所述待预测试题的预测得分率的步骤之后，还包括：

判断所述预测得分率是否不小于设定阈值；

如果所述预测得分率小于所述设定阈值，将所述待预测试题标记为未掌握试题。

9.根据权利要求8所述的试题作答得分率的预测方法，其特征在于，所述判断所述预测得分率是否大于设定阈值的步骤包括：

对所述预测得分率进行归一化处理，以判断归一化处理后的所述预测得分率是否不小于所述设定阈值。

10.一种智能终端，其特征在于，所述智能终端包括相互耦接的存储器和处理器；

所述存储器存储有程序数据；

所述处理器用于执行所述程序数据，以实现如权利要求1-9中任一项所述的试题作答得分率的预测方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序数据，所述程序数据能够被执行以实现如权利要求1-9中任一项所述的试题作答得分率的预测方法。