一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法
申请人信息
- 申请人:云南师范大学
- 申请人地址:650500 云南省昆明市呈贡区聚贤街768号
- 发明人: 云南师范大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311397307.5 |
| 申请日 | 2023/10/26 |
| 公告号 | CN117132003B |
| 公开日 | 2024/2/6 |
| IPC主分类号 | G06Q10/04 |
| 权利人 | 云南师范大学 |
| 发明人 | 郝佳; 甘健侯; 周菊香; 王俊; 朱璐瑜 |
| 地址 | 云南省昆明市呈贡区聚贤街768号 |
摘要文本
云南师范大学获取“一种透气窗帘布”专利技术,本发明涉及一种基于自训练半监督学习的学生学业表现早预测办法,属于学生表现预测领域。步骤为:Step1:收集已完结课程中,学生“行为特征T1‑学业表现Y”标签数据;Step2:收集未完结课程中,学业表现待预测的学生行为特征T2;Step3:在GAN模型基础上加上了一个分类器,形成修订后的模型CTAB‑GAN,针对Step1中的学生“行为特征T1‑学业表现Y”标签数据,利用CTAB‑GAN生成一组带标签的辅助数据集;Step4:设计自训练编码器,实现学生行为特征T2的语义表征;Step5:利用Step3得到的带标签的辅助数据集及Step4得到的语义表征,设计半监督学习模型,实现学生学业表现早预测。本发明可实现学业表现的早预测,为在线平台的管理者提供后续的决策依据。
专利主权项内容
1.一种基于自训练-半监督学习的在线学习平台学生学业表现的早预测办法,其特征在于:包括如下步骤:Step1:收集已完结课程中,学生“行为特征T1-学业表现Y”标签数据;Step2:收集未完结课程中,学业表现待预测的学生行为特征T2;Step3:在GAN模型基础上加上了一个分类器C,形成修订后的模型CTAB-GAN,针对Step1中的学生“行为特征T1-学业表现Y”标签数据,利用CTAB-GAN生成一组带标签的辅助数据集;Step4:设计自训练编码器,实现Step2中学生行为特征T2的语义表征;Step5:利用Step3得到的带标签的辅助数据集及Step4得到的语义表征,设计半监督学习模型,实现学生学业表现早预测;Step1和Step2可先后进行也可以同时进行;Step3中利用CTAB-GAN生成一组带标签的辅助数据集的具体步骤如下:Step3.1:数据转化:学生的学习行为特征T1包括连续型特征和离散型特征;对于连续型特征而言,将其视作一个包含了多个高斯分布、且每一个分布都具备其独特的平均值和标准差的连续变量;随后,该变量的概率分布便可利用混合高斯分布GMM来进行拟合,记第i个连续变量为F,假设其由m个独立的高斯分布构成,且这m个分布的平均值和标准差分别为和/>那么,当连续变量F取值为F时,其概率便可通过EM算法来求出,且F的每一个概率取值结果被分别记为:/>接下来,通过公式/>将F的取值归一化后,使其服从正态分布N~(0, 1),由此完成连续特征数据的转化,而对于离散型特征F,则通过独热编码的方式直接将其进行转化,并记最终的转化结果为γ,最终,学生行为特征T1的转化结果被记为g,且其被用公式表示为:/>其中n表示特征T1的总个数;iiijijijjixzStep3.2:生成器G和判别器D的优化:G和D均采用卷积神经网CNN来进行构建与优化,其中,G由一个双层的CNN构成,其输入为Step3.1中特征数据转化的结果g,以及一个随机采样的噪声向量,该噪声向量的概率分布被记为g;而G的输出则作为D的输入,G的损失函数如公式(1):xz其中,x1表示从g中采样的任一结果向量,z1表示从g中采样的任一结果向量,p(x)和P(z)是原有数据和噪声数据的先验分布,E[·]和SD[·]分别为两个分布之间的期望和方差,其结果通过L2范数来计算;xzreal对于D而言,其包含一个4层CNN,且每一层的卷积核大小为3×3,每一层的连接包含一个LeakyReLU函数,而最后一层的激活函数为Sigmoid,D采取反向传播的优化方式,且其损失函数如公式(2)所示:L=(E[D(x2′)-E[D(x2)])+λE(|ΔD(x2′)|-1) (2)Dx2′~P(G)x2~P(r)x2′~P(x2′)x2′22其中,P(G)表示根据生成器G所生成的一个概率分布,P(r)表示根据随机向量r所生成的一个概率分布,x2′表示从概率分布P(G)中采样的一个结果向量,x2表示从概率分布P(r)中采样的一个结果向量,D(·)是D的输出,而P(x2′)是从概率分布P(G)中通过均匀采样所得出的概率分布,(E[D(x2′)]-E[D(x2)])度量了D的损失;x2'~P(G)x2~P(r)Step3.3:分类器C的优化:C的输入为带标签的学生行为特征T1与学业表现Y的原始数据集,其通过一个4层多层感知机MLP来实现,C的损失函数如公式(3)所示:其中,定义从学生行为特征T1中所选取的任意一个特征为F,而l(x1)为特征F的取值,remove(·)则表示从特征F中删除特定取值,C(·)则表示MLP的输出,即为:学生学业表现Y的预测结果,分类器C的输入与生成器G的输入一致,因此公式(3)中的x1和p(x)同公式(1)中含义一致;xxxrealStep3.4:重复Step3.2-Step3.3中步骤,不断进行数据的生成、判别与分类,直至判别器D根据公式(2)所计算的损失函数值小于判别收敛阈值η,则CTAB-GAN的优化结束,此时,CTAB-GAN的输出即为与原始的学生“行为特征T1-学业表现Y”标签数据呈一致性的高斯分布的带标签的辅助数据集。D (来 自 马 克 数 据 网)