← 返回列表

一种融合LATEX标签的知识点标注方法及其模型

申请号: CN202311834982.X
申请人: 江西师范大学
申请日期: 2023/12/28

摘要文本

本发明公开了一种融合LATEX标签的知识点标注方法及其模型,步骤如下:数据集构建,构建好的数据集中原始习题文本输入到句子编码器模块中,输出结果;将输出结果输入到学科知识融合模块中的计算结果分别为最终的语义表征;将最终的语义表征输入到门控筛选模块,其输出结果为原始习题文本在学科知识信息影响下最终被保留的信息;将输出结果输入到通过带有sigmoid函数的线性层,得到最终的分类概率向量,并将其通过阈值分类器从而转化为预测标签。本发明的有益效果是:引入两种更细化的学科知识,即LATEX标签概念和术语类型的信息,进而在样本分布失衡的情况下为大部分知识点的标注提供关键信息。

专利详细信息

项目 内容
专利名称 一种融合LATEX标签的知识点标注方法及其模型
专利类型 发明授权
申请号 CN202311834982.X
申请日 2023/12/28
公告号 CN117473096B
公开日 2024/3/15
IPC主分类号 G06F16/35
权利人 江西师范大学
发明人 罗文兵; 王岚清; 陶聪; 梁佳美; 黄琪; 罗凯威; 王明文
地址 江西省南昌市高新技术开发区紫阳大道99号

专利主权项内容

1.一种融合LATEX标签的知识点标注方法,其特征在于:方法步骤如下:步骤S1, 数据集构建,在初中数学试卷中收集习题,对收集的习题进行预处理;预处理之后对收集的习题的知识点标注;最后得到习题数据集, 习题数据集中的习题称为原始习题文本w;步骤S2,将步骤S1中构建好的原始习题文本w、以及原始习题文本w中的LATEX标签概念文本lc和术语类型文本tt输入到知识点自动标注模型的句子编码器模块中,输出结果是原始习题文本表示e、LATEX标签概念表示e和术语类型表示e;lctt步骤S3,将步骤S2获得的输出结果输入到学科知识融合模块中,利用交叉注意力机制将LATEX标签概念表示e和术语类型表示e分别与原始习题文本表示e进行融合,输出结果为LATEX标签概念的深层语义表示M和术语类型的深层语义表示M;将学科知识融合模块中进行平均池化操作后的计算结果分别作为LATEX标签概念与术语类型最终的语义表征,即LATEX标签概念的池化表示与术语类型的池化表示/>;lcttlctt步骤S4,将步骤S3中的最终的语义表征输入到门控筛选模块,通过一种隐式融合多种学科知识的门控筛选机制,以少参数的形式保留原始习题文本表示e中与学科知识相关的关键信息,则门控筛选模块的输出结果为原始习题文本w在LATEX标签概念信息的影响和术语类型信息的影响下最终被保留的信息,简称为最终保留的信息e;cls-remain2步骤S5,将步骤S4中门控筛选模块输出的最终保留的信息 e作为预测模块的输入,将输入通过带有sigmoid函数的线性层,得到最终的分类概率向量,分类概率向量是预测标签的一种表示,最终的分类概率向量通过阈值分类器将分类概率向量转化为预测标签;cls-remain2步骤S2中句子编码器模块,具体为:步骤S21,句子编码器模块选取RoBERTa作为预训练语言模型,RoBERTa预训练语言模型是鲁棒优化的BERT方法,句子编码器模块输入包括原始习题文本w、LATEX标签概念文本lc和术语类型文本tt,三者共享RoBERTa预训练语言模型的参数;步骤S22,RoBERTa预训练语言模型作为函数,w为第i个索引的原始习题文本,lc为第i个索引的LATEX标签概念文本,tt为第i个索引的术语类型文本,具体的计算过程如公式(1)所示;iii
(1);其中,e为第i个索引的原始习题文本w经过RoBERTa预训练语言模型得到的向量表示,即称为第i个索引的原始习题文本表示e,e为第i个索引的LATEX标签概念文本经过RoBERTa预训练语言模型得到的向量表示,即称为第i个索引的LATEX标签概念表示e,e为第i个索引的术语类型文本经过RoBERTa预训练语言模型得到的向量表示,即称为第i个索引的术语类型表示e;iiiilcilcittitt步骤S23,提取最后一层自然语言处理领域的模型的输出作为文本词向量表示,文本词向量表示即第i个索引的原始习题文本表示e、第i个索引的LATEX标签概念表示e、第i个索引的术语类型表示e;iilcitt步骤S3中学科知识融合模块,具体为:步骤S31,输入句子编码器模块中最后一层自然语言处理领域的模型输出的文本词向量表示;步骤S32,利用交叉注意力机制将第i个索引的LATEX标签概念表示e,第i个索引的术语类型表示e分别与第i个索引的原始习题文本表示e进行融合,输出结果为第i个索引的LATEX标签概念的深层语义表示M和第i个索引的术语类型的深层语义表示M;ilcittiilcitt步骤S33,同时知识点自动标注模型在多个独立的特征空间中学习稳定的特征表示,引入多头注意力机制,最终的注意力计算过程如公式(2)、公式(3)所示;
(2);
(3);其中,head为第i个索引的LATEX标签概念表示进行第j次注意力计算的特征表示,softmax作为一种激活函数,将输入的未归一化的分数转换为概率分布,W、W、W分别表示第j次自注意力计算时的查询向量、键向量和值向量的投影参数矩阵,T为第i个索引的LATEX标签概念表示e和键向量W相乘的转置,d为第i个索引的原始习题文本表示e的第二维度大小;ijlcjQjKjVilcjKKihead为第i个索引的术语类型表示进行第j次注意力计算的特征表示;ijttM为对第i个索引的LATEX标签概念表示进行h次的注意力计算后级联得到的LATEX标签概念的深层语义表示,称为第i个索引的LATEX标签概念的深层语义表示M ,表示级联操作,h表示注意力计算次数;ilcilcM为对第i个索引的术语类型表示进行h次的注意力计算后级联得到的术语类型的深层语义表示,称为第i个索引的术语类型的深层语义表示M;ittitt步骤S34,提取自然语言处理领域的模型最后一层嵌入向量的平均池化结果作为句子信息表示,对第i个索引的LATEX标签概念的深层语义表示M和第i个索引的术语类型的深层语义表示M进行平均池化,并将计算结果分别作为LATEX标签概念与术语类型最终的语义表征,计算如公式(4)所示;ilcitt
(4);其中,为对第i个索引的标签概念的深层语义表示进行平均池化后的结果,称为第i个索引的LATEX标签概念的池化表示/>,/>为对第i个索引的术语类型的深层语义表示进行平均池化后的结果,称为第i个索引的术语类型的池化表示/>;AvgPool是分别对第i个索引的LATEX标签概念的深层语义表示M和第i个索引的术语类型的深层语义表示M平均池化的操作;ilcitt步骤S4中门控筛选模块,具体为:步骤S41,输入数据即第i个索引的LATEX标签概念的池化表示与第i个索引的术语类型的池化表示/>;步骤S42,通过作用于第i个索引的LATEX标签概念的池化表示和CLS标签向量e的门控机制,计算出在LATEX标签概念信息的影响下原始习题文本的信息应保留的比例,以筛选出原始习题文本中与之相关的关键信息,计算过程如公式(5)所示;cls
(5);其中,r为在第i个索引的LATEX标签概念信息的影响下所保留的权重值,为sigmoid激活函数,W为对第i个索引的LATEX标签概念的池化表示/>和CLS标签向量e拼接后的可学习的矩阵,b为偏置向量,[e, />]为对CLS标签向量e和第i个索引的LATEX标签概念的池化表示/>进行拼接得到的结果;ilclcclslcclsclse为在第i个索引的LATEX标签概念信息的影响下所保留的权重值r与CLS标签向量e相乘得到的结果,表示原始习题文本在第i个索引的LATEX标签概念信息的影响下被保留的信息,简称为初步保留的信息e;icls-remain1ilcclsicls-remain1步骤S43,原始习题文本在第i个索引的LATEX标签概念信息和第i个索引的术语类型信息的影响下最终被保留的信息e,计算过程如公式(6)所示;icls-remain2
(6);其中,r为在第i个索引的术语类型信息的影响下所保留的权重值,表示sigmoid激活函数,输入为初步保留的信息e ,W为对初步保留的信息e和第i个索引的术语类型的池化表示/>拼接后的可学习的矩阵,b为偏置向量,[e, />]为初步保留的信息e和第i个索引的术语类型的池化表示/>进行拼接得到的结果;itticls-remain1tticls-remain1tticls-remain1icls-remain1e则是初步保留的信息e与r相乘得到的门控筛选模块的最终输出,即表示原始习题文本在第i个索引的LATEX标签概念信息的影响和第i个索引的术语类型信息的影响下最终被保留的信息,称为第i个索引的学科知识信息影响下的最终保留的信息e;icls-remain2icls-remain1itticls-remain2步骤S5,将门控筛选模块输出的第i个索引的学科知识信息影响下的最终保留的信息e作为预测模块的输入,将输入通过带有sigmoid函数的线性层,得到最终的分类概率向量,分类概率向量是预测标签的一种表示,最终的分类概率向量通过阈值分类器可将分类概率向量转化为预测标签;icls-remain2步骤S5中预测模块,具体步骤为:步骤S51,将门控筛选模块输出的第i个索引的学科知识信息影响下的最终保留的信息e输入到带有sigmoid函数的线性层后,将得到最终的分类概率向量, 如公式(7)所示;icls-remain2
(7);其中,为sigmoid函数的线性层得到的第j个分类概率向量,sigmoid为激活函数,W为第i个索引的学科知识信息影响下的最终保留的信息e可学习的矩阵,b为偏置向量;cicls-remain2c步骤S52,引入分类阈值δ,表示当前习题对应第j 个知识点标签,判断sigmoid函数的线性层得到的第j个分类概率向量/>与分类阈值δ的大小关系得到当前习题对应第j 个知识点标签/>,如公式(8);
(8);步骤S53,采用分布平衡损失以平衡各知识点标签之间的实例数量,具体损失函数的计算如公式(9)所示;
(9);其中,L表示最后所求得的分布平衡损失,C表示知识点的总数,k表示数据集中的第k道习题,作为加权系数加入训练以弥补期待与实际采样概率之间的差距,y表示第k道习题对应第j个知识点的真实标记,y∈{0, 1},log表示取对数,z表示第k道习题预测出第j个知识点的概率,v是一种阶级特异性偏差,表示固有模型的偏差;λ是影响损失梯度的决定性因素,表示对分类概率z的“容忍”程度。DBjkjkjkjjk