文本分类方法、装置、计算机设备以及存储介质
摘要文本
本申请涉及一种文本分类方法、装置、计算机设备以及存储介质。所述方法包括:对文本分类数据集进行分词处理,确定目标语义单元序列;根据目标语义单元序列构建样本数据集;将有标签数据集分别输入学生模型和标签训练教师模型,确定第一学生预测数据和第一教师预测数据,并将无标签数据集分别输入学生模型和对抗训练教师模型,确定第二学生预测数据和第二教师预测数据;根据第一学生预测数据、第一教师预测数据、第二学生预测数据和第二教师预测数据对所述学生模型进行参数调整,确定文本分类模型;将待分类文本输入所述文本分类模型,根据文本分类模型的输出结果确定待分类文本的文本分类标签。上述方法提高了文本分类的准确性。
申请人信息
- 申请人:之江实验室
- 申请人地址:311121 浙江省杭州市余杭区中泰街道科创大道之江实验室
- 发明人: 之江实验室
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 文本分类方法、装置、计算机设备以及存储介质 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311281379.3 |
| 申请日 | 2023/10/7 |
| 公告号 | CN117009534B |
| 公开日 | 2024/2/13 |
| IPC主分类号 | G06F16/35 |
| 权利人 | 之江实验室 |
| 发明人 | 吴洵进; 吴运翔; 常璟飞; 蒋科; 施林锋; 程稳 |
| 地址 | 浙江省杭州市余杭区中泰街道科创大道之江实验室 |
专利主权项内容
1.一种文本分类方法,其特征在于,包括:对文本分类数据集进行分词处理,确定目标文本语义单元,以及所述目标文本语义单元对应的目标语义单元序列;根据所述目标语义单元序列构建样本数据集;所述样本数据集包括有标签数据集和无标签数据集;将所述有标签数据集分别输入学生模型和标签训练教师模型,确定第一学生预测数据和第一教师预测数据,并将所述无标签数据集分别输入学生模型和对抗训练教师模型,确定第二学生预测数据和第二教师预测数据;根据所述第一学生预测数据、所述第一教师预测数据、所述第二学生预测数据和所述第二教师预测数据对所述学生模型进行参数调整,根据参数调整后的学生模型确定文本分类模型;将待分类文本输入所述文本分类模型,根据所述文本分类模型的输出结果确定所述待分类文本的文本分类标签;根据所述第一学生预测数据、所述第一教师预测数据、所述第二学生预测数据和所述第二教师预测数据对所述学生模型进行参数调整,包括:根据所述第一学生预测数据和所述有标签数据集的标签信息确定所述学生模型的分类损失;根据所述第一学生预测数据和所述第一教师预测数据确定所述学生模型的蒸馏损失和词向量余弦损失;根据所述第二学生预测数据和所述第二教师预测数据的均方误差损失函数确定所述学生模型和对抗训练教师模型的一致性损失;基于所述分类损失、所述蒸馏损失、所述词向量余弦损失和所述一致性损失对所述学生模型进行参数调整;所述基于所述分类损失、所述蒸馏损失、所述词向量余弦损失和所述一致性损失对所述学生模型进行参数调整,包括:对所述分类损失、所述蒸馏损失和所述词向量余弦损失进行加权求和,确定所述学生模型的标签训练损失函数,并根据所述标签训练损失函数和所述一致性损失对所述学生模型进行参数调整;根据所述目标语义单元序列构建样本数据集,包括:基于预设的最大序列长度对目标语义单元序列进行标准化处理,确定标准化语义单元序列;采用文本数据增强方法,根据所述标准化语义单元序列确定无标签扩充数据,根据所述无标签扩充数据和标准化语义单元序列确定样本数据集;采用文本数据增强方法,根据所述标准化语义单元序列确定无标签扩充数据,根据所述无标签扩充数据和标准化语义单元序列确定样本数据集,包括:采用文本数据增强方法,对标准化语义单元序列进行文本数据增强扩充,并去除增强扩充后的标准化语义单元序列的标签,确定无标签数据集;无标签数据集包含无标签扩充数据,无标签扩充数据即无标签语义单元序列;将标准化语义单元序列和标准化语义单元序列对应的标签作为有标签数据集,将有标签数据集和无标签数据集作为样本数据集;根据参数调整后的学生模型确定文本分类模型,包括:通过文本对抗攻击方法确定参数调整后的学生模型的对抗攻击前准确率、对抗攻击后准确率、攻击成功率和平均扰动;根据所述对抗攻击前准确率、所述对抗攻击后准确率、所述攻击成功率和所述平均扰动确定参数调整后的学生模型的模型鲁棒性;若所述模型鲁棒性满足预设的鲁棒性条件,则将参数调整后的学生模型作为文本分类模型;根据所述对抗攻击前准确率、所述对抗攻击后准确率、所述攻击成功率和所述平均扰动确定参数调整后的学生模型的模型鲁棒性后,还包括:若所述模型鲁棒性不满足预设的鲁棒性条件,则通过对抗训练算法对所述无标签数据集进行更新;通过梯度下降法,根据更新后的无标签数据集更新学生模型的模型权重,确定更新后的学生模型;确定学生模型的模型权重的指数平均数指标;基于所述指数平均数指标更新对抗训练教师模型的模型权重,确定更新后的对抗训练教师模型;通过标签训练教师模型和更新后的对抗训练教师模型对更新后的学生模型进行蒸馏训练,根据训练结果确定文本分类模型。。 (更多数据,详见马克数据网)