← 返回列表

一种基于文本噪声标签和协同训练策略的文本分类方法

申请号: CN202410055683.4
申请人: 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)
申请日期: 2024/1/15

摘要文本

本发明涉及带噪学习技术领域,公开了一种基于文本噪声标签和协同训练策略的文本分类方法,将文本输入到完成训练的语言模型中,预测得到文本对应的标签;语言模型的训练方法包括:划分子集;对原始标签进行翻新;隐空间的文本插值;构建损失函数并训练;本发明采用协同语言模型的训练策略,同时将一个语言模型的子集划分结果线性组合作为同伴语言模型的训练样本。这种策略可以防止模型过度拟合到有噪声的样本,并确保模型从不同范围的数据中学习到全面的信息。

专利详细信息

项目 内容
专利名称 一种基于文本噪声标签和协同训练策略的文本分类方法
专利类型 发明申请
申请号 CN202410055683.4
申请日 2024/1/15
公告号 CN117574258A
公开日 2024/2/20
IPC主分类号 G06F18/2413
权利人 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)
发明人 赵卓尔; 徐阳阳; 孙晓; 汪萌
地址 安徽省合肥市高新区望江西路5089号, 中国科学技术大学先进技术研究院未来中心B1205-B1208

专利主权项内容

1.一种基于文本噪声标签和协同训练策略的文本分类方法,将文本输入到完成训练的文本分类模型中,预测得到文本对应的标签;通过协同训练策略对文本分类模型进行训练,文本分类模型的训练方法具体包括:步骤一,划分子集:将样本集的文本样本/>输入到两个文本分类模型中,如果文本分类模型预测的标签与文本样本/>的原始标签/>一致,则将文本样本/>和对应的原始标签/>划为标记子集/>;如果文本分类模型预测的标签与文本样本/>的原始标签/>不一致,则将文本样本/>和对应的原始标签/>划为未标记子集/>;两个文本分类模型分别记为模型一和模型二,通过模型一划分出的标记子集和未标记子集作为模型二的训练数据集,记为训练数据集二;通过模型二划分出的标记子集和未标记子集作为模型一的训练数据集,记为训练数据集一;其中,两个文本分类模型均由类型相同但参数不同的预训练语言模型和线性全连接层组成;步骤二,对原始标签进行翻新:通过回译在训练数据集一和训练数据集二中的未标记子集的文本样本基础上得到增强文本,将训练数据集一的文本样本和对应的增强文本输入到模型一和模型二中,将训练数据集二的文本样本和对应的增强文本输入到模型一和模型二中,对模型一和模型二的输出进行平均和锐化,得到翻新标签;未标记子集的文本样本和翻新标签,组成未标记子集;步骤三,隐空间的文本插值:通过Tmix方法在预训练语言模型的隐藏空间内对标记子集和未标记子集/>中的文本样本进行文本插值操作,来创建增强后的文本样本/>,得到标记子集/>和未标记子集/>;步骤四,构建损失函数并训练:模型一和模型二的训练损失包括标记子集上的损失/>、未标记子集上的损失/>和正则化参数/>:/>;其中,表示权重参数;标记子集上的损失;/>表示标记子集中文本样本/>的概率标签,/>表示概率标签的类别序号,/>表示第c类概率标签;为文本样本/>输入文本分类模型后,文本分类模型线性全连接层的softmax层关于第c类概率标签的输出,/>是预训练模型的总参数表示,/>表示全连接层的参数;未标记子集上的损失;/>表示未标记子集中文本样本/>的概率标签;/>为文本样本/>输入文本分类模型后,文本分类模型线性全连接层的softmax层的输出;正则化参数;/>是一个常数;通过训练损失以及经过步骤二和步骤三处理过的训练数据集一对模型一进行训练,通过反向传播更新模型一的参数,直至模型一收敛;通过训练损失/>以及经过步骤二和步骤三处理过的训练数据集二对模型二进行训练,通过反向传播更新模型二的参数,直至模型二收敛。