← 返回列表

一种基于元去噪和负学习的噪声标签识别方法

申请号: CN202410011290.3
申请人: 南京航空航天大学
申请日期: 2024/1/4

摘要文本

本发明提供了一种基于元去噪和负学习的噪声标签识别方法。该方法利用公开的已知含噪信息的数据集或手工构造的含噪数据集,训练一个或多个模型用于记录每个样本在训练过程中的元损失变化情况。进而,将样本的过程元损失及含噪标签输入到二分类模型进行训练,得到可用于目标任务的噪声鉴别模型。在进行目标任务学习时,输入样本的过程损失即可得到样本是否含噪的预测结果。一方面,该方法利用相似类型任务上噪声的产生方式具有共通性这一特点,以一种低代价的方式将已有任务上的噪声元信息迁移到新的目标任务;另一方面该方法采用负学习的方式对样本进行训练,得益于负学习对噪声较强的鉴别能力,本发明方法可获得优异的性能表现。。 (来自 马克数据网)

专利详细信息

项目 内容
专利名称 一种基于元去噪和负学习的噪声标签识别方法
专利类型 发明授权
申请号 CN202410011290.3
申请日 2024/1/4
公告号 CN117523213B
公开日 2024/3/29
IPC主分类号 G06V10/30
权利人 南京航空航天大学
发明人 黄圣君; 宗辰辰; 谢明昆; 宁鲲鹏; 邹博士; 梁栋
地址 江苏省南京市秦淮区御道街29号

专利主权项内容

1.一种基于元去噪和负学习的噪声标签识别方法,其特征在于,包括以下步骤:步骤S1、获取由个含噪声标签的图像分类数据集组成的集合/>,为第/>个含噪声标签的图像分类数据集、/>个第一模型/>,/>为第个第一模型、目标任务图像分类数据集/>、用于训练目标任务图像分类数据集/>的第二模型/>、噪声标签鉴别模型/>、噪声标签过滤的阈值/>;步骤S2、通过第一模型以负学习的方式训练图像分类数据集/>,并记录图像样本的样本损失,然后根据样本损失构建元数据集;步骤S3、根据步骤S2构建的元数据集再构建新的元数据集,并通过再构建新的元数据集训练噪声标签鉴别模型;步骤S4、通过第二模型以负学习的方式训练目标任务图像分类数据集/>,并记录样本损失;步骤S5、利用步骤S3中的训练好的噪声标签鉴别模型过滤含噪声标签的图像样本,得到过滤后的目标任务图像分类数据集/>;步骤S1中:对于第个含噪声标签的图像分类数据集/>,其满足:

表示图像分类数据集/>中的第/>个图像样本,/>表示图像样本/>给定的标签,/>表示图像分类数据集/>给定的标签集合,/>为给定的标签集合/>中第/>个给定的标签;/>表示图像样本/>的含噪信息:当/>时,图像样本/>不含噪声标签,/> 时,图像样本/>含噪声标签,/>表示图像分类数据集包含的图像样本个数;对于目标任务图像分类数据集,其满足:

表示目标任务图像分类数据集/>中的第/>个图像样本,表示图像样本/>给定的标签,/>表示目标任务图像分类数据集/>给定的标签集合,/>为给定的标签集合/>中第/>个给定的标签,/>表示目标任务图像分类数据集/>包含的图像样本个数;步骤S2中:通过第一模型以负学习的方式训练图像分类数据集/>,将图像分类数据集/>中图像样本/>由第一模型/>预测的结果表示为/>;对于图像样本,在每个训练轮次,在给定的标签集合/>中从给定的标签/>外剩余的给定标签中随机选择一个作为补标签/>,使用如下的损失计算方式进行第一模型的更新:
; 其中表示第个补标签,损失函数/>用于度量图像样本/>的预测结果/>与补标签/>之间的差异;m记录图像样本在第e个训练轮次的样本损失/>:
; 经历个训练轮次后得到图像样本/>的样本损失集合,结合含噪信息/>判断图像样本/>是否含噪声标签,构造图像分类数据集/>对应的元数据集/>,/>表示图像分类数据集/>包含的图像样本个数;然后计算其他含噪声标签图像分类数据集的元数据集,得到元数据集的集合/>;步骤S3中,对于步骤S2中获得的元数据集的集合,构造新的元数据集,表示为:;其中,/>为并集,k表示第k个元数据集, />为元数据集/>中的第/>个图像样本的样本损失集合,/>为元数据集/>中的第/>个图像样本的含噪信息:当/>时,图像样本/>不含噪声标签,当/>时,图像样本/>含噪声标签;利用元数据集训练噪声标签鉴别模型/>,元数据集/>中第/>个图像样本的样本损失集合/>由噪声标签鉴别模型/>预测的结果表示为/>, 使用如下的损失计算方式进行噪声标签鉴别模型/>的更新:
; 损失函数用于度量第/>个图像样本的预测结果/>与含噪信息之间的差异;步骤S4中:利用第二模型以负学习的方式训练目标任务图像分类数据集/>,目标任务图像分类数据集/>中图像样本/>由第二模型/>预测的结果表示为/>;对于图像样本,在每个训练轮次,在给定的标签集合/>中从给定的标签/>外剩余的给定标签中随机选择一个作为补标签/>,使用如下的损失计算方式进行第二模型/>的更新:
; 其中表示第/>个补标签,损失函数/>用于度量图像样本/>的预测结果/>与补标签/>之间的差异;记录图像样本在第e个训练轮次的样本损失/>:
; 经历个训练轮次后得到样本损失集合/>;步骤S5中,将图像样本的样本损失集合/>输入到训练好的噪声标签鉴别模型/>中,获取图像样本/>被预测为含噪声标签图像样本的概率/>,/>,根据设定的阈值/>,如果/>则过滤图像样本/>,否则保留图像样本/>,即得到过滤后的目标任务图像分类数据集/>。