一种大模型非时序训练数据质量评价方法
摘要文本
本发明公开了一种大模型非时序训练数据质量评价方法,从宏观与微观两个角度出发对大模型预训练数据集的质量做出评价。宏观层面:对数据集总量、数据类分布情况进行检查,考虑到数据的特殊性,还对数据集时效性进行检查,对数据集质量进行初步评价。微观层面:将数据集特征与标签的关联强度作为数据集质量评价标准,对数据集进行评价时为了降低大规模数据集背景下的工作量,预先采用分层抽样的方法对原始数据集进行样本抽取;评价过程包括特征重排列测试、标签重排列测试,并通过置换检测进行辅助,对数据集的质量作出评价。该方法可以帮助研究人员对大规模数据集进行高效快速的质量评估,降低数据集质量对模型训练结果的影响,减少模型迭代成本。 百度搜索马 克 数 据 网
申请人信息
- 申请人:南京邮电大学
- 申请人地址:210003 江苏省南京市鼓楼区新模范马路66号
- 发明人: 南京邮电大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种大模型非时序训练数据质量评价方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311405741.3 |
| 申请日 | 2023/10/27 |
| 公告号 | CN117150232B |
| 公开日 | 2024/2/6 |
| IPC主分类号 | G06F18/15 |
| 权利人 | 南京邮电大学 |
| 发明人 | 王攀; 刘沣汉 |
| 地址 | 江苏省南京市鼓楼区新模范马路66号 |
专利主权项内容
1.一种大模型非时序训练数据质量评价方法,其特征在于,包括以下步骤:步骤1、收集原始大模型预训练流量数据集,根据原始数据集的总量、数据类分布情况、数据实时性三个方面对数据集进行宏观评价;所述原始大模型预训练流量数据集,包括网页、社交媒体、新闻、百科数据集;步骤2、对数据集进行微观评价前,对原始数据集进行标签重排列,形成实验数据集:将原始数据集按照标签进行分组,并将分组后各组的数据样本标签进行随机交换,与其他组的样本特征组合得到新的实验数据集,所述标签为需要进行分类的具体类别;步骤3、进行相关系数测试:计算标签重排列所形成的实验数据集各个特征与标签之间的斯皮尔曼相关系数,对特征与标签的关联强度进行评价,并观察随着标签重排列比例的上升,斯皮尔曼相关系数的变化趋势;步骤4、性能表现测试前,采用分层抽样的方法对标签重排列所形成的新的数据集进行样本抽取,形成所需的训练集与测试集;步骤5、进行性能表现测试:通过上述分层抽样所形成的训练集与测试集在由K近邻、支持向量机、决策树、随机森林四种ML分类算法分类器池上的性能表现,对特征与标签之间的关联性进行验证;步骤S6、若观察到随着标签重排列比例的上升,性能指标随之下降后,计算各个特征对模型性能下降贡献度,得出数据集质量评价结果,获取原始大模型预训练流量数据集中标签特征之间存在强关联性的高质量数据集。