基于集成学习的软件缺陷预测模型构建方法和装置
摘要文本
成都工业学院取得“一种透气窗帘布”专利技术,本发明公开了一种基于集成学习的软件缺陷预测模型构建方法和装置,涉及软件测试技术领域。本发明通过训练集对多个初始的学习器进行初步训练,得到具有一定缺陷预测能力的基学习器,再利用每个基学习器对训练集中每个样本数据进行预测,得到的预测结果能够真实评估每个基学习器对软件缺陷的预测能力,以及各基学习器之间的差异。因此基于测试集的预测结果选择的基学习器构成集成学习器相比依赖经验选择基学习器更为有效,从而发挥出不同模型之间的互补性优势,以对抗不平衡样本导致的过拟合或欠拟合问题,提高缺陷预测的性能。
专利主权项内容
1.一种基于集成学习的软件缺陷预测模型构建方法,其特征在于,所述方法包括:获取训练集,所述训练集包括软件的缺陷样本数据和非缺陷样本数据;通过所述训练集训练得到N个基学习器;基于N个所述基学习器对所述训练集中的每个样本数据进行预测,得到每个基学习器对每个样本数据的预测结果;基于所述预测结果从N个基学习器中确定M个目标基学习器,其中M<N;基于所述预测结果从N个基学习器中确定M个目标基学习器,包括:基于所述预测结果确定两两基学习器之间的双重错误不合值,所述双重错误不合值计算为:DFD=T00/(T10+T01)i, ji, ji, ji, j其中,DFD是第i个基学习器和第j个基学习器之间的双重错误不合值,T00是第i个基学习器和第j个基学习器都预测错误的样本的数量,T10是第i个基学习器预测正确但第j个基学习器预测错误的样本的数量,T01是第i个基学习器预测错误但第j个基学习器预测正确的样本的数量;i, ji, ji, ji, j步骤S1,将每个基学习器与其它基学习器两两之间双重错误不合值的平均值确定为每个所述基学习器的双重错误不合值;所述基学习器的双重错误不合值越小,则该基学习器的多样性越大;步骤S2,将多样性最大的基学习器确定为候选基学习器,并将所述候选基学习器从步骤S1中的基学习器中排除,得到剩余基学习器集合;步骤S3,对所述剩余基学习器集合重复执行步骤S1-步骤S2,直到所述候选基学习器的数量达到M,则将M个所述候选基学习器确定为目标基学习器;通过预设结合策略融合M个所述目标基学习器,得到软件缺陷预测模型。
专利申请信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于集成学习的软件缺陷预测模型构建方法和装置 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311823565.5 |
| 申请日 | 2023/12/28 |
| 公告号 | CN117472789B |
| 公开日 | 2024/3/12 |
| IPC主分类号 | G06F11/36 |
| 权利人 | 成都工业学院 |
| 发明人 | 董昕; 梁艳; 王杰; 陈松; 周正娟; 李君 |
| 地址 | 四川省成都市花牌坊街2号 |