一种面向偏标记数据的鲁棒特征选择方法
摘要文本
本发明涉及一种面向偏标记数据的鲁棒特征选择方法,首先利用偏标记数据中样本的相关性计算标记置信度,并根据标记置信度对标记空间中伪标记进行平滑处理;在此基础上,采用加权互信息对特征的冗余性进行计算分析,构建得到基于稀疏回归模型的特征选择方法模型;利用模型对偏标记数据进行优化学习,两阶段循环迭代地利用模型学得的标记置信度指导各个变量间相关性的更新,并通过稀疏回归系数对偏标记数据进行特征选择,从而得到鲁棒性好的特征子集结果。本发明通过分析计算特征与标记的相关性、样本的相关性、特征的冗余性,构建了面向偏标记数据的特征选择目标函数,实现了对特征的重要性进行准确度量分析,显著提升了学习模型的分类性能。。专利查询网
申请人信息
- 申请人:江西农业大学
- 申请人地址:330033 江西省南昌市经济技术开发区方志敏大道1101号
- 发明人: 江西农业大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种面向偏标记数据的鲁棒特征选择方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311776712.8 |
| 申请日 | 2023/12/22 |
| 公告号 | CN117454154A |
| 公开日 | 2024/1/26 |
| IPC主分类号 | G06F18/213 |
| 权利人 | 江西农业大学 |
| 发明人 | 钱文彬; 舒文豪; 刘佳乐 |
| 地址 | 江西省南昌市志敏大道1101号 |
专利主权项内容
1.一种面向偏标记数据的鲁棒特征选择方法,包括以下步骤:步骤S1,构建基于稀疏回归模型的特征选择方法模型,具体包括以下步骤:步骤S11,基于稀疏回归模型构建一个面向偏标记数据的特征与标记空间的目标函数,用于度量偏标记数据集中特征与标记的相关性,拟合偏标记数据特征空间与标记空间的关系;步骤S12,利用偏标记数据中样本的相关性计算标记置信度,并根据标记置信度对标记空间中伪标记进行平滑处理;步骤S13,基于互信息方法衡量两个特征之间的关联程度,对特征的冗余性进行度量,并将特征与标记的相关性通过权重融入到特征的冗余性度量中;然后通过综合考虑特征与标记的相关性、样本的相关性、特征的冗余性,构造得到特征选择的目标函数:
,其中,表示样本特征矩阵,且/>,/>表示稀疏系数矩阵,且/>,/>表示标记置信度矩阵,且/>,/>表示数据值均为实数域范围内,/>表示偏标记数据集中样本个数,/>表示描述样本的特征个数,/>表示偏标记数据集中标记类型数量,/>表示弗罗比尼乌斯范数的矩阵范数;/>表示矩阵的迹,即表示计算矩阵的主对角线元素之和,/>为目标函数的平衡参数,/>为各个特征之间的互信息矩阵,且/>,/>是稀疏系数矩阵/>的转置矩阵;/>表示平衡参数,/>即/>范数正则化项;步骤S14,采用两阶段交替迭代求解的方式对上述步骤S13中的特征选择的目标函数进行优化,构建得到基于稀疏回归模型的特征选择方法模型:
,其中,表示拉普拉斯矩阵,且/>;步骤S2,利用构建得到的基于稀疏回归模型的特征选择方法模型对偏标记数据集进行优化学习,两阶段循环迭代地利用模型学习优化得到的标记置信度指导各个变量间相关性的更新,获取并更新稀疏回归系数矩阵,并通过稀疏回归系数按特征的重要度输出特征排序结果,对偏标记数据集进行特征选择,从而得到鲁棒性好的特征子集结果。 来源:马 克 团 队