← 返回列表

一种基于不平衡数据环境下的特征选择系统及方法

申请号: CN202311847399.2
申请人: 巢湖学院
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 一种基于不平衡数据环境下的特征选择系统及方法
专利类型 发明授权
申请号 CN202311847399.2
申请日 2023/12/29
公告号 CN117556233B
公开日 2024/3/26
IPC主分类号 G06F18/211
权利人 巢湖学院
发明人 李婵; 彭兴; 陈佩树
地址 安徽省合肥市巢湖经济开发区半汤路1号

摘要文本

本发明公开了一种基于不平衡数据环境下的特征选择系统及方法,包括文本数据库、特征分类模块、特征处理系统和数据反馈模块,本发明涉及数据处理技术领域。该基于不平衡数据环境下的特征选择系统及方法,通过设置有特征处理系统,从多个特征集中产生新的特征子集,并对特征子集进行评估操作直至计算得到的特征子集符合要求后,完成对特征子集的选择操作,将产生的特征子集与数据集相结合并验证特征子集的有效性,以此采用该特征子集进行分类操作,有效的去除数据集中的无关特征,降低对分类操作的影响,并且使得分类的效率更高、更简洁。

专利主权项内容

1.一种基于不平衡数据环境下的特征选择系统,其特征在于:包括:文本数据库,包含所有特征的数据,并且数据混合在一起形成数据集;特征分类模块,通过对数据集进行预处理操作,将数据集依据特征划分分类为多个特征集;特征处理系统,从多个特征集中产生新的特征子集,并对特征子集进行评估操作直至计算得到的特征子集符合要求后,完成对特征子集的选择操作,将产生的特征子集与数据集相结合并验证特征子集的有效性;数据反馈模块,将特征处理系统处理得到的信息和数据反馈至显示端通过文字、图表形式展现;所述特征处理系统包括:子集生成模块,通过浮动搜索算法从特征集中产生一个新的特征子集;特征评估模块,通过评估算法对产生的新特征子集进行评估比对操作,直至评估的过程和结果符合评估停止要求后,得到最优特征子集;子集验证模块,将最优特征子集与数据集和学习方法相结合,比较分类的准确度和用时时长来判断特征选择的结果;所述子集生成模块中的浮动搜索算法为:A1、首先在数据集中选择所有不包含任何特征的空集,并标记为;A2、向不包含任何特征的空集中增加y个浮动特征,得到特征子集/>,然后再向特征子集减少z个特征,得到特征子集;A3、最后将特征子集传输至特征评估模块进行评估操作;所述特征评估模块中的评估算法为:B1、先通过对特征子集进行预筛选操作,去除无相关性特征的特征子集;B2、然后将筛分后的特征子集通过学习算法作为评估函数,得到特征子集;B3、根据评估过程中相邻特征子集进行比较,满足评估停止要求后的特征子集为最优特征子集;所述B1中预筛选操作的具体操作步骤为:C1、从特征子集随机选择一个子集并标记为/>,根据子集/>搜寻特征子集中距离最近的同类型子集并标记为/>,然后在特征子集中搜寻距离最近的不同类型子集并标记为/>;C2、根据判断子集和子集/>与子集/>和子集/>中在某个特征上的距离,通过判断的结果对应的增加或减少对该特征的权重;C3、重复C1-C2的步骤操作多次,调整每个特征的权重,然后将特征权重值大的保留,特征权重值小的去除。。 (来 自 马 克 数 据 网)