← 返回列表
一种不均衡数据的异常识别与修复方法及系统
申请人信息
- 申请人:烟台海颐软件股份有限公司
- 申请人地址:265500 山东省烟台市开发区珠江路32号(III-5小区)
- 发明人: 烟台海颐软件股份有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种不均衡数据的异常识别与修复方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311785567.X |
| 申请日 | 2023/12/22 |
| 公告号 | CN117743938A |
| 公开日 | 2024/3/22 |
| IPC主分类号 | G06F18/241 |
| 权利人 | 烟台海颐软件股份有限公司 |
| 发明人 | 于瑞强; 李锐; 喻魏贤; 李晓宇; 闫谷丰; 杨玉传; 杜星学; 刘效强; 李慧霖 |
| 地址 | 山东省烟台市开发区珠江路32号(III-5小区) |
摘要文本
本发明属于数据治理技术领域,具体涉及一种不均衡数据的异常识别与修复方法及系统。所述方法包括不均衡混合数据聚类分析、异常数据识别与特征定位、异常数据修复三部分内容,首先提出了基于代价优化的混合聚类算法,解决不均衡数据集下混合数据的有效聚类问题,实现同一聚类簇内数据具有高度相似性;其次提出一种基于孤立森林的异常特征定位算法,解决以往无监督异常检测算法仅能定位到异常记录而无法识别记录中具体异常特征的问题,实现问题数据的准确定位;最后提出基于异构变分自编码器的数据修复模型,实现对混合数据异常的可信修复,解决以往人工智能方法在数据修复过程中受数据分布和噪声数据干扰过大导致修复数据可信度不高的问题。
专利主权项内容
1.一种不均衡数据的异常识别与修复方法,其特征在于,包括以下步骤:步骤1.对输入的不均衡混合数据的特征类型进行识别,所述特征类型包括:分类型和数值型;步骤2.基于代价优化的混合聚类算法构建模型,综合考虑不均衡混合数据特征间的差异程度,对不均衡混合数据进行聚类分析,从而将不均衡混合数据划分为不同的簇;步骤3.基于孤立森林的异常特征定位算法构建模型,对聚类之后的每个簇内的异常数据进行识别并定位其具体异常特征;步骤4.构建基于异构变分自编码器的数据修复模型,对混合数据异常及缺失进行修复。