← 返回列表

缺失样本数据填充方法、装置、存储介质和电子设备

申请号: CN202410044914.1
申请人: 闪捷信息科技有限公司
更新日期: 2026-03-20

专利详细信息

项目 内容
专利名称 缺失样本数据填充方法、装置、存储介质和电子设备
专利类型 发明授权
申请号 CN202410044914.1
申请日 2024/1/12
公告号 CN117556267B
公开日 2024/4/2
IPC主分类号 G06F18/214
权利人 闪捷信息科技有限公司
发明人 张黎; 马彦成; 应超奇
地址 浙江省杭州市余杭区五常街道文一西路998号9幢101室

摘要文本

本申请提供了一种缺失样本数据填充方法、装置、存储介质和电子设备,属于数据处理技术领域。该方法包括:获取包含缺失数据的初始样本数据;对所述初始样本数据中的缺失数据进行初始填充,形成第一样本数据;将所述第一样本数据导入预设的VAE生成模型中,所述VAE生成模型识别所述第一样本数据中的每个数据的数据类型,选择与所述数据类型相匹配的特征分布模型来生成第二样本数据;从所述第二样本数据中提取与所述初始样本数据中的缺失数据对应的生成数据;将所提取的生成数据按照对应的位置填充至所述初始样本数据。本申请可提高缺失数据预测的准确性。

专利主权项内容

() 1.一种缺失样本数据填充方法,其特征在于,所述方法包括:获取包含缺失数据的初始样本数据;对所述初始样本数据中的缺失数据进行初始填充,形成第一样本数据;将所述第一样本数据导入预设的VAE生成模型中,所述VAE生成模型识别所述第一样本数据中的每个数据的数据类型,选择与所述数据类型相匹配的特征分布模型来生成第二样本数据,包括:所述VAE生成模型中的编码器模块根据所述第一样本数据按照离散Cate分布来生成第一采样数据,所述VAE生成模型中的解码器模块根据所述第一采样数据按照正态分布来生成第二采样数据,当所述数据类型属于离散型数据时,所述解码器模块根据所述第一采样数据和所述第二采样数据按照与所述离散型数据相匹配的特征分布模型来生成所述第二样本数据,当所述数据类型属于连续型数据时,所述解码器模块根据所述第一采样数据和所述第二采样数据按照与所述连续型数据相匹配的特征分布模型来生成所述第二样本数据;从所述第二样本数据中提取与所述初始样本数据中的缺失数据对应的生成数据;将所提取的生成数据按照对应的位置填充至所述初始样本数据。