← 返回列表

一种不平衡医疗数据缺失值填充方法及系统

申请号: CN202311283938.4
申请人: 之江实验室
申请日期: 2023/10/7

摘要文本

本发明公开了一种不平衡医疗数据缺失值填充方法及系统,本发明使用推土机距离构建生成器和判别器的损失,能够解决在训练过程中生成器可能出现消失梯度的问题;将患者标签作为监督信号加入到生成器中,增加生成器生成患者数据的多样性;增加了辅助分类器,对填补单元填补后的患者数据进行预测,并将预测结果反馈给生成器,提高生成器的生成效果;利用随机数填充患者数据的缺失部分,将填充后的患者数据作为生成器的输入,通过生成器学习缺失值与其他数据间的关系,避免了在训练过程中需要收集足够多完整样本的问题;生成器损失由三部分组成,通过构建不同的损失,让生成器从不同角度考虑填充的效果,从而提高填充结果的准确性。

专利详细信息

项目 内容
专利名称 一种不平衡医疗数据缺失值填充方法及系统
专利类型 发明授权
申请号 CN202311283938.4
申请日 2023/10/7
公告号 CN117034142B
公开日 2024/2/9
IPC主分类号 G06F18/2415
权利人 之江实验室
发明人 李劲松; 朱伟伟; 池胜强; 田雨; 周天舒
地址 浙江省杭州市余杭区文一西路1818号人工智能小镇10号楼

专利主权项内容

1.一种不平衡医疗数据缺失值填充方法,其特征在于,包括:利用医院的信息化系统获取患者数据;利用数据填充模型对患者数据中的缺失值进行填充;所述数据填充模型包括数据处理单元、生成器、填补单元、判别器和辅助分类器;所述生成器和判别器构成生成对抗网络;所述数据处理单元中,使用掩码矩阵记录患者原始数据中缺失值的位置,使用0预填充患者原始数据中的缺失值,使用随机数填充患者原始数据中的缺失值,并输入生成器;所述生成器用于学习输入的患者数据的分布,生成新的患者数据,并输入填补单元,所述生成器的输入包括患者数据和患者标签;所述填补单元用于利用生成器生成的新的患者数据对患者原始数据中的缺失值进行填补;所述判别器用于对输入的每个患者数据进行辨别,判断是否为观察值,所述判别器的输入包括填补单元填补后的患者数据以及使用0预填充患者原始数据中的缺失值后的患者数据,输出为每个患者数据为观察值的概率;所述辅助分类器用于对填补单元填补后的患者数据进行预测,将预测结果反馈给生成器;训练过程包括预训练辅助分类器和正式训练数据填充模型,预训练过程中使用未缺失的患者数据对辅助分类器进行训练,确定辅助分类器网络参数,正式训练过程中辅助分类器网络参数不参与更新;正式训练过程中先训练判别器再训练生成器,判别器和生成器不断的对抗训练,直至数据填充模型收敛;将需要填充缺失值的患者数据及患者标签输入训练好的数据填充模型,经过数据处理单元、生成器和填补单元后,输出填充后的患者数据。