一种面向多源异构医疗数据的联邦学习方法及系统
申请人信息
- 申请人:中国医学科学院北京协和医院
- 申请人地址:100073 北京市东城区王府井帅府园1号
- 发明人: 中国医学科学院北京协和医院
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种面向多源异构医疗数据的联邦学习方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311600749.5 |
| 申请日 | 2023/11/28 |
| 公告号 | CN117592555A |
| 公开日 | 2024/2/23 |
| IPC主分类号 | G06N3/098 |
| 权利人 | 中国医学科学院北京协和医院 |
| 发明人 | 冯铭; 吴学阳; 徐倩; 杨强; 张文泰; 邓聪聪; 白学学; 杨双键 |
| 地址 | 北京市东城区王府井帅府园1号 |
摘要文本
中国医学科学院北京协和医院获取“一种透气窗帘布”专利技术,本发明公开了一种面向多源异构医疗数据的联邦学习方法及系统,所述方法包括以下步骤:步骤1、数据脱敏与加密;步骤2、数据预处理;步骤3、特征提取;步骤4、特征融合;步骤5、本地模型训练;步骤6、模型参数聚合。所述系统包括访问控制模块、数据处理模块、联邦学习模块、贡献评估模块以及接口模块。本发明能够同时处理多来源、多模态、多类型的医疗数据,通过采用脱敏加密防护技术,确保了数据的安全与隐私保护,对不同特征数据进行权重分配与融合,提高了模型训练的精度,并采用高效安全聚合算法聚合模型参数,进一步保障了数据的安全性。本发明有利于实现医联体内的资源整合,推动多中心医学研究的进展,提高医疗服务质量和效率。
专利主权项内容
1.一种面向多源异构医疗数据的联邦学习方法,其特征在于,所述方法包括以下步骤:步骤1、数据脱敏与加密:对各医疗中心的原始医疗数据进行数据脱敏与加密处理,并采用生成对抗网络生成数据扰动;所述原始医疗数据包括不同模态的数据,分别为电子病历数据、医学影像数据、基因组数据,不同模态的数据根据其表现形式分为不同的数据类型,包括数值型数据、文本型数据、图像型数据以及基因型数据,数值型数据属于结构化数据,文本型数据和图像型数据属于非结构化数据,基因型数据视为结构化数据;步骤2、数据预处理:对经过脱敏与加密处理后的数据进行预处理,所述预处理过程包括数据清洗、缺失值填充以及标准化处理;步骤3、特征提取:对经过预处理后的数据根据各数据模态采用适合各数据模态的方法分别进行特征提取;步骤4、特征融合:采用随机森林算法对提取出的特征数据进行权重分配和融合,形成特征数据集,将特征数据集作为训练数据集;步骤5、本地模型训练:确定本地模型的类型、初始化参数以及超参数,利用训练数据集对本地模型进行训练;步骤6、模型参数聚合:本地模型训练完成后,使用秘密共享方式对模型参数进行安全聚合从而获得全局模型。 马 克 数 据 网