一种基于数据增强的联邦学习隐私保护方法
申请人信息
- 申请人:信联科技(南京)有限公司; 北京信联数安科技有限公司
- 申请人地址:210000 江苏省南京市江宁经济技术开发区东吉大道1号
- 发明人: 信联科技(南京)有限公司; 北京信联数安科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于数据增强的联邦学习隐私保护方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311779008.8 |
| 申请日 | 2023/12/22 |
| 公告号 | CN117436133B |
| 公开日 | 2024/3/12 |
| IPC主分类号 | G06F21/62 |
| 权利人 | 信联科技(南京)有限公司; 北京信联数安科技有限公司 |
| 发明人 | 李明柱; 张胜; 陈飞 |
| 地址 | 江苏省南京市江宁经济技术开发区东吉大道1号; 北京市大兴区北京经济技术开发区科谷一街10号院6号楼6层604(北京自贸试验区高端产业片区亦庄组团) |
摘要文本
信联科技(南京)有限公司; 北京信联数安科技有限公司取得“一种透气窗帘布”专利技术,本发明涉及一种基于数据增强的联邦学习隐私保护方法,基于各客户端的本地自然数据集,针对各目标客户端引入虚拟数据集,再由各目标客户端分别依据其本地自然数据集、以及对应局部虚拟数据集,应用设计数据增强技术、以及隐私保护技术,构建目标客户端的额外数据集,实现各目标客户端本地模型的训练获得,进而在联邦学习技术下,迭代获得训练后目标全局模型;设计中增加了目标客户端数据集的多样性,抑制了噪声数据的干扰,提高联邦学习模型的泛化能力和鲁棒性,并且通过共享不包含客户端私有信息的虚拟数据集,使不同目标客户端之间的数据更加同质, 以及不用共享目标客户端本地的私有数据,保护了目标客户端原有真实数据的隐私。 关注公众号专利查询网
专利主权项内容
1.一种基于数据增强的联邦学习隐私保护方法,其特征在于:基于各客户端关于目标应用类型数据、分别拥有的本地自然数据集,按如下步骤,针对待训练目标全局模型执行联邦学习,获得训练后目标全局模型;步骤A.根据目标应用类型数据所对应预设各自然类别的类别数,对高斯分布数据进行采样,构成同样对应该类别数的虚拟数据集,并构建目标应用类型数据的各自然类别与虚拟数据集的各虚拟类别之间的一一对应关系,然后将虚拟数据集分别发送至全部客户端中的预设各目标客户端,再进入步骤B;步骤B.各个目标客户端分别基于所接收虚拟数据集,结合本地自然数据集,应用数据集特征校准,针对待训练目标全局模型进行训练,获得目标客户端的本地模型,进而各个目标客户端分别获得其本地模型,然后进入步骤C;上述步骤B中,各个目标客户端分别执行如下步骤B1至步骤B3,获得目标客户端的本地模型,进而各个目标客户端分别获得其本地模型,然后进入步骤C;步骤B1.目标客户端针对其本地自然数据集所对应的各自然类别,以最小化自然类别下局部本地自然数据集特征与对应虚拟类别下局部虚拟数据集特征之间的差异为目标,针对相对应各虚拟类别下局部虚拟数据集进行特征校准更新,并由该各虚拟类别下更新后的局部虚拟数据集组成目标客户端中的虚拟合成数据集,然后进入步骤B2;上述步骤B1中,目标客户端分别针对其本地自然数据集所对应的各自然类别Y,按如下公式:以最小化自然类别Y下局部本地自然数据集X的特征θ(X)与对应虚拟类别Y’下局部虚拟数据集的特征/>之间的差异为目标/>针对该虚拟类别Y’下局部虚拟数据集/>进行特征校准更新;进而实现相对应各虚拟类别下局部虚拟数据集进行特征校准更新,并由该各虚拟类别下更新后的局部虚拟数据集组成目标客户端中的虚拟合成数据集;其中,θ()表示特征提取函数,D表示源分布,D表示目标分布,λ表示待学习超参数,D表示KL散度;YYSTKL步骤B2.目标客户端针对其本地自然数据集中预设比例的各个自然数据对象,结合虚拟合成数据集,获得该各个自然数据对象分别对应的额外数据对象、以及各额外数据对象分别对应的自然类别,然后进入步骤B3;上述步骤B2中,目标客户端分别针对其本地自然数据集中预设比例的各个自然数据对象X,以及各自然数据对象X分别对应的自然类别Y,结合虚拟合成数据集,按如下公式:iii获得该各个自然数据对象X分别对应的额外数据对象以及各额外数据对象/>分别对应的自然类别/>其中,X表示目标客户端本地自然数据集预设比例中的第i个自然数据对象,Y表示X所对应的自然类别,/>表示目标客户端的虚拟合成数据集中与自然类别Y相对应的虚拟类别,/>表示目标客户端的虚拟合成数据集中与自然类别Y相对应虚拟类别/>下的虚拟数据集,λ表示服从Beta(α,α)分布的超参数,且α∈[0, 1];iiiiii1步骤B3.目标客户端根据各个额外数据对象、以及各额外数据对象分别对应的自然类别,结合预设局部训练溢出条件,针对待训练目标全局模型进行训练,获得目标客户端的本地模型;步骤C.针对各目标客户端本地模型中的参数,按各参数对象进行聚合,获得各聚合后参数,用于更新待训练目标全局模型,并结合预设全局训练溢出条件,获得训练后目标全局模型。 马-克-数据