← 返回列表

数据集处理方法、装置及计算机可读取存储介质

申请号: CN202410070275.6
申请人: 天津医康互联科技有限公司
申请日期: 2024/1/18

摘要文本

本申请提供一种数据集处理方法、装置及计算机可读取存储介质,涉及数据处理和联邦学习隐私计算技术领域。该方法包括:基于接收接口,获取前端发送的目标数据集;根据每个目标数据集生成对应的标识信息;基于标识信息,将目标数据集进行转换得到的压缩格式的目标数据存储在目标磁盘中;其中,压缩格式包括:Arrow或Parque;基于标识信息,向客户端提供目标磁盘中的目标数据。通过对数据集进行格式转换的方式对数据集进行存储,并结合唯一的标识信息进行数据提取,有效地提高了数据集的加载效率,减小了加载数据集时的内存占用率,支持在内存资源较小的设备上使用大型数据集,适用于多种不同的加载场景,满足用户的多种训练需求。

专利详细信息

项目 内容
专利名称 数据集处理方法、装置及计算机可读取存储介质
专利类型 发明申请
申请号 CN202410070275.6
申请日 2024/1/18
公告号 CN117591035A
公开日 2024/2/23
IPC主分类号 G06F3/06
权利人 天津医康互联科技有限公司
发明人 王德健; 张佩挺; 董科雄
地址 天津市滨海新区滨海科技园日新道188号3号楼4-B-21

专利主权项内容

1.一种数据集处理方法,其特征在于,所述方法包括:基于接收接口,获取前端发送的目标数据集;根据每个所述目标数据集生成对应的标识信息;基于所述标识信息,将所述目标数据集进行转换得到的压缩格式的目标数据存储在目标磁盘中;其中,所述压缩格式包括:Arrow或Parquet;基于所述标识信息,向客户端提供所述目标磁盘中的所述目标数据。