← 返回列表

数据处理方法、装置、电子设备以及存储介质

申请号: CN202311824685.7
申请人: 苏州元脑智能科技有限公司
申请日期: 2023/12/27

摘要文本

本发明实施例提供了一种数据处理方法、装置、电子设备以及存储介质,涉及计算机技术领域,该方法包括:基于扫描任务,按照预设扫描规则对原始数据集中的小文件数据进行扫描,并将小文件数据对应的文件属性信息发送至扫描通道;按照预设聚合规则对扫描通道中的文件属性信息进行聚合,得到多个数据列表;从原始数据集中获取各数据列表中的文件属性信息对应的小文件数据,并以数据块的形式分批存储至分布式缓存系统中的聚合存储;聚合存储用于供分布式缓存系统中的计算节点基于聚合存储直接获取小文件数据。这样,无需重复访问并依次拉取原始数据集中的小文件数据,一定程度上提升了计算节点获取数据的效率,并且降低了数据传输过程中的开销。

专利详细信息

项目 内容
专利名称 数据处理方法、装置、电子设备以及存储介质
专利类型 发明授权
申请号 CN202311824685.7
申请日 2023/12/27
公告号 CN117472296B
公开日 2024/3/15
IPC主分类号 G06F3/06
权利人 苏州元脑智能科技有限公司
发明人 王继玉; 陈培; 荆荣讯; 郑玉会
地址 江苏省苏州市吴中经济开发区郭巷街道官浦路1号9幢

专利主权项内容

1.一种数据处理方法,其特征在于,应用于分布式缓存系统,所述方法包括:基于扫描任务,按照预设扫描规则对原始数据集中的小文件数据进行扫描,并将所述小文件数据对应的文件属性信息发送至扫描通道;按照预设聚合规则对所述扫描通道中的文件属性信息进行聚合,得到多个数据列表;从所述原始数据集中获取各所述数据列表中的文件属性信息对应的小文件数据,并以数据块的形式分批存储至所述分布式缓存系统中的聚合存储;所述数据列表与所述数据块一一对应,所述数据块中的小文件数据是基于所述数据块对应的数据列表中的文件属性信息确定的,所述聚合存储用于供所述分布式缓存系统中的计算节点基于所述聚合存储直接获取小文件数据;所述预设扫描规则包括自动为所述扫描任务分配的扫描目录,所述扫描目录用于指示所述扫描任务所扫描的原始数据集的扫描范围;所述扫描任务的数量为多个,所述扫描通道的数量为多个;所述基于扫描任务,按照预设扫描规则对原始数据集中的小文件数据进行扫描,并将所述小文件数据对应的文件属性信息发送至扫描通道,包括:基于多个扫描任务,按照各所述扫描任务对应的扫描目录,对所述原始数据集中的小文件数据进行扫描;不同扫描任务对应的扫描目录不同;将各所述扫描任务扫描到的小文件数据对应的文件属性信息,基于交错分配规则发送至多个扫描通道中当前空闲的扫描通道;所述按照预设聚合规则对所述扫描通道中的文件属性信息进行聚合,得到多个数据列表,包括:基于聚合任务,获取所述扫描通道中的文件属性信息,并将所述文件属性信息依次聚合为指定大小的数据列表;不同数据列表中包含的文件属性信息不同;所述从所述原始数据集中获取各所述数据列表中的文件属性信息对应的小文件数据,并以数据块的形式分批存储至所述分布式缓存系统中的聚合存储,包括:基于存储任务,依次获取所述存储任务对应的聚合通道中的数据列表;针对任一所述数据列表,基于所述数据列表中的文件属性信息,从所述原始数据集中读取所述文件属性信息对应的目标小文件数据,并将所述目标小文件数据存入所述数据块;所述数据块中包含的目标小文件数据的第一数量与所述数据列表中包含的文件属性信息的第二数量相同;将所述数据块存储至所述分布式缓存系统中的聚合存储。