← 返回列表

数据抽取方法、装置、电子设备及存储介质

申请号: CN202410185945.9
申请人: 平凯星辰(北京)科技有限公司
申请日期: 2024/2/19

摘要文本

本申请实施例提供了一种数据抽取方法、装置、电子设备及存储介质,涉及数据库领域。该方法包括:确定待抽取数据表,从待抽取数据表中数据的至少一个划分方案中确定第一划分方案;根据预设阈值对第一划分方案进行更新,获得第二划分方案,第二划分方案中数据区间的数量为预设阈值,且第二划分方案中各个数据区间中数据的存储总量均衡,并行地从第二划分方案中的各个数据区间抽取待抽取数据表中的目标数据,获得目标数据集。本申请实施例在未额外增加人力成本或者硬件成本的条件下,依然能够高效实现对海量数据的抽取工作。

专利详细信息

项目 内容
专利名称 数据抽取方法、装置、电子设备及存储介质
专利类型 发明申请
申请号 CN202410185945.9
申请日 2024/2/19
公告号 CN117762949A
公开日 2024/3/26
IPC主分类号 G06F16/22
权利人 平凯星辰(北京)科技有限公司
发明人 孙晓光; 刘奇; 黄东旭; 崔秋
地址 北京市海淀区西小口路66号中关村东升科技园•北领地C-1楼2层207

专利主权项内容

1.一种数据抽取方法,其特征在于,应用于数据库,所述数据库存储多个数据表,每个数据表中的数据通过至少一个划分方案进行划分,每个划分方案包括多个数据区间,每个数据区间包括所述数据表中至少一条数据,所述方法包括;确定待抽取数据表;从所述待抽取数据表中数据的至少一个划分方案中确定第一划分方案;根据预设阈值对所述第一划分方案进行更新,获得第二划分方案,所述第二划分方案中数据区间的数量为所述预设阈值,且第二划分方案中各个数据区间中数据的存储总量均衡;并行地从第二划分方案中的各个数据区间抽取所述待抽取数据表中的目标数据,获得目标数据集。