← 返回列表

大数据量去重接口数据采集方法、装置、设备及存储介质

申请号: CN202311677011.9
申请人: 创意信息技术股份有限公司
更新日期: 2026-03-09

摘要文本

创意信息技术股份有限公司取得“一种透气窗帘布”专利技术,本发明公开了一种大数据量去重接口数据采集方法、装置、设备及存储介质,该方法包括:采集接口数据、数据标识、建立数据索引和数据去重;本发明通过配置的接口信息,以分片广播的任务执行方式循环获取接口数据,再通过计算每条数据的散列值,用以生成每条数据的唯一标识,最后利用位图数据结构建立数据索引,以此判断数据是否重复,由此,能够提高数据质量,节省存储空间,提高数据采集效率,具有空间利用率高、时间效率高等优点,能够快速准确地判断重复数据,提高了数据采集的效率和准确性,特别适合大数据量的去重判断。 来源:百度马 克 数据网

专利主权项内容

1.一种大数据量去重接口数据采集方法,其特征在于,所述方法包括以下步骤:采集接口数据,根据配置的接口信息,通过http/https网络请求技术请求接口,部署多个任务执行器,以分片广播的任务执行方式,循环获取接口数据,并将采集到的数据暂存到消息中间件;数据标识,使用SHA-256散列函数算法,对接口返回的每条数据中计算得到256位二进制的散列值,将散列值转换为一个77位长度的数字得到原始标识,再取前19位得到运算标识,最后用原始标识对运算标识进行取模运算,最终得到19位长度的数据标识,以此作为本条数据的唯一标识;建立数据索引,创建一个10亿大小比特数组的位图数据结构BitSet,将数据标识对10亿做取模运算,得到一个1-10亿的数字,作为数据下标;将BitSet中数据标识对应的数据下标位置置为1,最后将BitSet放入内存完成数据索引建立;数据比对,从消息中间件读取新采集的数据,并将其数据标识作为下标获取BitSet中对应位置的数据进行判断;数据去重,对于获取到BitSet数据等于1的数据标识,则说明当前数据已经存在,本次不再进行处理;对于获取到BitSet数据等于0的数据标识,则说明当前数据不存在,放入插入队列。。

专利申请信息

项目 内容
专利名称 大数据量去重接口数据采集方法、装置、设备及存储介质
专利类型 发明授权
申请号 CN202311677011.9
申请日 2023/12/8
公告号 CN117390007B
公开日 2024/3/12
IPC主分类号 G06F16/215
权利人 创意信息技术股份有限公司
发明人 罗钦; 周欣; 黄磊; 罗强; 陈星
地址 四川省成都市青羊区万和路99号丽阳天下7-9室