大数据量去重接口数据采集方法、装置、设备及存储介质
摘要文本
创意信息技术股份有限公司取得“一种透气窗帘布”专利技术,本发明公开了一种大数据量去重接口数据采集方法、装置、设备及存储介质,该方法包括:采集接口数据、数据标识、建立数据索引和数据去重;本发明通过配置的接口信息,以分片广播的任务执行方式循环获取接口数据,再通过计算每条数据的散列值,用以生成每条数据的唯一标识,最后利用位图数据结构建立数据索引,以此判断数据是否重复,由此,能够提高数据质量,节省存储空间,提高数据采集效率,具有空间利用率高、时间效率高等优点,能够快速准确地判断重复数据,提高了数据采集的效率和准确性,特别适合大数据量的去重判断。 来源:百度马 克 数据网
专利主权项内容
1.一种大数据量去重接口数据采集方法,其特征在于,所述方法包括以下步骤:采集接口数据,根据配置的接口信息,通过http/https网络请求技术请求接口,部署多个任务执行器,以分片广播的任务执行方式,循环获取接口数据,并将采集到的数据暂存到消息中间件;数据标识,使用SHA-256散列函数算法,对接口返回的每条数据中计算得到256位二进制的散列值,将散列值转换为一个77位长度的数字得到原始标识,再取前19位得到运算标识,最后用原始标识对运算标识进行取模运算,最终得到19位长度的数据标识,以此作为本条数据的唯一标识;建立数据索引,创建一个10亿大小比特数组的位图数据结构BitSet,将数据标识对10亿做取模运算,得到一个1-10亿的数字,作为数据下标;将BitSet中数据标识对应的数据下标位置置为1,最后将BitSet放入内存完成数据索引建立;数据比对,从消息中间件读取新采集的数据,并将其数据标识作为下标获取BitSet中对应位置的数据进行判断;数据去重,对于获取到BitSet数据等于1的数据标识,则说明当前数据已经存在,本次不再进行处理;对于获取到BitSet数据等于0的数据标识,则说明当前数据不存在,放入插入队列。。
专利申请信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 大数据量去重接口数据采集方法、装置、设备及存储介质 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311677011.9 |
| 申请日 | 2023/12/8 |
| 公告号 | CN117390007B |
| 公开日 | 2024/3/12 |
| IPC主分类号 | G06F16/215 |
| 权利人 | 创意信息技术股份有限公司 |
| 发明人 | 罗钦; 周欣; 黄磊; 罗强; 陈星 |
| 地址 | 四川省成都市青羊区万和路99号丽阳天下7-9室 |