基于Hadoop架构的数据精简方法和系统

申请号: CN202311630505.1

申请人: 蒲惠智造科技股份有限公司

申请日期: 2023/12/1

摘要文本

本发明提供一种基于Hadoop架构的数据精简方法和系统。具体包括：对于Hadoop架构下的hive2clickhouse的数据同步任务，hive任务的每次运行过程中，增加同步时间字段；clickhouse系统的任务表以该同步时间字段为分区字段，建立新的分区，并设置适当的TTL值；hive任务重跑的时候产生的数据，会基于该同步时间字段进入clickhouse任务表中新的分区；clickhouse系统的bi查询引擎获取该新的分区的数据，执行查询处理；该处理过程中不会出现数据重复和翻倍的现象。

申请人信息

申请人:蒲惠智造科技股份有限公司
申请人地址:310002 浙江省杭州市上城区庆春东路1-1号(临)5层
发明人: 蒲惠智造科技股份有限公司

专利详细信息

项目	内容
专利名称	基于Hadoop架构的数据精简方法和系统
专利类型	发明授权
申请号	CN202311630505.1
申请日	2023/12/1
公告号	CN117331513B
公开日	2024/3/19
IPC主分类号	G06F3/06
权利人	蒲惠智造科技股份有限公司
发明人	王克飞; 徐超; 应春红
地址	浙江省杭州市上城区庆春东路1-1号(临)5层

专利主权项内容

1.一种基于Hadoop架构的数据精简方法，其特征在于，包括：步骤S1，对于Hadoop架构下的hive2clickhouse的数据同步任务，hive任务的每次运行过程中，增加同步时间字段；步骤S2，clickhouse系统的任务表以该同步时间字段为分区字段，建立新的分区，并设置适当的TTL值；步骤S3，hive任务重跑的时候产生的数据，会基于该同步时间字段进入clickhouse任务表中新的分区，包括：hive任务每次重跑过程中产生的数据首先暂存于hive的存储分区中；对hive存储分区的各个分区进行自动比对，确定存在数据重复的分区；并且，对于属于数据重复的分区，进行重复数据关联去重处理；对于重复数据关联去重处理后的分区，将其关联的同步时间字段更新为最新的同步时间字段；以分区为单位同步到clickhouse任务表中新的分区；步骤S4，clickhouse系统的bi查询引擎获取该新的分区的数据，执行查询处理；该处理过程中不会出现数据重复和翻倍的现象。

基于Hadoop架构的数据精简方法和系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

基于Hadoop架构的数据精简方法和系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种耐磨损塑料模具钢及其制备方法

基于数字化控制的纺织印染废水的节能处理工艺

基于数字化控制的涤纶布料的节水印染系统

一种智能球头、应用方法及车辆

一种碳纤维氧化炉送风与回风分配装置

一种建筑整体保温性能检测主体及其检测方法

热门技术领域

快速入口

专利技术资料