← 返回列表

一种数据湖的数据表存储和查询效率优化系统及方法

申请号: CN202410205045.6
申请人: 港胜技术服务(深圳)有限公司
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 一种数据湖的数据表存储和查询效率优化系统及方法
专利类型 发明申请
申请号 CN202410205045.6
申请日 2024/2/26
公告号 CN117785928A
公开日 2024/3/29
IPC主分类号 G06F16/2453
权利人 港胜技术服务(深圳)有限公司
发明人 谌东宇; 宋志峰
地址 广东省深圳市前海深港合作区南山街道梦海大道4008号前海深港创新中心A组团1F-22至1F-29、2F-27至2F-30

摘要文本

本发明提供一种数据湖的数据表存储和查询效率优化系统及方法,包括:数据存储模块,基于Apache Iceberg创建和管理物理表和虚拟表;预查询生成器,用于基于物理表的元数据生成预查询语句;预查询解析器,用于将预查询语句转换为对应的SQL查询语句;查询引擎,用于执行转换后的SQL查询语句。本发明通过引入Apache Iceberg的数据格式和数据处理的理念和技术,设计了灵活数据存储和多层次数据湖处理架构以及可以基于人工智能深度学习算法进行查询优化方案,从而实现数据湖高效的数据处理和查询,并为数据湖高效查询优化提供一种可跟踪和自我优化的思路和方法。

专利主权项内容

1.一种数据湖的数据表存储和查询效率优化系统,其特征在于,该系统包括:数据存储模块,基于Apache Iceberg,用于创建和管理物理表和虚拟表;预查询生成器,用于基于虚拟表的元数据生成预查询计划和语句;预查询解析器,用于将预查询语句转换为对应的SQL查询语句;查询引擎,用于执行转换后的SQL查询语句;其中,物理表和虚拟表是实际存储与逻辑视图的关系,虚拟表通过查询和处理物理表中的数据,提供了一种更加方便和高效的数据访问方式;预查询生成器生成的预查询语句支持基于Iceberg的隐藏分区技术的动态分区,复杂并表逻辑,以及基于Iceberg的表演化技术的细颗粒度的单元级查询。