← 返回列表

Hive表一致性校验方法、系统、设备及存储介质

申请号: CN201811488422.2
申请人: 北京沃东天骏信息技术有限公司
申请日期: 2018年12月6日

摘要文本

本发明提供了一种Hive表一致性校验方法、系统、设备及存储介质,所述方法包括:获取Hive表的元数据;解析所述元数据,得到Hive表的第一文件格式和文件存储位置;根据所述文件存储位置确定存储在HDFS中的对应文件的第二文件格式;判断同一Hive表对应的第一文件格式和第二文件格式是否一致;如果不一致,则记录当前Hive表的信息。本发明对Hive表的元数据和数据文件格式的一致性进行校验,从而发现存在问题的Hive表,提高了Hive数据仓库的健康度和数据质量,同时也能有效地避免对Hive数据表的误操作导致数据不可用的问题。

专利详细信息

项目 内容
专利名称 Hive表一致性校验方法、系统、设备及存储介质
专利类型 发明授权
申请号 CN201811488422.2
申请日 2018年12月6日
公告号 CN111291130B
公开日 2024年3月1日
IPC主分类号 G06F16/28
权利人 北京沃东天骏信息技术有限公司
发明人 安金龙; 刘业辉; 张宁; 王彦明; 高相斌; 张增; 李晨; 张再
地址 北京市北京经济技术开发区科创十一街18号院2号楼4层A402室

专利主权项内容

1.一种Hive表一致性校验方法,其特征在于,包括如下步骤:获取Hive表的元数据;解析所述元数据,得到Hive表的第一文件格式和文件存储位置;根据所述文件存储位置确定存储在HDFS中的对应文件的第二文件格式;判断同一Hive表对应的第一文件格式和第二文件格式是否一致;如果不一致,则记录当前Hive表的信息;所述方法还包括如下步骤:建立文件格式数据库,所述文件格式数据库中存储有多种文件格式以及各种文件格式所对应的判定方法;所述根据所述文件存储位置确定存储在HDFS中的对应文件的第二文件格式,包括如下步骤:从所述文件格式数据库中查询得到各种文件格式所对应的判定方法,依次采用各种文件格式所对应的判定方法对存储在HDFS中的对应文件进行判断,确定该文件的第二文件格式。