← 返回列表

通用的原始日志清洗装置及方法

申请号: CN201611183585.0
申请人: 飞狐信息技术(天津)有限公司
申请日期: 2016年12月20日

摘要文本

本发明公开了一种通用的原始日志清洗装置,包括变量存储模块,用于存储与每类日志对应的元数据,与各元数据对应的正则表达式及匹配的字段;配置模块;清洗模块,根据日志类型识别对应的元数据,并根据任务配置采用mapreduce程序完成清洗逻辑并进行预设的存储。本发明通过元数据管理:对应每类日志,都建立一套元数据,把日志与变量存储及配置合理的管理起来,在管理后台里可以配置这些信息。而且正则表达式的使用能筛选满足规则的日志并截取重要参数,最后和变量存储里的变量建立对应关系。

专利详细信息

项目 内容
专利名称 通用的原始日志清洗装置及方法
专利类型 发明授权
申请号 CN201611183585.0
申请日 2016年12月20日
公告号 CN106599244B
公开日 2024年1月5日
IPC主分类号 G06F16/215
权利人 飞狐信息技术(天津)有限公司
发明人 张亚军; 田文宝; 夏鹏
地址 天津市滨海新区天津经济开发区南港工业区综合服务区办公楼C座二层210-01室

专利主权项内容

1.一种通用的原始日志清洗方法,其特征在于,包括,建立与每类日志对应的元数据,与各元数据对应正则表达式及匹配的字段并存储;配置多个与元数据一一对应的清洗任务及每个清洗任务对应的存储路径、存储格式及压缩格式并存储,所述的配置采用zookeeper进行存储;根据日志类型识别对应的元数据,并根据清洗任务配置采用mapreduce程序完成清洗步骤并进行预设的存储,通过mapreduce程序把不规则的日志进行结构化后按自定义的存储格式及压缩格式存储到hdfs中供后期使用,在所述的清洗步骤中mapreduce程序根据输入数据的大小自动判断reduce的个数,Reduce的个数=(输入数据的总大小/ hdfs块的大小*3)+1。