← 返回列表

一种基于霍夫曼编码与LZ77的日志压缩存取方法、系统、设备及可读存储介质

申请号: CN202410028206.9
申请人: 北京新数科技有限公司
申请日期: 2024/1/8

摘要文本

本发明提出一种基于霍夫曼编码与LZ77的日志压缩存取方法、系统、设备及可读存储介质,基于贪心策略的思想提出改进的LZ77压缩算法,不直接计算源数据流的滑动距离,而是增加预处理环节找到最长匹配值,且通过考虑匹配字符后的连续字符序列选择最有可能成为最大匹配的位置,为待编码数据流找到一个更好的匹配位置,提高匹配的准确性。该方法使得变量的分类更为精细,将消息体分为模板变量和普通变量。在模板变量部分,采用霍夫曼编码进行高效压缩,通过构建最优前缀编码树,将重复日志模板以更紧凑的形式表示。为了进一步提升效率,特别针对霍夫曼编码对于大批量数据时效率低下的问题,这一方法采取将一组数据作为整体进行编码的策略。采用本发明后,减少了I/O操作的次数,降低了数据传输的开销,从而有效提高了性能。通过这种解析器树构建方法,不仅提高了日志处理的效率,还通过精细的变量分类和模板定义,为后续的压缩操作提供了更为优化的基础。 来自马-克-数-据-官网

专利详细信息

项目 内容
专利名称 一种基于霍夫曼编码与LZ77的日志压缩存取方法、系统、设备及可读存储介质
专利类型 发明申请
申请号 CN202410028206.9
申请日 2024/1/8
公告号 CN117811588A
公开日 2024/4/2
IPC主分类号 H03M7/40
权利人 北京新数科技有限公司
发明人 陈传凯; 王伟斌; 段天毅
地址 北京市朝阳区红军营南路15号院2号楼1层111室

专利主权项内容

(更多数据,详见) 。1.一种基于霍夫曼编码与LZ77的日志压缩存取方法,通过对日志进行分组,计算每组内最大重复日志消息的长度,重新定义日志模板,其特征在于:该方法具体步骤为:(1)预处理:对日志分组,计算每组内最大重复日志消息的长度,重新定义日志模板,将日志变量划分为模板变量和普通变量。(2)模板变量压缩:以空格字符为分割将字符串分割为多个单词,并以单词为单位执行霍夫曼编码。(3)普通变量压缩:使用改进的LZ77算法进行编码压缩。