基于大语言模型的低成本、零样本的在线日志解析方法
摘要文本
本发明公开了一种基于大语言模型的低成本、零样本的在线日志解析方法,首先,使用正则表达式提取日志消息中的日志内容;然后与数据库中的日志模板进行正则匹配;匹配成功,更新对应日志模板的日志样本;匹配失败,则与大语言模型进行对话获得新的日志模板;并进行模板纠正,防止大语言模型生成的日志模板不能正则匹配日志消息;当产生新的模板时,进行模板合并;当更新日志样本时,进行模板拆分;对于所有即将加入数据库的日志模板,首先通过后处理进行日志模板规范化,然后将日志模板保存到数据库中。本发明生成的日志模板在单词的解析准确度上要优于传统方法,在速度和花费上相比于直接使用大语言模型执行日志解析任务具有显著优势。
申请人信息
- 申请人:浙江大学
- 申请人地址:310058 浙江省杭州市西湖区余杭塘路866号
- 发明人: 浙江大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于大语言模型的低成本、零样本的在线日志解析方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311303412.8 |
| 申请日 | 2023/10/10 |
| 公告号 | CN117407242A |
| 公开日 | 2024/1/16 |
| IPC主分类号 | G06F11/30 |
| 权利人 | 浙江大学 |
| 发明人 | 智晨; 程立业; 刘美林; 赵新奎; 邓水光; 尹建伟 |
| 地址 | 浙江省杭州市西湖区余杭塘路866号 |
专利主权项内容
1.一种基于大语言模型的低成本、零样本的在线日志解析方法,其特征在于,包括以下步骤:S1,预处理首先针对不同日志源,使用不同的正则表达式提取出日志内容部分;然后使用事先定义好的规则将日志内容中的变量替换成通配符;最后检测日志是否只包含有一个单词,如果是,则不需要进行大语言模型解析,直接添加进日志模板数据库;S2,模板匹配与模板解析首先查询日志模板数据库,将已经解析的日志模板转换为正则表达式,与新到来的日志进行正则匹配;如果匹配成功,则更新对应日志模板的日志样本,否则调用大语言模型解析日志产生新的模板;S3,模板纠正对于调用大语言模型接口得到的日志模板,先判断模板是否可以正则匹配原日志,如果不能则进行纠正;S4,模板合并当产生新的模板时,通过聚类找到相似的模板,当相似度超过设定阈值时,对这些模板进行合并;S5,模板拆分通过对日志模板的样本进行频率分析,如果某些位置的单词出现频率超过阈值,作为模板的常量部分,基于这些单词对模板进行拆分;S6,后处理在得到模板之后进行后处理,确保得到的模板符合规范,然后存储到数据库中。 搜索马 克 数 据 网