← 返回列表

一种基于大语言模型生成的正则表达式的文本分类方法

申请号: CN202410034646.5
申请人: 杭州光云科技股份有限公司
更新日期: 2026-03-20

专利详细信息

项目 内容
专利名称 一种基于大语言模型生成的正则表达式的文本分类方法
专利类型 发明申请
申请号 CN202410034646.5
申请日 2024/1/10
公告号 CN117556049A
公开日 2024/2/13
IPC主分类号 G06F16/35
权利人 杭州光云科技股份有限公司
发明人 谭光华; 陈禹; 林庭羽
地址 浙江省杭州市滨江区江南大道588号恒鑫大厦主楼15层

摘要文本

本发明涉及文本分类技术领域,具体涉及一种基于大语言模型生成的正则表达式的文本分类方法,包括以下步骤:S1:初始化文本分类方法,定义文本分类标签,采用大语言模型生成包括若干个分类标签的白正则表达式和黑正则表达式的正则表达式集合;S2:获取需要分类的文本数据;S3:采用大语言模型对文本数据的语义完整度进行判断,将语义不完整的文本数据滤除;S4:根据正则表达式集合中的若干个白正则表达式与文本数据进行匹配,根据正则表达式集合中的若干个黑正则表达式对与文本数据不匹配的分类标签进行滤除,然后为该文本数据添加匹配的文本分类标签。本发明应用正则表达式集合实现文本数据的分类,分类的准确度高。

专利主权项内容

1.一种基于大语言模型生成的正则表达式的文本分类方法,其特征在于,包括以下步骤:S1:初始化文本分类方法,定义文本分类标签,采用大语言模型生成包括若干个文本分类标签各自的正则表达式的正则表达式集合,将经审核通过的正则表达式设置为白正则表达式,然后根据白正则表达式采用大语言模型生成相对应的黑正则表达式;S2:获取需要分类的文本数据;S3:采用大语言模型对文本数据的语义完整度进行判断,将语义不完整的文本数据滤除;S4:根据正则表达式集合中的若干个白正则表达式与文本数据进行匹配,根据正则表达式集合中的若干个黑正则表达式对与文本数据不匹配的文本分类标签进行滤除,然后为该文本数据添加匹配的文本分类标签。 来自: