一种基于大语言模型生成的正则表达式的文本分类方法

申请号: CN202410034646.5

申请人: 杭州光云科技股份有限公司

更新日期: 2026-03-20

摘要文本

杭州光云科技股份有限公司取得“一种透气窗帘布”专利技术，本发明涉及文本分类技术领域，具体涉及一种基于大语言模型生成的正则表达式的文本分类方法，包括以下步骤：S1：初始化文本分类方法，定义文本分类标签，采用大语言模型生成包括若干个分类标签的白正则表达式和黑正则表达式的正则表达式集合；S2：获取需要分类的文本数据；S3：采用大语言模型对文本数据的语义完整度进行判断，将语义不完整的文本数据滤除；S4：根据正则表达式集合中的若干个白正则表达式与文本数据进行匹配，根据正则表达式集合中的若干个黑正则表达式对与文本数据不匹配的分类标签进行滤除，然后为该文本数据添加匹配的文本分类标签。本发明应用正则表达式集合实现文本数据的分类，分类的准确度高。

专利主权项内容

1.一种基于大语言模型生成的正则表达式的文本分类方法，其特征在于，包括以下步骤：S1：初始化文本分类方法，定义文本分类标签，采用大语言模型生成包括若干个文本分类标签各自的正则表达式的正则表达式集合，将经审核通过的正则表达式设置为白正则表达式，然后根据白正则表达式采用大语言模型生成相对应的黑正则表达式；S2：获取需要分类的文本数据；S3：采用大语言模型对文本数据的语义完整度进行判断，将语义不完整的文本数据滤除；S4：根据正则表达式集合中的若干个白正则表达式与文本数据进行匹配，根据正则表达式集合中的若干个黑正则表达式对与文本数据不匹配的文本分类标签进行滤除，然后为该文本数据添加匹配的文本分类标签。来自：

专利申请信息

项目	内容
专利名称	一种基于大语言模型生成的正则表达式的文本分类方法
专利类型	发明申请
申请号	CN202410034646.5
申请日	2024/1/10
公告号	CN117556049A
公开日	2024/2/13
IPC主分类号	G06F16/35
权利人	杭州光云科技股份有限公司
发明人	谭光华; 陈禹; 林庭羽
地址	浙江省杭州市滨江区江南大道588号恒鑫大厦主楼15层

一种基于大语言模型生成的正则表达式的文本分类方法

摘要文本

专利主权项内容

专利申请信息

热门技术领域

快速入口

专利技术资料

一种基于大语言模型生成的正则表达式的文本分类方法

摘要文本

专利主权项内容

专利申请信息

相关专利推荐

一种工业缺陷图像生成方法、装置、设备及存储介质

一种基于用户自定义类别的物体检测方法及系统

一种虚拟试衣方法、装置和存储介质

数据库问答方法、设备及存储介质

真值数据的构建方法和装置、存储介质

探测板偏差的检测方法、装置和存储介质

热门技术领域

快速入口

专利技术资料