← 返回列表

数据分类分级方法、装置、电子设备及存储介质

申请号: CN202410044807.9
申请人: 长春吉大正元信息技术股份有限公司
申请日期: 2024/1/12

摘要文本

本发明公开了一种数据分类分级方法、装置、电子设备及存储介质,涉及数据处理技术领域。该方法包括:获取待分类分级数据集的字段名称和对应的字段值;在待分类分级数据集为内容数据集时,针对单个字段,获取字段描述提示词,根据字段描述提示词,采用大语言模型,对字段值进行语义理解,得到字段值的字段描述;获取规则表格中规则的规则类别、规则级别和字段类别;针对单个字段,根据字段的字段名称、字段描述、对应的字段值、各规则的规则类别和字段类别,计算字段与各规则之间相似度,得到字段对应的相似度较高的至少一个规则,确定待分类分级数据集的数据类别和数据级别。本发明实施例的技术方案提高了数据分类分级的泛化性、效率和准确度。

专利详细信息

项目 内容
专利名称 数据分类分级方法、装置、电子设备及存储介质
专利类型 发明申请
申请号 CN202410044807.9
申请日 2024/1/12
公告号 CN117556050A
公开日 2024/2/13
IPC主分类号 G06F16/35
权利人 长春吉大正元信息技术股份有限公司
发明人 张子辰; 张超; 李健; 何小朝; 陈林生
地址 吉林省长春市前进大街2266号

专利主权项内容

1.一种数据分类分级方法,其特征在于,所述方法包括:获取待分类分级数据集中至少一个字段的字段名称和对应的字段值;在所述待分类分级数据集为内容数据集时,针对单个所述字段,获取字段描述提示词,并根据所述字段描述提示词,采用大语言模型,对所述字段值进行语义理解,得到所述字段值的字段描述;获取规则表格中至少一个规则的规则类别、规则级别和字段类别;其中,所述规则用于确定所述待分类分级数据集的处理方式;针对单个所述字段,根据所述字段的字段名称、字段描述、对应的字段值、各所述规则的规则类别和字段类别,计算所述字段与各所述规则之间相似度,得到所述字段对应的相似度较高的至少一个所述规则,确定所述待分类分级数据集的数据类别和数据级别。