← 返回列表

用于智能模型训练的样本数据处理方法、系统及智能模型

申请号: CN202410115570.9
申请人: 深圳开源互联网安全技术有限公司
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 用于智能模型训练的样本数据处理方法、系统及智能模型
专利类型 发明申请
申请号 CN202410115570.9
申请日 2024/1/29
公告号 CN117668237A
公开日 2024/3/8
IPC主分类号 G06F16/35
权利人 深圳开源互联网安全技术有限公司
发明人 万振华
地址 广东省深圳市龙华区民治街道民乐社区星河WORLD二期E栋401-405

摘要文本

本发明公开一种用于智能模型训练的样本数据处理方法、系统及智能模型,其中该方法包括:提取样本数据集中的特征词,以生成特征词库;基于特征词库扫描样本数据集,并提取出所有的第一特征语句;从每一第一特征语句中提取与特征词相匹配的关键变量,以获得特征变量库;基于特征变量库再次扫描样本数据集,并提取出所有的第二特征语句;对第一特征语句和第二特征语句取并集,以获得包括若干特征语句的特征语句集;生成与每一特征语句相对应的文本向量。本发明样本数据处理方法,能更准确地捕捉到与目标样本相关的关键信息,这种方式提高了数据处理的针对性和效率,从而提高智能模型预测的准确性和效率,并能提升智能模型的跨数据集的泛化性。 来源:马 克 团 队

专利主权项内容

1.一种用于智能模型训练的样本数据处理方法,其特征在于,包括:根据标注信息提取样本数据集中的特征词,以生成包括若干所述特征词的特征词库;基于所述特征词库扫描所述样本数据集,并提取出所有的第一特征语句,每一所述第一特征语句包含有至少一个所述特征词;从每一所述第一特征语句中提取与所述特征词相匹配的关键变量,以获得包括所有所述关键变量的特征变量库;基于所述特征变量库再次扫描所述样本数据集,并提取出所有的第二特征语句,每一所述第二特征语句包含有至少一个所述关键变量;对所述第一特征语句和所述第二特征语句取并集,以获得包括若干特征语句的特征语句集;根据预设转换规则将所述特征语句集中的每一特征语句转换成数字序列,以生成与每一所述特征语句相对应的文本向量,所述文本向量用于导入所述智能模型,以对所述智能模型进行训练。