← 返回列表

基于深度学习和SimHash的数据分类方法及系统

申请号: CN202311441807.4
申请人: 江苏君立华域信息安全技术股份有限公司
申请日期: 2023/11/1

摘要文本

本发明公开了基于深度学习和SimHash的数据分类方法及系统,包括:准备数据集并划分为训练集、验证集和测试集;对原始数据进行数据预处理;使用深度学习模型对预处理后的数据进行特征提取,得到特征向量;将特征向量输入基于SimHash创新的算法得到哈希编码;将哈希编码作为深度学习模型的输入,使用优化算法训练深度学习模型;重复以上两步,直至达到预设的迭代次数或准确率要求,则停止训练;使用测试集对训练好的深度学习模型进行测试,评估分类的准确率和性能。本发明通过结合深度学习和SimHash算法的快速哈希特性并加以改进,进一步提高了哈希值精度和数据分类的性能,实现了大规模数据的快速、精确分类。 来源:马 克 数 据 网

专利详细信息

项目 内容
专利名称 基于深度学习和SimHash的数据分类方法及系统
专利类型 发明申请
申请号 CN202311441807.4
申请日 2023/11/1
公告号 CN117390515A
公开日 2024/1/12
IPC主分类号 G06F18/241
权利人 江苏君立华域信息安全技术股份有限公司
发明人 洪明睿; 刘德志
地址 江苏省南京市江宁经济技术开发区正方中路199号

专利主权项内容

1.基于深度学习和SimHash的数据分类方法,其特征在于,所述方法包括以下步骤:S1:准备数据集,将所述数据集划分为训练集、验证集和测试集;S2:对所述数据集中的所有原始数据进行数据预处理,所述数据预处理包括归一化、去除噪声,以及填充或截断;S3:使用深度学习模型对预处理后的数据进行特征提取,得到特征向量;S4:将所述特征向量输入到基于SimHash创新的算法中,得到哈希编码;S5:将所述哈希编码作为深度学习模型的输入,使用优化算法训练所述深度学习模型;S6:重复执行步骤S4-步骤S5,直至达到预设的迭代次数或准确率要求,则停止训练;S7:使用测试集对训练好的深度学习模型进行测试,评估分类的准确率和性能。