← 返回列表
基于深度学习和SimHash的数据分类方法及系统
摘要文本
本发明公开了基于深度学习和SimHash的数据分类方法及系统,包括:准备数据集并划分为训练集、验证集和测试集;对原始数据进行数据预处理;使用深度学习模型对预处理后的数据进行特征提取,得到特征向量;将特征向量输入基于SimHash创新的算法得到哈希编码;将哈希编码作为深度学习模型的输入,使用优化算法训练深度学习模型;重复以上两步,直至达到预设的迭代次数或准确率要求,则停止训练;使用测试集对训练好的深度学习模型进行测试,评估分类的准确率和性能。本发明通过结合深度学习和SimHash算法的快速哈希特性并加以改进,进一步提高了哈希值精度和数据分类的性能,实现了大规模数据的快速、精确分类。 来源:马 克 数 据 网
申请人信息
- 申请人:江苏君立华域信息安全技术股份有限公司
- 申请人地址:210000 江苏省南京市江宁经济技术开发区正方中路199号
- 发明人: 江苏君立华域信息安全技术股份有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于深度学习和SimHash的数据分类方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311441807.4 |
| 申请日 | 2023/11/1 |
| 公告号 | CN117390515A |
| 公开日 | 2024/1/12 |
| IPC主分类号 | G06F18/241 |
| 权利人 | 江苏君立华域信息安全技术股份有限公司 |
| 发明人 | 洪明睿; 刘德志 |
| 地址 | 江苏省南京市江宁经济技术开发区正方中路199号 |
专利主权项内容
1.基于深度学习和SimHash的数据分类方法,其特征在于,所述方法包括以下步骤:S1:准备数据集,将所述数据集划分为训练集、验证集和测试集;S2:对所述数据集中的所有原始数据进行数据预处理,所述数据预处理包括归一化、去除噪声,以及填充或截断;S3:使用深度学习模型对预处理后的数据进行特征提取,得到特征向量;S4:将所述特征向量输入到基于SimHash创新的算法中,得到哈希编码;S5:将所述哈希编码作为深度学习模型的输入,使用优化算法训练所述深度学习模型;S6:重复执行步骤S4-步骤S5,直至达到预设的迭代次数或准确率要求,则停止训练;S7:使用测试集对训练好的深度学习模型进行测试,评估分类的准确率和性能。