← 返回列表

基于深度神经网络的训练集快速分析方法及电子设备

申请号: CN202410195936.8
申请人: 杭州光云科技股份有限公司
更新日期: 2026-03-20

专利详细信息

项目 内容
专利名称 基于深度神经网络的训练集快速分析方法及电子设备
专利类型 发明申请
申请号 CN202410195936.8
申请日 2024/2/22
公告号 CN117763360A
公开日 2024/3/26
IPC主分类号 G06F18/214
权利人 杭州光云科技股份有限公司
发明人 谭光华; 宋旭龙; 陈禹
地址 浙江省杭州市滨江区江南大道588号恒鑫大厦主楼15层

摘要文本

本申请公开了一种基于深度神经网络的训练集快速分析方法及电子设备,包括:采用预训练语言模型对训练集进行训练得到文本特征向量提取器与文本意图分类器;根据文本意图分类器对训练集进行意图预测得到若干对混淆意图对;文本特征向量提取器分别生成若干对混淆意图对的256维特征向量并降维为2维特征向量;将2维特征向量制作散点分布图并均匀等分划分为若干簇;抽取若干簇内一定比例样本进行清洗实现训练集快速分析,本方法将意图间存在数据混淆的情况的数据收集整理,并且只通过具有代表性的一定比例样本的清洗就可以完成整个训练集的清洗,可以节省人力物力,提高工作效率,并且清洗后的训练集的准确性高。

专利主权项内容

1.一种基于深度神经网络的训练集快速分析方法,其特征在于,包括:S1:采用预训练语言模型对训练集进行训练得到文本特征向量提取器与文本意图分类器;S2:根据S1中的文本意图分类器对训练集进行意图预测得到若干对混淆意图对,所述混淆意图对为预测错误的样本中占比在阈值范围内的意图与真实意图组成;S3:根据S1中的文本特征向量提取器分别生成S2中得到的若干对混淆意图对的256维特征向量并降维为2维特征向量;S4:将S3中得到的2维特征向量制作散点分布图并均匀等分划分为若干簇;S5:抽取若干簇内一定比例样本进行清洗实现训练集快速分析。