一种小样本文本自动分类方法及系统

申请号: CN202410022331.9

申请人: 南京邮电大学

申请日期: 2024/1/8

摘要文本

本发明涉及自然语言处理与人工智能领域，公开了一种小样本文本自动分类方法及系统，方法包括将待分类的文本数据等进行元任务构建，以获取支撑集、查询集以及标签描述信息，并得到元任务样本集合，分词处理后进行嵌入，以获取样本对应的词向量矩阵；计算监督对比损失；将支撑集和标签描述信息通过胶囊网络计算得到每个类别的类别向量；将监督对比损失和交叉熵损失加权计算得出总损失，使用随机梯度下降法对模型参数进行更新；计算每个查询集样本和每个类别向量之间的相似度得到相似度矩阵，相似度矩阵每行值最大维度取1，其余为0，得到预测标签矩阵。缓解了随机采样支撑集带来的不利影响，在低资源语言和标注数据少的场景下有良好实用性。（）

申请人信息

申请人:南京邮电大学
申请人地址:210003 江苏省南京市新模范马路66号
发明人: 南京邮电大学

专利详细信息

项目	内容
专利名称	一种小样本文本自动分类方法及系统
专利类型	发明申请
申请号	CN202410022331.9
申请日	2024/1/8
公告号	CN117520551A
公开日	2024/2/6
IPC主分类号	G06F16/35
权利人	南京邮电大学
发明人	徐小龙; 徐旸
地址	江苏省南京市鼓楼区新模范马路66号

专利主权项内容

1.一种小样本文本自动分类方法，其特征在于，包括：将待分类的文本数据、标注数据及其标签进行元任务构建，以获取支撑集、查询集/>以及标签描述信息，并排列得到元任务的样本集合/>；将所述样本集合经过分词处理后进行嵌入，以获取每个样本对应的词向量矩阵/>；将所述词向量矩阵进行平均池化得到所有样本的句向量集合/>；通过所有样本的句向量集合计算监督对比损失/>；将所述支撑集和标签描述信息对应的句向量输入胶囊网络进行动态路由迭代计算，得到每个类别的类别向量/>；计算每个查询集样本和每个类别向量之间的相似度得到一个相似度矩阵，并计算交叉熵损失/>；将所述监督对比损失和交叉熵损失/>加权计算得出总损失/>，使用随机梯度下降法对整个模型的参数/>进行更新；将所述相似度矩阵每行值最大的维度取为1，其余为0，得到预测标签矩阵。来自马-克-数-据-官网

一种小样本文本自动分类方法及系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

特别鸣谢

一种小样本文本自动分类方法及系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种用于分布式光伏方法发电的优化配置方法及系统

一种靶向热休克蛋白90的特异性肿瘤诊断探针和显像剂

企业数字化运营多维数据分析方法及系统

用于感知网络中边缘节点健康状态的方法、设备和介质

一种音频信息内容识别方法

一种输水隧洞水下检测机器人及使用方法

热门技术领域

快速入口

专利技术资料

特别鸣谢