← 返回列表

一种小样本文本自动分类方法及系统

申请号: CN202410022331.9
申请人: 南京邮电大学
申请日期: 2024/1/8

摘要文本

本发明涉及自然语言处理与人工智能领域,公开了一种小样本文本自动分类方法及系统,方法包括将待分类的文本数据等进行元任务构建,以获取支撑集、查询集以及标签描述信息,并得到元任务样本集合,分词处理后进行嵌入,以获取样本对应的词向量矩阵;计算监督对比损失;将支撑集和标签描述信息通过胶囊网络计算得到每个类别的类别向量;将监督对比损失和交叉熵损失加权计算得出总损失,使用随机梯度下降法对模型参数进行更新;计算每个查询集样本和每个类别向量之间的相似度得到相似度矩阵,相似度矩阵每行值最大维度取1,其余为0,得到预测标签矩阵。缓解了随机采样支撑集带来的不利影响,在低资源语言和标注数据少的场景下有良好实用性。 ()

专利详细信息

项目 内容
专利名称 一种小样本文本自动分类方法及系统
专利类型 发明申请
申请号 CN202410022331.9
申请日 2024/1/8
公告号 CN117520551A
公开日 2024/2/6
IPC主分类号 G06F16/35
权利人 南京邮电大学
发明人 徐小龙; 徐旸
地址 江苏省南京市鼓楼区新模范马路66号

专利主权项内容

1.一种小样本文本自动分类方法,其特征在于,包括:将待分类的文本数据、标注数据及其标签进行元任务构建,以获取支撑集、查询集/>以及标签描述信息,并排列得到元任务的样本集合/>;将所述样本集合经过分词处理后进行嵌入,以获取每个样本对应的词向量矩阵/>;将所述词向量矩阵进行平均池化得到所有样本的句向量集合/>;通过所有样本的句向量集合计算监督对比损失/>;将所述支撑集和标签描述信息对应的句向量输入胶囊网络进行动态路由迭代计算,得到每个类别的类别向量/>;计算每个查询集样本和每个类别向量之间的相似度得到一个相似度矩阵,并计算交叉熵损失/>;将所述监督对比损失和交叉熵损失/>加权计算得出总损失/>,使用随机梯度下降法对整个模型的参数/>进行更新;将所述相似度矩阵每行值最大的维度取为1,其余为0,得到预测标签矩阵。 来自马-克-数-据-官网