一种科技文献类目自动映射模型训练与预测方法
申请人信息
- 申请人:江西师范大学
- 申请人地址:330000 江西省南昌市高新区紫阳大道99号
- 发明人: 江西师范大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种科技文献类目自动映射模型训练与预测方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410132324.4 |
| 申请日 | 2024/1/31 |
| 公告号 | CN117688945A |
| 公开日 | 2024/3/12 |
| IPC主分类号 | G06F40/30 |
| 权利人 | 江西师范大学 |
| 发明人 | 李茂西; 黄敏 |
| 地址 | 江西省南昌市紫阳大道99号 |
摘要文本
本发明公开一种科技文献类目自动映射模型训练与预测方法,训练方法步骤为:构造IPC类目与高关联CLC类目数据集作为训练集;将训练集内样本输入预训练语言模型中,获取语义表示向量;使用点积注意力计算语义表示向量获得交互表示向量;将语义表示向量和交互表示向量进行融合输出增强表示向量;将增强表示向量进行池化后输入至前馈神经网络计算概率,将最大概率所在的类别作为预测类别;通过最小化在训练集上的交叉熵损失以得到训练后的IPC类目与高关联CLC类目自动映射模型。本发明的有益效果是:所构建的训练集和IPC类目与高关联CLC类目自动映射模型解决了实际应用场景中IPC类目与高关联CLC类目难以准确建立映射的问题。
专利主权项内容
1.一种科技文献类目自动映射模型训练方法,基于IPC类目与高关联的CLC类目自动映射模型训练,其特征在于:步骤如下:步骤S1,构造IPC类目与高关联CLC类目数据集作为训练集,对训练集进行规范化处理,获得规范化处理后的训练集;其中训练集中每个样本由IPC类目描述文本、CLC类目描述文本和IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签组成,IPC类目描述文本和CLC类目描述文本均是类目层级文本之间用分号连接形成的一条句子;步骤S2,将处理后的训练集内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中,获取语义表示向量,分为IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量;步骤S3,使用点积注意力计算步骤S2中IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量的注意力矩阵,获得交互表示向量;步骤S4,将步骤S2中语义表示向量和步骤S3中交互表示向量进行融合,依次输入前馈神经网络和双向长短期记忆网络,输出增强表示向量;步骤S5,将步骤S4的增强表示向量分别进行平均池化和最大池化提取类目描述文本的深层语义特征,将池化后的增强表示向量拼接后输入三层前馈神经网络,获得在存在映射关系类别上的概率与不存在映射关系类别上的概率,并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别;步骤S6,根据步骤S5中在存在映射关系类别上的概率与不存在映射关系类别上的概率和步骤S1中训练集上IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签,通过最小化在训练集上的交叉熵损失来优化IPC类目与高关联CLC类目自动映射模型的参数,以得到训练后的IPC类目与高关联CLC类目自动映射模型。