一种基于主题增强和知识蒸馏的多策略情感分析方法
摘要文本
本发明属于情感分析技术领域,涉及一种基于主题增强和知识蒸馏的多策略情感分析方法;包括对数据集进行预处理获得真实文本;将真实文本中句子使用词袋模型表示成句子词袋表示并作为主题模型的输入,生成主题嵌入表示;将真实文本作为BERT‑base模型的输入获得句子向量表示,通过12层编码器生成12维包含语义信息的特征向量,将主题嵌入表示与特征向量结合,得到包含语义信息和主题信息的句子向量,完成教师模型训练;通过三种蒸馏策略及分类目标损失,对学生模型进行训练,将待分析的数据集输入训练好的学生模型中,得到分类结果;相比现有的情感分析模型,本发明具有更高的分类准确性和模型可解释性,降低模型时延,压缩网络参数。 马 克 数 据 网
申请人信息
- 申请人:南京邮电大学
- 申请人地址:210023 江苏省南京市鼓楼区新模范马路66号
- 发明人: 南京邮电大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于主题增强和知识蒸馏的多策略情感分析方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410160917.1 |
| 申请日 | 2024/2/5 |
| 公告号 | CN117708336A |
| 公开日 | 2024/3/15 |
| IPC主分类号 | G06F16/35 |
| 权利人 | 南京邮电大学 |
| 发明人 | 黄海平; 杨滢彧; 王睿; 肖甫; 徐剑; 常舒予; 龙章伯; 郝仁 |
| 地址 | 江苏省南京市新模范马路66号 |
专利主权项内容
1.一种基于主题增强和知识蒸馏的多策略情感分析方法,其特征在于,所述方法包括以下步骤:步骤1,获取数据集,对数据集进行数据预处理获得真实文本,真实文本中包含n条句子/>,/>,句子中包含单词;将每条句子使用词袋模型表示成句子词袋表示/>,/>,/>为真实文本/>中不重复的单词的数量;步骤2,训练教师模型;步骤2.1,教师模型包括主题模型和BERT-base模型,将句子词袋表示作为主题模型的输入,句子词袋表示/>通过主题模型的编码器转换为主题分布/>,主题分布/>通过主题模型的解码器转换为包含主题信息的主题嵌入表示/>,/>,/>表示维度;步骤2.2,将真实文本作为BERT-base模型的输入,得到句子向量表示/>,句子向量表示/>作为BERT-base模型中12层编码器的输入,将每一层编码器输出的第一个词元组成12维包含语义信息的特征向量/>;步骤2.3,将主题嵌入表示与特征向量/>结合,得到包含语义信息和主题信息的句子向量/>,完成对教师模型的训练;步骤3,训练学生模型,学生模型包括含有6层编码器的BERT-base模型,分别利用BERT-base模型中词元之间的横向蒸馏目标函数和纵向蒸馏目标函数/>、软交叉熵损失函数/>建立教师模型和学生模型之间的关系,完成学生模型进行训练;步骤4,将待分析数据集输入训练好的学生模型中,通过分类层输出每个类别的概率,即得到分析结果。