一种用于多领域的文本情感分类方法
摘要文本
本发明公开了一种用于多领域的文本情感分类方法,包括:获取目标领域带标签的文本数据并进行预处理,对词嵌入层进行训练,在ALBERT模型中嵌入用于文本主题信息提取的LDA模型,在LDA模型中融合K‑means聚类算法;将词向量序列输入至LDA模型中进行无监督训练,提取文本主题信息,得到“文档‑主题”分布的主题特征向量;将主题特征向量输入到K‑means聚类算法进行二次聚类后,使用余弦相似度输出最优的主题特征向量;通过吉布斯采样方法迭代抽样,LDA模型收敛后得到“主题‑词”分布和“评论‑主题”分布;对文本情感分类模型训练,将通过训练后的文本情感分类模型计算情感分类标签的情感概率,将情感概率最大的标签作为目标数据标签,从而实现跨领域的文本情感分类。 来自马-克-数-据-官网
申请人信息
- 申请人:无锡学院
- 申请人地址:214105 江苏省无锡市锡山区锡山大道333号
- 发明人: 无锡学院
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种用于多领域的文本情感分类方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202310815104.7 |
| 申请日 | 2023/7/4 |
| 公告号 | CN117390131A |
| 公开日 | 2024/1/12 |
| IPC主分类号 | G06F16/33 |
| 权利人 | 无锡学院 |
| 发明人 | 宋莹; 杨俊哲; 陈逸菲; 孙宁 |
| 地址 | 江苏省无锡市锡山区锡山大道333号 |
专利主权项内容
1.一种用于多领域的文本情感分类方法,其特征在于,包括以下步骤:S1:获取目标领域带标签的文本数据并进行预处理,对将预处理后的文本数据输入到文本情感分类模型预设的词嵌入层,利用词嵌入、段嵌入和位置嵌入将文本数据进行向量化处理,得到词向量序列,所述词向量序列为词向量、段向量、位置向量;所述文本情感分类模型由依次连接的词嵌入层、ALBERT模型、多任务层和分类器组成;S2:对词嵌入层进行训练,在ALBERT模型中嵌入用于文本主题信息提取的LDA模型,在LDA模型中融合K-means聚类算法;S3:将词向量序列输入至LDA模型中进行无监督训练,提取文本主题信息,得到“文档-主题”分布的主题特征向量;S4:将主题特征向量输入到K-means聚类算法进行二次聚类后,使用余弦相似度输出最优的主题特征向量;通过吉布斯采样方法迭代抽样,LDA模型收敛后得到“主题-词”分布和“评论-主题”分布;S5:对文本情感分类模型训练,将通过训练后的文本情感分类模型计算情感分类标签的情感概率,将情感概率最大的标签作为目标数据标签,从而实现跨领域的文本情感分类。