← 返回列表

一种用于多领域的文本情感分类方法

申请号: CN202310815104.7
申请人: 无锡学院
申请日期: 2023/7/4

摘要文本

本发明公开了一种用于多领域的文本情感分类方法,包括:获取目标领域带标签的文本数据并进行预处理,对词嵌入层进行训练,在ALBERT模型中嵌入用于文本主题信息提取的LDA模型,在LDA模型中融合K‑means聚类算法;将词向量序列输入至LDA模型中进行无监督训练,提取文本主题信息,得到“文档‑主题”分布的主题特征向量;将主题特征向量输入到K‑means聚类算法进行二次聚类后,使用余弦相似度输出最优的主题特征向量;通过吉布斯采样方法迭代抽样,LDA模型收敛后得到“主题‑词”分布和“评论‑主题”分布;对文本情感分类模型训练,将通过训练后的文本情感分类模型计算情感分类标签的情感概率,将情感概率最大的标签作为目标数据标签,从而实现跨领域的文本情感分类。 来自马-克-数-据-官网

专利详细信息

项目 内容
专利名称 一种用于多领域的文本情感分类方法
专利类型 发明申请
申请号 CN202310815104.7
申请日 2023/7/4
公告号 CN117390131A
公开日 2024/1/12
IPC主分类号 G06F16/33
权利人 无锡学院
发明人 宋莹; 杨俊哲; 陈逸菲; 孙宁
地址 江苏省无锡市锡山区锡山大道333号

专利主权项内容

1.一种用于多领域的文本情感分类方法,其特征在于,包括以下步骤:S1:获取目标领域带标签的文本数据并进行预处理,对将预处理后的文本数据输入到文本情感分类模型预设的词嵌入层,利用词嵌入、段嵌入和位置嵌入将文本数据进行向量化处理,得到词向量序列,所述词向量序列为词向量、段向量、位置向量;所述文本情感分类模型由依次连接的词嵌入层、ALBERT模型、多任务层和分类器组成;S2:对词嵌入层进行训练,在ALBERT模型中嵌入用于文本主题信息提取的LDA模型,在LDA模型中融合K-means聚类算法;S3:将词向量序列输入至LDA模型中进行无监督训练,提取文本主题信息,得到“文档-主题”分布的主题特征向量;S4:将主题特征向量输入到K-means聚类算法进行二次聚类后,使用余弦相似度输出最优的主题特征向量;通过吉布斯采样方法迭代抽样,LDA模型收敛后得到“主题-词”分布和“评论-主题”分布;S5:对文本情感分类模型训练,将通过训练后的文本情感分类模型计算情感分类标签的情感概率,将情感概率最大的标签作为目标数据标签,从而实现跨领域的文本情感分类。