← 返回列表

基于主题增强词表示的短文本分类方法和系统

申请号: CN202311818547.8
申请人: 合肥工业大学
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 基于主题增强词表示的短文本分类方法和系统
专利类型 发明申请
申请号 CN202311818547.8
申请日 2023/12/27
公告号 CN117473095A
公开日 2024/1/30
IPC主分类号 G06F16/35
权利人 合肥工业大学
发明人 王芹; 顾王逸青; 朱凯旋; 赵树平; 杨雪洁; 戈戋
地址 安徽省合肥市包河区屯溪路193号

摘要文本

本发明提供一种基于主题增强词表示的短文本分类方法和系统,涉及文本分类技术领域。本发明基于预先训练的词向量增强模型对所述待分类文本的初始词向量进行主题增强,得到待分类文本的主题增强的词向量;基于预先构建的TextCNN网络对所述主题增强的词向量进行处理,得到文本分类结果;其中,所述预先构建词向量增强模型通过目标领域的训练文本训练改进的Skip‑gram模型得到,所述改进的Skip‑gram模型是在Skip‑gram模型上增加预测中心词主题得分的任务。本发明通过待分类文本所属领域的训练文本对改进的Skip‑gram模型进行训练,得到的词向量增强模型可以获得词语的丰富语义信息,减少短文本信息量少、特征稀疏对分类任务的影响,有效提升短文本分类的分类精度。

专利主权项内容

1.一种基于主题增强词表示的短文本分类方法,其特征在于,包括:S1、获取目标领域的待分类文本并进行预处理,对预处理后的待分类文本中的词进行初始向量化,得到待分类文本的初始词向量;S2、基于预先训练的词向量增强模型对所述待分类文本的初始词向量进行主题增强,得到待分类文本的主题增强的词向量;S3、基于预先构建的TextCNN网络对所述主题增强的词向量进行处理,得到文本分类结果;其中,所述预先构建词向量增强模型通过目标领域的训练文本训练改进的Skip-gram模型得到,所述改进的Skip-gram模型是在Skip-gram模型上增加预测中心词主题得分的任务。 搜索马 克 数 据 网