基于主题增强词表示的短文本分类方法和系统

申请号: CN202311818547.8

申请人: 合肥工业大学

更新日期: 2026-03-09

摘要文本

合肥工业大学取得“一种透气窗帘布”专利技术，本发明提供一种基于主题增强词表示的短文本分类方法和系统，涉及文本分类技术领域。本发明基于预先训练的词向量增强模型对所述待分类文本的初始词向量进行主题增强，得到待分类文本的主题增强的词向量；基于预先构建的TextCNN网络对所述主题增强的词向量进行处理，得到文本分类结果；其中，所述预先构建词向量增强模型通过目标领域的训练文本训练改进的Skip‑gram模型得到，所述改进的Skip‑gram模型是在Skip‑gram模型上增加预测中心词主题得分的任务。本发明通过待分类文本所属领域的训练文本对改进的Skip‑gram模型进行训练，得到的词向量增强模型可以获得词语的丰富语义信息，减少短文本信息量少、特征稀疏对分类任务的影响，有效提升短文本分类的分类精度。

专利主权项内容

1.一种基于主题增强词表示的短文本分类方法，其特征在于，包括：S1、获取目标领域的待分类文本并进行预处理，对预处理后的待分类文本中的词进行初始向量化，得到待分类文本的初始词向量；S2、基于预先训练的词向量增强模型对所述待分类文本的初始词向量进行主题增强，得到待分类文本的主题增强的词向量；S3、基于预先构建的TextCNN网络对所述主题增强的词向量进行处理，得到文本分类结果；其中，所述预先构建词向量增强模型通过目标领域的训练文本训练改进的Skip-gram模型得到，所述改进的Skip-gram模型是在Skip-gram模型上增加预测中心词主题得分的任务。搜索马克数据网

专利申请信息

项目	内容
专利名称	基于主题增强词表示的短文本分类方法和系统
专利类型	发明申请
申请号	CN202311818547.8
申请日	2023/12/27
公告号	CN117473095A
公开日	2024/1/30
IPC主分类号	G06F16/35
权利人	合肥工业大学
发明人	王芹; 顾王逸青; 朱凯旋; 赵树平; 杨雪洁; 戈戋
地址	安徽省合肥市包河区屯溪路193号

基于主题增强词表示的短文本分类方法和系统

摘要文本

专利主权项内容

专利申请信息

热门技术领域

快速入口

专利技术资料

基于主题增强词表示的短文本分类方法和系统

摘要文本

专利主权项内容

专利申请信息

相关专利推荐

一种考虑实时事故风险的导航路径优化方法

样本数据生成方法及无线跌倒检测方法

一种洁净室气态分子污染物根因分析方法

一种目标检测方法、计算机可读存储介质及智能设备

一种相变微胶囊及其制备方法、应用，聚氨酯注浆加固材料

一种铁矿井通风系统

热门技术领域

快速入口

专利技术资料