← 返回列表

一种文本主题分类方法、装置、芯片及终端

申请号: CN202311472935.5
申请人: 山东睿芯半导体科技有限公司
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 一种文本主题分类方法、装置、芯片及终端
专利类型 发明申请
申请号 CN202311472935.5
申请日 2023/11/7
公告号 CN117708324A
公开日 2024/3/15
IPC主分类号 G06F16/35
权利人 山东睿芯半导体科技有限公司
发明人 郭军; 柯武生; 翁国权
地址 山东省日照市经济开发区上海路388号1栋101

摘要文本

本发明涉及人工智能技术领域,提供了一种文本主题分类方法、装置、芯片及终端,该方法通过获取待分类的文本主题,并对文本主题依次进行去除噪声、去停用词、分词和混淆映射处理得到第一词集合;将第一词集合输入至ERNIE‑BiGRU模型中,对第一词集合中的各词语进行语义分类得到第二词集合;将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算,进而实现文本主题的分类。本方法通过ERNIE‑BiGRU模型对文本主题转换成句子级向量表示的第二词集合,保留句子中词与词之间的内在联系和完整性,再按照预设规则进行相关度运算,进一步确定文本主题的分类,解决了现有文本分类方法分类不准确的问题。

专利主权项内容

1.一种文本主题分类方法,其特征在于,包括:获取待分类的文本主题,并对所述文本主题依次进行去除噪声、去停用词、分词和混淆映射处理,得到第一词集合;将所述第一词集合输入至预先训练好的ERNIE-BiGRU模型中,通过所述ERNIE-BiGRU模型对所述第一词集合中的各词语进行语义分类得到第二词集合;将得到的各第二词集合中的各词语与预设领域词语本体按照预设规则进行相关度运算;基于各第二词集合与所述预设领域词语本体的相关度,确定所述文本主题的分类。。微信公众号马克 数据网