一种基于文本中心的主题挖掘方法、系统、设备及介质
申请人信息
- 申请人:东风日产数据服务有限公司
- 申请人地址:510800 广东省广州市花都区风神大道8号东风南方大楼副楼综合管理办公室
- 发明人: 东风日产数据服务有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于文本中心的主题挖掘方法、系统、设备及介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311507713.2 |
| 申请日 | 2023/11/13 |
| 公告号 | CN117669550A |
| 公开日 | 2024/3/8 |
| IPC主分类号 | G06F40/258 |
| 权利人 | 东风日产数据服务有限公司 |
| 发明人 | 文林; 付俊杰; 施冰; 胡鹏迪; 周迁荣; 梁明坚; 邓勇; 陈俊辉; 李振文; 张露 |
| 地址 | 广东省广州市花都区风神大道8号东风南方大楼副楼综合管理办公室 |
摘要文本
东风日产数据服务有限公司获取“一种透气窗帘布”专利技术,本发明公开了一种基于文本中心的主题挖掘方法、系统、设备及介质。该方法通过获取待识别的目标文本,以及预设的比对文本和通用文本;对目标文本和比对文本进行分词处理,得到第一分词结果和第二分词结果;根据第二分词结果,对第一分词结果进行关键词提取处理,得到第一关键信息表;根据第一关键信息表中的关键词字段,对通用文本进行词频统计处理,得到临时词频统计表;根据临时词频统计表,对第一关键信息表进行中心处理,得到中心词表;根据中心词表,对目标文本进行主题挖掘处理,得到目标文本的文本主题。该法可以有效提高文本主题挖掘的全面性和准确度,有效节约梳理输入数据的时间,减少工作量。本发明涉及自然语言处理技术领域。
专利主权项内容
1.一种基于文本中心的主题挖掘方法,其特征在于,包括:获取待识别的目标文本,以及预设的比对文本和通用文本,所述目标文本包括多个目标词语,所述比对文本包括多个比对词语;对所述目标文本进行第一分词处理,得到第一分词结果,以及对所述比对文本进行第二分词处理,得到第二分词结果;根据所述第二分词结果,对所述第一分词结果进行关键词提取处理,得到第一关键信息表,所述第一关键信息表包括关键词字段,所述关键词字段为目标比例大于等于文本比例的目标词语,所述文本比例用于表征所述目标文本的文本数与所述比对文本的文本数之间的比值,所述目标比例用于表征当前目标词语的数量与对应的比对词语数量之间的比值;根据所述第一关键信息表中的关键词字段,对所述通用文本进行词频统计处理,得到临时词频统计表,所述临时词频统计表包括临时词字段和临时词词频字段,所述临时词字段包括所述通用文本中与所述关键词字段对应的目标临时词,以及与所述目标临时词相邻的临近临时词,所述临时词词频字段包括所述目标临时词的词频和所述临近临时词的词频;根据所述临时词频统计表,对所述第一关键信息表进行中心处理,得到中心词表;根据所述中心词表,对所述目标文本进行主题挖掘处理,得到所述目标文本的文本主题。