← 返回列表

针对短文本的数据挖掘方法及系统

申请号: CN201810784159.5
申请人: 中国银联股份有限公司
更新日期: 2026-03-08

摘要文本

中国银联股份有限公司取得“一种透气窗帘布”专利技术,本发明涉及针对短文本的数据挖掘方法,包括:对第一短文本集合进行预处理以提取第一语料;基于第一语料来构建第一词向量模型,以使得每个短文本对应于至少一个词向量;确定多个短文本各自的词向量统计信息,利用第一聚类方法对多个短文本进行聚类以得到第一聚类结果;对每一类,确定该类中包括的至少一个短文本各自对应的至少一个词向量,并基于各词向量的词频信息来确定该类的至少一个关键词;对第一聚类结果,将至少一个关键词之间的重叠量满足第一条件的不同类进行合并。该方法能够克服聚类个数难以确定的问题,显著提升了聚类的准确性,使得聚类结果更符合技术人员预期。

专利主权项内容

1.一种针对短文本的数据挖掘方法,包括如下步骤:a)、对第一短文本集合进行预处理以提取第一语料;其中,所述第一短文本集合包括多个短文本;b)、基于所述第一语料来构建第一词向量模型,以使得每个所述短文本对应于至少一个词向量;c)、确定所述多个短文本各自的词向量统计信息,利用第一聚类方法对所述多个短文本进行聚类以得到第一聚类结果,所述第一聚类结果中的每一类包括至少一个所述短文本;d)、对所述每一类,确定该类中包括的所述至少一个短文本各自对应的所述至少一个词向量,并基于各所述词向量的词频信息来确定该类的至少一个关键词;以及e)、对所述第一聚类结果,将所述至少一个关键词之间的重叠量满足第一条件的不同类进行合并,以形成第二聚类结果,其中,基于所述第一聚类结果建立关键词连接矩阵L,其中每个元素L是第i类与第j类的关键词之间的重叠量,并且根据所述关键词连接矩L对第一聚类结果进行合并,其中,所述第一条件包括:在所述第i类的所述至少一个关键词与所述第j类的所述至少一个关键词之间的重叠量大于或等于合并阈值时,将所述第i类与所述第j类合并,i, j其中,还包括:对所述第二聚类结果中的每一类,确定该类对应的摘要句子,其中,所述摘要句子与该类的所述至少一个关键词满足第二条件,其中,所述第二条件包括:摘要句子的关键词命中得分不低于第一阈值,同时,简明性得分不低于第二阈值,并且,以所述关键词命中得分和所述简明性得的综合得分最高为基准。

专利申请信息

项目 内容
专利名称 针对短文本的数据挖掘方法及系统
专利类型 发明授权
申请号 CN201810784159.5
申请日 2018年7月17日
公告号 CN109947934B
公开日 2024年1月30日
IPC主分类号 G06F16/35
权利人 中国银联股份有限公司
发明人 王宇; 廖桂秀; 邱雪涛; 万四爽; 费志军; 许彩燕; 佘萧寒; 张琦
地址 上海市浦东新区含笑路36号银联大厦