← 返回列表

一种网络在线话题大数据检测方法

申请号: CN201711489608.5
申请人: 天津科技大学
申请日期: 2017年12月30日

摘要文本

本发明涉及一种网络在线话题大数据检测方法,其主要技术特点:大数据网络文本在线爬取;提取文本特征和表达;使用Single‑Pass聚类算法,选取多个相似度因子,进行话题检测。本发明设计合理,其在现有Single‑Pass算法的基础上,通过分析文本特点,采用多相似度计算方法,通过赋予不同权重因子的取值,加权组合获得到文本的相似度,能够使用漏检率、误检率以及耗费函数值上均有所下降,聚类效果明显改善。

专利详细信息

项目 内容
专利名称 一种网络在线话题大数据检测方法
专利类型 发明授权
申请号 CN201711489608.5
申请日 2017年12月30日
公告号 CN108197259B
公开日 2024年3月5日
IPC主分类号 G06F16/35
权利人 天津科技大学
发明人 马永军; 柴梦瑶; 刘洋
地址 天津市滨海新区经济技术开发区第十三大街9号

专利主权项内容

1.一种网络在线话题大数据检测方法,其特征在于包括以下步骤:步骤1、大数据网络文本在线爬取;步骤2、提取文本特征和表达;步骤3、使用Single-Pass聚类算法,选取多个相似度因子,进行话题检测;所述步骤3选取多个相似度因子包括:时间因子、地点因子和来源因子;所述时间因子为:式中,Sim(d, d)表示文档d和d的时间距离,t=|t-t|,m则为自动设置的时间间隔;timeijijij所述地点因子为:式中,Simpi, pj)为两个地名的相似度,deep(p∩p)为地名p与地名p在地理树上距离根节点的公共深度,deep(p)为地名p距离根节点的深度,deep()为地名p距离根节点的深度;所述来源因子为:place(ijijiipjj其中,PR表示网站p的PR值,其中d为阻尼系数,a为判断链出站点是否为站外链接的比重系数,V为链出页面与网站p页面不是同一个站点的集合,C表示页面i全部链出页面的数量,V为链出页面与页面p属于同一个站点的集合,C表示页面j全部链出页面的数量。(p)1i2j。数据由马 克 数 据整理