基于Word2Vec的主题爬虫系统和方法
摘要文本
基于Word2Vec的主题爬虫系统和方法。本发明公开了一种基于Word2Vec的主题爬虫系统抓取信息的方法,具体步骤包括:步骤1:通过种子配置模块上传种子链接,然后利用关键词模块进行关键词的交互与筛选,之后启动爬虫;步骤2:通过下载模块下载待抓取的URL链接,下载后利用解析模块对网页内容进行解析,包括提取网页正文,全部链接,全部代码,网页类型;步骤3:根据评分模块,利用解析的内容进行页面的主题相关度计算,并给出各个子链接的相关性评分预测。本发明让关键词集合之间通过Word2Vec训练出的向量进行相关度比较,有利于主题爬虫在爬行过程中更加精准地获取主题相关页面,进而保持较高的爬行准确率。 微信公众号马克数据网
申请人信息
- 申请人:吉林大学
- 申请人地址:130000 吉林省长春市前进大街2699号
- 发明人: 吉林大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于Word2Vec的主题爬虫系统和方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN201810422427.9 |
| 申请日 | 2018年5月5日 |
| 公告号 | CN108681571B |
| 公开日 | 2024年2月27日 |
| IPC主分类号 | G06F16/951 |
| 权利人 | 吉林大学 |
| 发明人 | 彭涛; 包铁; 宋健; 赫枫龄; 周世奇 |
| 地址 | 吉林省长春市长春高新技术产业开发区前进大街2699号 |
专利主权项内容
1.基于Word2Vec的主题爬虫系统,其特征在于,包括:种子配置模块、关键词模块、下载模块、解析模块、评分模块和存储模块;其中,所述种子配置模块依靠人工选取种子链接,将所述种子链接上传至服务器;所述关键词模块在浏览器中输入用于描述主题的关键词,然后进行近义词深度等级选择,进行关键词扩展;所述关键词模块利用脚本语言获取用户输入的关键词,交给PHP程序后通过SOCKET通信发送给处理程序进行处理,处理程序作为服务端始终处于监听状态,收到前台发送的关键词后,利用Word2Vec对关键词进行扩展,去重后重新发送给PHP程序,并再次利用脚本脚本将其显示在下方的文本域中;扩展后的关键词能直接在文本域中进行修改和添加,而且扩展关键词的过程是能重复的;所述下载模块,进行网页下载,并设置超时时间,响应时间大于所述超时时间放弃所述网页的下载,然后将下载的所述网页封装成Html对象;所述解析模块,从封装的网页提取信息,并将所述信息赋值给所述Html对象的各个属性;所述评分模块,用于一是对网页与主题的相关性给予评分以便筛选网页,二是对各个子链接进行相关性预测评分以便排序;网页被判断为主题相关后会进入所述存储模块,若网页被判断为主题无关则直接丢弃;而链接在评分之后会作为待抓取URL等待下一轮的下载;计算网页与主题的相关性采用TRCW模型;TRCW模型的具体公式如下:
;其中sim(Kd , Kt)用于计算网页D中某关键词和主题T中某关键词的相关度,k是网页中第i个关键词的影响因子,根据关键词的不同权值设定;公式是将网页的某个关键词分别和主题所有的关键词进行相关度比较,取最大的一个,然后乘以网页的该关键词的影响因子之后求和而得;i所述存储模块,有选择的存储网页的ID、链接、标题和正文;所述种子配置模块按行保存种子链接,利用PHP语言,通过POST方式将种子文件上传至服务器;上传后所述服务器判断文件类型,成功上传种子文件继续操作;所述种子文件上传成功后,新的所述种子文件替代所述服务器上原有的种子文件;所述的种子文件格式包括:txt、excel格式。