← 返回列表
一种自定义的可视化爬虫配置方法
摘要文本
本发明提供一种自定义的可视化爬虫配置方法,包括:基于获取的若干个测试网页,按照预设若干个第一规则进行可视化爬虫,生成可视化爬虫结果;基于可视化爬虫结果的评估结果,对若干个第一规则进行筛选整合并进行应用定义,生成可视化爬虫规则模型;基于可视化爬虫规则模型,对目标网页执行爬取操作。本发明通过对测试网页进行爬虫测试,并根据对爬虫测试结果的评估,获得爬取规则,根据整合爬取规则后生成的可视化爬虫规则模型进行爬取操作,提高了爬取规则的应用灵活性和爬取的质量,有利于可视化爬虫技术的高效灵活使用。
申请人信息
- 申请人:北京东方通网信科技有限公司
- 申请人地址:100000 北京市海淀区中关村南大街2号1号楼19层A座2201
- 发明人: 北京东方通网信科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种自定义的可视化爬虫配置方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311457062.0 |
| 申请日 | 2023/11/3 |
| 公告号 | CN117633324A |
| 公开日 | 2024/3/1 |
| IPC主分类号 | G06F16/951 |
| 权利人 | 北京东方通网信科技有限公司 |
| 发明人 | 黄永军; 蔺思涛; 高红彦; 赵永杰; 陈乔; 周俊; 谢学勤; 陆正松 |
| 地址 | 北京市海淀区中关村南大街2号1号楼19层A座2201 |
专利主权项内容
1.一种自定义的可视化爬虫配置方法,其特征在于,包括:S1:基于获取的若干个测试网页,按照预设若干个第一规则进行可视化爬虫,生成可视化爬虫结果;S2:基于可视化爬虫结果的评估结果,对若干个第一规则进行筛选整合并进行应用定义,生成可视化爬虫规则模型;S3:基于可视化爬虫规则模型,对目标网页执行爬取操作。