← 返回列表

一种自定义的可视化爬虫配置方法

申请号: CN202311457062.0
申请人: 北京东方通网信科技有限公司
申请日期: 2023/11/3

摘要文本

本发明提供一种自定义的可视化爬虫配置方法,包括:基于获取的若干个测试网页,按照预设若干个第一规则进行可视化爬虫,生成可视化爬虫结果;基于可视化爬虫结果的评估结果,对若干个第一规则进行筛选整合并进行应用定义,生成可视化爬虫规则模型;基于可视化爬虫规则模型,对目标网页执行爬取操作。本发明通过对测试网页进行爬虫测试,并根据对爬虫测试结果的评估,获得爬取规则,根据整合爬取规则后生成的可视化爬虫规则模型进行爬取操作,提高了爬取规则的应用灵活性和爬取的质量,有利于可视化爬虫技术的高效灵活使用。

专利详细信息

项目 内容
专利名称 一种自定义的可视化爬虫配置方法
专利类型 发明申请
申请号 CN202311457062.0
申请日 2023/11/3
公告号 CN117633324A
公开日 2024/3/1
IPC主分类号 G06F16/951
权利人 北京东方通网信科技有限公司
发明人 黄永军; 蔺思涛; 高红彦; 赵永杰; 陈乔; 周俊; 谢学勤; 陆正松
地址 北京市海淀区中关村南大街2号1号楼19层A座2201

专利主权项内容

1.一种自定义的可视化爬虫配置方法,其特征在于,包括:S1:基于获取的若干个测试网页,按照预设若干个第一规则进行可视化爬虫,生成可视化爬虫结果;S2:基于可视化爬虫结果的评估结果,对若干个第一规则进行筛选整合并进行应用定义,生成可视化爬虫规则模型;S3:基于可视化爬虫规则模型,对目标网页执行爬取操作。