← 返回列表
一种爬取数据的方法和装置
摘要文本
本发明公开了一种爬取数据的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:将结构化查询语句转换成语法树,所述语法树包括起始网页地址和解析规则;从所述语法树中获取起始网页地址,根据所述起始网页地址下载网页数据;从所述语法树中获取解析规则,根据所述解析规则解析所述网页数据,保存解析后的网页数据。该实施方式能够解决编码难度大、编码工作量大的问题。
申请人信息
- 申请人:京东科技控股股份有限公司
- 申请人地址:101111 北京市北京经济技术开发区科创十一街18号C座2层221室
- 发明人: 京东科技控股股份有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种爬取数据的方法和装置 |
| 专利类型 | 发明授权 |
| 申请号 | CN201810818727.9 |
| 申请日 | 2018年7月24日 |
| 公告号 | CN110851678B |
| 公开日 | 2024年2月2日 |
| IPC主分类号 | G06F16/951 |
| 权利人 | 京东科技控股股份有限公司 |
| 发明人 | 宋永忠; 张琪琦 |
| 地址 | 北京市大兴区北京经济技术开发区科创十一街18号C座2层221室 |
专利主权项内容
1.一种爬取数据的方法,其特征在于,包括:将结构化查询语句转换成语法树,所述语法树包括起始网页地址和解析规则;其中,所述结构化查询语句基于在爬虫平台的配置规则基础上抽象出根据指定的URL和解析规则进行爬取的标准SQL语法;从所述语法树中获取起始网页地址,根据所述起始网页地址下载网页数据;从所述语法树中获取解析规则,根据所述解析规则解析所述网页数据,保存解析后的网页数据。