← 返回列表

一种爬取数据的方法和装置

申请号: CN201810818727.9
申请人: 京东科技控股股份有限公司
申请日期: 2018年7月24日

摘要文本

本发明公开了一种爬取数据的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:将结构化查询语句转换成语法树,所述语法树包括起始网页地址和解析规则;从所述语法树中获取起始网页地址,根据所述起始网页地址下载网页数据;从所述语法树中获取解析规则,根据所述解析规则解析所述网页数据,保存解析后的网页数据。该实施方式能够解决编码难度大、编码工作量大的问题。

专利详细信息

项目 内容
专利名称 一种爬取数据的方法和装置
专利类型 发明授权
申请号 CN201810818727.9
申请日 2018年7月24日
公告号 CN110851678B
公开日 2024年2月2日
IPC主分类号 G06F16/951
权利人 京东科技控股股份有限公司
发明人 宋永忠; 张琪琦
地址 北京市大兴区北京经济技术开发区科创十一街18号C座2层221室

专利主权项内容

1.一种爬取数据的方法,其特征在于,包括:将结构化查询语句转换成语法树,所述语法树包括起始网页地址和解析规则;其中,所述结构化查询语句基于在爬虫平台的配置规则基础上抽象出根据指定的URL和解析规则进行爬取的标准SQL语法;从所述语法树中获取起始网页地址,根据所述起始网页地址下载网页数据;从所述语法树中获取解析规则,根据所述解析规则解析所述网页数据,保存解析后的网页数据。