一种基于静态页面的网站动态标签解析方法
申请人信息
- 申请人:戎行技术有限公司
- 申请人地址:300000 天津市河北区铁东路街道志成路130号(自创区河北分园科技招商展示服务中心407-1室)
- 发明人: 戎行技术有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于静态页面的网站动态标签解析方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311748269.3 |
| 申请日 | 2023/12/19 |
| 公告号 | CN117454881B |
| 公开日 | 2024/3/8 |
| IPC主分类号 | G06F40/221 |
| 权利人 | 戎行技术有限公司 |
| 发明人 | 刘志雨; 赵志庆; 侯玉柱; 张昊; 靳学庚; 张雨铭威 |
| 地址 | 天津市河北区铁东路街道志成路130号(自创区河北分园科技招商展示服务中心407-1室) |
摘要文本
戎行技术有限公司取得“一种透气窗帘布”专利技术,本发明涉及网站动态标签解析领域,尤其涉及一种基于静态页面的网站动态标签解析方法,包括:S1、获取网站层级结构进行初始解析处理得到多层级静态页面;S2、利用所述多层级静态页面获取静态页面元素代码数据;S3、利用所述静态页面元素代码数据进行动态解析处理得到网站动态标签解析结果,通过对页面源码的提取再分配,优化了网站采集展现效果,同时动态解析标签,可兼容更复杂页面标签结构,在大型网站结构与长时间解析流程中,提升各时刻标签解析结果的准确性与实时性。
专利主权项内容
1.一种基于静态页面的网站动态标签解析方法,其特征在于,包括:S1、获取网站层级结构进行初始解析处理得到多层级静态页面;S1-1、采集网站对应开源页面;S1-2、利用所述网站对应开源页面得到网站层级结构;S1-3、根据所述层级结构进行全量获取处理得到网站层级结构的多层级静态页面;其中,所述多层级静态页面包括js文件与css样式表文件;S2、利用所述多层级静态页面获取静态页面元素代码数据;S2-1、根据所述多层级静态页面获取网站页面兼容数据;S2-1-1、判断所述多层级静态页面对应开源页面是否存在表格数据,若是,则提取开源页面的表格数据基于表格数据原始次序进行排列得到二次处理表格数据,并执行S2-1-2,否则,直接执行S2-1-2;S2-1-2、判断所述多层级静态页面对应开源页面是否存在文件数据,若是,则获取开源页面的文件数据对应下载地址,并执行S2-1-3,否则,直接执行S2-1-3;S2-1-3、判断所述多层级静态页面对应开源页面是否存在图片数据,若是,则执行S2-1-4,否则,利用所述二次处理表格数据与文件数据对应下载地址作为网站页面兼容数据;S2-1-4、判断所述图片数据与表格数据是否存在关联,若是,则利用所述图片数据插入二次处理表格数据得到三次处理表格数据作为网站页面兼容数据,否则,执行S2-1-5;S2-1-5、判断所述图片数据与文件数据是否存在关联,若是,则根据所述文件数据对应下载地址获取图片数据对应二级地址,并利用所述二次处理表格数据、文件数据对应下载地址与图片数据对应二级地址作为网站页面兼容数据,否则,利用所述二次处理表格数据、文件数据对应下载地址与图片数据对应下载地址作为网站页面兼容数据;S2-2、利用所述网站页面兼容数据根据多层级静态页面进行对位显示处理得到静态页面元素代码数据;S3、利用所述静态页面元素代码数据进行动态解析处理得到网站动态标签解析结果;S3-1、根据所述静态页面元素代码数据获取网站动态标签;S3-1-1、利用所述静态页面元素代码数据获取对应元素节点作为HTML标签;S3-1-2、判断所述HTML标签的数量是否为1,若是,则执行S3-1-3,否则,依次获取静态页面元素代码数据对应HTML标签的URL特征,并直接执行S3-1-4;S3-1-3、判断所述HTML标签的链接地址与网站对应开源页面的链接地址是否一致,若是,则利用所述HTML标签作为网站动态标签,否则,返回S3-1-1;S3-1-4、判断所述URL特征对应地址顺序与网站层级结构对应地址顺序是否完全一致,若是,则利用所述URL特征作为网站动态标签,否则,返回S1-1;S3-2、利用所述网站动态标签进行循环解析验证得到网站动态标签迭代结果;S3-2-1、判断所述网站动态标签是否为HTML标签,若是,则直接输出HTML标签为网站动态标签迭代结果,否则,执行S3-2-2;S3-2-2、判断所述网站动态标签与网站页面兼容数据是否逐级对应,若是,则利用所述网站动态标签的各URL特征与对应网站页面兼容数据的各子数据建立初次数据-地址映射,并执行S3-2-3,否则,进行循环验证处理;S3-2-3、利用当前网站对应开源页面的初次数据-地址映射作为数据基准;S3-2-4、判断所述网站层级结构是否发生变化,若是,则执行S3-2-5,否则,直接执行S3-2-6;S3-2-5、判断当前网站层级结构是否为相邻上一网站层级结构的子集,若是,则删除存在变化网站层级结构对应初次数据-地址映射,并执行S3-2-6,否则,返回S1-2;S3-2-6、利用所述数据基准作为当前时刻网站动态标签迭代结果;其中,所述逐级对应为网站动态标签的各URL特征与网站页面兼容数据中各子数据均为对应;S3-3、根据所述网站动态标签迭代结果进行回溯验证处理得到网站动态标签迭代结果的回溯验证结果;S3-3-1、判断当前时刻是否存在步骤返回处理,若是,则获取存在步骤返回处理的先置数据,并执行S3-3-2,否则,所述网站动态标签迭代结果的回溯验证结果为正常,并直接输出当前时刻对应网站动态标签迭代结果;S3-3-2、判断所述先置数据与回溯验证节点集是否均为对应,若是,则所述网站动态标签迭代结果的回溯验证结果为正常,并输出当前时刻对应网站动态标签迭代结果,否则,返回所述先置数据对应筛选步骤;其中,所述步骤返回处理为S3-3-1对应时刻的前置筛选返回步骤,所述回溯验证节点集依次包括网站对应开源页面;S3-4、根据所述回溯验证结果得到网站动态标签解析结果。。微信公众号马克 数据网