← 返回列表

一种用于网站信息数据的综合采集分析方法

申请号: CN202311805252.7
申请人: 天津戎行集团有限公司
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 一种用于网站信息数据的综合采集分析方法
专利类型 发明授权
申请号 CN202311805252.7
申请日 2023/12/26
公告号 CN117473200B
公开日 2024/3/8
IPC主分类号 G06F16/958
权利人 天津戎行集团有限公司
发明人 赵志庆; 余毛猛; 董席峰; 侯玉柱; 张雨铭威
地址 天津市滨海新区滨海高新区华苑产业区海泰发展六道6号海泰绿色产业基地G座401室-26-14

摘要文本

天津戎行集团有限公司取得“一种透气窗帘布”专利技术,本发明涉及网站信息数据采集分析领域,尤其涉及一种用于网站信息数据的综合采集分析方法,包括:S1、根据网站对应类型获取网站信息数据得到信息数据采集配置;S2、根据所述信息数据采集配置进行数据采集得到基础网站信息数据;S3、利用所述基础网站信息数据根据网站通用特征得到网站信息数据的综合采集分析结果,通过语言项目分类,提高了对不同国家和语言网站的支持,并据此建立初步验证标签,为后续方案的多级验证打下基础,同时,可以根据需求自定义采集策略,更加灵活,有完善的错误处理和报警机制,确保方案的稳定自循环运行,最终形成一个闭环的实施方案,提高了数据采集分析的效率。

专利主权项内容

1.一种用于网站信息数据的综合采集分析方法,其特征在于,包括:S1、根据网站对应类型获取网站信息数据得到信息数据采集配置;S1-1、获取网站的语言类型作为初始采集标签;S1-2、根据所述初始采集标签进行合规性验证建立信息数据采集通用配置;S1-2-1、根据所述初始采集标签获取网络服务器地址;S1-2-2、判断所述网络服务器地址的通讯状态是否正常,若是,则执行S1-2-3,否则,放弃处理;S1-2-3、判断所述网络服务器地址的通讯线路是否存在网络代理,若是,则获取所述网络代理对应网络代理类型与网络代理地址作为信息数据采集通用预配置,并执行S1-2-4,否则,直接执行S1-2-5;S1-2-4、利用所述信息数据采集通用预配置与初始采集标签对应网络通信协议作为信息数据采集通用配置;S1-2-5、利用所述初始采集标签对应网络通信协议作为信息数据采集通用配置;S1-3、利用所述初始采集标签与信息数据采集通用配置作为信息数据采集配置;S2、根据所述信息数据采集配置进行数据采集得到基础网站信息数据;S2-1、根据所述信息数据采集配置进行数据采集得到初始网站信息数据;S2-2、利用所述初始网站信息数据进行交叉验证得到基础网站信息数据;S3、利用所述基础网站信息数据根据网站通用特征得到网站信息数据的综合采集分析结果;S3-1、利用所述基础网站信息数据建立基础网站信息数据库;S3-2、根据所述基础网站信息数据库进行顺序输出得到时序性输出数据;S3-3、根据所述信息数据采集配置建立对应网站通用特征;S3-4、利用所述时序性输出数据根据网站通用特征得到网站信息数据的综合采集分析结果。 来自马-克-数-据-官网