← 返回列表

一种面向多数据源的数据采集方法与系统

申请号: CN202410110066.X
申请人: 中国人民解放军军事科学院系统工程研究院
申请日期: 2024/1/26

摘要文本

本发明提出一种面向多数据源的数据采集方法与系统,属于数据处理技术领域。所述方法基于数据采集系统对来自多数据源的数据进行爬取,所述数据采集系统包括任务模块、数据采集模块、IP调度模块、监控模块、数据清洗模块和数据持久化模块。所述任务模块根据所述来自多数据源的数据生成数据采集任务并维持任务队列,同时获取所述来自多数据源的数据的数据类型,基于所述数据类型配置数据采集模板;所述数据采集模块从所述任务队列中获取数据采集任务,选取经配置的所述数据采集模板,使用来自所述IP调度模块的IP地址,并通过爬虫从所述来自多数据源的数据中爬取有效数据。

专利详细信息

项目 内容
专利名称 一种面向多数据源的数据采集方法与系统
专利类型 发明申请
申请号 CN202410110066.X
申请日 2024/1/26
公告号 CN117633329A
公开日 2024/3/1
IPC主分类号 G06F16/951
权利人 中国人民解放军军事科学院系统工程研究院
发明人 唐乐乐; 张梅; 郭振; 宋超; 李静姝; 王士强
地址 北京市丰台区大成路13号

专利主权项内容

1.一种面向多数据源的数据采集方法,其特征在于:所述方法基于数据采集系统对来自多数据源的数据进行爬取,所述数据采集系统包括任务模块、数据采集模块、IP调度模块、监控模块、数据清洗模块和数据持久化模块;所述方法具体包括:步骤S1、所述任务模块根据所述来自多数据源的数据生成数据采集任务并维持任务队列,同时获取所述来自多数据源的数据的数据类型,基于所述数据类型配置数据采集模板;步骤S2、所述数据采集模块从所述任务队列中获取数据采集任务,选取经配置的所述数据采集模板,使用来自所述IP调度模块的IP地址,并通过爬虫从所述来自多数据源的数据中爬取有效数据;其中,所述IP调度模块为每个数据源维持一个IP队列,所述IP队列中的各个IP地址基于优先级从高到低的顺序进行排序,所述各个IP地址来自于IP池;其中,所述监控模块周期性地检查所述爬虫的运行状态信息,以监控所述爬虫的运行状态;步骤S3、所述数据清洗模块利用与所述数据类型对应的数据清洗方式,对所述有效数据进行清洗以得到结构化信息,所述结构化信息存储在所述数据持久化模块中。