← 返回列表

一种基于爬虫的社交网络数据采集系统

申请号: CN202311774815.0
申请人: 武汉威克睿特科技有限公司
申请日期: 2023/12/22

摘要文本

本发明属于数据处理领域,公开了一种基于爬虫的社交网络数据采集系统,包括爬取间隔计算模块、爬取模块和存储模块;爬取间隔计算模块用于计算爬取间隔;爬取模块用于基于爬取间隔对目标用户发布信息的主页进行爬取,得到网页数据;存储模块用于对网页数据进行存储;爬取间隔计算模块包括参数更新单元、网页数据分析单元和计算单元;参数更新单元用于获取网络延迟;网页数据分析单元用于基于预设时间段内爬取所得到的网页数据获取用户发布信息的发布时间的集合和发布的信息所占用的空间的集合;计算单元用于计算爬取间隔。本发明能够在及时获取目标用户在社交网络中发布的信息的同时,避免过于密集地对目标用户发布信息的主页进行数据爬取。

专利详细信息

项目 内容
专利名称 一种基于爬虫的社交网络数据采集系统
专利类型 发明申请
申请号 CN202311774815.0
申请日 2023/12/22
公告号 CN117725284A
公开日 2024/3/19
IPC主分类号 G06F16/951
权利人 武汉威克睿特科技有限公司
发明人 黄春燕; 郑志亮; 彭高山
地址 湖北省武汉市东湖新技术开发区高新大道770号光谷科技大厦B栋5层503室(自贸区武汉片区)

专利主权项内容

1.一种基于爬虫的社交网络数据采集系统,其特征在于,包括爬取间隔计算模块、爬取模块和存储模块;爬取间隔计算模块用于计算爬取间隔;爬取模块用于基于爬取间隔对目标用户发布信息的主页进行爬取,得到网页数据;存储模块用于对网页数据进行存储;其中,爬取间隔计算模块包括参数更新单元、网页数据分析单元和计算单元;参数更新单元用于在计算爬取间隔时,对目标用户的主页进行访问,获得网络延迟;网页数据分析单元用于在计算爬取间隔时,对预设时间段内爬取所得到的网页数据进行分析,得到用户发布信息的发布时间的集合和发布的信息所占用的空间的集合;计算单元用于采用如下公式计算爬取间隔:crawitr和crawitr分别表示第q+1次和第q次计算爬取间隔时得到的爬取间隔;lat和lat分别表示第q+1次和第q次计算爬取间隔时所得到的网络延迟;获取预设时间段内每次爬取所得到的网页数据的发布时间,将发布时间从早到晚进行排序,得到集合timeU;reltim和reltim分别表示第一时间长度和第二时间长度;reltim=actim-actim,reltim=actim-actim;K表示timeU中的发布时间的总数,actim、actim和actim分别表示timeU中的第K个、第K-1个和第K-2个发布时间;spa和spa分别表示发布时间为actim和actim的网页数据的大小,w、w和w分别表示网络延迟的权重、时间长度的权重和数据大小的权重。q+1qq+1qq+1, 1q+1, 2q+1, 1KK-1q+1, 2K-1K-2KK-1K-2q+1, 1q+1, 2KK-1123