← 返回列表

基于MapReduce的FTP分布式采集方法

申请号: CN201710012512.3
申请人: 上海轻维软件有限公司
申请日期: 2017年1月9日

摘要文本

本发明公开了一种基于MapReduce的FTP分布式采集方法,包括如下步骤:S1)预先配置好多台FTP服务器信息和日志文件路径,并将配置信息存储到Hadoop的HDFS中作为MapReduce的数据输入;S2)设置MapReduce的输入目录和Reduce任务数;S3)利用MapReduce将不同的日志记录分发到不同的HDFS集群节点进行处理;S4)每个HDFS集群节点读取到FTP服务器信息之后,使用账号密码连接FTP服务器,展开预先配置好的日志文件路径,通过IO流将文件写入到HDFS中,实现多个HDFS集群节点同时采集多台FTP服务器的日志信息。本发明能够提升采集速度并且简化维护工作。

专利详细信息

项目 内容
专利名称 基于MapReduce的FTP分布式采集方法
专利类型 发明授权
申请号 CN201710012512.3
申请日 2017年1月9日
公告号 CN106789324B
公开日 2024年3月22日
IPC主分类号 H04L41/069
权利人 上海轻维软件有限公司
发明人 程永新; 谢涛; 廖德辉
地址 上海市普陀区祁连山南路2891弄105号2811室

专利主权项内容

1.一种基于MapReduce的FTP分布式采集方法,其特征在于,包括如下步骤:S1) 预先配置好多台FTP服务器信息和日志文件路径,并将配置信息存储到Hadoop的HDFS中作为MapReduce的数据输入;S2) 设置MapReduce的输入目录和Reduce任务数;S3) 利用MapReduce将不同的日志记录分发到不同的HDFS集群节点进行处理;S4) 每个HDFS集群节点读取到FTP 服务器信息之后,使用账号密码连接FTP 服务器,展开预先配置好的日志文件路径,通过IO流将文件写入到HDFS中,实现多个HDFS集群节点同时采集多台FTP服务器的日志信息;所述步骤S1)将配置信息编写成文本信息,每一行对应一台FTP服务器,每一行文本包含FTP服务器IP、端口、账号、密码、日志路径和日志编号,所述日志编号按行依次采用1、2、3、…n等顺序排列,n为自然数;所述步骤S2)指定FTP服务器的台数为Reduce任务数,所述步骤S3)先将HDFS集群节点数和整型数的上限值进行与运算,再利用日志编号对Reduce任务数取余,然后采用Hadoop中的分区类HashPartitioner将不同的日志记录分发到不同的HDFS集群节点。