基于MapReduce的FTP分布式采集方法
摘要文本
本发明公开了一种基于MapReduce的FTP分布式采集方法,包括如下步骤:S1)预先配置好多台FTP服务器信息和日志文件路径,并将配置信息存储到Hadoop的HDFS中作为MapReduce的数据输入;S2)设置MapReduce的输入目录和Reduce任务数;S3)利用MapReduce将不同的日志记录分发到不同的HDFS集群节点进行处理;S4)每个HDFS集群节点读取到FTP服务器信息之后,使用账号密码连接FTP服务器,展开预先配置好的日志文件路径,通过IO流将文件写入到HDFS中,实现多个HDFS集群节点同时采集多台FTP服务器的日志信息。本发明能够提升采集速度并且简化维护工作。
申请人信息
- 申请人:上海轻维软件有限公司
- 申请人地址:200331 上海市普陀区祁连山南路2891弄105号2811室
- 发明人: 上海轻维软件有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于MapReduce的FTP分布式采集方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN201710012512.3 |
| 申请日 | 2017年1月9日 |
| 公告号 | CN106789324B |
| 公开日 | 2024年3月22日 |
| IPC主分类号 | H04L41/069 |
| 权利人 | 上海轻维软件有限公司 |
| 发明人 | 程永新; 谢涛; 廖德辉 |
| 地址 | 上海市普陀区祁连山南路2891弄105号2811室 |
专利主权项内容
1.一种基于MapReduce的FTP分布式采集方法,其特征在于,包括如下步骤:S1) 预先配置好多台FTP服务器信息和日志文件路径,并将配置信息存储到Hadoop的HDFS中作为MapReduce的数据输入;S2) 设置MapReduce的输入目录和Reduce任务数;S3) 利用MapReduce将不同的日志记录分发到不同的HDFS集群节点进行处理;S4) 每个HDFS集群节点读取到FTP 服务器信息之后,使用账号密码连接FTP 服务器,展开预先配置好的日志文件路径,通过IO流将文件写入到HDFS中,实现多个HDFS集群节点同时采集多台FTP服务器的日志信息;所述步骤S1)将配置信息编写成文本信息,每一行对应一台FTP服务器,每一行文本包含FTP服务器IP、端口、账号、密码、日志路径和日志编号,所述日志编号按行依次采用1、2、3、…n等顺序排列,n为自然数;所述步骤S2)指定FTP服务器的台数为Reduce任务数,所述步骤S3)先将HDFS集群节点数和整型数的上限值进行与运算,再利用日志编号对Reduce任务数取余,然后采用Hadoop中的分区类HashPartitioner将不同的日志记录分发到不同的HDFS集群节点。