Flume实战

x33g5p2x  于2021-03-14 发布在 Flume  
字(1.3k)|赞(0)|评价(0)|浏览(664)

[warning] 实验环境:伪分布式环境

Flume的数据采集是通过编写配置文件的方式进行数据的定义和采集

[info] 实验流程

[info] (1)进入Flume的conf目录,编写配置文件

  1. # 1.进入Flume的conf
  2. cd /data/module/flume-1.7.0/conf
  3. # 2.创建a1.conf配置文件
  4. vi a1.conf
  5. # 3.添加以下内容进配置文件
  1. # 定义agent名,source、channel、sink的名称
  2. a1.sources = r1
  3. a1.channels = c1
  4. a1.sinks = k1
  5. # 具体定义source
  6. a1.sources.r1.type = spooldir
  7. a1.sources.r1.spoolDir = /data/software/testLog
  8. # 具体定义channel
  9. a1.channels.c1.type = memory
  10. a1.channels.c1.capacity = 10000
  11. a1.channels.c1.transactionCapacity = 100
  12. # 具体定义sink
  13. a1.sinks.k1.type = hdfs
  14. a1.sinks.k1.hdfs.path = hdfs://bigdata1:9000/flume/%y%m%d/%H
  15. #定义文件的类型为:DataStream,也就是纯文本
  16. a1.sinks.k1.hdfs.fileType = DataStream
  17. #数据暂存在内存中,满足任何一个条件就flush成一个小文件
  18. #不按照条数生成文件
  19. a1.sinks.k1.hdfs.rollCount = 0
  20. #HDFS上的文件达到32M是生成一个文件
  21. a1.sinks.k1.hdfs.rollSize = 33554432
  22. #HDFS上的文件达到60秒生成一个文件
  23. a1.sinks.k1.hdfs.rollInterval = 60
  24. a1.sinks.k1.hdfs.useLocalTimeStamp = true
  25. # 组装source、channel、sink
  26. a1.sources.r1.channels = c1
  27. a1.sinks.k1.channel = c1

[info] (2)创建日志采集目录

  1. # 创建日志采集目录/data/software/testLog
  2. mkdir -p /data/software/testLog

[info] (3)启动Hadoop服务

  1. # 1.数据采集到HDFS,所以需要开启Hadoop环境
  2. start-all.sh

:-:

[info] (4)启动日志采集配置文件

  1. # 1.进入flume项目
  2. cd /data/module/flume-1.7.0
  3. # 2.在fulume目录执行启动配置文件
  4. flume-ng agent -name a1 -c conf -f conf/a1.conf -Dflume.root.logger=INFO,console

[info] (5)模拟日志文件产生

:-:

  1. # 1.把这些日志文件一个一个分批次上传去虚拟机/data/software/testLog,模拟日志生成过程
  2. cd /data/software/testLog
  3. # 2.把日志文件上传到/data/software/testLog中,Flume服务实时监测到日志的产生会自动采集

:-:

:-:

[info] (6)在HDFS中检查生成的文件

:-:

:-:

相关文章

最新文章

更多