是否可以在ApacheFlume中加入很多文件?

jum4pzuy  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(371)

我们的服务器每时每刻都会收到很多文件。文件的大小非常小。大约10 mb。我们的管理层希望使用hadoop集群来分析和存储这些文件。但是在hadoop中存储小文件是不有效的。在hadoop或flume中是否有加入(生成一个大文件)这个文件的选项?非常感谢你的帮助。

carvr3hs

carvr3hs1#

我想到的是:
1) 使用flume的“假脱机目录源”。此源允许您通过将要接收的文件放入磁盘上的“假脱机”目录来接收数据。将文件写入该目录。
2) 使用您想要的Flume频道:“内存”或“文件”。两者各有利弊。
3) 使用hdfs接收器写入hdfs。
“spooling directory source”将在接收到文件后重命名该文件(或者可以选择删除)。数据还可以在崩溃或重启后保存。以下是文档:https://flume.apache.org/flumeuserguide.html#spooling-目录源

相关问题