我们的服务器每时每刻都会收到很多文件。文件的大小非常小。大约10 mb。我们的管理层希望使用hadoop集群来分析和存储这些文件。但是在hadoop中存储小文件是不有效的。在hadoop或flume中是否有加入(生成一个大文件)这个文件的选项?非常感谢你的帮助。
carvr3hs1#
我想到的是:1) 使用flume的“假脱机目录源”。此源允许您通过将要接收的文件放入磁盘上的“假脱机”目录来接收数据。将文件写入该目录。2) 使用您想要的Flume频道:“内存”或“文件”。两者各有利弊。3) 使用hdfs接收器写入hdfs。“spooling directory source”将在接收到文件后重命名该文件(或者可以选择删除)。数据还可以在崩溃或重启后保存。以下是文档:https://flume.apache.org/flumeuserguide.html#spooling-目录源
1条答案
按热度按时间carvr3hs1#
我想到的是:
1) 使用flume的“假脱机目录源”。此源允许您通过将要接收的文件放入磁盘上的“假脱机”目录来接收数据。将文件写入该目录。
2) 使用您想要的Flume频道:“内存”或“文件”。两者各有利弊。
3) 使用hdfs接收器写入hdfs。
“spooling directory source”将在接收到文件后重命名该文件(或者可以选择删除)。数据还可以在崩溃或重启后保存。以下是文档:https://flume.apache.org/flumeuserguide.html#spooling-目录源