将每个系统设置为数据节点并从每个系统获取数据

5lhxktic 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(342)

如果hadoop和hdfs
局域网内连接有5台服务器
每台服务器都有包含不同数据的日志文件
有什么问题吗
我需要用spark处理所有的日志文件。
我需要加载所有的日志文件来启动和处理。
我有一个想法，让hdfs集群，像每个服务器作为从属服务器（每个服务器作为从属服务器），请求每个从属服务器，获取日志文件并加载到spark。
我是对的还是有更好的方法或者更好的技术。

hadoop hdfs

来源：https://stackoverflow.com/questions/35358120/set-each-system-as-data-node-and-get-the-data-from-each

1条答案

按热度按时间

gev0vcfq1#

假设有100个日志文件，每个节点在本地文件系统中有20个。你的问题是我应该把100个都装进spark吗？
在运行spark之前，您需要将文件从本地文件系统加载到hdfs中（如果文件位于不同的节点中，您可以使用ssh或其他方法加载它们）。然后，执行spark程序，指定100个日志文件的hdfs位置。
典型场景步骤：假设5台服务器（每台20台）中有100个日志文件，5台服务器是hadoop群集：
步骤1：将文件加载到hdfs中。从所有5台服务器传播hdfs load命令。此时，当您尝试hdfs dfs-ls/path/to/logfiles时，您应该拥有所有100个文件
步骤2：执行spark程序指向这个/path/to/logfiles位置。
希望有帮助。

赞(0）回复(0）举报 2021-05-29

我来回答

将每个系统设置为数据节点并从每个系统获取数据

1条答案

相关问题

热门标签

最新问答