将每个系统设置为数据节点并从每个系统获取数据

5lhxktic  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(342)

如果hadoop和hdfs
局域网内连接有5台服务器
每台服务器都有包含不同数据的日志文件
有什么问题吗
我需要用spark处理所有的日志文件。
我需要加载所有的日志文件来启动和处理。
我有一个想法,让hdfs集群,像每个服务器作为从属服务器(每个服务器作为从属服务器),请求每个从属服务器,获取日志文件并加载到spark。
我是对的还是有更好的方法或者更好的技术。

gev0vcfq

gev0vcfq1#

假设有100个日志文件,每个节点在本地文件系统中有20个。你的问题是我应该把100个都装进spark吗?
在运行spark之前,您需要将文件从本地文件系统加载到hdfs中(如果文件位于不同的节点中,您可以使用ssh或其他方法加载它们)。然后,执行spark程序,指定100个日志文件的hdfs位置。
典型场景步骤:假设5台服务器(每台20台)中有100个日志文件,5台服务器是hadoop群集:
步骤1:将文件加载到hdfs中。从所有5台服务器传播hdfs load命令。此时,当您尝试hdfs dfs-ls/path/to/logfiles时,您应该拥有所有100个文件
步骤2:执行spark程序指向这个/path/to/logfiles位置。
希望有帮助。

相关问题