如果hadoop和hdfs局域网内连接有5台服务器每台服务器都有包含不同数据的日志文件有什么问题吗我需要用spark处理所有的日志文件。我需要加载所有的日志文件来启动和处理。我有一个想法,让hdfs集群,像每个服务器作为从属服务器(每个服务器作为从属服务器),请求每个从属服务器,获取日志文件并加载到spark。我是对的还是有更好的方法或者更好的技术。
gev0vcfq1#
假设有100个日志文件,每个节点在本地文件系统中有20个。你的问题是我应该把100个都装进spark吗?在运行spark之前,您需要将文件从本地文件系统加载到hdfs中(如果文件位于不同的节点中,您可以使用ssh或其他方法加载它们)。然后,执行spark程序,指定100个日志文件的hdfs位置。典型场景步骤:假设5台服务器(每台20台)中有100个日志文件,5台服务器是hadoop群集:步骤1:将文件加载到hdfs中。从所有5台服务器传播hdfs load命令。此时,当您尝试hdfs dfs-ls/path/to/logfiles时,您应该拥有所有100个文件步骤2:执行spark程序指向这个/path/to/logfiles位置。希望有帮助。
1条答案
按热度按时间gev0vcfq1#
假设有100个日志文件,每个节点在本地文件系统中有20个。你的问题是我应该把100个都装进spark吗?
在运行spark之前,您需要将文件从本地文件系统加载到hdfs中(如果文件位于不同的节点中,您可以使用ssh或其他方法加载它们)。然后,执行spark程序,指定100个日志文件的hdfs位置。
典型场景步骤:假设5台服务器(每台20台)中有100个日志文件,5台服务器是hadoop群集:
步骤1:将文件加载到hdfs中。从所有5台服务器传播hdfs load命令。此时,当您尝试hdfs dfs-ls/path/to/logfiles时,您应该拥有所有100个文件
步骤2:执行spark程序指向这个/path/to/logfiles位置。
希望有帮助。