我尝试读取保存在UNIX本地文件系统中的CSV文件,但在集群模式下运行时,找不到CSV文件。在本地模式下,它可以读取HDFS和file:///文件,但在集群模式下,它只能读取HDFS文件。有没有合适的方法来读取而不复制到HDFS?
ntjbwcob1#
请记住,执行者需要能够访问文件,因此您必须从执行者节点处表明立场。正如您提到的HDFS,这意味着执行者节点必须能够访问您的HDFS集群。如果您希望Spark集群访问本地文件,请考虑NFS/SMB等。但是,某些东西最终会复制数据。如果您对您的体系结构添加更多详细信息,我可以更新我的答案。
1条答案
按热度按时间ntjbwcob1#
请记住,执行者需要能够访问文件,因此您必须从执行者节点处表明立场。正如您提到的HDFS,这意味着执行者节点必须能够访问您的HDFS集群。
如果您希望Spark集群访问本地文件,请考虑NFS/SMB等。但是,某些东西最终会复制数据。
如果您对您的体系结构添加更多详细信息,我可以更新我的答案。