HDFS 在集群模式下使用Java读取保存在本地的Spark中的CSV文件

np8igboo  于 2022-12-09  发布在  HDFS
关注(0)|答案(1)|浏览(213)

我尝试读取保存在UNIX本地文件系统中的CSV文件,但在集群模式下运行时,找不到CSV文件。
在本地模式下,它可以读取HDFS和file:///文件,但在集群模式下,它只能读取HDFS文件。
有没有合适的方法来读取而不复制到HDFS?

ntjbwcob

ntjbwcob1#

请记住,执行者需要能够访问文件,因此您必须从执行者节点处表明立场。正如您提到的HDFS,这意味着执行者节点必须能够访问您的HDFS集群。
如果您希望Spark集群访问本地文件,请考虑NFS/SMB等。但是,某些东西最终会复制数据。
如果您对您的体系结构添加更多详细信息,我可以更新我的答案。

相关问题