HDFS 我可以在Spark的每个工人中拥有一份文件副本吗?[duplicate]

os8fio9y  于 2022-12-09  发布在  HDFS
关注(0)|答案(1)|浏览(225)

此问题在此处已有答案

How to pass files to the master node?(1个答案)
四年前就关门了。
我正在用saveAsTextfilehdfs中写一些文件,我想知道我是否可以读取它们,并在每个工作进程中有一个副本。用sc.TextFile阅读它们会创建一个RDD,所以我只能在每个工作进程中有一个分区。有没有其他方法可以做到这一点?也许以某种方式读取它到驱动程序并广播它?

ncecgwcz

ncecgwcz1#

编辑:如果文件足够小,您应该将文件下载到边缘节点,并使用--py-files/--files(分别为pyspark/spark)将其传递给所有执行器。
忽略此旧注解:Yes generally we use broadcast if you want to have a small data available in all the executor nodes.

相关问题