此问题在此处已有答案:
How to pass files to the master node?(1个答案)
四年前就关门了。
我正在用saveAsTextfile
在hdfs
中写一些文件,我想知道我是否可以读取它们,并在每个工作进程中有一个副本。用sc.TextFile
阅读它们会创建一个RDD
,所以我只能在每个工作进程中有一个分区。有没有其他方法可以做到这一点?也许以某种方式读取它到驱动程序并广播它?
此问题在此处已有答案:
How to pass files to the master node?(1个答案)
四年前就关门了。
我正在用saveAsTextfile
在hdfs
中写一些文件,我想知道我是否可以读取它们,并在每个工作进程中有一个副本。用sc.TextFile
阅读它们会创建一个RDD
,所以我只能在每个工作进程中有一个分区。有没有其他方法可以做到这一点?也许以某种方式读取它到驱动程序并广播它?
1条答案
按热度按时间ncecgwcz1#
编辑:如果文件足够小,您应该将文件下载到边缘节点,并使用--py-files/--files(分别为pyspark/spark)将其传递给所有执行器。
忽略此旧注解:
Yes generally we use broadcast if you want to have a small data available in all the executor nodes.