我正在尝试使用python和spark编写一个图像分类算法。
我遵循这个教程,它取自官方的databricks文档,在本地运行时非常有效。
我现在的问题是,在集群上转移算法,我必须从hdfs上的两个文件夹中加载图像 .jpg
格式,我找不到一种方法来创建一个Dataframe的方式,它在本地完成的例子。
我正在寻找此代码的替代品:
from sparkdl import readImages
jobs_df = readImages(img_dir + "/jobs").withColumn("label", lit(1))
1条答案
按热度按时间4smxwvx51#
它应该和从本地读取文件差不多。
下面是来自库的实现。它在内部使用BinaryFilesAPI来加载二进制文件。api文档(binaryfiles)说它也支持hadoop文件系统。
希望这有帮助。