用于图像分类的hdfs图像Dataframe

2ic8powd 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(357)

我正在尝试使用python和spark编写一个图像分类算法。
我遵循这个教程，它取自官方的databricks文档，在本地运行时非常有效。
我现在的问题是，在集群上转移算法，我必须从hdfs上的两个文件夹中加载图像 .jpg 格式，我找不到一种方法来创建一个Dataframe的方式，它在本地完成的例子。
我正在寻找此代码的替代品：

from sparkdl import readImages
jobs_df = readImages(img_dir + "/jobs").withColumn("label", lit(1))

hadoop hdfs python apache-spark pyspark

来源：https://stackoverflow.com/questions/47874622/image-dataframe-from-hdfs-for-image-classification

1条答案

按热度按时间

4smxwvx51#

它应该和从本地读取文件差不多。
下面是来自库的实现。它在内部使用BinaryFilesAPI来加载二进制文件。api文档（binaryfiles）说它也支持hadoop文件系统。

rdd = sc.binaryFiles(path, minPartitions=numPartitions).repartition(numPartitions)

希望这有帮助。

赞(0）回复(0）举报 2021-05-29

我来回答

用于图像分类的hdfs图像Dataframe

1条答案

相关问题

热门标签

最新问答