我无法从sparkDataframe检索图像。我用的是Pypark。
以下代码用于加载图像:
sparkDf = spark.read.format("image").option("dropInvalid", True).load("image_folder")
然后,我使用opencv将图像数据(bytearray格式)转换回jpg:
# create a list of all the images in bytearray format
mylist = sparkDf.collect()
# get a numpy array from the bytearray of the first image, "data" is the column name in the spark dataframe
flatNumpyArray = np.array(mylist[0].asDict()["data"])
# write the image in the folder
cv2.imwrite('image_folder/transformed_image.jpg', flatNumpyArray)
但图像已损坏,无法读取。一旦我能够正确地检索图像,那么我就可以创建一个管道来对图像进行必要的转换。我走对了吗?
我也尝试了pil来获得图像,但没有工作。以下是相同的代码:
image = Image.open(io.BytesIO(mylist[0].asDict()["data"]))
image.save('image_folder/transformed_image.jpg')
暂无答案!
目前还没有任何答案,快来回答吧!