s3 getobject pyspark picklingerror:无法序列化对象:typeerror:无法pickle sslcontext对象

pxiryf3j  于 2021-05-26  发布在  Spark
关注(0)|答案(0)|浏览(386)

我有一个dataframe列,其中包含s3对象的位置,我想使用pyspark的rdd.map获得这些s3对象的散列。当我运行下面的代码以获取新rdd中的哈希值时,会出现错误picklingerror:could not serialize object:typeerror:could not pickle sslcontext objects
下面是代码片段


# Dataframe of s3 objects location

df_of_location = df_original.select('LOCATION')

# Get hexhash of each object

rdd = df_of_location.rdd.map(lambda x: hashlib.sha1(s3.get_object(Bucket='bucektname', Key = x.asDict()["LOCATION"])['Body'].read()).hexdigest()))

for element in rdd.collect():
    print(element)

我没有看到太多参考资料提到这个错误,想看看是否有人遇到过它

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题