我有一个dataframe列,其中包含s3对象的位置,我想使用pyspark的rdd.map获得这些s3对象的散列。当我运行下面的代码以获取新rdd中的哈希值时,会出现错误picklingerror:could not serialize object:typeerror:could not pickle sslcontext objects
下面是代码片段
# Dataframe of s3 objects location
df_of_location = df_original.select('LOCATION')
# Get hexhash of each object
rdd = df_of_location.rdd.map(lambda x: hashlib.sha1(s3.get_object(Bucket='bucektname', Key = x.asDict()["LOCATION"])['Body'].read()).hexdigest()))
for element in rdd.collect():
print(element)
我没有看到太多参考资料提到这个错误,想看看是否有人遇到过它
暂无答案!
目前还没有任何答案,快来回答吧!