我正在尝试使用pyarrow将json文件保存在HDFS中。下面是我的代码。
from pyarrow import hdfs
fs = hdfs.connect(driver='libhdfs')
with fs.open(outputFileVal1, 'wb') as fp:
json.dump(list(value1set), fp)
这会产生错误消息TypeError: a bytes-like object is required, not 'str'
当我尝试joblib.dump或pickle.dump时,它可以工作,但是它不能保存为json格式。有没有办法用pyarrow将json文件直接保存到hdfs中?
1条答案
按热度按时间w6mmgewl1#
看起来您可能需要使用一个 Package 器,它使用
chunk.encode('utf8')
将json.dump
写入的数据编码为二进制。然后你就可以写