如何在pyspark代码中处理中文字符并应用utf8编码

ni65a41a  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(927)

我想处理一个中文字符并将分割逻辑应用到rdd(aws-glue pyspark代码)。我用过 rdd.map(lambda x: x.decode("Big5-hkscs")) 用于解码以便可以应用适当的分割逻辑。但是我想在postgresql中用utf-8存储分割逻辑结果。有没有人能先帮助我了解编码/解码的具体功能,如果我使用decode(big5-hksc),那么如何在aws-glue-write-dataframe中使用utf8。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题