如何在pyspark代码中处理中文字符并应用utf8编码

ni65a41a 于 2021-05-29 发布在 Spark

关注(0)|答案(0)|浏览(927)

我想处理一个中文字符并将分割逻辑应用到rdd（aws-glue pyspark代码）。我用过 rdd.map(lambda x: x.decode("Big5-hkscs")) 用于解码以便可以应用适当的分割逻辑。但是我想在postgresql中用utf-8存储分割逻辑结果。有没有人能先帮助我了解编码/解码的具体功能，如果我使用decode（big5-hksc），那么如何在aws-glue-write-dataframe中使用utf8。

apache-spark pyspark character-encoding

来源：https://stackoverflow.com/questions/62391018/how-to-handle-chines-character-in-pyspark-code-and-apply-utf-8-encoding

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

如何在pyspark代码中处理中文字符并应用utf8编码

暂无答案！

相关问题

热门标签

最新问答