pyspark 数据块自动加载器写入列名中包含无效字符的数据

5w9g7ksd  于 2022-11-21  发布在  Spark
关注(0)|答案(1)|浏览(161)

尝试使用databricks的自动加载器写入数据时,嵌套列包含无效字符

Found invalid character(s) among " ,;{}()\n\t=" in the column names of your schema.

如何处理这个问题?请再次注意,是嵌套列的问题,而不是最外层的列本身的问题。最外层的列很容易通过

for col in df.columns:
    df = df.select([col(c).alias(re.sub("[^0-9a-zA-Z\_]+","",c)) for c in df.columns])

如何到达尚未分解的嵌套列?

vc9ivgsu

vc9ivgsu1#

如果您正在给Delta Lake写信,您可以使用列Map来解决此问题。

相关问题