sparkDataframe处理损坏的记录

nzrxty8p 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(327)

在sparkDataframe中，如何处理损坏的记录？。事实上，我正在寻找损坏的记录应该保留到另一个文件以供以后查看。模式- DROPMALFORMED 选项将从数据集中删除损坏的记录。会有帮助的。

val data = sparkSession.read
                       .option("mode", "DROPMALFORMED")
                       .json("file:///C:/finances.json")

hadoop apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/53386128/spark-dataframe-handling-corrupted-record

1条答案

按热度按时间

svgewumm1#

如果你想坚持 corrupted 然后您可以将这些记录过滤到另一个Dataframe并将其写入文件。
这里的catch是使用permissive（默认）而不是dropmalformed模式，因为它会删除您希望捕获的损坏记录。
permissive：尝试分析所有行：为缺少的标记插入空值，并忽略多余的标记。
然后，根据你的腐败条款，你可以过滤行的腐败 null 价值观。

赞(0）回复(0）举报 2021-06-02

我来回答

sparkDataframe处理损坏的记录

1条答案

相关问题

热门标签

最新问答