sparkDataframe处理损坏的记录

nzrxty8p  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(326)

在sparkDataframe中,如何处理损坏的记录?。事实上,我正在寻找损坏的记录应该保留到另一个文件以供以后查看。模式- DROPMALFORMED 选项将从数据集中删除损坏的记录。会有帮助的。

val data = sparkSession.read
                       .option("mode", "DROPMALFORMED")
                       .json("file:///C:/finances.json")
svgewumm

svgewumm1#

如果你想坚持 corrupted 然后您可以将这些记录过滤到另一个Dataframe并将其写入文件。
这里的catch是使用permissive(默认)而不是dropmalformed模式,因为它会删除您希望捕获的损坏记录。
permissive:尝试分析所有行:为缺少的标记插入空值,并忽略多余的标记。
然后,根据你的腐败条款,你可以过滤行的腐败 null 价值观。

相关问题