在sparkDataframe中,如何处理损坏的记录?。事实上,我正在寻找损坏的记录应该保留到另一个文件以供以后查看。模式- DROPMALFORMED
选项将从数据集中删除损坏的记录。会有帮助的。
val data = sparkSession.read
.option("mode", "DROPMALFORMED")
.json("file:///C:/finances.json")
在sparkDataframe中,如何处理损坏的记录?。事实上,我正在寻找损坏的记录应该保留到另一个文件以供以后查看。模式- DROPMALFORMED
选项将从数据集中删除损坏的记录。会有帮助的。
val data = sparkSession.read
.option("mode", "DROPMALFORMED")
.json("file:///C:/finances.json")
1条答案
按热度按时间svgewumm1#
如果你想坚持
corrupted
然后您可以将这些记录过滤到另一个Dataframe并将其写入文件。这里的catch是使用permissive(默认)而不是dropmalformed模式,因为它会删除您希望捕获的损坏记录。
permissive:尝试分析所有行:为缺少的标记插入空值,并忽略多余的标记。
然后,根据你的腐败条款,你可以过滤行的腐败
null
价值观。