分离apachespark/databricks中的坏数据行

yzckvree  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(232)

我正在使用apachespark(通过databricks和scala)将一些数据从原始表单(在sql数据库中,但所有内容都是未清理的varchar)转换为结构化from(在另一个sql数据库中,但验证了正确的类型和值,等等)。
这通常工作正常,但许多内置的spark函数(例如。 .cast(IntegerType) )只会将不可解析的值设置为null。有没有办法将“坏”行记录下来并分开(以便进一步调查)?
注意,我不能只过滤空值,因为数据包含许多应该包含的有效空值。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题