我正在使用apachespark(通过databricks和scala)将一些数据从原始表单(在sql数据库中,但所有内容都是未清理的varchar)转换为结构化from(在另一个sql数据库中,但验证了正确的类型和值,等等)。
这通常工作正常,但许多内置的spark函数(例如。 .cast(IntegerType)
)只会将不可解析的值设置为null。有没有办法将“坏”行记录下来并分开(以便进一步调查)?
注意,我不能只过滤空值,因为数据包含许多应该包含的有效空值。
我正在使用apachespark(通过databricks和scala)将一些数据从原始表单(在sql数据库中,但所有内容都是未清理的varchar)转换为结构化from(在另一个sql数据库中,但验证了正确的类型和值,等等)。
这通常工作正常,但许多内置的spark函数(例如。 .cast(IntegerType)
)只会将不可解析的值设置为null。有没有办法将“坏”行记录下来并分开(以便进一步调查)?
注意,我不能只过滤空值,因为数据包含许多应该包含的有效空值。
暂无答案!
目前还没有任何答案,快来回答吧!