筛选导致spark中数据类型解析问题的行

hiz5n14c 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(432)

我有一个spark数据框，其列salary如下所示：

|Salary|
|"100"|
|"200"|
|"abc"|

dafault数据类型是string。我想把它转换成整数，去掉那些引起解析问题的行。
期望输出

|Salary|
|100|
|200|

有人可以让我知道过滤的行，这将导致数据类型解析问题的代码。提前谢谢。

scala apache-spark

来源：https://stackoverflow.com/questions/63912908/filtering-rows-which-are-causing-datatype-parsing-issue-in-spark

1条答案

按热度按时间

y53ybaqx1#

可以使用正则表达式过滤所需字段，然后强制转换列：

import org.apache.spark.sql.types._    

df.filter(row => row.getAs[String]("Salary").matches("""\d+"""))
  .withColumn("Salary", $"Salary".cast(IntegerType))

如果您不喜欢regex，也可以使用try：

import scala.util._

df.filter(row => Try(row.getAs[String]("Salary").toInt).isSuccess)
  .withColumn("Salary", $"Salary".cast(IntegerType))

赞(0）回复(0）举报 2021-05-27

我来回答

筛选导致spark中数据类型解析问题的行

1条答案

相关问题

热门标签

最新问答