spark无法在类型溢出期间以更高的精度推断类型

mm5n2pyu 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(520)

我正试着这样做

val df = Seq((50984908,1000)).toDF("x","y")
val myExpression = "x * y"
df.withColumn("z",expr(myExpression)).show()

我可以看到它导致整数溢出，它不会被转换为long

+--------+----+----------+
|       x|   y|         z|
+--------+----+----------+
|50984908|1000|-554699552|
+--------+----+----------+

有没有人能提供一些建议来避免这些溢出？有没有一种方法可以让spark自动正确地推断出类型的更高精度（例如：integer->long），（float->double/bigdecimal）？

scala apache-spark

来源：https://stackoverflow.com/questions/63398185/spark-not-able-to-infer-types-to-higher-precision-during-type-overflows

1条答案

按热度按时间

8gsdolmq1#

在scala中，可以通过添加 L 后缀。如果这样做，类型将正确推断为 Long :

val df = Seq((50984908L,1000L)).toDF("x","y")
val myExpression = "x * y"
df.withColumn("z",expr(myExpression)).show()

如果需要对列类型进行更多控制，也可以使用函数 createDataFrame :

import org.apache.spark.sql.types._
import org.apache.spark.sql.Row
val someData = Seq(
  Row(50984908L, 1000L)
)
val myExpression = "x * y"
val someSchema = List(
  StructField("x", LongType, true),
  StructField("y", LongType, true)
)
val df = spark.createDataFrame(
  spark.sparkContext.parallelize(someData),
  StructType(someSchema)
)
df.withColumn("z",expr(myExpression)).show()

展开查看全部

赞(0）回复(0）举报 2021-05-27

我来回答

spark无法在类型溢出期间以更高的精度推断类型

1条答案

相关问题

热门标签

最新问答