dataframe—在读取csv时，spark、scala中的最后一列为空

dauxcl2d 于 2021-05-27 发布在 Spark

关注(0)|答案(2)|浏览(703)

当我尝试使用spark和scala读取管道分隔文件时，如下所示：

1|Consumer Goods|101|
2|Marketing|102|

我正在使用命令：

val part = spark.read
    .format("com.databricks.spark.csv")
    .option("delimiter","|")
    .load("file_name")

我得到的结果是：

+---+--------------+---+----+
|_c0|           _c1|_c2| _c3|
+---+--------------+---+----+
|  1|Consumer Goods|101|null|
|  2|     Marketing|102|null|
+---+--------------+---+----+

spark正在读取源文件中不存在的最后一列，因为分隔符被称为管道。有没有其他方法可以让我得到以下结果：

+---+--------------+---+
|_c0|           _c1|_c2|
+---+--------------+---+
|  1|Consumer Goods|101|
|  2|     Marketing|102|
+---+--------------+---+

scala DataFrame apache-spark pyspark csv

来源：https://stackoverflow.com/questions/63869125/while-reading-csv-last-column-is-coming-as-null-in-spark-scala

2条答案

按热度按时间

1szpjjfi1#

您可以使用以下选项

df.drop(df.columns(0)) -- for dropping last column in scala
df.drop(df.columns[-1]) -- for dropping last column in pyspark

赞(0）回复(0）举报 2021-05-27

kninwzqo2#

一种解决方案是简单地删除最后一列，如下所示：

part
  .select(part.columns.dropRight(1).map(col) : _*)
  .show(false)
+---+--------------+---+
|_c0|_c1           |_c2|
+---+--------------+---+
|1  |Consumer Goods|101|
|2  |Marketing     |102|
+---+--------------+---+

另一种解决方案是将文件作为文本文件读取，然后像这样自己拆分：

val text = spark.read.text("file_name")
// Note that the split functions in java/scala/spark ignores a separator that ends
// a string, but that one that starts one
val size = text.head.getAs[String]("value").split("\\|").size
text
  .withColumn("value", split('value, "\\|"))
  .select((0 until size).map(i => 'value getItem i as s"_c$i") : _*)
  .show(false)
+---+--------------+---+
|_c0|_c1           |_c2|
+---+--------------+---+
|1  |Consumer Goods|101|
|2  |Marketing     |102|
+---+--------------+---+

展开查看全部

赞(0）回复(0）举报 2021-05-27

我来回答

dataframe—在读取csv时，spark、scala中的最后一列为空

2条答案

相关问题

热门标签

最新问答