如何从数组[strings]创建Dataframe？

vddsk6oq 于 2021-05-17 发布在 Spark

关注(0)|答案(2)|浏览(556)

我使用rdd.collect（）创建了一个数组，现在我想使用这个数组[strings]创建一个Dataframe。我的测试文件采用以下格式（用管道|分隔）。

TimeStamp
IdC
Name
FileName
Start-0f-fields
column01  
column02 
column03 
column04 
column05 
column06 
column07 
column08 
column010 
column11
End-of-fields
Start-of-data 
G0002B|0|13|IS|LS|Xys|Xyz|12|23|48|  
G0002A|0|13|IS|LS|Xys|Xyz|12|23|45|  
G0002x|0|13|IS|LS|Xys|Xyz|12|23|48|  
G0002C|0|13|IS|LS|Xys|Xyz|12|23|48|
End-of-data
document

列名介于字段开头和字段结尾之间。我想将“|”管道存储在Dataframe的不同列中。
如以下示例：

column01  column02 column03 column04 column05 column06 column07 column08 column010 column11
G0002C      0        13       IS       LS       Xys      Xyz     12        23         48
G0002x      0        13       LS       MS       Xys      Xyz     14        300        400

我的代码：

val rdd = sc.textFile("the above text file")
    val columns = rdd.collect.slice(5,16).mkString(",") //  it will hold columnnames
    val data = rdd.collect.slice(5,16)
    val rdd1 = sc.parallelize(rdd.collect())
    val df = rdd1.toDf(columns)

但这并没有给我上述所需的Dataframe

scala apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/64982793/how-to-create-a-dataframe-from-arraystrings

2条答案

按热度按时间

xqnpmsa81#

如果列的数量和列的名称是固定的，则可以按以下方式执行：

val columns = rdd.collect.slice(5,15).mkString(",") //  it will hold columnnames
val data = rdd.collect.slice(17,21)
val d = data.mkString("\n").split('\n').toSeq.toDF()
import org.apache.spark.sql.functions._
val dd = d.withColumn("columnX",split($"value","\\|")).withColumn("column1",$"columnx".getItem(0)).withColumn("column2",$"columnx".getItem(1)).withColumn("column3",$"columnx".getItem(2)).withColumn("column4",$"columnx".getItem(3)).withColumn("column5",$"columnx".getItem(4)).withColumn("column6",$"columnx".getItem(5)).withColumn("column8",$"columnx".getItem(7)).withColumn("column10",$"columnx".getItem(8)).withColumn("column11",$"columnx".getItem(9)).drop("columnX","value")
display(dd)

您可以看到如下输出：

赞(0）回复(0）举报 2021-05-18

hsvhsicv2#

你能试试这个吗？

import spark.implicits._ // Add to use `toDS()` and `toDF()`
val rdd = sc.textFile("the above text file")
val columns = rdd.collect.slice(5,16) // `.mkString(",")` is not needed
val dataDS = rdd.collect.slice(5,16)
  .map(_.trim())                           // to remove whitespaces
  .map(s => s.substring(0, s.length - 1))  // to remove last pipe '|'
  .toSeq
  .toDS
val df = spark.read
  .option("header", false)
  .option("delimiter", "|")
  .csv(dataDS)
  .toDF(columns: _*)
df.show(false)

+--------+--------+--------+--------+--------+--------+--------+--------+---------+--------+
|column01|column02|column03|column04|column05|column06|column07|column08|column010|column11|
+--------+--------+--------+--------+--------+--------+--------+--------+---------+--------+
|G0002B  |0       |13      |IS      |LS      |Xys     |Xyz     |12      |23       |48      |
|G0002A  |0       |13      |IS      |LS      |Xys     |Xyz     |12      |23       |45      |
|G0002x  |0       |13      |IS      |LS      |Xys     |Xyz     |12      |23       |48      |
|G0002C  |0       |13      |IS      |LS      |Xys     |Xyz     |12      |23       |48      |
+--------+--------+--------+--------+--------+--------+--------+--------+---------+--------+

打电话 spark.read...csv() 没有模式的方法，可能需要很长时间处理大量数据，因为模式推理（例如。附加读数）。
在这种情况下，您可以如下所示指定模式。

/*
  column01 STRING,
  column02 STRING,
  column03 STRING,
  ...
* /
val schema = columns
  .map(c => s"$c STRING")
  .mkString(",\n")
val df = spark.read
  .option("header", false)
  .option("delimiter", "|")
  .schema(schema)  // schema inferences not occurred
  .csv(dataDS)
// .toDF(columns: _*) => unnecessary when schema is specified

展开查看全部

赞(0）回复(0）举报 2021-05-17

我来回答

如何从数组[strings]创建Dataframe？

2条答案

相关问题

热门标签

最新问答