spark scala将大型rdd转换为Dataframe性能问题

lskq00tm  于 2021-06-09  发布在  Hbase
关注(0)|答案(0)|浏览(251)

我有一个 RDD spark hbase连接器的输出(22列,10000行),我必须将其转换为 DataFrame .
我的方法是:

val DATAFRAME = hBaseRDD.map(x => {
(Bytes.toString(x._2.getValue(Bytes.toBytes("header"), Bytes.toBytes("Id"))),
Bytes.toString(x._2.getValue(Bytes.toBytes("header"), Bytes.toBytes("Time"))),
...
Bytes.toString(x._2.getValue(Bytes.toBytes("measures"), Bytes.toBytes("measure_i"))))})
.toDF()
.withColumnRenamed("_1", "Time")
.withColumnRenamed("_2", "name example 2")
... 
.withColumnRenamed("_i", "name example i")
.sort("Time")

它工作得很好,问题是性能,有没有办法优化它?
thk提前

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题