我有一个 RDD
spark hbase连接器的输出(22列,10000行),我必须将其转换为 DataFrame
.
我的方法是:
val DATAFRAME = hBaseRDD.map(x => {
(Bytes.toString(x._2.getValue(Bytes.toBytes("header"), Bytes.toBytes("Id"))),
Bytes.toString(x._2.getValue(Bytes.toBytes("header"), Bytes.toBytes("Time"))),
...
Bytes.toString(x._2.getValue(Bytes.toBytes("measures"), Bytes.toBytes("measure_i"))))})
.toDF()
.withColumnRenamed("_1", "Time")
.withColumnRenamed("_2", "name example 2")
...
.withColumnRenamed("_i", "name example i")
.sort("Time")
它工作得很好,问题是性能,有没有办法优化它?
thk提前
暂无答案!
目前还没有任何答案,快来回答吧!