spark scala将大型rdd转换为Dataframe性能问题

lskq00tm 于 2021-06-09 发布在 Hbase

关注(0)|答案(0)|浏览(251)

我有一个 RDD spark hbase连接器的输出（22列，10000行），我必须将其转换为 DataFrame .
我的方法是：

val DATAFRAME = hBaseRDD.map(x => {
(Bytes.toString(x._2.getValue(Bytes.toBytes("header"), Bytes.toBytes("Id"))),
Bytes.toString(x._2.getValue(Bytes.toBytes("header"), Bytes.toBytes("Time"))),
...
Bytes.toString(x._2.getValue(Bytes.toBytes("measures"), Bytes.toBytes("measure_i"))))})
.toDF()
.withColumnRenamed("_1", "Time")
.withColumnRenamed("_2", "name example 2")
... 
.withColumnRenamed("_i", "name example i")
.sort("Time")

它工作得很好，问题是性能，有没有办法优化它？
thk提前

hbase scala apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/53523067/spark-scala-convert-big-rdd-to-dataframe-performance-issue

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

spark scala将大型rdd转换为Dataframe性能问题

暂无答案！

相关问题

热门标签

最新问答