reducebykey不是org.apache.spark.sql.dataset的成员

oogrdqng 于 2021-05-18 发布在 Spark

关注(0)|答案(1)|浏览(711)

import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.functions._
val ticker_data_rdd = ticker_data_parsed.
                      filter("date_stamp='2017-01-03 00:00:00.0' or date_stamp='2017-08-25 00:00:00.0'").
                      orderBy($"ticker",$"date_stamp".desc)
val ticker_data_pair_rdd = ticker_data_rdd.
                           map(x=> (x(0).toString,(x(2).toString.toDouble,x(3).toString.toDouble))).
                           reduceByKey((x,y)=> (y._1,x._2))

请帮助解决问题 ticker_data_pair_rdd ?

scala apache-spark

来源：https://stackoverflow.com/questions/64627914/reducebykey-is-not-a-member-of-org-apache-spark-sql-dataset

1条答案

按热度按时间

hmtdttj41#

即使你打电话来 ticker_data_rdd 似乎它不是rdd而是数据集，所以不能在那里使用该方法
你可以把它变成rdd如果你想（我不认为这是一个好主意）

val ticker_data_pair_rdd = ticker_data_rdd
                           .map(x=> (x(0).toString,(x(2).toString.toDouble,x(3).toString.toDouble)))
                           .rdd
                           .reduceByKey((x,y)=> (y._1,x._2))

或者你也可以 reduceByKey 数据集中的“等价物”，类似于：

val ticker_data_pair_rdd = ticker_data_rdd
                           .map(x=> (x(0).toString,(x(2).toString.toDouble,x(3).toString.toDouble)))
                           .groupBy($"_1").agg(collect_list($"_2"))

关于rdd和数据集的一些信息

赞(0）回复(0）举报 2021-05-19

我来回答

reducebykey不是org.apache.spark.sql.dataset的成员

1条答案

相关问题

热门标签

最新问答