import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.functions._
val ticker_data_rdd = ticker_data_parsed.
filter("date_stamp='2017-01-03 00:00:00.0' or date_stamp='2017-08-25 00:00:00.0'").
orderBy($"ticker",$"date_stamp".desc)
val ticker_data_pair_rdd = ticker_data_rdd.
map(x=> (x(0).toString,(x(2).toString.toDouble,x(3).toString.toDouble))).
reduceByKey((x,y)=> (y._1,x._2))
请帮助解决问题 ticker_data_pair_rdd
?
1条答案
按热度按时间hmtdttj41#
即使你打电话来
ticker_data_rdd
似乎它不是rdd而是数据集,所以不能在那里使用该方法你可以把它变成rdd如果你想(我不认为这是一个好主意)
或者你也可以
reduceByKey
数据集中的“等价物”,类似于:关于rdd和数据集的一些信息