我是新的Sparkscala的发展,并试图得到手脏,所以请与我,如果你觉得这个问题愚蠢。
Sample dataset
[29430500,1104296400000,1938,F,11,2131,
MutableList([123291654450,1440129600000,100121,0,1440734400000],[234564535,2345129600000,345121,1,14567734400000])
]
如果你看到最后一个字段 Array[]
我希望输出像this:-
Row 1:
[29430500,1104296400000,1938,F,11,2131,
123291654450,1440129600000,100121,0,1440734400000]
Row 2:
[29430500,1104296400000,1938,F,11,2131,
234564535,2345129600000,345121,1,14567734400000]
我想我必须做些什么 flatMap
但由于某些原因,以下代码会出现此错误:
def getMasterRdd(sc: SparkContext, hiveContext: HiveContext, outputDatabase:String, jobId:String,MasterTableName:String, dataSourceType: DataSourceType, startDate:Long, endDate:Long):RDD[Row]={}
val Rdd1= ClassName.getMasterRdd(sc, hiveContext, "xyz", "test123", "xyz.abc", DataSourceType.SS, 1435723200000L, 1451538000000L)
Rdd1: holds the sample dataset
val mapRdd1= Rdd1.map(Row => Row.get(6))
val flatmapRdd1 = mapPatientRdd.flatMap(_.split(","))
当我悬停在 (_.split(","))
我得到的建议是:
Type mismatch, expected:(Any) => TraversableOnce[NotInferedU], actual: (Any) =>Any
2条答案
按热度按时间von4xj4u1#
用途:
92dk7w1h2#
我认为有一个更好的方法来构造它(也许使用元组而不是
List
s) 但不管怎么说,这对我很有用: