public static void main(String[] args) {
SparkSession sessn = SparkSession.builder().appName("RDD2DF").master("local").getOrCreate();
List<Integer> lst = Arrays.asList(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20);
Dataset<Integer> DF = sessn.createDataset(lst, Encoders.INT());
System.out.println(DF.javaRDD().getNumPartitions());
JavaRDD<Integer> mappartRdd = DF.repartition(3).javaRDD().mapPartitions(it-> Arrays.asList(JavaConversions.asScalaIterator(it).length()).iterator());
}
从上面的代码中,我无法将javardd(mappartrdd)转换为javaspark中的Dataframe。我使用下面的代码将javardd转换为dataframe/dataset。
sessn.createDataFrame(mappartRdd, beanClass);
我为createdataframe尝试了多个选项和不同的重载函数。我面临着将其转换为df的问题。我需要提供什么beanclass才能让代码正常工作?
与scala不同,java中没有todf()这样的函数可以将rdd转换为Dataframe。有没有人能按我的要求帮我改装一下。
注意:我可以通过修改上面的代码直接创建一个数据集,如下所示。
Dataset<Integer> mappartDS = DF.repartition(3).mapPartitions(it-> Arrays.asList(JavaConversions.asScalaIterator(it).length()).iterator(), Encoders.INT());
但是我想知道,如果我使用createdataframe,为什么我的javardd没有转换成df/ds。任何帮助都将不胜感激。
1条答案
按热度按时间sg24os4d1#
这似乎是这个问题的后续
我想,你是在学习阶段的Spark。我建议您了解java提供的API-https://spark.apache.org/docs/latest/api/java/index.html
关于你的问题,如果你检查
createDataFrame
api,如下所示-如你所见,这需要时间
JavaRDD[Row]
相关的StructType
架构为args。因此要创造DataFrame
等于Dataset<Row>
使用下面的代码段-