在spark中,我想将rdd对象保存到hive表中。我正在尝试使用createdataframe,但这是抛出
线程“main”java.lang.nullpointerexception中出现异常
val products=sc.parallelize(evaluatedProducts.toList);
//here products are RDD[Product]
val productdf = hiveContext.createDataFrame(products, classOf[Product])
我使用的是spark 1.5版本。
1条答案
按热度按时间gwbalxhn1#
如果您的产品是一个类(不是case类),我建议您在创建Dataframe之前将rdd转换为rdd[tuple]:
使用这种方法,您将产品属性作为dataframe中的列。
然后,可以使用以下内容创建临时表:
或具有以下内容的物理表: