我在hdfs中有一个csv文件,如何用sparksql查询这个文件?例如,我想对特殊列发出select请求,并将结果再次存储到hadoop分布式文件系统中谢谢
b4qexyjb1#
你应该创建一个sparksession。这里有一个例子。加载csv文件: val df = sparkSession.read.csv("path to your file in HDFS") .执行选择操作: val df2 = df.select("field1", "field2") .将结果写回: df2.write.csv("path to a new file in HDFS")
val df = sparkSession.read.csv("path to your file in HDFS")
val df2 = df.select("field1", "field2")
df2.write.csv("path to a new file in HDFS")
xa9qqrwz2#
您可以通过创建dataframe来实现。
val dataFrame = spark.sparkContext .textFile("examples/src/main/resources/people.csv") .map(_.split(",")) .map(attributes => Person(attributes(0), attributes(1).trim.toInt)) .toDF() dataFrame.sql("<sql query>");
2条答案
按热度按时间b4qexyjb1#
你应该创建一个sparksession。这里有一个例子。
加载csv文件:
val df = sparkSession.read.csv("path to your file in HDFS")
.执行选择操作:
val df2 = df.select("field1", "field2")
.将结果写回:
df2.write.csv("path to a new file in HDFS")
xa9qqrwz2#
您可以通过创建dataframe来实现。