hadoop—如何将表注册为spark表并放入Dataframe

inkz8wg9  于 2021-06-02  发布在  Hadoop
关注(0)|答案(3)|浏览(259)

我已经使用spark-thriftserver-jdbc连接将postgresql数据库中的表导入spark-sql,现在从beeline可以看到这些表。
有没有办法把这些表转换成spark数据框。

gcxthw6b

gcxthw6b1#

这适用于spark>2.0: df = spark.table('table')

2wnc66cl

2wnc66cl2#

Spark2.0.0http://spark.apache.org/docs/latest/sql-programming-guide.html
sparksession上的sql函数使应用程序能够以编程方式运行sql查询,并将结果作为Dataframe返回。


# spark is an existing SparkSession

df = spark.sql("SELECT * FROM table")

Spark1.6.2http://spark.apache.org/docs/1.6.2/sql-programming-guide.html
以编程方式运行sql查询
sqlcontext上的sql函数使应用程序能够以编程方式运行sql查询,并将结果作为Dataframe返回。

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.sql("SELECT * FROM table")
ymdaylpp

ymdaylpp3#

这更简单(spark2.4):

df = spark.table('your_table')
display(df)

相关问题