hadoop HDP 2.6.5：我使用pyspark在python中创建了一个数据库，但该数据库未显示在hive view 2.0中

mefy6pfw 于 2022-12-17 发布在 Hadoop

关注(0)|答案(1)|浏览(258)

我用pyspark创建的数据库有问题：

from pyspark import SparkContext,SparkConf
from pyspark.sql import SQLContext, SparkSession, HiveContext
                                                                                                                                                                        
conf = SparkConf().set("spark.jars.packages","org.mongodb.spark:mongo-spark-connector_2.11:2.3.2")
                                                                                                                                                                        
                                                                                                                                                                        
spark = SparkSession.builder \
        .appName("test") \
        .getOrCreate()
df = spark.read.option("multiline", "true").json("hdfs://sandbox-hdp.hortonworks.com:8020/user/maria_dev/output2.json")
                                                                                                                                                                        
#Database on Hive                                                                                                                                                       
spark.sql("create database testdb")
print('Voici le Dataframe : ', df)
df.write.mode("overwrite").saveAsTable("testdb.test3")
spark.sql("SHOW DATABASES").show()
df = spark.sql("SELECT * FROM testdb.test3")
df.show()

这段代码没有任何错误，但是当我进入ambari界面时，我看不到我的数据库：只有“default”和“foodmart”。当在shell中使用：

spark.sql("SHOW DATABASES").show()
df = spark.sql("SELECT * FROM testdb.test3")

我可以看到我的数据库及其内容如下：

+---------+
|namespace|                                                                                                                                 +---------+                                                                                                                                 |  default|                                                                                                                                 |   testdb|                                                                                                                                 +---------+

我该怎么做才能在hive上看到我的数据库并在zeppelin上使用它。
我尝试使用maria_dev和root。我尝试重新启动hive。

hadoop

来源：https://stackoverflow.com/questions/74814800/hdp-2-6-5-i-create-a-database-in-python-with-pyspark-but-the-database-dont-ap

1条答案

按热度按时间

4c8rllxm1#

因此，在创建SparkSession时没有设置.enableHiveSupport()。当前，数据库存储在默认的data_warehouse位置。无论何时启动shell，它都会从该data_warehouse（您保存的表）读取数据。因此，要将数据保存到hive中，您可以执行以下操作：

from pyspark import SparkContext,SparkConf
from pyspark.sql import SQLContext, SparkSession, HiveContext
                                                                                                                                                                        
conf = SparkConf().set("spark.jars.packages","org.mongodb.spark:mongo-spark-connector_2.11:2.3.2")
                                                                                                                                                                        
                                                                                                                                                                        
spark = SparkSession.builder \
        .appName("test") \
        .enableHiveSupport() \ # This will use the hive to store the data while using spark sql.
        .getOrCreate()
df = spark.read.option("multiline", "true").json("hdfs://sandbox-hdp.hortonworks.com:8020/user/maria_dev/output2.json")
                                                                                                                                                                        
#Database on Hive                                                                                                                                                       
spark.sql("create database testdb")
print('Voici le Dataframe : ', df)
df.write.mode("overwrite").saveAsTable("testdb.test3")
spark.sql("SHOW DATABASES").show()
df = spark.sql("SELECT * FROM testdb.test3")
df.show()

展开查看全部

赞(0）回复(0）举报 2022-12-17

我来回答

hadoop HDP 2.6.5：我使用pyspark在python中创建了一个数据库，但该数据库未显示在hive view 2.0中

1条答案

相关问题

热门标签

最新问答