pyspark配置单元sql-未插入数据

vfwfrxfs 于 2021-06-26 发布在 Hive

关注(0)|答案(2)|浏览(408)

我想通过pyspark脚本（python for spark）在hive的表“test”中插入一些数据。
首先，我在hue的hive图形界面中创建了一个表“animals”，感谢查询：

CREATE TABLE animals( id int, animal String)

因此我得到了一张新table。我写这个脚本是为了给它添加一个新行（1，dog）：

from pyspark.conf import SparkConf
from pyspark import SparkContext
from pyspark.sql import SQLContext, HiveContext

sc = SparkContext()
hc = HiveContext(sc)
dataToInsert = hc.sql("select 1 as id, 'dog' as animal")
dataToInsert.write.mode("append").insertInto("animals")

在执行了它之后（在终端中多次使用“sudo pyspark myscript.py”），它似乎没有添加任何内容。
您知道如何解决这个问题，或者通过spark的python脚本将数据插入hive/impala表的其他方法吗？
提前谢谢！

sql Hive python apache-spark insert-into

来源：https://stackoverflow.com/questions/48443837/pyspark-hive-sql-no-data-inserted

2条答案

按热度按时间

lp0sw83n1#

可能是因为您创建了一个名为 test 你正在插入 animals 可能不存在。
试着改变动物来测试。一定要以 sc.stop() 开始使用 spark-submit ```
from pyspark.conf import SparkConf
from pyspark import SparkContext
from pyspark.sql import SQLContext, HiveContext

sc = SparkContext()
hc = HiveContext(sc)
dataToInsert = hc.sql("select 1 as id, 'dog' as animal")
dataToInsert.write.mode("append").insertInto("test")
sc.stop()

它只是工作得很好。你用的是什么版本？
![](https://i.stack.imgur.com/nWZmY.png)

赞(0）回复(0）举报 2021-06-26

u5i3ibmn2#

看来问题已经解决了 insertInto 尝试使用 saveAsTable 相反，insertinto在spark1.4中被弃用。
像这样的 dataToInsert.write.mode("append").saveAsTable("SchemaName.animals") 注意，模式名是mandatroy。
如果上面的一个没有给您带来好运，请尝试写入hive tables hdfs路径。我还建议您在为配置单元表运行pyspark job sql命令后修复它： msck repair table <schema.tablename>; 从hivecontext或hive。
为什么需要msck修复？？看看我的另一个答案
这里是文档快照：
saveastable（name，format=none，mode=none，partitionby=none，**选项）将Dataframe的内容保存为指定的表。
如果表已经存在，则此函数的行为取决于mode函数指定的保存模式（默认为引发异常）。当mode为overwrite时，dataframe的架构不需要与现有表的架构相同。
追加：将此Dataframe的内容追加到现有数据。
覆盖：覆盖现有数据。错误：如果数据已存在，则引发异常。
忽略：如果数据已经存在，则自动忽略此操作。参数：name–表名格式–用于保存的格式
mode–append、overwrite、error、ignore之一（默认值：error）
partitionby–分区列的名称options–版本1.4中新增的所有其他字符串选项。

赞(0）回复(0）举报 2021-06-26

我来回答

pyspark配置单元sql-未插入数据

2条答案

相关问题

热门标签

最新问答