使用spark查询配置单元表

m3eecexj 于 2021-06-26 发布在 Hive

关注(0)|答案(1)|浏览(497)

我是apache hive和spark的新手。我的hadoop服务器上有一些现有的hive表，我可以运行一些hql命令，并使用hive或beeline从表中获取所需的内容，例如，选择表的前5行。相反，我想用spark来实现同样的目标。我在服务器上的spark版本是1.6.3。
使用以下代码（我将数据库名称和表替换为数据库和表）：

sc = SparkContext(conf = config)
sqlContext = HiveContext(sc)

query = sqlContext.createDataFrame(sqlContext.sql("SELECT * from database.table LIMIT 5").collect())
df = query.toPandas()
df.show()

我得到这个错误：

ValueError: Some of types cannot be determined after inferring.  
Error:root: An unexpected error occurred while tokenizing input
The following traceback may be corrupted or invalid
The error message is: ('EOF in multi-line string', (1, 0))

但是，我可以对相同的查询使用beeline并查看结果。
经过一天的谷歌搜索，我修改了代码为：

table_ccx = sqlContext.table("database.table")
table_ccx.registerTemplate("temp")
sqlContext.sql("SELECT * FROM temp LIMIT 5").show()

现在错误消失了，但是除了一个或两个日期和列名之外，所有的行值都是空的。
我也试过了

table_ccx.refreshTable("database.table")

但这没用。是否有需要我的it团队执行的设置或配置？谢谢你的帮助。
edit：说到这里，我的python代码正在为hadoop上的一些表工作。不知道问题是不是因为表上有些条目？如果是，那么相应的beeline/hive命令是如何工作的？

Hive apache-spark python-2.7

来源：https://stackoverflow.com/questions/49070334/query-hive-table-with-spark

1条答案

按热度按时间

6tr1vspr1#

正如评论中提到的，稍微理顺一下代码就可以让事情正常进行。
问题出在这行代码上：

query = sqlContext.createDataFrame(sqlContext.sql("SELECT * from database.table LIMIT 5").collect())

你在这里做的是：
请求spark查询数据源（创建 DataFrame ) collect 所有关于司机的资料都是本地收集的
将spark上的本地集合与 createDataFrame 一般来说，这种方法应该是可行的，尽管它显然是不必要的复杂。
以下操作将完成：

query = sqlContext.sql("SELECT * from database.table LIMIT 5")

我不完全清楚为什么这个东西会破坏你的代码，但它仍然会破坏你的代码（正如评论中所说的那样），而且它还改进了你的代码。

赞(0）回复(0）举报 2021-06-26

我来回答

使用spark查询配置单元表

1条答案

相关问题

热门标签

最新问答