如何在spark中运行配置单元sql

r6vfmomb 于 2021-06-26 发布在 Hive

关注(0)|答案(1)|浏览(268)

添加文件 s3://nouveau3/cleanser/cleanser.py ```
CREATE EXTERNAL TABLE IF NOT EXISTS ext_tbl (
c STRING
) ROW FORMAT DELIMITED
LINES TERMINATED BY '\n'
LOCATION 's3-location'
tblproperties ('skip.header.line.count'='1');

CREATE TABLE main_tbl (schema);

INSERT INTO TABLE main_tbl
SELECT TRANSFORM(c)
USING 'python cleanser.py' as (schema)
FROM ext_tbl;

insert query运行超过15个mnt以改进这一点我如何在spark中运行该查询？s3位置有50多个对象（gz格式）

Hive apache-spark python-3.x bigdata

来源：https://stackoverflow.com/questions/48827642/how-to-run-hive-sql-in-spark

1条答案

按热度按时间

ee7vknir1#

方法1-如果查询没有处理太多的数据，并且取决于边缘节点的容量，您只需登录sparksql>shell就可以直接在spark上运行它
方法2-但是sparksqlshell不会以集群模式提交查询，它只在单个边缘节点上运行，如果边缘节点缺少资源，这可能会终止您的作业。
您可以编写一个python脚本来读取您的查询，这样您就可以调用spark.sql（“您的查询”）。然后可以使用spark submit--deploy模式集群启动此作业。在这里，使用spark submit命令可以获得一个选项来指定应该是集群的部署模式。如果只是一个节点，这将利用整个集群。

赞(0）回复(0）举报 2021-06-26

我来回答

如何在spark中运行配置单元sql

1条答案

相关问题

热门标签

最新问答