如何在spark中运行配置单元sql

r6vfmomb  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(268)

添加文件 s3://nouveau3/cleanser/cleanser.py ```
CREATE EXTERNAL TABLE IF NOT EXISTS ext_tbl (
c STRING
) ROW FORMAT DELIMITED
LINES TERMINATED BY '\n'
LOCATION 's3-location'
tblproperties ('skip.header.line.count'='1');

CREATE TABLE main_tbl (schema);

INSERT INTO TABLE main_tbl
SELECT TRANSFORM(c)
USING 'python cleanser.py' as (schema)
FROM ext_tbl;

  1. insert query运行超过15mnt以改进这一点我如何在spark中运行该查询?s3位置有50多个对象(gz格式)
ee7vknir

ee7vknir1#

方法1-如果查询没有处理太多的数据,并且取决于边缘节点的容量,您只需登录sparksql>shell就可以直接在spark上运行它
方法2-但是sparksqlshell不会以集群模式提交查询,它只在单个边缘节点上运行,如果边缘节点缺少资源,这可能会终止您的作业。
您可以编写一个python脚本来读取您的查询,这样您就可以调用spark.sql(“您的查询”)。然后可以使用spark submit--deploy模式集群启动此作业。在这里,使用spark submit命令可以获得一个选项来指定应该是集群的部署模式。如果只是一个节点,这将利用整个集群。

相关问题