添加文件 s3://nouveau3/cleanser/cleanser.py
```
CREATE EXTERNAL TABLE IF NOT EXISTS ext_tbl (
c STRING
) ROW FORMAT DELIMITED
LINES TERMINATED BY '\n'
LOCATION 's3-location'
tblproperties ('skip.header.line.count'='1');
CREATE TABLE main_tbl (schema);
INSERT INTO TABLE main_tbl
SELECT TRANSFORM(c)
USING 'python cleanser.py' as (schema)
FROM ext_tbl;
insert query运行超过15个mnt以改进这一点我如何在spark中运行该查询?s3位置有50多个对象(gz格式)
1条答案
按热度按时间ee7vknir1#
方法1-如果查询没有处理太多的数据,并且取决于边缘节点的容量,您只需登录sparksql>shell就可以直接在spark上运行它
方法2-但是sparksqlshell不会以集群模式提交查询,它只在单个边缘节点上运行,如果边缘节点缺少资源,这可能会终止您的作业。
您可以编写一个python脚本来读取您的查询,这样您就可以调用spark.sql(“您的查询”)。然后可以使用spark submit--deploy模式集群启动此作业。在这里,使用spark submit命令可以获得一个选项来指定应该是集群的部署模式。如果只是一个节点,这将利用整个集群。