dump-in-pig需要很长时间

e0bqpujr  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(340)

我有一个pig脚本,我们可以在udf的帮助下进行一些数据操作。
让我们来理解一个例子。

data=someoperation;
olddata = newoperation;
Uniondata = UNION data,olddata;
DUMP Uniondata;

因此,这里我使用dump来确保执行上述所有语句,而不是将数据流传输到控制台。我认为转储的执行方式会导致与性能相关的问题。在这里,确保data和olddata从udf中不返回任何内容。如何确保这些语句在不使用dump的情况下执行。
谢谢。

gg58donl

gg58donl1#

为此,可以使用“图解”运算符。
使用illustrate操作符查看数据是如何通过一系列语句进行转换的。演示允许您在小数据集上测试程序,并获得更快的周转时间。
因此,只需将dump替换为example。还可以对数据集进行采样以进行测试。

data=someoperation;
data= SAMPLE data 0.01; --# sample by 1%
olddata = newoperation;
uniondata = UNION data,olddata;
ILLUSTRATE Uniondata;
xxls0lw8

xxls0lw82#

使用limit来减少数据的大小。

A = operation1;
B = operation2;
A1 = LIMIT A 100;
B1 = LIMIT B 100; 
A1B1 = UNION A1,B1;
DUMP A1B1;

相关问题