我有一个pig脚本,我们可以在udf的帮助下进行一些数据操作。
让我们来理解一个例子。
data=someoperation;
olddata = newoperation;
Uniondata = UNION data,olddata;
DUMP Uniondata;
因此,这里我使用dump来确保执行上述所有语句,而不是将数据流传输到控制台。我认为转储的执行方式会导致与性能相关的问题。在这里,确保data和olddata从udf中不返回任何内容。如何确保这些语句在不使用dump的情况下执行。
谢谢。
2条答案
按热度按时间gg58donl1#
为此,可以使用“图解”运算符。
使用illustrate操作符查看数据是如何通过一系列语句进行转换的。演示允许您在小数据集上测试程序,并获得更快的周转时间。
因此,只需将dump替换为example。还可以对数据集进行采样以进行测试。
xxls0lw82#
使用limit来减少数据的大小。