我正在尝试开发一个使用pig分析一些日志文件的示例程序。我想分析不同作业的运行时间。当我读取作业的日志文件时,我会得到作业的开始时间和结束时间,如下所示:
(Wed,03/20/13,01:03:37,EDT)
(Wed,03/20/13,01:05:00,EDT)
现在,为了计算经过的时间,我需要减去这两个时间戳,但是由于这两个时间戳在同一个包中,我不知道如何比较它们。所以我想知道怎么做。谢谢!
我正在尝试开发一个使用pig分析一些日志文件的示例程序。我想分析不同作业的运行时间。当我读取作业的日志文件时,我会得到作业的开始时间和结束时间,如下所示:
(Wed,03/20/13,01:03:37,EDT)
(Wed,03/20/13,01:05:00,EDT)
现在,为了计算经过的时间,我需要减去这两个时间戳,但是由于这两个时间戳在同一个包中,我不知道如何比较它们。所以我想知道怎么做。谢谢!
1条答案
按热度按时间vfh0ocws1#
两个日志行中的作业是否都有唯一的id?还有什么东西可以指示哪个事件是开始的,哪个是结束的?
如果是这样,您可以读取数据集两次,一次读取开始事件,一次读取结束事件,然后将两者连接在一起。然后你将有一个记录,其中包含两个事件。
所以: