pig在加载大量文件时杀死数据节点

5lhxktic 于 2021-06-21 发布在 Pig

关注(0)|答案(0)|浏览(220)

我有一个脚本，它试图根据日志文件获取用户每天的开始/结束时间。作业总是在完成之前失败，每次似乎都会导致2个数据节点崩溃。
脚本的加载部分：

log = LOAD '$data' USING SieveLoader('@source_host', 'node', 'uid', 'long_timestamp', 'type');
log_map = FILTER log BY $0 IS NOT NULL AND $0#'uid' IS NOT NULL AND $0#'type'=='USER_AUTH';

我们正在读取大约6500个文件，因此似乎产生了那么多Map任务。sieveloader是一个自定义的udf，它加载一行，将它传递给一个现有的方法，该方法解析该行中的字段并在Map中返回它们。传入的参数将Map的大小限制为仅与我们相关的字段。
我们的集群有5个数据节点。我们有四核，每个节点允许3个map/reduce插槽，总共15个。任何建议都将不胜感激！

hdfs mapreduce apache-pig

来源：https://stackoverflow.com/questions/21417191/pig-killing-data-nodes-while-loading-a-lot-of-files

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

pig在加载大量文件时杀死数据节点

暂无答案！

相关问题

热门标签

最新问答