我有一个hadoop集群,包括1个namenode和3个datanode。
为了处理一个csv文件的搜索操作,我将csv文件分为3个文件。因此,我将输入路径设置为包含我的3个csv文件的文件夹,以便使用我的3个节点处理这些文件上的Map操作。
它似乎工作良好,但有没有节省时间相比,进程Map操作1大csv文件。。。
我有1个namenode(4个vcpu-xeon@2.8ghz,6go-ram)和3个datanode(2个vcpu-xeon@2.8ghz,4go-ram),Map操作大约需要7秒钟来解析包含约500000行(300mb)的csv文件。
这是我的Map课:gist
谢谢您!
暂无答案!
目前还没有任何答案,快来回答吧!