我想通过运行hadoop附带的teragen程序(在hadoop examples.jar中)生成一个数据集(用于我自己的“terasort”mapreduce作业):
hadoop jar /<full-path>/lib/hue/apps/oozie/examples/lib/hadoop-examples.jar teragen 1000 ./teragen
我没有得到应该遵循以下格式的预期输出:
(10 bytes key) (10 bytes rowid) (78 bytes filler) \r \n
我得到一个文件:
开始于 JimGrayRIP
接着是一个 NUL
字符(当我试图粘贴它时,它会被截断;我上传了一个副本到dropbox),
包含每100字节重复的两个字符,但是-而不是 OD OA
-是的 EE FF
.
有什么问题吗?
这可能是编码问题吗?
“terasort”示例数据集是否可以在任何地方下载?
暂无答案!
目前还没有任何答案,快来回答吧!