使用teragen生成“terasort”输入数据集

bkhjykvo  于 2021-05-30  发布在  Hadoop
关注(0)|答案(0)|浏览(241)

我想通过运行hadoop附带的teragen程序(在hadoop examples.jar中)生成一个数据集(用于我自己的“terasort”mapreduce作业):

hadoop jar /<full-path>/lib/hue/apps/oozie/examples/lib/hadoop-examples.jar teragen 1000 ./teragen

我没有得到应该遵循以下格式的预期输出:

(10 bytes key) (10 bytes rowid) (78 bytes filler) \r \n

我得到一个文件:
开始于 JimGrayRIP 接着是一个 NUL 字符(当我试图粘贴它时,它会被截断;我上传了一个副本到dropbox),
包含每100字节重复的两个字符,但是-而不是 OD OA -是的 EE FF .
有什么问题吗?
这可能是编码问题吗?
“terasort”示例数据集是否可以在任何地方下载?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题