使用teragen生成“terasort”输入数据集

bkhjykvo 于 2021-05-30 发布在 Hadoop

关注(0)|答案(0)|浏览(241)

我想通过运行hadoop附带的teragen程序（在hadoop examples.jar中）生成一个数据集（用于我自己的“terasort”mapreduce作业）：

hadoop jar /<full-path>/lib/hue/apps/oozie/examples/lib/hadoop-examples.jar teragen 1000 ./teragen

我没有得到应该遵循以下格式的预期输出：

(10 bytes key) (10 bytes rowid) (78 bytes filler) \r \n

我得到一个文件：
开始于 JimGrayRIP 接着是一个 NUL 字符（当我试图粘贴它时，它会被截断；我上传了一个副本到dropbox），
包含每100字节重复的两个字符，但是-而不是 OD OA -是的 EE FF .
有什么问题吗？
这可能是编码问题吗？
“terasort”示例数据集是否可以在任何地方下载？

hadoop mapreduce

来源：https://stackoverflow.com/questions/26974427/generating-terasort-input-data-set-with-teragen

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

使用teragen生成“terasort”输入数据集

暂无答案！

相关问题

热门标签

最新问答