将csv转换为sequencefile

3ks5zfa0 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(445)

我有一个csv文件，我想把它转换成sequencefile，我最终会用它来创建namedvector，以便在集群作业中使用。我一直在使用seqdirectory命令尝试生成一个sequencefile，然后使用-nv选项将输出输入到seq2sparse以创建namedvector。这似乎是给一个大向量作为输出，但我最终希望我的csv的每一行都成为一个namedvector。我哪里出错了？

hadoop sequencefile mahout

来源：https://stackoverflow.com/questions/11994930/converting-csv-to-sequencefile

1条答案

按热度按时间

tyky79it1#

seqdirectory 命令将每个文件作为一个文档，所以实际上，您只有一个文档，因此您只能得到一个向量。为了使它正常工作，您可以使csv文件的每一行都成为一个文件本身，其中文档的键是文件名，值是文件内容。尽管如此，如果你的语料库很大，磁盘读写会变得非常缓慢，这是不现实的。
在实践中，你最好遵循我在这篇评论中分享的链接

赞(0）回复(0）举报 2021-06-03

我来回答

将csv转换为sequencefile

1条答案

相关问题

热门标签

最新问答