我有一个csv文件,我想把它转换成sequencefile,我最终会用它来创建namedvector,以便在集群作业中使用。我一直在使用seqdirectory命令尝试生成一个sequencefile,然后使用-nv选项将输出输入到seq2sparse以创建namedvector。这似乎是给一个大向量作为输出,但我最终希望我的csv的每一行都成为一个namedvector。我哪里出错了?
我有一个csv文件,我想把它转换成sequencefile,我最终会用它来创建namedvector,以便在集群作业中使用。我一直在使用seqdirectory命令尝试生成一个sequencefile,然后使用-nv选项将输出输入到seq2sparse以创建namedvector。这似乎是给一个大向量作为输出,但我最终希望我的csv的每一行都成为一个namedvector。我哪里出错了?
1条答案
按热度按时间tyky79it1#
seqdirectory
命令将每个文件作为一个文档,所以实际上,您只有一个文档,因此您只能得到一个向量。为了使它正常工作,您可以使csv文件的每一行都成为一个文件本身,其中文档的键是文件名,值是文件内容。尽管如此,如果你的语料库很大,磁盘读写会变得非常缓慢,这是不现实的。在实践中,你最好遵循我在这篇评论中分享的链接