pig-用pig加载word文档(.doc&.docx)

yvgpqqbh  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(363)

无法用pig加载microsoft word文档(.doc或.docx)。实际上,当我尝试这样做时,使用textloader()、pigstorage()或不使用任何加载程序,都是行不通的。输出是一些奇怪的符号。
我听说我可以用java编写一个定制的加载器,但这似乎真的很难,我不知道我们现在如何编写这些程序。
我想把所有的.doc文件内容放在一个单独的字符包里,这样我以后就可以使用过滤函数来处理它了。
我该怎么办?
谢谢

xj3cbfub

xj3cbfub1#

他们是对的。由于.doc和.docx是二进制格式,简单的文本加载器将无法工作。您可以编写udf以将文件直接加载到pig中,也可以进行一些预处理,将所有.doc和.docx文件转换为.txt文件,以便pig将加载这些.txt文件。此链接可以帮助您开始寻找转换文件的方法。
不过,我还是建议您学习编写自定义项。对文件进行预处理将增加可以避免的大量开销。
更新:这里有一些我过去用来编写java(load)udf的资源。一,二。

相关问题