ApachePig—pigstorage是如何在hadoop中使用的,为什么?

2ul0zpep  于 2021-05-31  发布在  Hadoop
关注(0)|答案(1)|浏览(335)

我很困惑,为什么在hadoop中使用pig处理数据时,我们需要在hadoop hdfs之上使用另一个存储层pigstorage?存储在pig存储中的文件是分布式的吗?谁能帮我解释一下吗?
谢谢您。

wbrvyc0a

wbrvyc0a1#

存储不是存储。不存放在任何地方;它读取并加载明文文件。 LOAD 进入阿夫罗或兽人几乎总是更好

它只是文件系统数据上别名和模式的元数据(文件系统可以不仅仅是hdfs)

A = LOAD '/path/file.txt' USING PigStorage()  // read plaintext from filesystem
B = // do something with A
LOAD B into '/path_orc' USING OrcStorage()  // store ORC back on same filesystem

相关问题