我很困惑,为什么在hadoop中使用pig处理数据时,我们需要在hadoop hdfs之上使用另一个存储层pigstorage?存储在pig存储中的文件是分布式的吗?谁能帮我解释一下吗?谢谢您。
wbrvyc0a1#
存储不是存储。不存放在任何地方;它读取并加载明文文件。 LOAD 进入阿夫罗或兽人几乎总是更好它只是文件系统数据上别名和模式的元数据(文件系统可以不仅仅是hdfs)
LOAD
A = LOAD '/path/file.txt' USING PigStorage() // read plaintext from filesystem B = // do something with A LOAD B into '/path_orc' USING OrcStorage() // store ORC back on same filesystem
1条答案
按热度按时间wbrvyc0a1#
存储不是存储。不存放在任何地方;它读取并加载明文文件。
LOAD
进入阿夫罗或兽人几乎总是更好它只是文件系统数据上别名和模式的元数据(文件系统可以不仅仅是hdfs)