ApachePig—pigstorage是如何在hadoop中使用的，为什么？

2ul0zpep 于 2021-05-31 发布在 Hadoop

关注(0)|答案(1)|浏览(335)

我很困惑，为什么在hadoop中使用pig处理数据时，我们需要在hadoop hdfs之上使用另一个存储层pigstorage？存储在pig存储中的文件是分布式的吗？谁能帮我解释一下吗？
谢谢您。

hadoop apache-pig

来源：https://stackoverflow.com/questions/61952927/how-pigstorage-is-used-in-hadoop-and-why

1条答案

按热度按时间

wbrvyc0a1#

存储不是存储。不存放在任何地方；它读取并加载明文文件。 LOAD 进入阿夫罗或兽人几乎总是更好

它只是文件系统数据上别名和模式的元数据（文件系统可以不仅仅是hdfs）

A = LOAD '/path/file.txt' USING PigStorage()  // read plaintext from filesystem
B = // do something with A
LOAD B into '/path_orc' USING OrcStorage()  // store ORC back on same filesystem

赞(0）回复(0）举报 2021-05-31

我来回答

ApachePig—pigstorage是如何在hadoop中使用的，为什么？

1条答案

相关问题

热门标签

最新问答