我知道我可以使用pyarrow.hdfs.connect()
通过pyarrow连接到HDFS群集
我还知道可以使用pyarrow.parquet
的read_table()
读取 parquet 文件
但是,read_table()
接受文件路径,而hdfs.connect()
给我一个HadoopFileSystem
示例。
有没有可能只使用pyarrow(安装了libhdfs 3)来获取驻留在HDFS集群中的parquet文件/文件夹?我希望得到的是to_pydict()
函数,然后我可以传递数据。
3条答案
按热度按时间2w3rbyxf1#
试试看
或
我打开了https://issues.apache.org/jira/browse/ARROW-1848,想添加一些更明确的文档
7xzttuei2#
我通过Pydoop库和engine = pyarrow尝试了同样的方法,它对我来说非常有效。
fxnxkyjh3#
你可以阅读和写作与pyarrow所描绘的接受的答案。然而,那里提供的API早就被弃用了,并且不适用于最新版本的Hadoop。用途: