直接从hdfs读取文件

gywdnpxw  于 2021-06-01  发布在  Hadoop
关注(0)|答案(4)|浏览(471)

有没有一种方法可以通过使用hdfs路径直接从hdfs读取任何文件格式,而不必从hdfs本地提取文件并读取它。

lf3rwulv

lf3rwulv1#

您可以尝试使用hdfs dfs-cat
用法:hdfs dfs-cat[-ignorecrc]uri[uri…]

hdfs dfs -cat /your/path
gijlo24d

gijlo24d2#

你得把整个文件都取出来。是否使用 cat 或者 text 命令时,整个文件仍将流式传输到shell。命令结束时,文件没有任何剩余部分。所以,如果你打算检查文件几次,最好 get
作为hdfs客户机,必须联系namenode以获取特定文件的所有块位置。

gzszwxb4

gzszwxb43#

hdfs dfs-cat/path或hadoop fs-cat/path

8hhllhi2

8hhllhi24#

你可以用 cat 命令读取常规文本文件。

hdfs dfs -cat /path/to/file.csv

读取压缩文件,如 gz, bz2 等等,您可以使用:

hdfs dfs -text /path/to/file.gz

这是hadoop本机支持的两种读取方法 FsShell comamnds公司。对于其他复杂的文件类型,您将不得不使用更复杂的方法,比如java程序或类似的方法。

相关问题