有没有一种方法可以通过使用hdfs路径直接从hdfs读取任何文件格式,而不必从hdfs本地提取文件并读取它。
lf3rwulv1#
您可以尝试使用hdfs dfs-cat用法:hdfs dfs-cat[-ignorecrc]uri[uri…]
hdfs dfs -cat /your/path
gijlo24d2#
你得把整个文件都取出来。是否使用 cat 或者 text 命令时,整个文件仍将流式传输到shell。命令结束时,文件没有任何剩余部分。所以,如果你打算检查文件几次,最好 get 它作为hdfs客户机,必须联系namenode以获取特定文件的所有块位置。
cat
text
get
gzszwxb43#
hdfs dfs-cat/path或hadoop fs-cat/path
8hhllhi24#
你可以用 cat 命令读取常规文本文件。
hdfs dfs -cat /path/to/file.csv
读取压缩文件,如 gz, bz2 等等,您可以使用:
gz, bz2
hdfs dfs -text /path/to/file.gz
这是hadoop本机支持的两种读取方法 FsShell comamnds公司。对于其他复杂的文件类型,您将不得不使用更复杂的方法,比如java程序或类似的方法。
FsShell
4条答案
按热度按时间lf3rwulv1#
您可以尝试使用hdfs dfs-cat
用法:hdfs dfs-cat[-ignorecrc]uri[uri…]
gijlo24d2#
你得把整个文件都取出来。是否使用
cat
或者text
命令时,整个文件仍将流式传输到shell。命令结束时,文件没有任何剩余部分。所以,如果你打算检查文件几次,最好get
它作为hdfs客户机,必须联系namenode以获取特定文件的所有块位置。
gzszwxb43#
hdfs dfs-cat/path或hadoop fs-cat/path
8hhllhi24#
你可以用
cat
命令读取常规文本文件。读取压缩文件,如
gz, bz2
等等,您可以使用:这是hadoop本机支持的两种读取方法
FsShell
comamnds公司。对于其他复杂的文件类型,您将不得不使用更复杂的方法,比如java程序或类似的方法。