我有一个10列的大型数据集(csv),我想创建一个从大型数据集中选择5列的示例数据集。是否有相同的hdfs命令。
4nkexdtk1#
没有用于此目的的hdfs cli命令。您需要一个外部工具,如ApacheHive、Pig、Spark、Flink、Beam、Drill等来读取这个CSV,并选择特定的列。如果您的文件只有几GB大,您甚至可以下载该文件并使用awk或cut来获取特定的列;我根本不需要HDFS。
hdfs
awk
cut
1条答案
按热度按时间4nkexdtk1#
没有用于此目的的
hdfs
cli命令。您需要一个外部工具,如ApacheHive、Pig、Spark、Flink、Beam、Drill等来读取这个CSV,并选择特定的列。
如果您的文件只有几GB大,您甚至可以下载该文件并使用
awk
或cut
来获取特定的列;我根本不需要HDFS。