HDFS 创建包含选定列的示例数据集

ej83mcc0  于 2022-12-16  发布在  HDFS
关注(0)|答案(1)|浏览(209)

我有一个10列的大型数据集(csv),我想创建一个从大型数据集中选择5列的示例数据集。
是否有相同的hdfs命令。

4nkexdtk

4nkexdtk1#

没有用于此目的的hdfs cli命令。
您需要一个外部工具,如ApacheHive、Pig、Spark、Flink、Beam、Drill等来读取这个CSV,并选择特定的列。
如果您的文件只有几GB大,您甚至可以下载该文件并使用awkcut来获取特定的列;我根本不需要HDFS。

相关问题