我正在尝试从集群的“/user”目录中的所有hdfs文件中获取第一行。
目前,我们有一个配置单元表,其中包含有关这些文件的信息,如所有者、完整路径(位置)、所有者的公司id、文件创建日期、文件读/写权限等。我想在此配置单元表中添加一个新列,其中包含文件的完整第一行。
这就是为什么我在寻找一种方法来提取目录(在我的例子中是“/user”目录)中所有hdfs文件的第一行。我能用spark实现这个吗?
我正在尝试从集群的“/user”目录中的所有hdfs文件中获取第一行。
目前,我们有一个配置单元表,其中包含有关这些文件的信息,如所有者、完整路径(位置)、所有者的公司id、文件创建日期、文件读/写权限等。我想在此配置单元表中添加一个新列,其中包含文件的完整第一行。
这就是为什么我在寻找一种方法来提取目录(在我的例子中是“/user”目录)中所有hdfs文件的第一行。我能用spark实现这个吗?
2条答案
按热度按时间aor9mmx11#
尝试以下操作:
到处玩。
cat的工作方式与concatenate类似。
head读取作为输入提供给它的任何文本的前几行,并将它们写入标准输出(默认情况下,这是显示屏幕)
zc0qhyus2#
您可以对所有文件进行递归搜索,然后使用
cat
按照@gsamaras在另一个答案中指定的第一行