从hdfs读取数据时级联的实现问题

eanckbw9  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(272)

假设我有这些文件 hdfs 目录

500/Customer/part-001
500/Customer/part-002
500/Customer/part-003

可以检查元组来自哪个部件文件吗?
note:i have 研究过了,但一无所获。

lkaoscv7

lkaoscv71#

你的问题不太清楚。假设您的输出在下面的布局中,分隔符是“;”
身份证件;姓名;年龄
1;乔丹;22
2;内森;33
等等
你可以用awk或者grep或者两者都用来获取记录
例如,如果要搜索记录nathan,请尝试file命令
格雷普-r“内森”部分*
上面的命令将搜索字符串“nathan”,如果字符串存在于任何零件文件中,则输出中的第一个条目(单词)将是文件名。
如果你不想要你可以使用的文件名
格雷普-hr“内森”部分*
提问时请讲清楚。

3pmvbmvn

3pmvbmvn2#

我得到了如何从哪个部件文件得到元组文件的答案。我用下面的代码解决了我的问题。

String fileName = flowProcess.getProperty("cascading.source.path").toString();

谢谢,

相关问题