如何在hadoop级联中加载固定宽度的文件

68bkxrlz 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(436)

如何在hadoop级联中加载一个固定宽度的文件，或者我们应该根据字段的特殊性使用任何外部udf来加载文件？我们应该如何在hadoop级联中调用外部udf？

hadoop cascading

来源：https://stackoverflow.com/questions/28193003/how-to-load-a-fixed-width-file-in-hadoop-cascading

1条答案

按热度按时间

gorkyyrv1#

据我所知没有固定宽度的水龙头。定制水龙头是痛苦的实现（相信我，我知道）。所以我们不用担心。
最简单的方法是在点击时使用textlinescheme。输入管道应该做的第一件事是转到自定义函数。您的输入方案是一个包含两列的元组：offset和line。您希望使用该线（忽略偏移）。函数解析列并返回一个新的tupleentry，其中包含由实际数据定义的字段。扩展baseoperation时，传递函数将在 super(new Fields("FirstName", "LastName", "etc)) ;
完成此操作后，将函数的输出管道传递给下游流的其余部分。

赞(0）回复(0）举报 2021-06-04

我来回答

如何在hadoop级联中加载固定宽度的文件

1条答案

相关问题

热门标签

最新问答