我有一个以xml格式返回数据的api。
我想每天运行这个,并将返回的数据存储在hadoop中。看完Flume设置文件后有点迷路了。任何人都有通过flume从简单的外部api中提取数据/使用oozie调度数据的端到端步骤吗?
目前,我已经创建了一个java程序,该程序可以提取数据并将其放入一个文件中,该文件的格式确实是\ddmmyyyhhmmss.xml,随后还使用了类似的以制表符分隔的txt格式,以便于使用。我可以每天cron它,并在hive中创建外部表来指向文件的位置。对我来说,这不是一个优雅的解决方案。
1条答案
按热度按时间6jygbczu1#
您可以在java程序中使用嵌入式代理特性,并将事件直接发送到flume示例