我已经为twitter情绪分析创建了一个项目,它运行良好。以下是流程的简要说明:
twitter->flume hourly data->hdfs->hive table for hourly data using partition->extract/clean/transform并使用unix script/sql loader->bo/tableau for dashboard将数据加载到oracle表中。
如上所述,唯一的问题是-它不是实时的。
我想提取tweets每5分钟使用flume,然后改变相应的工作流程。
我在互联网上做了一些研究,但没有找到任何例子/用例,我们可以配置flume每5分钟采集一次数据。不过,我可以每1分钟采集一次数据,但这不是我想做的。
任何关于这件事的建议都是非常有用的!!
你好,suddhasatwa
暂无答案!
目前还没有任何答案,快来回答吧!