在hadoop中预处理和接收数据

q9rjltbz  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(384)

我们有两种日志:
1) 会话日志:会话id、用户id、开始日期时间、结束日期时间
2) 事件日志:session\u id,date\u time,x,y,z
我们只需要存储事件日志,但希望用相应的用户id替换会话id。我们应该使用哪些技术(如flume?)在hdfs中存储数据?
谢谢!

w51jfk4q

w51jfk4q1#

是的,flume可以用来将日志文件移动到hdfs。
要将会话\u id替换为用户\u id,您可以:
使用shell脚本执行此操作-并生成“修改的事件日志文件”-这是flume将获取的内容。这将是最简单的方法。

相关问题