你能很容易地将aws-rds-postgres日志发送到aws-hadoop集群吗?

pokxtpni  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(370)

特别是,我想将postgres日志中的所有insert、update和delete语句推送到aws hadoop集群中,并有一个很好的方法来搜索它们以查看一行或多行的历史记录。
我不是hadoopMaven,所以如果这是一个红鲱鱼让我知道。
谢谢!

pinkon5k

pinkon5k1#

使用flume将日志从rds示例发送到hadoop集群。使用flume,您可以使用regex拦截器过滤事件,只发送insert、update和delete语句。hadoop不能使您的数据可搜索,因此您必须使用solr之类的工具。
您可以先将数据获取到hadoop,然后运行一堆mapreduce作业将数据插入solr。或者您可以直接配置flume将数据写入solr,请参见下面的链接。
链接:
使用Flume或Flume
Flume正则过滤拦截器
编辑:
rds示例似乎没有ssh访问权限,这意味着您不能在rds示例本身上本机运行flume,但是您必须定期手动将rds示例的日志获取到配置了flume的机器(可能是ec2示例)。

相关问题