hdfs中数据可用性的事件通知？

yks3o0rb 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(593)

为hadoop实现数据可用性通知系统的最佳方法是什么，这样每当出现新数据时，它就会创建一个通知，作业控制框架可以利用该通知来启动依赖于该数据的作业。这里的主要问题是，一旦数据可用，就应该触发作业，而不是在namenode上轮询数据的可用性？

hadoop hdfs mapreduce

来源：https://stackoverflow.com/questions/14436748/event-notification-of-data-availability-in-hdfs

1条答案

按热度按时间

jjjwad0x1#

我要做的是使用一个生产者/消费者模型，它可以使用一个队列（比如amazonsqs）相互交互。
制作者将维护一个监视目录的列表，并且 hadoop fs -test -e /path/to/watched/dir 每隔x秒（其中x应该是一个参数），如果命令返回0 $? 然后可以向队列发送消息。消息的内容可以只是刚刚出现的目录的名称，或者您可以添加一些元数据并将其作为json对象发送（例如带有附加字段）。
另一方面，使用者将每隔y秒侦听一次队列（其中y应该是一个参数），一旦有新数据，您就可以在这个目录上启动作业。

赞(0）回复(0）举报 2021-06-04

我来回答

hdfs中数据可用性的事件通知？

1条答案

相关问题

热门标签

最新问答