对于生产类型的设置,记录的tbs将写入kafka主题,使用kafka connect-hdfs连接器的最佳实践是什么?
我的kafka示例在aws主机名a.b.c.d上运行,我的hadoop namenode在aws主机名p.q.r.s上运行。出于开发/poc目的,我们与在a.b.c.d上运行的kafka示例在同一个框中保持合流。hdfs集群大小为500gb。
但是对于集群大小为20-30 tb的生产类型设置,建议将合流保持在与kafka示例相同的框中,还是保持在namenode框中或单独的框中?在这种生产情况下,confluent需要多少独立的磁盘大小?
1条答案
按热度按时间btqmn9zl1#
我假设你所说的“合流”是指连接工人,所以这个评论是基于这个假设。最明智的做法是尽可能分开服务。分别从代理和namenode运行worker。连接工作者需要很少的磁盘空间,因为他们不持有数据(除了独立模式下的偏移数据)。在分布式模式下,您可以弹性地扩展worker,因此分离事物对于长期的可伸缩设置也是更好的。
对于您的用例,如果您想在同一个框中运行东西,您确实需要进行基准测试以确保性能是可接受的。弄清楚是否可以共同定位是一个真正的咨询问题,它需要你的用例的细节到一个可能不适合在线论坛的水平。