我有几个问题关于Cassandra连接器写的数据登山。任何帮助都是非常感谢的,因为我们正试图找出最好的方式来扩展我们的架构。
我们是否必须为每个要更新的cassandra表创建连接器配置?例如,假设我有1000张table。每个表专用于不同类型的小部件。每个小部件都有相似的特性,但数据略有不同。我们需要为每个表创建一个连接器吗?如果是的话,这是如何管理的,这是如何扩展的?
在cassandra中,我们经常需要根据业务需要对列族进行建模。我们可能有3个代表用户信息的表。一个是用户名,一个是电子邮件,一个是姓。我们需要3个连接器配置并部署3个独立的接收器任务来将数据推送到每个表吗?
1条答案
按热度按时间vs91vp4v1#
我认为这两个问题是相似的,Flume能处理多个主题吗?
接收器可以在一个接收器中处理多个表,因此只有一个配置。这是在kql语句中设置的
connect.cassandra.export.route.query=INSERT INTO orders SELECT * FROM orders-topic;INSERT INTO positions SELECT * FROM positions
但目前它们需要在同一个cassandra键空间中。这将把事件从trades主题路由到一个名为trades和events from positions的cassandra表。您还可以选择特定的列,并像select columna as columnb那样重命名。您可能需要多个sink示例来分离关注点,即将一组主题的编写与其他无关主题隔离开来。
您可以根据连接器允许运行的任务数进行缩放,每个任务为所有目标表启动一个writer。
我们有自己的支持渠道,可以进行更直接的沟通。https://datamountaineer.com/contact/