dmp系统的技术栈选择

wdebmtf2 于 2021-05-27 发布在 Hadoop

关注(0)|答案(1)|浏览(516)

我们的dmp系统有这样一个需求：1。受众导出：基于标签的受众需要每天将新的人口统计结果导出到redis或文件，再导出到dsp。因为标签数据每天都在刷新，我们有6亿用户，当我们有几万人的时候，我们应该选择什么样的技术栈来快速计算和导出？2事件分析：我们还需要根据实时事件创建受众。我们需要在受众中添加合格的人员。同时，随着时间的推移，不符合要求的人员需要被删除。有一个合适的技术堆栈建议，以满足一个或两个。
谢谢您。

hadoop kylin apache-spark druid apache-flink

来源：https://stackoverflow.com/questions/58915384/tech-stack-selection-for-dmp-systems

1条答案

按热度按时间

ru9i0ody1#

我们广泛处理来自dmps的受众数据，通常管理许多PB的数据和数百个受众。
我建议使用apache spark进行处理，因为：
编程模型的灵活性。
批处理在dmp工作流中的流行。
正常观众规模的高性能（适合ram）。
最广泛的集成集，包括到ml的功能，这些功能对于dmps来说越来越重要。
存储是一个更复杂的问题：
对象存储（s3）是最简单的，但不是性能最好的。
hdfs风格的存储在许多情况下速度更快，但成本更高。
由于访问群体是集合的，根据访问群体更新的性能需求，您还可以考虑一个键值存储，例如cassandra。
希望这有帮助。

赞(0）回复(0）举报 2021-05-27

我来回答

dmp系统的技术栈选择

1条答案

相关问题

热门标签

最新问答