我们的dmp系统有这样一个需求:1。受众导出:基于标签的受众需要每天将新的人口统计结果导出到redis或文件,再导出到dsp。因为标签数据每天都在刷新,我们有6亿用户,当我们有几万人的时候,我们应该选择什么样的技术栈来快速计算和导出?2事件分析:我们还需要根据实时事件创建受众。我们需要在受众中添加合格的人员。同时,随着时间的推移,不符合要求的人员需要被删除。有一个合适的技术堆栈建议,以满足一个或两个。
谢谢您。
我们的dmp系统有这样一个需求:1。受众导出:基于标签的受众需要每天将新的人口统计结果导出到redis或文件,再导出到dsp。因为标签数据每天都在刷新,我们有6亿用户,当我们有几万人的时候,我们应该选择什么样的技术栈来快速计算和导出?2事件分析:我们还需要根据实时事件创建受众。我们需要在受众中添加合格的人员。同时,随着时间的推移,不符合要求的人员需要被删除。有一个合适的技术堆栈建议,以满足一个或两个。
谢谢您。
1条答案
按热度按时间ru9i0ody1#
我们广泛处理来自dmps的受众数据,通常管理许多PB的数据和数百个受众。
我建议使用apache spark进行处理,因为:
编程模型的灵活性。
批处理在dmp工作流中的流行。
正常观众规模的高性能(适合ram)。
最广泛的集成集,包括到ml的功能,这些功能对于dmps来说越来越重要。
存储是一个更复杂的问题:
对象存储(s3)是最简单的,但不是性能最好的。
hdfs风格的存储在许多情况下速度更快,但成本更高。
由于访问群体是集合的,根据访问群体更新的性能需求,您还可以考虑一个键值存储,例如cassandra。
希望这有帮助。