在gcp上制作可伸缩的postgres源代码机器学习管道

afdcj2ne  于 2021-05-19  发布在  Spark
关注(0)|答案(1)|浏览(459)

我目前正尝试在google云平台上建立一个培训管道。虽然我可以在一个示例上进行训练,但数据的规模可以小于等于1 tb。这给我留下了一些选择,关于如何使用云平台来接近这个应用程序的培训管道。我正在考虑使用一个spark连接器到postgres,它可以读取数据,然后使用pandas或其他Dataframe功能执行数据争用。这将输入到深度学习/机器学习训练中,然后输出模型。我读过一些东西,比如气流/luigi可以帮助装载这样的管道。然而,在构建这个系统之前,我有一大堆问题想知道答案:
当spark连接到postgres数据库时,它会将整个数据集下载到临时文件/avro/parquet文件中进行处理。我可以在这里使用最小内存吗?我如何确保这是发生的?
google云平台/aws上有没有什么工具已经具备了这样的功能?没有说明原因,我不想使用databricks。
我想使用大量的机器学习算法。虽然一开始我想使用传统的回归方法,如套索等,随着时间的推移,我想开始使用更深入的学习技术,如cnns/rnns。我知道这是一个很难回答的问题,可能也适用于它自己的堆栈溢出问题。
这个体系结构是否存在可伸缩性问题?

w6lpcovy

w6lpcovy1#

对此,我的回答是使用了一些类似于:

请让我知道,如果有任何关于这个架构的反馈。

相关问题