我正在建立一个依赖机器学习算法输出的网站。网站面向用户的部分所需要的只是算法的输出(一组项目的类标签),它可以很容易地存储在django
模型中,也可以从django
模型中检索。算法可以每天运行一次,并且不依赖于用户输入。
所以这部分站点只依赖于django
和相关的包。
但是开发、调整和评估算法需要使用许多其他的python包,如scikit-learn
、pandas
、numpy
、matplotlib
等。它还需要保存许多不同的类标签集。
这些依赖项在部署到heroku
时会导致一些问题,因为numpy
需要LAPACK/BLAS.
。在已部署的应用程序中尽可能少地使用依赖项似乎也是一种好做法。
如何将机器学习部分与面向用户的部分分开,同时又能将它们充分集成,使算法的结果易于使用?
我想创建两个独立的项目,然后以某种方式写入面向用户的数据库,但这似乎会导致维护问题(管理依赖关系、数据库模式的更改等)。
据我所知,这个问题与使用不同的设置或数据库进行生产和开发有一点不同,因为它更多的是关于管理不同的依赖项集合。
3条答案
按热度按时间5rgfhyps1#
把我们讨论过的内容移到答案上,以防人们有同样的问题,我的建议是:
1.花点时间定义站点和算法代码的依赖项。
1.将每个项目的依赖项列表转储到
requirements.txt
中。1.将它们部署在不同的环境中,这样就不会发生冲突。
1.使用Django Rest Framework或Tastypie在您的站点端开发一些API端点,并让您的算法代码使用API更新您的模型。使用
cron
定期运行您的算法代码并推送数据。62o28rlo2#
为每个环境创建一个需求文件,并为所有环境共享的软件包创建一个基本需求文件。
然后调整您的开发和生产依赖项,并在适当的环境中安装每个依赖项
pgccezyw3#
我更喜欢使用poetry作为我的依赖管理器,它允许你定义开发依赖,而不是有单独的requirements.txt文件,这是额外的工作。