inference Docker镜像需要安装flash-attn,

dpiehjr4  于 10个月前  发布在  Docker
关注(0)|答案(2)|浏览(151)

docker镜像没有安装flash-attention,因为orion这样的大模型需要这个模块,所以,建议加入
pip install flash-attn

kqqjbcuj

kqqjbcuj1#

这个推荐自己基于镜像再 build 一层,flash-attension 编译需要看运行时环境。

sy5wg1nm

sy5wg1nm2#

这个推荐自己基于镜像再 build 一层,flash-attension 编译需要看运行时环境
我只是建议。其实你们Xinference需要很多运行时环境,包括cuda环境,所以我建议这个flash-attention一起配上。

相关问题