docker镜像没有安装flash-attention,因为orion这样的大模型需要这个模块,所以,建议加入pip install flash-attn
kqqjbcuj1#
这个推荐自己基于镜像再 build 一层,flash-attension 编译需要看运行时环境。
sy5wg1nm2#
这个推荐自己基于镜像再 build 一层,flash-attension 编译需要看运行时环境我只是建议。其实你们Xinference需要很多运行时环境,包括cuda环境,所以我建议这个flash-attention一起配上。
2条答案
按热度按时间kqqjbcuj1#
这个推荐自己基于镜像再 build 一层,flash-attension 编译需要看运行时环境。
sy5wg1nm2#
这个推荐自己基于镜像再 build 一层,flash-attension 编译需要看运行时环境
我只是建议。其实你们Xinference需要很多运行时环境,包括cuda环境,所以我建议这个flash-attention一起配上。