当尝试运行aml示例,例如bloom aml时,它尝试运行get_acr_name(),但由于缺少资源组名称参数而失败。是否有办法传递用户参数,如资源组、订阅等?另外,将更多参数暴露给aml在线端点也很好,例如auth_mode,例如在生产环境中我们不允许使用密钥,只允许使用aml_tokens。但我也可以想象其他部署属性/参数也很有用,如示例数量或类型。
安装:
deepspeed==0.7.6
deepspeed-mii==0.0.4
py3.9.0
Ubuntu 20.04.4 LTS (Focal Fossa)
5条答案
按热度按时间o2rvlv0m1#
@aponte411 目前我们希望用户能够像这样从Azure-CLI设置资源组和订阅:
az account set --subscription "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
我同意提供更多选项并扩展AML部署功能会很好。如果你有时间帮忙测试/调试/扩展这些功能,请告诉我!
wb1gzix02#
你好,我已经解决了这个问题。我遇到了一个关于torch的问题(需要使用pip卸载nvidia_cublas_cu11),而且我还不在GPU虚拟机上。现在我已经成功地使用deploy.sh构建了文件夹并部署到了一个托管的端点。
@aponte411 - 你有什么进展吗?我在Jupyter笔记本上也遇到了相同的错误。
依赖库:
deepspeed==0.8.2
deepspeed-mii==0.05+unknown
python==3.8.0
Ubuntu==20.04.1
kxeu7u2r3#
翻译结果为:@buswrecker我可以从GPU VM运行deepspeed mii,但我仍然无法部署,我得到相同的错误:
$
subprocess.CalledProcessError: Command '['az', 'ml', 'workspace', 'show', '--query', 'container_registry']' returned non-zero exit status 2.
$camsedfj4#
我按照readme中的说明也无法使这个命令正常工作。唯一能使用aml的方法是在我重写了
get_acr_name()
函数,使其返回我的acr名称而不是调用az cli命令之后。有没有办法为这个命令设置一个默认的--name
参数,这样就可以修复这个问题,并返回正确的acr名称?我正在谈论的命令是:
注意,我还尝试将
--name myworkspacename
作为参数放入,但它只是返回了------
anauzrmj5#
我正在面临相同的问题,在GPU VM上。也许,添加"shell=True"可以解决这个问题?