DeepSpeed-MII AML部署错误,由于缺少az cli参数

dgjrabp2  于 6个月前  发布在  其他
关注(0)|答案(5)|浏览(175)

当尝试运行aml示例,例如bloom aml时,它尝试运行get_acr_name(),但由于缺少资源组名称参数而失败。是否有办法传递用户参数,如资源组、订阅等?另外,将更多参数暴露给aml在线端点也很好,例如auth_mode,例如在生产环境中我们不允许使用密钥,只允许使用aml_tokens。但我也可以想象其他部署属性/参数也很有用,如示例数量或类型。

安装:
deepspeed==0.7.6
deepspeed-mii==0.0.4
py3.9.0
Ubuntu 20.04.4 LTS (Focal Fossa)

o2rvlv0m

o2rvlv0m1#

@aponte411 目前我们希望用户能够像这样从Azure-CLI设置资源组和订阅:
az account set --subscription "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
我同意提供更多选项并扩展AML部署功能会很好。如果你有时间帮忙测试/调试/扩展这些功能,请告诉我!

wb1gzix0

wb1gzix02#

你好,我已经解决了这个问题。我遇到了一个关于torch的问题(需要使用pip卸载nvidia_cublas_cu11),而且我还不在GPU虚拟机上。现在我已经成功地使用deploy.sh构建了文件夹并部署到了一个托管的端点。

@aponte411 - 你有什么进展吗?我在Jupyter笔记本上也遇到了相同的错误。

依赖库:
deepspeed==0.8.2
deepspeed-mii==0.05+unknown
python==3.8.0
Ubuntu==20.04.1

kxeu7u2r

kxeu7u2r3#

翻译结果为:@buswrecker我可以从GPU VM运行deepspeed mii,但我仍然无法部署,我得到相同的错误:

$subprocess.CalledProcessError: Command '['az', 'ml', 'workspace', 'show', '--query', 'container_registry']' returned non-zero exit status 2.$

camsedfj

camsedfj4#

我按照readme中的说明也无法使这个命令正常工作。唯一能使用aml的方法是在我重写了get_acr_name()函数,使其返回我的acr名称而不是调用az cli命令之后。有没有办法为这个命令设置一个默认的--name参数,这样就可以修复这个问题,并返回正确的acr名称?
我正在谈论的命令是:

["az",
  "ml",
  "workspace",
   "show",
   "--query",
   "container_registry"],

注意,我还尝试将--name myworkspacename作为参数放入,但它只是返回了------

anauzrmj

anauzrmj5#

我正在面临相同的问题,在GPU VM上。也许,添加"shell=True"可以解决这个问题?

acr_name = subprocess.check_output(
            ["az",
             "ml",
             "workspace",
             "show",
             "--query",
             "container_registry"],
            text=True, shell=True)

相关问题