MOSS RuntimeError: "LayerNormKernelImpl" not implemented for 'Half'

wgmfuz8q 于 6个月前发布在其他

关注(0)|答案(9)|浏览(113)

在Colab上按照示例代码运行：

outputs = model.generate(**inputs, do_sample=True, temperature=0.7, top_p=0.8, repetition_penalty=1.1, max_new_tokens=128)

这段命令报错

9条答案

单精度推理无法在CPU上执行，您需要将model与input全部转移到您的GPU上，或者将model的dtype设置为torch.float32。

我有GPU，但是感觉他没有用？

感觉是colab的锅

您可能需要运行：

model = model.cuda()
inputs["input_ids"] = inputs["input_ids"].cuda()
inputs["attention_mask"] = inputs["attention_mask"].cuda()

不用，不用，是colab的问题，显示有GPU实际上没有。

运行时错误：CUDA错误：设备上没有可用于执行的内核映像
CUDA内核错误可能会在其他API调用中异步报告，因此下面的堆栈跟踪可能不正确。
为了调试，请考虑传递CUDA_LAUNCH_BLOCKING=1。

还是不行，可以尝试在Colab上运行示例代码吗？感觉跑不通。

我们需要提供一个Colab的示例代码吗？

我有GPU，但是感觉他没有用？

base 模型下载到colab用了多长时间