llama.cpp 将某些操作(如注意力计算)仅卸载到GPU上,

ffdz8vbo  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(41)

是否有办法将某些操作(如注意力计算)仅卸载到GPU,而其他操作(如层归一化等)则卸载到CPU?

pcrecxhr

pcrecxhr1#

我看不到这样做有任何阅读的好处。由于复制数据所需的时间,它将对性能产生负面影响,CPU <==> GPU

相关问题