AutoGPTQ为什么没有量化lm_head层?

eqqqjvef  于 7个月前  发布在  其他
关注(0)|答案(5)|浏览(79)

是否有论文/文章/博客文章解释这样的决定?或者它只是目前不支持的一个功能?

d7v8vwbk

d7v8vwbk1#

好的,以下是翻译结果:

@XeonKHJ 好问题。我明天会用intel/auto-round测试一下是否能够量化lm-head。如果量化后没有推理问题,我会在新的PR中将其作为选项提供。

oipij1gg

oipij1gg2#

在英特尔的lm-head量化测试结果中,发现最小精度损失:
@wenhuach21 你知道英特尔llama3-8B lm_head量化测试与非量化相比节省了多少内存/显存吗?这里是未测试的分支,允许加载量化的lm-head,我计划进行测试:https://github.com/Qubitium/AutoGPTQ/tree/sym-false-lm-head 结合 intel/auto-round#87
https://github.com/intel/auto-round/blob/8a3da144423322dfedb0b3fa702ae35d242496d8/docs/Meta-Llama-3-8B-Instruct-acc.md?plain=1#L3
| 指标 | BF16 | w4g128 w/o lm-head | w4g128 with lm-head qdq |
| ------------ | ------------ | ------------ | ------------ |
| 平均值 | 0.6352 | 0.6312 | 0.6303 |
| mmlu | 0.6386 | 0.6306 | 0.6318 |
| winogrande | 0.7143 | 0.7238 | 0.7269 |
| truthfulqa_mc1 | 0.3623 | 0.3537 | 0.3525 |
| rte | 0.6751 | 0.6859 | 0.6679 |
| piqa | 0.7867 | 0.7797 | 0.7802 |
| openbookqa | 0.3400 | 0.3300 | 0.3320 |
| lambada_openai | 0.7182 | 0.7200 | 0.7173 |
| hellaswag | 0.5769 | 0.5699 | 0.5701 |
| boolq | 0.8297 | 0.8309 | 0.8284 |
| arc_easy | 0.8152 | 0.8089 | 0.8106 |
| arc_challenge | 0.5299 | 0.5102 | 0.5154 |

fnx2tebb

fnx2tebb3#

在英特尔的LM-Head量化测试结果中,发现最小精度损失:
@wenhuach21 你知道英特尔Llama3-8B lm_head量化测试与非量化相比节省了多少内存/显存吗?这里有一个未经测试的分支,允许加载量化的lm-head,我计划进行测试:https://github.com/Qubitium/AutoGPTQ/tree/sym-false-lm-head 结合 intel/auto-round#87
https://github.com/intel/auto-round/blob/8a3da144423322dfedb0b3fa702ae35d242496d8/docs/Meta-Llama-3-8B-Instruct-acc.md?plain=1#L3
指标 BF16 w4g128 w/o lm-head w4g128 with lm-head qdq
平均值 0.6352 0.6312 0.6303
mmlu 0.6386 0.6306 0.6318
winogrande 0.7143 0.7238 0.7269
truthfulqa_mc1 0.3623 0.3537 0.3525
rte 0.6751 0.6859 0.6679
piqa 0.7867 0.7797 0.7802
openbookqa 0.3400 0.3300 0.3320
lambada_openai 0.7182 0.7200 0.7173
hellaswag 0.5769 0.5699 0.5701
boolq 0.8297 0.8309 0.8284
arc_easy 0.8152 0.8089 0.8106
arc_challenge 0.5299 0.5102 0.5154
我知道的是,在W4G128和无lm head的情况下,模型大小为5.4G,带有lm head的情况下为4.7G。此外,如果不启用act-order或静态组,Autogptq是否可以避免将组索引转储到量化模型中,从而节省一些资源。

cygmwpex

cygmwpex4#

#648 现在可以从 intel/auto-round 加载量化的 lm_head ,但 autogptq 对 lm-head 的量化仍在进行中。

kcrjzv8t

kcrjzv8t5#

此外,如果静态分组未启用,Autogptq是否可以避免将组索引转储到量化模型中,从而节省一些资源。

这是我目前无法做到的。@fxmarty@LaaZa

相关问题