是否有论文/文章/博客文章解释这样的决定?或者它只是目前不支持的一个功能?
d7v8vwbk1#
好的,以下是翻译结果:
@XeonKHJ 好问题。我明天会用intel/auto-round测试一下是否能够量化lm-head。如果量化后没有推理问题,我会在新的PR中将其作为选项提供。
oipij1gg2#
在英特尔的lm-head量化测试结果中,发现最小精度损失:@wenhuach21 你知道英特尔llama3-8B lm_head量化测试与非量化相比节省了多少内存/显存吗?这里是未测试的分支,允许加载量化的lm-head,我计划进行测试:https://github.com/Qubitium/AutoGPTQ/tree/sym-false-lm-head 结合 intel/auto-round#87https://github.com/intel/auto-round/blob/8a3da144423322dfedb0b3fa702ae35d242496d8/docs/Meta-Llama-3-8B-Instruct-acc.md?plain=1#L3| 指标 | BF16 | w4g128 w/o lm-head | w4g128 with lm-head qdq || ------------ | ------------ | ------------ | ------------ || 平均值 | 0.6352 | 0.6312 | 0.6303 || mmlu | 0.6386 | 0.6306 | 0.6318 || winogrande | 0.7143 | 0.7238 | 0.7269 || truthfulqa_mc1 | 0.3623 | 0.3537 | 0.3525 || rte | 0.6751 | 0.6859 | 0.6679 || piqa | 0.7867 | 0.7797 | 0.7802 || openbookqa | 0.3400 | 0.3300 | 0.3320 || lambada_openai | 0.7182 | 0.7200 | 0.7173 || hellaswag | 0.5769 | 0.5699 | 0.5701 || boolq | 0.8297 | 0.8309 | 0.8284 || arc_easy | 0.8152 | 0.8089 | 0.8106 || arc_challenge | 0.5299 | 0.5102 | 0.5154 |
fnx2tebb3#
在英特尔的LM-Head量化测试结果中,发现最小精度损失:@wenhuach21 你知道英特尔Llama3-8B lm_head量化测试与非量化相比节省了多少内存/显存吗?这里有一个未经测试的分支,允许加载量化的lm-head,我计划进行测试:https://github.com/Qubitium/AutoGPTQ/tree/sym-false-lm-head 结合 intel/auto-round#87https://github.com/intel/auto-round/blob/8a3da144423322dfedb0b3fa702ae35d242496d8/docs/Meta-Llama-3-8B-Instruct-acc.md?plain=1#L3指标 BF16 w4g128 w/o lm-head w4g128 with lm-head qdq平均值 0.6352 0.6312 0.6303mmlu 0.6386 0.6306 0.6318winogrande 0.7143 0.7238 0.7269truthfulqa_mc1 0.3623 0.3537 0.3525rte 0.6751 0.6859 0.6679piqa 0.7867 0.7797 0.7802openbookqa 0.3400 0.3300 0.3320lambada_openai 0.7182 0.7200 0.7173hellaswag 0.5769 0.5699 0.5701boolq 0.8297 0.8309 0.8284arc_easy 0.8152 0.8089 0.8106arc_challenge 0.5299 0.5102 0.5154我知道的是,在W4G128和无lm head的情况下,模型大小为5.4G,带有lm head的情况下为4.7G。此外,如果不启用act-order或静态组,Autogptq是否可以避免将组索引转储到量化模型中,从而节省一些资源。
cygmwpex4#
#648 现在可以从 intel/auto-round 加载量化的 lm_head ,但 autogptq 对 lm-head 的量化仍在进行中。
intel/auto-round
lm_head
kcrjzv8t5#
此外,如果静态分组未启用,Autogptq是否可以避免将组索引转储到量化模型中,从而节省一些资源。
这是我目前无法做到的。@fxmarty@LaaZa
5条答案
按热度按时间d7v8vwbk1#
好的,以下是翻译结果:
@XeonKHJ 好问题。我明天会用intel/auto-round测试一下是否能够量化lm-head。如果量化后没有推理问题,我会在新的PR中将其作为选项提供。
oipij1gg2#
在英特尔的lm-head量化测试结果中,发现最小精度损失:
@wenhuach21 你知道英特尔llama3-8B lm_head量化测试与非量化相比节省了多少内存/显存吗?这里是未测试的分支,允许加载量化的lm-head,我计划进行测试:https://github.com/Qubitium/AutoGPTQ/tree/sym-false-lm-head 结合 intel/auto-round#87
https://github.com/intel/auto-round/blob/8a3da144423322dfedb0b3fa702ae35d242496d8/docs/Meta-Llama-3-8B-Instruct-acc.md?plain=1#L3
| 指标 | BF16 | w4g128 w/o lm-head | w4g128 with lm-head qdq |
| ------------ | ------------ | ------------ | ------------ |
| 平均值 | 0.6352 | 0.6312 | 0.6303 |
| mmlu | 0.6386 | 0.6306 | 0.6318 |
| winogrande | 0.7143 | 0.7238 | 0.7269 |
| truthfulqa_mc1 | 0.3623 | 0.3537 | 0.3525 |
| rte | 0.6751 | 0.6859 | 0.6679 |
| piqa | 0.7867 | 0.7797 | 0.7802 |
| openbookqa | 0.3400 | 0.3300 | 0.3320 |
| lambada_openai | 0.7182 | 0.7200 | 0.7173 |
| hellaswag | 0.5769 | 0.5699 | 0.5701 |
| boolq | 0.8297 | 0.8309 | 0.8284 |
| arc_easy | 0.8152 | 0.8089 | 0.8106 |
| arc_challenge | 0.5299 | 0.5102 | 0.5154 |
fnx2tebb3#
在英特尔的LM-Head量化测试结果中,发现最小精度损失:
@wenhuach21 你知道英特尔Llama3-8B lm_head量化测试与非量化相比节省了多少内存/显存吗?这里有一个未经测试的分支,允许加载量化的lm-head,我计划进行测试:https://github.com/Qubitium/AutoGPTQ/tree/sym-false-lm-head 结合 intel/auto-round#87
https://github.com/intel/auto-round/blob/8a3da144423322dfedb0b3fa702ae35d242496d8/docs/Meta-Llama-3-8B-Instruct-acc.md?plain=1#L3
指标 BF16 w4g128 w/o lm-head w4g128 with lm-head qdq
平均值 0.6352 0.6312 0.6303
mmlu 0.6386 0.6306 0.6318
winogrande 0.7143 0.7238 0.7269
truthfulqa_mc1 0.3623 0.3537 0.3525
rte 0.6751 0.6859 0.6679
piqa 0.7867 0.7797 0.7802
openbookqa 0.3400 0.3300 0.3320
lambada_openai 0.7182 0.7200 0.7173
hellaswag 0.5769 0.5699 0.5701
boolq 0.8297 0.8309 0.8284
arc_easy 0.8152 0.8089 0.8106
arc_challenge 0.5299 0.5102 0.5154
我知道的是,在W4G128和无lm head的情况下,模型大小为5.4G,带有lm head的情况下为4.7G。此外,如果不启用act-order或静态组,Autogptq是否可以避免将组索引转储到量化模型中,从而节省一些资源。
cygmwpex4#
#648 现在可以从
intel/auto-round
加载量化的lm_head
,但 autogptq 对 lm-head 的量化仍在进行中。kcrjzv8t5#
此外,如果静态分组未启用,Autogptq是否可以避免将组索引转储到量化模型中,从而节省一些资源。
这是我目前无法做到的。@fxmarty@LaaZa