[用法]:如何通过运行benchmark_throughput来测试VLLM吞吐量时更改批处理大小 ```markdown [用法]:如何通过运行benchmark_throughput来测试VLLM吞吐量时更改批处理大小 ```

2nbm6dog  于 2个月前  发布在  其他
关注(0)|答案(4)|浏览(28)

你当前的环境

The output of `python collect_env.py`

你希望如何使用vllm

我想运行一个特定模型的推理。我不知道如何将其与vllm集成。

xjreopfe

xjreopfe1#

添加一个名为"max-num-seqs"的额外参数
parser.add_argument('--max-num-seqs', type=int, default=16, help="batch size")

qjp7pelc

qjp7pelc2#

添加一个名为"max-num-seqs"的额外参数
parser.add_argument('--max-num-seqs', type=int, default=16, help="batch size")
谢谢!
我修改了"--num-prompt",似乎也起作用了。
顺便问一下,你知道如何使用vllm测试第一个标记的时间吗?谢谢!

7lrncoxx

7lrncoxx3#

添加一个名为"max-num-seqs"的额外参数
parser.add_argument('--max-num-seqs', type=int, default=16, help="batch size")
谢谢!我修改了"--num-prompt",似乎也起作用了。顺便问一下,你知道如何用vllm测试第一个标记的时间吗?谢谢!
好问题,我没有尝试过。如果你有解决方案,请告诉我。非常感谢。

s2j5cfk0

s2j5cfk04#

添加一个名为"max-num-seqs"的额外参数
parser.add_argument('--max-num-seqs', type=int, default=16, help="batch size")
谢谢!我更改了"--num-prompt",似乎也起作用了。顺便问一下,你知道如何使用vllm测试第一个标记的时间吗?谢谢!
使用benchmark_serving.py可以得到结果

相关问题