讨论在 #3072
原始帖子由 petrosbaltzis 于2024年2月28日发布
你好,
VLLM库允许从本地文件夹或直接从HuggingFace加载模型和分词器。
["python", "-m", "vllm.entrypoints.openai.api_server", \
"--host=0.0.0.0", \
"--port=8080", \
"--model=<local_path>", \
"--tokenizer=<local_path>",
]
我想知道这个功能是否可以扩展以支持S3位置,这样当我们初始化API服务器时,我们可以传递正确的S3位置。
["python", "-m", "vllm.entrypoints.openai.api_server", \
"--host=0.0.0.0", \
"--port=8080", \
"--model=<s3://bucket/prefix>", \
"--tokenizer=<s3://bucket/prefix>",
]
Petros
2条答案
按热度按时间vc9ivgsu1#
类似于@ikalista在原始讨论中提到的,我认为更好的方法是将模型存储挂载到容器上以进行模型加载,除非我们想要重写模型加载器,使其直接从S3流式传输到GPU缓冲区,就像Anyscale所做的那样。
odopli942#
抱歉在这里重新提出一个旧问题,但这是否意味着
--download-dir
无法加载权重?因为文档中说:“用于下载和加载权重的目录,默认为huggingface的默认缓存目录。”这让我以为当我指定--download-dir s3://my-bucket
时,该存储桶被用作缓存。但这个问题让我怀疑我的解释是否正确?