ollama 在使用LLM时如何使用批处理？

fjaof16o 于 4个月前发布在其他

关注(0)|答案(1)|浏览(107)

我注意到API不支持处理批处理提示，GPU利用率较低，我想使用批处理模式来提高GPU利用率并加速推理过程，那么应该怎么做呢？

ollama

来源：https://github.com/ollama/ollama/issues/6437

1条答案

按热度按时间

aij0ehis1#

#!/bin/bash

[ -z "$1" ] && { echo "usage: $0 batch-file" ; exit 1 ; }

export OLLAMA_HOST=${OLLAMA_HOST-localhost:11434}

get_completion() {
  id="$(jq -r .custom_id <<< "$1")"
  url="$(jq -r .url <<< "$1")"
  body="$(jq -cr .body <<< "$1")"
  curl -s $OLLAMA_HOST$url -d "$body" | jq -c '{"custom_id":"'$id'"}+.'
}
export -f get_completion

parallel --jobs ${OLLAMA_NUM_PARALLEL-1} get_completion < "$1"

赞(0）回复(0）举报 4个月前

我来回答

ollama 在使用LLM时如何使用批处理？

1条答案

相关问题

热门标签

最新问答