ollama 在使用LLM时如何使用批处理?

fjaof16o  于 4个月前  发布在  其他
关注(0)|答案(1)|浏览(107)

我注意到API不支持处理批处理提示,GPU利用率较低,我想使用批处理模式来提高GPU利用率并加速推理过程,那么应该怎么做呢?

aij0ehis

aij0ehis1#

#!/bin/bash

[ -z "$1" ] && { echo "usage: $0 batch-file" ; exit 1 ; }

export OLLAMA_HOST=${OLLAMA_HOST-localhost:11434}

get_completion() {
  id="$(jq -r .custom_id <<< "$1")"
  url="$(jq -r .url <<< "$1")"
  body="$(jq -cr .body <<< "$1")"
  curl -s $OLLAMA_HOST$url -d "$body" | jq -c '{"custom_id":"'$id'"}+.'
}
export -f get_completion

parallel --jobs ${OLLAMA_NUM_PARALLEL-1} get_completion < "$1"

相关问题