bert 请提出问题,但不要传递上下文信息,

t3psigkw  于 5个月前  发布在  其他
关注(0)|答案(5)|浏览(67)

我正在使用BERT QnA(run_squad.py)。我传入了1段上下文和1个问题。在TPU上,它花费了22秒。
在我的使用场景中,上下文段落是固定的,问题是依次出现的。22秒(在TPU上,66秒在CPU上)非常高。
是否有可能我只在预定义的上下文段落上提问,从而减少预测时间?

n8ghc7c1

n8ghc7c11#

我已经将脚本在 if FLAGS.do_predict 处拆分。
TPU 上的运行时间已缩短至 7 秒,虽然有所改善,但仍然较高。
更新:在 CPU 上,它需要 2 分钟。请问哪些部分可以拆分?

l0oc07j2

l0oc07j22#

我不确定为什么我没有收到回复。然而,到目前为止,我已经发现运行local_init_op花费了大部分时间。有人能帮忙吗?

q0qdq0h2

q0qdq0h23#

如果你正在使用估计器,它每次都会加载模型。

fkaflof6

fkaflof64#

想知道是否有一个非估计器类型的代码可用于Tensorflow,我们可以对其进行调整。与Pytorch不同,Tensorflow的学习曲线是曲折的。

huwehgph

huwehgph5#

你可以使用Tensorflow Serving进行快速推断,并且它在仅使用CPU的机器上也能运行得相当好。

相关问题