我正在使用BERT QnA(run_squad.py)。我传入了1段上下文和1个问题。在TPU上,它花费了22秒。在我的使用场景中,上下文段落是固定的,问题是依次出现的。22秒(在TPU上,66秒在CPU上)非常高。是否有可能我只在预定义的上下文段落上提问,从而减少预测时间?
n8ghc7c11#
我已经将脚本在 if FLAGS.do_predict 处拆分。TPU 上的运行时间已缩短至 7 秒,虽然有所改善,但仍然较高。更新:在 CPU 上,它需要 2 分钟。请问哪些部分可以拆分?
l0oc07j22#
我不确定为什么我没有收到回复。然而,到目前为止,我已经发现运行local_init_op花费了大部分时间。有人能帮忙吗?
q0qdq0h23#
如果你正在使用估计器,它每次都会加载模型。
fkaflof64#
想知道是否有一个非估计器类型的代码可用于Tensorflow,我们可以对其进行调整。与Pytorch不同,Tensorflow的学习曲线是曲折的。
huwehgph5#
你可以使用Tensorflow Serving进行快速推断,并且它在仅使用CPU的机器上也能运行得相当好。
5条答案
按热度按时间n8ghc7c11#
我已经将脚本在 if FLAGS.do_predict 处拆分。
TPU 上的运行时间已缩短至 7 秒,虽然有所改善,但仍然较高。
更新:在 CPU 上,它需要 2 分钟。请问哪些部分可以拆分?
l0oc07j22#
我不确定为什么我没有收到回复。然而,到目前为止,我已经发现运行local_init_op花费了大部分时间。有人能帮忙吗?
q0qdq0h23#
如果你正在使用估计器,它每次都会加载模型。
fkaflof64#
想知道是否有一个非估计器类型的代码可用于Tensorflow,我们可以对其进行调整。与Pytorch不同,Tensorflow的学习曲线是曲折的。
huwehgph5#
你可以使用Tensorflow Serving进行快速推断,并且它在仅使用CPU的机器上也能运行得相当好。