bert 请提出问题，但不要传递上下文信息,

t3psigkw 于 5个月前发布在其他

关注(0)|答案(5)|浏览(67)

我正在使用BERT QnA(run_squad.py)。我传入了1段上下文和1个问题。在TPU上，它花费了22秒。
在我的使用场景中，上下文段落是固定的，问题是依次出现的。22秒(在TPU上，66秒在CPU上)非常高。
是否有可能我只在预定义的上下文段落上提问，从而减少预测时间？

5条答案

我已经将脚本在 if FLAGS.do_predict 处拆分。
TPU 上的运行时间已缩短至 7 秒，虽然有所改善，但仍然较高。
更新：在 CPU 上，它需要 2 分钟。请问哪些部分可以拆分？

我不确定为什么我没有收到回复。然而，到目前为止，我已经发现运行local_init_op花费了大部分时间。有人能帮忙吗？

如果你正在使用估计器，它每次都会加载模型。

想知道是否有一个非估计器类型的代码可用于Tensorflow,我们可以对其进行调整。与Pytorch不同，Tensorflow的学习曲线是曲折的。

你可以使用Tensorflow Serving进行快速推断，并且它在仅使用CPU的机器上也能运行得相当好。