PaddleHub 当 Hub 服务运行一段时间后，无故退出,

tp5buhyn 于 6个月前发布在其他

关注(0)|答案(4)|浏览(44)

本人在Deepin 20.9系统中的Anaconda3-2023.03虚拟环境Python 3.9.17中安装的本OCR服务。其他各种依赖环境/软件等版本如下：

ch_ppocr_mobile_v2.0
ch_PP-OCRv2
paddlepaddle-gpu 2.4.2.post117
paddlehub 2.3.1
Nvidia Driver 535.54.03
CUDA Version 11.7.1

找到一条退出时的日志信息如下：

kernel: traps: hub[197635] general protection fault ip:7ff2a1b149c8 sp:7fff9800e670 error:0 in _multiarray_umath.cpython-39-x86_64-linux-gnu.so[7ff2a1ae8000+36c000]

发生了多次进程退出的情况，其中有一次进程退出后，占用的端口8866还在，无法释放，最后只能重启服务器解决。

另外第二种情况：偶尔还会出现watchdog错误，报hard lookup某个CPU内核，然后还有soft lookup。有时能恢复正常，有时load average会越来越高，最后死机。watchdog_thresh改到最大也没有。

还有第三种情况：有时服务一段时间后进程还在，系统也正常，但是对接口请求没有任何影响。只能停止服务再重新启动。

还有一个问题就是：hubserving的多进程不能用，只要在配置文件config.json中把use_multiprocess改为true,就不能正常服务器，所有请求都出错。网上说应该是多进程和cuda框架的加载顺序问题，不过对本系统不熟，不清楚如何改。

PaddleHub

来源：https://github.com/PaddlePaddle/PaddleHub/issues/2289

4条答案

按热度按时间

qv7cva1a1#

你好，请问解决了吗？我的也是运行了大概1周多的时间后，也会停止服务，请求一直超时，但是端口还在，也无法重启服务，只能重启服务器后再启动服务才能正常使用。

赞(0）回复(0）举报 6个月前

mcvgt66p2#

没有解决，随机出现。公司配了几台 GPU 服务器都有一样的问题，还有个其它的深度学习项目，还会引起死机，不管是 windows 还是 linux 系统都试过。但是用烤机软件又屁事没有。感觉这些个使用 GPU 的项目都有奇怪的问题。

赞(0）回复(0）举报 6个月前

dhxwm5r43#

另外，关于hubserving的多进程问题，后来发现文档里有写不支持GPU版本，那就不纠结这个多进程的问题了。但是其实问题难道就没几个人遇到的吗？

赞(0）回复(0）举报 6个月前

kb5ga3dv4#

ocr项目直接使用paddleocr哈，paddlehub已经停止更新了。
https://github.com/PaddlePaddle/PaddleOCR

赞(0）回复(0）举报 6个月前

我来回答

PaddleHub 当 Hub 服务运行一段时间后，无故退出,

4条答案

相关问题

热门标签

最新问答