语义分割模型icnet转为ncnn后,和caffe用cpu推理时间作比较,在pc上慢了一倍多,嵌入式arm平台上慢了好几倍。
dnph8jn41#
可能是用了比较多的 deconvolution?建议改为 upsampling + conv
lmyy7pcs2#
没有使用deconvolution层,用的时interp层
sxissh063#
编译时没有开启 neon 吗?观察下编译过程中,是不是 src/layer/arm/xxxx_arm.cpp
oknwwptz4#
原模型的耗时时长多少,在cpu下还是gpu下什么框架跑得呢
7fyelxc55#
在cpu下跑,arm下,转ncnn速度慢到1500ms,后面尝试mnn速度120ms
ar7v8xwq6#
我的编译的时候开启了neon,也加载了 layer/arm/XXX_arm.cpp:[ 13%] Building CXX object src/CMakeFiles/ncnn.dir/layer/arm/batchnorm_arm.cpp.o[ 19%] Building CXX object src/CMakeFiles/ncnn.dir/layer/arm/convolution_arm.cpp.o
85%] Building CXX object src/CMakeFiles/ncnn.dir/layer/arm/hardsigmoid_arm.cpp.o[ 89%] Building CXX object src/CMakeFiles/ncnn.dir/layer/arm/hardswish_arm.cpp.o
但是移植后速度也还是很慢,800X800的单张要1.5s,227X227的大概500ms内。
6条答案
按热度按时间dnph8jn41#
可能是用了比较多的 deconvolution?建议改为 upsampling + conv
lmyy7pcs2#
可能是用了比较多的 deconvolution?建议改为 upsampling + conv
没有使用deconvolution层,用的时interp层
sxissh063#
编译时没有开启 neon 吗?
观察下编译过程中,是不是 src/layer/arm/xxxx_arm.cpp
oknwwptz4#
原模型的耗时时长多少,在cpu下还是gpu下什么框架跑得呢
7fyelxc55#
原模型的耗时时长多少,在cpu下还是gpu下什么框架跑得呢
在cpu下跑,arm下,转ncnn速度慢到1500ms,后面尝试mnn速度120ms
ar7v8xwq6#
编译时没有开启 neon 吗?
观察下编译过程中,是不是 src/layer/arm/xxxx_arm.cpp
我的编译的时候开启了neon,也加载了 layer/arm/XXX_arm.cpp:
[ 13%] Building CXX object src/CMakeFiles/ncnn.dir/layer/arm/batchnorm_arm.cpp.o
[ 19%] Building CXX object src/CMakeFiles/ncnn.dir/layer/arm/convolution_arm.cpp.o
85%] Building CXX object src/CMakeFiles/ncnn.dir/layer/arm/hardsigmoid_arm.cpp.o
[ 89%] Building CXX object src/CMakeFiles/ncnn.dir/layer/arm/hardswish_arm.cpp.o
但是移植后速度也还是很慢,800X800的单张要1.5s,227X227的大概500ms内。