keras Matterport的掩码rcnn在设置参数后不训练

fwzugrvs  于 2023-06-30  发布在  其他
关注(0)|答案(3)|浏览(91)

任务:Mask RCNN train_shapes.ipynb tutorial。训练以分割人工生成的形状数据集中的不同形状。
问题:Matterport的Mask RCNN实现不适用于此笔记本。
我试过的事:
1.解决了所有的类和包的错误,由于进口文件即配置,模型,实用程序。
1.解决了由于代码弃用而导致的TF2.x错误。
我设置的参数:

Configurations:
BACKBONE                       resnet101
BACKBONE_STRIDES               [4, 8, 16, 32, 64]
BATCH_SIZE                     1
BBOX_STD_DEV                   [0.1 0.1 0.2 0.2]
COMPUTE_BACKBONE_SHAPE         None
DETECTION_MAX_INSTANCES        100
DETECTION_MIN_CONFIDENCE       0.7
DETECTION_NMS_THRESHOLD        0.3
FPN_CLASSIF_FC_LAYERS_SIZE     1024
GPU_COUNT                      1
GRADIENT_CLIP_NORM             5.0
IMAGES_PER_GPU                 1
IMAGE_CHANNEL_COUNT            3
IMAGE_MAX_DIM                  128
IMAGE_META_SIZE                16
IMAGE_MIN_DIM                  128
IMAGE_MIN_SCALE                0
IMAGE_RESIZE_MODE              square
IMAGE_SHAPE                    [128 128   3]
LEARNING_MOMENTUM              0.9
LEARNING_RATE                  0.001
LOSS_WEIGHTS                   {'rpn_class_loss': 1.0, 'rpn_bbox_loss': 1.0, 'mrcnn_class_loss': 1.0, 'mrcnn_bbox_loss': 1.0, 'mrcnn_mask_loss': 1.0}
MASK_POOL_SIZE                 14
MASK_SHAPE                     [28, 28]
MAX_GT_INSTANCES               100
MEAN_PIXEL                     [123.7 116.8 103.9]
MINI_MASK_SHAPE                (56, 56)
NAME                           shapes
NUM_CLASSES                    4
POOL_SIZE                      7
POST_NMS_ROIS_INFERENCE        1000
POST_NMS_ROIS_TRAINING         2000
PRE_NMS_LIMIT                  6000
ROI_POSITIVE_RATIO             0.33
RPN_ANCHOR_RATIOS              [0.5, 1, 2]
RPN_ANCHOR_SCALES              (8, 16, 32, 64, 128)
RPN_ANCHOR_STRIDE              1
RPN_BBOX_STD_DEV               [0.1 0.1 0.2 0.2]
RPN_NMS_THRESHOLD              0.7
RPN_TRAIN_ANCHORS_PER_IMAGE    256
STEPS_PER_EPOCH                5
TOP_DOWN_PYRAMID_SIZE          256
TRAIN_BN                       False
TRAIN_ROIS_PER_IMAGE           5
USE_MINI_MASK                  False
USE_RPN_ROIS                   True
VALIDATION_STEPS               5
WEIGHT_DECAY                   0.0001

实施细节:
1.我使用coco权重来初始化我的模型。
1.培训模式中的模型。
1.训练头第一。
1.时期= 1
1.学习率= 0.001
输出:

Starting at epoch 0. LR=0.001

Checkpoint Path: /logs/shapes20211123T0437/mask_rcnn_shapes_{epoch:04d}.h5
Selecting layers to train
fpn_c5p5               (Conv2D)
fpn_c4p4               (Conv2D)
fpn_c3p3               (Conv2D)
fpn_c2p2               (Conv2D)
fpn_p5                 (Conv2D)
fpn_p2                 (Conv2D)
fpn_p3                 (Conv2D)
fpn_p4                 (Conv2D)
rpn_model              (Functional)
mrcnn_mask_conv1       (TimeDistributed)
mrcnn_mask_bn1         (TimeDistributed)
mrcnn_mask_conv2       (TimeDistributed)
mrcnn_mask_bn2         (TimeDistributed)
mrcnn_class_conv1      (TimeDistributed)
mrcnn_class_bn1        (TimeDistributed)
mrcnn_mask_conv3       (TimeDistributed)
mrcnn_mask_bn3         (TimeDistributed)
mrcnn_class_conv2      (TimeDistributed)
mrcnn_class_bn2        (TimeDistributed)
mrcnn_mask_conv4       (TimeDistributed)
mrcnn_mask_bn4         (TimeDistributed)
mrcnn_bbox_fc          (TimeDistributed)
mrcnn_mask_deconv      (TimeDistributed)
mrcnn_class_logits     (TimeDistributed)
mrcnn_mask             (TimeDistributed)

/usr/local/lib/python3.7/dist-packages/keras/optimizer_v2/gradient_descent.py:102: UserWarning: The `lr` argument is deprecated, use `learning_rate` instead.
  super(SGD, self).__init__(name, **kwargs)
  • 这是我唯一能看到的东西。而且没有epoch运行的进度条。这保持相同的2-3小时。
  • 我后来发现this individual也做了代码清理。所以我也尝试了他的“.py”文件,仍然发生同样的情况。

系统硬件规格:
1.英特尔至强12 CPU

  1. 25GB RAM
  2. 64 GB存储空间。
  3. Ubuntu 20.04桌面版。VM在公司的内部服务器上运行。
    软件规格:
  4. Anaconda最新版本
    1.简体中文
  5. Keras 2.4
    问题:
    1.为什么训练3个小时还没开始?
    1.我的配置中是否有错误?
    1.我的系统足够吗?
    1.执行是否正确?
    1.要使这项工作发挥作用,应该做哪些改变?
    笔记本:Colab notebook
qzwqbdag

qzwqbdag1#

训练挂了,这实际上是一个已知的问题。解决办法很简单:在www.example.com文件中找到fit函数model.py(应该在TF 2项目中第2360-2370行附近),并将'workers'参数设置为1,将'use_multiprocessing'参数设置为False。

1tuwyuhd

1tuwyuhd2#

试试这个:
1-在(mrcnn)文件夹中打开文件(model.py)。
2-将第2362行更改为:

workers = multiprocessing.cpu_count()

致:

workers = 1

3-将第2374行更改为:

use_multiprocessing=True,

致:

use_multiprocessing=False,

或者你可以尝试使用我已经做了这些修改的这个分叉。https://github.com/manasrda/Mask_RCNN这为我解决了一个类似的问题。

djmepvbi

djmepvbi3#

我也有同样的问题。将worker设置为1并禁用多处理的修复不起作用。我发现它试图使用CPU而不是GPU。修复方法是确保CUDA安装正确,或者在HPC上执行类似module load cuda的操作,并确保您已为节点提供GPU。

相关问题