我在Tensorflow中有一个Keras子类模型,它在一个纪元中保持恒定的GPU内存使用率,然后在开始一个新纪元时,它似乎为该纪元分配了一组全新的内存。
这是正常的预期行为吗?
目前,我只在第三个时间点获得OOM,并且我不确定在上一个时间点之后除了丢失之外还需要保留哪些类型的数据。如果这是预期行为,那么需要保留的数据量究竟有多大(例如,Tensorflow是否出于某种原因需要存储历史权重?)
toiithl61#
我的直觉是,你可能会看到在前两个时期的增长,但你应该一般有稳定的状态后。当然,您可能希望比较不同时期之间的等待时间,这样就可以获得2N内存。也许有一个失控的快照机制?
1条答案
按热度按时间toiithl61#
我的直觉是,你可能会看到在前两个时期的增长,但你应该一般有稳定的状态后。
当然,您可能希望比较不同时期之间的等待时间,这样就可以获得2N内存。
也许有一个失控的快照机制?