我想培养一个非常大的模型。 所以,我只能适合一个非常小批量到GPU内存。 小批量的工作结果与非常嘈杂的坡度估计 。
我能做些什么来避免这个问题?
Answer 1:
您可以更改iter_size
在求解器参数。 CAFFE日积月累梯度iter_size
X batch_size
实例中的每个随机梯度下降步骤。 因此,增加iter_size
当你不能使用的batch_size大,由于有限的内存也可以得到比较稳定的梯度。
Answer 2:
正如指出这个帖子 ,批量大小不是理论问题(随机梯度下降的效率已被证明具有批量1)。 确保你正确地贯彻执行批处理(样品应随机挑选您的数据)。
文章来源: Caffe: What can I do if only a small batch fits into memory?