随机梯度下降 (SGD) 是一种流行的优化算法,用于机器学习、深度学习和神经网络,用于在训练期间最小化损失函数(也称为成本函数、误差函数或目标函数)。
与为每个训练示例(批)更新模型参数的传统梯度下降算法不同,SGD 为每个单独的训练示例更新参数。换句话说,SGD 随机选择一个训练样例,使用该样例计算损失函数相对于模型参数的梯度,然后在该梯度的方向上更新参数。
SGD 之所以被广泛使用,是因为它计算效率高,比批量梯度下降法需要更少的内存,并且随着对参数的更新更加频繁,它可以更快地收敛。但是,它可能对学习率和小批量大小的选择敏感,这会影响其性能。
发布日期: