🍎
8月27号学习交流会

2024年8月17日创建

728

870

💡

会议主题：进阶班-学习交流会：深度学习详解第三章知识点--深度学习基础（局部极小值和鞍点，批量和动量，自适应学习率等）​

会议时间：2024年8月27号 19:00

会议地点：腾讯会议

会议录制：

书本重点知识点

Task1.1重点

1.
局部极小值与鞍点：在优化过程中，梯度下降算法可能会停止更新参数，因为梯度为零。这种情况可能发生在局部极小值或鞍点。局部极小值是指在该点周围所有方向的损失都比该点高，而鞍点是指梯度为零但不是局部极小值或局部极大值的点。​

困惑：最难的是理解各种算法和数学概念，比如梯度下降和损失函数涉及到很多数学推导，局部最小和全局最小的区别，看似简单，但要理解它们对模型优化的影响却不容易。另外，优化算法之间的差异和使用场景还需要更多的实践和深入理解。​

困惑：3.1.3并没有给出逃离鞍点的方法，只是说明鞍点比局部极小值更常见。所以3.1.3的标题有点不妥？​

2.
临界点的判断：临界点是梯度为零的点。文章介绍了如何通过泰勒级数近似来近似损失函数在特定参数点附近的形状，并通过海森矩阵来判断临界点是局部极小值、局部极大值还是鞍点。​

困惑：针对判断临界点种类的方法这块 最好补充些实际的工程上的一些例子帮助理解​

3.
海森矩阵：海森矩阵包含了损失函数的二次微分信息，可以用来判断临界点的性质。如果海森矩阵的所有特征值都是正的，则该点是局部极小值；如果所有特征值都是负的，则为局部极大值；如果特征值有正有负，则为鞍点。​

困惑：海森矩阵太难了​
◦
直播间留言：​
▪
函数在某点的海森矩阵，作用在于判断其是否为正定，如果正定的话那么函数在该点就能取到最小值​
▪
书中有说小批量梯度下降。从工程方方面考虑​
◦
直播间问题：​
▪
海森矩阵和损失函数是什么关系？​

4.
逃离鞍点的方法：虽然理论上可以通过海森矩阵的特征值和特征向量来逃离鞍点，但由于计算复杂性，实际中很少使用这种方法。文章提到了其他逃离鞍点的方法，但没有详细说明。​

困惑：逃离鞍点的方法不明白，有点少

困惑：数学公式部分仍在理解中；3.1.3戛然而止，还是不知道怎么逃离鞍点，好像是下一节的？最后通过查资料了解了一下，等后面遇到在精读​

困惑：不理解特征向量怎么找

5.
鞍点与局部极小值的常见性：文章通过实验数据指出，在实际的神经网络训练中，局部极小值并不常见，而鞍点更为常见。这可能是因为在高维空间中，局部极小值可能在更高维度上表现为鞍点。​

6.
误差表面的维度：文章讨论了在高维空间中，误差表面可能具有非常复杂的形状，局部极小值可能在更高维度上是鞍点，这表明在高维空间中可能存在更多的路径来降低损失。​

7.
最小值比例：文章引入了最小值比例的概念，即正特征值数量与总特征值数量的比值，用来衡量临界点更接近局部极小值的程度。​

Task1.2重点

1.
批量梯度下降法（BGD）：使用所有训练数据计算损失和梯度，然后更新参数。这种方法每次更新稳定且准确，但计算量大。​

困惑：该部分主要学习机器学习基础概念，使用数学方式解决深度学习模型训练优化问题，如果能配上实例就更好了；数学语言看了有点云里看花雾里赏月的感觉​

困惑：最难的是理解各种算法和数学概念，比如梯度下降和损失函数涉及到很多数学推导，局部最小和全局最小的区别，看似简单，但要理解它们对模型优化的影响却不容易。另外，优化算法之间的差异和使用场景还需要更多的实践和深入理解。​

2.
随机梯度下降法（SGD）：每次只使用一个训练样本来计算损失和梯度，然后更新参数。这种方法引入了随机噪声，更新方向曲折，但在非凸优化问题中更容易逃离局部最小值。​

3.
批量大小对梯度下降法的影响：批量大小对计算时间和模型性能有显著影响。大批量可能导致更稳定的更新，但可能陷入“峡谷”中的局部最小值，而过拟合。小批量虽然更新方向有噪声，但可能帮助模型跳出局部最小值，提高泛化能力。​

4.
并行计算：在有并行计算能力的情况下，大批量大小可以提高训练效率，因为数据可以并行处理，减少了单次更新所需的时间。​

5.
动量法：通过在参数更新中加入之前更新方向的加权和，增加了模型的“惯性”，有助于逃离局部最小值和鞍点。动量法考虑了过去所有梯度的总和，使得更新方向更加平滑。​

6.
自适应学习率：在训练过程中，梯度可能变得非常小，导致损失不再下降，但这并不意味着已经达到全局最小值。自适应学习率方法可以根据训练进展调整学习率，以解决这个问题。​