Gradient Descent Into Madness: My PhD Journey

过去大约六年里，我一直试图用梯度下降来优化自己的人生。写下这篇文章是为了报告：我已经到达了一个局部最小值，而且它并不是全局最优。

这个比喻的吸引力，对任何长期盯着损失曲线却看它毫无下降的人来说都显而易见。人生就像一个初始化糟糕的神经网络，充满平台期、鞍点，以及那个梯度在数学上确实存在、但方向却直指“转行去工业界”的区域。

学习率问题

我在方法学上的主要错误，是学习率前后不一致。二十岁出头时，我采用了激进步长：抓住每一个机会、参加每一场社交活动、答应给自己从未读过的期刊审稿。这样确实移动得很快，但轨迹大体是随机的。我反复越过最优配置，投入了一个后来证明“不是这个领域正在走的方向”的研究主题；还因为某位导师在会议晚宴上的热情，当场接了一个博后机会。事后看，那份热情很可能主要来自酒精。

后来，吃过亏的我把学习率降到接近零。我开始谨慎，在拒绝冒险之前会先非常认真地评估风险。我只参加那些我已经确定自助餐会不错的会议（参见我此前关于会议自助餐分类学的工作）。收敛速度慢到让我开始怀疑它到底有没有发生。

动量与既有速度问题

基于动量的优化会维护过去梯度的加权平均，使优化器在当前梯度信息不足时仍能沿着一个方向继续前进。我发现这与博士项目的体验高度一致：在所有理性信号都表明应当放弃之后，你仍然会继续把项目做上四年。沉没成本的动量极其可观。它带着我穿过数年不出结果的实验，最终到达一篇被接受的论文，而其被接受的理由大概是它长得足以被误认为“足够全面”。

结论：关于局部最小值

经过多年带噪声的随机优化，我来到了一个稳定配置。过去 18 个月里，我的损失没有可测下降。我参加同样的会议，写同样主题的变体论文，吃同样风格的自助餐午餐（见上文）。

这到底是收敛还是被困住了，我真分不出来。无论哪种解释，梯度都近似为零。我正在考虑往系统里加一点噪声看看会发生什么。这个策略在现实生活中叫“接受一个新的博后 offer”，我预计将在三到五年内发表结果。

本文写于一段我所在机构称为“学术休假”、我家人称为“不回邮件”的反思期。