沿梯度下降走向疯狂:我的博士之路
过去大约六年里,我一直试图用梯度下降来优化自己的人生。写下这篇文章是为了报告:我已经到达了一个局部最小值,而且它并不是全局最优。
这个比喻的吸引力,对任何长期盯着损失曲线却看它毫无下降的人来说都显而易见。人生就像一个初始化糟糕的神经网络,充满平台期、鞍点,以及那个梯度在数学上确实存在、但方向却直指“转行去工业界”的区域。
学习率问题
我在方法学上的主要错误,是学习率前后不一致。二十岁出头时,我采用了激进步长:抓住每一个机会、参加每一场社交活动、答应给自己从未读过的期刊审稿。这样确实移动得很快,但轨迹大体是随机的。我反复越过最优配置,投入了一个后来证明“不是这个领域正在走的方向”的研究主题;还因为某位导师在会议晚宴上的热情,当场接了一个博后机会。事后看,那份热情很可能主要来自酒精。
后来,吃过亏的我把学习率降到接近零。我开始谨慎,在拒绝冒险之前会先非常认真地评估风险。我只参加那些我已经确定自助餐会不错的会议(参见我此前关于会议自助餐分类学的工作)。收敛速度慢到让我开始怀疑它到底有没有发生。
动量与既有速度问题
基于动量的优化会维护过去梯度的加权平均,使优化器在当前梯度信息不足时仍能沿着一个方向继续前进。我发现这与博士项目的体验高度一致:在所有理性信号都表明应当放弃之后,你仍然会继续把项目做上四年。沉没成本的动量极其可观。它带着我穿过数年不出结果的实验,最终到达一篇被接受的论文,而其被接受的理由大概是它长得足以被误认为“足够全面”。
结论:关于局部最小值
经过多年带噪声的随机优化,我来到了一个稳定配置。过去 18 个月里,我的损失没有可测下降。我参加同样的会议,写同样主题的变体论文,吃同样风格的自助餐午餐(见上文)。
这到底是收敛还是被困住了,我真分不出来。无论哪种解释,梯度都近似为零。我正在考虑往系统里加一点噪声看看会发生什么。这个策略在现实生活中叫“接受一个新的博后 offer”,我预计将在三到五年内发表结果。
本文写于一段我所在机构称为“学术休假”、我家人称为“不回邮件”的反思期。