ai量度工具 Adam优化器再次改进，用长期记忆限制过高学习率，北大孙栩课题组提出

默认分类1年前 (2024)发布 admin

547 0 0

ChatGPT国内版

关注前沿科技量子位晓查发自凹非寺

量子位报道 | 公众号

Adam作为一种快速收敛的优化器被广泛采用，但是它较差的收敛性限制了使用范围，为了保证更优的结果，很多情况下我们还在使用SGD。

但SGD较慢的收敛速度也令人头疼，所以人们一直在研究进一步优化Adam的方法。、RAdam都是在这方面的尝试。

最近北京大学孙栩课题组提出了一种新的优化器。这是一种基于Adam的改进优化器，具有自动预热试探法和长期学习速率缓冲。

的名称来自（自适应）和 Bound（矩限制）。

在训练过程中，可以轻松击败Adam，同时对学习率超参数、训练曲线都不那么敏感，并且不需要预热。

优点

的原理是，在训练的同时计算自适应学习率的指数长期平均值，并使用该平均值来修剪训练过程中过高的学习率。

这一做法提高了优化器的收敛性，无需进行预热，并且降低了对学习率的敏感性。

在上图中，我们可以看出，SGDM和Adam的训练结果都依赖于初始学习率的选择。而即使学习率相差两个数量级，也能收敛到同一结果。

相比Adam优化器，只增加了一个超参数β3，用来描述训练中记忆长短的程度。

这种长期记忆解决了自适应学习率的异常过大数值，免于让优化器陷入了不良的状态。

与之前的RAdam优化器类似，能够从训练开始就控制自适应学习率的变化，从而确保训练开始时的稳定性，无需预热。

相关报道：

RAdam优化器又进化：与强强结合，性能更优速度更快

在3个基于的神经机器翻译模型上，没有预热的显示出了比预热的Adam有着更快的收敛速率和更好的收敛结果。

ai量度工具 Adam优化器再次改进，用长期记忆限制过高学习率，北大孙栩课题组提出

而Adam优化器如果不预热，效果可能会非常差，达到完全不可用的程度。

算法实现

其实，的思路也很简单，只是在Adam的基础上做了一个小幅的修改。

如所描述的，不稳定和异常的学习率通常出现在训练快结束时，这会危及自适应方法的泛化性能。

相关报道：

中国学霸本科生提出AI新算法：速度比肩Adam，性能媲美SGD，ICLR领域主席赞不绝口

所以的思路是，先定义学习率的下限ηl和ηu，一开始下限为0，上限为∞，随着训练过程的进行，上下限分别收敛到SGD的学习率α。

Adam会根据一阶矩和二阶矩的梯度估计值计算自适应学习率。受指数滑动平均（EMA）的启发，计算梯度的低阶矩，并通过参数β3将记忆带到下一个步骤中。

可以看出，Adam和的前8步完全相同，后者只是比前者多了9、10两步。

具体来说，在Adam中进行以下操作：

指数滑动平均的范围是1/β3。β3就是记忆长短的量度，它越接近1，记忆长度也就越长。

例如当β3=0.9时，记忆平均范围是10个周期；当β3=0.999时，平均范围是1000个周期。

根据β3可以算出当前步骤的平滑值和之前平滑值的关系。

通过这个方程，我们定义了当前平滑值和过去“长期记忆”（long-term-）的关系。显然，当β3=0时，则完全等价于Adam。

计算出当前平滑值后，在它和当前Adam算出的学习率ηt中选出一个最小值，从而避免了出现过高学习率的情况。

这项操作可以看作是逐个元素地削减学习率，从而使输出受到当前平滑值的限制。

现在你已经可以直接通过pip安装。

ai量度工具 Adam优化器再次改进，用长期记忆限制过高学习率，北大孙栩课题组提出

pip

局限性

尽管胜过Adam，但是在更长的训练条件下，SGDM仍然可以胜过。

因此，有人提出了结合和的算法，使用另一个参数“”代替β3，可以将batch的总数传递它，更易于记忆和追踪。

关于作者

这篇文章的第一作者是Ding ，通讯作者是孙栩副教授，他本科毕业华中科技大学，2010年从东京大学博士毕业，曾在微软公司美国雷蒙德研究院实习。

他的研究方向为自然语言处理、机器学习、深度学习，曾担任EMNLP、等国际学术会议的领域主席。

之前的优化器就是孙栩组的骆梁宸同学提出的。本文的第一作者也感谢了与骆梁宸等人参与的讨论。

传送门

博客讨论：

@lessw/meet–a-new-deep—with–

论文地址：

源代码：

源代码：

新年福利 | 抽奖送小度智能音箱

量子位 · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

# 默认分类 # 科技新闻 # 自适应

© 版权声明

文章版权归作者所有，未经允许请勿转载。

广告也精彩

相关文章

关于人工智能chatgpt的作文评论丨ChatGPT威胁人类？其实是人类改变自己的契机

admin

561 0

手机下载的必应能用chatgpt吗 ChatGPT暂停接入必应搜索功能以应对用户绕过付费墙

admin

3,539 0

人工智能 chatgpt推广 ChatGPT安卓APP终于要来了，即日起可预约下载了

admin

1,065 0

ai工具站网站最大的AI工具库未来AI百科网站来了已收集全网897种AI工具

admin

4,038 0

微软使用chatgpt 重磅！微软为ChatGPT自研AI芯片，台积电5nm，最早明年开用

admin

557 0

ai数字人克隆软件数字人：AI时代的“影分身”

admin

2,553 0

暂无评论

暂无评论...

323AI导航网（323ai.com）—— 精选全球实用AIGC工具箱。 AI人工智能爱好者使用学习必备导航网站，收录了国内外5000+优质AI实用工具网址，一个专业、全面、实用的AIGC工具与AI资讯导航网站，我们聚焦于最新的AI文本、AI绘画、AI视频、ChatGPT、Stable-Diffusion、Midjourney等AI项目，帮助用户发现最前沿的AIGC项目，探索人工智能的无限可能。

友链申请免责声明广告合作关于我们

Copyright © 2025 323AI导航网陕ICP备2023007327号-3