网站优化

首页 » 常识 » 诊断 » Adam真的是最好的优化器吗有人认为不过
TUhjnbcbe - 2021/2/4 13:28:00
脸部长青春痘的症状是什么 http://health.yealer.com/qcd/2016/2016-01-10/m/8197.html

机器之心报道

作者:杜伟、魔王提到优化器,大多数人会想到Adam。自年推出以来,Adam一直是该领域的「王者」。但近日,波士顿大学的一位助理教授做出了一个假设,他认为Adam或许不是最佳的优化器,只是神经网络的训练使其成为了最佳。Adam优化器是深度学习中最流行的优化器之一。它适用于很多种问题,包括带稀疏或带噪声梯度的模型。其易于精调的特性使得它能够快速获得很好的结果,实际上,默认的参数配置通常就能实现很好的效果。Adam优化器结合了AdaGrad和RMSProp的优点。Adam对每个参数使用相同的学习率,并随着学习的进行而独立地适应。此外,Adam是基于动量的算法,利用了梯度的历史信息。基于这些特征,在选择优化算法时,Adam往往是「当仁不让」。但近日,波士顿大学助理教授FrancescoOrabona提出了一种假设,他认为「不是Adam最佳,而是神经网络的训练使其变成最佳」。他在一篇文章中详述了自己的假设,原文内容如下:我从事在线和随机优化的研究已经有段时间了。年Adam被提出的时候,我就已经身处这个领域了。Adam由现谷歌高级研究科学家DiederikP.Kingma和多伦多大学助理教授JimmyBa在论文《ADAM:AMETHODFORSTOCHASTICOPTIMIZATION》中提出。Adam算法这篇论文很好,但算不上突破,从当前标准来看更是如此。首先,理论很脆弱:对于一种应该处理非凸函数随机优化的算法给出了regretguarantee。其次,实验也很脆弱:近来完全一样的实验会遭到彻彻底底地拒绝。后来有人发现了证明中存在误差,并且Adam算法还无法在某些一维随机凸函数上实现收敛。尽管有着这样那样的问题,Adam依然被认为是优化算法中的「王者」。所以需要明确一点:我们都知道,Adam不总能使你实现最佳性能,但大多数时候,人们认为可以利用Adam的默认参数在处理某个深度学习问题上实现至少次优的性能。换句话说,Adam被认为是现今深度学习的默认优化器。那么,Adam成功的秘诀是什么呢?近年来,人们发表了大量论文,试图解释Adam及其性能。从「自适应学习率」(自适应什么?没人真的了解)到动量和尺度不变性,Adam的方方面面都有了相应解读。但是,所有这些分析并没有给出关于其性能的最终答案。很明显,自适应学习率等这些因素中的大多数对任何函数的优化过程都是有益的,但我们仍不清楚,为什么这些因素按照这样的组合形式就能使Adam成为最佳算法。各个要素之间的均衡如此微妙,以至于解决非收敛问题所需的微小变化也被认为会带来比Adam稍差的性能。但是,这一切的可能性有多大呢?我的意思是,Adam真的是最好的优化算法吗?在一个如此「年轻」的领域中,几年前就实现最佳深度学习优化的可能性又有多大呢?对Adam的惊人性能是否存在另一种解释呢?于是,我提出了一个假设,但在解释它之前,我们有必要简单谈谈应用深度学习社区。谷歌机器学习研究员OlivierBousquet曾在一次演讲中,将深度学习社区描述为一个巨型遗传算法:社区研究人员正以半随机的方式探索所有算法和架构的变体。在大型实验中持续有效的算法得到保留,无效的则遭到摒弃。我们需要注意的是,这一过程似乎与论文被拒与否无关:社区太大也很活跃,好的idea即使被拒也能得到保留并在数月后转变成最佳实践,例如Loshchilov和Hutter的研究《DecoupledWeightDecayRegularization》。类似地,已发表论文中的idea被数百人尝试复现,而无法复现的就被残忍抛弃。这一过程创造出了许多启发式方法,即在实验中一直输出优秀结果,但压力也在于「一直」。的确,尽管是基于非凸公式的方法,但深度学习方法的性能非常可靠。(注意,深度学习社区对「名人」有着极大的倾向性,并非所有idea都能得到同等的
1
查看完整版本: Adam真的是最好的优化器吗有人认为不过