梯度下降法是神经网络模型训练最常用的优化算法
对于深度学习,梯度下降法大部分的模型中都会遇到,其中也有不少学问
找到目标函数的梯度,而梯度代表的就是函数上升最快的方向
对于最小优化的问题来说,就是要使得目标函数下降最快,即是梯度的反方向
将其沿着梯度的反方向前进一个步长η(学习率)来实现目标函数的减少
例子:
对于参数θ,假设其损失函数即 目标函数为Loss(θ),f(θ)为Loss对θ求偏导的结果
则θ的更新为 θ = θ - ηf(θ)
那么对于计算Loss采用的训练集的不同,可以简单分为批量梯度下降法、随机梯度下降法和小批量梯度下降法
对于Loss来说是采用所有的训练集一次性训练进行梯度下降的计算进行一次更新
其优点是对于训练集的每一个样本都有涉及
但是对于很大的训练集可能会超出内存,并且一般收敛速度较慢
比如在三维空间中,有很多样本教你应该往哪走,可能大部分样本说向前,但是有一些特殊的样本叫你向其他方向走,这样就导致向前走的速度变慢了
对于Loss每次采用训练集的一个样本进行训练从而进行一次更新
其优点是可能收敛速度会很快
但是对于一些特殊的样本会导致梯度的震荡
有个经典图例可以了解一下
如图,假设我们现在在B点想通过梯度下降到最低点A,但是有一个特殊的样本使得梯度下降过多跑到了C点反而距离A点更远,Loss值更大了
甚至从B到C附近又到D附近又到B附近这样来回却无法收敛
这个方法就是综合了前面的两种方法,既能加速下降的速率,也能减少出现震荡的概率
小批量梯度下降是现在最常用的梯度下降的方法
最近在看Tensorflow,在tensorflow中,梯度下降优化器函数为
tf.train.GradientDescentOptimizer
那么对于梯度下降来说只要简单的通过上面三种方法是无法解决所有的问题的
梯度下降最常见的问题要出现了,即是不能保证全局收敛,也就是梯度下降到一个极小值的点而非最小值的点,当简单的梯度下降进入到局部最优的时候将会无法继续向最小值前进了
如图,若到达B点(极小值点)附近,那么此时计算样本收敛不够快导致无法从B点附近跳到能够向A点收敛的地方,那么将会无法到达最优解A点附近
为了收敛更快跳过局部最优解的极小值点,我们可以增大学习率,就跟随机梯度下降一样可能会导致震荡,甚至还可能会发散
学习率低则会导致进入前面说的局部最优解
那么就需要其他经典的梯度下降算法来保证收敛速度和全局最优
公式:m = γm + ηf(θ) , θ = θ - m
其中m为动量,γ是伽马不是y
这个算法的原理是基于一个物理现象,当一个小球从山上滚下来,速度会越来越快,但是到山低的时候又会因为阻力而停下
在参数更新时,加入多了一个γm,而这个γm在后续又在继续变化,γ一般取值为0.9
动量与梯度同方向,动量项γ增大;动量与梯度反方向,动量项γ减小
动量项只对相关样本进行参数更新,减少了不必要的参数更新,从而得到更快且稳定的收敛,就可以越过局部最优点,也减少了振荡
Tensorflow中动量优化的函数为
tf.train.MomentumOptimizer
NAG算法是对冲量梯度下降算法的改进版本,动量方法导致小球到达最低点后动量非常大,可能会错过最低点,所以在小球在上坡时继续向上冲的时候小球应该减速更多,而不是只通过动量项的减少来简单地降低速度
公式:m = γm + ηf(θ - γm) , θ = θ - m
这个算法是通过粗略预测下一个更新的位置的梯度(即θ - γm)来进行现在的更新
有效避免上坡又越过了最低点的部分情况
Tensorflow中NAG优化的函数为
tf.train.MomentumOptimizer里面要加参数 use_nesterov=True
是一种学习速率自适应的梯度下降算法,通过参数来调整学习率,在训练迭代过程,其学习速率是逐渐衰减的,频繁更新参数会导致学习率下降更快的自适应算法
公式: G = G + f(θ)f(θ) (即f(θ)的平方) θ = θ - (η/√(G+ε))f(θ)
G为梯度平方和,当迭代次数增加时G越来越大
原来的学习率η换成了η/√(G+ε),其中ε为一个很小的值以防止G为0,当G增大时该真实学习率越来越小
由于Adagrad算法会导致学习率越来越小,导致训练过早结束
Tensorflow中Adagrad优化的函数为
tf.train.AdagradOptimizer
RMSprop 是对Adagrad算法的一种改进,解决学习速率过快衰减的问题
类似与Momentum算法,引入一个超参数γ在G中进行衰减
公式: G = γG + (1-γ)f(θ)f(θ) (即f(θ)的平方) θ = θ - (η/√(G+ε))f(θ)
γ一般也是取0.9
Tensorflow中RMSprop优化的函数为
tf.train.RMSPropOptimizer
而AdaDelta 是将超参数学习率η换成一个额外的状态变量Δθi-1 (下标为i-1) 在初始状态下赋值为0
公式: G = γG + (1-γ)f(θi)f(θi) (即f(θ)的平方) θi = θi - (√(Δθi-1 + ε)/√(G+ε))f(θi)
对比RMSprop来说就不需要设置学习率了
Tensorflow中Adadelta优化的函数为
tf.train.AdadeltaOptimizer
Adam算法全称自适应时刻估计方法(Adaptive Moment Estimation)
结合了Momentum和RMSprop算法的思想,可以计算每个参数的自适应学习率,也为其增加了动量项
公式: m = αm + (1-α)f(θ) ,G = βG + (1-β)f(θ)f(θ) (即f(θ)的平方)
m = m / (1-α) , G = G / (1-β) , θ = θ - ηm/√(G+ε)
一般α = 0.9 ,β = 0.999 , ε = 1e-8
与其他自适应学习率算法相比,Adam算法收敛速度更快,而且可以纠正其他优化问题,比如学习率消失、收敛速度过慢等等
Tensorflow中Adam优化的函数为
tf.train.AdamOptimizer
在梯度下降算法中有很多优秀的算法值得学习,结合动量(Momentum)又更新学习率(Adagrad)等方法,经典又好用
现在可能没什么时间去对所有算法进行实例分析,有时间了做一个对比图给大家,当然网上也有许多实例三维对比动态酷炫帅气的图,可以去看看
嘿嘿~
文章浏览阅读936次,点赞22次,收藏26次。React核心基础
文章浏览阅读2k次。linux系统查看磁盘空间的命令是【df -hl】,该命令可以查看磁盘剩余空间大小。如果要查看每个根路径的分区大小,可以使用【df -h】命令。df命令以磁盘分区为单位查看文件系统。本文操作环境:red hat enterprise linux 6.1系统、thinkpad t480电脑。(学习视频分享:linux视频教程)Linux 查看磁盘空间可以使用 df 和 du 命令。df命令df 以磁..._df -hl
文章浏览阅读923次。uses ComObj;var ExcelApp: OleVariant;implementationprocedure TForm1.Button1Click(Sender: TObject);const // SheetType xlChart = -4109; xlWorksheet = -4167; // WBATemplate xlWBATWorksheet = -4167_range[char(96 + acolumn) + inttostr(65536)].end[xlup]
文章浏览阅读2.3k次。上图为任务代码,在任务具体执行的方法中使用,一定要写在方法内使用SpringContextUtil.getBean()方法实例化Spring service类下边是ruoyi-quartz模块中util/SpringContextUtil.java(已改写)import org.springframework.beans.BeansException;import org.springframework.context.ApplicationContext;import org.s..._ruoyi-quartz无法引入ruoyi-admin的service
文章浏览阅读2w次,点赞10次,收藏77次。yum,全称“Yellow dog Updater, Modified”,是一个专门为了解决包的依赖关系而存在的软件包管理器。可以这么说,yum 是改进型的 RPM 软件管理器,它很好的解决了 RPM 所面临的软件包依赖问题。yum 在服务器端存有所有的 RPM 包,并将各个包之间的依赖关系记录在文件中,当管理员使用 yum 安装 RPM 包时,yum 会先从服务器端下载包的依赖性文件,通过分析此文件从服务器端一次性下载所有相关的 RPM 包并进行安装。_centos7配置yum源
文章浏览阅读828次,点赞21次,收藏8次。今天学长向大家分享一个毕业设计项目毕业设计 基于深度学习的抽烟行为检测算法实现(源码分享)毕业设计 深度学习的抽烟行为检测算法实现通过目前应用比较广泛的 Web 开发平台,将模型训练完成的算法模型部署,部署于 Web 平台。并且利用目前流行的前后端技术在该平台进行整合实现运营车辆驾驶员吸烟行为检测系统,方便用户使用。本系统是一种运营车辆驾驶员吸烟行为检测系统,为了降低误检率,对驾驶员视频中的吸烟烟雾和香烟目标分别进行检测,若同时检测到则判定该驾驶员存在吸烟行为。进行流程化处理,以满足用户的需要。
文章浏览阅读3.7k次,点赞3次,收藏14次。多个定时器同步触发启动是一种比较实用的功能,这里将对此做个示例说明。_stm32 定时器同步
文章浏览阅读348次。出处 : http://www.cnblogs.com/mythou/p/3187881.html本来想分析AppsCustomizePagedView类,不过今天突然接到一个临时任务。客户反馈说机器界面的图标很难点击启动程序,经常点击了没有反应,Boss说要优先解决这问题。没办法,只能看看是怎么回事。今天分析一下Launcher启动APP的过程。从用户点击到程序启动的流程,下面针对WorkSpa..._回调bubbletextview
文章浏览阅读6.2k次。Ubuntu 12 最快的两个源 个人感觉 163与cn99最快 ubuntu下包过慢 1、首先备份Ubuntu 12.04源列表 sudo cp /etc/apt/sources.list /etc/apt/sources.list.backup (备份下当前的源列表,有备无患嘛) 2、修改更新源 sudo gedit /etc/apt/sources.list (打开Ubuntu 12_un.12.cc
文章浏览阅读5.8k次,点赞6次,收藏86次。1.思路(1)动态添加路由肯定用的是addRouter,在哪用?(2)vuex当中获取到菜单,怎样展示到界面2.不管其他先试一下addRouter找到router/index.js文件,内容如下,这是我自己先配置的登录路由现在先不管请求到的菜单是什么样,先写一个固定的菜单通过addRouter添加添加以前注意:addRoutes()添加的是数组在export defult router的上一行图中17行写下以下代码var addRoute=[ { path:"/", name:"_vue动态路由权限
文章浏览阅读8.9k次。 关键词: JSTL 之变量赋值标签 /* * Author Yachun Miao * Created 11-Dec-06 */关于JSP核心库的set标签赋值变量,有两种方式: 1.日期" />2. 有种需求要把ApplicationResources_zh_CN.prope
文章浏览阅读3.1k次,点赞3次,收藏2次。1.1ZY5621概述ZY5621是VGA音频到HDMI转换器芯片,它符合HDMI1.4 DV1.0规范。ZY5621也是一款先进的高速转换器,集成了MCU和VGA EDID芯片。它还包含VGA输入指示和仅音频到HDMI功能。进一步降低系统制造成本,简化系统板上的布线。ZY5621方案设计简单,且可以完美还原输入端口的信号,此方案设计广泛应用于投影仪、教育多媒体、视频会议、视频展台、工业级主板显示、手持便携设备、转换盒、转换线材等产品设计上面。1.2 ZY5621 特性内置MCU嵌入式VGA_vga转hdmi带音频转换器,转接头拆解