当前位置: 首页 > news >正文

网络营销的原理搜索引擎优化的目的是

网络营销的原理,搜索引擎优化的目的是,公众号运营外包价格,wordpress获取链接一、原因 神经网络梯度 假设现在有一个 层的神经网络,每层的输出为一个对输入作 变换的函数结果 用 来表示第 层的输出,那么有下列公式: 链式法则计算损失 关于某一层某个参数 的梯度: 注意到, 为向量&am…

一、原因

神经网络梯度

· 假设现在有一个 d 层的神经网络,每层的输出为一个对输入作 f_t 变换的函数结果

· 用 h^t 来表示第 t 层的输出,那么有下列公式:

h^t = f_t(h^{t-1})

· 链式法则计算损失 l 关于某一层某个参数 w_t 的梯度:

\frac{\partial l}{\partial w_t}=\frac{\partial l}{\partial h^d}\frac{\partial h^d}{\partial h^{d-1}}...\frac{\partial h^t}{\partial w_t}

· 注意到,h^t 为向量,这相当于一个 d-t 次的矩阵乘法

这个传递可能造成以下问题:

· 假设每次的梯度为1.5,但随着神经网络的规模变大,往后传递过去可能就有 1.5^{100}=4*10^{17} 这么大,从而产生梯度爆炸。

· 假设每次的梯度为0.8,同样的道理,传递过去可能有 0.8^{100}=2*10^{-10} 这么小,从而使模型最后的变化幅度很小,出现梯度消失。

二、梯度消失

假设用sigmoid函数作为激活函数

· 导数的问题是,当输入相对较大或者较小时,求导计算之后,每次向上传递的梯度会变得很小

· 累乘起来之后,这个值可能就会变得更小

可能造成的问题:

· 梯度值非常接近0,使得模型无法训练,每次训练改变幅度非常小

· 在神经网络较深时,对于底部层尤为严重

        · 反向传播时,顶部的训练可能较好,拿到的梯度较正常

        · 越到底部,梯度越小,底部层无法训练,使得神经网络无法变深

三、梯度爆炸

假设我们使用ReLU函数作为隐藏层的激活函数

· ReLU激活函数的导数会使大于0的输出求导后都是1,小于等于0的输出求导后都是0

· 首先将链式法则的求导公式代入ReLU激活函数转化一下,得到下式

· 这时,h^{t-1} 与 w_t 相乘后再在ReLU函数里求导的结果就是0或1,那么每次传递的就是 w_t 转置值

· 如果中间层 d-t 很大,那么最后累乘的结果就会很大,最终导致梯度爆炸

可能造成的问题:

· 值超过上限(如16位浮点数,可能数值上溢)

· 对学习率非常敏感

        · 若学习率较大—大参数值—更大的梯度

        · 若学习率较小—训练效果小

        · 需要不断调整学习率

http://www.khdw.cn/news/18771.html

相关文章:

  • 江苏城乡和住房建设厅网站互联网销售模式
  • wordpress做淘宝的交流插件系统优化
  • 骏驰网站建设百度业务范围
  • 顺义网站制作今天刚刚发生的新闻台湾新闻
  • 哪个网站做关于党建述职的材料以网红引流促业态提升
  • 温州高端企业网站建设搜索引擎网站有哪些
  • 怎么查网站的备案信息头条号权重查询
  • 唐山网站建设电话阳江网站建设
  • 仿动态网站搜索引擎优化
  • 基层单位不能建设网站seo在哪可以学
  • 长沙 外贸网站建设公司排名公司优化是什么意思?
  • 直播网站制作网站策划书怎么写
  • 网站免费正能量直接进入在线360网站安全检测
  • 大型网站建设免费培训机构管理系统
  • html编辑器的功能介绍嘉兴seo
  • 厦门哪里有做网站nba季后赛最新排名
  • 镇江网站设计亚马逊关键词快速优化
  • 站长之家网址查询免费seo推广软件
  • 自己做电影网站违法你就知道
  • 嘉定区做网站厦门seo大佬
  • 英文网站设计制作创建app平台
  • 网站设计论文总结源码交易网站源码
  • 把网站内容东西打出来怎么做百度推广在哪里能看到
  • lamp网站开发黄金组合下载渠道网
  • wordpress 查看图片百度关键词优化点击 教程
  • 用b s做网站如何查看网站收录情况
  • 广州市公需课在哪个网站可以做我国的网络营销公司
  • 知名的网站建设公司什么是信息流广告
  • 做交通工程刬线的网站公司创建网站需要什么条件
  • 数字网站怎么建设济南百度seo