当前位置: 首页 > news >正文

云南房产网站建设美国最新消息今天 新闻

云南房产网站建设,美国最新消息今天 新闻,软件开发流程五个步骤,上海企业名录地址电话一、前言 本文章作为学习2023年《李宏毅机器学习课程》的笔记,感谢台湾大学李宏毅教授的课程,respect!!! 读这篇文章必须先了解self-attention,可参阅我上一篇。 二、大纲 Transformer问世原理剖析模型训…

一、前言

本文章作为学习2023年《李宏毅机器学习课程》的笔记,感谢台湾大学李宏毅教授的课程,respect!!!
读这篇文章必须先了解self-attention,可参阅我上一篇。

二、大纲

  • Transformer问世
  • 原理剖析
  • 模型训练

三、Transformer问世

2017 年在文章《Attention Is All You Need》被提出的。应用于seq2seq模型,当时直接轰动。

四、原理剖析

两部分组成:Encoder 和 Decoder

  • Encoder 结构
    接下来从大到小一层层剥开:

剥一下:
输入一排向量,输出一排向量
在这里插入图片描述
剥两下:
Encoder 由多个Block组成,串联起来
在这里插入图片描述
剥三下:
Block装的是啥?原来是Self-attention!
在这里插入图片描述
剥四下:
Self-attention原来加入了residual和Layer Normal,至此剥完了。
在这里插入图片描述

说明:
上图自底向上看,关键点:
1、residual结构,输入接到输出送入下一层,残差结构;
2、Layer Normal,具体如下图:
在这里插入图片描述
算出标准差和均值后,套用公式计算即可。

以上就是Encoder的全部了!
论文中是这么画图表达的:
在这里插入图片描述
注:Positional Encoding是self-attention的位置资讯。

  • Decoder 结构
    有两种方法生成输出:Auto Regressive 和 Non Auto Regressive。

Auto Regressive
在这里插入图片描述
给个START符号,把本次输出当做是下一次的输入,依序进行下去。

Non Auto Regressive
在这里插入图片描述
输入是一排的START符号,一下子梭哈突出一排输出。

Encoder结构长啥样?

接下来看下结构长啥样,先遮住不一样的部分,其他部分结构基本一致,只不过这里用上了Masked Multi-Head Attention
在这里插入图片描述

Masked Multi-Head Attention
啥是Masked Multi-Head Attention?Masked有啥含义?
可以直接理解为单向的Multi-Head Attention,而且是从左边开始:
在这里插入图片描述
说明:这也很好理解,右边的字符都还没输出出来怎么做运算,因此只能是已经吐出来的左边的内容做self-attention,这就是masked的含义。

遮住的部分是啥?(cross attention)

最后这边遮住的部分到底是啥玩意?
别想太复杂,就还是self-attention。
corss的意思就是v,k来自Encoder,q来自Decoder,仅此而已。
在这里插入图片描述
在这里插入图片描述
其实也好理解,Decoder是去还原结果的,那可不得抽下Encoder编码时候的资讯和上下文语义信息才能还原,缺一不可。
比喻下,前者让输出紧扣题意,后者让其说人话。

小结
至此,Transformer的结构就阐述完了,无非就是Encoder + Decoder,建议自己在草稿纸上画画能够加深印象。

五、模型训练

transformer的模型训练用的还是cross entropy。
在这里插入图片描述
实战过程中的tips

  • copy mechanism
    例如:
    Machine Translation(机器翻译),可能使用原文复制这个技能对于模型而言比较容易,毕竟它不需要创造新词汇了嘛,这就是copy mechanism。
  • Guided Attention
    在这里插入图片描述

意思就是不要乱Attention,有的放矢地让模型做attention。

  • Beam Search
    在这里插入图片描述
    基本思想就是不要步步好,有可能短期不好但是长期更好。说的和人生似的。
    如果模型需要有点创造力,不适合用此方法,这是实做后的结论。

训练过程记得让模型看些负样本,不至于模型一步错步步错,(schedule sampling方法)。

五、小结

最基本的掌握好Encoder和Decoder就很可以了,其他的在实做过程中遇到问题再问问AI工具。

http://www.khdw.cn/news/38420.html

相关文章:

  • 酷家乐个人网页版关键词优化排名seo
  • 怎么做网站搜索引擎优化商业网站设计
  • 网站建设所需的硬软件百度上怎么发布作品
  • 日本做灯具公司网站合肥网络推广外包
  • 网站使用的语言竞价托管开户
  • 黑白风格网站百度在线提问
  • 成都知名建筑公司排名智谋网站优化公司
  • 帝国网站管理怎样上传css样式推广游戏怎么拉人最快
  • 备案 网站名字成人企业管理培训课程
  • 西宁制作网站多少钱最近一周的重大新闻
  • 信誉好的昆明网站建设会计培训班初级费用
  • 模板建站什么意思自媒体十大平台
  • wordpress 自建网站培训课程总结
  • 九一制作厂网站国内十大搜索引擎排名
  • 有没有专门做牛仔的网站网站推广软文范例
  • 微信漫画网站模板网站 seo
  • 杭州网站建设 博采网络有限公司环球军事网最新消息
  • 怎样找到专业做网站人网络营销公司
  • 织梦响应式茶叶网站上海网上推广
  • 网站上那些兼职网页怎么做的阿里关键词排名查询
  • 重庆建设工程施工安全网做seo需要用到什么软件
  • 网站建设价格槽闸阀个人在线做网站免费
  • 网站建设yankt谷歌浏览器官方app下载
  • 网站 栏目管理免费推广网站2023
  • 宁波建设网站公众号关注西安做网站的网络公司
  • 宣传信息网网站规划书广告投放策略
  • led企业网站策划手游推广赚佣金的平台
  • 山西临汾建设局网站百度竞价点击软件
  • 纯html5 网站网络营销的基本方法有哪些
  • 最近军事新闻热点大事件2022北京seo优化分析