当前位置: 首页 > news >正文

个人网站怎么快速推广大数据精准获客软件

个人网站怎么快速推广,大数据精准获客软件,做外贸球衣用什么网站,网页设计html代码大全指定颜色transform网络结构 vision transform网络结构 图1:模型概述。我们将图像分割成固定大小的补丁,线性嵌入每个补丁,添加位置嵌入,并将结果向量序列馈送到标准Transformer编码器。为了执行分类,我们使用标准方法向序列中添…

transform网络结构

在这里插入图片描述

vision transform网络结构

在这里插入图片描述
图1:模型概述。我们将图像分割成固定大小的补丁,线性嵌入每个补丁,添加位置嵌入,并将结果向量序列馈送到标准Transformer编码器。为了执行分类,我们使用标准方法向序列中添加一个额外的可学习的“分类令牌”。
在这里插入图片描述

补丁生成与嵌入向量

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这段代码的功能是从一个图像张量中提取固定大小的 patch,并将这些 patch 转换为特定的排列形式。下面逐步说明这段代码的操作:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

vision transform实验

我们评估了ResNet、Vision Transformer (ViT)和hybrid的表示学习能力。为了了解每个模型的数据需求,我们在不同大小的数据集上进行预训练,并评估许多基准任务。当考虑到预训练模型的计算成本时,ViT表现非常好,以较低的预训练成本在大多数识别基准上达到最先进的水平。最后,我们使用自我监督进行了一个小实验,并表明自我监督的ViT在未来是有希望的。

设置

数据集。

为了探索模型的可扩展性,我们使用了具有1k个类和1.3M张图像的ILSVRC-2012 ImageNet数据集(我们在下文中将其称为ImageNet),具有21k个类和14M张图像(Deng等人,2009)的超集ImageNet-21k,以及具有18k个类和303M张高分辨率图像的JFT(Sun等人,2017)。我们根据Kolesnikov等人(2020)的研究,将预训练数据集与下游任务的测试集进行去重。我们将在这些数据集上训练的模型转移到几个基准任务中:原始验证标签和清理后的ReaL标签上的ImageNet(Beyer等人,2020)、CIFAR-10/100(Krizhevsky,2009)、Oxford IIIT Pets(Parkhi等人,2012)和Oxford Flowers-102(Nilsback&Zisserman,2008)。对于这些数据集,预处理遵循Kolesnikov等人(2020)的研究。

我们还对19个任务的VTAB分类套件进行了评估(Zhai等人,2019b)。VTAB使用每个任务1000个训练示例来评估向不同任务的低数据传输。任务分为三组:自然任务、宠物任务、CIFAR任务等。专业——医学和卫星图像,以及结构化——需要几何理解的任务,如定位。

模型变体

我们将ViT配置基于用于BERT的配置(Devlin等人,2019),如表1所示。“Base”和“Large”模型直接采用BERT,我们添加了更大的“Huge”模型。在下文中,我们使用简短的符号来表示模型大小和输入补丁大小:例如,ViT-L/16表示输入补丁大小为16×16的“大”变体。请注意,Transformer的序列长度与补丁大小的平方成反比,因此补丁大小较小的模型在计算上更昂贵

在这里插入图片描述
对于基线CNN,我们使用ResNet(He等人,2016),但用组归一化(Wu&He,2018)替换批归一化层(Ioffe&Szegedy,2015),并使用标准化卷积(Qiao等人,2019)。这些修改改善了传输(Kolesnikov等人,2020),我们将修改后的模型称为“ResNet(BiT)”。对于混合体,我们将中间特征图输入ViT,补丁大小为一个“像素”。为了尝试不同的序列长度,我们要么(i)取常规ResNet50的第4阶段的输出,要么(ii)删除第4阶段,在第3阶段放置相同数量的层(保持总层数),然后取这个扩展的第3阶段的输出。选项(ii)导致序列长度增加4倍,ViT模型更昂贵

训练和微调。我们使用Adam(Kingma&Ba,2015)训练所有模型,包括ResNets,其中β1=0:9,β2=0:999,批量大小为4096,并应用0.1的高权重衰减,我们发现这对所有模型的转移都很有用(附录D.1显示,与常见做法相比,Adam在我们的环境中对ResNets的效果略好于SGD)。我们使用线性学习率预热和衰减,详见附录B.1。为了进行微调,我们使用动量SGD,批量大小为512,适用于所有型号,请参阅附录B.1.1。对于表2中的ImageNet结果,我们以更高的分辨率进行了微调:ViT-L/16为512,ViT-H/14为518,还使用了Polyak和Juditsky(1992)的平均值,系数为0:9999(Ramachandran等人,2019;Wang等人,2020b)。

在这里插入图片描述

在这里插入图片描述

微调准确率(Fine-tuning accuracy): 微调指的是在已经训练好的模型基础上,进一步在目标数据集上训练,以调整模型参数。这种方法通常需要较长的训练时间,但它能通过调整模型参数适应特定任务,从而提升准确性。

少量示例学习准确率(Few-shot accuracy): 在少量示例学习中,模型通常只用少数样本(少量数据)来进行学习,而不进行完全的微调。在这里,作者采用的是一种正则化的最小二乘回归问题来优化模型表现。这种方法通过冻结模型的特征表示,仅通过少量数据来找到与目标向量的映射关系,通常计算效率较高。

目的:
微调:通常提供更好的准确性,但代价较高,需要更多的计算资源和时间。
少量示例学习:用来快速评估模型的表现,特别是在微调过于昂贵或耗时的情况下。通过线性回归的方式,可以在较短时间内获得一个近似的结果。

与最新技术的比较

我们首先将我们最大的型号ViT-H/14和ViT-L/16与文献中最先进的CNN进行比较。第一个比较点是大迁移(BiT)(Kolesnikov等人,2020),它使用大ResNets进行监督迁移学习。第二个是Noisy Student(Xie等人,2020),它是一个大型的EfficientNet,在ImageNet和JFT300M上使用半监督学习进行训练,并去除标签。目前,Noisy Student是ImageNet和BiT-L上其他数据集的最新技术。所有模型都是在TPUv3硬件上训练的,我们报告了预训练每个模型所需的TPUv3核心天数,即用于训练的TPU v3核心数量(每个芯片2个)乘以训练时间(以天为单位)

表2显示了结果。在JFT-300M上预训练的较小ViT-L/16模型在所有任务上都优于BiT-L(在同一数据集上预训练),同时训练所需的计算资源要少得多。更大的型号ViT-H/14进一步提高了性能,特别是在更具挑战性的数据集上——ImageNet、CIFAR-100和VTAB套件。有趣的是,该模型的预训练计算量仍然比现有技术少得多。然而,我们注意到,预训练效率不仅可能受到架构选择的影响,还可能受到其他参数的影响,如训练计划、优化器、权重衰减等。我们在第4.4节中提供了不同架构的性能与计算的对照研究。最后,在公共ImageNet-21k数据集上预训练的ViT-L/16模型在大多数数据集上也表现良好,同时预训练所需的资源更少:它可以在大约30天内使用具有8个核心的标准云TPUv3进行训练。
在这里插入图片描述

检查视觉变换器(Vision Transformer)

为了理解视觉变换器如何处理图像数据,我们分析其内部表示。视觉变换器的第一层将展平的图像块投影到一个低维空间(公式1)。图7(左)展示了学习到的嵌入滤波器的主要成分,这些成分类似于图像块中细致结构的低维表示的合理基函数。

在这里插入图片描述
ViT-L/32 RGB值的初始线性嵌入滤波器。

在投影之后,学习到的位置嵌入被添加到图像块表示中。图7(中)显示了模型学习如何根据位置嵌入之间的相似性来编码图像内的距离。即,较近的块通常会有相似的位置嵌入。进一步地,行列结构出现:同一行/列中的块具有相似的嵌入。最后,对于较大的网格,正弦结构有时会显现(附录D)。位置嵌入学习表示2D图像拓扑,解释了为何手工设计的2D感知嵌入变体未能带来改进(附录D.4)。
在这里插入图片描述
自注意力使得ViT能够在最低层集成整个图像的信息。我们研究了网络在多大程度上利用了这一能力。具体来说,我们计算了信息在图像空间中的平均距离(图7,右)。这一“注意力距离”类似于CNN中的感受野大小。我们发现,一些注意力头会关注已经图像的绝大部分,表明模型确实具备整合全局信息的能力。其他注意力头则集中于低层中的信息,这种高度局部化的注意力在应用ResNet混合模型之前的Transformer中更为明显(图7,右),这表明它可能在早期卷积层中具有类似的功能。进一步地,模型在图像区域的关注表现出与图像分类相关的区域(图6)

局部与全局信息的整合: 不同的注意力头会分别处理图像的局部细节和全局信息,部分头部关注整个图像,其他头部则集中在更小的区域上。这表明ViT模型能够有效地在图像的不同区域内进行信息整合
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

http://www.khdw.cn/news/43695.html

相关文章:

  • 成都家具企业网站建设seo的中文名是什么
  • 工业部网站备案找客户资源的软件哪个最靠谱
  • 企业网站做的比较好镇江网络
  • 表白网页品牌企业seo咨询
  • 杭州网站建设文章和生活app下载安装最新版
  • 网站关键词数量关键词排名批量查询软件
  • 网站前nav是什么意思网络优化网站
  • 如何做网站卖画软文发稿网
  • 公司门户网站怎么做网页设计与制作知识点
  • 国旗做网站按钮违法吗廊坊快速排名优化
  • wordpress付费查看插件seo系统是什么
  • 成都商城网站制作19
  • python 做网站开发郑州百度推广哪家好
  • 网站突然消失了网站建设公司网站
  • emlog做企业网站重庆网站seo建设哪家好
  • 手机端网站怎么做排名靠前百度seo排名优化费用
  • 上海医疗器械网站前置审批百度热议排名软件
  • 做网站查询违章百度快照
  • 国外做电商网站有哪些方面交换链接是什么
  • 阿胶在那种网站做推广好安卓神级系统优化工具
  • 网站设计服务费一般多少钱nba交易最新消息汇总
  • 图片分享网站源码百度提交入口网址是什么
  • 网站制作软件下载安装企业网络推广网站
  • 网站建设费一般摊销几年seo服务
  • 苹果做安卓游戏下载网站好灰色词快速排名方法
  • 重庆响应式网站建设今日搜索排行榜
  • 大型门户网站建设效果怎么样专业网站推广优化
  • 销售型网站有哪些百度推广手机版
  • 拓普网站建设关键词是什么意思
  • 昆山装饰公司网站建设搜索引擎优化指的是