当前位置: 首页 > news >正文

怎么做html5网站吗苏州百度关键词优化

怎么做html5网站吗,苏州百度关键词优化,高雅不俗气的公司名字,app模板大全GroupViT: Semantic Segmentation Emerges from Text Supervision 一、思想 把Transformer层分为多个组阶段grouping stages,每个stage通过自注意力机制学习一组tokens,然后使用学习到的组tokens通过分组模块Grouping Block融合相似的图片tokens。通过这…

GroupViT: Semantic Segmentation Emerges from Text Supervision

一、思想

把Transformer层分为多个组阶段grouping stages,每个stage通过自注意力机制学习一组tokens,然后使用学习到的组tokens通过分组模块Grouping Block融合相似的图片tokens。通过这种组级联,可以把图片中小分割块组成大块。

二、模型

图片分成不重叠的N个块,每个块经过线性映射变成 image token,除了 image tokens ,每个grouping stage同时concat一组可学习的group tokens,image token和group tokens都输入Transformer层。

Grouping Block的作用是把小块组合成大块,每个阶段都有该模块。

不是把所有的image token前向传播到所有Transformer层。

每个阶段经过GroupingBlock后得到的tokens数量越来越少,因为分割的区域越来越大,分割的数量越来越少。最后一层后,所有分割tokens经过Transformer层,输出平均池化,得到图片表示z。

然后用了一个hard assignment技巧,使得可微分,将每个分割token分配给一个组。然后同一组的所有token融合得到一个新的分割token:

双编码器结构,GroupViT是图片编码器,Transformer是文本编码器,最终GroupViT输出的图片向量是所有输出的分割token的平均向量。

三、损失函数

Image-Text Contrastive Loss:

Multi-Label Image-Text Contrastive Loss:

从GT文本中随机选出K个名词,然后用模版填充:“A photo of a {noun}”.

原始的文本图片对:

the new sets of image-“prompted text” pairs:

Zero-Shot Transfer to Semantic Segmentation

四、实验

部分细节:

ViT-S+12 Transformer layers+hidden dimension of 384

input images of size 224 × 224+patch size of 16 × 16

experiment with 1-stage and 2-stage architectures for GroupViT:

        1-stage:

        64 group tokens and insert the grouping block after the sixth Transformer layer;Before the grouping block, we project the 64 group tokens into 8 tokens using an MLP-Mixer layer [76] and output 8 segment tokens.

        2-stage:

        there are 64 and 8 group tokens in the first and second grouping stages, respectively. We insert grouping blocks after the sixth and ninth Transformer layers. We use a 2-layer MLP to project the visual and text embedding vectors into the same latent space.

Our batch size is 4096 with a learning rate initialized to 0.0016 and decayed via the cosine schedule. We use the Adam optimizer with a weight decay of 0.05. We train GroupVIT for 30 epochs with the 5 initial epochs containing linear warm-up. For the multi-label contrastive loss, we set K = 3. 

结果:

http://www.khdw.cn/news/16777.html

相关文章:

  • 苏州吴江做网站公司电商还有发展前景吗
  • 浙江平台网站建设找哪家优化大师的优化项目有哪7个
  • 杰讯山西网站建设宁波seo外包费用
  • 个人网站怎么做app流量精灵
  • 做网站要具备些什么10条重大新闻
  • 代码网站开发网络推广方法大全
  • iphone手机网站建设国家优化防控措施
  • 龙海市建设局网站seo公司杭州
  • 做网站的人多吗免费下载百度软件
  • 做企业平台的网站有哪些西安网站制作建设
  • 深圳微商城网站制作深圳网络推广外包公司
  • 一个人网站运营怎么做网店代运营公司靠谱吗
  • 天眼查企业信息查询平台官网石家庄全网seo
  • 免费 网站源码网站seo招聘
  • 西安做网站需要多少钱商品关键词举例
  • 如何做好商务网站的运营怎么做北京疫情最新数据
  • 建立网站的申请什么是全网营销推广
  • 深圳外贸网站建设公司河南网站优化公司哪家好
  • 在手机上编程的软件seo品牌
  • 网站建设深圳公司哪家好seo网站查询工具
  • 一般做海报的图片跟哪个网站下载百度网盘客服24小时电话人工服务
  • 网页制作的公司排名重庆网站排名优化教程
  • 如何做网站吸引广告商全网营销推广案例
  • 网站制作主题思路武汉seo公司哪家专业
  • 做美女网站犯法吗推广普通话
  • php本地建站工具百度信息流广告怎么收费
  • 备案网站容易被收录长尾关键词挖掘
  • 武汉网站建设设计哪家好产品软文撰写
  • 网站怎么做滚动字幕培训机构学校
  • 做网站知识点企业自建网站