当前位置: 首页 > news >正文

网站建设需要哪些流程浙江网站推广公司

网站建设需要哪些流程,浙江网站推广公司,西部数码网站建设助手,上海中学图片Generalized Decoding for Pixel, Image, and Language Towards a Generalized Multi-Modal Foundation Model 1、概述 X-Decoder没有为视觉和VL任务开发统一的接口,而是建立了一个通用的解码范式,该范式可以通过采用共同的(例如语义&#…

Generalized Decoding for Pixel, Image, and Language

Towards a Generalized Multi-Modal Foundation Model

1、概述

X-Decoder没有为视觉和VL任务开发统一的接口,而是建立了一个通用的解码范式,该范式可以通过采用共同的(例如语义)但尊重自然差异(例如空间掩码与序列语言)来无缝连接任务,从而全面显著改进不同的分割和VL工作。

输入:两个查询,(i) generic non-semantic queries that aim to decode segmentation masks for universal segmentation,(ii) newly introduced textual queries to make the decoder language-aware for a diverse set of language-related vision tasks

输出:两种类型,像素级别和token级别。

2、X-Decoder

2.1 Formulation

图片:经过image encoder 得到特征,文本T经过text encoder 编码为,长度为n,非语义查询或者潜在查询,输入X-Decoder输出:

分别是像素级别masks和token级别语义.

在许多以前的统一编码器-解码器模型中,图像和文本在编码器侧融合。这种设计不仅使全局图像-文本对比学习难以解决,而且使生成预训练也难以解决。相反,通过完全解耦图像和文本编码器,并将输出全部用作查询,X-Decoder可以从图像内监督和图像间监督中学习,这对于学习更强的像素级表示和支持不同粒度的任务至关重要。

2.2 Unification of Tasks

Generic Segmentation:

Referring Segmentation:,与一般分割类似,只使用与潜在查询相对应的前m个解码输出。

Image-Text Retrieval:

Image Captioning and VQA:,这两个任务有两个不同:Captioning遵循因果掩mask策略,而VQA则不遵循。其次,使用Os中的所有输出作为字幕,但仅使用最后一个输出来预测VQA的答案。

之前的一系列工作探索了序列解码接口进行统一。然而,在这项工作中,我们提倡通过功能而不是接口来实现统一,即我们最大限度地共享不同任务的共同部分,同时保持单个任务的其余部分不变。

2.3 Unified Architecture

,不同level的特征

在每一层:先和视觉特征做交叉注意力,然后潜在查询和文本查询做自注意力:

其中,对第一个公式,所有查询和视觉特征做交叉注意力,对于潜在查询,使用masked cross-attention mechanism,对文本查询使用全部注意力。

对第二个公式,(i) 我们使用最后一个潜在查询来提取全局图像表示,剩余的用于一般分割;(ii)对于图像Caption,每个文本查询可以和其自身、前面的文字、所有潜在查询做自注意力;(iii)对于参考分割,潜在查询与所有文本查询做注意力。

对,m个潜在查询输出mask,对于语义输出,为潜在查询和文本查询预测输出,

2.4  End-to-End Pre-training

两种类型的损失函数:Semantic Loss,Mask Loss

1)Semantic Loss:

三个任务对应三个损失函数:

对image-text retrieval,计算语言图片相对损失。最后一个有效的token feature 代表文本,记作,用潜在特征的表示全局图片的特征表示图片,记作,对minibatch  B获得B对特征对:,然后计算点乘得到,然后计算双向交叉熵:

y是class labels。

对于mask classification,包括“background”在内C个类别编码为C个文本查询,提取每个查询最后一个有效特征作为概念表示,然后取对应前(m-1)个潜在查询的decoder输出,计算这些输出和概念表示的点乘,得到,最后计算交叉熵损失:

对于image captioning,提取所有词汇向量,大小为V,X-Decoder最后n个语义输出,计算点乘得到,和GT的写一个token的id  计算交叉熵

2)Mask Loss

用Hungarian matching找到和前(m − 1)个输出匹配的GT,使用BCE和DICE计算损失。

3  实验

100 latent queries and 9 decoder layers for segmentation, and we add one additional latent query for image-level task。

Focal-T and DaViT-B/L  as the vision encoder

http://www.khdw.cn/news/31350.html

相关文章:

  • 网站到期了5118网站如何使用免费版
  • 福州做网站建设公司竞价推广外包托管
  • 帮卖驾驶证的做网站dz论坛如何seo
  • 做网站月收入多少网址大全是ie浏览器吗
  • 电子书制作公司网站郑州网站优化培训
  • 你接入的网站不属于同一个主体武汉seo招聘信息
  • 网站费计入什么科目软文营销案例
  • 白城网站开发新网站怎么做推广
  • b2b行业网站建设seo专员是干什么的
  • 阿里云个人备案可以做企业网站今日新闻大事
  • 怎么用链接进自己做的网站吗金泉网做网站多少钱
  • 潍坊网站制作保定公司哪些网站可以发广告
  • 网站开发 .net 开源看广告赚钱的平台
  • 建行今日最新存款利率seo教程自学网
  • 济南市建设局网站查房产信息百度指数功能
  • 网站与备案信息不符网店运营与管理
  • 怎样做网站的子网百度推广怎么优化
  • 网站如何添加浮动窗口seo优化顾问
  • 做外贸在什么网站好电子商务营销策划方案
  • 自己可以做视频网站吗重庆网站
  • dede手机网站更新平台推广营销
  • 只做水果的网站网络服务
  • 企业cms免费模板seo网络营销外包
  • 建设一个平台网站需要多少钱全是广告的网站
  • 查询网 网站查询十大广告公司排名
  • 白酒进货渠道网详细描述如何进行搜索引擎的优化
  • 尼乐清网站建设怎么申请网址
  • 深圳网站建设(推荐乐云践新)人员优化方案怎么写
  • 常州微信网站建设流程网络推广是什么职业
  • 温州专业微网站制作公司人民日报新闻消息