当前位置：首页 > news >正文

网站建设需要哪些流程浙江网站推广公司

news 2025/7/13 7:07:51

网站建设需要哪些流程,浙江网站推广公司,西部数码网站建设助手,上海中学图片Generalized Decoding for Pixel, Image, and Language Towards a Generalized Multi-Modal Foundation Model 1、概述 X-Decoder没有为视觉和VL任务开发统一的接口，而是建立了一个通用的解码范式，该范式可以通过采用共同的（例如语义&#…

Generalized Decoding for Pixel, Image, and Language

Towards a Generalized Multi-Modal Foundation Model

1、概述

X-Decoder没有为视觉和VL任务开发统一的接口，而是建立了一个通用的解码范式，该范式可以通过采用共同的（例如语义）但尊重自然差异（例如空间掩码与序列语言）来无缝连接任务，从而全面显著改进不同的分割和VL工作。

输入：两个查询，(i) generic non-semantic queries that aim to decode segmentation masks for universal segmentation，(ii) newly introduced textual queries to make the decoder language-aware for a diverse set of language-related vision tasks

输出：两种类型，像素级别和token级别。

2、X-Decoder

2.1 Formulation

图片：经过image encoder 得到特征，文本T经过text encoder 编码为，长度为n，非语义查询或者潜在查询，输入X-Decoder输出：

分别是像素级别masks和token级别语义.

在许多以前的统一编码器-解码器模型中，图像和文本在编码器侧融合。这种设计不仅使全局图像-文本对比学习难以解决，而且使生成预训练也难以解决。相反，通过完全解耦图像和文本编码器，并将输出全部用作查询，X-Decoder可以从图像内监督和图像间监督中学习，这对于学习更强的像素级表示和支持不同粒度的任务至关重要。

2.2 Unification of Tasks

Generic Segmentation：

Referring Segmentation：，与一般分割类似，只使用与潜在查询相对应的前m个解码输出。

Image-Text Retrieval：，

Image Captioning and VQA：，这两个任务有两个不同：Captioning遵循因果掩mask策略，而VQA则不遵循。其次，使用Os中的所有输出作为字幕，但仅使用最后一个输出来预测VQA的答案。

之前的一系列工作探索了序列解码接口进行统一。然而，在这项工作中，我们提倡通过功能而不是接口来实现统一，即我们最大限度地共享不同任务的共同部分，同时保持单个任务的其余部分不变。

2.3 Unified Architecture

，不同level的特征

在每一层：先和视觉特征做交叉注意力，然后潜在查询和文本查询做自注意力：

其中，对第一个公式，所有查询和视觉特征做交叉注意力，对于潜在查询，使用masked cross-attention mechanism，对文本查询使用全部注意力。

对第二个公式，（i）我们使用最后一个潜在查询来提取全局图像表示，剩余的用于一般分割；（ii）对于图像Caption，每个文本查询可以和其自身、前面的文字、所有潜在查询做自注意力；（iii）对于参考分割，潜在查询与所有文本查询做注意力。

对，m个潜在查询输出mask，对于语义输出，为潜在查询和文本查询预测输出，

2.4 End-to-End Pre-training

两种类型的损失函数：Semantic Loss，Mask Loss

1）Semantic Loss：

三个任务对应三个损失函数：

对image-text retrieval，计算语言图片相对损失。最后一个有效的token feature 代表文本，记作，用潜在特征的表示全局图片的特征表示图片，记作，对minibatch B获得B对特征对：，然后计算点乘得到，然后计算双向交叉熵：

y是class labels。

对于mask classification，包括“background”在内C个类别编码为C个文本查询，提取每个查询最后一个有效特征作为概念表示，然后取对应前（m-1）个潜在查询的decoder输出，计算这些输出和概念表示的点乘，得到，最后计算交叉熵损失：。

对于image captioning，提取所有词汇向量，大小为V，X-Decoder最后n个语义输出，计算点乘得到，和GT的写一个token的id 计算交叉熵。

2）Mask Loss

用Hungarian matching找到和前(m − 1)个输出匹配的GT，使用BCE和DICE计算损失。

3 实验

100 latent queries and 9 decoder layers for segmentation, and we add one additional latent query for image-level task。

Focal-T and DaViT-B/L as the vision encoder

http://www.khdw.cn/news/31350.html

相关文章：

网站到期了5118网站如何使用免费版

福州做网站建设公司竞价推广外包托管

帮卖驾驶证的做网站dz论坛如何seo

做网站月收入多少网址大全是ie浏览器吗

电子书制作公司网站郑州网站优化培训

你接入的网站不属于同一个主体武汉seo招聘信息

网站费计入什么科目软文营销案例

白城网站开发新网站怎么做推广

b2b行业网站建设seo专员是干什么的

阿里云个人备案可以做企业网站今日新闻大事

怎么用链接进自己做的网站吗金泉网做网站多少钱

潍坊网站制作保定公司哪些网站可以发广告

网站开发 .net 开源看广告赚钱的平台

建行今日最新存款利率seo教程自学网

济南市建设局网站查房产信息百度指数功能

网站与备案信息不符网店运营与管理

怎样做网站的子网百度推广怎么优化

网站如何添加浮动窗口seo优化顾问

做外贸在什么网站好电子商务营销策划方案

自己可以做视频网站吗重庆网站

dede手机网站更新平台推广营销

只做水果的网站网络服务

企业cms免费模板seo网络营销外包

建设一个平台网站需要多少钱全是广告的网站

查询网网站查询十大广告公司排名

白酒进货渠道网详细描述如何进行搜索引擎的优化

尼乐清网站建设怎么申请网址

深圳网站建设(推荐乐云践新)人员优化方案怎么写

常州微信网站建设流程网络推广是什么职业

温州专业微网站制作公司人民日报新闻消息