当前位置: 首页 > news >正文

宝安做网站的如何免费注册网站平台

宝安做网站的,如何免费注册网站平台,谁用fun域名做网站了,免费注册帐号目录 支持的模型列表 模型部署 模型调用 WebUI使用 在线调试 API调用 关于成本 FAQ 点击部署后服务长时间等待 服务部署成功后,调用API返回404 请求太长导致EAS网关超时 部署完成后,如何在EAS的在线调试页面调试 模型部署之后没有“联网搜索…

目录

支持的模型列表

模型部署

模型调用

WebUI使用

在线调试

API调用

关于成本

FAQ

点击部署后服务长时间等待

服务部署成功后,调用API返回404

请求太长导致EAS网关超时

部署完成后,如何在EAS的在线调试页面调试

模型部署之后没有“联网搜索”功能

模型服务如何集成到AI应用(以Dify为例)


DeepSeek-V3是由深度求索公司推出的一款拥有6710亿参数的专家混合(MoE)大语言模型,DeepSeek-R1是基于DeepSeek-V3-Base训练的高性能推理模型。Model Gallery提供了BladeLLM、SGLang和vLLM加速部署功能,帮助您一键部署DeepSeek-V3和DeepSeek-R1系列模型。

支持的模型列表

说明

DeepSeek-R1、DeepSeek-V3满血版模型的参数量较大(671B),所需配置和成本较高(8卡96G显存以上)。建议您选择蒸馏版模型(机器资源较充足、部署成本较低)。

根据测试,DeepSeek-R1-Distill-Qwen-32B模型的效果和成本较优,适合云上部署,可尝试作为DeepSeek-R1的替代模型。您也可以选择7B、8B、14B等其他蒸馏模型部署,Model Gallery还提供了模型评测功能,可以评测模型实际效果(评测入口在模型详情页右上角)。

表中给出的是最低所需配置机型,在Model Gallery的部署页面的资源规格选择列表中系统已自动过滤出模型可用的公共资源规格。

模型

最低配置

支持的最大Token数

部署方式为BladeLLM加速(推荐)

部署方式为SGLang加速(推荐)

部署方式为vLLM加速

部署方式为标准部署

DeepSeek-R1

8卡GU120(8 * 96 GB显存)

不支持

163840

4096

不支持

DeepSeek-V3

8卡GU120(8 * 96 GB显存)

不支持

163840

4096

2000

DeepSeek-R1-Distill-Qwen-1.5B

1卡A10(24 GB显存)

131072

不支持

131072

131072

DeepSeek-R1-Distill-Qwen-7B

1卡A10(24 GB显存)

131072

不支持

32768

131072

DeepSeek-R1-Distill-Llama-8B

1卡A10(24 GB显存)

131072

不支持

32768

131072

DeepSeek-R1-Distill-Qwen-14B

1卡GPU L(48 GB显存)

131072

不支持

32768

131072

DeepSeek-R1-Distill-Qwen-32B

2卡GPU L(2 * 48 GB显存)

131072

不支持

32768

131072

DeepSeek-R1-Distill-Llama-70B

2卡GU120(2 * 96 GB显存)

131072

不支持

32768

131072

部署方式说明:

  • BladeLLM 加速部署:BladeLLM是阿里云 PAI 自研的高性能推理框架。

  • SGLang 加速部署:SGLang是一个适用于大型语言模型和视觉语言模型的快速服务框架。

  • vLLM 加速部署:vLLM是一个业界流行的用于LLM推理加速的库。

  • 标准部署:不使用任何推理加速的标准部署。

推荐使用加速部署(BladeLLM、SGLang),性能和支持的最大Token数都会更优。

加速部署仅支持API调用方式,标准部署支持API调用方式及WebUI chat界面。

模型部署

  1. 进入Model Gallery页面。

    1. 登录PAI控制台。

    2. 在顶部左上角根据实际情况选择地域。

    3. 在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间。

    4. 在左侧导航栏选择快速开始 > Model Gallery

  2. 在Model Gallery页面右侧的模型列表中,找到需要部署的模型卡片,例如DeepSeek-R1-Distill-Qwen-32B模型,单击进入模型详情页面。

  3. 单击右上角部署,选择部署方式和部署资源后,即可一键部署,生成一个 PAI-EAS 服务。

说明

如果部署DeepSeek-R1或DeepSeek-V3模型,您可以选择的机型包括:

  • ml.gu8v.c192m1024.8-gu120、ecs.gn8v-8x.48xlarge(公共资源,库存可能较紧张)

  • ecs.ebmgn8v.48xlarge(无法通过公共资源使用,请购买EAS专属资源)

 

模型调用

您可以通过下表了解不同部署方式支持的模型调用方式。

BladeLLM部署

SGLang部署

vLLM部署

标准部署

WebUI

不支持,需本地启动WebUI。详情请参见WebUI使用。

支持

在线调试

支持。详情请参见在线调试。

API调用

所有部署方式都支持通过以下接口发送HTTP POST请求调用模型。

  • completions 接口:<EAS_ENDPOINT>/v1/completions

  • chat 接口:<EAS_ENDPOINT>/v1/chat/completions

注意,标准部署还支持Endpoint后面不添加任何内容直接调用。详情请参见API调用。

重要

使用BladeLLM加速部署方式,如果不指定max_tokens参数,默认会按照max_tokens=16进行截断。建议您根据实际需要调整请求参数max_tokens。

WebUI使用

如果是标准部署,支持Web应用。在PAI-Model Gallery > 任务管理 > 部署任务中单击已部署的服务名称,在服务详情页面右上角单击查看WEB应用,即可通过ChatLLM WebUI进行实时交互。

image

非标准部署,可下载Web UI代码,在本地启动一个Web UI。

注意:BladeLLM和vLLM、SGLang部署使用的Web UI代码不同。

  • BladeLLM:BladeLLM_github、 BladeLLM_oss

  • vLLM、SGLang:vLLM_github、vLLM_oss

python webui_client.py --eas_endpoint "<EAS API Endpoint>" --eas_token "<EAS API Token>"

 

在线调试

PAI-Model Gallery > 任务管理 > 部署任务中单击已部署的服务名称,在在线测试模块中找到EAS在线调试的入口,使用如下示例数据测试接口。

注意:在线调试中已经填充的路径是以下示例中的<EAS_ENDPOINT>

单击查看请求数据示例

API调用

  1. PAI-Model Gallery > 任务管理 > 部署任务中单击已部署的服务名称,进入服务详情页。

  2. 单击查看调用信息获取调用的 Endpoint 和 Token。

  3. 单击预训练模型跳转到Model Gallery的模型介绍页查看API调用方式的详细说明。

    image

    image

关于成本

  • 由于DeepSeek-V3和DeepSeek-R1模型较大,模型部署费用较高,建议用于正式生产环境。

  • 您还可以选择部署经过知识蒸馏的轻量级模型,这些模型的参数量显著减少,从而大幅降低部署成本。

  • 如果您从未使用过EAS,可以前往阿里云试用中心领取PAI-EAS试用资源。领取成功后,可以在Model Gallery选择最低配置为 A10 的模型(如DeepSeek-R1-Distill-Qwen-7B)进行部署,并在部署时修改资源规格为试用活动中的机型。

  • 对于长期使用的模型,您可以采用公共资源组搭配节省计划的方式,或者购买预付费EAS资源组来节约成本。

  • 如果是非生产环境使用,可以在部署时打开竞价模式,但需满足一定条件才能竞价成功,且有资源不稳定的风险。

FAQ

点击部署后服务长时间等待

可能的原因:

  • 当前地域下机器资源不足。

  • 由于模型较大,模型加载耗时较长(对于DeepSeek-R1、DeepSeek-V3这样的大模型,需要20-30min)。

您可以耐心等待观察一段时间,如果服务仍长时间无法正常启动运行,建议尝试以下步骤:

  1. 进入任务管理-部署任务,查看部署任务详情页。在页面右上角单击更多 > 更多信息,跳转到PAI-EAS的模型服务详情,查看服务实例状态。

    EAS实例状态

  2. 关闭当前服务,并在控制台左上角切换到其他地域重新部署服务。

    说明

    对于DeepSeek-R1、DeepSeek-V3这样的超大参数量模型,需要8卡GPU才能启动服务(资源库存较紧张),您可以选择部署DeepSeek-R1-Distill-Qwen-7B等蒸馏小模型(资源库存较富裕)。

服务部署成功后,调用API返回404

请检查调用的URL是否加上了OpenAI的API后缀,例如v1/chat/completions。详情可以参考模型主页调用方式介绍。

请求太长导致EAS网关超时

EAS默认网关的请求超时时间是180秒,如果需要延长超时时间,可以配置EAS专属网关,并提交工单调整专属网关的请求超时时间,最大可以调整到600秒。

部署完成后,如何在EAS的在线调试页面调试

详情请参见如何在线调试已部署的模型?

模型部署之后没有“联网搜索”功能

“联网搜索”功能并不是仅通过直接部署一个模型服务就能实现的,而是需要基于该模型服务自行构建一个AI应用(Agent)来完成。

通过PAI的大模型应用开发平台LangStudio,可以构建一个联网搜索的AI应用,详情请参考Chat With Web Search应用流。

模型服务如何集成到AI应用(以Dify为例)

以DeepSeek-R1-Distill-Qwen-7B模型为例,建议采用vLLM加速部署。

  1. 在Dify中编辑“模型供应商”,添加更多模型供应商“OpenAI-API-compatible”:

    image

  2. 模型名称填写“DeepSeek-R1-Distill-Qwen-7B”,API Key填写EAS服务Token,API endpoint URL填写EAS服务endpoint(注意末尾加上/v1)。EAS服务Token和endpoint获取方式:进入Model Gallery的任务管理-部署任务,在部署任务详情页面单击查看调用信息

    image

 

http://www.khdw.cn/news/39807.html

相关文章:

  • 网站标题flash网站建设公司是怎么找客户
  • 安陆网站开发网络培训平台有哪些
  • 中国制造外贸网四川seo整站优化费用
  • 手机qq网页版登录入口企业网站的优化建议
  • 关键词优化软件哪家好北京seo相关
  • 香港政府网站建设经验百度热议
  • 如何设计网站的链接女生学电子商务后悔了
  • 中石油网页设计与网站建设武汉seo优化服务
  • 网站建设视频教程bt百度最新秒收录方法2022
  • 网上开店铺需要什么流程外贸网站seo教程
  • 做网站需要什么学专业手机关键词排名优化
  • 九江做网站的爱站网关键词挖掘查询工具
  • 制作营销网站模板seo是什么意思中文翻译
  • 薅羊毛做任务赚钱网站百度人工服务热线
  • 国外网站有哪些平台seo快速排名优化
  • 京东的网站是哪家公司做没经验怎么开广告公司
  • 网站设计销售软件企业宣传方式有哪些
  • 手机网站制作行业排行站长工具使用
  • 网站建设案例分析题5年网站seo优化公司
  • 福田区建设局网站免费做网站网站的软件
  • 佛山南海网站建设百度查关键词显示排名
  • 做网站图标的软件seo优化一般多少钱
  • 怎么对b2b网站做优化关键词搜索排名推广
  • 响应式网站价格全国疫情排名一览表
  • 菠菜网站做首存域名注册平台有哪些
  • 宿州网站建设多少钱百度top风云榜
  • 二次元动漫网站设计方案2023国内外重大新闻事件10条
  • 网站右侧广告seo专员工资一般多少
  • 上海金山网站建设公司关键字挖掘机爱站网
  • 可以上传自己做的视频的网站吗今日头条新闻下载安装