当前位置: 首页 > news >正文

楚雄做网站免费建站的平台

楚雄做网站,免费建站的平台,东营做网站排名,西安专业网站建设论文: AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and Acceleration 中文解读: 深入理解AWQ量化技术 - 知乎 (zhihu.com) 动机:端侧设备用LLM,为了减少显存占用量,所以要用INT4量化&am…

论文:

AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and Acceleration

中文解读:

深入理解AWQ量化技术 - 知乎 (zhihu.com)

动机:端侧设备用LLM,为了减少显存占用量,所以要用INT4量化;

实现:只量化W矩阵,存储INT4计算的时候再反量化为FP16(TensorRT-LLM反量化为FP8),进行计算;

朴素的量化:

发现:W矩阵里,有1%的权重,对量化误差影响最大;哪些权重是这1%呢?答:Activation绝对值大的那列(channel),所对应的W的那行;

改进:对Activation绝对值最大的那些列,所对应的W的那些行,不进行量化;W的其他行,进行INT4量化;

痛点:有的量化,有的不量化,即混合精度计算,在GPU上执行的效率低;

解决:整个W矩阵全部进行量化;区别对待,对重要的Channel,进行scale放大;(越重要,scale越大一些);scale越大的channel,该channel的量化误差就越小;

原理:

朴素的量化:

其中,Round的量化误差,绝对值在[0, 0.5]之间,是均匀分布,均值是0.25;

当给w乘以一个大于1的scale s,则:

如果Round仍保持在0.25,则w的误差减少s倍;

假设:对1%的W进行s倍增大,且s不是很大时,整个矩阵的scale factor △,不会发生大的变化;

细节:

问:每个s具体是多少?

答:看Activation矩阵X,每一列所有元素的绝对值,取平均值,进行a次方(该a数值是在(0,1)之间网格搜索出来的最优值),和其他列的平均值a次方归一化,就是该列的s;即X哪列的绝对值大,对应W中的该行就s大;

问:group-size是什么?

答:分块量化,量化误差能更小;按X的列,W的行,分成多个group,每个group内部进行量化;

http://www.khdw.cn/news/25719.html

相关文章:

  • 做网站的公司广州seo网站权重
  • 如何设计一个网页的快捷方式seo网站建设公司
  • 廊坊关键词排名软件枫树seo
  • 做网站测试 怎么兼容ie9重庆最新数据消息
  • cdn 动态网站 加速北京网站推广服务
  • 威海外贸网站建设电话服务营销的概念
  • 商务网站建设与规划百度上海总部
  • 网站建设万首先金手指12cilimao磁力猫
  • 塘厦 网站建设 百度推广优化大师电脑版下载
  • 如何建设网站盈利seo上首页排名
  • 什么网站做弹窗广告好北京计算机培训机构哪个最好
  • 电子商务网站建设实习网络营销成功案例有哪些
  • 做我韩国连续剧网站济南做网站建设的公司
  • h5 服装网站模板广州百度推广排名优化
  • 怎么在网站添加paypal百度业务范围
  • 怎么做淘宝联盟网站制作it培训机构培训费用
  • 如何做网站测试it培训四个月骗局
  • wordpress主题整站杭州产品推广服务公司
  • 鸟人 网站建设推广文章的步骤
  • 网站开发业务流程图国际新闻头条最新消息
  • 有没有做生物科技相关的网站营销方案策划书
  • 娄底网站建设是什么品牌营销策划方案
  • 传统文化网站设计深圳网站优化平台
  • vip解析网站如何做写一篇软文推广自己的学校
  • wordpress是建站工具 还是语言seo排名的职位
  • 成都网站seo设计seo的工作原理
  • 网站的产品中心怎么做2023全民核酸又开始了
  • 做二手房的网站技巧青岛招聘seo
  • 做旅游海报的软件或是网站淮北seo排名
  • 如何做自己的论坛网站私域营销