当前位置: 首页 > news >正文

稀疏计算、彩票假说、MoE、SparseGPT

稀疏计算可能是未来10年内最有潜力的深度学习方向之一,稀疏计算模拟了对人脑的观察,人脑在处理信息的时候只有少数神经元在活动,多数神经元是不工作的。而稀疏计算的基本思想是:在计算过程中,将一些不重要的参数设置为0,从而减少计算量。而这种计算量的减少规模经常是10倍级别,这为部署提速提供了想象力。业界已有一些公司例如墨芯科技在做这方面的工作,并取得了一些成果,大家可以看他们的宣传视频(https://mp.weixin.qq.com/s/NHydrLhqJYGbvF7eY2m9RA),下面推荐几篇经典的文章:

The Lottery Ticket Hypothesis(彩票假说)

  • 推荐理由: 这是这个领域里非常经典的一篇文章,作者提出了一种生成稀疏的高性能网络的简单方法:在对网络进行训练后,将所有小于某个阈值的权重设置为0(对其进行剪枝),将其余权重重置回其初始配置,然后在保证被剪枝的权重处于冻结状态的情况下(未经过训练),从这个起始配置重新训练网络。在训练最多相同次数的迭代后,它可以与原始网络的测试精度相匹配。
  • 论文地址: https://openreview.net/pdf?id=rJl-b3RcF7
  • 相关解读: https://zhuanlan.zhihu.com/p/675189739 和 https://www.bilibili.com/read/cv2806397/

A REVIEW OF SPARSE EXPERT MODELS IN DEEP LEARNING (来自Jeff Dean的综述)

  • 推荐理由: 尽管彩票假说给业界提供了想象力,但是选择哪些参数裁掉仍是业界一个需要探索的问题。MoE结构提供了一种方案,例如Mixtral 8✖️7B就是一种典型的MoE结构(https://zhuanlan.zhihu.com/p/673527090)。Jeff Dean的综述比较详细地介绍了什么是top-k routing、Upstream Scaling和Downstream Scaling
    在这里插入图片描述

  • 论文地址: https://arxiv.org/abs/2209.01667

  • 相关解读: https://mp.weixin.qq.com/s/mTqCMYUqo1ifcmxlYHYm2A 和 https://huggingface.co/blog/zh/moe

SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot

在这里插入图片描述

  • 推荐理由: 该算法能够只用一张 A100(80G),在 4.5 个小时左右将 OPT-175B 的模型权重完成 60% 稀疏度的剪枝,且能保持较高的精度。而且可以很好地扩展到 2:4 模式的半结构化剪枝,以适配 A100 的稀疏计算。SparseGPT用来剪枝的思路其实和GPTQ有些类似,都是利用海森矩阵贪心地进行迭代更新,同时利用Cholesky分解来稳定数值计算
  • 论文地址: https://arxiv.org/pdf/2301.00774.pdf

相关文章:

  • 第2.1章 StarRocks表设计——概述
  • SOCKS5、代理 IP、HTTP 在软件工程中的应用
  • CrossOver虚拟机软件2024有哪些功能?最新版本支持哪些游戏?
  • Qt(C++)面试题 | 精选25项常问
  • 推理任务稳定提点大揭秘:力大砖飞背后的科学
  • 照片上多余的人怎么处理?这几种方法让你的照片更完美!
  • 子网络划分与互通,上网行为审计
  • Nginx返回502错误提示问题原因常用解决方法
  • NLP_BERT与GPT争锋
  • 2024年交通与运输工程、供应链管理国际会议(ICTESCM2024)
  • 【MATLAB GUI】 4. 坐标区和表
  • 国际阿里云,想要使用怎么解决支付问题
  • 优秀实践| 运营商核心系统国产数据库迁移实践
  • Selenium基础知识
  • 基于springboot+vue的大创管理系统(前后端分离)
  • 【162天】黑马程序员27天视频学习笔记【Day02-上】
  • 【347天】每日项目总结系列085(2018.01.18)
  • extract-text-webpack-plugin用法
  • JavaScript工作原理(五):深入了解WebSockets,HTTP/2和SSE,以及如何选择
  • Node + FFmpeg 实现Canvas动画导出视频
  • Python利用正则抓取网页内容保存到本地
  • Spring核心 Bean的高级装配
  • weex踩坑之旅第一弹 ~ 搭建具有入口文件的weex脚手架
  • 回流、重绘及其优化
  • 聊聊hikari连接池的leakDetectionThreshold
  • 如何合理的规划jvm性能调优
  • 使用docker-compose进行多节点部署
  • 一些css基础学习笔记
  • 源码安装memcached和php memcache扩展
  • 在Docker Swarm上部署Apache Storm:第1部分
  • raise 与 raise ... from 的区别
  • 专访Pony.ai 楼天城:自动驾驶已经走过了“从0到1”,“规模”是行业的分水岭| 自动驾驶这十年 ...
  • ​​​​​​​sokit v1.3抓手机应用socket数据包: Socket是传输控制层协议,WebSocket是应用层协议。
  • ​Z时代时尚SUV新宠:起亚赛图斯值不值得年轻人买?
  • #前后端分离# 头条发布系统
  • #我与Java虚拟机的故事#连载02:“小蓝”陪伴的日日夜夜
  • (03)光刻——半导体电路的绘制
  • (C语言)二分查找 超详细
  • (delphi11最新学习资料) Object Pascal 学习笔记---第2章第五节(日期和时间)
  • (附源码)spring boot校园健康监测管理系统 毕业设计 151047
  • (附源码)springboot人体健康检测微信小程序 毕业设计 012142
  • (附源码)ssm考试题库管理系统 毕业设计 069043
  • (每日持续更新)jdk api之FileReader基础、应用、实战
  • (十)T检验-第一部分
  • (十八)SpringBoot之发送QQ邮件
  • (推荐)叮当——中文语音对话机器人
  • .NET MVC、 WebAPI、 WebService【ws】、NVVM、WCF、Remoting
  • .net web项目 调用webService
  • .net 使用ajax控件后如何调用前端脚本
  • .pub是什么文件_Rust 模块和文件 - 「译」
  • /proc/vmstat 详解
  • @WebService和@WebMethod注解的用法
  • []T 还是 []*T, 这是一个问题
  • [Android View] 可绘制形状 (Shape Xml)
  • [BJDCTF2020]The mystery of ip