当前位置: 首页 > news >正文

[论文笔记] chatgpt系列 SparseMOE—GPT4的MOE结构

SparseMOE: 稀疏激活的MOE

        Swtich MOE,所有token要在K个专家网络中,选择一个专家网络。

        显存增加

        

 

Experts Choice:路由MOE:​​​​​​​

        由专家选择token。这样不同的专家都选择到某个token,也可以不选择该token。

        由于FFN层的时间复杂度和attention层不同,FFN层的时间复杂度在O(N*d),N是输入长度,d是隐层纬度。attention层的时间复杂度在O(N^2*d)。

        所以这样操作没能减小计算量。参数量也是多了几个Expert的参数量。

        论文里的效果比SparseMOE更好。显存增加

Tokens Choice:路由MOE:​​​​​​​

         由token选择专家。每个token只能进到一个专家里。没有t

相关文章:

  • beebox靶场A1 low 命令注入通关教程(上)
  • 【PostgreSQL】从零开始:(二)PostgreSQL下载与安装
  • 【5G PHY】5G小区类型、小区组和小区节点的概念介绍
  • 音频I2S
  • 08-工厂方法
  • mybatis中oracle的sql没走索引导致特别慢(未加jdbcType的)
  • Nat. Mach. Intell. | 通过深度神经网络联合建模多个切片来构建一个三维全生物体空间图谱
  • jenkins安装
  • 【运维笔记】Hyperf正常情况下Xdebug报错死循环解决办法
  • 计算机服务器中了mkp勒索病毒怎么办,mkp勒索病毒解密恢复
  • WTN6040F-8S语音芯片:投篮游戏机新时代引领者
  • 前端真的死了吗
  • 汇编指令学习
  • 分布式定时任务系列7:XXL-job源码分之任务触发
  • 【经典LeetCode算法题目专栏分类】【第4期】BFS广度优先算法:单词接龙、最小基因变化、二进制矩阵中的最短路径
  • 【node学习】协程
  • 【vuex入门系列02】mutation接收单个参数和多个参数
  • JavaScript 基础知识 - 入门篇(一)
  • Spring-boot 启动时碰到的错误
  • 分享一份非常强势的Android面试题
  • 开源地图数据可视化库——mapnik
  • 强力优化Rancher k8s中国区的使用体验
  • 一道面试题引发的“血案”
  • 优化 Vue 项目编译文件大小
  • 教程:使用iPhone相机和openCV来完成3D重建(第一部分) ...
  • #Js篇:单线程模式同步任务异步任务任务队列事件循环setTimeout() setInterval()
  • #pragma once与条件编译
  • #QT(TCP网络编程-服务端)
  • %@ page import=%的用法
  • (2)(2.10) LTM telemetry
  • (2)关于RabbitMq 的 Topic Exchange 主题交换机
  • (C#)Windows Shell 外壳编程系列9 - QueryInfo 扩展提示
  • (JSP)EL——优化登录界面,获取对象,获取数据
  • (笔记)Kotlin——Android封装ViewBinding之二 优化
  • (独孤九剑)--文件系统
  • (翻译)terry crowley: 写给程序员
  • (附源码)计算机毕业设计SSM疫情社区管理系统
  • (四)TensorRT | 基于 GPU 端的 Python 推理
  • (转) ns2/nam与nam实现相关的文件
  • (最全解法)输入一个整数,输出该数二进制表示中1的个数。
  • . NET自动找可写目录
  • .helper勒索病毒的最新威胁:如何恢复您的数据?
  • .Net Framework 4.x 程序到底运行在哪个 CLR 版本之上
  • .NET 的程序集加载上下文
  • .NET 服务 ServiceController
  • @RequestMapping-占位符映射
  • [].shift.call( arguments ) 和 [].slice.call( arguments )
  • [2016.7 Day.4] T1 游戏 [正解:二分图 偏解:奇葩贪心+模拟?(不知如何称呼不过居然比std还快)]
  • [Android Pro] AndroidX重构和映射
  • [APIO2012] 派遣 dispatching
  • [BT]小迪安全2023学习笔记(第15天:PHP开发-登录验证)
  • [C#] 基于 yield 语句的迭代器逻辑懒执行
  • [C#]winform部署PaddleOCRV3推理模型
  • [C#C++]类CLASS
  • [English]英语积累本