当前位置: 首页 > news >正文

Falcon Mamba:首个高效的无注意力机制7B模型

Falcon Mamba:首个高效的无注意力机制7B模型

Falcon Mamba是由阿布扎比的 Technology Innovation Institute (TII) 开发并基于 TII Falcon Mamba 7B License 1.0 的开放获取模型。该模型是开放获取的,所以任何人都可以在 Hugging Face 生态系统中这里使用它进行研究或应用。

在这篇博客中,我们将深入模型的设计决策、探究模型与其他现有的SoTA模型相比的竞争力,以及如何在Hugging Face生态系统中使用它。

第一款通用的大规模纯Mamba模型

目前,所有顶级大型语言模型都使用基于注意力机制的Transformer架构。然而,由于计算和内存成本随序列长度增加而增加,注意力机制在处理大序列时存在根本性的局限性。状态空间语言模型(SSLMs)等各种替代架构尝试解决序列扩展的限制,但在性能上仍不及最先进的Transformer架构模型。

通过Falcon Mamba,我们证明了序列扩展的限制确实可以在不损失性能的情况下克服。Falcon Mamba基于原始的Mamba架构,该架构在Mamba: Linear-Time Sequence Modeling with Selective State Spaces中提出,并增加了额外的RMS标准化层以确保大规模稳定训练。这种架构选择确保Falcon Mamba:

  • 能够处理任意长度的序列,而不增加内存存储,特别是适用于单个A10 24GB GPU。
  • 生成新令牌的时间是恒定的,不论上下文的大小(参见此部分)。

模型训练

Falcon Mamba训练所用的数据量约为5500GT,主要包括经过精选的网络数据,并补充了来自公开源的高质量技术和代码数据。我们在大部分训练过程中使用恒定的学习率,随后进行了一个相对较短的学习率衰减阶段。在最后这个阶段,我们还添加了一小部分高质量的策划数据,以进一步提高模型性能。

模型评估

我们使用 lm-evaluation-harness 包在新排行榜版本的所有基准上评估我们的模型,然后使用Hugging Face分数规范化方法规范化评估结果。

model nameIFEvalBBHMATH LvL5GPQAMUSRMMLU-PROAverage
Pure SSM models
Falcon Mamba-7B33.3619.883.638.0510.8614.4715.04
TRI-ML/mamba-7b-rw*22.466.710.451.125.511.696.25
Hybrid SSM-attention models
recurrentgemma-9b30.7614.804.834.706.6017.8813.20
Zyphra/Zamba-7B-v1*24.0621.123.323.037.7416.0212.55
Transformer models

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • knime和Python两种解法提取斜杠(/)或反斜杠(\)分隔前后数据
  • 工时管理遇难题?试试这款系统解决方案
  • 强化学习——马尔可夫决策过程的理解
  • 2024年直面天命!2025年或将成为未来十年最容易获批国自然的一年?
  • elementUI——checkbox复选框监听不到change事件,通过watch监听来解决——基础积累
  • JavaWeb【day08】--(MySQL-Mybatis入门)
  • 悟空CRM12密码登录算法类
  • FFmpeg源码:compute_frame_duration函数分析
  • GDB:加载符号表
  • Spring-容器:IOC-基于注解管理Bean
  • xxl-job升级到springboot3.0 导致页面打不开报错)问题
  • 语法分析例题
  • GAMES101(5~6节,光栅化)
  • C++ | Leetcode C++题解之第389题找不同
  • 通过15张图带你掌握网络抓包工具Wireshark必备使用技巧
  • 【腾讯Bugly干货分享】从0到1打造直播 App
  • Docker 笔记(2):Dockerfile
  • HTTP中的ETag在移动客户端的应用
  • Idea+maven+scala构建包并在spark on yarn 运行
  • Laravel Mix运行时关于es2015报错解决方案
  • Nacos系列:Nacos的Java SDK使用
  • React Transition Group -- Transition 组件
  • Redux系列x:源码分析
  • sessionStorage和localStorage
  • vue:响应原理
  • 闭包--闭包之tab栏切换(四)
  • 给新手的新浪微博 SDK 集成教程【一】
  • 七牛云 DV OV EV SSL 证书上线,限时折扣低至 6.75 折!
  • 区块链分支循环
  • 我从编程教室毕业
  • 小李飞刀:SQL题目刷起来!
  • 说说我为什么看好Spring Cloud Alibaba
  • ​软考-高级-信息系统项目管理师教程 第四版【第14章-项目沟通管理-思维导图】​
  • #QT(一种朴素的计算器实现方法)
  • (aiohttp-asyncio-FFmpeg-Docker-SRS)实现异步摄像头转码服务器
  • (ISPRS,2021)具有遥感知识图谱的鲁棒深度对齐网络用于零样本和广义零样本遥感图像场景分类
  • (python)数据结构---字典
  • (附源码)springboot 基于HTML5的个人网页的网站设计与实现 毕业设计 031623
  • (七)MySQL是如何将LRU链表的使用性能优化到极致的?
  • (企业 / 公司项目)前端使用pingyin-pro将汉字转成拼音
  • (实战)静默dbca安装创建数据库 --参数说明+举例
  • (一)【Jmeter】JDK及Jmeter的安装部署及简单配置
  • (转)Android中使用ormlite实现持久化(一)--HelloOrmLite
  • .Net Core和.Net Standard直观理解
  • .Net Framework 4.x 程序到底运行在哪个 CLR 版本之上
  • .NET 发展历程
  • .net6 webapi log4net完整配置使用流程
  • .net解析传过来的xml_DOM4J解析XML文件
  • .NET设计模式(8):适配器模式(Adapter Pattern)
  • .net通用权限框架B/S (三)--MODEL层(2)
  • .pings勒索病毒的威胁:如何应对.pings勒索病毒的突袭?
  • @Autowired 与@Resource的区别
  • [AI Google] 使用 Gemini 取得更多成就:试用 1.5 Pro 和更多智能功能
  • [BFS广搜]迷阵
  • [C/C++]_[初级]_[关于编译时出现有符号-无符号不匹配的警告-sizeof使用注意事项]