当前位置: 首页 > news >正文

87 GB 模型种子,GPT-4 缩小版,超越ChatGPT3.5,多平台在线体验

瞬间爆火的Mixtral 8x7B

大家好,我是老章

最近风头最盛的大模型当属Mistral AI 发布的Mixtral 8x7B了,火爆程度压过Google的Gemini。

缘起是MistralAI二话不说,直接在其推特账号上甩出了一个87GB的种子

随后Mixtral公布了模型的一些细节:

  • 具有编程能力
  • 相比 Llama 2 70B,运算速度快 6 倍
  • 可处理 32k 令牌的上下文
  • 可通过 API 接口使用
  • 可自行部署(它使用 Apache 2.0 开源协议
  • 在大多数标准基准测试中匹配或优于 GPT3.5
  • 可以微调为遵循指令的模型,在 MT-Bench 测试中获得 8.3 分

性能概览

Mixtral 8x7B 技术细节

Mixtral 8x7B 是基于Mixture of Experts (专家混合,8x7B即 8 名专家,每个专家7B个参数 )的开源模型,

专家混合 (MoE) 是LLM中使用的一种技术,旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务,每个子任务都由专门的迷你模型或“专家”处理。

1、专家层:这些是较小的神经网络,经过训练,在特定领域具有高技能。每个专家处理相同的输入,但处理方式与其独特的专业相一致。

2、门控网络:这是MoE架构的决策者。它评估哪位专家最适合给定的输入数据。网络计算输入与每个专家之间的兼容性分数,然后使用这些分数来确定每个专家在任务中的参与程度。

Mixtral 是一个稀疏专家混合网络,仅包含解码器。其前馈网络从 8 组不同的参数中挑选,在每一层,对每个词元,路由网络会选择两组“专家”参数来处理该词元,并将其输出叠加。

这种技术在控制计算成本和延迟的同时扩大了模型规模,因为每个词元只使用参数总量的一小部分。具体来说,Mixtral 总参数量有 46.7 亿,但每个词元只使用 12.9 亿参数。因此,它的输入处理和输出生成速度与成本与 12.9 亿参数模型相当。

Mistral 8x7B 使用与 GPT-4 非常相似的架构,但缩小了:

  • 总共 8 名专家,而不是 16 名(减少 2 倍)
  • 每个专家 7B 个参数,而不是 166B(减少 24 倍)
  • 42B 总参数(估计)而不是 1.8T(减少 42 倍)
  • 与原始 GPT-4 相同的 32K 上下文

线上体验 Mixtral 8x7B

如果大家硬件资源真的很硬,可以下载这个87GB的模型种子本地运行

下载:https://twitter.com/MistralAI/status/1733150512395038967

玩法:https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2

我相信99%的同学应该没有这个实力,现在市面上已经有很多可以在线试玩的平台了。

1、replicate

https://replicate.com/nateraw/mixtral-8x7b-32kseqlen

replicate还服了api调用的方法:

pip install replicate
export REPLICATE_API_TOKEN=<paste-your-token-here>
#API token  https://replicate.com/account/api-tokens
import replicate
output = replicate.run("nateraw/mixtral-8x7b-32kseqlen:f8125aef9cd96d879f4e5c5c1ff78618818e62939ab76ab1e07425ac75d453bc",input={"prompt": "你好","top_p": 0.9,"temperature": 0.6,"max_new_tokens": 512}
)
print(output)

2、POE

https://poe.com/chat/2t377k6re3os2ha7z1e

3、fireworks.ai

https://app.fireworks.ai/models/fireworks/mixtral-8x7b-fw-chat

4、perplexity_ai

https://labs.perplexity.ai/

相关文章:

  • 云原生之深入解析K8S 1.27新特性如何简化状态服务跨集群平滑迁移
  • 实验4.2 默认路由和浮动静态路由的配置
  • C#监听端口报错“以一种访问权限不允许的方式做了访问套接字的尝试”
  • 【网络安全】-Linux操作系统—CentOS安装、配置
  • Flink系列之:Table API Connectors之Debezium
  • Apache Doris 在奇富科技的统一 OLAP 场景探索实践
  • MATLAB 点云中心化 (40)
  • opencv 入门二(播放视频)
  • JDK各个版本特性讲解-JDK14特性
  • 【六大排序详解】开篇 :插入排序 与 希尔排序
  • 智能优化算法应用:基于社会群体算法3D无线传感器网络(WSN)覆盖优化 - 附代码
  • css 美化滚动条
  • SpringCloudGateway 3.1.4版本 Netty内存泄漏问题解决
  • 【Python炫酷系列】祝考研的友友们金榜题名吖(完整代码)
  • 芯知识 | WT588F02B语音芯片IC支持用户自行更换语音内容的应用优势介绍
  • CoolViewPager:即刻刷新,自定义边缘效果颜色,双向自动循环,内置垂直切换效果,想要的都在这里...
  • ECS应用管理最佳实践
  • Git 使用集
  • maven工程打包jar以及java jar命令的classpath使用
  • mysql innodb 索引使用指南
  • Nodejs和JavaWeb协助开发
  • 解决iview多表头动态更改列元素发生的错误
  • 区块链技术特点之去中心化特性
  • 如何正确配置 Ubuntu 14.04 服务器?
  • 译有关态射的一切
  • 用Visual Studio开发以太坊智能合约
  • 说说我为什么看好Spring Cloud Alibaba
  • (175)FPGA门控时钟技术
  • (Python第六天)文件处理
  • (vue)el-checkbox 实现展示区分 label 和 value(展示值与选中获取值需不同)
  • (附源码)springboot工单管理系统 毕业设计 964158
  • (附源码)springboot家庭财务分析系统 毕业设计641323
  • (附源码)ssm经济信息门户网站 毕业设计 141634
  • (四)七种元启发算法(DBO、LO、SWO、COA、LSO、KOA、GRO)求解无人机路径规划MATLAB
  • (算法设计与分析)第一章算法概述-习题
  • (提供数据集下载)基于大语言模型LangChain与ChatGLM3-6B本地知识库调优:数据集优化、参数调整、Prompt提示词优化实战
  • (转) SpringBoot:使用spring-boot-devtools进行热部署以及不生效的问题解决
  • (转)linux 命令大全
  • *++p:p先自+,然后*p,最终为3 ++*p:先*p,即arr[0]=1,然后再++,最终为2 *p++:值为arr[0],即1,该语句执行完毕后,p指向arr[1]
  • .net core Swagger 过滤部分Api
  • .NET Core/Framework 创建委托以大幅度提高反射调用的性能
  • .net framework4与其client profile版本的区别
  • .Net 访问电子邮箱-LumiSoft.Net,好用
  • .net用HTML开发怎么调试,如何使用ASP.NET MVC在调试中查看控制器生成的html?
  • @staticmethod和@classmethod的作用与区别
  • @Transient注解
  • [2016.7.test1] T2 偷天换日 [codevs 1163 访问艺术馆(类似)]
  • [20181219]script使用小技巧.txt
  • [30期] 我的学习方法
  • [ACM] hdu 1201 18岁生日
  • [AR]Vumark(下一代条形码)
  • [BJDCTF2020]The mystery of ip1
  • [C++][基础]1_变量、常量和基本类型
  • [C++]Leetcode17电话号码的字母组合
  • [codevs 1515]跳 【解题报告】