当前位置: 首页 > news >正文

怎么看待Groq

用眼睛看。

     就是字面上的意思用眼睛看。

     我属于第一波玩到的,先给大家一个直观的印象,Groq到底有多快。

     目前Groq只能选Llama的70b,和Mixtral的MoE,那我选7*8的这个MoE模型来实验。

     

图片

      这么好些字大概花了不到1秒,流式响应,其实是不是流式已经没那么重要了

图片

,然后看每秒Token数525!!!

       如果大家没什么概念可以做一下对比,GPT-3.5大概20几个,我用本地的卡做KV cache,然后Vllm拿Alpaca做推理,大概极限能冲到30几个Token...

       是的,它就是这么快。

       刚出的时候,Ross顶着TPU发明者的身份,被很多无良媒体解读说Groq是LPU,是Google TPU的同架构,然而两者根本一点关系也没有,TPU就别蹭了,TPU可以理解为更接近于GPU的架构,(TPU也根本做不到这么快,慢10倍都不止)LPU更像是Dojo,是空间计

相关文章:

  • Redis缓存三大问题-穿透、击穿、雪崩
  • html地铁跑酷
  • map和set(二)——AVL树的简单实现
  • SQL之常用字符串函数
  • php开发100问?
  • Rust 语言中的 dyn 关键字
  • 通过Step Back提示增强LLM的推理能力
  • 华容道问题求解_详细设计(五)之hash值和回放功能
  • qt使用QAxObject操作excel程序关闭之后excel进程未被关闭的解决方案
  • 【C++】三大特性之继承
  • Kafka|处理 Kafka 消息重复的有效措施
  • 线性代数 --- 特征值与特征向量(下)
  • CTP-API开发系列之五:SimNow环境介绍
  • 0102全排列和对换-行列式-线性代数
  • LeetCode每日一题之 快乐数
  • AWS实战 - 利用IAM对S3做访问控制
  • Codepen 每日精选(2018-3-25)
  • Java知识点总结(JDBC-连接步骤及CRUD)
  • Linux下的乱码问题
  • Web标准制定过程
  • 番外篇1:在Windows环境下安装JDK
  • 浮现式设计
  • 关于Flux,Vuex,Redux的思考
  • 和 || 运算
  • 解析带emoji和链接的聊天系统消息
  • 深度学习入门:10门免费线上课程推荐
  • 小李飞刀:SQL题目刷起来!
  • 原创:新手布局福音!微信小程序使用flex的一些基础样式属性(一)
  • 《天龙八部3D》Unity技术方案揭秘
  • zabbix3.2监控linux磁盘IO
  • 测评:对于写作的人来说,Markdown是你最好的朋友 ...
  • 资深实践篇 | 基于Kubernetes 1.61的Kubernetes Scheduler 调度详解 ...
  • ​云纳万物 · 数皆有言|2021 七牛云战略发布会启幕,邀您赴约
  • #QT(一种朴素的计算器实现方法)
  • (机器学习的矩阵)(向量、矩阵与多元线性回归)
  • (力扣记录)235. 二叉搜索树的最近公共祖先
  • (论文阅读32/100)Flowing convnets for human pose estimation in videos
  • (十)T检验-第一部分
  • (四)TensorRT | 基于 GPU 端的 Python 推理
  • (译)2019年前端性能优化清单 — 下篇
  • (转)Linux NTP配置详解 (Network Time Protocol)
  • (转贴)用VML开发工作流设计器 UCML.NET工作流管理系统
  • **python多态
  • .CSS-hover 的解释
  • .NET 4.0中的泛型协变和反变
  • .Net Core与存储过程(一)
  • .Net IE10 _doPostBack 未定义
  • .NET Micro Framework初体验(二)
  • .NET NPOI导出Excel详解
  • .NET/C# 中你可以在代码中写多个 Main 函数,然后按需要随时切换
  • .NET单元测试
  • .Net调用Java编写的WebServices返回值为Null的解决方法(SoapUI工具测试有返回值)
  • .Net语言中的StringBuilder:入门到精通
  • @RunWith注解作用
  • [<死锁专题>]