当前位置: 首页 > news >正文

国产开源大模型都有哪些?

随着ChatGPT引领的大模型热潮,国内的公司开始相继投入研发自己的人工智能大模型,截止到2023年10月,国产公司的大模型有近百个,包括一些通用大模型,比如百度的文心一言,也有特定领域的专用大模型,比如蚂蚁金服的CodeFuse,京东的言犀等。

国内的大模型尚处于百花齐放的状态。

而随着GPT的一路爆火,国内大模型的开源生态也开始火热。各大商业机构和科研组织都在不断发布自己的大模型产品和成果。当然,国产的商业产品也很多,但因为缺少模型细节,实在不好细究。

今天来简单分析当前国产开源大模型的生态发展情况。数据来自DataLearnerAI,统计的开源模型主要包括机构自己训练开源的模型,并不包括所有种类和一些已经不更新的模型。

01

国产开源大模型的发布者

从国产开源大模型的发布者来看,主要包括二类:

  • 企业机构:为了获得商业影响力而开源的模型,如智谱AI开源的ChatGLM系列。

  • 科研机构:主要展示最新的科研成果,如北京智源人工智能研究院发布的Aquila系列大模型。

02

国产开源大模型的类型

国产开源大模型的数量很多,类型也很丰富,包括_大语言模型__、多模态大模型向量大模型、__编程大模型__和__AI Agent框架(模型)_几类。

不同机构的模型丰富程度不同。

智谱AI、阿里巴巴的开源大模型都较为丰富,都开源了四种大模型。

具体来看,智谱AI开源的大模型包括:

  • 大语言模型ChatGLM系列

  • 多模态大模型CogVLM

  • Agent大模型AgentLM

  • 编程大模型CodeGeeX

具体来看,阿里巴巴的开源大模型包括:

  • 大语言模型Qwen

  • 多模态大模型Qwen-VL

  • 向量大模型GTE

  • Agent大模型Qwen-Agent

其它大多数企业或者机构开源的模型都是1-3类左右。

特别地,

  • 智谱AI是目前唯一开源了编程大模型的机构;

  • 开源向量大模型的机构只有北京智源人工智能研究院(BGE)和阿里巴巴(GTE)两家;

  • 面壁智能(ModelBest)开源了较多的AI Agent模型和框架,如AgentVerse、XAgent等。

03

国产开源大模型的参数规模

将模型开源的参数规模分为五类:

  • 7B规模参数模型,表明该模型参数规模在70亿以下

  • 13B规模参数模型,表明该模型参数规模在70亿到100亿之间

  • 34B规模参数模型,表明该模型参数规模在100亿到400亿之间

  • 65B规模参数模型,表明该模型参数规模在400亿到1000亿之间

  • 100B规模参数模型,表明该模型参数规模在1000亿以上

智谱AI最早开源的模型是ChatGLM系列,参数规模是60-70亿左右,之后大多数的开源大模型的参数量都在这个范围。

Meta 的开源大模型LLaMA1的最大参数规模是650亿,LLaMA2是700亿。

经过一段时间的发展,国内340亿参数规模的模型分别有2个:北京智源的Aquila-34b、李开复零一万物开源的Yi-34b(包括200K的版本)。

目前国产开源大模型的参数规模终于提高到了650亿规模,如元象科技发布的XVERSE-65B

04

国产开源大模型的测评结果

在综合能力评测上,选择4个评测基准来看看国产开源模型的能力如何。

  • 从MMLU(大模型语义理解能力)来看,国产开源模型的能力已经很优秀。李开复零一万物开源的Yi-34B模型的MMLU得分已经超过GPT-3.5,得分76.3,仅次于闭源的GPT-4和PaLM2模型。

  • 从GSM8K(数学逻辑能力)来看,国产开源模型的能力也能很强悍。智谱AI的ChatGLM3-6B-Base模型以60多亿参数规模的结果超过了GPT-3.5、Qwen-14B等知名模型,排名仅次于GPT-4和PaLM2。

  • 从C-Eval(大模型中文理解能力)来看,国产开源模型的能力优势更是明显。李开复零一万物开源的Yi-34B模型的C-Eval得分81.9,通义千问Qwen-14B得分72.1,ChatGLM3-6B得分69.0,优于GPT-4(68.7)。

  • 从AGI Eval(大模型在人类认知和解决问题的一般能力)来看,国产开源模型的能力也很强。元象科技发布的XVERSE-65B得分61.8位列第一,其次是LLaMA2-70B得分54.2,第三名是ChatGLM3-6B得分53.7。

MMLU

MMLU:全称Massive Multitask Language Understanding,是一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,由UC Berkeley大学的研究人员在2020年9月推出。该测试涵盖57项任务,包括初等数学、美国历史、计算机科学、法律等。任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力。论文地址:https://arxiv.org/abs/2009.03300

C-Eval

C-Eval:C-Eval 是一个全面的中文基础模型评估套件。由上海交通大学、清华大学和匹兹堡大学研究人员在2023年5月份联合推出,它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。用以评测大模型中文理解能力。论文地址:https://arxiv.org/abs/2305.08322

AGI Eval

AGI Eval:微软发布的大模型基础能力评测基准,在2023年4月推出,主要评测大模型在人类认知和解决问题的一般能力,涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试,包含中英文数据。因此,该测试更加倾向于人类考试结果,涵盖了中英文,论文地址:https://arxiv.org/abs/2304.06364

GSM8K

GSM8K:OpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。该项测试在2021年10月份发布,至今仍然是非常困难的一种测试基准。论文地址:https://arxiv.org/abs/2110.14168

在大模型编程能力评测上,选择的评测基准包括2个:

Human Eval

HumanEval是一个用于评估代码生成模型性能的数据集,由OpenAI在2021年推出。这个数据集包含164个手工编写的编程问题,每个问题都包括一个函数签名、文档字符串(docstring)、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。这个数据集的一个重要特点是,它不仅仅依赖于代码的语法正确性,还依赖于功能正确性。也就是说,生成的代码需要通过所有相关的单元测试才能被认为是正确的。这种方法更接近于实际编程任务,因为在实际编程中,代码不仅需要语法正确,还需要能够正确执行预定任务。结果通过pass@k表示,其中k表示模型一次性生成多少种不同的答案中,至少包含1个正确的结果。例如Pass@1就是只生成一个答案,准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10和Pass@100

MBPP

MBPP(Mostly Basic Programming Problems)是一个数据集,主要包含了974个短小的Python函数问题,由谷歌在2021年推出,这些问题主要是为初级程序员设计的。数据集还包含了这些程序的文本描述和用于检查功能正确性的测试用例。结果通过pass@k表示,其中k表示模型一次性生成多少种不同的答案中,至少包含1个正确的结果。例如Pass@1就是只生成一个答案,准确的比例。如果是Pass@10表示一次性生成10个答案其中至少有一个准确的比例。目前,收集的包含Pass@1、Pass@10和Pass@100

在编码能力上,国产开源模型的表现较差。按照HumanEval Pass@ 1的得分结果看,除了闭源的PanGu-Coder2的得分超过了60分(排名第7),其它国产开源模型都没怎么公布或者排名靠后。而在MBPP的得分上国内开源和闭源模型更是没能进入前十的榜单,排名均靠后。

05

国产开源大模型总结

从模型的发布数量、参数规模、模型种类来看,国产开源模型的生态已经比较不错。但是,我们也能清楚看到一些不足和未来值得改进的方向:

  • 国产开源大模型的参数分布比较集中,其中超过200亿参数规模的数量较少;

  • 国产开源大模型的类型多样性不足,比如编程大模型、向量大模型等很少发布开源;

  • 国产开源大模型的编程能力普遍不足,还有待加强。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • flask实现Streaming内容传输
  • 利用vscode-icons-js在Vue3项目中实现文件图标展示
  • 【深度学习】生成领域里,Normalizing Flow、GAN、VAE、Diffusion Models的区别是什么?
  • AWVS下载安装使用教程图文教程(超详细)
  • 计算机网络基础之网络套接字socket编程(初步认识UDP、TCP协议)
  • Python大数据分析——SVM模型(支持向量机)
  • 解锁Linux云基础:第二章——VMware安装centos7
  • 代码随想录算法训练营第十天|栈和队列理论基础、232. 用栈实现队列、225. 用队列实现栈、20. 有效的括号、1047. 删除字符串中的所有相邻重复项
  • 5G 网络切片
  • [论文翻译] LTAChecker:利用注意力时态网络基于 Dalvik 操作码序列的轻量级安卓恶意软件检测
  • NC 矩阵的最小路径和
  • 自动化控制技术的未来发展趋势
  • leetcode 560.和为k的子数组
  • 【hive和spark】hive和spark数据lineage血缘实现思路
  • 只强的Java学习之路8-5
  • 【159天】尚学堂高琪Java300集视频精华笔记(128)
  • 【跃迁之路】【444天】程序员高效学习方法论探索系列(实验阶段201-2018.04.25)...
  • echarts花样作死的坑
  • ECMAScript6(0):ES6简明参考手册
  • Node项目之评分系统(二)- 数据库设计
  • Spring Boot快速入门(一):Hello Spring Boot
  • 复杂数据处理
  • 基于游标的分页接口实现
  • 看域名解析域名安全对SEO的影响
  • 如何设计一个比特币钱包服务
  • 如何邀请好友注册您的网站(模拟百度网盘)
  • 物联网链路协议
  • 一个完整Java Web项目背后的密码
  • 《天龙八部3D》Unity技术方案揭秘
  • 阿里云ACE认证学习知识点梳理
  • 扩展资源服务器解决oauth2 性能瓶颈
  • ​如何使用QGIS制作三维建筑
  • # 20155222 2016-2017-2 《Java程序设计》第5周学习总结
  • # 安徽锐锋科技IDMS系统简介
  • #经典论文 异质山坡的物理模型 2 有效导水率
  • #我与Java虚拟机的故事#连载14:挑战高薪面试必看
  • #预处理和函数的对比以及条件编译
  • $().each和$.each的区别
  • (1)STL算法之遍历容器
  • (21)起落架/可伸缩相机支架
  • (aiohttp-asyncio-FFmpeg-Docker-SRS)实现异步摄像头转码服务器
  • (C++)八皇后问题
  • (ibm)Java 语言的 XPath API
  • (Java入门)抽象类,接口,内部类
  • (void) (_x == _y)的作用
  • (二十六)Java 数据结构
  • (分布式缓存)Redis分片集群
  • (回溯) LeetCode 131. 分割回文串
  • (简单) HDU 2612 Find a way,BFS。
  • (十三)Maven插件解析运行机制
  • (已更新)关于Visual Studio 2019安装时VS installer无法下载文件,进度条为0,显示网络有问题的解决办法
  • (转)JVM内存分配 -Xms128m -Xmx512m -XX:PermSize=128m -XX:MaxPermSize=512m
  • (转)为C# Windows服务添加安装程序
  • (转载)虚幻引擎3--【UnrealScript教程】章节一:20.location和rotation
  • .bat批处理(九):替换带有等号=的字符串的子串