当前位置: 首页 > news >正文

【开源大模型生态7】华为的盘古大模型

鹏程·盘古模型是全球首个全开源2000亿参数的自回归中文预训练语言大模型,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出。

2070亿参数,64层。

这里注意几个概念。

  1. 参数(Parameters): 参数是指构成模型的所有可学习变量。这些变量通常包括权重矩阵和偏置项。模型的参数越多,理论上它能够拟合的数据分布就越复杂,但也更容易过拟合,即模型可能对训练数据过于敏感而不能很好地泛化到未见过的数据上。

  2. 层数(Number of Layers): 层数指的是神经网络中隐藏层的数量。对于Transformer模型来说,这通常指的是编码器或解码器堆叠的层数。增加层数可以提高模型的表达能力,但也可能导致梯度消失或爆炸的问题,并且增加了计算成本。

  3. 内层维度(Hidden Size / Embedding Dimension): 内层维度指的是模型内部向量的大小。例如,在Transformer模型中,输入词嵌入的维度以及每个位置上的表示向量的大小。较大的内层维度可以携带更多的信息,但也需要更多的计算资源。

  4. FFN大小(Feed-Forward Network Size / FFN Inner Size): FFN大小指的是Transformer模型中前馈神经网络(Feed-Forward Network, FFN)的中间层大小。前馈神经网络是Transformer架构中的一个组成部分,用于对输入进行非线性变换。更大的FFN层可以提供更强的表达能力,但同样会增加计算负担。

  5. 头数(Number of Heads): 头数是指多头注意力机制(Multi-Head Attention)中的头的数量。多头注意力允许模型从不同的表示子空间中并行地关注输入的不同位置。增加头数可以让模型捕捉到输入序列中不同粒度的信息依赖关系,但同时也会增加计算开销。

 

中国工程院院士、鹏程实验室主任高文曾指出,全球通用的50亿大模型数据训练集中,中文语料占比仅为1.3%。这一数字揭示了中文语料在全球范围内的稀缺性。

中文毕竟不是全世界都在用,还有一点,有如下的原因:

  1. 版权和隐私问题:许多中文文本资源受版权保护,无法轻易获取或使用。此外,涉及到个人隐私的数据受到严格的法律保护,这也限制了可用于训练的数据量。

  2. 语言和文化的多样性:中文不仅包括普通话,还有多种方言和地区性的语言变体。此外,中文书写系统本身复杂,包含了成千上万的汉字,这使得创建全面且代表性的语料库变得困难。

  3. 互联网内容的动态变化:虽然互联网上有大量的中文内容,但这些内容通常是动态变化的,并且可能存在质量问题。例如,社交媒体上的帖子可能含有大量的非标准用法或网络俚语,这些内容可能不适合用于训练高质量的语言模型。

  4. 高质量数据的稀缺:即使存在大量的中文文本,高质量的数据仍然稀缺。高质量的数据通常需要经过清理、标注和分类,而这是一项耗时且昂贵的工作。此外,并非所有文本都适合用于训练语言模型,只有那些语法正确、内容丰富且具有一致性的文本才是理想的训练材料。

  5. 数据合规监管机制:随着数据保护意识的提高,对于数据的收集、存储和使用有了更为严格的规定。这不仅增加了获取数据的难度,也提高了数据处理的成本。

  6. 历史因素:一些中文语料因为年代久远,格式不兼容,或者是纸质形式难以数字化,也难以在市场上自由流通。

目前,国家成立了数据局,这比之前的大数据局,顶层设计又高了一个层级。我们国家将全力推动数据要素X行动,大家有兴趣可以了解一下。 

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 《三角洲行动》“是时候玩点好的” 9月26日在PC及移动端上线
  • vscode 高效率开发手册
  • 一分钟了解统一软件开发过程RUP的那点事
  • 说说相机标定?
  • react-问卷星项目(1)
  • 【JAVA基础】实现Tomcat基本功能
  • 2024年【起重信号司索工(建筑特殊工种)】考试题及起重信号司索工(建筑特殊工种)免费试题
  • Java中的类型转换 Day4
  • Vue+SpringBoot+数据库整体开发流程 2
  • uniapp 懒加载、预加载、缓存机制深度解析
  • 动手学深度学习(pytorch)学习记录27-深度卷积神经网络(AlexNet)[学习记录]
  • 农业小气候观测站
  • 【python】 @property属性详解 and mysql的sqlalchemy的原生sql
  • PIN AI获得a16z CSX、Hack VC和全明星天使的1000万美元融资,推出个人AI开放平台
  • HarmonyOS开发之Swiper的使用(跳转到指定索引的方法)
  • Google 是如何开发 Web 框架的
  • 【Redis学习笔记】2018-06-28 redis命令源码学习1
  • android百种动画侧滑库、步骤视图、TextView效果、社交、搜房、K线图等源码
  • HTTP请求重发
  • LeetCode刷题——29. Divide Two Integers(Part 1靠自己)
  • mysql中InnoDB引擎中页的概念
  • Netty 4.1 源代码学习:线程模型
  • PHP那些事儿
  • Spark RDD学习: aggregate函数
  • spring-boot List转Page
  • 彻底搞懂浏览器Event-loop
  • 第十八天-企业应用架构模式-基本模式
  • 开发基于以太坊智能合约的DApp
  • 理解 C# 泛型接口中的协变与逆变(抗变)
  • 那些被忽略的 JavaScript 数组方法细节
  • 协程
  • 新书推荐|Windows黑客编程技术详解
  • python最赚钱的4个方向,你最心动的是哪个?
  • 进程与线程(三)——进程/线程间通信
  • ​TypeScript都不会用,也敢说会前端?
  • #数据结构 笔记三
  • #微信小程序(布局、渲染层基础知识)
  • (1) caustics\
  • (8)Linux使用C语言读取proc/stat等cpu使用数据
  • (arch)linux 转换文件编码格式
  • (C++)八皇后问题
  • (PySpark)RDD实验实战——取最大数出现的次数
  • (每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理第3章 信息系统治理(一)
  • (四) Graphivz 颜色选择
  • (四)React组件、useState、组件样式
  • (一)模式识别——基于SVM的道路分割实验(附资源)
  • **python多态
  • .form文件_一篇文章学会文件上传
  • .NET Core/Framework 创建委托以大幅度提高反射调用的性能
  • .Net FrameWork总结
  • .NET 药厂业务系统 CPU爆高分析
  • .NET/C# 使窗口永不获得焦点
  • .Net中的集合
  • .net最好用的JSON类Newtonsoft.Json获取多级数据SelectToken
  • @hook扩展分析