当前位置: 首页 > news >正文

大模型训练效率提升至2.6倍,腾讯Angel机器学习框架升级

在算力紧缺的背景下,如何提升大模型训练和推理的效率,并降低成本,成为业界关注的焦点。

11月23日,腾讯披露,腾讯混元大模型背后的自研机器学习框架Angel再次升级,大模型训练效率提升至主流开源框架的2.6倍,千亿级大模型训练可节省50%算力成本。升级后的Angel支持单任务万卡级别超大规模训练,进一步提升腾讯云HCC大模型专属算力集群的性能和效率。

同时,Angel还提供了从模型研发到应用落地的一站式平台,支持用户通过API接口或精调等方式快速调用腾讯混元大模型能力,加速大模型应用构建,腾讯会议、腾讯新闻、腾讯视频等超过300个腾讯产品及场景均已接入腾讯混元内测。

目前,相关能力已通过腾讯云对外开放。基于升级后的Angel机器学习框架,腾讯云TI平台可提供更优的训练和推理加速能力,并支持客户用自己的数据一站式训练精调,基于腾讯混元大模型打造专属智能应用。

自研机器学习框架升级,大模型训练推理效率再提升

随着大模型时代到来,模型参数呈指数级增长,达到万亿级别。大模型逐渐从支持单一模态和任务发展为支持多种模态下的多种任务。在这种趋势下,大模型训练所需算力巨大,远超单个芯片的处理速度,而多卡分布式训练通信损耗巨大。如何提高硬件资源利用率,成为影响国产大模型技术发展和实用性的重要前提。

面向大模型训练,腾讯自研了机器学习训练框架AngelPTM,针对预训练、模型精调和强化学习等全流程进行加速和优化。AngelPTM采用最新的FP8混合精度训练技术,结合深度优化后的4D并行和ZeROCache机制优化存储,可兼容适配多款国产化硬件,能够以更少的资源和更快的速度训练更大的模型。

2023年4月,腾讯云面向大模型而生的新一代HCC高性能计算集群正式发布,性能较前代提升3倍。除了硬件的升级,针对大模型训练场景,HCC对网络协议、通信策略、AI框架、模型编译等进行系统级优化,大幅节约训练调优和算力成本。此前AngelPTM就已经通过HCC对外提供服务,本次Angel机器学习框架升级,也将进一步提升HCC大模型专属算力集群的性能,助力企业加速大模型落地。

模型参数的增大不仅给训练带来了挑战,还导致了推理成本的不断上升。为解决这一问题,腾讯自研的大模型推理框架AngelHCF通过扩展并行能力、采用多种Attention优化策略等方式对性能进行了提升。同时,框架还适配了多种压缩算法,以提高吞吐能力,从而实现更快的推理性能和更低的成本,支持大型模型推理服务。

相较于业界主流框架,AngelHCF的推理速度提高了1.3倍。在腾讯混元大模型文生图的应用中,推理耗时从原本的10秒缩短至3至4秒。此外,AngelHCF还支持多种灵活的大模型压缩和量化策略,支持自动压缩。

一站式应用构建,让大模型“开箱即用”

作为实用级大模型,腾讯混元大模型从研发之初就面向应用场景而生,在实践中解决大模型落地难点。腾讯产品及应用种类多、流量大,让模型真正“用起来”挑战很大。基于Angel,腾讯构建了大模型接入和应用开发的一站式平台,包含数据处理、精调、模型评估、一键部署以及提示词调优等服务,让大模型的“开箱即用”成为可能。

模型接入层面,腾讯混元大模型提供千亿、百亿、十亿多个尺寸的模型,充分适配各类应用场景的需求,只需要经过简单微调就能达到满足业务需求的效果,同时降低模型训练和推理服务的资源成本,在问答、内容分类等常见应用场景中具有更高的性价比。

应用开发层面,腾讯内部已有超过300项业务和应用场景接入腾讯混元大模型内测,相比上个月数量翻了一倍,覆盖文本总结、摘要、创作、翻译、代码等多个领域。

2023年9月,腾讯自研的实用级大模型腾讯混元正式亮相并通过腾讯云开放。腾讯混元拥有超千亿参数规模,预训练语料超 2 万亿 tokens,聚合了腾讯在预训练算法、机器学习平台和底层算力资源多个层面的自研技术积累,并在应用中持续迭代,不断优化大模型能力。目前,已有来自零售、教育、金融、医疗、传媒、交通、政务等多个行业的客户,通过腾讯云接入腾讯混元大模型。

相关文章:

  • ElasticSearch之配置
  • 怎样提升伦敦银买卖技巧?
  • webshell之内置函数免杀
  • 大数据面试大厂真题【附答案详细解析】
  • 03 图优化
  • C#,《小白学程序》第十一课:双向链表(Linked-List)其二,链表的插入与删除的方法(函数)与代码
  • Drools Rule Language 学习笔记
  • 小程序和Vue写法的区别主要有什么不同
  • 吴恩达《机器学习》10-4-10-5:诊断偏差和方差、正则化和偏差/方差
  • LeetCode Hot100 105.从前序与中序遍历序列构造二叉树
  • Flink Table API 读写MySQL
  • CentOS Stream 9系统Cgroup问题处理
  • 均匀球形分布的随机三维单位向量
  • 【Kotlin】引入与基础语法
  • 接收网络包的过程——从硬件网卡解析到IP层
  • 4. 路由到控制器 - Laravel从零开始教程
  • Github访问慢解决办法
  • javascript 哈希表
  • Java多线程(4):使用线程池执行定时任务
  • MaxCompute访问TableStore(OTS) 数据
  • Rancher-k8s加速安装文档
  • sessionStorage和localStorage
  • SpiderData 2019年2月25日 DApp数据排行榜
  • Unix命令
  • Web Storage相关
  • 记一次和乔布斯合作最难忘的经历
  • 那些被忽略的 JavaScript 数组方法细节
  • 微信开源mars源码分析1—上层samples分析
  • #define与typedef区别
  • (11)MATLAB PCA+SVM 人脸识别
  • (9)目标检测_SSD的原理
  • (Java数据结构)ArrayList
  • (附源码)基于ssm的模具配件账单管理系统 毕业设计 081848
  • .NET 2.0中新增的一些TryGet,TryParse等方法
  • .NET C#版本和.NET版本以及VS版本的对应关系
  • .NET Core WebAPI中使用swagger版本控制,添加注释
  • .NET Core日志内容详解,详解不同日志级别的区别和有关日志记录的实用工具和第三方库详解与示例
  • .net MVC中使用angularJs刷新页面数据列表
  • .net 开发怎么实现前后端分离_前后端分离:分离式开发和一体式发布
  • .NET 实现 NTFS 文件系统的硬链接 mklink /J(Junction)
  • .NET中的Event与Delegates,从Publisher到Subscriber的衔接!
  • .net中调用windows performance记录性能信息
  • .NET中使用Redis (二)
  • @Autowired自动装配
  • @ModelAttribute 注解
  • [ 代码审计篇 ] 代码审计案例详解(一) SQL注入代码审计案例
  • [.NET]桃源网络硬盘 v7.4
  • [ACM] hdu 1201 18岁生日
  • [AIGC] Java 和 Kotlin 的区别
  • [BZOJ] 2006: [NOI2010]超级钢琴
  • [CISCN2019 华北赛区 Day1 Web5]CyberPunk --不会编程的崽
  • [CVPR 2023:3D Gaussian Splatting:实时的神经场渲染]
  • [C语言][PTA基础C基础题目集] strtok 函数的理解与应用
  • [I2C]I2C通信协议详解(一) --- 什么是I2C
  • [moka同学笔记]yii表单dropdownlist样式