当前位置: 首页 > news >正文

【书生大模型实战营(暑假场)】基础任务一 书生大模型全链路开源体系

基础任务一 书生大模型全链路开源体系

参考:

  • 书生·浦语大模型全链路开源开放体系
  • 书生·浦语

书生浦语大模型的开源体系经过一年努力,已实现从数据收集到模型部署的全链路打通。课程介绍了书生浦语的最新进展,包括7B和20B模型的开源及其性能提升。新版本模型在推理能力和上下文处理上表现优异,支持超长上下文和复杂任务解决。开源工具涵盖数据处理、模型微调、评测和部署,助力用户在科研和应用领域的创新。其性能也在不断向 ChatGPT 系列靠近。
InternLM发行时间线
书生浦语2.5 InternLM2.5 大模型的主要特点包括:

  1. 领先的推理能力:综合推理能力领先开源社区,且相比 InternLM2性能提升 20%,而且这种推理能力来自于模型原生,在没有 RAG等技术的加持下已经具有出色能力;

  2. 100 万字的上下文支持 :100 万字超长上下文能力,处于开源模型前列,比最新的 GPT4o 的 128k 上下文能力还要多 10 倍左右;并且在大海捞针实验中也取得非常优秀的结果,即在超长文本的情况下,也能准确的定位给定信息的位置

  3. 自主规划和搜索:可以在外部工具的加持下,比如 MindSearch,实现高效信息搜索整合,并针对复杂问题撰写专业回答,效果提升 60 倍;

其实现快速飞跃的技术思路为

  • 广泛使用模型参与自身迭代从而加速能力提升,即通过数据过滤和智能评估获得高质量预训练数据,指令生产和辅助标注获得对其数据,并通过持续迭代得到更好模型;
  • 融合多种数据生成方案,即通过基于规则的数据构造,基于模型的数据扩充,和基于反馈的数据生成等实现高质量数据生成;
    模型参与自身迭代
    高质量合成数据
    同时,书生浦语言也具有丰富的开源模型谱系,为不同需求的用户提供了丰富的应用生态,在模型尺寸方面,具有 1.8B,7B,20B,102B 等不同的选择,从易于端侧应用和开发者快速上手的超轻量模型到部分场景接近GPT-4的闭源模型,同时,也具有适合不同模态的模型。
    开源模型谱系
    并且,实现了数据,预训练,微调,部署,评测,应用等大模型生态的全链条开源,并且与 Hugging Face,TensorRT-LLM,LM Studio 等主流社区生态无缝链接。

全链条开源

数据层面,书生开源了总共 30+模态,7700+数据集,180TB 的数据,涉及图像,视频,token语料,音频,3D模型等,并且提供了配套的检索,下载,标注,采集工具。其中,值得注意的是:

  • Miner U:数据提取,支持 PDF,网页,电子书等多格式萃取生成高质量预训练/微调语料,支持将数学公式专户为markdown格式,支持图片和表格转换为多模态markdown格式;
  • Label LLM:专注高质量对话标注,并与多种模态数据实现的广泛兼容,同时支持多人协作和任务管理;
  • Label U:轻量级标注工具,支持图片,视频,音频等多种数据标注;

预训练层面,InternEVO框架支持千卡多规模训练,兼容 Hgugging Face以及 Nvida和 910B等软硬件生态,同时支持预训练+微调+RLHF的全场景覆盖;
InternEVO预训练
微调层面,微调 XTuner 适配多种微调和偏好对齐算法,并支持 HuggingFace,ModelScope模型和数据集,同时也金额自动优化加速,使得开发者无需关注复杂显存优化和加速细节,可支持千亿参数+百万上下文训练。同时在硬件层面,覆盖 NV 20系以上所有显卡,最低只需 8GB显存即可微调 7B模型。

评测方面,OpenCompass评测体系实现了工具-基准-榜单三位一体,广泛应用于头部大模型企业和科研机构,并参与了大模型评测国标指定,同时获得了 Meta官方推荐,是开源社区最完善评测体系之一,提供了超过 100+评测集50 万+题目。

部署方面,LMDeploy提供了推理接口,量化,引擎,服务等多种功能,可以实现高效推理,可靠量化,卓越的兼容性,便携的服务,有状态推理等功能,同时支持多种 LLM和 VLM;

书生开放体系也实现了由 LLM向智能体 Agent的转换,由于LLM具有一定的局限性,比如:

  • 难以获取最新信息和知识

  • 回复是否可靠

  • 数学计算能力

  • 工具的使用和交互
    LLM到 Agent
    因此,在实际应用中,将LLM转化成智能体具有一定的迫切性,开源体系提供了轻量级智能体框架 Lagent,可以支持多种类型的智能体,并且支持融合多种大语言模型,同时简单易拓展并支持丰富的工具,比如生成,搜索,计算,解释代码,垂类 API等;
    Lagen一览
    其中,

  • 智能体 MindSearch 可以对问题进行分解和规划,模拟人脑的思维路径,去实现搜索,生成,整合,反馈,是一种非常有趣的设计;

  • 茴香豆 Huixiangdou 则属于分群聊场景的 LLM知识助手,为即时通讯群聊场景设计,通过 RAG构建非参数记忆,利用外部知识提供实时更新信息,并结合结构化知识库增强行为可解释性。

可以感受到书生浦语一路走来,发展,成长的不易,祝书生浦语越来越好!

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • vue中post请求返回二进制流文件下载
  • (回溯) LeetCode 131. 分割回文串
  • 【Linux进程篇】进程终章:POSIX信号量线程池线程安全的单例模式自旋锁读者写者问题
  • 图像的特征提取
  • 树莓派4/5:运行Yolov5n模型(文末附镜像文件)
  • LVS实验——部署DR模式集群
  • VSCODE platformio ESP32-S3 内置 JTAG 接口断点单步调试笔记
  • 【云服务器系列】基于华为云OBS实现Picgo和Typora的完美融合
  • 常见硬件工程师面试题(四)
  • 自动化测试 — selenium + Java
  • Docker最佳实践(四):安装redis
  • IDEA彻底卸载以及安装总结
  • 江科大/江协科技 STM32学习笔记P21
  • 加密案例分享:电子设备制造行业
  • 鸿蒙(API 12 Beta2版)媒体开发【Audio Kit简介】音频服务
  • [译] 怎样写一个基础的编译器
  • [原]深入对比数据科学工具箱:Python和R 非结构化数据的结构化
  • 2019.2.20 c++ 知识梳理
  • android图片蒙层
  • HTTP请求重发
  • JavaScript/HTML5图表开发工具JavaScript Charts v3.19.6发布【附下载】
  • spark本地环境的搭建到运行第一个spark程序
  • 大数据与云计算学习:数据分析(二)
  • 机器人定位导航技术 激光SLAM与视觉SLAM谁更胜一筹?
  • 解决jsp引用其他项目时出现的 cannot be resolved to a type错误
  • 一起参Ember.js讨论、问答社区。
  • 远离DoS攻击 Windows Server 2016发布DNS政策
  • 再谈express与koa的对比
  • Mac 上flink的安装与启动
  • 正则表达式-基础知识Review
  • ​Spring Boot 分片上传文件
  • #Java第九次作业--输入输出流和文件操作
  • #pragam once 和 #ifndef 预编译头
  • #大学#套接字
  • (C++17) optional的使用
  • (NSDate) 时间 (time )比较
  • (Qt) 默认QtWidget应用包含什么?
  • (安全基本功)磁盘MBR,分区表,活动分区,引导扇区。。。详解与区别
  • (初研) Sentence-embedding fine-tune notebook
  • (代码示例)使用setTimeout来延迟加载JS脚本文件
  • (顶刊)一个基于分类代理模型的超多目标优化算法
  • (四)汇编语言——简单程序
  • (原创)boost.property_tree解析xml的帮助类以及中文解析问题的解决
  • (转)Groupon前传:从10个月的失败作品修改,1个月找到成功
  • (转)项目管理杂谈-我所期望的新人
  • (转贴)用VML开发工作流设计器 UCML.NET工作流管理系统
  • (转载)在C#用WM_COPYDATA消息来实现两个进程之间传递数据
  • *setTimeout实现text输入在用户停顿时才调用事件!*
  • . NET自动找可写目录
  • .bat批处理(七):PC端从手机内复制文件到本地
  • .cfg\.dat\.mak(持续补充)
  • .NET Core WebAPI中使用swagger版本控制,添加注释
  • .NET 设计模式—适配器模式(Adapter Pattern)
  • .net 托管代码与非托管代码
  • .netcore 如何获取系统中所有session_如何把百度推广中获取的线索(基木鱼,电话,百度商桥等)同步到企业微信或者企业CRM等企业营销系统中...