当前位置：首页 > news >正文

大语言模型（LLM）框架及微调 (Fine Tuning)

news 来源：原创 2024/5/9 17:42:27

大语言模型（LLM）技术作为人工智能领域的一项重要创新在今年引起了广泛的关注。

LLM 是利用深度学习和大数据训练的人工智能系统，专门设计来理解、生成和回应自然语言。这些模型通过分析大量的文本数据来学习语言的结构和用法，从而能够执行各种语言相关任务。

LLM 技术也发挥了关键作用。此外，它还在代码生成、文本摘要、翻译等任务中展现了强大的通用性。

LLM 技术应用类型分别为大模型、AI编程、工具和平台、基础设施、算力等。

一、LLM技术背景

Transformer 架构和预训练与微调策略是 LLM 技术的核心，随着大规模语言数据集的可用性和计算能力的提升，研究者们开始设计更大规模的神经网络，以提高对语言复杂性的理解。

GPT (Generative Pre-trained Transformer) 的提出标志着 LLM 技术的飞速发展，其预训练和微调的方法为语言任务提供了前所未有的性能，以此为基础，多模态融合的应用使得 LLM 更全面地处理各种信息，支持更广泛的应用领域。

图源：https://postgresml.org/docs/.gitbook/assets/ml_system.svg

二、LLM底座基础设施

2.1、向量数据库及向量支持

向量数据库是专门用于存储和检索向量数据的数据库，它可以为 LLM 提供高效的存储和检索能力。通过数据向量化，实现了在向量数据库中进行高效的相似性计算和查询。根据向量数据库的的实现方式,可以将向量数据库大致分为两类：

向量数据库：原生的向量数据库专门为存储和检索向量而设计，所管理的数据是基于对象或数据点的向量表示进行组织和索引。包括 Chroma、LanceDB、Margo、Milvus、Pinecone等均属于原生向量数据库。

传统数据库支持向量：除了选择专业的向量数据库，对传统数据库添加“向量支持”也是主流方案。比如Redis、PostgreSQL、ClickHome、Elasticsearch等传统数据库均已支持向量检索。

向量数据库市场及融资情况

ChatGPT 问世以来，大模型星火初始，向量数据库不但获得了技术领域的关注，也逐渐吸引了市场和资本的注意力。近两年来，向量数据库公司迎来了一波融资潮：

2.2、LLM大模型框架及微调

大模型框架指专门设计用于构建、训练和部署大型机器学习模型和深度学习模型的软件框架。这些框架提供了必要的工具和库，使开发者能够更容易地处理大量的数据、管理巨大的网络参数量，并有效地利用硬件资源。

微调（Fine Tuning）是在大模型框架基础上进行的一个关键步骤。在模型经过初步的大规模预训练后，微调是用较小、特定领域的数据集对模型进行后续训练，以使其更好地适应特定的任务或应用场景。这一步骤使得通用的大型模型能够在特定任务上表现出更高的精度和更好的效果。

大模型框架提供了 LLM 的基本能力和普适性，而微调则是实现特定应用和优化性能的关键环节。两者相结合，使得 LLM 在广泛的应用场景中都能发挥出色的性能。

2.2、LLM大模型框架特点

抽象和简化：大模型开发框架通过提供高层次的 API 简化了复杂模型的构建过程。这些 API 抽象掉了许多底层细节，使开发者能够专注于模型的设计和训练策略

性能优化：这些框架经过优化，以充分利用 GPU、TPU 等高性能计算硬件，以加速模型的训练和推理过程。

大型数据集：它们提供工具来有效地加载、处理和迭代大型数据集，这对于训练大型模型尤为重要。

生态扩展：为了处理大型数据集和大规模参数网络，这些框架通常设计得易于水平扩展，支持在多个处理器或多个服务器上并行处理。

国产深度学习框架 OneFlow 架构（图源：https://www.oneflow.org/a/chanpin/oneflow/）

2.3、微调模型步骤

1.选择预训练模型：选取一个已经在大量数据上进行过预训练的模型作为起点；

2.准备任务特定数据：收集与目标任务直接相关的数据集，这些数据将用于微调模型；

3.微调训练：在任务特定数据上训练预训练的模型，调整模型参数以适应特定任务；

4.评估：在验证集上评估模型性能，确保模型对新数据有良好的泛化能力；

5.部署：将性能经验证的模型部署到实际应用中去。

微调的过程也是分类模型训练的过程

(图源：https://medium.com/mlearning-ai/what-is-a-fine-tuned-llm-67bf0b5df081)

原文：《LLM技术报告》

excel统计分析——两因素无重复方差分析

VSCODE : SSH远程配置+免密登录

模型 KANO卡诺模型

PCL 切片法实现点云模型的体积测量、面积测量（二）

信息学奥赛一本通2067详解+代码

GRU算法

介绍一下 MVC MVVM

人工智能_机器学习092_使用三维瑞士卷数据_利用分层聚类算法进行瑞士卷数据三维聚类---人工智能工作笔记0132

冰箱温度预测 C语言xdoj47

RLHF几大常用框架实践对比（trlx、deepspeedchat、colossalaichat）

SpringBoot灵活集成多数据源(定制版)

【以题代复习】计算机网络第三章

Debian安装k8s记录

Jenkins分布式实现: 构建弹性和可扩展的CI/CD环境！

基于OpenAI的Whisper构建的高效语音识别模型：faster-whisper

4个实用的微服务测试策略

angular学习第一篇-----环境搭建

CSS居中完全指南——构建CSS居中决策树

Docker: 容器互访的三种方式

Gradle 5.0 正式版发布

JavaScript实现分页效果

npx命令介绍

Python中eval与exec的使用及区别

React的组件模式

SpiderData 2019年2月13日 DApp数据排行榜

VuePress 静态网站生成

基于axios的vue插件，让http请求更简单

将 Measurements 和 Units 应用到物理学

聊聊spring cloud的LoadBalancerAutoConfiguration

算法---两个栈实现一个队列

算法-图和图算法

探索 JS 中的模块化

通信类

为视图添加丝滑的水波纹

小程序button引导用户授权

原生js练习题---第五课

转载：[译] 内容加速黑科技趣谈

[Shell 脚本] 备份网站文件至OSS服务（纯shell脚本无sdk） ...

DB-Engines 12月数据库排名： PostgreSQL有望获得「2020年度数据库」荣誉?

# 日期待t_最值得等的SUV奥迪Q9：空间比MPV还大，或搭4.0T，香

###STL(标准模板库)

#Z2294. 打印树的直径

#快捷键# 大学四年我常用的软件快捷键大全，教你成为电脑高手！！

(04)odoo视图操作

(2009.11版)《网络管理员考试考前冲刺预测卷及考点解析》复习重点

（BFS）hdoj2377-Bus Pass

（M)unity2D敌人的创建、人物属性设置，遇敌掉血

（二）windows配置JDK环境

（转）JVM内存分配 -Xms128m -Xmx512m -XX:PermSize=128m -XX:MaxPermSize=512m

***利用Ms05002溢出找“肉鸡

.gitattributes 文件

.L0CK3D来袭：如何保护您的数据免受致命攻击

.NET MAUI学习笔记——2.构建第一个程序_初级篇

.net 使用ajax控件后如何调用前端脚本

.NET程序员迈向卓越的必由之路

相关文章：