当前位置: 首页 > news >正文

大语言模型如何工作?

此为观看视频How Large Language Model works的笔记。
在这里插入图片描述

GPT(Generative Pre-trained Transformer)是一个大语言模型(LLM),可以生成类似人类的文本。本文阐述:

  1. 什么是LLM
  2. LLM如何工作
  3. LLM的应用场景

什么是LLM

LLM是基础模型,基于大量未标记和自监督文本数据进行预训练。模型从数据中的模式中学习,产生可推广和自适应的输出。生成的模型可能为几十GB。

大语言模型的“大”体现在2个方面:

  1. 训练的数据大,为TB或PB级(1GB可以存储1.78亿个单词)
  2. 参数非常大。参数是模型在学习过程中可以独立改变的值,参数越多,模型越复杂。例如,GPT-3是在45TB数据的语料库上预训练的,使用了1750亿个参数。

LLM如何工作

LLM包括3部分:数据,架构和训练。
架构指的是神经网络,就GPT而言,就是transformer。
transformer架构使模型可以处理序列数据,如句子和代码。transformer通过考虑与每个其他单词的关系来理解句子中每个单词的上下文。这允许该模型建立对句子结构和其中单词含义的全面理解。然后在此架构上对所有这些大量数据进行训练。在训练期间,模型学会预测句子中的下一个单词。它从随机猜测下一个单词开始,然后在每次迭代时,模型都会调整其内部参数,以减少其预测和实际结果之间的差异。该模型不断重复疵过程,逐渐改进其单词预测,直到它能够可靠地生成连贯的句子。现在,模型可以在更小、更具体的数据集上进行微调。模型逐步完善了其理解,以便能够更准确地执行这项特定任务。微调允许通用语言模型成为特定任务的专家。

LLM的应用场景

对于客户服务,企业可以使用LLM创建智能聊天机器人,可以处理各种客户查询,而人可以处理更复杂。

第二个适合场景是内容创建。LLM可以帮助生成文章、电子邮件、社交媒体帖子,甚至YouTube视频脚本。

对于软件开发,LLM还可以生成和审查代码。

相关文章:

  • PTA 位运算
  • ffmpeg 从现有视频中截取一段
  • 【Node.js】短链接
  • 无线游戏手柄的测试(Windows11系统手柄调试方法)
  • 构建高可用性数据库架构:深入探索Oracle Active Data Guard(ADG)
  • 【Leetcode每日一题】 递归 - 二叉树剪枝(难度⭐⭐)(50)
  • DataLoader的使用
  • RabbitMQ3.13.x之七_RabbitMQ消息队列模型
  • 如何在Flutter应用中配置ipa Guard进行混淆
  • Spring之事务底层源码解析
  • 懒人必备!4个PS抠图技巧,让你轻松处理复杂背景!
  • 使用阿里云试用Elasticsearch学习:2.3 深入搜索——多字段搜索
  • JDK安全剖析之安全处理入门
  • 实践笔记-03 docker buildx 使用
  • 风电场智能化转型基于ARM工控机的HDMI数据实时监控显示
  • AngularJS指令开发(1)——参数详解
  • Docker: 容器互访的三种方式
  • Java新版本的开发已正式进入轨道,版本号18.3
  • JS函数式编程 数组部分风格 ES6版
  • js中forEach回调同异步问题
  • k8s如何管理Pod
  • rc-form之最单纯情况
  • react-native 安卓真机环境搭建
  • SpringCloud(第 039 篇)链接Mysql数据库,通过JpaRepository编写数据库访问
  • vue-router 实现分析
  • 函数式编程与面向对象编程[4]:Scala的类型关联Type Alias
  • 后端_ThinkPHP5
  • 浅谈JavaScript的面向对象和它的封装、继承、多态
  • 优化 Vue 项目编译文件大小
  • 中国人寿如何基于容器搭建金融PaaS云平台
  • raise 与 raise ... from 的区别
  • $分析了六十多年间100万字的政府工作报告,我看到了这样的变迁
  • (1/2)敏捷实践指南 Agile Practice Guide ([美] Project Management institute 著)
  • (12)目标检测_SSD基于pytorch搭建代码
  • (16)Reactor的测试——响应式Spring的道法术器
  • (2.2w字)前端单元测试之Jest详解篇
  • (3)(3.2) MAVLink2数据包签名(安全)
  • (AtCoder Beginner Contest 340) -- F - S = 1 -- 题解
  • (DFS + 剪枝)【洛谷P1731】 [NOI1999] 生日蛋糕
  • (NO.00004)iOS实现打砖块游戏(十二):伸缩自如,我是如意金箍棒(上)!
  • (ZT)一个美国文科博士的YardLife
  • (zz)子曾经曰过:先有司,赦小过,举贤才
  • (二)c52学习之旅-简单了解单片机
  • (二)什么是Vite——Vite 和 Webpack 区别(冷启动)
  • (附源码)springboot“微印象”在线打印预约系统 毕业设计 061642
  • (附源码)计算机毕业设计SSM教师教学质量评价系统
  • (中等) HDU 4370 0 or 1,建模+Dijkstra。
  • (转)平衡树
  • (转贴)用VML开发工作流设计器 UCML.NET工作流管理系统
  • .bat批处理(十):从路径字符串中截取盘符、文件名、后缀名等信息
  • .NET Core SkiaSharp 替代 System.Drawing.Common 的一些用法
  • .NET Standard 支持的 .NET Framework 和 .NET Core
  • .net 怎么循环得到数组里的值_关于js数组
  • .net遍历html中全部的中文,ASP.NET中遍历页面的所有button控件
  • .NET框架