当前位置：首页 > news >正文

人工智能大模型之ChatGPT原理解析

news 来源：原创 2024/5/7 23:15:23

前言

近几个月ChatGPT爆火出圈，一路狂飙；它功能十分强大，不仅能回答各种各样的问题，还可以信写作，给程序找bug…
我经过一段时间的深度使用后，十分汗颜，"智障对话"体验相比，它是如此的丝滑流畅
作为一名技术人，情不自禁的对它的原理产生了十分浓厚的兴趣；于是花费了一些时间去研究其实现技术原理，在此与大家分享

ChatGPT基本信息&原理

ChatGPT基本信息

研发公司：OpenAI
创立年份：2015年
创立人：马斯克、Sam Altman及其他投资者
目标：造福全人类的AI技术
GPT(Generative Pre-trained Transformer):生成式预训练语言模型
GPT作用：问答，生成文章等
模型发展史
参数量(单位：亿)
预训练数据量(单位：GB)

原理解析

训练过程总览

在这里插入图片描述

训练过程详解

训练监督策略模型

作为技术人员都知道，一直有两个难题困扰我们：

让机器理解人类通用指令下的意图
生成内容是否是高质量

ChatGPT如何解难题？

数据集中随机抽取问题，由人类标注人员给出高质量答案，得到多轮对话的数据，然后用这些人工标注好的数据来微调 GPT模型；由于数据来源于网上海量数据，通过监督学习可以让模型生成出更加符合我们预期的答案

训练奖励模型（RM）

叠加效应：通过人工标注训练数据，来训练回报模型，从而使模型不断地自我迭代完善；
具体如下：
- 在上一步微调后，在数据集中随机抽取问题，使用第一阶段生成的模型，对于每个问题，生成多个不同的回答
- 人类标注者对输出结果从好到差排序
- 用这个排序结果数据来训练奖励模型
- RM模型接受一个输入，给出评价回答质量的分数，从而使ChatGPT从命令驱动转向意图驱动，引导ChatGPT输出符合人类预期的内容。

强化学习来优化策略(PPO)

使用PPO强化模型优化奖励模型
具体步骤如下：
- 利用上段训练好的奖励模型，靠奖励打分来更新预训练模型参数
- 在数据集中随机抽取问题，使用PPO模型生成回答，并用上一阶段训练好的RM模型给出质量分数
- 将回报分数依次传递，从而产生策略梯度，通过强化学习的方式来更新PPO模型参数
- 不断迭代，从而训练出更高质量的模型

更多原理内容解析

背景

ChatGPT还有很多精湛的原理，值得我们每个人去认真的学习，从而不断的丰富自己知识体系；该领域还有几个关键点因文章篇幅有限等原因未能将其他的关键点解析在此强烈为大家推荐一个学习直播

思考题

国内生成式人工智能还有哪些前沿研究成果？
跨模态、异构数据爆发式增长，如何高效处理？
大型语言模型未来的优化趋势是怎样的？
牵动多个应用领域的底层视觉技术有哪些优化空间？

更多详细内容

希望热爱学习的读者朋友带着以上思考题，"CSIG企业行"的精彩直播去寻找答案

活动相关内容：

主题：“图文智能处理与多场景应用技术展望”
目标：聚焦图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等热门话题，
嘉宾：特邀来自上海交大、复旦、厦门大学、中科大的顶尖学府的学者与合合信息技术团队一道，以直播的形式分享文档处理实践经验及NLP发展趋势，探讨ChatGPT在未来的落地潜能
活动组织方:该活动由中国图象图形协会 (CSIG) 主办，合合信息、CSIG文档图像分析与识别专业委员会联合承办
时间：3⽉18日 14:00
直播预约入口
活动内容

活动干货多多，全程亮点，欢迎大家关注！

总结

当前阶段ChatGPT已经大大的降低了很多行业的门槛，可以辅助专业人士大大提高效率，它很有可能成为改变世界的一项技术
我们每个人都应该学习ChatGPT，它的解决问题方式完全符合大数据思维，生活在当今的信息社会，有了大数据思维会让我们如虎添翼
GPT-4在3月15日发布，多模态一个模型，支持了强大的识图能力，回答准确性提升明显，从发布的时间来看，迭代速度越来越快，我们要积极拥抱它，将其作为我们生活和工作的重要伙伴，让它为我们生活带来更多的便利和快乐，同时我们也要充分了解人工智能这项技术，掌握它的优点和不足，不断提高自己的技能和素质，让我们能够更好的应对未来的挑战

相关文章：

ChatGPT-4.0 : 未来已来，你来不来

EEPROM芯片(24c02)使用详解(I2C通信时序分析、操作源码分析、原理图分析)

智能生活垃圾检测与分类系统（UI界面+YOLOv5+训练数据集）

字节跳动软件测试岗，前两面过了，第三面HR天坑！竟然跟我说……

Jetson Nano驱动机器人的左右两路电机

西瓜视频登录页面

【文心一言】什么是文心一言，如何获得内测和使用方法。

详解分库分表设计

微信小程序项目实例——扫雷

一个完整的渗透学习路线是怎样的？如何成为安全渗透工程师？

云上办公系统项目

Python自动化抖音自动刷视频

基于Vue+Vue-cli+webpack搭建渐进式高可维护性前端实战项目

C#等高级语言运行过程

人脸活体检测系统（Python+YOLOv5深度学习模型+清新界面）

分享的文章《人生如棋》

(ckeditor+ckfinder用法)Jquery,js获取ckeditor值

【从零开始安装kubernetes-1.7.3】2.flannel、docker以及Harbor的配置以及作用

CSS居中完全指南——构建CSS居中决策树

Hexo+码云+git快速搭建免费的静态Blog

iOS仿今日头条、壁纸应用、筛选分类、三方微博、颜色填充等源码

Next.js之基础概念（二）

Promise面试题2实现异步串行执行

Spring Cloud(3) - 服务治理: Spring Cloud Eureka

阿里研究院入选中国企业智库系统影响力榜

闭包,sync使用细节

基于组件的设计工作流与界面抽象

类orAPI - 收藏集 - 掘金

前端知识点整理（待续）

一个项目push到多个远程Git仓库

与 ConTeXt MkIV 官方文档的接驳

在Mac OS X上安装 Ruby运行环境

- 转 Ext2.0 form使用实例

长三角G60科创走廊智能驾驶产业联盟揭牌成立，近80家企业助力智能驾驶行业发展 ...

#Linux（make工具和makefile文件以及makefile语法）

#WEB前端（HTML属性）

（003）SlickEdit Unity的补全

(1)常见O(n^2)排序算法解析

（30）数组元素和与数字和的绝对差

(Java数据结构)ArrayList

（博弈 sg入门）kiki's game -- hdu -- 2147

（二）基于wpr_simulation 的Ros机器人运动控制，gazebo仿真

（附源码）spring boot基于小程序酒店疫情系统毕业设计 091931

（附源码）spring boot建达集团公司平台毕业设计 141538

（附源码）springboot学生选课系统毕业设计 612555

（淘宝无限适配）手机端rem布局详解（转载非原创）

.bat批处理（十一）：替换字符串中包含百分号%的子串

.NET 4 并行（多核）“.NET研究”编程系列之二从Task开始

.net core 3.0 linux,.NET Core 3.0 的新增功能

.net MVC中使用angularJs刷新页面数据列表

.NET/C# 在代码中测量代码执行耗时的建议（比较系统性能计数器和系统时间）

.vue文件怎么使用_我在项目中是这样配置Vue的

/bin/rm: 参数列表过长＂的解决办法

??myeclipse+tomcat

@WebServiceClient注解，wsdlLocation 可配置