当前位置: 首页 > news >正文

ChatGPT技术演进简介

chatGPT(chat generative pre-train transformer, 可以对话的预训练trasformer模型),讨论点:
1、chatGPT为什么突然火了
2、GPT 1.0、2.0、3.0、3.5 、4和4o区别和特性,在不同应用场景中如何选对模型
3、未来大模型可能演进方向

1、chatGPT为什么突然火了

科技发展

1、硬件算力提高英伟达的A100GPU(10/2020)

2、设计专门用户AI训练的处理器,如谷歌TPUs,从2016年的第一代到2024年的最新的第六代

3、各种优秀NLP、CV模型涌现,例如基于谷歌Trasformer(2017)的BERT和GPT的NLP处理模型。transformer两个重要创新点,第一,降低了人工标注训练数据集成本,为大量无标注数据用于模型训练提供了可能;第二,将训练由串行变成并行,缩短了训练的时间。

高质量数据的增加

1、各种数字设备和IoTs设备在增加,结构化的数据量在成指数级增加,谷歌预计到2035年,数据中心数据量将达到175ZB(175ZB = 1 百万TB)

2、更好的数据收集方法和清理数据方法,根据麦肯锡2016报告,相比普通公司,基于数据驱动的公司获取用户数据可能性23倍,保留用户数据6倍。

3、云计算降低了保存、处理数据的成本,也增加了数据的收集

资本投资和竞争

1、越来越多的公司认识到AI在科技创新、提效上的强大潜力,都加大投资,仅2021年谷歌在AI研究上投资高达900亿美元,微软、亚马逊等巨头也进行大量资金投入。使用AI增加个人竞争力-》高ROI-》加大投资,AI研究形成了一个良性的发展。除了企业,各国政府也将AI提升到国家发展战略层面,作为推动经济增长的巨量引擎,同时AI 也是空间安全的一个重要影响因素。

2、GPT 1.0、2.0、3.0、3.5 、4和4o区别和特性

GPT-1参数1.2亿,2018年

GPT-2翻了10倍,15亿,2019年,连贯有逻辑的文本

GPT-3翻了100倍,2020年,1,750亿参数,惊人的多样性和适应性,能够处理文本生成、翻译、问答和编程帮助等多种任务,且在很多情况下无需特定任务训练

GPT-3.5参数基本没变化,1,750亿参数,相比3在模型训练和优化方面的进步

GPT-4翻了10倍,参数是1.76万亿

GPT-4o(还未公布),相比gpt4,虽然gpt也能够进行多模版进行交互,但底层不同模态的模型是彼此分开训练的,调用的使用也是分开使用的,gpt4o同时使用文本,音频和图片进行训练。

她们都是在谷歌Transformer基础上开发研究的,不同版本gpt奥秘就出在这个数量上,越过一个门槛之后,突然出现了在门槛之下根本没有见到的现象和能力。

3、了解下未来大模型可能演进方向

随着影响AI快速发展各因素的不断发展,模型的回复质量和效率都会提高,同时多模版的完善,基于多模态发张到一定点之后和相关伦理晚上,AI赋能机器人发展将迎来新的发展高潮。

reference

十分钟理解ChatGPT的技术逻辑及演进(前世、今生)
Why AI is growing so fast now?

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 【STM32】 独立看门狗配置方法
  • Python编程的黑暗魔法:模块与包的神秘力量!
  • 解决vite打包只生成了一个css和js文件问题
  • 五分钟搭建一个Suno AI音乐站点
  • 手搓堆(C语言)
  • 01.爬虫---初识网络爬虫
  • react 函数组件 开发模式默认被渲染两次
  • Java 面向数据编程-DOP
  • 基于微信小程序的医院医疗设备管理系统设计
  • Vue的学习 —— <Echarts组件库技术应用>
  • 简单介绍十款可以免费使用的API测试工具
  • WebRTC-SFU服务器-Janus部署【保姆级部署教程】
  • Simulate Ring Resonator in INTERCONNECT
  • Codeforces Round 821 (Div. 2) C. Parity Shuffle Sorting (构造之全变成一样的)
  • 好用的c++11语言特性
  • Java多态
  • MySQL几个简单SQL的优化
  • nodejs:开发并发布一个nodejs包
  • Stream流与Lambda表达式(三) 静态工厂类Collectors
  • ubuntu 下nginx安装 并支持https协议
  • 阿里云容器服务区块链解决方案全新升级 支持Hyperledger Fabric v1.1
  • 关于List、List?、ListObject的区别
  • 机器学习中为什么要做归一化normalization
  • 前端技术周刊 2018-12-10:前端自动化测试
  • 如何使用 OAuth 2.0 将 LinkedIn 集成入 iOS 应用
  • 使用权重正则化较少模型过拟合
  • 思维导图—你不知道的JavaScript中卷
  • 源码之下无秘密 ── 做最好的 Netty 源码分析教程
  • 2017年360最后一道编程题
  • NLPIR智能语义技术让大数据挖掘更简单
  • ​14:00面试,14:06就出来了,问的问题有点变态。。。
  • ​Z时代时尚SUV新宠:起亚赛图斯值不值得年轻人买?
  • #include<初见C语言之指针(5)>
  • #java学习笔记(面向对象)----(未完结)
  • (1) caustics\
  • (20050108)又读《平凡的世界》
  • (2021|NIPS,扩散,无条件分数估计,条件分数估计)无分类器引导扩散
  • (23)Linux的软硬连接
  • (附源码)springboot高校宿舍交电费系统 毕业设计031552
  • (附源码)ssm高校实验室 毕业设计 800008
  • (附源码)ssm经济信息门户网站 毕业设计 141634
  • (附源码)计算机毕业设计ssm高校《大学语文》课程作业在线管理系统
  • (十) 初识 Docker file
  • (一)Neo4j下载安装以及初次使用
  • (一)插入排序
  • (转)jdk与jre的区别
  • (转)关于如何学好游戏3D引擎编程的一些经验
  • .net 逐行读取大文本文件_如何使用 Java 灵活读取 Excel 内容 ?
  • .NET 自定义中间件 判断是否存在 AllowAnonymousAttribute 特性 来判断是否需要身份验证
  • .NET构架之我见
  • .NET设计模式(7):创建型模式专题总结(Creational Pattern)
  • .net用HTML开发怎么调试,如何使用ASP.NET MVC在调试中查看控制器生成的html?
  • .Net转前端开发-启航篇,如何定制博客园主题
  • .pyc文件是什么?
  • .so文件(linux系统)