当前位置: 首页 > news >正文

从零开始一步一步掌握大语言模型---(1-写在最开始)

一、为什么要开始这个系列?

从23年开始接触Chatpgt以来,被其强大的功能深深的震撼到。它不仅是能写论文,编故事,真的是能深刻影响到我们各行各业的一项新技术。在我们社会即将迎来智能化革命的前期,深刻的理解和掌握这项技术,是参与到这波智能化革命中的必要条件。因此,开始这个系列,既是对我学习的总结,也希望能够帮助到尽可能多的人或者认识到更多可爱的人。

二、什么是大语言模型?

维基百科中定义大语言模型(Large Language Model, LLM)是一种语言模型,由许多神经网络的参数所组成,这些参数通常在十亿或百亿以上。这种模型使用自监督学习或者半监督学习通过对海量的未标记文本(就是互联网上爬取的)进行训练所得到的。

三、大语言模型可以做哪些任务?

大语言模型,我认为可以简单的将其理解为一种能通过键盘跟你交流的高中生或者本科生,并且能死心塌地尽可能去完成你交代的工作的一种工具。想想高中生本科生能通过键盘跟你交流什么,干什么,那么大语言模型都可以帮你做。通常来说,大语言模型具有以下几个比较专业的应用:
1.信息检索。因为它在训练阶段给它输入了海量的文本,甚至是互联网上所有尽可能的文字。所以它在训练过程中,可能学会了(捕获了)我们人类的大部分句法或语义,记住了这个世界的大量知识。所以现在很多搜索引擎如谷歌、百度等都借用它来实现高效的检索。
2.情感分析。给大模型输入文本,让其判断属于哪一类的情感。不要小看这项能力,在政府治理中,通过利用该技术,可以实时的监测到某项事件或者某段时间人民的舆情状况。或者在卖商品的里面,就可以快速分析中哪些商品人们对其的评价状况。
3.文本生成。这当然是大语言模型的拿手把戏了。给其一段命令,它可以生成出更多的内容。写故事,写论文,续写等等。之所以是拿手把戏,是因为大模型训练的时候,就是让它尝试尽可能的预测到下一个是什么字。通过不断的预测下一个字,就可以不断生成出更多的文字。其实这点和人类也很像,我们说话或者打字的时候,其实也是说完前面的,随后就会生成出后面的,(当然指的是一次对话或者同一个话题,如果换一个话题肯定就没办法按照预测的方式跳过去了)。
4.代码生成。代码也是文本,只不过是更有逻辑性的文本。在训练阶段输入代码功能的注释,以及大量的代码,让它尝试按照注释去生成出原来的代码。这样大语言模型就可以学习到用户输入一个功能,它怎么去生成出相对应的代码了。
5.聊天机器人。这点很好玩,因为大语言模型学习到了大量的人类知识,因此通过对话的方式,可以跟它聊天,而不是把它当成一个玩具或者弱智。
6.医疗保健和科学。大语言模型可以理解蛋白质、分子、DNA和RNA。利用LLM可以协助疫苗研制,寻找治疗方法。作为医疗聊天机器人,可以接收患者入院或进行基本诊断。
7.客户服务。可以把大模型微调成自己公司的专属客服。
8.营销。不懂。可能可以拿它写些广告词之类。
9.法律。现在清华大学的刘知远团队就在做。将大模型用到法律的各个业务流程中。
10.金融。用大模型分析用户是否遭遇欺诈或者异常的金融活动。这个后续我要进一步研究。

相关文章:

  • 2024网络安全数据安全加固类资料合集
  • 选择word中的表格VBA
  • 数据结构面试常见问题之串的模式匹配(KMP算法)系列-大师改进实现以及原理
  • 【蓝牙协议栈】【BLE】低功耗蓝牙配对绑定过程分析(超详细)
  • rollup打包起手式
  • Flink:Lookup Join 实现与示例代码
  • 【嵌入式】Docker镜像构建指南:引领应用部署的革新之路
  • 外包干了4年,技术退步明显.......
  • 前端工程Vue前置知识
  • SpringCloud Gateway工作流程
  • 【 Redux 】 Redux中间件的理解?常用的中间件有哪些?实现原理?
  • ubuntu20.04安装Pycharm
  • FPGA与以太网相关接口知识
  • C语言中的运算符优先级详解与使用示例
  • axios、axios二次封装、api解耦
  • 【mysql】环境安装、服务启动、密码设置
  • co.js - 让异步代码同步化
  • Cumulo 的 ClojureScript 模块已经成型
  • MySQL-事务管理(基础)
  • Terraform入门 - 3. 变更基础设施
  • Three.js 再探 - 写一个跳一跳极简版游戏
  • 阿里云容器服务区块链解决方案全新升级 支持Hyperledger Fabric v1.1
  • 和 || 运算
  • 聊聊springcloud的EurekaClientAutoConfiguration
  • 如何学习JavaEE,项目又该如何做?
  • 微服务入门【系列视频课程】
  • 物联网链路协议
  • ​水经微图Web1.5.0版即将上线
  • ​一些不规范的GTID使用场景
  • #HarmonyOS:基础语法
  • #vue3 实现前端下载excel文件模板功能
  • %3cscript放入php,跟bWAPP学WEB安全(PHP代码)--XSS跨站脚本攻击
  • (04)odoo视图操作
  • (Java实习生)每日10道面试题打卡——JavaWeb篇
  • (搬运以学习)flask 上下文的实现
  • (附源码)apringboot计算机专业大学生就业指南 毕业设计061355
  • (附源码)基于SSM多源异构数据关联技术构建智能校园-计算机毕设 64366
  • (附源码)流浪动物保护平台的设计与实现 毕业设计 161154
  • (紀錄)[ASP.NET MVC][jQuery]-2 純手工打造屬於自己的 jQuery GridView (含完整程式碼下載)...
  • (六)软件测试分工
  • (一)使用IDEA创建Maven项目和Maven使用入门(配图详解)
  • *(长期更新)软考网络工程师学习笔记——Section 22 无线局域网
  • .bat批处理(六):替换字符串中匹配的子串
  • .Net各种迷惑命名解释
  • .NET使用HttpClient以multipart/form-data形式post上传文件及其相关参数
  • /etc/sudoers (root权限管理)
  • /etc/sudoer文件配置简析
  • @LoadBalanced 和 @RefreshScope 同时使用,负载均衡失效分析
  • [ 数据结构 - C++]红黑树RBTree
  • [2021]Zookeeper getAcl命令未授权访问漏洞概述与解决
  • [android] 天气app布局练习
  • [C++]C++基础知识概述
  • [codeforces]Checkpoints
  • [codevs] 1029 遍历问题
  • [Deepin 15] 编译安装 MySQL-5.6.35