当前位置: 首页 > news >正文

DataWhale - 吃瓜教程学习笔记(一)

学习视频:第1章-绪论_哔哩哔哩_bilibili
西瓜书对应章节: 第一章


机器学习三观

What:什么是机器学习?

关键词“学习算法”

Why: 为什么要学机器学习?

#### 1. 机器学习理论研究#### 2. 机器学习系统开发#### 3. 机器学习算法迁移 (AI+)#### 4. AI 应用方向研究:NLP, CV, 推荐系统

How: 怎样学习深度学习?

#### - 纯理论研究
#### - 系统的开发

1C6PR5L3A4ALU899PL%6V.png

#### - 算法迁移 (AI for Science)
#### - AI 应用方向研究

基础核心知识概念

假设空间 & 版本空间
假设空间定义了所有可能的解决方案;版本空间则是在考虑了训练数据后,认为可能正确的解决方案的集合
算法
从数据中学得模型的“具体方法”,其产出结果称为“模型”
样本(示例)
关于一个事件或对象的描述。用向量进行表示,向量中的各个维度称为“特征”或“属性“。向量中的元素用分号 ";" 表示为列向量,用逗号 ","表示为行向量。
标记
学习样本在某方面的表现存在潜在规律的的信息。
样本空间 & 标记空间
所有可能的输入数据或特征向量的集合;
所有可能的输出标签或目标值的集合
机器学习任务分类 (根据标记取值类型不同)
- 标记取值为“离散型”, 任务为 分类
- 标记取值为 “连续型”, 任务为 回归
机器学习任务分类 (根据是否用到标记信息)
- 训练阶段有用到标记信息,此类任务为 “监督学习”
- 训练阶段没用到标记信息,此类任务为 “无监督学习”
数据集
- 通常用集合表示
- 一般同一份数据集中的每个样本都含相同个数的特征
- 样本 $x_{ij}$ 表示样本 $x_i$ 在第 j 个属性上的取值
泛化
模型对未在训练过程中见过的数据进行准确预测的能力
分布
概率论中的概率分布。
归纳偏好
不同的机器学习算法有不同的偏好- 最常用的评价方法是 - 基于模型在测试集上的表现评判模型的优劣。
- 机器学习算法没有绝对的优劣之分,只有是否适合当前待解决问题之分。
  • **没有免费的午餐定理(NFL)**: 众算法生而平等(哪个算法训出来的模型在测试集上表现好哪个算法 nb)。

数据决定模型的上限,算法则是让模型无限逼近上限

- 数据决定模型的上限

数据是指从 数据量特征工程 两个角度考虑

  • 通常数据量越大模型效果越好
  • 通常对特征数值化越合理,特征收集越全越细致,模型效果通常越好

在这里插入图片描述

相关文章:

  • mybatis-plus使用拦截器实现sql完整打印
  • 一款经典BUCK DCDC降压芯片TPS5430适合24V转5V转12V及其电路图
  • Python 踩坑记 -- 调优
  • 超拟人大模型:AI心理健康服务的未来
  • QuickLook最强大的C#开源文件预览神器
  • 计算机行业
  • JWT令牌、过滤器Filter、拦截器Interceptor
  • LeetCode 230.二叉搜索树中第K小的元素
  • Android中蓝牙设备的状态值管理
  • Java:缓存行和伪共享
  • Mysql中索引详解
  • VS2019+QT5.15调用动态库dll带有命名空间
  • 分布式文件存储 - - - MinIO从入门到飞翔
  • Verilog-Behavior Level 和 RTL Level 和 GATE Level的区别
  • Git工具
  • #Java异常处理
  • AHK 中 = 和 == 等比较运算符的用法
  • idea + plantuml 画流程图
  • iOS | NSProxy
  • MQ框架的比较
  • Windows Containers 大冒险: 容器网络
  • 闭包--闭包作用之保存(一)
  • 初识 webpack
  • 后端_ThinkPHP5
  • 排序算法之--选择排序
  • 前端设计模式
  • 前嗅ForeSpider教程:创建模板
  • 小程序滚动组件,左边导航栏与右边内容联动效果实现
  • 新版博客前端前瞻
  • 学习笔记:对象,原型和继承(1)
  • 云大使推广中的常见热门问题
  • 在Mac OS X上安装 Ruby运行环境
  • ​ 无限可能性的探索:Amazon Lightsail轻量应用服务器引领数字化时代创新发展
  • ​软考-高级-信息系统项目管理师教程 第四版【第23章-组织通用管理-思维导图】​
  • ​一帧图像的Android之旅 :应用的首个绘制请求
  • ​中南建设2022年半年报“韧”字当头,经营性现金流持续为正​
  • (3)STL算法之搜索
  • (android 地图实战开发)3 在地图上显示当前位置和自定义银行位置
  • (cljs/run-at (JSVM. :browser) 搭建刚好可用的开发环境!)
  • (多级缓存)多级缓存
  • (二)pulsar安装在独立的docker中,python测试
  • (规划)24届春招和25届暑假实习路线准备规划
  • (六)DockerCompose安装与配置
  • (十一)JAVA springboot ssm b2b2c多用户商城系统源码:服务网关Zuul高级篇
  • (实战)静默dbca安装创建数据库 --参数说明+举例
  • (五)网络优化与超参数选择--九五小庞
  • (心得)获取一个数二进制序列中所有的偶数位和奇数位, 分别输出二进制序列。
  • (自用)learnOpenGL学习总结-高级OpenGL-抗锯齿
  • .NET C# 使用 SetWindowsHookEx 监听鼠标或键盘消息以及此方法的坑
  • .NET Core IdentityServer4实战-开篇介绍与规划
  • .net 使用$.ajax实现从前台调用后台方法(包含静态方法和非静态方法调用)
  • .net后端程序发布到nignx上,通过nginx访问
  • .NET开源的一个小而快并且功能强大的 Windows 动态桌面软件 - DreamScene2
  • .NET学习教程二——.net基础定义+VS常用设置
  • .stream().map与.stream().flatMap的使用