当前位置: 首页 > news >正文

机器学习个人总结(王道版)

  1. 机器学习流程:
    预处理->特征工程->机器学习算法(选择合适的算法)->评估
    强化学习:用人工智能去调参
    数据也是一种财富
  2. 离散型数据:由记录不同类别个体的数目所得到的数据,又称计数数据,所
    有这些数据全部都是整数,而且不能再细分,也不能进一步提高他
    们的精确度。
  3. 连续型数据:变量可以在某个范围内取任一数,即变量的取值可以是连续
    的,如,长度、时间、质量值等,这类数据通常是非整数,含有小数
    部分。
  4. 注:只要记住一点,离散型是区间内不可分,连续型是区间内可分
  5. 人工智能内部就是高阶函数,输入的数据必须是数值(离散或连续),不能输入字符串
  6. 图片是一大推浮点数,像素点(像素值0-255),黑白图片可以看成二维数组,彩色三维(RGB)
  7. 数据的结构组成
    在这里插入图片描述
  8. 特征工程是什么?
    特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了模型对未知数据预测的准确性
  9. 预测问题分为两大类?、
  • 分类 :预测的是一个类别
  • 回归:预测的是概率,值
  1. 调参:
  • 参数:模型自动训练的参数
  • 超参数:自己调的参数
  1. 特征处理
  • 数值型数据:标准缩放.1、归一化 2、标准化 3、缺失值
  • 类别型数据:one-hot编码
  • 时间类型:时间的切分
  1. 归一化
    在这里插入图片描述
    mx和mi可以为1和-1
  • 缺点:容易受极值影响。在特定场景下最大值最小值是变化的,另外,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景。
  • 好处:容易更快地通过梯度下降找 到最优解
  1. 标准化
    在这里插入图片描述
    在这里插入图片描述

  2. 结合归一化来谈标准化
    在这里插入图片描述

  3. 如何处理数据中的缺失值
    在这里插入图片描述

  4. 特征选择原因
    在这里插入图片描述

  5. 特征选择是什么
    在这里插入图片描述
    方差阈值第一个,删除低方差保留高方差,就是要保留不同的特征
    在这里插入图片描述

  6. fit_trasform()
    fit():计算待标准化数据的均值和方差等参数。
    transform()的功能是对数据进行标准化。是将数据进行转换,比如数据的归一化和标准化,将测试数据按照训练数据同样的模型进行转换,得到特征向量。
    fit_transform()的功能就是对数据先进行拟合处理,然后再将其进行标准化

  7. PCA(主成分分析)是什么
    在这里插入图片描述
    在这里插入图片描述

  • 点到先的垂直距离和最小,这样就确定了对于的线,也确定了每个点在新的维度上的特征值
    在这里插入图片描述
  1. 我们应该怎么做?
    (1)算法是核心,数据和计算是基础
    在这里插入图片描述
    在这里插入图片描述

  2. 机器学习开发步骤
    在这里插入图片描述
    在这里插入图片描述

  3. 机器学习模型是什么
    在这里插入图片描述

  4. 监督学习和非监督学习
    在这里插入图片描述
    在这里插入图片描述

  • 逻辑回归是分类问题
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  1. 分类问题
    在这里插入图片描述

  2. 回归问题
    在这里插入图片描述

  3. 测试集与训练集划分
    在这里插入图片描述

  4. 特征工程—fit_transform转换器
    1、实例化 (实例化的是一个转换器类(Transformer))(测试集用)
    2、调用 fit_transform(对于文档建立分类词频矩阵,不能同时调用)(训练集用)
    3、fit()计算平均值方差等,transform进行数据的转换

  5. 特征工程—估计器(预估器)
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  6. 估计器的工作流程
    在这里插入图片描述

  7. 分类算法-k 近邻算法(KNN)

  • 定义:如果一个样本在特征空间中的 k 个最相似(即特征空间中最邻近)的样本中的大多数属 于某一个类别,则该样本也属于这个类别。
    来源:KNN 算法最早是由 Cover 和 Hart 提出的一种分类算法
  • 计算距离公式
    两个样本的距离可以通过如下公式计算,又叫欧式距离
    在这里插入图片描述
    在这里插入图片描述
  1. knn中k 值取多大?有什么影响?
    在这里插入图片描述
    在这里插入图片描述
  2. k近邻算法的优缺点
  • 优点:
    在这里插入图片描述

  • 缺点:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  1. 交叉验证:
    在这里插入图片描述
  2. 网格搜索
    在这里插入图片描述
  3. 混淆矩阵
    在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存 在四种不同的组合,构成混淆矩阵(适用于多分类)
    在这里插入图片描述
  4. 精确率与召回率
    在这里插入图片描述
    在这里插入图片描述
  5. TPR、FPR、ROC、AUC
    ![在这里插入图片描述](https://img-blog.csdnimg.cn/c2f8c55f322640f580c9c03d4533d557.
  • FPR越小越好
    在这里插入图片描述
  • 下面的面积越大越好
  • AUC是下面的面积
  1. knn分类算法
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    39
  2. 拉普拉斯平滑系数
    在这里插入图片描述
  • 分子和分母加上一个系数,分母加alpha*特征词数目
  1. 朴素贝叶斯分类优缺点
    在这里插入图片描述

  2. 信息熵
    在这里插入图片描述

  3. 信息增益
    在这里插入图片描述

  4. 信息增益的计算
    在这里插入图片描述

  5. 案例
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  6. DictVectorizer()可以非数值转化成数值,ont-hot编码

  7. 决策树的划分依据

  • 信息增益
  • 信息增益率
  • 基尼值和基尼指数
    在这里插入图片描述
  1. 决策树优缺点及改进
    在这里插入图片描述

  2. 集成学习方法

集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类 器/模型,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单 分类的做出预测。

  1. 什么是随机森林
    在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由 个别树输出的类别的众数而定。
  2. 为什么要随机抽样训练集?
    在这里插入图片描述
  3. 随机森林的优点
    在这里插入图片描述
  4. 线性模型
    在这里插入图片描述
  5. 线性回归
    在这里插入图片描述
  6. 损失函数
    在这里插入图片描述
  7. 求w
  • 正规方程
    在这里插入图片描述

在这里插入图片描述

  • 梯度下降
    在这里插入图片描述
  1. L1正则和L2的区别
    在这里插入图片描述
    在这里插入图片描述

  2. scikit-learn和tensorflow优缺点
    在这里插入图片描述

  3. 梯度下降和正规方程的区别
    在这里插入图片描述
    在这里插入图片描述

  4. 欠拟合原因以及解决办法
    在这里插入图片描述

  5. 过拟合原因以及解决办法
    在这里插入图片描述

  6. L2正则化
    在这里插入图片描述
    在这里插入图片描述

  7. 逻辑回归是分类算法(解决二分类)
    在这里插入图片描述

  8. sigmoid函数
    在这里插入图片描述

  9. 逻辑回归公式
    在这里插入图片描述

  10. LogisticRegression总结
    在这里插入图片描述

  11. 面对一个机器学习问题,通常有两种策略
    略。
    一种是研发人员尝试各种模型,选择其中表 现最好的模型做重点调参优化。这种策略类似于奥运会比赛,通过强强竞争来选拔最优的运 动员,并逐步提高成绩。另一种重要的策略是集各家之长,如同贤明的君主广泛地听取众多 谋臣的建议,然后综合考虑,得到最终决策。后一种策略的核心,是将多个分类器的结果统 一成一个最终的决策。使用这 类策略的机器学习方法统称为集成学习。其中的每个单独的 分类器称为基分类器。

  12. Boosting(串行)(迭代式学习)
    在这里插入图片描述
    在这里插入图片描述

  13. Bagging(并行)
    在这里插入图片描述

在这里插入图片描述
69. 集成学习的基本步骤
(1)找到误差互相独立的基分类器。
(2)训练基分类器。
(3)合并基分类器的结果。

相关文章:

  • 【Machine Learning】8.逻辑回归及其在分类问题的应用
  • ZYNQ之路--带你弄明白Vivado设计流程
  • 最大子数组和-前缀和/动态规划/分治/暴力-Java/c++
  • [JS]JavaScript 注释 输入输出语句
  • 网络笔记大全(超详细)
  • 网课题库接口使用
  • 【计算方法】python实现高斯消去、列主元高斯消去,LU分解分别求解线性方程组
  • 回归预测 | MATLAB实现GA-BP多输入单输出回归预测
  • Nmap的API和库文件
  • Linux命令 -文件权限配置的深入(chown/chmod/setfacl)
  • ubuntu安装selenium
  • React脚手架工具创建项目的详细介绍
  • 26_TokenMongodb
  • 【工具】使用 sealos 部署 k8s 集群
  • LeetCode 每日一题 2022/9/19-2022/9/25
  • 2017年终总结、随想
  • AHK 中 = 和 == 等比较运算符的用法
  • Android框架之Volley
  • AWS实战 - 利用IAM对S3做访问控制
  • docker python 配置
  • gf框架之分页模块(五) - 自定义分页
  • python学习笔记 - ThreadLocal
  • Work@Alibaba 阿里巴巴的企业应用构建之路
  • 笨办法学C 练习34:动态数组
  • 计算机在识别图像时“看到”了什么?
  • 浅谈Golang中select的用法
  • 使用iElevator.js模拟segmentfault的文章标题导航
  • 腾讯优测优分享 | 你是否体验过Android手机插入耳机后仍外放的尴尬?
  • 想写好前端,先练好内功
  • 一天一个设计模式之JS实现——适配器模式
  • 一文看透浏览器架构
  • 移动互联网+智能运营体系搭建=你家有金矿啊!
  • Java数据解析之JSON
  • 阿里云API、SDK和CLI应用实践方案
  • ​油烟净化器电源安全,保障健康餐饮生活
  • (ZT)出版业改革:该死的死,该生的生
  • (附源码)springboot太原学院贫困生申请管理系统 毕业设计 101517
  • (附源码)ssm教师工作量核算统计系统 毕业设计 162307
  • (一)使用Mybatis实现在student数据库中插入一个学生信息
  • (一一四)第九章编程练习
  • (转)AS3正则:元子符,元序列,标志,数量表达符
  • (转)程序员疫苗:代码注入
  • (转载)跟我一起学习VIM - The Life Changing Editor
  • (轉貼) 寄發紅帖基本原則(教育部禮儀司頒布) (雜項)
  • ***监测系统的构建(chkrootkit )
  • ***利用Ms05002溢出找“肉鸡
  • .apk 成为历史!
  • .bat批处理(二):%0 %1——给批处理脚本传递参数
  • .NET Core中Emit的使用
  • .Net Winform开发笔记(一)
  • .net 设置默认首页
  • .NET/C# 在代码中测量代码执行耗时的建议(比较系统性能计数器和系统时间)
  • .Net中的集合
  • @NestedConfigurationProperty 注解用法
  • [] 与 [[]], -gt 与 > 的比较