当前位置：首页 > news >正文

机器学习个人总结（王道版）

news 来源：原创 2024/5/2 18:10:11

机器学习流程：
预处理->特征工程->机器学习算法(选择合适的算法)->评估
强化学习：用人工智能去调参
数据也是一种财富
离散型数据：由记录不同类别个体的数目所得到的数据，又称计数数据，所
有这些数据全部都是整数，而且不能再细分，也不能进一步提高他
们的精确度。
连续型数据：变量可以在某个范围内取任一数，即变量的取值可以是连续
的，如，长度、时间、质量值等，这类数据通常是非整数，含有小数
部分。
注：只要记住一点，离散型是区间内不可分，连续型是区间内可分
人工智能内部就是高阶函数，输入的数据必须是数值（离散或连续），不能输入字符串
图片是一大推浮点数，像素点（像素值0-255），黑白图片可以看成二维数组，彩色三维(RGB)
数据的结构组成
特征工程是什么？
特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高了模型对未知数据预测的准确性
预测问题分为两大类？、

分类：预测的是一个类别
回归：预测的是概率，值

调参：

参数：模型自动训练的参数
超参数：自己调的参数

特征处理

数值型数据：标准缩放.1、归一化 2、标准化 3、缺失值
类别型数据：one-hot编码
时间类型：时间的切分

归一化

mx和mi可以为1和-1

缺点：容易受极值影响。在特定场景下最大值最小值是变化的，另外，最大值与最小值非常容易受异常点影响，所以这种方法鲁棒性较差，只适合传统精确小数据场景。
好处：容易更快地通过梯度下降找到最优解

标准化
结合归一化来谈标准化
如何处理数据中的缺失值？
特征选择原因
特征选择是什么

方差阈值第一个，删除低方差保留高方差，就是要保留不同的特征
fit_trasform()
fit()：计算待标准化数据的均值和方差等参数。
transform()的功能是对数据进行标准化。是将数据进行转换，比如数据的归一化和标准化，将测试数据按照训练数据同样的模型进行转换，得到特征向量。
fit_transform()的功能就是对数据先进行拟合处理，然后再将其进行标准化
PCA（主成分分析）是什么

点到先的垂直距离和最小，这样就确定了对于的线，也确定了每个点在新的维度上的特征值

我们应该怎么做？
（1）算法是核心，数据和计算是基础
机器学习开发步骤
机器学习模型是什么
监督学习和非监督学习

逻辑回归是分类问题

分类问题
回归问题
测试集与训练集划分
特征工程—fit_transform转换器
1、实例化 (实例化的是一个转换器类(Transformer))（测试集用）
2、调用 fit_transform(对于文档建立分类词频矩阵，不能同时调用)（训练集用）
3、fit()计算平均值方差等，transform进行数据的转换
特征工程—估计器（预估器）
估计器的工作流程
分类算法-k 近邻算法(KNN)

定义：如果一个样本在特征空间中的 k 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。
来源：KNN 算法最早是由 Cover 和 Hart 提出的一种分类算法
计算距离公式
两个样本的距离可以通过如下公式计算，又叫欧式距离

knn中k 值取多大？有什么影响？
k近邻算法的优缺点

优点：
缺点：

交叉验证：
网格搜索
混淆矩阵
在分类任务下，预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合，构成混淆矩阵(适用于多分类)
精确率与召回率
TPR、FPR、ROC、AUC

FPR越小越好
下面的面积越大越好
AUC是下面的面积

knn分类算法
拉普拉斯平滑系数

分子和分母加上一个系数，分母加alpha*特征词数目

朴素贝叶斯分类优缺点
信息熵
信息增益
信息增益的计算
案例
DictVectorizer（）可以非数值转化成数值，ont-hot编码
决策树的划分依据

信息增益
信息增益率
基尼值和基尼指数

决策树优缺点及改进
集成学习方法

集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型，各自独立地学习和作出预测。这些预测最后结合成单预测，因此优于任何一个单分类的做出预测。

什么是随机森林
在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。
为什么要随机抽样训练集？
随机森林的优点
线性模型
线性回归
损失函数
求w

正规方程

在这里插入图片描述

梯度下降

L1正则和L2的区别
scikit-learn和tensorflow优缺点
梯度下降和正规方程的区别
欠拟合原因以及解决办法
过拟合原因以及解决办法
L2正则化
逻辑回归是分类算法（解决二分类）
sigmoid函数
逻辑回归公式
LogisticRegression总结
面对一个机器学习问题，通常有两种策略
略。
一种是研发人员尝试各种模型，选择其中表现最好的模型做重点调参优化。这种策略类似于奥运会比赛，通过强强竞争来选拔最优的运动员，并逐步提高成绩。另一种重要的策略是集各家之长，如同贤明的君主广泛地听取众多谋臣的建议，然后综合考虑，得到最终决策。后一种策略的核心，是将多个分类器的结果统一成一个最终的决策。使用这类策略的机器学习方法统称为集成学习。其中的每个单独的分类器称为基分类器。
Boosting（串行）（迭代式学习）
Bagging（并行）

在这里插入图片描述
69. 集成学习的基本步骤
（1）找到误差互相独立的基分类器。
（2）训练基分类器。
（3）合并基分类器的结果。

相关文章：

【Machine Learning】8.逻辑回归及其在分类问题的应用

ZYNQ之路--带你弄明白Vivado设计流程

最大子数组和-前缀和/动态规划/分治/暴力-Java/c++

[JS]JavaScript 注释输入输出语句

网络笔记大全（超详细）

网课题库接口使用

【计算方法】python实现高斯消去、列主元高斯消去，LU分解分别求解线性方程组

回归预测 | MATLAB实现GA-BP多输入单输出回归预测

Nmap的API和库文件

Linux命令 -文件权限配置的深入(chown/chmod/setfacl)

ubuntu安装selenium

React脚手架工具创建项目的详细介绍

26_TokenMongodb

【工具】使用 sealos 部署 k8s 集群

LeetCode 每日一题 2022/9/19-2022/9/25

2017年终总结、随想

AHK 中 = 和 == 等比较运算符的用法

Android框架之Volley

AWS实战 - 利用IAM对S3做访问控制

docker python 配置

gf框架之分页模块(五) - 自定义分页

python学习笔记 - ThreadLocal

Work@Alibaba 阿里巴巴的企业应用构建之路

笨办法学C 练习34：动态数组

计算机在识别图像时“看到”了什么？

浅谈Golang中select的用法

使用iElevator.js模拟segmentfault的文章标题导航

腾讯优测优分享 | 你是否体验过Android手机插入耳机后仍外放的尴尬？

想写好前端，先练好内功

一天一个设计模式之JS实现——适配器模式

一文看透浏览器架构

移动互联网+智能运营体系搭建=你家有金矿啊！

Java数据解析之JSON

阿里云API、SDK和CLI应用实践方案

油烟净化器电源安全，保障健康餐饮生活

（ZT）出版业改革：该死的死，该生的生

（附源码）springboot太原学院贫困生申请管理系统毕业设计 101517

(附源码)ssm教师工作量核算统计系统毕业设计 162307

(一）使用Mybatis实现在student数据库中插入一个学生信息

（一一四）第九章编程练习

(转)AS3正则：元子符,元序列,标志,数量表达符

(转)程序员疫苗：代码注入

（转载）跟我一起学习VIM - The Life Changing Editor

(轉貼) 寄發紅帖基本原則(教育部禮儀司頒布) (雜項)

***监测系统的构建（chkrootkit ）

***利用Ms05002溢出找“肉鸡

.apk 成为历史！

.bat批处理（二）：%0 %1——给批处理脚本传递参数

.NET Core中Emit的使用

.Net Winform开发笔记（一）

.net 设置默认首页

.NET/C# 在代码中测量代码执行耗时的建议（比较系统性能计数器和系统时间）

.Net中的集合

@NestedConfigurationProperty 注解用法

[] 与 [[]], -gt 与＞的比较