当前位置：首页 > news >正文

机器学习 -- 基本数学概念总结

news 来源：原创 2024/5/8 22:26:00

特征向量
对于一个给定的线性变换A，它的特征向量（eigenvector，也譯固有向量或本征向量）v 经过这个线性变换[1]之后，得到的新向量仍然与原来的v 保持在同一條直線上，但其长度或方向也许會改变。即
Av=λv

特征空间
特征空间(eigenspace)是具有相同特征值的特征向量与一个同维数的零向量的集合。

假设空间
一组函数的集合，这组集合中的函数都能将输入空间映射到输出空间，但是映射的准确性却大不相同。

分布函数
非降性；有界性；右连续性。

分布密度函数
是一个描述这个随机变量的输出值，在某个确定的取值点附近的可能性的函数。

累积分布函数
随机变量在某一区域内，密度函数的积分值。

损失函数
损失函数是指一种将一个事件（在一个样本空间中的一个元素）映射到一个表达与其事件相关的经济成本或机会成本的实数上的一种函数。

风险函数
损失函数的期望值。

经验风险最小化
训练数据的误差。

残差
实际观察值与估计值（拟合值）之间的差

拟合
所谓拟合是指已知某函数的若干离散函数值{f1,f2,…,fn}，通过调整该函数中若干待定系数f(λ1, λ2,…,λn)，使得该函数与已知点集的差别(最小二乘意义)最小。

过拟合
为了得到一致假设而使假设变得过度复杂称为过拟合。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

正则化
正则化就是对最小化经验误差函数上加约束，这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。
目的：避免出现过拟合。

结构风险最小化
经验风险最小化 + 正则化项 = 结构风险最小化

奥卡姆剃刀原理
正则化就是对最小化经验误差函数上加约束，这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。

极大似然估计
对概率模型中参数进行估计的一种方法。

最大后验估计
规则化的最大似然估计。

先验概率，后验概率
得到经验前的概率；得到经验后的概率。

交叉验证
-简单交叉验证
随机从样本选出验证数据，其余作为训练数据。
-K折交叉验证
1个子样本作为验证数据，其余用来训练。
-留一验证
每个样本轮流当做验证数据，其余作为训练。

Hoeffding不等式
集中不等式的一种，用于描述某变量是否集中在某个取值附近。
对于两两独立的随机变量X1，X2...Xn，若P(Xi∈[ai,bi]) = 1，则平均期望x = (x1+x2...xn)/n满足：
1.png

训练误差
训练数据集的平均损失。

测试误差
测试数据集的平均损失。

指示函数
指示函数是定义在某集合X上的函数，表示其中有哪些元素属于某一子集A。

几种代价函数
SAD（Sum of Absolute Difference）=SAE（Sum of Absolute Error)即绝对误差和
SATD（Sum of Absolute Transformed Difference）即hadamard变换后再绝对值求和
SSD（Sum of Squared Difference）=SSE（Sum of Squared Error)即差值的平方和
MAD（Mean Absolute Difference）=MAE（Mean Absolute Error)即平均绝对差值
MSD（Mean Squared Difference）=MSE（Mean Squared Error）即平均平方误差

欧式空间
又叫实内积空间。根本性质是它的平面性，球面就是非欧空间。在欧几里得空间内，向量操作主要有两种，平移和旋转。

希尔伯特空间
完备的内积空间。元素为函数，欧几里得空间可以理解为希尔伯特空间的特殊情形。

拉格朗日函数，拉格朗日乘子
将一个有n 个变量与k 个约束条件的最优化问题转换为一个有n + k个变量的方程组的极值问题，其变量不受任何约束。对每个变量求偏倒数，联立求极值。其中lambda为拉格朗日乘子。

范数
范数，是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域，范函是一个函数，其为矢量空间内的所有矢量赋予非零的正长度或大小。半范数反而可以为非零的矢量赋予零长度。
举一个简单的例子，在二维的欧氏几何空间 R就可定义欧氏范数。在这个矢量空间中的元素常常在笛卡儿坐标系统中被画成一个从原点出发的带有箭头的有向线段。每一个矢量的欧氏范数就是有向线段的长度。

内积
矢量到数的映射。

熵
简单来说，熵是表示物质系统状态的一种度量，用它老表征系统的无序程度。熵越大，系统越无序，意味着系统结构和运动的不确定和无规则；反之，，熵越小，系统越有序，意味着具有确定和有规则的运动状态。

条件熵
条件熵描述了在已知第二个随机变量 X 的值的前提下，随机变量 Y 的信息熵还有多少。

最大熵
保留全部的不确定性，将风险降到最小。

核函数
核函数将m维高维空间的内积运算转化为n维低维输入空间的核函数计算，从而巧妙地解决了在高维特征空间中计算的“维数灾难”等问题，从而为在高维特征空间解决复杂的分类或回归问题奠定了理论基础。
就是接受两个低维空间里的向量，能够计算出经过某个变换后在高维空间里的向量内积值。

傅里叶变换
连续傅里叶变换是一个特殊的把一组函数映射为另一组函数的线性算子。

勒贝格积分，黎曼积分
黎曼积分是相当于把山分为每块都是一平方米大的方块，测量每个方块正中的山的高度。每个方块的体积约为1x1x高度，因此山的总体积为所有高度的和。

勒贝格积分则是为山画一张等高線图，每根等高线之间的高度差为一米。每根等高线内含有的岩石土壤的体积约等于该等高线圈起来的面积乘以其厚度。因此总体积等于所有等高线内面积的和。

泛化能力
机器学习算法对新鲜样本的适应能力。
对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该能力称为泛化能力。

朴素贝叶斯
假设条件独立+贝叶斯定理。贝叶斯定理：P (A|B)=P(B|A)*P(A)/P(B) 。

贝叶斯网络
图+贝叶斯定理。

贝叶斯估计
给定训练数据D时，确定假设空间H中的最佳假设

马尔科夫过程
条件概率仅仅与当前状态有关，与过去和未来都是独立的。

条件随机场
判别式概率无向图学习模型，是一种用于标注和切分有序数据的条件概率模型.

隐马尔可夫模型
用来描述一个含有隐含未知参数的马尔可夫过程

最小二乘法
通过最小化误差的平方和寻找数据的最佳函数匹配。
一般结合偏导数求得直线方程的最优解。

伯努利模型
朴素贝叶斯常用模型的一种（还有高斯模型和多项式模型）。在伯努利模型中，每个特征的取值是布尔型的，即true和false。

分类器
- 准确率
抽查正确的数量/被抽查的数量
- 召回率
抽查正确的数量/总数量

学习率
决定梯度下降快慢的参数。

Gram （格拉姆）矩阵
G(x1....x2) = | (x1|x1), (x1|x2) .. (x1|xn)
| (x2|x1), (x2|x2) .. (x2|xn)
| ...
| (xn|x1), (xn|x2) .. (xn|xn)

凸壳
设集合S是n维空间的k个点组成的集合，即S={x1,x2,...xk},xi是n维向量。定义S的凸壳Conv(S)为：
Conv(S)={x=λ1*x1+λ2*x2+...+λk*xk | λ1+λ2+ . . .+λk=1}

LP距离，欧氏距离，Minkowski距离，曼哈顿距离
LP距离：在由p次可积函数组成的空间中两点的距离。
欧氏距离：距离就是两点之间的直线距离（以下简称欧氏距离）。欧氏距离中各特征参数是等权的。
闽科夫斯基距离：两点在4维（闽科夫斯基的3+1空间）空间下的距离。
曼哈顿距离：两点在东西和南北方向的距离差的总和。即d（i，j）=|xi-xj|+|yi-yj|

拉普拉斯平滑
就是假设每个观察值都已经出现过一次。

信息增益
等同于熵。即某变量变化的可能性的多少。

基尼指数
收入平均分配程度的指数。

逻辑斯蒂函数
参数概率值的单调关系为S形状的函数曲线。

对偶问题
每一个线性规划问题(称为原始问题)都有一个与它对应的对偶线性规划问题。

Jensen不等式
描述了积分的凸函数值和凸函数的积分值间的关系。
对于凸函数 f(x)，x1,x2...,xn是函数f(x)在区间(a,b)内任意n个点：
f([x1+x2+...+xn]/n) >= [f(x1)+f(x2)+...+f(xn)]/n
对于凹函数,
f([x1+x2+...+xn]/n) <= [f(x1)+f(x2)+...+f(xn)]/n

函数间隔与几何间隔
对于样本点 (xi, yi)和超平面(w,b)的函数间隔为：Yi = yi(w*xi + b), 几何间隔为： Yi = yi(w*xi/||w|| + b/||w||)，即点到超平面的距离。

硬间隔和软间隔
硬间隔：要求所有样本点都满足和分类平面间的距离必须大于某个值。
软间隔：目标函数+松弛变量+惩罚函数

仿射函数
仿射函数即由1阶多项式构成的函数，一般形式为 f (x) = A x + b，这里，A 是一个 m×k 矩阵，x 是一个 k 向量,b是一个m向量，实际上反映了一种从 k 维到 m 维的空间映射关系。

合页损失函数
凸二次规划中，每一项的经验损失函数。

代理损失函数
用一个高阶可微的损失函数去接近决策的损失函数。

KKT条件
对于由不等式约束，等式约束和目标函数构成的式子：
L(a, b, x)= f(x) + a*g(x)+b*h(x)

最优值必须满足以下条件：

1. L(a, b, x)对x求导为零；

2. h(x) =0;

3. a*g(x) = 0;

强可学习，弱可学习
强可学习，存在一个多项式算法可以学习，并且准确率很高。
弱可学习，存在一个多项式算法可以学习，但准确率略高于随机猜测。