机器学习笔记之策略
监督学习:策略
误差:
误差是独立并且具有相同的分布,并且服从均值为0方差为的高斯分布。
损失函数:度量模型一次预测的好坏,记作
风险函数:度量平均意义下模型预测的好坏
经验风险:模型关于训练集的平均损失
其中,训练集
四种常见的损失函数
- 0-1损失函数(分类问题)
- 平方损失函数(回归问题)
- 绝对损失函数(回归问题)
- 对数损失函数(概率模型)
经验风险最小化:
结构风险:
结构风险最小化:
根据大数定律,当样本容量N->正无穷时,经验风险趋近于风险函数
结构风险在经验风险的基础上加了正则项(针对模型的复杂度),平衡了经验风险和模型的复杂度
选取目标函数:经验风险函数或者结构风险函数
最优模型:不存在显示解析解的情况下,可以使用梯度下降的数值运算方法
无监督学习三要素:
- 模型:函数,条件概率分布或条件概率分布
- 策略:优化目标函数
- 算法:通常是迭代算法
第四节:模型的评估与选择
目录
监督学习:策略
无监督学习三要素:
第四节:模型的评估与选择
第五节 正则化和交叉验证
正则化:实现结构风险最小化策略
交叉验证
第六节 泛化能力
训练误差与测试误差
1. 训练误差
- 学习到的模型:
- 训练集(Training Set):
- 训练误差(Training Error):
2. 测试误差
- 学习到的模型:
- 训练集(Test Set):
- 训练误差(Test Error):
误差率(Error Rate):
准确率(Accuracy):
注:
M次多项式:
经验风险:
带入多项式:
通过最小二乘法求解参数
过拟合(Over-Fitting):学习所的模型包含参数过多,出现对已知数据预测很好,但对位置数据预测预测很差的现象。
第五节 正则化和交叉验证
正则化:实现结构风险最小化策略
- 一般形式:
- 经验风险:
- 正则化项:
其中,权衡经验风险和模型复杂度
最常见的两种正则化项
- 范数:
其中,
使某些参数为零,可以起到特征筛选的作用,稀疏模型,非零参数个数很少
- 范数:
其中,
参数可以无限接近于零,使得模型越来越简单,防止过拟合。
奥卡姆剃刀原理
在模型选择时,选择所有可能模型中,能很好解释已知数据并且十分简单的模型。
交叉验证
数据充足的情况下:
- 训练集(Training Set):用以训练模型
- 验证集(Validation Set):用以选择模型
- 测试集(Test Set):用以最终对学习方法的评估
数据不充足的情况下:
- 简单交叉验证:随机将数据分为两部分,即训练集和测试集
- S折交叉验证:随机将数据分为S个互不相交、大小相同的子集,其中以S-1个子集作为训练集,余下的子集作为测试集
- 留一交叉验证:S折交叉验证的特殊情形,S=N,在数据非常缺乏的情况下使用
第六节 泛化能力
泛化误差
若所学习到的模型是,那么这个模型对未知数据预测的误差即为泛化误差(Generalization Error):
损失函数的期望值,所求的积分是在全样本上进行的
泛化误差上界
泛化误差上界(Generalization Error Bound):指泛化误差的概率上界。两种学习方法的优劣,通常通过他们的泛化误差上界进行比较。
性质:
- 样本容量的函数:当样本容量增加时,泛化上界趋于0
- 假设空间容量的函数:假设空间容量越大,模型就越难学,泛化误差上界就越大
假设空间:所有可能的模型
例子:
二分类问题
- 训练数据集:
其中,T是从联合概率分布P(X,Y)独立同分布产生的,
- 假设空间:
其中,d是函数个数
假设,损失函数为0-1损失,
期望风险:
经验风险:
经验风险最小化:
的泛化能力:
https://www.cnblogs.com/sybil-hxl/p/13653932.html