机器学习第二课:神经网络结构和专业术语
本文背景: 主要介绍在机器学习过程会遇到的一些专业术语以及一些网络的基础结构。
一、常见网络结构
一层网络为线性,二层至多层为非线性;
二、相关专业术语简介
-
数据集
需要三组数据集
训练算法的训练集; 跟踪算法学习效果的验证集; 用于产生最终结果的测试集。
-
混淆矩阵
用于检测结果是否良好的分类;
-
精度指标
-
损失矩阵
指定类被分为其他类的风险;
-
数据与概率的转换
贝叶斯法则处理概率计算,明确训练数据中最可能的类是什么,将所有类的最终结果考虑在内的方法称为贝叶斯最优分类
。
-
权衡偏差与方差
偏差-方差困境:
更复杂的模型不一定能产生更好的结果。模型糟糕可能有两个方面的原因:第一:模型不准确而与数据不匹配;----> "偏差" 第二:模型不精确而有极大的不稳定性;------> "方差"
-
神经网络
模式识别:
将一系列的神经元放置在一起,假设数据存在模型
,通过神经元的一些已知样例,我们希望它能够发现这种模型,并且正确预测其他样例,则称为"模式识别"。感知器:
为了让神经网络能够学习,我们需要改变神经元的权重和阈值,进而得到正确的而结果,则称为"感知器"。 -
Hebb法则
突触连接强度的变化和两个相连神经元激活得相关性成比例,如果两个神经元始终同时激活,那么他们之间连接的强度会变大,反之,如果两个神经元从来不同时激活,那么他们之间的连接会消失。也被成为长时效增强法则和神经可塑性。
-
权重更新规则
Wij – sigma(yi – ti)*xi ===> Wij
sigma: 学习效率,过大会造成网络不稳定,过小会造成学习时间久; Wij: 为权重; yi : 为神经元的预测值输出; ti: 为神经元的已经目标值;
-
感知器的学习算法
分为两部分: 根据已知数据进行训练, 然后对新的数据进行判断;
-
感知器收敛定理
感知器以1/γ*γ为界,其中γ为分离超平面与最接近的数据点之间的距离。
只要把数据映射到正确的维度空间,那么总是可以用一个线性函数来把两个类别区分开,为了较有效率的解决这个问题,有一整类的方法称为核分类器,也是支持向量机的基础。
-
线性可分性
一条直线将神经元激活的和不激活的神经元划分开来,这条直线称为决策边界,也称为判别函数,在三维空间该决策边界为平面,更高维则为超平面。
-
数据项预处理
特征选择,我们每次去掉一个不同的特征,然后试着在所得的输入子集上训练
分类器,看结果是否有所提高。如果去掉某一个特征能使得结果有所改进,那么久彻底去掉他,在尝试能否去掉其他的特征,这是一个测试输出与每一个特征的相关性的过于简单方法。
-
线性回归
回归问题:
是用一条线去你和数据。分类问题:
是寻找一条线来划分不同类别。
三、 维度简约 (降维
)
-
降维的三种算法
特征选择法:
仔细查找可见的并可以利用的特征而无论他们是否有用,把它与输出变量关联起来. 主要有以下几种方法:主成分分析 (PCA)、 基于核的PCA算法、因素分析、 独立成分分析、
特征推导法:
通过应用数据迁移,即通过可以用矩阵来描述的平移和旋转来改变图标的坐标系,从而用旧的特征推导出新的特征.聚类法:
把相似的数据点放一起,看能不能有更少的特征. -
局部线性嵌入算法
-
多维标度算法
-
ISOMAP算法
四、 概率学习
-
信息准则
通过确定一些方法从而期待这个训练过的模型可以表现的更好。
艾卡信息准则 + 贝叶斯信息准则
-->都是奥卡姆剃刀
的一种形式。 -
奥卡姆剃刀
如无必要,勿增实体,即简单有效原理。
-
核平滑法
权重函数根据输入的距离来决定每一个数据点有多少权重,当核离输入点越远时,权重会光滑的减少为0。
五、优化与搜索
-
共轭梯度
-
搜索的三种基本方法
穷举法, 贪婪搜索, 爬山法;模拟退火算法
六、 进化学习
- 遗传算法
七、 强化学习
-
马尔科夫决策过程
-
O-learning 算法
-
Sarsa 算法
八、委员会决策: 集成学习
-
AdaBoost (自适应提升)
-
随机森林
-
基本的随机森林训练算法
-
专家混合算法
九、无监督学习
-
k-means 算法
-
在线k-means 算法
-
自组织特征映射算法
参考链接
[1]. ML基本术语概念