当前位置：首页 > news >正文

深度学习入门（二）：常见概念（重点：泛化误差）

news 来源：原创 2024/9/18 11:02:47

租卡

作者发现，只要和喜欢AI的人在一起，他们绝对会在某天说到“卡”这个字，显而易见，“租卡”指的是租用具有强大计算能力的GPU（图形处理单元），例如NVIDIA的A100，来执行机器学习或深度学习任务。这种做法非常普遍，特别是在需要大量计算资源但又不想或无法在本地环境进行大规模硬件投资的情况下。

为什么要租用GPU服务器？

成本效率：对于需要短期大量计算资源的项目，租用GPU比购买整个硬件成本效益更高。这允许用户按需支付，使用完毕后无需担心设备折旧或维护。
环境配置：云服务提供商通常提供预配置的环境，这包括安装了必需软件和库的操作系统和框架。这省去了自己配置和维护环境的复杂性和时间。
即时可用：云基础设施可以迅速提供所需的计算资源，用户几乎可以立即开始训练模型，而不是等待硬件的采购和配置。
灵活性和扩展性：根据项目需求的变化，用户可以随时增加或减少计算资源，这为各种规模的项目提供了极大的灵活性。

具体平台介绍

AutoDL、InsCoder和炼丹侠：这些平台提供的是算力市场服务，即用户可以根据自己的需要租用不同性能的GPU资源。例如，AutoDL提供自动化的深度学习训练环境，用户可以通过这种服务简化训练流程，更专注于模型的设计和优化。
NVIDIA A100 GPU：这是NVIDIA推出的高性能GPU，专为深度学习、机器学习和高性能计算任务设计。它具有强大的处理能力，非常适合需要大规模并行计算的任务。

机器学习分类

1. 监督学习

监督学习是最常见的机器学习类型之一，其中模型通过已标注的训练数据学习来预测输出。在训练数据中，每个样本都有一个与之相关的标签或输出值。

应用场景：
- 分类：如猫狗识别，邮件垃圾分类等。
- 回归：如房价预测，股票价格预测等。

2. 半监督学习

半监督学习介于监督学习和非监督学习之间，使用的训练数据包含一部分标注数据和大量未标注数据。这种方法特别适用于标注成本高昂或标注难以获得的场景。

应用场景：
- 图像分类：在只有少量标记样本时进行的图像分类。
- 文本分类：利用大量未标注文本和少量标注文本进行分类。

3. 迁移学习

迁移学习指的是将从一个任务学到的知识应用到另一个相关但不同的任务上。这种学习方式可以显著提高学习效率和性能，特别是在目标任务的数据较少时。

应用场景：
- 模型预训练：如使用在大规模数据集上预训练的模型来解决数据量较少的特定任务。
- 跨领域应用：如在猫狗识别的基础上迁移到其他动物的识别。

4. 非监督学习

非监督学习中，训练数据没有标签，模型需要自行发现数据中的结构和模式。非监督学习主要用于聚类、关联规则学习等任务。

应用场景：
- 聚类：如客户细分，文档聚类等。
- 降维：如使用PCA降低数据维度，便于数据可视化或进一步处理。

5. 结构化学习

结构化学习（有时也称为结构化输出学习）是监督学习的一个分支，关注于预测结构化的输出数据，如序列、树、图等。

应用场景：
- 自然语言处理：如句法分析，命名实体识别等。
- 图像处理：如图像分割，对象检测等。

关联规则学习

关联分析是一种在大规模数据集中寻找变量间有趣关系（如频繁出现的模式、关联、相关性或结构）的技术。这种分析在零售和购物篮分析中特别有用（比如2023年数模国赛C题），常用于发现不同商品之间的购买关系，从而用于市场营销和库存管理等策略。使用无监督学习来进行关联分析通常涉及以下步骤：

1. 数据准备

首先，需要收集并准备数据。在购物篮分析的情况下，数据通常是交易数据，每个交易记录包含一个交易编号和该交易中购买的所有商品。这些数据通常表示为一系列二元向量，其中每个向量代表一个交易，向量中的每个元素表示一个商品是否在该交易中被购买（1表示“是”，0表示“否”）。

2. 使用关联规则学习算法

关联规则学习是一种在数据集中发现变量之间有趣关系的流行方法。最著名的算法是Apriori算法，其它如FP-Growth算法也非常流行。

Apriori算法

Apriori算法基于频繁项集生成关联规则，操作步骤如下：

生成频繁项集：首先识别出频繁出现的单个项（商品），然后逐渐扩展到包含更多项的集合，但只保留那些满足最小支持度（support）阈值的项集。支持度定义为项集在所有交易中出现的频率。
规则生成：从频繁项集中生成关联规则。这些规则表示为“如果A，则B”（A->B），其中A和B是商品集合。每条规则都有对应的置信度（confidence）和提升度（lift）。置信度是在包含A的交易中同时也包含B的条件概率，而提升度则是规则置信度与B在数据集中的普遍性（即B的支持度）的比值。

FP-Growth算法

FP-Growth算法比Apriori效率更高，因为它只需要两次扫描数据库：第一次计算项频率并创建FP树（一种压缩数据结构），第二次使用FP树来挖掘频繁项集。这个方法避免了Apriori算法中生成大量候选集的需要。

3. 分析和应用规则

生成的规则可以用于识别产品间的关联，例如，如果发现“面包和牛奶”是频繁一起购买的，且具有高置信度和提升度，商家可能会将这两种商品放置在相邻位置以增加交叉销售。

4. 调优和实验

在实际应用中，关联规则的生成可能需要调整参数（如支持度和置信度的阈值），以优化结果并确保规则的实用性和有效性。实验和调优是实现最佳商业策略的关键部分。

关联分析的实施通常使用无监督学习方法，因为这类任务不依赖于预先标注的输出数据，而是直接从数据集的内在结构和模式中学习。

泛化误差

概念

泛化误差（Generalization Error）是指一个模型在新的、未见过的数据上的表现能力（衡量泛化能力）。理想的机器学习模型应该不仅在训练数据集上表现良好，更重要的是在未见过的测试数据集上也能保持较高的性能。泛化误差可以分解为三个主要部分：偏差、方差和不可约误差（噪声）。

偏差：描述了模型的预测值的期望与真实数据之间的偏离程度，反映了模型的拟合能力。高偏差通常意味着模型欠拟合（underfitting），即模型过于简单，不能捕捉数据的复杂性和规律。偏差越小，拟合能力越强。
方差：描述了模型对给定数据的小变动是如何影响学习算法的稳定性。高方差通常意味着模型过拟合（overfitting），即模型过于复杂，对训练数据中的随机波动或噪声过度敏感。方差越大，波动越大，敏感性越强。
噪声：是由于数据本身的随机性或内在的不可预测性造成的误差，它定义了最佳模型所能达到的性能上限。

模型复杂度与方差的关系

模型复杂度越高，模型的方差通常也越大。这是因为：

模型的灵活性：更复杂的模型（如高度非线性的模型、拥有大量参数的深度学习模型）通常更灵活，能够更好地适应训练数据中的各种特征和模式。虽然这种灵活性可以帮助模型在训练集上获得更低的误差，但同时也使模型更容易受到训练数据中随机波动（即噪声）的影响，从而导致在新数据上的表现不稳定。
对训练数据的敏感性：高复杂度的模型更倾向于捕捉训练数据中的每一个细节和异常（包括噪声），因此即使是训练数据中非常小的变化也可能导致模型输出的显著变动。因此，当新的数据出现时，这种模型可能表现出很大的波动，即方差高。
过拟合：模型复杂度的增加通常伴随着过拟合的风险增加，过拟合的模型在训练数据上可能表现出色，但在未见过的测试数据上则表现不佳。这是因为模型学习到了训练数据中的“噪声”而非潜在的、普遍适用的数据生成规律。

理解模型的泛化能力需要权衡偏差与方差，找到两者的最佳平衡点。这通常通过选择适当的模型复杂度、使用正则化技术、交叉验证等方法来实现。理想的模型应该具有足够的复杂度来捕捉数据中的真实规律（低偏差），同时又足够的简单，以避免对训练数据的随机波动作出过度反应（低方差）。

控制模型复杂性

为了防止过拟合并改善模型的泛化能力，通常采用以下策略：

正则化：
- 引入正则化项（如L1、L2正则化）可以惩罚过大的模型参数，促使学习算法偏向于使用更小的参数值，从而增加模型的稳定性和泛化能力。
- L1正则化倾向于产生稀疏的权重矩阵，从而实现特征选择；L2正则化则倾向于均匀地减小所有参数值，从而控制模型复杂度。
交叉验证（主要是为了发现，而不在于快速解决）：使用交叉验证来评估模型的泛化能力，并选择最佳的模型复杂度。通过观察模型在不同的测试集上的表现，可以更准确地估计模型的泛化误差。如果一个模型在所有的训练子集上表现都很好，但在验证子集上表现不佳，这是过拟合的一个明显信号。
简化模型：在不牺牲必要性能的前提下，选择更简单的模型或减少使用的特征数量。这有助于减轻过拟合的问题，尤其是在数据量有限的情况下。