当前位置：首页 > news >正文

无监督学习与有监督学习的本质区别是什么_监督学习 vs 无监督学习

news 来源：原创 2024/9/23 3:17:17

大数据 / 人工智能 / 区块链 / 数据库 / 热点

机器学习有三种基本类型：监督学习、无监督学习和强化学习。强化学习遵循的模式与前两者不同，因此本文不作讨论。中兴数据智能为您翻译如下。

选自 Algorithmia

数智君 | 翻译

监督学习

机器学习最常见、最典型的形式是监督学习。监督学习之所以令人兴奋，是因为它与人类的实际学习方式相似。在有监督任务中，我们向计算机提供了一组名为训练集的标注好的数据点(例如，一组患者的心脏和血压监视器的读数，以及他们在过去30天内是否发生过中风的标签)。从这个数据集中，监督机器学习算法可以利用标签来识别中风患者的共性，以及未中风患者的共性。利用在训练集中获得的这种洞察力，该算法可以对一组被称作测试集的未见过、未标注的数据进行处理，并(希望准确地)根据监视器的读数预测新患者是否有可能发生中风。

监督学习概述

监督学习的核心问题是，我们如何最好地设计一个系统，使该系统能够教授算法根据训练集中标注好的例子，来识别数据中有用模式。大多数算法使用一种称为成本或损失函数的方法，来获得算法在标记数据上的执行情况的定量测量。损失函数将训练示例的正确标签和机器学习算法预测的标签作为两个参数，以定量评估算法在标注数据上的表现。在许多方面，这与我们人类的学习方式类似。当我们还是孩子的时候，我们在自己的环境中蹒跚学步，并时常犯错。例如，一个只看过狗却没见过猫的小孩可能会指着猫说“狗狗”。在这些错误发生时，家长或老师会介入并温柔地纠正孩子，孩子会在将来看到一只猫时学会如何给他/她贴上标签。同样地，知道损失值可以让机器学习算法重新计算参数，以便在下一次收到训练数据时生成更好的预测，并产生较低的损失值。重复此过程，直到算法最终建立在无法再改进的最小损耗值上。简而言之，这就是监督学习的工作原理。当然，存在数百种不同的监督学习算法，每个算法都有其自身的特殊性，但在大多数情况下，总体过程大致相同。监督学习领域非常广，包括k最近邻、目标检测卷积神经网络、随机森林、支持向量机、线性和逻辑回归等算法。

无监督学习 无监督学习和监督学习正相反。在无监督学习中，算法试图仅利用未标注的例子来学习数据的一些固有结构。常见的无监督学习任务有聚类和降维。聚类在聚类中，我们尝试将数据点分组为有意义的聚类，使同一聚类中的元素彼此相似，但与其它聚类中的元素不同。聚类对诸如市场细分等任务很有用。例如，假设一个企业拥有关于客户的数据，比如人口特征信息和他们的购买行为。他们可能希望识别某个产品销售情况非常好的细分市场，将其与销售情况差的细分市场区别开。在这种情况下，他们可以使用无监督聚类算法(如k-均值或分层聚类)来识别主力和边缘客户群。 维度缩减使用案例 在降维中，我们在高维度空间中呈现了数据，但最终我们希望将同一数据投影到更低的维度空间，以使其更具解释性。例如，在谷歌设计的自然语言处理方法word2vec中，算法会读取巨大的语料库(大文本量)，并为每个遇到的词创建向量。单纯的表示方法会创建象词汇那么大的向量(数万字)，而word2vec则会创建50到300个维度的向量。它还查看它们的文本上下文中的词，并嵌入向量，使得共享相似上下文的词被给予类似的向量表示。这允许算法捕获由文本传递的抽象含义。 Word2Vec的训练过程，从未标注的原始数据中，创建一个启发式的、标注好的数据集。虽然这仍然是无监督学习，但它同时有一个特殊的名称“半监督学习”，以说明这个算法创造了自己的内部监督类型。实践中常用的另一种降维算法是主成分分析(Principle Components Analysis，PCA)。在PCA中，数据经过了转换，因此它被表示在一个新的坐标系中，坐标轴称为“主成分”。沿主成分投影等同于沿数据中最大方差方向投影，并且，对这些主成分的分析传递了有关数据集的大量信息。 无监督学习的更多示例 其他常见的无监督算法包括奇异值分解(Singular Value Decomposition，SVD)、本地线性嵌入(Locally Linear Embedding)、高斯混合模型(Gaussian Mixture Models)、变分式自动编码器(Variational Autoencoders)和生成对抗网络( Generative Adversarial Networks ，GAN)。许多无监督学习算法尝试以某种方式模拟人类创造力，这些算法的应用很广泛，从Netflix和Spotify等公司采用的推荐系统，到Nvidia等公司为各种应用生成艺术和3D模型的系统。 原文链接：

https://algorithmia.com/blog/types-of-machine-learning-supervised-and-unsupervised

* 本文为中兴数据智能翻译文章，转载请注明出处。