当前位置: 首页 > news >正文

无监督学习与有监督学习的本质区别是什么_监督学习 vs 无监督学习

8e5c288c74c9db8af5b552c5b6ee4e4c.png 大数据 / 人工智能 / 区块链 / 数据库 / 热点 6b2461f24ed3917dde4bc1bc14c725c4.png 机器学习有三种基本类型:监督学习、无监督学习和强化学习。强化学习遵循的模式与前两者不同,因此本文不作讨论。中兴数据智能为您翻译如下。  b591a2e29b4024d345d851b0bf4867a4.png  选自 Algorithmia

数智君 | 翻译

b9ebb0634c14cd5025dcd2f4c4b9c969.png

监督学习

机器学习最常见、最典型的形式是监督学习。监督学习之所以令人兴奋,是因为它与人类的实际学习方式相似。在有监督任务中,我们向计算机提供了一组名为训练集的标注好的数据点(例如,一组患者的心脏和血压监视器的读数,以及他们在过去30天内是否发生过中风的标签)。 从这个数据集中,监督机器学习算法可以利用标签来识别中风患者的共性,以及未中风患者的共性。利用在训练集中获得的这种洞察力,该算法可以对一组被称作测试集的未见过、未标注的数据进行处理,并(希望准确地)根据监视器的读数预测新患者是否有可能发生中风。 

监督学习概述

监督学习的核心问题是,我们如何最好地设计一个系统,使该系统能够教授算法根据训练集中标注好的例子,来识别数据中有用模式。大多数算法使用一种称为成本或损失函数的方法,来获得算法在标记数据上的执行情况的定量测量。损失函数将训练示例的正确标签和机器学习算法预测的标签作为两个参数,以定量评估算法在标注数据上的表现。 在许多方面,这与我们人类的学习方式类似。当我们还是孩子的时候,我们在自己的环境中蹒跚学步,并时常犯错。例如,一个只看过狗却没见过猫的小孩可能会指着猫说“狗狗”。在这些错误发生时,家长或老师会介入并温柔地纠正孩子,孩子会在将来看到一只猫时学会如何给他/她贴上标签。 同样地,知道损失值可以让机器学习算法重新计算参数,以便在下一次收到训练数据时生成更好的预测,并产生较低的损失值。重复此过程,直到算法最终建立在无法再改进的最小损耗值上。 简而言之,这就是监督学习的工作原理。当然,存在数百种不同的监督学习算法,每个算法都有其自身的特殊性,但在大多数情况下,总体过程大致相同。监督学习领域非常广,包括k最近邻、目标检测卷积神经网络、随机森林、支持向量机、线性和逻辑回归等算法。   b9ebb0634c14cd5025dcd2f4c4b9c969.png 无监督学习 无监督学习和监督学习正相反。在无监督学习中,算法试图仅利用未标注的例子来学习数据的一些固有结构。常见的无监督学习任务有聚类和降维。  聚类 在聚类中,我们尝试将数据点分组为有意义的聚类,使同一聚类中的元素彼此相似,但与其它聚类中的元素不同。聚类对诸如市场细分等任务很有用。例如,假设一个企业拥有关于客户的数据,比如人口特征信息和他们的购买行为。他们可能希望识别某个产品销售情况非常好的细分市场,将其与销售情况差的细分市场区别开。在这种情况下,他们可以使用无监督聚类算法(如k-均值或分层聚类)来识别主力和边缘客户群。  维度缩减使用案例 在降维中,我们在高维度空间中呈现了数据,但最终我们希望将同一数据投影到更低的维度空间,以使其更具解释性。例如,在谷歌设计的自然语言处理方法word2vec中,算法会读取巨大的语料库(大文本量),并为每个遇到的词创建向量。 单纯的表示方法会创建象词汇那么大的向量(数万字),而word2vec则会创建50到300个维度的向量。它还查看它们的文本上下文中的词,并嵌入向量,使得共享相似上下文的词被给予类似的向量表示。这允许算法捕获由文本传递的抽象含义。 Word2Vec的训练过程,从未标注的原始数据中,创建一个启发式的、标注好的数据集。虽然这仍然是无监督学习,但它同时有一个特殊的名称“半监督学习”,以说明这个算法创造了自己的内部监督类型。 实践中常用的另一种降维算法是主成分分析(Principle Components Analysis,PCA)。在PCA中,数据经过了转换,因此它被表示在一个新的坐标系中,坐标轴称为“主成分”。沿主成分投影等同于沿数据中最大方差方向投影,并且,对这些主成分的分析传递了有关数据集的大量信息。  无监督学习的更多示例 其他常见的无监督算法包括奇异值分解(Singular Value Decomposition,SVD)、本地线性嵌入(Locally Linear Embedding)、高斯混合模型(Gaussian Mixture Models)、变分式自动编码器(Variational Autoencoders)和生成对抗网络(  Generative Adversarial Networks ,GAN)。许多无监督学习算法尝试以某种方式模拟人类创造力,这些算法的应用很广泛,从Netflix和Spotify等公司采用的推荐系统,到Nvidia等公司为各种应用生成艺术和3D模型的系统。 原文链接:

https://algorithmia.com/blog/types-of-machine-learning-supervised-and-unsupervised

* 本文为中兴数据智能翻译文章,转载请注明出处。

9d064010c504d55bcd91ceda8a4902ed.png

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • wxpython使用_python图形界面开发之wxPython树控件使用方法详解
  • 无线开发,你凭什么吸引VC?
  • python画玫瑰图_python之windrose风向玫瑰图的用法-Go语言中文社区
  • 61A与PC的RS232通信,接收以中断方式
  • python怎么除去列表l中所有是x的元素_清华毕业大佬整理的Python基础22大知识点,自备热水,这货有点干...
  • 拥有至高无上的特权 使用system账户
  • python爬取js_python如何爬取js生成的数据?
  • 深入理解数据库并发控制原理
  • python怎么用for循环_python -for循环
  • AJAX的WEB开发工具
  • python入门知识图谱整理_零基础入门知识图谱技术到应用开发实战
  • Sun培训开放日
  • python多页网站目录_2:url有规律的多页面爬取
  • 淡水河边的夕阳-台北印象
  • python常问问题_python常见问题
  • [nginx文档翻译系列] 控制nginx
  • 【css3】浏览器内核及其兼容性
  • Java知识点总结(JDBC-连接步骤及CRUD)
  • Logstash 参考指南(目录)
  • Mithril.js 入门介绍
  • php的插入排序,通过双层for循环
  • React-生命周期杂记
  • Selenium实战教程系列(二)---元素定位
  • Twitter赢在开放,三年创造奇迹
  • vue-router 实现分析
  • 阿里中间件开源组件:Sentinel 0.2.0正式发布
  • 电商搜索引擎的架构设计和性能优化
  • 翻译 | 老司机带你秒懂内存管理 - 第一部(共三部)
  • 搞机器学习要哪些技能
  • 前端技术周刊 2019-01-14:客户端存储
  • 三栏布局总结
  • HanLP分词命名实体提取详解
  • 新年再起“裁员潮”,“钢铁侠”马斯克要一举裁掉SpaceX 600余名员工 ...
  • 资深实践篇 | 基于Kubernetes 1.61的Kubernetes Scheduler 调度详解 ...
  • ​ 无限可能性的探索:Amazon Lightsail轻量应用服务器引领数字化时代创新发展
  • ​Redis 实现计数器和限速器的
  • ​虚拟化系列介绍(十)
  • #AngularJS#$sce.trustAsResourceUrl
  • #if #elif #endif
  • #php的pecl工具#
  • ${ }的特别功能
  • (02)Cartographer源码无死角解析-(03) 新数据运行与地图保存、加载地图启动仅定位模式
  • (2)空速传感器
  • (22)C#传智:复习,多态虚方法抽象类接口,静态类,String与StringBuilder,集合泛型List与Dictionary,文件类,结构与类的区别
  • (C++)栈的链式存储结构(出栈、入栈、判空、遍历、销毁)(数据结构与算法)
  • (PySpark)RDD实验实战——求商品销量排行
  • (独孤九剑)--文件系统
  • (二)fiber的基本认识
  • (二)正点原子I.MX6ULL u-boot移植
  • (二十一)devops持续集成开发——使用jenkins的Docker Pipeline插件完成docker项目的pipeline流水线发布
  • (附源码)php投票系统 毕业设计 121500
  • (十)T检验-第一部分
  • (一)【Jmeter】JDK及Jmeter的安装部署及简单配置
  • (已解决)什么是vue导航守卫
  • (转) Face-Resources