当前位置：首页 > news >正文

这样描述机器学习太实在

news 来源：原创 2024/4/29 13:50:24

当你募集资金的时候，这属于人工智能

当你在招聘时，这属于机器学习

当你执行时，这属于线性回归

调试时，这属于printf()

机器学习与人工智能、深度学习等关系

机器学习一词往往和人工智能与深度学习混用，从这三者提出的时间来看，人工智能（AI，Artificial Intelligence）诞生于二十世纪五十年代，机器学习(ML, Machine Learning)诞生于二十世纪八十年代，深度学习（DL, Deep Learning）概念则是从近些年开始的。

关系

以上包含关系也有不同的描述，即认为深度学习部分在机器学习范畴之外，此处不做过多深究。人工智能一词出现在1956年的达特茅斯会议，人工智能先驱的梦想是建造具有人类智能体的软硬件系统，该系统具有人类的智能特征，此为“通用人工智能”的概念。这样的人工智能的梦想曾在影视作品中大放异彩，如《星球大战》中的C-3PO机器人具有人类理性和思考的高级认知能力。不过，至今为止，这种高层次的推理和思想仍然难以实现，退而求其次，目前我们日常能接触到的都属于“狭义的人工智能”，如上所述的人脸识别等，这些都是落地的AI实例。

在人工智能这一宏大愿景的定义下，我们把机器学习描述为实现人工智能的一种方式方法。机器学习是基于已有数据、知识或经验自动识别有意义的模式。

在这样的描述中，也将机器学习和传统软件/普通程序区分开来：机器学习过程中，并没有人为指示机器学习系统如何对未知环境做出决策或预测，这一过程由机器学习中的算法从数据中学得，做出决策的主体是机器学习算法，并且决策或预测是非确定性的结果，一般以概率的形式输出，比如80%的可能性是晴天。相反，常规的应用程序需要软件工程师一句句编写代码，即特定的指令集，指示程序/软件做出确定性的行为，比如输出0或1表示注册成功或失败，做出决策的主体实际是人，程序只是付诸动作的工具。正因为此，机器学习可归属于间接编程，与之对应的是常规编程。

深度学习使用多层（一般大于5层）人工神经网络学习数据内部的复杂关系。人工神经网络是生物科学、认知科学等和人工智能结合的产物，在早期的机器学习中就已开始应用，其初衷是在计算机中模拟人类大脑神经元的工作模式。

人类大脑的神经元在百亿级别，通过突触实现彼此交流，从计算的角度看属于计算密集型，这限制了复杂人工神经网络在实践中的应用。随着计算能力的大幅提升，直到2000年后，在多伦多大学的Geoffrey Hinton领导的研究小组不懈研究下，才将深度学习多层的网络结构在现代超级计算机中验证出来，因为Geoffrey Hinton在深度学习领域做出的巨大贡献，他们也被称为深度学习的鼻祖，深度学习三巨头之一（另外两位是Yoshua Bengio和Yann LeCun），三人因此荣获2018年图灵奖。AlphaGo正是深度学习向世界打得最响亮的一枪。至此，我们可将深度学习看作是实现机器学习的一种技术，属于机器学习的子范畴。相比深度学习，过去的那些只有单层或少层的神经网络则称为浅层学习。

对于机器学习的描述，也有专家调侃地发声，以表明某种现象：

当你募集资金的时候，这属于人工智能；
当你在招聘时，这属于机器学习；
当你执行时，这属于线性回归；
调试时，这属于printf()。

机器学习与传统统计密不可分，两者都是从数据中得出结论。统计学中首先提出数据空间假设（比如数据分布正态）下的参数化求解，同时关心样本量增大至无穷时统计估计的收敛问题；机器学习则尽可能少的对数据分布做出假设，算法作为关键，学习接近数据生成的模型，同时关注有限样本下学习的性能（算法和模型表现）

机器学习与大数据也常常出现在同一场合。当某人提到大数据时，需要看此人背景才能明确其所述大数据的含义。

当此人是大数据相关技术人员，以技术角度描述大数据时，大数据往往指的是数据的存储和分析处理计算的技术，其难点并不在于具体的算法，而在于存储、计算的分布式的系统层级的问题。

这也能从行业中看到针对大量的数据建模往往使用相对简单的算法。相反，对于少量数据，得来珍贵，往往会做大量、精细的分析和处理。我们很难从某一天的天气推测另一天的天气状况，除非拥有“夜观天象”的本领，但如果有大量的天气历史记录数据，使用常规的算法推测另一天的天气状况往往会有更大的把握。从某种意义上说，“大数据不难，小数据才难”有一定的道理。

当此人站在业务的角度出发，大数据的本质往往指的是数据，基于数据的分析挖掘、运营，产生业务价值的方法和策略。

当外行人说大数据时，往往指的是各种数据、海量数据、安全与隐私等更为直观的概念。

机器学习与数据科学（Data Science）关系也非常紧密。笔者看来，数据科学从数据的角度概括了数据有关的活动，涉及的范围比机器学习更广。数据工程、数据可视化、数据集成与提取、转换和加载（ETL，Extract Transform Load）、商业智能（BI, Business Intelligence）、数据产品、大数据等都可以归类到数据科学范畴，是数据里面的“全栈”。

机器学习类别与范式

关于机器学习的定义，下面来自Tom Michael Mitchell的这段话被广泛地引用：“A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E”。（译为：“对于某类任务T和性能度量P，如果一个计算机程序在T上其性能P随着经验E而自我完善，那么我们称这个计算机程序从经验E中学习”）

该定义没有突出人类进行机器学习的目的——决策，即，机器学习是计算机根据数据做出或改进预测/行为的方法。但总体来说，机器学习的任务就是围绕TPE展开的。

经验E

经验一词较为抽象，经验可以是文字、图形，也可以是当面交流的对话等，属于知识的范畴。

对于机器学习而言，经验必须表示为计算机可以处理的形式——数据，或者更为计算机底层的说法是：计算机可直接计算的数值，这也是最终进入算法中的形式（向量运算、矩阵运算等）。正因为此，机器学习中涉及大量的数据处理活动：将文字/字符编码为数值、将图像进行数值化处理等，然后进入到算法学习。机器学习中所有数据处理的本质可归结为两条：适合计算机处理和便于机器学习算法学习。

当然，除了上述将经验表示为数据的形式外，经验自然还包括人们对问题的看法和见解，它们指导机器学习的过程，包括如何填充空值、如何特征选择、如何选择算法、如何调整算法参数、如何选择和评判最终模型，这是目前机器学习的现状——需要大量人力的参与，机器本身智能有限（狭义的人工智能）。

总之，机器学习E的本质是进行知识和经验的表示和表达，进而在计算机世界里传承。

最后需要注意，经验有效的前提条件是：假设我们获得的数据来自真实世界的缩影，同时假设训练数据和未来/未见的数据在相同的特征空间里且具有相同、相近或相关的分布(独立同分布)。即现有的数据/经验在某种程度下具有普适性，可应用在未来或类似的场景，则经验有用。经验/知识的质量（正确性、完整性）将直接影响学习的结果。

任务T

我们根据数据是否带标签列，引出新的概念：有监督学习、无监督学习、半监督学习、强化学习(主动学习/弱监督学习)

有监督学习（Supervised learning）指的是数据集中带标签列，即公式中的y，由标签列“监督”学习的过程，数据集中明确表明了什么样的X会有什么样的y。学习的成果是将数据拟合成函数或逼近的函数
无监督学习（Unsupervised learning）指的是数据集中不带标签（没有标签的原因可能是人工标注成本太高或由于缺少先验知识无法标注）。无监督学习的目的往往是发现某种关系，关联规则，没有显式定义目标函数。比如聚类，聚类的目的是把相似的东西聚集在一起，而并不关心聚集的类别是什么，常用算法有K-means、K-medoids等
半监督学习（Semi-Supervised learning）顾名思义，数据集中部分有标签，部分无标签。这种现象往往是数据获取现实的无奈。为了尽可能多的利用数据，我们需要将部分无标签的数据由某种方法打上伪标签，然后进行学习。在风控领域，信用风险模型中的拒绝演绎就属于这种情况，感兴趣的读者可以参考相关的资料
强化学习（Reinforcement Learning）强化学习中的智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，具有主动学习的特点，目标是使智能体获得最大的奖赏（预期利益）。强化学习中没有明确的y，取而代之的是奖励信号（奖赏）。这种激励信号没有像有监督学习中标签那样直接和确切，属于弱监督的学习问题。强化学习常和深度学习一起出现，比如机器人智能对话、智能问答、自动驾驶等。

进一步，在有监督的学习中，根据y变量连续或离散的属性可将机器学习任务分为分类和回归。

当y变量是连续变量时为回归问题，比如预测房价。

当y变量是离散型变量时对应分类问题，比如预测好与坏。

更进一步，根据y取值的唯一值个数不同，可分为二分类和多分类。

根据分类问题的y是否有序，进一步可分为排序问题和非排序问题（分类）。

实际上，机器学习任务从不同的维度有不同且丰富的分类方式，足以扰乱初学者的视线。为此，我们再从另外的视角对机器学习任务进行梳理。