当前位置：首页 > news >正文

全球首本 | 系统介绍深度学习计算机视觉方法

news 来源：原创 2024/4/28 10:34:20

戴维斯的这本书是计算机视觉领域的重要书籍之一，数年间屡次推陈出新，现在已经更新到了第5版。但本书值得肯定的地方远不止于此—它不仅反映了作者无私奉献和锲而不舍的精神，也反映了这本书自身的成就。

本书第1版的构思和形成经历了约11年的时间，书中的基本素材来源于戴维斯在为伦敦大学本科生的研究生课程编写的讲义，也有他为各种工业课程和研讨会准备的资料，与此同时，加上他自己的指导博士和博士后研究人员时获得的经验，最终于形成了他对这个领域的看法，1990年第1版推出后，在解决机器视觉中的实际问题上提供了很大的价值。30年来本书一直在不断地更新、修改、补充，到形成今天的第5版，可以说是当今计算机视觉领域在系统性、先进性、完整性方面最为突出的一本教材。

计算机视觉：原理、算法、应用及学习（原书第5版）

作者：[英] E. R. 戴维斯（E. R. Davies）

译者：袁春、刘婧

书号：978-7-111-66479-6

专家推荐：

计算机视觉在其短暂的历史中显示出惊人的发展速度。这部分由于技术的发展：如今计算机速度快得多，内存也比戴维斯开始做研究时便宜得多。科技领域已经取得了许多成就，不断推动着行业的发展。所有这些都会影响教材的内容。过去也曾有过一些优秀的教材，遗憾的是，它们未能在市场上长期留存。本书没有犯同样的错误，因为作者紧跟该领域的发展，不断对书籍内容进行升级和完善。

我们可以期待，在未来，自动化计算机视觉系统将使我们的生活变得更加轻松，同时也更加丰富。计算机视觉在食品工业和机器人汽车领域已经有了许多应用，我们很快就能在生活中看到这些产品。在医学领域，图像分析技术也在不断进步，计算机视觉技术可以通过自动化手段帮助诊断和治疗。指纹识别为手机用户带来了便利，而面部识别技术将进一步改善用户体验。这些都是由计算机、计算机视觉和人工智能应用的进步而推动的。

读者将会看到，计算机视觉确实是一个令人兴奋的领域。本书设法涵盖技术的许多方面，从人类视觉到需要电子硬件、计算机实现和大量计算机软件的机器学习。在新版中，戴维斯将继续非常详细地讲述这些内容。

我还记得1990年本书推出了第1版，将理论、实现和算法以独特且实用的方式结合在一起。现在，我很高兴看到第5版依然保持着这种独特的方法。学过之前版本的学生非常欣赏这种方法，他们希望计算机视觉入门阶段的学习能够无障碍地进行。随着时间的推移，新版本的篇幅肯定会增加—书籍通常如此。本书也是这样的，那些增加的内容正是许多研究人员不断改进、完善和发展新技术的成果。

这一版的一个重大变化是包含关于深度学习的内容。事实上，这是计算机视觉和模式识别领域的重大变化。计算能力的提高和内存成本的降低意味着技术可能会变得更加复杂，这种复杂性有助于 “大数据”分析的应用。我们不能忽视深度学习和卷积神经网络的影响力：只需仔细阅读顶级国际会议的计划，就能感受到它们对研究方向的革命性影响。尽管这些技术仍处于早期发展阶段，但是给出一些指导性资料对读者是有帮助的。在任何人工智能系统中，性能的本质总是容易受到质疑，回答这个问题的方法之一是更深入地考虑体系结构及其基础要素。这也是教科书的功能—对相关领域的研究和实践做推理式阐述，同时使知识体系得到升华。在这个版本中加入深度学习是一个勇敢的举动，但这是必要的。

戴维斯本人有什么变化呢？在牛津大学获得固体物理学博士学位后，他开发了一种新的核共振敏感方法，称为“Davies-ENDOR”（电子和核双共振），避免了其前身“Mims-ENDOR”的盲点。1970年，他被任命为皇家霍洛威学院的讲师。他发表了一系列关于模式识别及其应用的论文，并编著了几本书籍，这些成果使他获得了众多殊荣，包括首席资格、理学博士学位，以及当选英国机器视觉协会（BMVA）的杰出会士。他为BMVA贡献颇丰，最近编辑了BMVA通讯。显然，这些工作经历对于写作本书帮助很大。

我期待着将第5版自豪地摆在书架上，同时，第4版也不会“退休”，它会转移到我的学生的书架上。这本书从未躺在那里落灰，因为它是我经常求助的教科书之一，需要随时翻阅以获取信息。与网上的百科资料不同，教科书中的内容组织更加连贯，知识的扩展性也更好。这就是教科书的作用，第5版将继续发挥这一优势。

马克·S. 尼克松于南安普顿大学

译者推荐：

随着近几年人工智能和机器学习技术的迅猛发展，计算机视觉作为其最重要的应用领域，也越来越受到学术界和产业界的广泛关注，2019 年在美国洛杉矶召开的CVPR会议，注册的各界参会人数达9120人。面对各界对计算机视觉高层次人才的迫切需求，高校如何做好计算机视觉方向的人才培养，成为我们这些计算机学科教师的重要课题。

我在清华大学深圳研究生院承担计算机视觉相关课程教学多年，深切感受到一本好教材对学生学好这门课的重要性，无论是课堂学习还是课后自学。我也曾经用过多本优秀的翻译教材，然而随着计算机视觉技术的迅猛发展，深度学习方法已经在该领域广泛应用，如何将深度学习等最新的机器学习方法与传统的计算机视觉任务结合，成为当今计算机视觉科研和教学的重要内容。英国伦敦大学E. R. Davies教授的这本书总结了作者长期以来在计算机视觉领域的科研成果。尤其值得强调的是，他从1990 年的第1版开始，不断更新，不断修改，所以如今的这个版本可以说是当今计算机视觉领域在系统性、先进性、完整性方面最为突出的一本教材。

有幸翻译这本教材是我的幸运，同时也是一项艰巨的任务。在系统性上我们可以发现，本书结构与CVPR 会议的报告内容分类非常一致，系统性地阐述了计算机视觉的理论和方法，从初级视觉到中级视觉，再到机器学习和深度学习网络，以及3D 视觉和运动。在先进性上，这是目前为止对深度学习计算机视觉方法进行系统介绍的唯一一本教材。在完整性上，全书共24 章，全面涵盖计算机视觉的主要理论和方法。所以，我们特别推荐该书作为计算机视觉方向的大学本科或研究生教材。

袁春（清华大学）

2020 年 5 月

第5版主要特点：

本书的第1版于1990年出版，受到许多研究者和从业者的欢迎。然而，在随后的20多年里，计算机视觉的发展速度飞快，许多在第1版中不值一提的话题，现在必须被纳入以后的版本中。例如，引入了大量关于特征检测、数学形态学、纹理分析、形状检测、人工神经网络、3D 视觉、不变性、运动分析、目标跟踪和稳健统计的新材料，这些内容变得日益重要。

在第4 版中，我们认识到计算机视觉的应用范围越来越广，特别是必须增加关于监控和车载视觉系统的两章。从那以后，相关研究和讨论一直没有停止。事实上，在过去的四五年里，深度神经网络的研究开始呈现爆炸性增长，由此产生的实际成果令人震惊。

显然，第5版必须反映这种彻底的转变—无论是基础理论还是实践应用。事实上，本书增加了一个新的部分—机器学习和深度学习网络（第三部分），可以看出，这个标题意味着新内容不仅反映了深度学习（相对于旧的“人工神经网络”的巨大改进），也反映了一种基于严格的概率方法的模式识别方法。在书中阐释清楚这些主题并非易事，因为概率方法只有在相当严格的数学环境中才能讲透。数学背景太少，这个主题可能会被淡化到几乎没有内容；数学内容太多，对许多读者来说可能无法理解。显然，我们不能因为读者害怕那些数学公式就避而不谈。因此，第14 章对读者而言是一次挑战，这一章充分展示了所涉及的方法类型，同时提供给读者越过一些数学复杂性的途径—至少在第一次遇到时是这样的。

一旦越过了相对困难的第14 章，第15 章和第21章将主要向读者展示案例研究，前者聚焦于深度学习网络的关键发展时期 (2012—2015),后者的时间段与之类似(2013—2016)。在此期间,深度学习的主要目标是人脸检测和识别，并且取得了显著的进步。不应忽视的是，这些增补对本书的内容产生了非常大的影响，以至于书名不得不做出修改。之后，本书的组织结构又得到了进一步修改，在新的第五部分“计算机视觉的应用”中，收入了三个关于应用的章节。值得注意的是，此时计算机视觉已经达到成熟水平，这使它变得更加严格、可靠、通用，并且能够实时运行（考虑到现在可用于实现的改进的硬件设施，特别是功能极其强大的 GPU）。这意味着在要求严格的应用中使用计算机视觉技术的人比以往任何时候都多，而且实际困难也更少了。本书旨在从根本上反映这一全新的令人兴奋的发展。

对于电子工程和计算机科学专业的大四学生，视觉课程可包括第1～13 章和第16 章的大部分内容，根据需要，还可包括其他章节的部分内容。对于理学硕士或博士研究生来说，可能涵盖第三部分或第四部分的深入内容，第五部分的部分章节也是合适的，其中许多实际练习都是在图像分析系统上进行的（一旦开始认真研究，就不应该低估附录一中讨论的稳健统计的重要性，尽管这可能超出本科教学大纲的范围）。这在很大程度上取决于每个学生正在进行的研究项目。在现阶段，本书可能不得不更多地用作研究手册，事实上，这本书的主要目的之一就是作为这一重要领域的研究者和实践者的手册。