当前位置：首页 > news >正文

新书推荐 |《深度学习与图像识别：原理与实践》

news 来源：原创 2024/5/4 14:47:16

新书推荐

《深度学习与图像识别：原理与实践》

点击上图了解及购买

阿里巴巴达摩院算法专家领衔撰写，从技术原理、算法、工程实践3个维度系统讲解图像识别。

视频介绍

编辑推荐

1. 三位作者均来自阿里巴巴，由达摩院的资深算法专家领衔，技术积累深厚，业务经验丰富；

2. 从技术原理、算法和工程实践3个维度系统展开，既适合零基础读者快速入门，又适合有基础读者理解其核心技术；

3. 写作方式上避开了艰涩的数学公式及其推导，深入浅出。

内容简介

这是一部从技术原理、算法和工程实践3个维度系统讲解图像识别的著作，由阿里巴巴达摩院算法专家、阿里巴巴技术发展专家、阿里巴巴数据架构师联合撰写。

在知识点的选择上，本书广度和深度兼顾，既能让完全没有基础的读者迅速入门，又能让有基础的读者深入掌握图像识别的核心技术；在写作方式上，本书避开了复杂的数学公式及其推导，从问题的前因后果、创造者的思考过程，利用简单的数学计算来做模型分析和讲解，通俗易懂。更重要的书，本书不仅仅是聚焦于技术，而是将重点放在了如何用技术解决实际的业务问题。

全书一共13章：

第1-2章主要介绍了图像识别的应用场景、工具和工作环境的搭建；
第3-6章详细讲解了图像分类算法、机器学习、神经网络、误差反向传播等图像识别的基础技术及其原理；
第7章讲解了如何利用PyTorch来实现神经网络的图像分类，专注于实操，是从基础向高阶的过渡；
第8-12章深入讲解了图像识别的核心技术及其原理，包括卷积神经网络、目标检测、分割、产生式模型、神经网络可视化等主题；
第13章从工程实践的角度讲解了图像识别算法的部署模式。

作者简介

魏溪含

爱丁堡大学人工智能硕士，阿里巴巴达摩院算法专家，在计算机视觉、大数据领域有8年以上的算法架构和研发经验。

在大数据领域，曾带领团队对阿里巴巴个性化推荐系统进行升级；计算机视觉领域，主导并攻克了光伏EL全自动瑕疵识别的世界难题，并在行为识别领域带领团队参赛打破世界纪录等。

涂铭

阿里巴巴数据架构师，对大数据、自然语言处理、图像识别、Python、Java相关技术有深入的研究，积累了丰富的实践经验。在工业领域曾参与了燃煤优化、设备故障诊断项目，正泰光伏电池片和组件EL图像检测项目；在自然语言处理方面，担任导购机器人项目的架构师，主导开发机器人的语义理解、短文本相似度匹配、上下文理解，以及通过自然语言检索产品库，在项目中构建了NoSQL+文本检索等大数据架构，也同时负责问答对的整理和商品属性的提取，带领NLP团队构建语义解析层。

张修鹏

毕业于中南大学，阿里巴巴技术发展专家，长期从事云计算、大数据、人工智能与物联网技术的商业化应用，在阿里巴巴首次将图像识别技术引入工业，并推动图像识别产品化、平台化，擅于整合前沿技术解决产业问题，主导多个大数据和AI为核心的数字化转型项目成功实施，对技术和商业结合有着深刻的理解。

前言

第1章　机器视觉在行业中的应用1

1.1　机器视觉的发展背景1

1.1.1　人工智能1

1.1.2　机器视觉2

1.2　机器视觉的主要应用场景3

1.2.1　人脸识别3

1.2.2　视频监控分析4

1.2.3　工业瑕疵检测5

1.2.4　图片识别分析6

1.2.5　自动驾驶/驾驶辅助7

1.2.6　三维图像视觉8

1.2.7　医疗影像诊断8

1.2.8　文字识别9

1.2.9　图像/视频的生成及设计9

1.3　本章小结10

第2章　图像识别前置技术11

2.1　深度学习框架11

2.1.1　Theano11

2.1.2　Tensorflow12

2.1.3　MXNet13

2.1.4　Keras13

2.1.5　PyTorch14

2.1.6　Caffe14

2.2　搭建图像识别开发环境15

2.2.1　Anaconda15

2.2.2　conda18

2.2.3　Pytorch的下载与安装19

2.3　Numpy使用详解20

2.3.1　创建数组20

2.3.2　创建Numpy数组22

2.3.3　获取Numpy属性24

2.3.4　Numpy数组索引25

2.3.5　切片25

2.3.6　Numpy中的矩阵运算26

2.3.7　数据类型转换27

2.3.8　Numpy的统计计算方法28

2.3.9　Numpy中的arg运算29

2.3.10　FancyIndexing29

2.3.11　Numpy数组比较30

2.4　本章小结31

第3章　图像分类之KNN算法32

3.1　KNN的理论基础与实现32

3.1.1　理论知识32

3.1.2　KNN的算法实现33

3.2　图像分类识别预备知识35

3.2.1　图像分类35

3.2.2　图像预处理36

3.3　KNN实战36

3.3.1　KNN实现MNIST数据分类36

3.3.2　KNN实现Cifar10数据分类41

3.4　模型参数调优44

3.5　本章小结48

第4章　机器学习基础49

4.1　线性回归模型49

4.1.1　一元线性回归50

4.1.2　多元线性回归56

4.2　逻辑回归模型57

4.2.1　Sigmoid函数58

4.2.2　梯度下降法59

4.2.3　学习率的分析61

4.2.4　逻辑回归的损失函数63

4.2.5　Python实现逻辑回归66

4.3　本章小结68

第5章　神经网络基础69

5.1　神经网络69

5.1.1　神经元70

5.1.2　激活函数72

5.1.3　前向传播76

5.2　输出层80

5.2.1　Softmax80

5.2.2　one-hotencoding82

5.2.3　输出层的神经元个数83

5.2.4　MNIST数据集的前向传播83

5.3　批处理85

5.4　广播原则87

5.5　损失函数88

5.5.1　均方误差88

5.5.2　交叉熵误差89

5.5.3　Mini-batch90

5.6　最优化91

5.6.1　随机初始化91

5.6.2　跟随梯度（数值微分）92

5.7　基于数值微分的反向传播98

5.8　基于测试集的评价101

5.9　本章小结104

第6章　误差反向传播105

6.1　激活函数层的实现105

6.1.1　ReLU反向传播实现106

6.1.2　Sigmoid反向传播实现106

6.2　Affine层的实现107

6.3　Softmaxwithloss层的实现108

6.4　基于数值微分和误差反向传播的比较109

6.5　通过反向传播实现MNIST识别111

6.6　正则化惩罚114

6.7　本章小结115

第7章　PyTorch实现神经网络图像分类116

7.1　PyTorch的使用116

7.1.1　Tensor116

7.1.2　Variable117

7.1.3　激活函数118

7.1.4　损失函数120

7.2　PyTorch实战122

7.2.1　PyTorch实战之MNIST分类122

7.2.2　PyTorch实战之Cifar10分类125

7.3　本章小结128

第8章　卷积神经网络129

8.1　卷积神经网络基础129

8.1.1　全连接层129

8.1.2　卷积层130

8.1.3　池化层134

8.1.4　批规范化层135

8.2　常见卷积神经网络结构135

8.2.1　AlexNet136

8.2.2　VGGNet138

8.2.3　GoogLeNet140

8.2.4　ResNet142

8.2.5　其他网络结构144

8.3　VGG16实现Cifar10分类145

8.3.1　训练146

8.3.2　预测及评估149

8.4　本章小结152

8.5　参考文献152

第9章　目标检测153

9.1　定位+分类153

9.2　目标检测155

9.2.1　R-CNN156

9.2.2　Fast R-CNN160

9.2.3　Faster R-CNN162

9.2.4　YOLO165

9.2.5　SSD166

9.3　SSD实现VOC目标检测167

9.3.1　PASCAL VOC数据集167

9.3.2　数据准备170

9.3.3　构建模型175

9.3.4　定义Loss178

9.3.5　SSD训练细节181

9.3.6　训练186

9.3.7　测试189

9.4　本章小结190

9.5　参考文献191

第10章　分割192

10.1　语义分割193

10.1.1　FCN193

10.1.2　UNet实现裂纹分割196

10.1.3　SegNet209

10.1.4　PSPNet210

10.2　实例分割211

10.2.1　层叠式212

10.2.2　扁平式212

10.3　本章小结213

10.4　参考文献214

第11章　产生式模型215

11.1　自编码器215

11.2　对抗生成网络215

11.3　DCGAN及实战217

11.3.1　数据集218

11.3.2　网络设置220

11.3.3　构建产生网络221

11.3.4　构建判别网络223

11.3.5　定义损失函数224

11.3.6　训练过程224

11.3.7　测试227

11.4　其他GAN230

11.5　本章小结235

11.6　参考文献235

第12章　神经网络可视化236

12.1　卷积核236

12.2　特征层237

12.2.1　直接观测237

12.2.2　通过重构观测239

12.2.3　末端特征激活情况243

12.2.4　特征层的作用244

12.3　图片风格化245

12.3.1　理论介绍245

12.3.2　代码实现247

12.4　本章小结255

12.5　参考文献255

第13章　图像识别算法的部署模式257

13.1　图像算法部署模式介绍257

13.2　实际应用场景和部署模式的匹配262

13.3　案例介绍264

13.4　本章小结265

你与世界

只差一个

公众号

Spring Cloud Zuul 那些你不知道的功能点

新书推荐 |《C#神经网络编程》

Flink 2.0前瞻！关于技术栈的重新思考与批流融合

什么是IPFS？与区块链又是怎样的关系

新书推荐 |《Python网络编程（原书第2版）》

Python传奇：30年崛起之路

新书推荐 |《IPFS原理与实践》

微服务架构之「下一代微服务 Service Mesh 」

新书推荐 |《OpenCV 4计算机视觉项目实战（原书第2版）》

一文看懂用R语言读取Excel、PDF和JSON文件（附代码）

新书推荐 |《好设计，有方法：我们在搜狐做产品体验设计》

新书推荐 |《广告数据定量分析：如何成为一位厉害的广告优化师》

用Python给女友准备个绝对甜蜜的七夕礼物

新书推荐 |《机器学习即服务：将Python机器学习创意快速转变为云端Web应用程序》...

搞定这个月薪50K的AI热门领域，看这9本书就够了

[ JavaScript ] 数据结构与算法 —— 链表

android图片蒙层

C++类的相互关联

conda常用的命令

Java的Interrupt与线程中断

java中的hashCode

mysql 5.6 原生Online DDL解析

react 代码优化(一) ——事件处理

Vue UI框架库开发介绍

复习Javascript专题（四）：js中的深浅拷贝

如何胜任知名企业的商业数据分析师？

一个项目push到多个远程Git仓库

用Visual Studio开发以太坊智能合约

［地铁译］使用SSD缓存应用数据——Moneta项目: 低成本优化的下一代EVCache ...

Java数据解析之JSON

DB-Engines 11月数据库排名：PostgreSQL坐稳同期涨幅榜冠军宝座

油烟净化器电源安全，保障健康餐饮生活

（11）工业界推荐系统-小红书推荐场景及内部实践【粗排三塔模型】

（2021|NIPS，扩散，无条件分数估计，条件分数估计）无分类器引导扩散

（3）STL算法之搜索

(javascript)再说document.body.scrollTop的使用问题

（PWM呼吸灯）合泰开发板HT66F2390-----点灯大师

(zhuan) 一些RL的文献（及笔记）

(附源码)计算机毕业设计SSM疫情社区管理系统

（剑指Offer）面试题41：和为s的连续正数序列

（力扣）1314.矩阵区域和

（论文阅读22/100）Learning a Deep Compact Image Representation for Visual Tracking

（论文阅读32/100）Flowing convnets for human pose estimation in videos

(续)使用Django搭建一个完整的项目(Centos7+Nginx)

(一) storm的集群安装与配置

（转）原始图像数据和PDF中的图像数据

.NET CORE Aws S3 使用

.NET Framework .NET Core与 .NET 的区别

.Net Remoting常用部署结构

.NET 反射 Reflect

.NET 服务 ServiceController

.NET企业级应用架构设计系列之开场白

.NET与 java通用的3DES加密解密方法

@EnableWebMvc介绍和使用详细demo

[Bada开发]初步入口函数介绍

相关文章：