计算机视觉中的细节问题(二)
参考 计算机视觉中的细节问题(二) - 云+社区 - 腾讯云
目录
(1)photometric distortions的含义
(2)MSE、MAE的含义
(3)图像金字塔与特征金字塔
(4)RGBA的含义
(5)目标检测中样本的难度是如何区分的
(6)什么是机器学习模型的容量
(7)张量秩的含义
(8)目标检测中样本的难度是如何区分的
(9)全连接层的原理
(10)softmax的原理
(1)photometric distortions的含义
指的是在输入卷积神经网络之前对数据进行预处理的操作,比如改变亮度、饱和度等。
(2)MSE、MAE的含义
MSE(Mean Square Error)均方误差,MSE是真实值与预测值的差值的平方然后求和平均。通过平方的形式便于求导,所以常被用作线性回归的损失函数。MAE(Mean Absolute Error)平均绝对误差。是绝对误差的平均值。可以更好地反映预测值误差的实际情况。
(3)图像金字塔与特征金字塔
在目标检测或语义分割中图像金字塔指的是直接对图像进行上采样而形成的层级结构,由于计算量大的原因这种方法现在已经被抛弃了。特征金字塔主要是通过CNN的层来形成的特征,广泛的使用在目标检测中。
(4)RGBA的含义
- R:红色值。正整数 | 百分数
- G:绿色值。正整数 | 百分数
- B:蓝色值。正整数 | 百分数
- A:Alpha透明度。取值0~1之间。(颜色的透明度)
(5)目标检测中样本的难度是如何区分的
数量大的样本一般是简单样本,数量小的样本一般是难样本。
(6)什么是机器学习模型的容量
通俗地讲,模型的容量是指它拟合各种函数的能力。
(7)张量秩的含义
标量:秩为零的张量(只有大小,没有方向,由1(3^0)部分组成);
向量:秩为一的张量(有大小和一个方向,由3(3^1)部分组成);
Dyad:秩为2的张量(有大小和两个方向,由9(3^2)部分组成);
Triad:秩为3的张量(有大小和三个方向,由27(3^3)部分组成);
这样,张量和标量、向量……之间似乎有一一对应关系。但是,标量不是张量,虽然秩为0的张量是标量;同样的,向量不是张量,虽然秩为1的张量是向量;dyad不是张量,但秩为2的张量是dyad(矩阵)。
(8)目标检测中样本的难度是如何区分的
根据IoU来区分,一般小于0.3为负样本,0.3到0.5为难样本,大于0.5为正样本。
(9)全连接层的原理
如果输入的feature map是2X2,那么就需要把这个feature map 拉成4X1的列向量,如果你的feature map 的channels是3,也就是你的输入是3X2X2,也就是相当于有了12个像素点,你就需要把feature map 拉成12X1的列向量,这时候,再乘一个权重,这个权重要把12个像素点都包含进去,所以这个权重的矩阵形式应该是1X12,所以经过一个全连接层后的输出就是1X12X12X1=1X1,这时候需要看你的需要多少个1X1的神经元了,如果是3个的话,那么输出就是3X(1X12X12X1)=3X(1X1)。
(10)softmax的原理
softmax用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内。假设我们有一个数组,V,Vi表示V中的第i个元素,那么这个元素的softmax值: