智能系统设计-Part2.1-Introduction
人类视觉系统
在自然界中,可见光只在全谱段中的非常小一段。但是图像处理是针对于全光谱而言的。
人眼系统
感光细胞
人眼系统如上图所示,眼中视网膜上有视椎细胞(Cones)和视杆细胞(Rods)两种。视椎细胞对颜色和黑暗(Dark)敏感;视杆细胞对明光(Brightnes)敏感。
从上图可以看到,视椎细胞在中心分布较多,这就是为什么人眼在看东西时希望把东西放在眼中心,因为该处视椎细胞更多,可以更好地感知物体。视杆细胞在整个视网膜上都有分布,这就是为什么余光可以感知到周围的东西。
这张图是Weber ratio,它说明人眼在低亮度条件下,需要更大的光强差异才能感知到差异(也就是上图左边的$\Delta I$);但在亮光环境下,只需要很小的亮度差异就可以感知到(右侧的$\Delta I$)
马赫带效应(Mach band effect)
人眼在观察两块亮度不同的区域时,边界处亮度对比加强,使轮廓表现得特别明显。如上图所示,当你观察上图时,会感觉每一个灰度小格子的左侧都比右侧亮。
相机成像
相机成像可以被看成两个过程:sampling 和 quantization。sampling过程发生在连续的图像被投影在有限的传感器矩阵上时,被使用有限的像素点表示了。而quantization发生在感光器件输出的值被ADC采集,转化为有限的数字比特时。例如一个8bit ADC就可以产生0-255种明度值。
数字图像的分辨率一般是像素x像素,例如500x500表示横轴500个像素纵向500个像素。但是这样表示无法将像素与现实的画面大小对应,就算分辨率再小,现实只显示很小一张图,你也会觉得是高清无码。因此有了DPI(Dois Per Inch)这个单位。DPI指指每一英寸长度中,取样、可显示或输出点的数目,DPI越高视觉清晰度越高。
图像基本操作
邻接关系(adjacency)
当一个像素位于另一个像素的上下左右四个方向时,则成这两个像素满足4邻接关系
当一个像素位于另一个像素斜上、下、左、右或正、下、左、右方向时,称其满足8邻接关系
多帧降噪
上图这样的图片有很多高斯噪声,但是因为高斯噪声是平均分布于画面的,因此拍摄多张照片,然后求像素值的平均值,可以很好地消除噪声。
仿射变换(Affine Transformation)
仿射变换是线性变换和平移变换的叠加。仿射变换变化包括缩放、平移(transform)、旋转(rotate)、镜像(reflection)、错切(shear)等等。下图是仿射变换的各效果图
仿射变换有一个仿射矩阵(Affine Matrix) A,这是一个3x3的矩阵,只需要将某一像素点在空间中的坐标(如果是二维平面,则默认Z=1, 即输入矩阵为[x, y, 1]’)乘上A,即可得到这个点转换后的坐标。
使用上图的Scaling/Reflection矩阵做一个例子。假设需要将图像沿X轴镜像,并将Y轴压缩为原来0.5倍,则仿射矩阵应该填为:
然后让坐标为(x,y)的乘以该仿射矩阵,得到变换后的坐标值(每一个像素都需要经过这个操作)
按照矩阵乘法规则可知:$x’=-x$,$y’=0.5y$,至此便实现了X轴镜像,Y轴压缩为0.5倍。
这个视频用动画演示了各个变换的效果:【双语字幕】什么是仿射变换?_哔哩哔哩_bilibili
如果需要连续变换,例如先缩放再旋转,直接将两个变换矩阵相乘即可