智能系统设计-Part2.1-Introduction
人类视觉系统
在自然界中,可见光只在全谱段中的非常小一段。但是图像处理是针对于全光谱而言的。
人眼系统感光细胞
人眼系统如上图所示,眼中视网膜上有视椎细胞(Cones)和视杆细胞(Rods)两种。视椎细胞对颜色和黑暗(Dark)敏感;视杆细胞对明光(Brightnes)敏感。
从上图可以看到,视椎细胞在中心分布较多,这就是为什么人眼在看东西时希望把东西放在眼中心,因为该处视椎细胞更多,可以更好地感知物体。视杆细胞在整个视网膜上都有分布,这就是为什么余光可以感知到周围的东西。
这张图是Weber ratio,它说明人眼在低亮度条件下,需要更大的光强差异才能感知到差异(也就是上图左边的$\Delta I$);但在亮光环境下,只需要很小的亮度差异就可以感知到(右侧的$\Delta I$)
马赫带效应(Mach band effect)
人眼在观察两块亮度不同的区域时,边界处亮度对比加强,使轮廓表现得特别明显。如上图所示,当你观察上图时,会感觉每一个灰度小格子的左侧都比右侧亮。
相机成像
相机成像可以被看成两个过程:sampling 和 quantization。sampling过程发生在连 ...
智能系统设计-Part2.2-图像压缩
引入图像的冗余信息编码冗余(encoding redundancy):下图这个图像中,只有4种颜色,如果采用8bit色深编码,则会有252种值从未被使用。
空间冗余(spatial redundancy):下图每一行都是一样的像素点,如果每一个像素都独立记录值,则会浪费很多空间。如果能记录256个像素的一条线,再记录这条线重复256次,那么将会剩下很多的空间。
无关信息(irrelevant information):下图的灰度值差异很小很小,肉眼不可查(下图左)。除非使用直方图均衡等算法(下图右),否则图像信息不可见。因此其为可压缩信息。
主流音视频压缩格式
图像编码的总体流程图像存储在设备上,可以总地分为如下几个步骤:
映射器(Mapper):将原图像的$f(x,…)$变换为减少空间和时间冗余的格式,这一操作是可逆的,但并不会减少数据量。在后续介绍JPEG压缩时会介绍DCT变换。
量化器(Quantizer):上一步中,mapper将图像转化到变换域,量化就是将变换域中的数根据存储的比特要求量化成特定值。这一过程会损失信息,如果是无损压缩,则需要舍弃这一步。
符号编码 ...
智能系统设计-Part2.3-图像增强和滤波
灰度变换-像素处理像素处理是最简单、理解最直观的。是对每个像素点的值直接进行变换。像素处理可以只对图像的一部分执行。
在像素处理中,变换函数被记为T,某个像素点变换前的值为r,后的值为S,$S=T(r)$。
熟悉PS的小伙伴会知道PS里面有个曲线,这个曲线其实就是变换函数的函数图像。当曲线是下图这样时,会增强对比度。
如果拖着曲线的中点朝左上或者右下移动(变成指数函数),则可以调整整体的曝光值($s=r^\gamma$)。这里的指数参数$\gamma$就是曝光值。
如果将曲线两头反向,则图片就会反相。
当然,你也可以只对一部分亮度的图像进行增强,其变换函数图像如下
灰度变换-直方图处理直方图用于统计一张图片中各值的像素点数量。其横轴为值,纵轴为数量。可以通过直方图看出来图像的整体亮度,直方图偏高代表图像中高亮度像素较多,偏低代表低亮度像素较多。
直方图均衡从上面可以知道,直方图偏高或者偏低都有问题,能让它均匀分布才能创造不死黑,不过曝,对比度正常的图像,如下图。因此需要进行直方图均衡。
归一化的直方图对于一个分辨率 ...