由于在机器人的感知中视觉占有重要的地位,机器人对自己位置的感知、目标的识别、以及对场景的理解等都离不开图像处理与模式识别,在视觉的概念中图像处理与模式识别只是其中的一个子集,当然尽管如此图像处理和模式识别涉及的范围还是很广泛的。
一、图像处理:
图像处理指的是数字图像处理(Digital ImageProcessing)也被称为计算机图像处理,主要是将图像信号转换成数字信号并利用计算机对其进行处理的过程。数字图像处理最早出现于20世纪50年代,当时的电子计算机已经发展到一定水平,人们开始利用计算机来处理图形和图像信息。数字图像处理作为一门学科大约形成于20世纪60年代初期。早期的图像处理的目的是改善图像的质量,它以人为对象,以改善人的视觉效果为目的。图像处理中,输入的是质量低的图像,输出的是改善质量后的图像,常用的图像处理方法有图像增强、复原、编码、压缩等。首次获得实际成功应用的是美国喷气推进实验室(JPL)。他们对航天探测器徘徊者7号在1964年发回的几千张月球照片使用了图像处理技术,如几何校正、灰度变换、去除噪声等方法进行处理,并考虑了太阳位置和月球环境的影响,由计算机成功地绘制出月球表面地图,获得了巨大的成功。随后又对探测飞船发回的近十万张照片进行更为复杂的图像处理,以致获得了月球的地形图、彩色图及全景镶嵌图,获得了非凡的成果,为人类登月创举奠定了坚实的基础,也推动了数字图像处理这门学科的诞生。在以后的宇航空间技术,如对火星、土星等星球的探测研究中,数字图像处理技术都发挥了巨大的作用。数字图像处理取得的另一个巨大成就是在医学上获得的成果。1972年英国EMI公司工程师Housfield发明了用于头颅诊断的X射线计算机断层摄影装置,也就是我们通常所说的CT(ComputerTomograph)。CT的基本方法是根据人的头部截面的投影,经计算机处理来重建截面图像,称为图像重建。
1975年EMI公司又成功研制出全身用的CT装置,获得了人体各个部位鲜明清晰的断层图像。1979年,这项无损伤诊断技术获得了诺贝尔奖,说明它对人类作出了划时代的贡献。与此同时,图像处理技术在许多应用领域受到广泛重视并取得了重大的开拓性成就,属于这些领域的有航空航天、生物医学工程、工业检测、机器人视觉、公安司法、军事制导、文化艺术等,使图像处理成为一门引人注目、前景远大的新型学科。随着图像处理技术的深入发展,从70年代中期开始,随着计算机技术和人工智能、思维科学研究的迅速发展,数字图像处理向更高、更深层次发展。人们已开始研究如何用计算机系统解释图像,实现类似人类视觉系统理解外部世界,这被称为图像理解或计算机视觉。
很多国家,特别是发达国家投入更多的人力、物力到这项研究,取得了不少重要的研究成果。其中代表性的成果是70年代末MIT的Marr提出的视觉计算理论,这个理论成为计算机视觉领域其后十多年的主导思想。图像理解虽然在理论方法研究上已取得不小的进展,但它本身是一个比较难的研究领域,存在不少困难,因人类本身对自己的视觉过程还了解甚少,因此计算机视觉是一个有待人们进一步探索的新领域。
二、图像处理主要研究的领域
1)图像变换由于图像阵列很大,直接在空间域中进行处理,涉及计算量很大。因此,往往采用各种图像变换的方法,如傅立叶变换、沃尔什变换、离散余弦变换等间接处理技术,将空间域的处理转换为变换域处理,不仅可减少计算量,而且可获得更有效的处理(如傅立叶变换可在频域中进行数字滤波处理)。目前新兴研究的小波变换在时域和频域中都具有良好的局部化特性,它在图像处理中也有着广泛而有效的应用。
2)图像编码压缩图像编码压缩技术可减少描述图像的数据量(即比特数),以便节省图像传输、处理时间和减少所占用的存储器容量。压缩可以在不失真的前提下获得,也可以在允许的失真条件下进行。编码是压缩技术中最重要的方法,它在图像处理技术中是发展最早且比较成熟的技术。
3)图像增强和复原图像增强和复原的目的是为了提高图像的质量,如去除噪声,提高图像的清晰度等。图像增强不考虑图像降质的原因,突出图像中所感兴趣的部分。如强化图像高频分量,可使图像中物体轮廓清晰,细节明显;如强化低频分量可减少图像中噪声影响。图像复原要求对图像降质的原因有一定的了解,一般讲应根据降质过程建立"降质模型",再采用某种滤波方法,恢复或重建原来的图像。
4)图像分割图像分割是数字图像处理中的关键技术之一。图像分割是将图像中有意义的特征部分提取出来,其有意义的特征有图像中的边缘、区域等,这是进一步进行图像识别、分析和理解的基础。虽然目前已研究出不少边缘提取、区域分割的方法,但还没有一种普遍适用于各种图像的有效方法。因此,对图像分割的研究还在不断深入之中,是目前图像处理中研究的热点之一。
5)图像描述图像描述是图像识别和理解的必要前提。作为最简单的二值图像可采用其几何特性描述物体的特性,一般图像的描述方法采用二维形状描述,它有边界描述和区域描述两类方法。对于特殊的纹理图像可采用二维纹理特征描述。随着图像处理研究的深入发展,已经开始进行三维物体描述的研究,提出了体积描述、表面描述、广义圆柱体描述等方法。
6)图像分类(识别)图像分类(识别)属于模式识别的范畴,其主要内容是图像经过某些预处理(增强、复原、压缩)后,进行图像分割和特征提取,从而进行判决分类。图像分类常采用经典的模式识别方法,有统计模式分类和句法(结构)模式分类,近年来新发展起来的模糊模式识别和人工神经网络模式分类在图像识别中也越来越受到重视。
三、图像处理中的数学工具:
1). 积分类型的数学变换(Representation)
这类方法为我们所熟知,其基本思想是利用各种积分变换将信号从时域或空域投影到变换域,目的是利用人为设定的基函数对原始信号进行投影,使变换系数表现出某种良好的性质,实质就是对信号的另一种等价表达方式(所谓Representation)。变换性能取决于基函数的选择。经典的就是傅里叶(适宜描述周期信号)和小波(适于描述局部突变的非平稳信号)。数学变换会追求所谓稀疏表示(sparserepresentation),即如何通过最小数量的系数尽可能更多的描述信号的能量。不同类型的信号,其在不同变换下系数的分布会不同。
2). 基于偏微分的曲线或曲面演化(Evolution)
这类方法我在本论坛的另一个帖子里详细说过,基本思想是利用极小化能量泛函的解(偏微分方程形式)实现曲线曲面的变化,最终使其逼近我们所期望的结果。
3). 统计方法(Statistics)
这是现代信号处理和统计模式识别的基础,当然两者侧重不同。现代信号处理追求的是某种统计意义下的最优滤波,所以我们会看到MMSE、MLS之类的滤波算法。统计模式识别重点放在分类界面的确定,这需要以先验概率作为前提;若先验概率未知,则通过有参或无参方法对其进行估计。
4). 时域或空域的非线性离散滤波器(Discrete Filter)
这类方法没什么数学背景,就是好用。最典型的是序统计滤波,就是排队,像中值滤波、多级中值滤波。Lee滤波等等。
5).多分辨率分析(Pyramid)
看到这个标题很容易想到小波,其实小波只是其中一种。多分辨率分析是一个框架,可以选择不同的滤波器。建议了解Laplace金字塔就可以了。
如果想挑战高维数据处理,微分几何的知识是必备的。
要想把公式变成可供计算机执行的程序,需要用到数值分析(也叫计算数学)。