从“看见”到“看懂”，机器视觉如何开启新“视”界？

【导语】近年来，人工智能浪潮席卷多领域，深度学习更颠覆了机器视觉。机器视觉如何“看”世界？相比人眼，它有何优势？从(cóng)20世(shì)纪(jì)60年(nián)代(dài)萌(méng)芽(yá)，到(dào)如(rú)今(jīn)AI驱(qū)动(dòng)新(xīn)时(shí)代(dài)，机(jī)器(qì)视(shì)觉(jué)已(yǐ)在(zài)电(diàn)磁(cí)波(bō)谱(pǔ)、生(shēng)活(huó)场(chǎng)景(jǐng)、跨(kuà)学(xué)科(kē)领(lǐng)域等(děng)“大(dà)显(xiǎn)身(shēn)手(shǒu)”，成(chéng)为(wèi)人(rén)类(lèi)探(tàn)索(suǒ)未(wèi)知(zhī)的(de)“智(zhì)慧(huì)之(zhī)眼(yǎn)”。

近(jìn)年(nián)来(lái)，人(rén)工智能的快速发展让多个领域发生了重要变化。作为人工智能的核心分支，深度学习的高速发展也对机器视觉产生了颠覆性的影响。

究竟何为机器视觉？机器何以“看见”？相比人眼，机器视觉具有何种优势？又能在哪些领域发挥重要作用？

机器视觉的“前世今生”

众所周知，人类借助五种主要感官认识世界，其中获取信息的(de)80%来(lái)自(zì)视(shì)觉(jué)。我(wǒ)们(men)之(zhī)所(suǒ)以(yǐ)能(néng)获(huò)取(qǔ)所(suǒ)看(kàn)到(dào)的(de)信(xìn)息(xi)，其(qí)实(shí)是(shì)由(yóu)物(wù)体(tǐ)的(de)反(fǎn)射(shè)光(guāng)照(zhào)到(dào)人(rén)眼(yǎn)中(zhōng)，再(zài)借(jiè)助(zhù)眼(yǎn)中(zhōng)的(de)光(guāng)感(gǎn)受(shòu)器(qì)将(jiāng)光(guāng)信(xìn)号(hào)转(zhuǎn)化(huà)为(wèi)电(diàn)信(xìn)号(hào)，然(rán)后(hòu)交(jiāo)给(gěi)大(dà)脑(nǎo)进(jìn)行(xíng)处(chù)理(lǐ)，从(cóng)而(ér)形(xíng)成(chéng)人类视觉。

视觉作为人类最高级别的感知对于人们而言非常重要，而在机器的世界里，视觉的重要性也不可小觑。所谓机器视觉便是为机器装上“眼睛”，用传感器来代替人眼，以电脑来代替人脑，自动处理分析图像或视频，使机器能够“看懂”环境并自主决策的技术。

事实上，机器视觉的出现可追溯至20世纪60年代。1963年，机器视觉领域出现了第一篇博士论文《三维实体的机器感知》，论文的作者为美国麻省理工大学的劳伦斯·吉尔曼·罗伯茨（L. G. Roberts），他利用计算机程序从数字图像中提取出立方体、楔形体、棱柱体等多面体的三维结构，并对物体形状及物体的空间关系进行描述。在这一阶段，机器视觉技术隶属于模式识别领域，主要集中在二维图像的分析和识别上，最典型的应用包括文件里的字符识别、工件表面的处理、分析和解释等。

1973年，英国神经系统学家与心理学家大卫·马尔（DavidC.Marr）教授应邀在美国麻省理工大学的AI实验室领导一个研究小组，建立了一套视觉计算理论，使该领域的研究有了较为明确的体系，极大地推动了机器视觉研究的发展。令人感到惋惜的是，大卫·马尔教授因为身体原因很早便过世了，在他去世后，他带领的研究小组根据他在1973-1977年间进行的研究，整理出一本学术著作——《视觉》，这本专著的问世也标志着计算机视觉（机器视觉）成为一门独立学科，他也被誉为计算机视觉领域的“开山鼻祖”。

20世纪80年代至今，机器视觉领域飞速发展。硬件性能从早期集成电路计算机发展到GPU等高性能芯片，数据资源从早期少量手写数字数据到如今的海量图像数据。同时，机器视觉领域的算法也实现了持续优化，从(cóng)基(jī)于(yú)规(guī)则(zé)的(de)算(suàn)法(fǎ)发(fā)展到基于深度学习的算法，而在应用领域方面，早期简单的字符识别已是过去式，如今已能够实现视觉导航与人机交互。由此可见，机器视觉在近40多年间，在多个方面都展现出了长足的进步。

伴随着近些年AI领域的崛起，深度学习在计算机视觉领域出现了崭新突破，标志着机器视觉进入了AI驱动的新时代。

复杂的机器视觉系统

与人眼类似，若想使机器拥有获取并处理信息的能力，也需要一套完整的体系，包括图像采集系统、视觉信息处理软件、显示器、处理器单元、机械控制软件，以及执行机构。

实际运行过程中，先由图像采集系统获取视觉（图像）信息，类似用照相机拍摄一张照片，然后将图像传给视觉信息处理软件，进行图像的分析与决策，而这些工作由处理器单元来执行操作，其就像机器的“大脑”，负责视觉算法运行，显示器则负责呈现视觉算法的运行结果。同样，也可以将决策结果传给机械控制软件，它会根据决策指导运动或操作，随后交由执行机构根据控制信息完成相应操作。

随着机器视觉领域的不断发展，领域内的研究内容也愈加广泛。机器视觉领域的研究人员常会(huì)选取其中部分细分领域进行深入研究，如图像分类、目标检测与识别、图像语义分割、目标跟踪、立体视觉与三维重建、视频理解与行为分析、医学影像分析、三维理解与视觉导航等。

和人类视觉相比，机器视觉拥有超强的信号感知能力和对海量数据的快速分析能力，系统稳定性高且不知疲倦，因而常被应用于不同领域。

在整个电磁波谱“大显身手”

尽管是一个只有几十年发展史的新兴学科，机器视觉却已经在图像处理领域彰显出庞大力量。目前，机器视觉系统处理的最主要的数据来源是电磁波谱成像，此外还包括声波、超声波等。在整个电磁波谱上，几乎所(suǒ)有(yǒu)的(de)电磁波都可以成像，因而人们利用不同的传感器去形成数字图像数据，再利用图像处理或机器视觉技术完成工业生产、医疗诊断等科学探索的视觉任务。

在电磁波谱的最左端是波长最短、能量最强的伽马射线，它的图像主要应用于核医学和天文图像中。医院里，人们有时会见到正电子发射计算机断层显像设备（PET），其被用于骨骼病变的定位。检查时，将放射性同位素注射到人体(tǐ)内(nèi)，这(zhè)些(xiē)同位素会发生衰变，同时发出伽马射线，再利用伽马射线检测仪收集放射线产生图像。如果人体存在病变或肿瘤，该部位吸收的放射性元素就会更多，放射出来的伽马射线更强，因此会在图像里呈现很亮的状态，医生就能够根据图像亮度的分布进行诊断。

与伽马射线相邻的是大家相对熟悉的X射线，其被广泛应用于医学、天文、工业图像等。医学检查中的CT——计算机X射线断层摄影仪器，便是运用了X射线，其穿透人体时，能使人体组织在荧屏上或胶片上形成影像。基于X射线的穿透性、荧光效应和感光效应，以及人体组织之间的密度和厚度的差别，医生能够根据图像的颜色进行诊断。以下图头部CT图像为例，骨骼密度最高，因此吸收的X射线最多，因而在图像上呈现白色；肌肉和液体密度中等，所以吸收中等强度的X射线而呈现灰色，如大脑组织与眼球；气体和脂肪密度最低，所以吸收的X射线最少，因而在图像中显现为黑色或深灰色。

此外，紫外波段、可见光、红(hóng)外(wài)波(bō)段、微波波段、无线电波段均可被机器视觉系统处理。其中，紫外波段应用于工业检测、显微方法、生物成像、天文观测等；可见光广泛应用于显微方法、天文学、遥感、工业检测等领域；红外波段广泛应用于显微方法、天文学、遥感、工业等领域；微波图像的典型应用则是星载雷达；无线电波段则主要应用于医学和天文学，在医学领域，主要用于核磁共振图像（MRI），其与CT相比，图像更为清晰，对于软组织成像的效果更佳。

身边的机器视觉

除医学领域的影像学检查之外，生活中也处处存(cún)在(zài)着(zhe)机(jī)器(qì)视(shì)觉(jué)的(de)痕(hén)迹(jī)。旅(lǚ)游(yóu)中(zhōng)拍(pāi)摄(shè)风(fēng)景(jǐng)照(zhào)时(shí)，人(rén)们(men)常(cháng)会(huì)发(fā)现(xiàn)照(zhào)片(piàn)中(zhōng)的(de)颜(yán)色(sè)相(xiāng)比(bǐ)肉(ròu)眼(yǎn)看(kàn)到(dào)的(de)实(shí)景(jǐng)更(gèng)为(wèi)鲜(xiān)艳(yàn)，鲜(xiān)花(huā)绿(lǜ)草(cǎo)更(gèng)为(wèi)明(míng)艳(yàn)，灰(huī)蒙(méng)蒙(méng)的(de)天(tiān)空(kōng)在(zài)照(zhào)片中呈现出湛蓝的美，这些便是机器视觉中的图像增强技术在默默助力。

驾驶车辆进入停车场时，入口处常能快速进行车牌自动识别，进而准确掌握车辆进场时间，这一目标的实现也依赖于机器视觉。为实现车牌号码的精准识别，先由相机拍摄车辆照片再对车牌位置进行定位，随后对字符进行分割，比对样本库，从而对每个字符进行识别，最后便能准确输出结果。

识别景与物之余，机器视觉对于人脸识别的应用更是司空见惯。在火车进站、身份认证、人脸支付等领域已实现了诸多应用。目前，人脸识别系统主要分为两类技术路线，其一是二维人脸识别，即通过相机拍摄一幅可见光的二维照片，在图片上进行一些特征点的定位和提取，然后在数据库中进行比对，进而输出最相似的面容对应的姓名。这种方式的优势在于可以直接使用普通摄像头，成本较低，但比较容易被照片或视频“欺骗”。

另一种是三维人脸识别，需要使用三维结构光相机，其中的红外发射器能够投影出一些规则图案的点阵，再将其投影在人的脸部，而红外相机则对投影之后的人脸进行拍摄，进而得到点阵的图案。由于人脸凹凸不平，所以原本设计规则的点阵在拍摄之后会发生形变，通过比较前后两个图案的变形情况，便可得到人脸的三维模型，从而在后端的数据库进行模型比对并输出结果。相比二维人脸识别，这(zhè)种(zhǒng)识(shi)别(bié)方式准确度更高。

近来关注度较高的“文本生成图像”也与机器视觉密不可分。作为一个高度融合的跨学科领域，其被称为“生成式视觉”或“视觉内容生成”。“生成式视觉”旨在生成、编辑、增强图像，利用自然语言处理（NLP）技术理解文本提示词的含义，属于计算机视觉与NLP的学科交叉。

此外，交通领域的自动驾驶与辅助驾驶，航天遥感领域的地球人造卫星、气象观测、植被覆盖率监测、城市规划分析、地物变化监测、地震救援、数字地球，深空探测领域的探月工程等，都离不开机器视觉的“鼎力支持”。

近些年，人工智能领域飞速发展，将机器视觉从一个解决特定问题的“工具箱”，转变为一个具备强大“自动学习能力”的、能够解决通用问题的“智能平台”，不仅极大地提升了机器视觉的性能上限，也拓展了机器视觉的能力和应用边界，让人们深刻体会到科技不是冰冷的代码，而是人类探索未知的“眼睛”。

撰文：记者廖迈伦

采访专家：袁丁，北京航空航天大学宇航学院教授

本文封面图片来自版权图库，转载使用可能引发版权纠纷

上一篇：浙里科技前研⑥ | 压缩时空，“一眼千年”不是梦下一篇：量子计算机是怎样“攒”出来的？

返回列表