2025-10-25 20:31:15
作者:科技
分享:
【导语】近年来,人工智能浪潮席卷多领域,深度学习更颠覆了机器视觉。机器视觉如何“看”世界?相比人眼,它有何优势?从(cóng)20世(shì)纪(jì)60年(nián)代(dài)萌(méng)芽(yá),到(dào)如(rú)今(jīn)AI驱(qū)动(dòng)新(xīn)时(shí)代(dài),机(jī)器(qì)视(shì)觉(jué)已(yǐ)在(zài)电(diàn)磁(cí)波(bō)谱(pǔ)、生(shēng)活(huó)场(chǎng)景(jǐng)、跨(kuà)学(xué)科(kē)领(lǐng)域等(děng)“大(dà)显(xiǎn)身(shēn)手(shǒu)”,成(chéng)为(wèi)人(rén)类(lèi)探(tàn)索(suǒ)未(wèi)知(zhī)的(de)“智(zhì)慧(huì)之(zhī)眼(yǎn)”。
近(jìn)年(nián)来(lái),人(rén)工智能的快速发展让多个领域发生了重要变化。作为人工智能的核心分支,深度学习的高速发展也对机器视觉产生了颠覆性的影响。
究竟何为机器视觉?机器何以“看见”?相比人眼,机器视觉具有何种优势?又能在哪些领域发挥重要作用?
机器视觉的“前世今生”
众所周知,人类借助五种主要感官认识世界,其中获取信息的(de)80%来(lái)自(zì)视(shì)觉(jué)。我(wǒ)们(men)之(zhī)所(suǒ)以(yǐ)能(néng)获(huò)取(qǔ)所(suǒ)看(kàn)到(dào)的(de)信(xìn)息(xi),其(qí)实(shí)是(shì)由(yóu)物(wù)体(tǐ)的(de)反(fǎn)射(shè)光(guāng)照(zhào)到(dào)人(rén)眼(yǎn)中(zhōng),再(zài)借(jiè)助(zhù)眼(yǎn)中(zhōng)的(de)光(guāng)感(gǎn)受(shòu)器(qì)将(jiāng)光(guāng)信(xìn)号(hào)转(zhuǎn)化(huà)为(wèi)电(diàn)信(xìn)号(hào),然(rán)后(hòu)交(jiāo)给(gěi)大(dà)脑(nǎo)进(jìn)行(xíng)处(chù)理(lǐ),从(cóng)而(ér)形(xíng)成(chéng)人类视觉。
视觉作为人类最高级别的感知对于人们而言非常重要,而在机器的世界里,视觉的重要性也不可小觑。所谓机器视觉便是为机器装上“眼睛”,用传感器来代替人眼,以电脑来代替人脑,自动处理分析图像或视频,使机器能够“看懂”环境并自主决策的技术。
事实上,机器视觉的出现可追溯至20世纪60年代。1963年,机器视觉领域出现了第一篇博士论文《三维实体的机器感知》,论文的作者为美国麻省理工大学的劳伦斯·吉尔曼·罗伯茨(L. G. Roberts),他利用计算机程序从数字图像中提取出立方体、楔形体、棱柱体等多面体的三维结构,并对物体形状及物体的空间关系进行描述。在这一阶段,机器视觉技术隶属于模式识别领域,主要集中在二维图像的分析和识别上,最典型的应用包括文件里的字符识别、工件表面的处理、分析和解释等。
1973年,英国神经系统学家与心理学家大卫·马尔(DavidC.Marr)教授应邀在美国麻省理工大学的AI实验室领导一个研究小组,建立了一套视觉计算理论,使该领域的研究有了较为明确的体系,极大地推动了机器视觉研究的发展。令人感到惋惜的是,大卫·马尔教授因为身体原因很早便过世了,在他去世后,他带领的研究小组根据他在1973-1977年间进行的研究,整理出一本学术著作——《视觉》,这本专著的问世也标志着计算机视觉(机器视觉)成为一门独立学科,他也被誉为计算机视觉领域的“开山鼻祖”。
20世纪80年代至今,机器视觉领域飞速发展。硬件性能从早期集成电路计算机发展到GPU等高性能芯片,数据资源从早期少量手写数字数据到如今的海量图像数据。同时,机器视觉领域的算法也实现了持续优化,从(cóng)基(jī)于(yú)规(guī)则(zé)的(de)算(suàn)法(fǎ)发(fā)展到基于深度学习的算法,而在应用领域方面,早期简单的字符识别已是过去式,如今已能够实现视觉导航与人机交互。由此可见,机器视觉在近40多年间,在多个方面都展现出了长足的进步。
伴随着近些年AI领域的崛起,深度学习在计算机视觉领域出现了崭新突破,标志着机器视觉进入了AI驱动的新时代。
复杂的机器视觉系统
与人眼类似,若想使机器拥有获取并处理信息的能力,也需要一套完整的体系,包括图像采集系统、视觉信息处理软件、显示器、处理器单元、机械控制软件,以及执行机构。
实际运行过程中,先由图像采集系统获取视觉(图像)信息,类似用照相机拍摄一张照片,然后将图像传给视觉信息处理软件,进行图像的分析与决策,而这些工作由处理器单元来执行操作,其就像机器的“大脑”,负责视觉算法运行,显示器则负责呈现视觉算法的运行结果。同样,也可以将决策结果传给机械控制软件,它会根据决策指导运动或操作,随后交由执行机构根据控制信息完成相应操作。
随着机器视觉领域的不断发展,领域内的研究内容也愈加广泛。机器视觉领域的研究人员常会(huì)选取其中部分细分领域进行深入研究,如图像分类、目标检测与识别、图像语义分割、目标跟踪、立体视觉与三维重建、视频理解与行为分析、医学影像分析、三维理解与视觉导航等。
和人类视觉相比,机器视觉拥有超强的信号感知能力和对海量数据的快速分析能力,系统稳定性高且不知疲倦,因而常被应用于不同领域。
在整个电磁波谱“大显身手”
尽管是一个只有几十年发展史的新兴学科,机器视觉却已经在图像处理领域彰显出庞大力量。目前,机器视觉系统处理的最主要的数据来源是电磁波谱成像,此外还包括声波、超声波等。在整个电磁波谱上,几乎所(suǒ)有(yǒu)的(de)电磁波都可以成像,因而人们利用不同的传感器去形成数字图像数据,再利用图像处理或机器视觉技术完成工业生产、医疗诊断等科学探索的视觉任务。
在电磁波谱的最左端是波长最短、能量最强的伽马射线,它的图像主要应用于核医学和天文图像中。医院里,人们有时会见到正电子发射计算机断层显像设备(PET),其被用于骨骼病变的定位。检查时,将放射性同位素注射到人体(tǐ)内(nèi),这(zhè)些(xiē)同位素会发生衰变,同时发出伽马射线,再利用伽马射线检测仪收集放射线产生图像。如果人体存在病变或肿瘤,该部位吸收的放射性元素就会更多,放射出来的伽马射线更强,因此会在图像里呈现很亮的状态,医生就能够根据图像亮度的分布进行诊断。
与伽马射线相邻的是大家相对熟悉的X射线,其被广泛应用于医学、天文、工业图像等。医学检查中的CT——计算机X射线断层摄影仪器,便是运用了X射线,其穿透人体时,能使人体组织在荧屏上或胶片上形成影像。基于X射线的穿透性、荧光效应和感光效应,以及人体组织之间的密度和厚度的差别,医生能够根据图像的颜色进行诊断。以下图头部CT图像为例,骨骼密度最高,因此吸收的X射线最多,因而在图像上呈现白色;肌肉和液体密度中等,所以吸收中等强度的X射线而呈现灰色,如大脑组织与眼球;气体和脂肪密度最低,所以吸收的X射线最少,因而在图像中显现为黑色或深灰色。

此外,紫外波段、可见光、红(hóng)外(wài)波(bō)段、微波波段、无线电波段均可被机器视觉系统处理。其中,紫外波段应用于工业检测、显微方法、生物成像、天文观测等;可见光广泛应用于显微方法、天文学、遥感、工业检测等领域;红外波段广泛应用于显微方法、天文学、遥感、工业等领域;微波图像的典型应用则是星载雷达;无线电波段则主要应用于医学和天文学,在医学领域,主要用于核磁共振图像(MRI),其与CT相比,图像更为清晰,对于软组织成像的效果更佳。
身边的机器视觉
除医学领域的影像学检查之外,生活中也处处存(cún)在(zài)着(zhe)机(jī)器(qì)视(shì)觉(jué)的(de)痕(hén)迹(jī)。旅(lǚ)游(yóu)中(zhōng)拍(pāi)摄(shè)风(fēng)景(jǐng)照(zhào)时(shí),人(rén)们(men)常(cháng)会(huì)发(fā)现(xiàn)照(zhào)片(piàn)中(zhōng)的(de)颜(yán)色(sè)相(xiāng)比(bǐ)肉(ròu)眼(yǎn)看(kàn)到(dào)的(de)实(shí)景(jǐng)更(gèng)为(wèi)鲜(xiān)艳(yàn),鲜(xiān)花(huā)绿(lǜ)草(cǎo)更(gèng)为(wèi)明(míng)艳(yàn),灰(huī)蒙(méng)蒙(méng)的(de)天(tiān)空(kōng)在(zài)照(zhào)片中呈现出湛蓝的美,这些便是机器视觉中的图像增强技术在默默助力。
驾驶车辆进入停车场时,入口处常能快速进行车牌自动识别,进而准确掌握车辆进场时间,这一目标的实现也依赖于机器视觉。为实现车牌号码的精准识别,先由相机拍摄车辆照片再对车牌位置进行定位,随后对字符进行分割,比对样本库,从而对每个字符进行识别,最后便能准确输出结果。
识别景与物之余,机器视觉对于人脸识别的应用更是司空见惯。在火车进站、身份认证、人脸支付等领域已实现了诸多应用。目前,人脸识别系统主要分为两类技术路线,其一是二维人脸识别,即通过相机拍摄一幅可见光的二维照片,在图片上进行一些特征点的定位和提取,然后在数据库中进行比对,进而输出最相似的面容对应的姓名。这种方式的优势在于可以直接使用普通摄像头,成本较低,但比较容易被照片或视频“欺骗”。
另一种是三维人脸识别,需要使用三维结构光相机,其中的红外发射器能够投影出一些规则图案的点阵,再将其投影在人的脸部,而红外相机则对投影之后的人脸进行拍摄,进而得到点阵的图案。由于人脸凹凸不平,所以原本设计规则的点阵在拍摄之后会发生形变,通过比较前后两个图案的变形情况,便可得到人脸的三维模型,从而在后端的数据库进行模型比对并输出结果。相比二维人脸识别,这(zhè)种(zhǒng)识(shi)别(bié)方式准确度更高。
近来关注度较高的“文本生成图像”也与机器视觉密不可分。作为一个高度融合的跨学科领域,其被称为“生成式视觉”或“视觉内容生成”。“生成式视觉”旨在生成、编辑、增强图像,利用自然语言处理(NLP)技术理解文本提示词的含义,属于计算机视觉与NLP的学科交叉。
此外,交通领域的自动驾驶与辅助驾驶,航天遥感领域的地球人造卫星、气象观测、植被覆盖率监测、城市规划分析、地物变化监测、地震救援、数字地球,深空探测领域的探月工程等,都离不开机器视觉的“鼎力支持”。
近些年,人工智能领域飞速发展,将机器视觉从一个解决特定问题的“工具箱”,转变为一个具备强大“自动学习能力”的、能够解决通用问题的“智能平台”,不仅极大地提升了机器视觉的性能上限,也拓展了机器视觉的能力和应用边界,让人们深刻体会到科技不是冰冷的代码,而是人类探索未知的“眼睛”。
撰文:记者 廖迈伦
采访专家:袁丁,北京航空航天大学宇航学院教授
本文封面图片来自版权图库,转载使用可能引发版权纠纷