据《自然·通讯》杂志20日报道,美国亚利桑那大学研究团队宣布,向赋予机器“超人级三维(3D)视觉”的目标迈进了一大步。他们开发出一种新型3D成像技术,攻克了机器在复杂场景中难以同时识别反光与非反光物体的关键障碍,让机器“看得更快、更清晰”,甚至超越人类。该技术未来可用于自动驾驶导航、机器人手术、工业检测、生物医学成像等领域。
实验室验证了这项新技术的原理。
使用激光扫描仪扫描混合反射场景(左图)。
通过计算分离场景中的遮罩部分和镜面部分后,直接评估遮罩部分的3D形状,并通过遮罩部分的反射信号评估镜面部分,从而有效地将其转化为用于镜面测量的大型虚拟屏幕(右图)。
图源:美国亚利桑那大学
人类本身就拥有天然的3D相机系统,即双眼立体视觉。这种能力对机器却并不容易。自动驾驶汽车和手术机器人依赖3D传感器感知世界,但在真实环境中,镜子、玻璃、金属等反光物体常让它们“看走眼”。原因在于,现有多数设备只能适应单一表面:要么识别墙壁、布料等漫反射物体,要么识别镜面和金属等高反射物体。而现实场景往往两者混杂,比如客厅既有窗户和镜面家具,也有沙发和墙壁;手术现场既有湿润组织,也有皮肤,因此设备常常失效。
这张图展示了实验室中的原型机。
传感器由激光扫描仪和事件相机(右侧)组成,用于扫描混合反射场景(左侧)。
通过计算分离场景中的遮光部分和镜面部分后,直接评估遮光部分的3D形状,并通过遮光部分的反射信号评估镜面部分,从而有效地将其转化为用于镜面测量的大型虚拟屏幕。
图源:美国亚利桑那大学
传统方法需要用巨大屏幕包围目标,通过反射图案来推算形状。为了检测汽车车身,甚至要搭建像隧道一样的大型设备。此次,研究团队提出的新方法基于一种叫“偏折测量法”的技术。这种方法通过观察屏幕图案在反光表面上的变形,来推算物体形状。这种反其道而行之的方法,相当于直接把周围环境变成了一块巨大的“虚拟屏幕”。
图示为采用新型传感器技术对混合反射场景进行三维扫描的示意图。
激光线扫描场景。通过计算分离场景中的哑光部分和镜面部分后,直接评估哑光部分的三维形状,并通过哑光部分的反射信号评估镜面部分,从而有效地将其转化为用于镜面测量的大型虚拟屏幕。
图源:美国亚利桑那大学
根据新方法,研究团队先用激光扫描整个房间,再用算法区分哪些区域反光、哪些不反光。随后,墙壁、家具、地板等不反光区域都能被重新利用,充当测量镜面物体的“显示屏”。
混合反射场景包含表面反射率各异的物体,从哑光(木盒)到镜面反射(镀铬小雕像)再到介于两者之间的反射(植物、雕像)。激光(绿光)扫描整个场景。
通过计算分离场景中的哑光和镜面部分后,直接评估哑光部分的3D形状,并通过哑光部分的反射信号评估镜面部分,从而有效地将其转化为用于镜面测量的大型虚拟屏幕。
图源:美国亚利桑那大学
团队还使用了一种神经形态事件相机。与普通相机逐帧记录不同,它只捕捉发生变化的部分,因此能以更高速度获取动态3D画面,并同时适应极亮和极暗环境。
研究人员表示,这项技术还未走出实验室,但其原理具有可扩展性,未来可用于从微小血管到整栋建筑的三维成像,为自动驾驶、机器人和医疗设备提供更可靠的“眼睛”。
(来源:科技日报 记者:张佳欣)

发表评论 取消回复