导读 麻省理工学院的研究人员与MIT-IBM Watson AI 实验室合作和其他机构合作,推出了一种创新的计算机视觉模型,旨在显着降低语义分割的计算
麻省理工学院的研究人员与MIT-IBM Watson AI 实验室合作和其他机构合作,推出了一种创新的计算机视觉模型,旨在显着降低语义分割的计算复杂性。
这一突破使得该模型能够在硬件资源有限的设备上高效地执行实时语义分割,例如自动驾驶汽车中使用的车载计算机。
语义分割是自动驾驶汽车的一项关键任务,涉及快速准确地识别场景中的物体,从静止的送货卡车到快速接近的骑自行车的人。传统上,由于随着图像分辨率的提高,计算需求呈二次方增长,最先进的模型很难实时处理高分辨率图像。
麻省理工学院团队推出了一种新颖的语义分割模型构建块,它保持了现有模型的准确性,但具有线性计算复杂性和硬件高效操作。这一发展催生了一个名为 EfficientViT 的新模型系列,当部署在移动设备上时,该模型的执行速度比以前的模型快九倍,同时保持或超越其准确性。
EfficientViT 模型系列的关键创新在于其构建注意力图的方法,该方法捕获图像中像素之间的关系。与依赖非线性相似函数的现有模型不同,麻省理工学院的研究人员采用了线性相似函数,使他们能够在不牺牲全局感受野的情况下简化计算。然而,这种线性方法往往会丢失一些局部信息,导致研究人员合并额外的组件以重新获得准确性,同时最大限度地减少增加的计算。
高效ViT硬件友好架构使其适用于各种设备,从虚拟现实耳机到自动驾驶车辆边缘计算机,它还可以应用于其他计算机视觉任务,例如图像分类。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!