3月12日,谷歌AI在其官方博客上发布了一款名为MediaPipe Objectron的算法框架,利用这个算法框架,只要一部手机,就能实时从2D视频里识别3D物品的位置、大小和方向。这一技术可以帮助机器人,自动驾驶汽车,图像检索和增强现实等领域实现一系列的应用。
分开来解释,MediaPipe是一个开源代码跨平台框架,主要用于构建处理不同形式的感知数据,而 Objectron在MediaPipe中实现,并能够在移动设备中实时计算面向对象的3D边界框。
在计算机视觉领域里,跟踪3D目标是一个棘手的问题,尤其是在有限的计算资源上,例如,智能手机上。由于缺乏数据,以及需要解决物体多样的外观和形状时,而又仅有可2D图像可用时,情况就会变得更加困难。
为了解决这个问题,谷歌Objectron团队开发了一套工具,可以用来在2D视频里为对象标注3D边界框,而有了3D边界框,就可以很容易地计算出物体的姿态和大小。注释器可以在3D视图中绘制3D边界框,并通过查看2D视频帧中的投影来验证其位置。对于静态对象,他们只需在单个帧中注释目标对象即可。

