苹果再次让科技界竖起眉毛,这次不是通过iPhone或Mac,而是通过开源AI研究。该公司发布了一个名为SHARP的模型,这是一种能够在不到一秒的时间内将一张2D照片转换为逼真3D照片视图的技术。
该研究的标题为“在不到一秒钟内实现尖锐单目视图合成”。它的原理很简单,但影响很大:从一张静态图像,SHARP能够重建一个3D场景的表示,其规模和距离是明显一致的,而不仅仅是视觉错觉。
它依赖于所谓的3D高斯表示。简单地说,这是一个包含颜色和光信息的小“blob”的数百万个,放置在三维空间中的blob。当它们结合在一起时,这些blob重构了一个从不同的角度可以看到的场景,只要它仍然接近原始相机的位置。
SHARP 的突出之处在于其效率。以前的高斯溅射方法通常需要数十到数百张来自不同角度的照片来构建 3D 场景。SHARP 只需要一张照片,在一次神经网络前向传递中处理,并在标准 GPU 上完成,时间不到一秒。
Apple 在大规模上训练了SHARP,使用合成和真实世界数据组合。结果,该模型能够猜测深度,通过已学习的几何图案对其进行微调,然后直接预测数百万个3D高斯的位置和外观。所有这些都是在没有缓慢的场景优化过程的情况下完成的。
苹果公司表示,SHARP在性能方面取得了重大飞跃。据报道,与之前的最佳方法相比,该模型大大降低了视觉误差,同时将合成时间缩短了数千倍。简而言之,它更快,更稳定,更逼真。
SHARP 的重点是呈现与原始照片接近的视角,而不是创造一个以前从未见过的场景部分。用户不能像在开放世界游戏中那样“走得远”地绕过物体。这种限制恰恰是SHARP如何闪电般地快速,同时仍然看起来合理的关键。
值得注意的是,苹果并没有将这项技术保密。SHARP在GitHub上以开源的形式发布,社区立即开始试验。在几天内,用户已经尝试将其用于视频、4D高斯可视化,以及Apple初始场景之外的创造性实验。
这揭示了苹果公司鲜为人知的一面:在基础AI研究方面咄咄逼人,并有足够的信心将其成果向世界开放。SHARP可能不是明天的iOS功能,但它概述了Apple视觉内容,AR和空间计算的未来方向。
一张照片,一个三维空间,几乎是瞬间的。如果这只是研究,那么最终的产品很可能让其他行业也开始挠头。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)