アップルがオープンソースのSHARPモデルをリリース、2D写真が数秒で3D表示になる可能性

ジャカルタ - アップルは再び技術コミュニティを眉をひそめさせ、今回はiPhoneやMacではなく、オープンソースのAI研究を通じてです。同社はSHARPという名前のモデルをリリースし、2D写真から1秒以内に写真に写実的な3D表示に変換できる技術です。

このモデルは、1秒以内にシャープな単眼ビュー合成というタイトルの研究で紹介されています。そのポイントはシンプルですが、その影響は大きいです。静止画から、SHARPは、単なる視覚的錯覚ではなく、スケールと距離が実質的に一貫した3Dシーンの表現を再構築することができます。

動作方法は、いわゆる3Dガウス表現に依存します。簡単に言うと、これは色と光の情報を格納した何百万もの小さな「塊」であり、3次元空間内に配置されています。これらの塊が組み合わさると、元のカメラの位置に近づく限り、異なる視点から見ることができるシーンが再形成されます。

SHARPが際立っているのはその効率です。以前のガウススプラッティングアプローチは、通常、3Dシーンを構築するために、さまざまな角度からの数十から数百もの写真が必要です。SHARPは、1回のフォワードパスニューラルネットワークで処理された1枚の写真しか必要としず、標準的なGPUで1秒以内に完了します。

Appleは、大規模な合成データと現実世界の組み合わせを使用してSHARPをトレーニングしました。その結果、このモデルは深さを推測し、学習した幾何学的パターンでそれを改善し、数百万のガウシアン3Dの位置と外観を直接予測することができます。すべてはシーンごとの遅い最適化プロセスなしで行われます。

パフォーマンス面では、AppleはSHARPが大きな飛躍を遂げたと主張しています。このモデルは、以前の最良の方法と比較して、視覚的なエラーを大幅に削減し、合成時間を数千倍短縮したと報告されています。簡単に言えば、より速く、より安定し、より現実的です。

これは意図的な妥協です。SHARPは、以前はまったく見えないシーンの一部を作成するのではなく、元の写真にまだ近い視点のレンダリングに焦点を当てています。ユーザーは、オープンワールドゲームのように、オブジェクトを「遠く」に移動することはできません。この制限は、SHARPが非常に速く、それでも理にかなっているように見える理由の鍵です。

興味深いことに、Appleはこの技術を密に保管していません。SHARPはGitHubでオープンソースとしてリリースされ、コミュニティはすぐに実験しました。数日で、ユーザーはビデオ、4Dガウスビジュアライゼーション、Appleの初期シナリオ外の創造的な実験にそれを適用しようとしました。

このステップは、広く一般に知られていないアップルの側面を示しています。基礎的なAI研究で積極的であり、その結果を世界に公開するのに十分な自信を持っています。SHARPは明日の朝のiOS機能ではないかもしれませんが、Appleのビジュアルコンテンツ、AR、および空間計算の将来の方向性を示しています。

1枚の写真、つまり3次元空間はほぼ瞬時に。これが研究の段階なら、製品は他の業界も頭を掻くことになる可能性が高いでしょう。