ジャカルタ - アップルは再び技術コミュニティを眉をひそめさせ、今回はiPhoneやMacではなく、オープンソースのAI研究を通じてです。同社はSHARPという名前のモデルをリリースし、2D写真から1秒以内に写真に写実的な3D表示に変換できる技術です。
このモデルは、1秒以内にシャープな単眼ビュー合成というタイトルの研究で紹介されています。そのポイントはシンプルですが、その影響は大きいです。静止画から、SHARPは、単なる視覚的錯覚ではなく、スケールと距離が実質的に一貫した3Dシーンの表現を再構築することができます。
動作方法は、いわゆる3Dガウス表現に依存します。簡単に言うと、これは色と光の情報を格納した何百万もの小さな「塊」であり、3次元空間内に配置されています。これらの塊が組み合わさると、元のカメラの位置に近づく限り、異なる視点から見ることができるシーンが再形成されます。
SHARPが際立っているのはその効率です。以前のガウススプラッティングアプローチは、通常、3Dシーンを構築するために、さまざまな角度からの数十から数百もの写真が必要です。SHARPは、1回のフォワードパスニューラルネットワークで処理された1枚の写真しか必要としず、標準的なGPUで1秒以内に完了します。
Appleは、大規模な合成データと現実世界の組み合わせを使用してSHARPをトレーニングしました。その結果、このモデルは深さを推測し、学習した幾何学的パターンでそれを改善し、数百万のガウシアン3Dの位置と外観を直接予測することができます。すべてはシーンごとの遅い最適化プロセスなしで行われます。
パフォーマンス面では、AppleはSHARPが大きな飛躍を遂げたと主張しています。このモデルは、以前の最良の方法と比較して、視覚的なエラーを大幅に削減し、合成時間を数千倍短縮したと報告されています。簡単に言えば、より速く、より安定し、より現実的です。
これは意図的な妥協です。SHARPは、以前はまったく見えないシーンの一部を作成するのではなく、元の写真にまだ近い視点のレンダリングに焦点を当てています。ユーザーは、オープンワールドゲームのように、オブジェクトを「遠く」に移動することはできません。この制限は、SHARPが非常に速く、それでも理にかなっているように見える理由の鍵です。
興味深いことに、Appleはこの技術を密に保管していません。SHARPはGitHubでオープンソースとしてリリースされ、コミュニティはすぐに実験しました。数日で、ユーザーはビデオ、4Dガウスビジュアライゼーション、Appleの初期シナリオ外の創造的な実験にそれを適用しようとしました。
このステップは、広く一般に知られていないアップルの側面を示しています。基礎的なAI研究で積極的であり、その結果を世界に公開するのに十分な自信を持っています。SHARPは明日の朝のiOS機能ではないかもしれませんが、Appleのビジュアルコンテンツ、AR、および空間計算の将来の方向性を示しています。
1枚の写真、つまり3次元空間はほぼ瞬時に。これが研究の段階なら、製品は他の業界も頭を掻くことになる可能性が高いでしょう。
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)