Partager:

JAKARTA - Apple a de nouveau créé une communauté technologique qui a fait grimper les sourcils, cette fois-ci non pas avec un iPhone ou un Mac, mais avec une recherche d'IA open-source. La société a publié un modèle appelé SHARP, une technologie capable de transformer une photo 2D en une vue photographique 3D réaliste en moins d'une seconde.

Ce modèle est présenté dans une étude intitulée Sharp Monocular View Synthesis in Less Than a Second. Son principe est simple, mais son impact est énorme : à partir d'une seule image statique, SHARP est capable de reconstruire une représentation 3D de la scène avec une échelle et une distance réellement cohérentes, et non seulement une illusion visuelle.

Le fonctionnement repose sur une représentation gaussienne 3D. En termes simples, il s’agit de millions de « boulettes » minuscules contenant des informations sur la couleur et la lumière placées dans un espace tridimensionnel. Lorsque combinées, ces boulettes recréent un environnement qui peut être vu sous différents angles, tout en restant proche de la position de la caméra d’origine.

Ce qui rend SHARP remarquable, c'est son efficacité. Les approches de projection de points gaussiens précédentes nécessitent généralement des dizaines à des centaines de photos de différents angles pour construire un scène 3D. SHARP n'a besoin qu'une seule photo, qui est traitée en une seule passe avant du réseau neuronal, et est terminée en moins d'une seconde sur un GPU standard.

Apple a formé SHARP à l'aide d'une combinaison de données synthétiques et du monde réel à grande échelle. Le résultat est un modèle capable d'estimer la profondeur, de l'affiner avec des motifs géométriques apprises, puis de prédire directement la position et l'apparence de millions de Gaußiens 3D. Tout cela sans processus d'optimisation lent par scène.

En termes de performance, Apple affirme que SHARP a fait un saut significatif. Le modèle a été signalé comme réduisant les erreurs visuelles de manière drastique par rapport aux meilleures méthodes précédentes, tout en réduisant le temps de synthèse à des milliers de fois plus rapide. En bref, plus rapide, plus stable et plus réaliste.

SHARP est conçu pour reproduire un point de vue qui reste proche de la photo originale, au lieu de créer des parties de scènes qui étaient auparavant complètement invisibles. Les utilisateurs ne peuvent pas « marcher loin » autour d’un objet comme dans un jeu open world. Cette limitation est en fait la clé de la raison pour laquelle SHARP peut être aussi rapide et toujours sembler logique.

SHARP a été libéré en open-source sur GitHub, et la communauté a immédiatement commencé à expérimenter. Dans les jours qui ont suivi, les utilisateurs ont essayé d'appliquer la technologie à des vidéos, à des visualisations 4D gaussiennes, jusqu'à des expériences créatives en dehors du scénario initial d'Apple.

SHARP n’est peut-être pas une fonctionnalité d’iOS demain matin, mais elle donne une idée de la direction que prend l’avenir du contenu visuel, de la réalité augmentée et de l’informatique spatiale d’Apple.

Le résultat est un produit qui, si ce n'est que de la recherche, est susceptible de faire bouger d'autres industries.


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)

Add VOI as a Preferred Source
Follow VOI news updates across Google.
+