• bannière

OpenAI Point E : créez un nuage de points 3D à partir de formes d'onde complexes en quelques minutes sur un seul GPU

Dans un nouvel article Point-E : Un système pour générer des nuages ​​de points 3D à partir de signaux complexes, l'équipe de recherche OpenAI présente Point E, un système de synthèse conditionnelle de texte de nuage de points 3D qui utilise des modèles de diffusion pour créer des formes 3D variées et complexes pilotées par un texte complexe. indices.en quelques minutes sur un seul GPU.
Les performances étonnantes des modèles de génération d'images de pointe d'aujourd'hui ont stimulé la recherche dans la génération d'objets texte 3D.Cependant, contrairement aux modèles 2D, qui peuvent générer une sortie en quelques minutes, voire secondes, les modèles génératifs d'objets nécessitent généralement plusieurs heures de travail GPU pour générer un seul échantillon.
Dans un nouvel article Point-E : Un système pour générer des nuages ​​de points 3D à partir de signaux complexes, l'équipe de recherche d'OpenAI présente Point·E, un système de synthèse conditionnelle textuelle pour les nuages ​​de points 3D.Cette nouvelle approche utilise un modèle de propagation pour créer des formes 3D variées et complexes à partir de signaux textuels complexes en seulement une minute ou deux sur un seul GPU.
L'équipe se concentre sur le défi de la conversion de texte en 3D, ce qui est essentiel pour démocratiser la création de contenu 3D pour des applications du monde réel allant de la réalité virtuelle et des jeux au design industriel.Les méthodes existantes de conversion de texte en 3D se divisent en deux catégories, chacune ayant ses inconvénients : 1) les modèles génératifs peuvent être utilisés pour générer efficacement des échantillons, mais ne peuvent pas être mis à l'échelle efficacement pour des signaux de texte divers et complexes ;2) un modèle texte-image pré-entraîné pour gérer des indices textuels complexes et variés, mais cette approche est gourmande en calculs et le modèle peut facilement se coincer dans des minima locaux qui ne correspondent pas à des objets 3D significatifs ou cohérents.
Par conséquent, l'équipe a exploré une approche alternative qui vise à combiner les points forts des deux approches ci-dessus, en utilisant un modèle de diffusion texte-image formé sur un large ensemble de paires texte-image (ce qui lui permet de gérer des signaux divers et complexes) et un modèle de diffusion d'images 3D formé sur un ensemble plus petit de paires texte-image.jeu de données de paire image-3D.Le modèle texte-image échantillonne d'abord l'image d'entrée pour créer une seule représentation synthétique, et le modèle image-3D crée un nuage de points 3D basé sur l'image sélectionnée.
La pile générative de la commande est basée sur des cadres génératifs récemment proposés pour la génération conditionnelle d'images à partir de texte (Sohl-Dickstein et al., 2015 ; Song & Ermon, 2020b ; Ho et al., 2020).Ils utilisent un modèle GLIDE avec 3 milliards de paramètres GLIDE (Nichol et al., 2021), affiné sur des modèles 3D rendus, comme modèle de transformation texte-image, et un ensemble de modèles de diffusion qui génèrent des nuages ​​de points RVB comme leur modèle de transformation.images à image.Modèles 3D.
Alors que les travaux précédents utilisaient des architectures 3D pour traiter les nuages ​​de points, les chercheurs ont utilisé un modèle simple basé sur des transducteurs (Vaswani et al., 2017) pour améliorer l'efficacité.Dans leur architecture de modèle de diffusion, les images de nuages ​​de points sont d'abord introduites dans un modèle CLIP ViT-L/14 pré-formé, puis les maillages de sortie sont introduits dans le convertisseur en tant que marqueurs.
Dans leur étude empirique, l'équipe a comparé la méthode Point·E proposée avec d'autres modèles 3D génératifs sur les signaux de notation des ensembles de données de détection, de segmentation et de signature d'objets COCO.Les résultats confirment que Point·E est capable de générer des formes 3D diverses et complexes à partir de signaux textuels complexes et d'accélérer le temps d'inférence d'un à deux ordres de grandeur.L'équipe espère que son travail inspirera de nouvelles recherches sur la synthèse de texte 3D.
Un modèle de propagation de nuage de points pré-entraîné et un code d'évaluation sont disponibles sur le GitHub du projet.Document Point-E : Un système pour créer des nuages ​​de points 3D à partir d'indices complexes est sur arXiv.
Nous savons que vous ne voulez manquer aucune actualité ou découverte scientifique.Abonnez-vous à notre populaire newsletter Synced Global AI Weekly pour recevoir des mises à jour hebdomadaires sur l'IA.


Heure de publication : 28 décembre 2022