AB-Arts
3daihardware

Du croquis au rendu : un agent IA orchestre Rhino, ComfyUI, Blender

AB-Arts
4 juin 2026 · 8 min de lecture
Du croquis au rendu : un agent IA orchestre Rhino, ComfyUI, Blender

Imaginez un mardi matin dans une agence d'architecture bruxelloise. Le client présente sa demande à neuf heures et attend, pour le jeudi midi, trois ambiances photoréalistes d'une même façade. Une variante diurne, une nocturne, une troisième en fin de journée, lumière rasante. Quarante-huit heures. L'architecte associé regarde son équipe, qui regarde l'écran, qui regarde le café. Avant, il aurait fallu trois personnes, six logiciels, et un travail de relais à la chaîne. Désormais, une nouvelle approche se dessine : Nous Research et NVIDIA ont montré récemment comment un agent IA local peut relier Rhino, ComfyUI et Blender en un seul pipeline, tournant sur une machine compacte posée sous le bureau.

Le quotidien d'un atelier d'archi tient dans cette mécanique : du croquis main au modèle volumétrique, du modèle au rendu d'ambiance, du rendu au compositing pour la planche de présentation. Chaque transition coûte un export, un import, un ajustement de matériaux, une attente. La proposition vue chez NVIDIA et Nous Research est différente : un agent IA orchestre les trois logiciels comme un chef d'atelier orchestrerait trois compagnons, en s'appuyant sur une infrastructure locale qui rend l'ensemble pratiquable hors-cloud.

Le pipeline en bref : Rhino, ComfyUI, Blender

La mécanique est simple à décrire. L'architecte trace son volume dans Rhino, comme il l'a toujours fait : courbes NURBS, axonométries, exports au format standard. L'agent IA récupère ce modèle, en extrait une vue cadrée, l'envoie dans ComfyUI pour générer plusieurs propositions d'ambiance (matériaux, ciel, végétation, lumière) à partir d'un prompt textuel ou d'une référence visuelle. Les ambiances retenues retournent dans Blender, où elles servent de texture de fond et de référence lumineuse pour un rendu 3D final, composite, livrable.

ComfyUI mérite un mot d'explication : c'est un éditeur de nœuds open source, c'est-à-dire une toile sur laquelle on relie visuellement les étapes d'un traitement IA. Stable Diffusion, ControlNet, et la plupart des modèles d'image générative s'y branchent en quelques clics. Pour un architecte, l'intérêt de ComfyUI dans ce pipeline tient en un mot : la cohérence. On garde la même structure volumétrique entre les variantes, seul l'habillage chromatique change. La façade reste la façade ; ce qui bouge, c'est le ciel et la matière.

Blender, de son côté, fait office de salle de mixage. C'est là que le rendu 3D du volume Rhino se compose avec les ambiances ComfyUI, que les ombres se posent, que la lumière se cale. Le moteur Cycles ou Eevee s'en charge, selon que l'on privilégie la qualité photoréaliste ou la rapidité d'itération. À noter, le passage par Blender garantit que la géométrie reste éditable jusqu'à la toute fin : si le client demande de monter d'un étage, on monte d'un étage, et le pipeline se relance.

Le rôle de l'agent : ce qui change pour l'architecte

L'agent IA, dans cette histoire, n'est pas un nouvel outil de plus à apprendre. C'est ce qui relie tout le reste. Nous Research a baptisé le sien Hermes Agent, mais la mécanique est transposable à un agent Claude ou à un script Claude Code équivalent. Concrètement, l'agent reçoit une consigne en langage naturel (« génère-moi trois variantes diurnes de ce volume, avec des matériaux différents »), planifie les étapes, ouvre Rhino, exporte, lance ComfyUI, attend les résultats, sélectionne ceux qui passent un filtre de cohérence, les passe à Blender, lance le rendu, livre les fichiers dans le dossier projet.

Cette orchestration tenait, jusqu'à récemment, du bricolage de scripts maison. Désormais, elle entre dans le cadre standard des agents IA, avec leur outillage (mémoire de session, gestion d'erreurs, reprise automatique en cas de plantage). Pour l'architecte, le changement de posture est radical : il cesse de manipuler trois logiciels à la suite, il dirige un agent. Il dit ce qu'il veut, vérifie ce que l'agent rapporte, ajuste sa consigne si nécessaire. Le geste de design s'épure.

💡 L'architecte reste auteur. L'agent devient l'assistant qui exécute, et la machine, le studio qui héberge le travail.

Cette répartition des rôles est essentielle, et c'est précisément ce que notre pratique production défend dans chaque projet : l'IA ne remplace pas le geste créatif, elle élague le travail répétitif autour. L'architecte garde la main sur l'intention, la composition, la matérialité ; il délègue à l'agent ce qui était, jusqu'ici, du temps perdu en imports-exports.

Le hardware qui rend ça local : NVIDIA RTX Spark

Tout ce pipeline pourrait, en théorie, tourner dans le cloud. En pratique, deux problèmes s'imposent. Le premier, c'est la confidentialité : un projet d'architecture est un actif sensible, qu'aucun client ne veut voir transiter par des serveurs étrangers. Le second, c'est la latence : itérer dix fois sur une ambiance, c'est dix allers-retours vers un datacenter, dix attentes, dix factures. C'est là qu'intervient le NVIDIA RTX Spark, qu'on évoque déjà dans notre article sur le portable IA personnel.

RTX Spark, dans sa version desktop compacte, tient sur un coin de bureau et fait tourner localement des modèles de plus de soixante-dix milliards de paramètres. C'est l'équivalent d'un mini-datacenter personnel, dimensionné précisément pour l'inférence d'agents IA, le rendu et la génération d'images. Pour le pipeline qui nous occupe, cela signifie que ComfyUI et l'agent Hermes (ou Claude) tournent sur la même machine que Rhino et Blender, sans connexion externe obligatoire. Les données du projet ne quittent jamais le studio.

Au passage, ce que cela rend possible va au-delà de la simple performance. Cela installe un atelier numérique complet, autonome, qui n'attend plus de quota d'API ni de bande passante stable pour produire. Une équipe de cinq personnes peut, dorénavant, équiper son studio d'une machine à dix mille euros et reproduire chez elle ce qu'une agence cloud-first paye en abonnement mensuel.

Pipeline manuel contre pipeline orchestré : la comparaison qui compte

Pour mesurer l'écart, il faut poser les deux côtés du tableau. Voici ce que l'on observe sur un cas réel d'agence, une façade à trois ambiances livrables.

Le gain ne se mesure pas seulement en heures. Il se mesure aussi dans la qualité de la décision. Quand on peut itérer vingt fois plutôt que trois, on explore davantage de pistes, on rejette plus vite les mauvaises, on stabilise une intention plus juste avant de la livrer. C'est cette marge de manœuvre, pas la pure vitesse, qui transforme la valeur du livrable.

Limites et maturité : ce qu'il faut savoir avant de s'y mettre

Cela dit, ce pipeline n'est pas encore un produit clé en main. La démonstration filmée par NVIDIA et Nous Research a été calibrée, et la transition d'un cas de démo à une production réelle demande du travail. Trois points méritent d'être nommés clairement.

D'abord, la cohérence multi-variante. ComfyUI, branché sur Stable Diffusion ou un modèle d'image équivalent, peut générer des ambiances qui dérivent légèrement les unes des autres. Tenir trois variantes strictement cohérentes (même façade, mêmes proportions, seul l'habillage qui change) demande un réglage fin des ControlNet et de la passe de référence. Ce n'est pas plug-and-play.

Ensuite, la formation de l'agent. Un agent générique sait orchestrer les outils ; un agent utile sait aussi quelles erreurs intercepter, quelles variantes filtrer, quelle qualité valider. Cette intelligence métier n'est pas dans le modèle de base, elle se construit avec un atelier, en répétant les boucles, en notant ce qui marche. Compter quelques semaines de mise au point avant qu'un agent soit véritablement productif sur un studio donné.

Enfin, la machine. Un RTX Spark coûte aujourd'hui plusieurs milliers d'euros, et il faut compter l'écosystème logiciel autour (licences Rhino, Blender gratuit, ComfyUI open source, agent Claude ou équivalent). Le ticket d'entrée n'est pas négligeable, même s'il reste bien en dessous d'un abonnement cloud sur cinq ans.

Pour qui c'est mûr aujourd'hui

De ces limites, on tire un profil clair de qui devrait s'y mettre maintenant. Les agences de cinq à vingt personnes, qui produisent plusieurs concours et plusieurs présentations clients par mois, sont les premières gagnantes. Le retour sur investissement se calcule en six à douze mois, à condition d'avoir un référent technique en interne, ou un partenaire qui prend en charge la mise en route.

Les indépendants et les très petits ateliers, eux, gagneraient plutôt à commencer par la pièce hardware seule (un poste de travail bien dimensionné, ComfyUI sans agent), et à laisser l'orchestration pour une seconde phase. La courbe d'apprentissage est moins raide en deux temps.

Les très grandes agences, enfin, ont déjà leurs pipelines, leurs licences, leurs équipes dédiées. Pour elles, l'enjeu est moins le hardware que l'intégration avec un existant souvent lourd : BIM, IFC, plateformes collaboratives. C'est précisément le type de transition que nos formations sur les agents et l'orchestration abordent, à la fois techniquement et organisationnellement.


La prochaine étape pour un atelier d'architecture

Si la lecture de cet article éveille un projet concret, l'enchaînement est clair. Démarrer par un POC, c'est-à-dire une preuve de concept sur un cas réel et limité, avec une seule façade et trois ambiances. Mesurer le gain, ajuster, et seulement ensuite généraliser. Cette discipline du test borné, plutôt que du grand chantier IA en une fois, est ce qui distingue les studios qui réussissent leur bascule de ceux qui se perdent dans l'effet de mode.

→ Pour explorer cette discipline en profondeur, parcourez nos masterclasses sur les agents et l'orchestration IA. Pour un POC sur mesure dans votre agence (mise en place de l'agent, configuration du pipeline Rhino-ComfyUI-Blender, formation de l'équipe), écrivez-nous depuis la page contact.

AB-Arts · Studio créatif & Academy

Passez de la lecture à la production.

Ce qu'on teste ici, on l'exécute pour vous. AB-Arts conçoit, forme et accompagne : trois manières de travailler ensemble, une seule équipe sous un même toit.

Production digitale

Web, motion, vidéo, image et campagnes. Du concept au master, une production complète sous un seul toit.

Plus d'informations
Formation

AB-Academy forme vos équipes à l'IA, aux workflows et aux outils créatifs. Sur site ou à distance.

Découvrir les formations
Accompagnement

Audit, conseil, automatisation. On débroussaille votre environnement digital, et on développe ce qui manque.

Demander un audit
Réponse sous 48hDevis indicatifSans engagement