
Dévoilé par Alibaba, Qwen‑Image‑Edit est un modèle multimodal capable de modifier des images existantes avec une précision surprenante. Basé sur le modèle Qwen‑Image (20 B), il ajoute un mécanisme d’édition : l’architecture utilise deux encodeurs – Qwen2.5‑VL pour comprendre le contenu sémantique de la scène et un VAE pour contrôler l’apparence – afin de réaliser des modifications ciblées ou globaleshuggingface.co. Cette approche permet aussi bien des retouches fines (ajout, suppression ou modification d’éléments en conservant le reste de l’image) que des transformations de haut niveau (changement de perspective, rotation ou transfert de style)huggingface.co. Le modèle sait également éditer du texte dans une image en anglais ou en chinois tout en conservant la police et la taille d’originehuggingface.co. D’après les développeurs, ces capacités assurent de bons résultats aux benchmarks visuelshuggingface.co.
Téléchargement local ou utilisation en ligne
Les poids du modèle sont publiés sous licence Apache 2.0. Ils peuvent donc être téléchargés pour un usage local ou intégrés dans des applications, à condition d’avoir une carte graphique puissante : dans une discussion sur Hugging Face, des utilisateurs indiquent qu’une version quantifiée en nf4
consomme un peu plus de 17 Go de VRAM avec bitsandbytes, et qu’une variante torchao
nécessite 22–23 Go. Sur une carte RTX 3090, l’inférence dure environ 36 secondes pour un simple LoRA de huit étapes. Ces exigences montrent que l’installation locale est réservée à ceux qui disposent d’un GPU haut de gamme.
Pour tous les autres, Alibaba propose un service en ligne gratuit. Il suffit de se connecter sur le site chat.qwen.ai et de choisir le mode « Image Editing » pour charger son image, dessiner un masque et décrire l’édition souhaitéehuggingface.co. L’outil effectue alors la retouche côté serveur et renvoie l’image modifiée. Cette interface web accessible à tous permet de profiter des performances du modèle sans investir dans du matériel coûteux.
Exemple : effacer des personnes sur un quai
Pour illustrer la puissance de Qwen‑Image‑Edit, j’ai soumis la photo ci‑dessous à la version en ligne. La scène montre un quai avec des bancs et plusieurs personnes se promenant ou se reposant. J’ai demandé à l’IA de supprimer toutes les personnes tout en gardant l’ambiance originale.
Photo originale

a photo comporte plusieurs personnes : des cyclistes, un homme torse nu allongé et une femme en chemise à carreaux. Le défi consiste à les supprimer sans altérer la perspective ni l’éclairage.
Résultat après retouche

Le résultat est bluffant : toutes les personnes ont disparu, le quai et les bancs ont été reconstruits de manière cohérente et les ombres restent correctes. Qwen‑Image‑Edit a restauré la texture et les lames de bois du plancher, ajusté la lumière et préservé l’horizon. Aucun artefact n’indique qu’une retouche a été effectuée ; cette qualité aurait demandé des heures de travail manuel sur un logiciel traditionnel.
Un outil d’avenir pour la création et la retouche
Grâce à sa licence libre et à son interface en ligne gratuite, Qwen‑Image‑Edit démocratise des fonctionnalités qui restaient jusque‑là réservées aux professionnels de la retouche. Son architecture duale (encodeur sémantique + encodeur d’apparence) lui permet de comprendre le contexte d’une photo et de modifier uniquement ce qui est demandé, qu’il s’agisse d’effacer un élément, de changer le style ou d’éditer du textehuggingface.cohuggingface.co. L’outil peut être intégré dans des workflows locaux (via les poids open source) ou utilisé gratuitement via chat.qwen.ai
Pour les créateurs de jeux vidéo ou de contenus visuels, la possibilité de retoucher des assets existants en quelques secondes ouvre de nouvelles perspectives. Les novices y trouveront un moyen simple d’obtenir des résultats professionnels, tandis que les experts pourront accélérer leur flux de travail. En définitive, Qwen‑Image‑Edit montre que l’IA d’édition d’images ne se contente plus de générer du contenu : elle sait maintenant comprendre et transformer finement des images existantes, en respectant le style et l’esthétique d’origine.