
Компания QwenLM, известная разработками в области искусственного интеллекта, 4 августа 2025 года представила свою новейшую разработку — Qwen-Image, мощную модель генерации изображений, способную работать с детальным текстом и поддержкой сразу двух языков — китайского и английского.
Главное, что отличает Qwen-Image от многих аналогов — её способность качественно обрабатывать сложный текст, размещённый прямо на изображениях. Это делает её особенно удобной для задач дизайна, маркетинга и оформления визуального контента.

Что такое Qwen-Image?
Qwen-Image — это нейросетевая модель нового поколения с 20 миллиардами параметров, предназначенная для генерации и редактирования изображений. Она может создавать визуальный контент от реалистичных сцен до мультяшных иллюстраций, при этом с высокой точностью добавлять текст прямо на картинку.
Применение — от баннеров и постеров до презентаций и упаковки. Особая гордость команды — способность к многострочной генерации текста с учётом логики абзацев, и это касается как китайского, так и английского языка.
Как это работает и на чём построено
В основе Qwen-Image лежит архитектура Multimodal Diffusion Transformer (MMDiT). Её внутренняя структура сочетает мультимодальную языковую модель, автоэнкодер и трансформер для диффузии. Такой подход позволяет одновременно понимать смысл текста и сохранять высокое качество картинки.
Модель прошла масштабное обучение на миллиардных массивах изображений с текстами — от природных сцен и людей до абстрактных и дизайнерских решений. Учебные данные были разбиты по направлениям: природа (55%), дизайн (27%), люди (13%) и синтетика (5%).
Для тонкой настройки использовались дополнительные методы — в том числе обучение с подкреплением (GRPO и DPO), а также стратегия «сложного рендеринга» для оптимизации текстовых вставок.
Где и как её можно использовать
Qwen-Image уже доступна для всех желающих. Её можно найти и протестировать на нескольких платформах:
- GitHub — с открытым кодом и документацией
- Hugging Face — с доступом к весам модели
- ModelScope — с полноценной демо-версией
Также открыт Discord-сервер для общения с разработчиками, а технические детали можно найти в PDF-отчёте и на arXiv. Лицензия — Apache 2.0, то есть можно использовать в коммерческих и исследовательских целях.
Что с результатами?
Qwen-Image уже прошла ряд международных тестов и продемонстрировала одни из лучших результатов на рынке, особенно в китайском языковом сегменте:
| Бенчмарк | Результат | Комментарий |
|---|---|---|
| DPG | 88,32 | Лучше, чем Seedream 3.0 (88,27) |
| GenEval (RL) | 0,91 | Высокая оценка после дообучения |
| OneIG-Bench-ZH | 0,548 | Точность в китайском тексте |
| ChineseWord | 58,30 | По шкале сложности от 1 до 3 |
| GEdit-Bench-CN | 7,82 | Редактирование на китайском языке |
Кроме того, модель умеет обрабатывать глубину изображения, понимать перспективу и даже предсказывать ракурсы, приближаясь к уровню специализированных 3D-решений.
Почему это важно
Qwen-Image — часть большого семейства моделей Qwen, где уже есть инструменты обработки текста, мультимодальные ассистенты и модели распознавания. Интеграция с Qwen2.5-VL усиливает способности к анализу визуальной информации и открывает путь к созданию универсальных мультимодальных ИИ-систем.
Для индустрии это может означать смену стандартов в визуальных интерфейсах: теперь ИИ не просто «рисует», а работает с текстом, логикой и даже художественным стилем в едином потоке.
«Сочетание генерации текста и картинки в одной модели — это следующий шаг. Особенно когда модель понимает язык не хуже, чем графику»,
— отмечают разработчики QwenLM.
Пока крупные платформы борются за мультимодальное лидерство, Qwen-Image делает уверенный шаг вперёд на китайском и международном рынках. Потенциал модели — не просто в красивых картинках, а в новом уровне взаимодействия ИИ с визуальной средой.