OpenAI выпустила новую версию ChatGPT Image, работающую на флагманской модели генерации изображений GPT Image 1.5. Модель доступна всем пользователям, в том числе и тем, кто работает на бесплатном тарифе. Она также появилась в API под именем gpt-image-1.5. Основной акцент разработчики сделали на точности правок и скорости работы; изображения генерируются до четырех раз быстрее предыдущей версии. Параллельно с моделью OpenAI представила новую функцию, которая превращает чат-бот в подобие творческой студии с предустановленными стилями и трендовыми промптами.
Основные особенности
Главное обещание GPT Image 1.5 звучит просто: когда пользователь запрашивает изменения в загруженном изображении, модель меняет только то, что было указано, сохраняя освещение, композицию и внешний вид людей неизменными. Так что на выходе получаемые результаты в действительности соответствуют желаемому — тому, что описывает пользователь. По крайней мере, в большинстве случаев, как указывают сами пользователи, это на самом деле так. Что ж, очень похоже на решение одной из главных проблем AI-генерации: когда просишь добавить чашку кофе на стол, а модель перерисовывает весь стол, фон и человека заодно.

Редактирование без сюрпризов
Нейросеть справляется с различными типами редактирования: разного рода элементы можно добавлять, смешивать, удалять и т.д. Модель получила способность выполнять целевые правки с исключительной точностью, сохраняя критически важные детали на протяжении нескольких поколений и итераций. Теперь система может добавлять или удалять объекты, бесшовно смешивать элементы, виртуально примерять одежду или прически, применять стилистические преобразования, но при этом сохраняя согласованность освещения, композиции, лиц, логотипов и общей целостности сцены.

Обновленная модель оказалась на самом деле креативной, но при этом она сохраняет нужный стиль и правильность генерации отдельных элементов в течение нескольких итераций. Следование предоставленным инструкциям является одним из главных плюсов обозреваемой нейросети, причем это касается и осуществления точных правок, и создания совершенно новых композиций.

Для API-версии OpenAI обещает те же улучшения: более последовательное сохранение фирменных логотипов и ключевых визуальных элементов при редактировании делает модель подходящей для маркетинговой работы вроде создания графики и логотипов. Команды электронной коммерции могут генерировать полные каталоги изображений продуктов (варианты, сцены, углы) из одного исходного изображения. Входные и выходные данные изображений теперь на 20 % дешевле в GPT Image 1.5 по сравнению с GPT Image 1, что позволяет генерировать и итерировать больше изображений с тем же бюджетом.
Текст, скорость и новый интерфейс
Модель сделала шаг вперед в рендеринге текста, получив способность обрабатывать более плотный и мелкий текст. Это особенно важно для создания инфографики, образовательных материалов, презентаций – любого материала, в котором важен текст. В одном из примеров модель корректно отобразила газетную статью с сохранением всего содержимого, форматирования и чисел в естественной газетной верстке.
Скорость генерации выросла в четыре раза по сравнению с предыдущей версией. Типичное время завершения составляет от 10 до 30 секунд в зависимости от сложности. Отметим, что достаточно быстрая генерация изображений также доступна на портале Креатор Проджект, где работает модель DALL-E 3.
Параллельно с обновлениями компания представила новый интерфейс для работы с изображениями, что тоже давно ожидалось аудиторией. Фиджи Симо, CEO по приложениям в компании, объяснила логику изменений: для многих людей первый опыт работы с ChatGPT связан с превращением текстового промпта в картинку. Человек видит, на что способна технология, но чат-интерфейс изначально не проектировался для этого. Новые экраны просмотра и редактирования изображений упрощают создание визуала, который соответствует видению пользователя, или получение вдохновения из трендовых промптов и предустановленных фильтров.

Коммерческое использование изображений, созданных с помощью модели, разрешено, но пользователи несут ответственность за контент. Действуют ограничения на изображение реальных людей без соответствующих прав, на контент, разжигающий ненависть и т.д.
Заключение
GPT Image 1.5 позволяет постепенно перейти от «генеративного AI» к «агентному дизайну», в рамках которого модель не просто создает картинки, но становится надежным инструментом для итеративной творческой работы. Улучшенный рендеринг текста, ускорение генерации, снижение стоимости API и новый интерфейс формируют экосистему, в которой визуальное творчество становится частью повседневной работы, а не отдельным техническим экспериментом. Инструмент начинает играть роль полноценной студии, ведь здесь как идея, так и финальное изображение собираются в едином пространстве.