Обзор GPT Image 1.5. Редактирование изображений, которое перестает быть лотереей - Главные новости нейросетей

Обзор GPT Image 1.5. Редактирование изображений, которое перестает быть лотереей

Сергей


OpenAI выпустила новую версию ChatGPT Image, работающую на флагманской модели генерации изображений GPT Image 1.5. Модель доступна всем пользователям, в том числе и тем, кто работает на бесплатном тарифе. Она также появилась в API под именем gpt-image-1.5. Основной акцент разработчики сделали на точности правок и скорости работы; изображения генерируются до четырех раз быстрее предыдущей версии. Параллельно с моделью OpenAI представила новую функцию, которая превращает чат-бот в подобие творческой студии с предустановленными стилями и трендовыми промптами.

Основные особенности

Главное обещание GPT Image 1.5 звучит просто: когда пользователь запрашивает изменения в загруженном изображении, модель меняет только то, что было указано, сохраняя освещение, композицию и внешний вид людей неизменными. Так что на выходе получаемые результаты в действительности соответствуют желаемому — тому, что описывает пользователь. По крайней мере, в большинстве случаев, как указывают сами пользователи, это на самом деле так. Что ж, очень похоже на решение одной из главных проблем AI-генерации: когда просишь добавить чашку кофе на стол, а модель перерисовывает весь стол, фон и человека заодно.

Редактирование без сюрпризов

Нейросеть справляется с различными типами редактирования: разного рода элементы можно добавлять, смешивать, удалять и т.д. Модель получила способность выполнять целевые правки с исключительной точностью, сохраняя критически важные детали на протяжении нескольких поколений и итераций. Теперь система может добавлять или удалять объекты, бесшовно смешивать элементы, виртуально примерять одежду или прически, применять стилистические преобразования, но при этом сохраняя согласованность освещения, композиции, лиц, логотипов и общей целостности сцены.

Обновленная модель оказалась на самом деле креативной, но при этом она сохраняет нужный стиль и правильность генерации отдельных элементов в течение нескольких итераций. Следование предоставленным инструкциям является одним из главных плюсов обозреваемой нейросети, причем это касается и осуществления точных правок, и создания совершенно новых композиций.

Для API-версии OpenAI обещает те же улучшения: более последовательное сохранение фирменных логотипов и ключевых визуальных элементов при редактировании делает модель подходящей для маркетинговой работы вроде создания графики и логотипов. Команды электронной коммерции могут генерировать полные каталоги изображений продуктов (варианты, сцены, углы) из одного исходного изображения. Входные и выходные данные изображений теперь на 20 % дешевле в GPT Image 1.5 по сравнению с GPT Image 1, что позволяет генерировать и итерировать больше изображений с тем же бюджетом.

Текст, скорость и новый интерфейс

Модель сделала шаг вперед в рендеринге текста, получив способность обрабатывать более плотный и мелкий текст. Это особенно важно для создания инфографики, образовательных материалов, презентаций – любого материала, в котором важен текст. В одном из примеров модель корректно отобразила газетную статью с сохранением всего содержимого, форматирования и чисел в естественной газетной верстке.

Скорость генерации выросла в четыре раза по сравнению с предыдущей версией. Типичное время завершения составляет от 10 до 30 секунд в зависимости от сложности. Отметим, что достаточно быстрая генерация изображений также доступна на портале Креатор Проджект, где работает модель DALL-E 3.

Параллельно с обновлениями компания представила новый интерфейс для работы с изображениями, что тоже давно ожидалось аудиторией. Фиджи Симо, CEO по приложениям в компании, объяснила логику изменений: для многих людей первый опыт работы с ChatGPT связан с превращением текстового промпта в картинку. Человек видит, на что способна технология, но чат-интерфейс изначально не проектировался для этого. Новые экраны просмотра и редактирования изображений упрощают создание визуала, который соответствует видению пользователя, или получение вдохновения из трендовых промптов и предустановленных фильтров.

Коммерческое использование изображений, созданных с помощью модели, разрешено, но пользователи несут ответственность за контент. Действуют ограничения на изображение реальных людей без соответствующих прав, на контент, разжигающий ненависть и т.д.

Заключение

GPT Image 1.5 позволяет постепенно перейти от «генеративного AI» к «агентному дизайну», в рамках которого модель не просто создает картинки, но становится надежным инструментом для итеративной творческой работы. Улучшенный рендеринг текста, ускорение генерации, снижение стоимости API и новый интерфейс формируют экосистему, в которой визуальное творчество становится частью повседневной работы, а не отдельным техническим экспериментом. Инструмент начинает играть роль полноценной студии, ведь здесь как идея, так и финальное изображение собираются в едином пространстве.



Источник

Вам также может понравиться

Оставить комментарий

Главные новости нейросетей.