25 марта 2025 года компания OpenAI объявила об интеграции функции генерации изображений в обновленную версию чатбота ChatGPT — GPT-4.5. В заявлении сказано, что современные генеративные модели могут создавать «фантастические сцены», но им трудно воспроизводить полезные изображения.
Известно, что GPT-4o генерирует фото, ориентируясь на заданные текстовые параметры, следуя инструкциям и используя знания как из контекста чата, так и из загруженных изображений.
Также в OpenAI назвали преимущества обновленной версии GPT-4.5, а именно:
- воспроизведение текста. GPT-4o может сочетать символы с визуальным контентом;
- многоэтапное улучшение изображений. Пользователи могут изменять и корректировать изображения в несколько этапов через диалог;
- точное следование инструкциям. GPT-4o способен обрабатывать запросы с детальным описанием и размещать в изображении до 10-20 объектов, тогда как большинство моделей ограничиваются 5-8 элементами;
- обучение в контексте. Модель может анализировать загруженные изображения и учитывать их детали при создании новых картинок;
- мировые знания. GPT-4o интегрирует текстовую и визуальную информацию, что делает его генерацию изображений еще более умной и эффективной;
- фотореалистичность и стиль. Модель обучена на изображениях различных стилей, что позволяет создавать или преобразовывать изображения максимально убедительно.
В сообщении сказано, что GPT-4o не является идеальным и имеет определенные ограничения, которые OpenAI планирует устранять в следующих обновлениях. Кроме того, каждое созданное изображение будет содержать данные, которые будут указывать на его происхождение от GPT-4o. Также OpenAI разработала внутреннюю систему поиска, позволяющую проверять, было ли изображение сгенерировано этой моделью.
Известно, что GPT-4o будет блокировать неприемлемые материалы и изображения, в частности, содержащие насилие, порнографию или манипулятивные глубокие фейки.
Кроме того, разработчики смогут использовать генерацию изображений в GPT-4o через API уже в ближайшие недели. Пользователям также доступна гибкая настройка изображений – можно менять соотношение сторон, цвета и прозрачность фона. Модель DALL-E можно будет использовать и в дальнейшем, сказано в заявлении.
Будь в курсе! Подписывайся на Телеграм.
Подписывайтесь на страницы новостей криптовалют -