OpenAI представила модель ИИ GPT‑4, которая понимает текст и изображения

И речь не только о распознавании графических объектов, но и про понимание действий и событий на картинках.

Компания OpenAI, разработчик чат-бота ChatGPT, представила новую мощную модель искусственного интеллекта GPT-4. В отличие от предыдущей, GPT-3.5, она способна понимать не только текст, но и изображения.

Демонстрация GPT-4: Что случится, если перерезать верёвку? Воздушные шары улетят.

ИИ сможет рассказать, как можно использовать то, что он видит на фото. В качестве примера разработчики привели кадры с воздушными шариками и боксёрской перчаткой.

Демонстрация GPT-4: Что случится, если перчатка упадёт? Она упадёт на деревянную доску и мяч подлетит вверх.

Ещё более понятный пример — снимок открытого холодильника. GPT-4 расскажет о содержимом и предложит рецепты из имеющихся продуктов. Такая возможность может быть полезна слабовидящим людям, отметили разработчики.

В OpenAI называют GPT-4 самой совершенной и креативной моделью. Она по-прежнему позволяет анализировать тексты и структурировать информацию по запросам пользователя, но делает это более «осмысленно». В различных профессиональных и академических тестах ИИ теперь способен получить более высокие оценки.

В обычном же разговоре разница между GPT-3.5 и GPT-4 может быть едва уловимой. Но отличия проявляются, когда сложность задачи достигает достаточного порога — GPT-4 более надёжен, креативен и способен обрабатывать гораздо более тонкие инструкции, чем GPT-3.5, добавили разработчики.

Также создатели ИИ подтвердили, что недавно представленная поисковая система Microsoft с чат-ботом работает именно на GPT-4. Кроме того, эта модель уже применяется в продуктах Stripe, Duolingo, Morgan Stanley и А Khan Academy. Последняя использует искусственный интеллект для создания своего рода автоматизированного репетитора.

GPT-4 уже стала доступна пользователям OpenAI с подпиской ChatGPT Plus. Другие же пользователи могут зарегистрироваться в списке ожидания для доступа к API.