OpenAI выпустила GPT-4: модель распознает не только текст, но и картинки

OpenAI выпустила модель GPT-4: она распознает не только текст, но и картинки

2.46k

OpenAI выпустила GPT-4: модель распознает не только текст, но и картинки

16.03.2023

Компания OpenAI выпустила мультимодальную модель GPT-4: нейросеть способна распознавать не только входные текстовые данные (как ее предыдущая версия GPT-3.5, на которой был построен ChatGPT), но и изображения. На выходе модель по-прежнему генерирует только текстовые данные (в том числе код).

Что это значит? Пользователь может дополнить свой текстовый запрос к GPT-4 подсказкой в виде изображений. Например, можно загрузить несколько снимков и попросить нейросеть описать их и рассказать, что в них смешного. GPT-4 «понимает» и текстовые документы с диаграммами, снимками экрана.

На настройку GPT-4 разработчики потратили около 6 месяцев. По их словам, новая модель в ряде тестов показала свою эффективность на уровне человека. Так, результаты адвокатского экзамена у GPT-4 – в 10% лучших работ среди всех участников тестирования, в то время как результаты GPT-3.5 были хуже.

Проверить способности по обработке текста GPT-4 уже можно через ChatGPT, а также API – с листом ожидания. Однако возможность ввода изображений пока не доступна в чат-боте, она находится на закрытом тестировании.

В компании отмечают, что в непринужденной беседе разница между GPT-3.5 и GPT-4 будет едва заметной. Она проявляется, когда сложность задачи достигает достаточного порога — GPT-4 более надежен, креативен и способен обрабатывать гораздо более «тонкие» инструкции, чем GPT-3.5.

Кроме того, на 24 из 26 протестированных языков GPT-4 превосходит производительность GPT-3.5, в том числе на малораспространенных, таких как латышский, валлийский и суахили.

Несмотря на свои возможности, GPT-4 имеет те же ограничения, что и более ранние модели GPT, признаются разработчики. Самое главное, что нейросеть все еще не выдает полностью достоверные результаты: «галлюцинирует» факты и допускает ошибки в рассуждениях. Однако проверки показали, что достоверность версии GPT-4 на 40% выше, чем у GPT-3.5.

Сейчас в компании работают над снижением рисков, связанных с новыми возможностями GPT-4. Для этого привлекли более 50 экспертов из разных областей. Благодаря этому, например, удалось улучшить способность GPT-4 отклонять запросы о том, как синтезировать опасные химические вещества.

Источник: OpenAI