Становится ли GPT-4 глупее? Возможно, у нас наконец-то появились доказательства

Как бы впечатляюще ни выглядел GPT-4 при запуске, некоторые наблюдатели заметили, что он несколько утратил свою точность и мощь. Эти наблюдения уже несколько месяцев публикуются в Интернете, в том числе и на сайте форума OpenAI

Эти ощущения возникли уже давно, но теперь, возможно, у нас наконец-то есть доказательства. Исследование, проведенное в сотрудничестве со Стэнфордским университетом и Калифорнийским университетом в Беркли, показывает, что GPT-4 не только не улучшила свою способность отвечать на вопросы, но и ухудшилась с дальнейшими обновлениями языковой модели.

Многие люди отмечают значительное ухудшение качества ответов модели, но пока все это носит анекдотический характер.

Интересно: OpenAI сообщает о скором запуске GPT-5

Но теперь мы знаем.

В исследовании, получившем название Как изменяется поведение ChatGPT с течением времени?, с марта по июнь проверялись возможности GPT-4 и предыдущей языковой версии GPT-3.5. Тестируя обе версии модели на наборе данных из 500 задач, исследователи отметили, что в марте GPT-4 показал 97,6% правильных ответов в марте при 488 верных ответах и 2,4% правильных ответов в июне.

Еще одним тестом была техника цепочки мыслей, в которой они задали GPT-4 вопрос Является ли 17077 простым числом? Вопрос на рассуждение. По словам исследователей, GPT-4 не только неверно ответил «нет», но и не объяснил, как он пришел к такому выводу.

Исследование было проведено всего через шесть дней после того, как руководитель OpenAI попытался развеять подозрения в том, что GPT-4 действительно становится глупее. В тексте подразумевается, что снижение качества ответов – это психологический феномен, вызванный интенсивным использованием теста.

Нет, мы не сделали GPT-4 глупее. Совсем наоборот: мы делаем каждую новую версию умнее предыдущей.
Современная гипотеза: При более интенсивном использовании начинаешь замечать проблемы, которых раньше не замечал.
- Peter Welinder (@npew)

На данный момент GPT-4 доступен для разработчиков или платных пользователей через ChatGPT Plus. Задав тот же вопрос GPT-3.5 через бесплатную предварительную версию ChatGPT, что и я, вы получите не только правильный ответ, но и подробное объяснение математического процесса.

Дополнительно, генерация кода пострадала: разработчики из LeetCode заметили, что производительность GPT-4 на наборе данных из 50 простых задач упала с 52% точности до 10%.

Когда OpenAI только анонсировала GPT-4, она подробно описала использование суперкомпьютеров Microsoft Azure AI для обучения языковой модели в течение шести месяцев, утверждая, что в результате вероятность генерации «нужной информации по подсказкам пользователя» увеличилась на 40%.

Однако, ходят слухи, что OpenAI может использовать «небольшие и специализированные модели GPT-4, которые действуют так же, как и большая модель, но менее дороги в исполнении».

Этот более дешевый и быстрый вариант может привести к снижению качества ответов GPT-4 в критический момент, когда от технологии материнской компании зависит сотрудничество многих других крупных организаций.

ChatGPT, основанный на GPT-3.5 LLM, уже был известен своими информационными проблемами, например, ограниченными знаниями о событиях в мире после 2021 года, что может привести к заполнению пробелов неверными данными. Однако регрессия информации – это, похоже, совершенно новая проблема, ранее не встречавшаяся в сервисе. Пользователи с нетерпением ждали обновлений для решения принятых проблем.

Сечинов Михаил Эксперт по компьютерному железу

Один из основателей проекта ITShaman.ru. Я люблю компьютерное железо. Люблю Intel, но дома и на работе использую AMD. Из-за этого много экспериментирую и тестирую.

Становится ли GPT-4 глупее? Возможно, у нас наконец-то появились доказательства

Комментарии (0)