Модель ChatGPT следующего поколения Orion от компании OpenAI, которая, по слухам и опровержениям, должна появиться к концу года может оказаться, согласно новому отчету The Information, далеко не такой умной и продвинутой.
Ссылаясь на анонимных сотрудников OpenAI, авторы доклада утверждают, что модель Orion показала гораздо меньшее улучшение по сравнению со своим предшественником GPT-4, чем GPT-4 по сравнению с GPT-3. Эти источники также отмечают, что Orion достоверно лучше своего предшественника [GPT-4] справляется с некоторыми задачами, в частности с задчами по программированию, хотя новая модель заметно сильнее в общих языковых возможностях, таких как резюмирование документов или генерация текстов электронных писем.
В качестве основного фактора, обусловившего незначительные успехи новой модели, в отчете Informations называется сокращение предложения высококачественных текстовых и других данных, на которых можно обучать новые модели. Одним словом, индустрия ИИ быстро сталкивается с проблемой узкого места в области данных для обучения, поскольку уже лишилась простых источников данных социальных сетей с таких сайтов, как X, Facebook и YouTube. Поэтому компаниям все труднее находить сложные задачи по программированию, которые помогут продвинуть их модели за пределы текущих возможностей.
Такое снижение эффективности обучения имеет серьезные экологические и коммерческие последствия. По мере роста LLM пограничного класса и дальнейшего увеличения числа параметров до триллионов, количество энергии, воды и других ресурсов, как ожидается, увеличится в шесть раз в следующем десятилетии. Именно поэтому мы видим, как Microsoft пытается перезапустить Three Mile Island, AWS покупает станцию мощностью 960 МВт, а Google приобретает мощности семи ядерных реакторов, чтобы обеспечить необходимой энергией свои растущие центры обработки данных с искусственным интеллектом – нынешняя энергетическая инфраструктура мира просто не справляется.
В ответ на это, как сообщает TechCrunch, OpenAI создала команду, чтобы найти решение нехватки данных для обучения. Эти методы могут включать в себя использование синтетических обучающих данных, таких как модели семейства Nvidias Nemotron. Команда также занимается улучшением производительности моделей после обучения.
Комментарии (0)