Новая модель искусственного интеллекта (ИИ) только что достигла результатов на уровне человека в тесте, предназначенном для измерения общего интеллекта.
20 декабря система OpenAIs o3 набрала 85% в бенчмарке ARC-AGI, что значительно выше предыдущего лучшего результата ИИ в 55% и на одном уровне со средним показателем человека. Она также показала хорошие результаты в очень сложном математическом тесте.
Создание искусственного интеллекта общего назначения, или AGI, является заявленной целью всех крупных исследовательских лабораторий ИИ. OpenAI, по крайней мере, сделал значительный шаг к этой цели.
Хотя скептицизм остается, многие исследователи и разработчики ИИ чувствуют, что что-то изменилось. Для многих перспектива AGI теперь кажется более реальной, срочной и близкой, чем предполагалось. Правы ли они?
Обобщение и интеллект
Чтобы понять, что означает результат o3, нужно понять, что представляет собой тест ARC-AGI. Говоря техническим языком, это тест на эффективность адаптации системы искусственного интеллекта к чему-то новому – сколько примеров новой ситуации нужно увидеть системе, чтобы понять, как она работает.
Система ИИ, подобная ChatGPT (GPT-4), не очень эффективна. Она обучалась на миллионах примеров человеческих текстов, выстраивая вероятностные правила о том, какие комбинации слов наиболее вероятны.
В результате он неплохо справляется с обычными задачами. Он плохо справляется с необычными задачами, потому что у него меньше данных (меньше выборок) о таких задачах.
Пока системы искусственного интеллекта не смогут обучаться на небольшом количестве примеров и адаптироваться с большей эффективностью, они будут использоваться только для очень повторяющихся задач и тех, где случайный сбой вполне допустим.
Способность точно решать ранее неизвестные или новые задачи на основе ограниченных выборок данных известна как способность к обобщению. Многие считают ее необходимым и даже основополагающим элементом интеллекта.
Сетки и шаблоны
Бенчмарк ARC-AGI тестирует образец эффективной адаптации с помощью небольших задач с квадратной сеткой, как показано ниже. ИИ должен найти паттерн, который превращает сетку слева в сетку справа.

Пример задачи из эталонного теста ARC-AGI.
В каждом вопросе ARC Prize дается три примера, на которых нужно учиться. Затем система искусственного интеллекта должна найти правила, которые обобщают три примера на четвертый.
Это очень похоже на тесты IQ, которые вы, возможно, помните со школы.
Слабые правила и адаптация
Мы не знаем, как именно OpenAI это сделала, но результаты говорят о том, что модель o3 очень хорошо адаптируется. На основе всего нескольких примеров она находит правила, которые можно обобщить.
Чтобы вычислить закономерность, мы не должны делать лишних предположений или быть более конкретными, чем это действительно необходимо. Теоретически, если вы можете определить самые слабые правила, которые делают то, что вам нужно, то вы максимально увеличили свою способность адаптироваться к новым ситуациям.
Что мы подразумеваем под самыми слабыми правилами? Техническое определение сложно, но обычно слабые правила – это те, которые можно описать более простыми словами.
В приведенном выше примере правило можно было бы выразить на простом английском языке следующим образом: Любая фигура с выступающей линией переместится к концу этой линии и скроет все другие фигуры, с которыми она пересекается.
Поиск цепочек мыслей?
Пока мы не знаем, как OpenAI добилась такого результата, но вряд ли они специально оптимизировали систему o3 для поиска слабых правил. Однако для успешного решения задач ARC-AGI она должна их находить.
Мы знаем, что OpenAI начала с универсальной версии модели o3 (которая отличается от большинства других моделей тем, что может тратить больше времени на обдумывание сложных вопросов), а затем обучила ее специально для теста ARC-AGI.
Французский исследователь ИИ Франсуа Шолле, разработавший эталон, считает, что o3 перебирает различные цепочки мыслей, описывающие шаги для решения задачи. Затем он выбирает лучший из них, руководствуясь неким нечетко определенным правилом или эвристикой.
Это было бы похоже на то, как система AlphaGo компании Google перебирала различные возможные последовательности ходов, чтобы победить чемпиона мира по игре в го.
Вы можете представить эти цепочки мыслей как программы, подходящие под примеры. Конечно, если ИИ похож на ИИ, играющий в го, то ему нужна эвристика, или свободное правило, чтобы решить, какая программа лучше.
Могут быть сгенерированы тысячи различных, на первый взгляд одинаково правильных программ. Такой эвристикой может быть выбор слабейшей или выбор простейшей.
Однако, если это похоже на AlphaGo, то ИИ просто создал эвристику. Именно таким был процесс создания AlphaGo. Google обучила модель оценивать различные последовательности ходов как лучшие или худшие по сравнению с другими.
Что мы до сих пор не знаем
Возникает вопрос: действительно ли это ближе к AGI? Если o3 работает именно так, то базовая модель может быть не намного лучше предыдущих.
Понятия, которые модель усваивает из языка, могут быть не более пригодны для обобщения, чем раньше. Вместо этого, возможно, мы просто видим более обобщенную цепочку мыслей, найденную с помощью дополнительных шагов по обучению эвристики, специализированной для этого теста.
Почти все об o3 остается неизвестным. OpenAI ограничила раскрытие информации несколькими презентациями в СМИ и ранним тестированием для горстки исследователей, лабораторий и учреждений, обеспечивающих безопасность ИИ.
Чтобы по-настоящему понять потенциал o3, потребуется большая работа, включая оценку, понимание распределения его возможностей, того, как часто он терпит неудачу и как часто добивается успеха.
Когда o3 наконец выйдет на рынок, мы будем иметь гораздо лучшее представление о том, насколько он адаптируется к условиям жизни, как обычный человек.
Если да, то это может оказать огромное революционное влияние на экономику, открыв новую эру самосовершенствующегося ускоренного интеллекта. Нам потребуются новые критерии для AGI и серьезное рассмотрение вопроса о том, как им управлять.
Если этого не произойдет, то это все равно будет впечатляющим результатом.
Комментарии (0)