Повышение эффективности GenAI с помощью нового вида чипов

2024 год станет годом запуска генеративного искусственного интеллекта (GenAI) в производство, когда предприятия и бытовая электроника начнут реально использовать технологию для прогнозирования.

Чтобы это произошло, очень большие и сложные творения OpenAI и Meta, такие как ChatGPT и Llama, должны каким-то образом быть в состоянии работать в устройствах с ограниченным энергопотреблением, которые потребляют гораздо меньше энергии, чем многие киловатты, используемые в облачных центрах обработки данных.

Эта задача вывода вдохновляет на фундаментальные исследования в области радикально более эффективной электроники.

Полупроводниковый стартап EnCharge AI объявил, что его партнерство с Принстонским университетом получило грант в размере 18,6 миллиона долларов от Агентства перспективных оборонных исследовательских проектов США (DARPA) на разработку новых видов маломощных схем.

«Вы начинаете развертывать эти модели в больших масштабах в потенциально энергозависимых средах и устройствах, и именно здесь мы видим большие возможности»
- сказал генеральный директор и соучредитель EnCharge AI Навин Верма, профессор кафедры электротехники Принстона

EnCharge AI, в которой работает 50 человек, привлекла 45 миллионов долларов от венчурных компаний, включая VentureTech, RTX Ventures, Anzu Partners и AlleyCorp. Компания была основана на основе работ, проделанных Вермой и его командой в Принстоне за последние десять лет.

EnCharge AI планирует продавать свой собственный чип-ускоритель и сопутствующие системные платы для ИИ в gj[ожих вычислениях, включая стойки корпоративных центров обработки данных, автомобили и персональные компьютеры.

Таким образом, компания стремится туда, где другие стартапы уже пытались и потерпели неудачу, – предложить решение проблемы вывода на границе, где доминируют размеры, стоимость и энергоэффективность.

Подход компании EnCharge AI является частью продолжающихся уже несколько десятилетий усилий по объединению логических схем и схем памяти, известных как in-memory compute (IMC).

Настоящим источником энергии в вычислениях является доступ к памяти. Стоимость доступа к данным в схемах памяти может на порядки превышать энергию, необходимую логическим схемам для работы с этими данными.

Программы GenAI потребляют беспрецедентные объемы памяти для представления параметров, нейронных «весов» больших нейронных сетей и еще тонны памяти для хранения и извлечения данных реального мира, с которыми они работают. В результате потребление энергии GenAI резко возрастает.

Некоторые утверждают, что решение заключается в том, чтобы выполнять вычисления ближе к памяти или даже в самих схемах памяти.

EnCharge AI получила финансирование в рамках программы DARPA стоимостью 78 миллионов долларов, направленной на IMC

Как часть более широкой инициативы DARPA по возрождению электроники, спецификации OPTIMA определяют широкую цель достижения 300 триллионов операций в секунду (TOPS) на ватт затраченной энергии – критического показателя энергоэффективности в вычислениях. Это в 15 раз превышает текущий уровень развития отрасли.

Ключевой вывод Вермы и других пионеров исследований IMC заключается в том, что в программах ИИ доминирует пара основных операций, которые используют память. Решите эти задачи, требующие большого объема памяти, и вся задача ИИ может стать более эффективной.

Основным вычислением, лежащим в основе программ GenAI, таких как большие языковые модели, является то, что известно как matrix multiply-accumulate. Процессор берет одно значение в памяти, входное, и умножает его на другое значение в памяти, весовое. Это умножение складывается с множеством других умножений, которые происходят параллельно, как «накопление» умножений, известное как операция «накопления».

В случае IMC, EnCharge AI и другие компании стремятся уменьшить использование памяти при матричном умножении-накоплении, выполняя часть работы в аналоговых схемах памяти, а не в традиционных транзисторах. Аналог может выполнять такие матричные умножения-накопления параллельно с гораздо меньшей энергией, чем цифровые схемы.

«Вы не передаете отдельные биты, вы передаете этот уменьшенный результат в виде накопления множества параллельных умножений»
- объясняет Верма

Однако аналоговые вычисления, как известно, труднодостижимы, и судьба тех, кто шел до EnCharge AI, была не слишком удачной. В информационном бюллетене микропроцессорной индустрии Microprocessor Report отмечается, что один из самых обсуждаемых стартапов в области аналоговых вычислений для ИИ — Mythic Semiconductor, получивший 165 миллионов долларов венчурного капитала, сейчас «едва держится на плаву».

Как заставить аналог работать? Это змея, которая укусила Mythic, это змея, которая десятилетиями кусала исследователей. Мы знали десятилетиями, что аналоговые компьютеры могут быть в 100 раз более энергоэффективными и в 100 раз более эффективными по «площади», чем цифровые, но «проблема в том, что сегодня мы не строим аналоговые компьютеры.
- заметил Верма

Компания EnCharge AI нашла способ справиться с аналоговыми проблемами. Первая часть – разбить проблему на более мелкие. Оказалось, что не нужно делать все в аналоговом режиме, говорит Верма. Достаточно сделать более эффективной только операцию накопления.

Вместо того чтобы выполнять все операции матричного умножения-накопления в аналоговом режиме, первая часть – матричное умножение – выполняется в обычных цифровых схемах чипа EnCharge AI, то есть на транзисторах. Только часть накопления выполняется в аналоговых схемах через слой конденсаторов, расположенных над цифровыми транзисторами.

Когда вы строите вычислительную систему в памяти, именно уменьшение накопления решает проблему перемещения данных. Это то, что критично для памяти
- говорит Верма

Вторая новаторская идея, которую применила EnCharge, заключается в использовании менее сложного подхода к аналоговому измерению. Вместо того чтобы измерять ток аналоговой цепи, что является особенно шумным предложением, компания использует более простые конденсаторы – цепи, которые кратковременно накапливают заряд.

Если вы используете конденсатор, вы не используете ток, вы используете зарядные конденсаторы, поэтому вы складываете заряд, а не ток, что по своей сути является менее шумным процессом.
- говорит Верма

Использование конденсаторов также более экономично, чем предыдущие подходы к аналогу, которые требовали экзотических технологий производства. По словам Вермы, конденсаторы по сути бесплатны в том смысле, что они являются частью обычного производства полупроводников. Конденсаторы изготавливаются из обычных металлических слоев, используемых для соединения транзисторов.

Все данные, поступающие в цифровые схемы для умножения матрицы и на конденсаторы для накопления, поступают из стандартной схемы памяти SRAM, встроенной в чип в качестве локального кэша. Умное программное обеспечение, разработанное Вермой и его командой, организует, какие данные будут помещены в кэш таким образом, чтобы наиболее актуальные значения всегда находились рядом с транзисторами умножения и конденсаторами накопления.

На данный момент созданные прототипы уже предлагают поразительное улучшение энергоэффективности. EnCharge AI удалось продемонстрировать, что она может обрабатывать 150 триллионов операций в секунду на ватт при работе со значениями выводов нейронной сети, квантованными до восьми бит. Предыдущие подходы к вычислениям – такие как Mythic – давали не более десятков TOPS на ватт. EnCharge AI называет свои чипы «в 30 раз» более эффективными, чем предыдущие.

Лучшие ускорители от Nvidia или Qualcomm работают на уровне 5, может быть, 10, максимум, TOPS на ватт для восьмибитных вычислений
- говорит Верма

Вдобавок к этому прорыву в эффективности умное программное обеспечение решает и вторую проблему – проблему масштаба. Для работы с очень большими моделями, которые строит OpenAI и другие компании и которые масштабируются до триллионов весов нейронных сетей, никогда не хватит памяти в SRAM-кэше на чипе, чтобы хранить все данные. Поэтому программное обеспечение «виртуализирует» доступ к памяти вне кристалла, например, в DRAM, эффективно организуя, какие данные где хранятся, на кристалле или вне.

У вас есть преимущества всей этой большой памяти с высокой плотностью, вплоть до DRAM, и при этом, благодаря способам управления перемещением данных между ними, все это выглядит как память первого уровня с точки зрения эффективности и скорости
- говорит Верма

Компания EnCharge AI, которая официально вышла из лаборатории Вермы в 2022 году, создала несколько образцов все более сложной архитектуры, используя конденсаторный подход. «Мы потратили много времени, чтобы понять его и построить его от фундаментальной технологии до полной архитектуры и полного программного стека», – сказал Верма.

По словам Вермы, подробности о первом продукте будут объявлены позднее в этом году. Несмотря на то, что первые продукты будут ориентированы на возможности вывода, подход, основанный на использовании конденсаторов для IMC, можно распространить и на обучение, считает Верма. «Нет никаких причин, почему наша технология не может обучать, но для этого нужно проделать большую работу с программным обеспечением», – сказал он.

Конечно, рыночные факторы часто могут сдерживать новые решения, как это видно из того факта, что многочисленные стартапы, такие как Samba Nova Systems и Graphcore, несмотря на достоинства своих изобретений, не смогли одержать победу над Nvidia на рынке обучения ИИ.

Даже компания Cerebras Systems, объявившая об очень больших продажах своего обучающего компьютера, не повлияла на Nvidia.

Верма считает, что проблемы в области выводов сделают рынок чем-то другим.

«Факторы, которые будут определять ценность продуктов здесь, будут отличаться от тех, что были в сфере обучения. Важным фактором здесь является существенное различие в энергоэффективности».
- говорит Верма

«Я не думаю, что доминировать будет CUDA [имея в виду программное обеспечение Nvidia], каким бы грозным оно ни было. Вам нужно развернуть эти модели в масштабе, они должны работать в очень ограниченном энергопотреблении или в очень экономически эффективном окружении – эти параметры будут здесь решающими. И убедиться в том, что общее решение пригодно для использования, очень прозрачно пригодно для использования, как это сделала Nvidia, также будет важным фактором для победы и успеха EnCharge AI

EnCharge AI планирует продолжить финансирование. Полупроводниковым компаниям обычно требуются сотни миллионов долларов для финансирования, и Верма об этом прекрасно осведомлен.

bq «То, что двигало всеми нашими поисками средств, – это привлечение клиентов и удовлетворение их потребностей. Мы оказались в ситуации, когда рост числа клиентов ускоряется, и нам необходимо обеспечить надлежащую капитализацию, чтобы быть в состоянии сделать это, и тот факт, что у нас есть некоторые из этих возможностей, определенно означает, что мы скоро вернемся на рынок».
- говорит Верма

Сечинов Михаил Эксперт по компьютерному железу

Один из основателей проекта ITShaman.ru. Я люблю компьютерное железо. Люблю Intel, но дома и на работе использую AMD. Из-за этого много экспериментирую и тестирую.

Похожие статьи

Комментарии (0)