Я запустил Deepseek R1 на Raspberry Pi 5 и скорость явно ниже 200 токенов/с

С момента запуска все технологические СМИ сходят с ума по нему. Он бьет рекорды, выбивает контрольные показатели и становится ведущим в области инноваций ИИ.

Недавно я наткнулся на сообщение в своей ленте, где кто-то утверждал, что запустил Deepseek на Raspberry Pi со скоростью 200 токенов в секунду. Такое утверждение стоит проверить.

Естественно, я изучил всю тему, чтобы разобраться в ней. Оказалось, что парень использовал модуль ускорителя ИИ поверх Pi, чтобы получить эти цифры.

Интересно: Что сделка Qualcomm с Arduino означает для Raspberry Pi?

Но любопытство – мощный мотиватор. Поскольку у меня не было модуля ИИ, я подумал, почему бы не проверить производительность Deepseek на обычном Raspberry Pi 5? Кто меня останавливает?

Итак, для этой статьи я установил на свой Pi 5 (модель с 8 ГБ памяти) и загрузил с разными параметрами (а именно, с параметрами 1,5, 7, 8 и 14 Б).

Вот как показал себя каждый из них:

Deepseek 1.5B

Эта модель была очень быстрой. Она удивительно отзывчива и легко справляется с задачами перефразирования. Я не столкнулся с какими-либо галлюцинациями, что делает его надежным выбором для повседневных задач, таких как резюмирование и создание текстов.

Статистика производительности

Чтобы проверить его возможности, я задал вопрос: В чем разница между Podman и Docker?

Интересно: Модели искусственного интеллекта DeepSeek и Qwen теперь доступны в виде снимков Ubuntu

Модель дала достаточно достойный ответ, четко определив различия между двумя инструментами контейнеризации.

Она подчеркнула, что Podman не имеет демонов, в то время как Docker полагается на демонов, и затронула такие аспекты безопасности, как работа без рута.

Ответ занял около двух минут, и вот как выглядят данные о производительности:

total duration:       1m33.59302487s
load duration:        44.322672ms
prompt eval count:    13 token(s)
prompt eval duration: 985ms
prompt eval rate:     13.20 tokens/s
eval count:           855 token(s)
eval duration:        1m32.562s
eval rate:            9.24 tokens/s

Deepseek 7B

В модели 7B появилось изрядное количество галлюцинаций. Я попробовал написать творческую подсказку с просьбой написать три хайкуса, но она начала генерировать бесконечный текст, даже задавая себе вопросы!

Хотя это и забавно, но не совсем практично. В целях бенчмаркинга я упростил свои подсказки. С точки зрения производительности, это было медленнее, но все еще функционально.

Статистика производительности

Чтобы проверить это дальше, я спросил: В чем разница между Docker Compose и Docker Run? Ответ представлял собой смесь точной и неточной информации.

В нем правильно объяснялось, что Docker Compose используется для управления многоконтейнерными приложениями через файл docker-compose.yml, а Docker Run обычно служит для запуска отдельных контейнеров с определенными флагами.

Однако вскоре он стал задавать себе вопросы типа: Но для одного приложения, скажем, простого приложения Flask на одной машине, Docker Run может быть достаточно? Или есть другая команда или метод?

Вот как выглядят данные производительности:

total duration:       4m20.665430872s
load duration:        39.565944ms
prompt eval count:    11 token(s)
prompt eval duration: 3.256s
prompt eval rate:     3.38 tokens/s
eval count:           517 token(s)
eval duration:        4m17.368s
eval rate:            2.01 tokens/s

Deepseek 8B

Это был ход «вабанк». Я не ожидал, что модель 8B будет работать вообще, учитывая, как требовательны к ресурсам эти модели. К моему удивлению, она сработала!

Производительность была на уровне модели 7B, ни быстрой, ни особо отзывчивой, но запуск модели 8B на Raspberry Pi без дополнительного оборудования – это победа.

Статистика производительности

Я протестировал ее, задав вопрос: «Напишите HTML-шаблон и CSS-шаблон». Модель успешно сгенерировала функциональный HTML-шаблон и CSS-шаблон в одном блоке кода, обеспечив их аккуратное сопряжение.

Однако прежде чем перейти к решению, модель объяснила свой подход, что она собирается сделать и что еще можно добавить.

Хотя это было информативно, для простого запроса это казалось излишним. Если бы я сформулировал запрос более точно, ответ мог бы быть более прямым (т. е. ошибка пользователя).

Вот анализ производительности:

total duration:       6m53.350371838s
load duration:        44.410437ms
prompt eval count:    13 token(s)
prompt eval duration: 4.99s
prompt eval rate:     2.61 tokens/s
eval count:           826 token(s)
eval duration:        6m48.314s
eval rate:            2.02 tokens/s

Deepseek 14B?

К сожалению, она не заработала. Модель 14B требовала более 10 ГБ оперативной памяти, с чем мой 8-гигабайтный Pi не справился. После успеха модели 8B я возлагал большие надежды, но, увы, реальность нанесла удар.

Заключение

Сырая производительность DeepSeeks на Raspberry Pi 5 демонстрирует растущий потенциал SBC для рабочих нагрузок ИИ.

Модель 1,5B является практичным вариантом для легких задач, в то время как модели 7B и 8B демонстрируют способность Pi справляться с большими рабочими нагрузками, хотя и медленно.

Мне не терпится протестировать DeepSeek на Pi с его 6 TOPS NPU. Он может показать еще более высокую производительность, и я расскажу об этих результатах в одной из следующих статей.