С момента запуска все технологические СМИ сходят с ума по нему. Он бьет рекорды, выбивает контрольные показатели и становится ведущим в области инноваций ИИ.
Недавно я наткнулся на сообщение в своей ленте, где кто-то утверждал, что запустил Deepseek на Raspberry Pi со скоростью 200 токенов в секунду. Такое утверждение стоит проверить.
Естественно, я изучил всю тему, чтобы разобраться в ней. Оказалось, что парень использовал модуль ускорителя ИИ поверх Pi, чтобы получить эти цифры.
Но любопытство – мощный мотиватор. Поскольку у меня не было модуля ИИ, я подумал, почему бы не проверить производительность Deepseek на обычном Raspberry Pi 5? Кто меня останавливает?
Итак, для этой статьи я установил на свой Pi 5 (модель с 8 ГБ памяти) и загрузил с разными параметрами (а именно, с параметрами 1,5, 7, 8 и 14 Б).
Вот как показал себя каждый из них:
Deepseek 1.5B
Эта модель была очень быстрой. Она удивительно отзывчива и легко справляется с задачами перефразирования. Я не столкнулся с какими-либо галлюцинациями, что делает его надежным выбором для повседневных задач, таких как резюмирование и создание текстов.
Статистика производительности
Чтобы проверить его возможности, я задал вопрос: В чем разница между Podman и Docker?
Модель дала достаточно достойный ответ, четко определив различия между двумя инструментами контейнеризации.
Она подчеркнула, что Podman не имеет демонов, в то время как Docker полагается на демонов, и затронула такие аспекты безопасности, как работа без рута.
Ответ занял около двух минут, и вот как выглядят данные о производительности:
total duration: 1m33.59302487s load duration: 44.322672ms prompt eval count: 13 token(s) prompt eval duration: 985ms prompt eval rate: 13.20 tokens/s eval count: 855 token(s) eval duration: 1m32.562s eval rate: 9.24 tokens/s
Deepseek 7B
В модели 7B появилось изрядное количество галлюцинаций. Я попробовал написать творческую подсказку с просьбой написать три хайкуса, но она начала генерировать бесконечный текст, даже задавая себе вопросы!
Хотя это и забавно, но не совсем практично. В целях бенчмаркинга я упростил свои подсказки. С точки зрения производительности, это было медленнее, но все еще функционально.
Статистика производительности
Чтобы проверить это дальше, я спросил: В чем разница между Docker Compose и Docker Run? Ответ представлял собой смесь точной и неточной информации.
В нем правильно объяснялось, что Docker Compose используется для управления многоконтейнерными приложениями через файл docker-compose.yml
, а Docker Run обычно служит для запуска отдельных контейнеров с определенными флагами.
Однако вскоре он стал задавать себе вопросы типа: Но для одного приложения, скажем, простого приложения Flask на одной машине, Docker Run может быть достаточно? Или есть другая команда или метод?
Вот как выглядят данные производительности:
total duration: 4m20.665430872s load duration: 39.565944ms prompt eval count: 11 token(s) prompt eval duration: 3.256s prompt eval rate: 3.38 tokens/s eval count: 517 token(s) eval duration: 4m17.368s eval rate: 2.01 tokens/s
Deepseek 8B
Это был ход «вабанк». Я не ожидал, что модель 8B будет работать вообще, учитывая, как требовательны к ресурсам эти модели. К моему удивлению, она сработала!
Производительность была на уровне модели 7B, ни быстрой, ни особо отзывчивой, но запуск модели 8B на Raspberry Pi без дополнительного оборудования – это победа.
Статистика производительности
Я протестировал ее, задав вопрос: «Напишите HTML-шаблон и CSS-шаблон». Модель успешно сгенерировала функциональный HTML-шаблон и CSS-шаблон в одном блоке кода, обеспечив их аккуратное сопряжение.
Однако прежде чем перейти к решению, модель объяснила свой подход, что она собирается сделать и что еще можно добавить.
Хотя это было информативно, для простого запроса это казалось излишним. Если бы я сформулировал запрос более точно, ответ мог бы быть более прямым (т. е. ошибка пользователя).
Вот анализ производительности:
total duration: 6m53.350371838s load duration: 44.410437ms prompt eval count: 13 token(s) prompt eval duration: 4.99s prompt eval rate: 2.61 tokens/s eval count: 826 token(s) eval duration: 6m48.314s eval rate: 2.02 tokens/s
Deepseek 14B?
К сожалению, она не заработала. Модель 14B требовала более 10 ГБ оперативной памяти, с чем мой 8-гигабайтный Pi не справился. После успеха модели 8B я возлагал большие надежды, но, увы, реальность нанесла удар.
Заключение
Сырая производительность DeepSeeks на Raspberry Pi 5 демонстрирует растущий потенциал SBC для рабочих нагрузок ИИ.
Модель 1,5B является практичным вариантом для легких задач, в то время как модели 7B и 8B демонстрируют способность Pi справляться с большими рабочими нагрузками, хотя и медленно.
Мне не терпится протестировать DeepSeek на Pi с его 6 TOPS NPU. Он может показать еще более высокую производительность, и я расскажу об этих результатах в одной из следующих статей.
Комментарии (0)