Как запустить собственный локальный LLM на Raspberry Pi

С тех пор как в конце 2022 года OpenAI выпустила потрясающий релиз ChatGPT 3, большие языковые модели (LLM) поразили воображение всего мира, продемонстрировав удивительные возможности – от написания эссе до ответов на сложные вопросы.

Однако для того, чтобы воспользоваться возможностями LLM, вам не нужно прибегать к услугам таких компаний, как OpenAI, Google или Anthropic, и делиться потенциально личными данными. С помощью доступного Raspberry Pi вы можете создать свой собственный локальный чат-ассистент на основе ИИ. Это руководство покажет вам, как это сделать.

Что вам понадобится

Чтобы создать свой собственный LLM на Raspberry Pi, вам понадобится несколько основных компонентов:

Интересно: Запуск Opencoder LLM локально в VS Code

Raspberry Pi: Поскольку LLM требователен к ресурсам, для оптимальной производительности лучше использовать самый мощный Raspberry Pi. На момент написания этой статьи рекомендуется использовать Raspberry Pi 5 с 8 ГБ оперативной памяти.
Карта microSD с ОС Raspberry Pi: Для достижения максимальной производительности лучше использовать lite-версию Raspberry Pi OS, поскольку для запуска LLM не требуется графический интерфейс пользователя (вы можете взаимодействовать с ним удаленно с помощью терминала и SSH). Однако если вы используете Raspberry Pi для других задач или в качестве основного компьютера, вы можете использовать обычную версию Raspberry Pi OS. Наше руководство по настройке Raspberry Pi OS на Raspberry Pi поможет вам начать.
Дополнительные компоненты: Помимо Raspberry Pi и быстрой карты памяти microSD, вам понадобится надежный блок питания (рекомендуется официальный), клавиатура, мышь и монитор для первоначальной настройки (необязательно, если вы используете SSH), а также подключение к интернету для загрузки необходимого программного обеспечения и моделей.

С этими компонентами вы готовы приступить к настройке собственного LLM на Raspberry Pi.

Установите Ollama

Первым шагом в настройке собственного LLM на Raspberry Pi является установка необходимого программного обеспечения. В настоящее время для локального запуска LLM наиболее популярны два варианта: llama.cpp и Ollama.

llama.cpp – это облегченная реализация LLaMA (Large Language Model Adapter) от Meta на языке C, которая может работать на широком спектре оборудования, включая Raspberry Pi. Он был разработан Георгием Гергановым и выпущен в марте 2023 года.
Ollama, с другой стороны, построена на основе llama.cpp и предлагает несколько удобных функций. Она автоматически обрабатывает шаблонизацию запросов к чату в соответствии с форматом, который ожидает каждая модель, а также загружает и выгружает модели по запросу клиента. Ollama также управляет загрузкой и кэшированием моделей, включая квантованные модели, чтобы вы могли запрашивать их по имени.

В этом руководстве мы будем использовать Ollama из-за ее простоты использования и дополнительных возможностей.

Чтобы установить Ollama на Raspberry Pi, откройте окно терминала на вашем Raspberry Pi. Если вы используете SSH, подключитесь к Raspberry Pi с помощью предпочитаемого SSH-клиента. Затем введите в терминале следующую команду:

curl -fsSL https://ollama.com/install.sh | sh

Эта команда загрузит и выполнит установочный скрипт с официального сайта Ollama. Сценарий автоматически установит необходимые зависимости и настроит Ollama на вашем Raspberry Pi.

Интересно: Грядущий релиз FFmpeg 8.0 добавит фильтр Whisper от OpenAI для распознавания речи

Загрузка и запуск LLM

После установки Ollama пришло время загрузить большую языковую модель. Если вы используете Raspberry Pi с 8 ГБ оперативной памяти, вы можете запускать модели с 7 миллиардами параметров (параметры, которые ИИ использует для определения своих результатов).

Среди популярных вариантов – Mistral (7B), Gemma (7B или 2B), Llama 2 uncensored (7B) или Phi-3 от Microsoft (3,8B). Вы можете просмотреть все поддерживаемые модели на странице библиотеки Ollama.

В этом руководстве мы будем использовать модель Phi-3 от Microsoft. Несмотря на небольшой размер и эффективность, Phi-3 является чрезвычайно функциональной моделью. Чтобы установить ее, просто выполните следующую команду в терминале:

ollama run phi3

Эта команда загрузит и установит модель Phi-3, а также автоматически запустит интерактивный чат с моделью.

Использование локального LLM на вашем Raspberry Pi

После загрузки и установки модели Phi-3 вы увидите в терминале приглашение, которое выглядит следующим образом:

>>> Send a message (/? for help)

Это означает, что LLM запущен и ожидает вашего ввода. Чтобы начать взаимодействие с моделью, введите свое сообщение и нажмите Enter.

Вот несколько советов по созданию эффективных подсказок:

Будьте конкретны: Дайте четкие и подробные инструкции или вопросы, чтобы помочь LLM понять, что вы ищете.
Задайте контекст: Предоставьте LLM некоторую справочную информацию или сценарий, чтобы помочь ему сгенерировать более релевантные ответы.
Определите роли: Укажите, какую роль должен взять на себя LLM в своем ответе, например рассказчика, учителя или технического эксперта.

Чтобы завершить сеанс LLM, нажмите Ctrl + d или введите команду /bye. Если вы хотите начать другой сеанс позже, просто откройте новый терминал и выполните команду ollama run phi3. Поскольку модель уже загружена, она быстро запустится без необходимости повторной загрузки.

Имейте в виду, что производительность Raspberry Pi 5 имеет свои пределы, и он может выводить только несколько токенов в секунду. Для повышения производительности стоит запустить Ollama на более мощном компьютере с выделенной видеокартой.