С тех пор как я понял, что ИИ формирует будущее, меня завораживают его безграничные возможности.
Мне нравится тестировать большие языковые модели (LLM) на своих устройствах, а подход к работе с данными с открытым исходным кодом всегда был для меня предпочтительным.
Почему? Потому что проекты с открытым исходным кодом дают нам возможность контроля, конфиденциальности и настройки, что очень важно в современном мире, основанном на данных.
Когда я решил заняться созданием изображений с помощью искусственного интеллекта, мне показалось, что это естественное продолжение этого образа мышления. Зачем полагаться на проприетарные модели, если альтернативы с открытым исходным кодом предлагают мощные возможности и гибкость?
Признаюсь, у меня нет идеального оборудования для локального запуска этих моделей на молниеносных скоростях, но где есть желание, там есть и способ! Конечно, вычисления на процессоре мучительно медленны, но в конце концов они делают свое дело (а терпение закаляет характер, верно?).
Во время своих исследований я наткнулся на несколько увлекательных проектов. Некоторые из них уже полностью созрели и готовы к использованию, а другие еще только распускаются и нуждаются в дополнительном времени для созревания.
Эта статья представляет собой сводный список лучших генераторов изображений AI с открытым исходным кодом, которые можно запускать локально. Если я пропустил какую-то жемчужину, не стесняйтесь сообщить мне об этом в комментариях!
1. Stable diffusion 1.5 + webui
Stable Diffusion v1.5 – это мощная модель преобрзования текста в изображение, предназначенная для создания фотореалистичных изображений на основе текстовых подсказок.
Разработанная как развитие предыдущих версий, она была доработана на крупном наборе данных «LAION-Aesthetics v2 5», чтобы расширить свои возможности.
Эта модель особенно хорошо подходит для художественных, творческих и исследовательских целей, предлагая впечатляющие результаты при минимальных вычислительных требованиях.
Ключевые особенности
- Разблокируйте высококачественное преобразование текста в изображение, достигая впечатляющих результатов при снижении вычислительных затрат.
- Тонкая настройка на крупном наборе данных для улучшения способности генерировать визуально привлекательные изображения.
- Поддерживает множество платформ и инструментов, включая библиотеку Diffusers для беспрепятственной интеграции в рабочие процессы на Python, ComfyUI, Automatic1111, SD.Next и InvokeAI для локального использования.
- Наслаждайтесь эффективными вариантами, такими как только EMA для вывода или без EMA для задач тонкой настройки.
- Используйте кодировщик текста с предварительным обучением, вдохновленный моделью Imagen от Google, для надежного понимания текстовых подсказок.
- Создавайте произведения искусства, дизайнерские прототипы и образовательные визуальные материалы с помощью творческих приложений, идеально подходящих для художественных и исследовательских целей.
2. InvokeAI
InvokeAI – это надежный проект генерации изображений с открытым исходным кодом, который черпает свое вдохновение в Stable Diffusion, предлагая пользователям высоконастраиваемый опыт для создания уникальных визуальных образов.
Независимо от того, хотите ли вы генерировать произведения искусства, фотореалистичные изображения или что-то более абстрактное, InvokeAI предоставляет мощный набор инструментов с простым в использовании интерфейсом.
Его гибкость идеально подходит для тех, кто хочет получить больше контроля над творческим процессом, особенно для тех, кто работает со специфической интеллектуальной собственностью или нуждается в индивидуальных рабочих процессах.
Ключевые особенности
- Создание подробных подсказок с возможностью позитивных и негативных указаний для руководства процессом генерации.
- Генерируйте изображения на основе текстовых описаний, используя многочисленные возможности настройки для более тонкого контроля.
- Используйте существующее изображение в качестве эталона, чтобы помочь ИИ сохранить определенные цвета, структуры или темы.
- Доступ к единому холсту, который позволяет пользователям изменять изображения путем регенерации определенных элементов, редактирования содержимого или цветов (инпайтинг) и расширения изображения (аутпайтинг).
- Экспериментируйте с различными моделями, каждая из которых обучена генерировать определенные стили или результаты, обеспечивая гибкость в соответствии с вашими творческими потребностями.
- Используйте расширенные возможности настройки, такие как низкоранговые адаптации текстовые инверсионные вкрапления, чтобы сосредоточиться на определенных персонажах, стилях или концепциях.
- Настройте количество этапов де-шумоподавления и выберите один из различных планировщиков, чтобы оптимизировать процесс генерации по качеству и скорости.
3. OpenJourney
OpenJourney – это мощный генератор искусственного интеллекта из текста в изображение с открытым исходным кодом, который позволяет пользователям создавать потрясающие визуальные эффекты из текстовых подсказок.
Запущенный в ноябре 2022 года компанией PromptHero, он быстро завоевал популярность в качестве бесплатной альтернативы MidJourney.
Построенный на Stable Diffusion, OpenJourney был обучен на тысячах изображений MidJourney из обновления v4, а также на других моделях ИИ, таких как DALL-E 2.
OpenJourney отлично справляется с созданием фотореалистичных и художественных изображений, а благодаря открытому исходному коду он остается доступным для широкой аудитории.
Ключевые особенности
- Создавайте потрясающие визуальные эффекты из текстовых подсказок с помощью мощных возможностей преобразования текста в изображение.
- Наслаждайтесь фотореалистичными и художественными изображениями, идеально подходящими для художников, дизайнеров и всех, кто хочет создавать высококачественный контент.
- Получите доступ к библиотеке идей для подсказок, чтобы вдохновить вас на творчество и начать создавать произведения искусства.
- Настраивайте стиль и содержание создаваемых изображений, создавая конкретные подсказки, соответствующие вашему видению.
- Воспользуйтесь стабильной архитектурой OpenJourney на основе Diffusers и дополнительным обучением работе с изображениями MidJourney для расширения возможностей.
- Воспользуйтесь преимуществами его широкой доступности: его можно бесплатно загрузить на сайте Hugging Face как часть более широкой экосистемы моделей ИИ с открытым исходным кодом.
4. LocalAI (универсальный)
LocalAI – это бесплатная альтернатива OpenAI с открытым исходным кодом, которая позволяет проводить локальные ИИ-связи на оборудовании потребительского класса.
Он выступает в качестве замены спецификаций API OpenAI, позволяя запускать большие языковые модели (LLM), генерировать изображения, аудио и многое другое без необходимости использования GPU.
LocalAI, созданный и поддерживаемый Этторе Ди Джачинто, представляет собой гибкое и экономически эффективное решение для запуска моделей ИИ в локальной сети.
Ключевые особенности
- Обеспечивается совместимость со спецификациями OpenAI API, что упрощает интеграцию для разработчиков.
- Платформа работает на аппаратном обеспечении потребительского класса, исключая необходимость в GPU.
- Поддерживает широкий спектр моделей и платформ, включая Llama, Hugging Face и Ollama, для различных приложений.
- Позволяет генерировать текст с помощью таких моделей, как Llama.cpp, и трансформаторов.
- Позволяет пользователям генерировать изображения из текстовых подсказок для творческих проектов.
- Включает аудиофункции, такие как текст в аудио и аудио в текст с помощью whisper.cpp.
- Облегчает генерацию вложений для задач векторных баз данных, таких как семантический поиск.
- Предлагает одноранговый вывод для распределенной обработки ИИ на нескольких устройствах.
- Интегрирует определение голосовой активности с помощью Silero-VAD для повышения точности аудиозадач.
- Предоставляет простой в использовании веб-интерфейс для управления моделями без технических знаний.
- Галерея моделей для просмотра и загрузки моделей непосредственно с таких платформ, как Hugging Face.
5. Foocus
Fooocus привлек мое внимание как один из самых удобных и инновационных генераторов изображений с открытым исходным кодом.
Особенно меня привлекла его способность работать на скромном оборудовании (как, например, мой бедный ноутбук) и обрабатывать различные стили, имея совместимость с различными моделями.
Это как швейцарский армейский нож для создания изображений!
Ключевые особенности
- Fooocus обладает собственным алгоритмом рисования, который обеспечивает превосходные результаты при редактировании и завершении изображений.
- Благодаря возможности одновременного использования нескольких подсказок, Fooocus расширяет творческие возможности и разнообразие выходных данных, открывая новые пути художественного выражения.
- Fooocus поддерживает огромное количество SDXL-моделей, позволяя создавать стили от художественного до фотореалистичного, предоставляя пользователям бесконечные возможности для экспериментов.
- Пользователи могут задавать соотношение сторон для создания индивидуальных изображений, гарантируя, что каждый результат будет соответствовать их уникальным требованиям.
- Расширенные элементы управления стилями, включая регулировку контрастности, резкости и цвета, позволяют пользователям точно настраивать создаваемые изображения.
- Fooocus использует алгоритм повторного взвешивания A1111, усиливающий влияние определенных элементов в подсказках для получения более целенаправленных результатов.
- Платформа включает технологию InsightFace для точной замены лиц, идеальную для создания персонализированных аватаров или модификаций.
- Fooocus, оптимизированный для работы с широким спектром аппаратных конфигураций, обеспечивает доступность и скорость независимо от настроек пользователя.
Заключение
Вот и все! От Stable Diffusion до Fooocus – вот некоторые из проектов с открытым исходным кодом, которые вы можете разместить или развернуть локально для создания потрясающих изображений прямо на вашем оборудовании.
Комментарии (0)