Новая модель ИИ от Apple редактирует изображения на основе естественного языка

Исследователи компании Apple создали новую модель ИИ с открытым исходным кодом, способную редактировать изображения на основе инструкций пользователя на естественном языке (через VentureBeat).

Названная «MGIE», что означает MLLM-Guided Image Editing, она использует мультимодальные модели большого языка (MLLM) для интерпретации запросов пользователя и выполнения манипуляций на уровне пикселей.

Модель способна редактировать различные аспекты изображений. Глобальные улучшения фотографий могут включать в себя яркость, контрастность или резкость, а также применение художественных эффектов, таких как наброски. Локальное редактирование может изменять форму, размер, цвет или текстуру определенных областей или объектов на изображении, а модификации в стиле Photoshop могут включать обрезку, изменение размера, поворот и добавление фильтров, или даже изменение фона и смешивание нескольких изображений в одно.

Пользователь может ввести для фотографии пиццы команду «сделать ее более здоровой». Используя здравый смысл, модель может добавить овощные начинки, например помидоры и зелень. Запрос на глобальную оптимизацию может принять форму «добавить контрастность, чтобы имитировать больше света», а модификация в стиле Photoshop может быть сделана, если попросить модель убрать людей с заднего плана фотографии, сместив фокус изображения на выражение лица объекта.

Компания Apple сотрудничала с исследователями Калифорнийского университета для создания MGIE, которая была представлена в докладе на Международной конференции по изучению представлений (ICLR) 2024. Модель доступна на GitHub и включает в себя код, данные и предварительно обученные модели.

Это уже второе достижение Apple в области исследований ИИ за последние несколько месяцев. В конце декабря компания Apple сообщила, что ей удалось добиться успехов в развертывании больших языковых моделей (LLM) на iPhone и других устройствах Apple с ограниченным объемом памяти благодаря изобретению инновационной техники использования флеш-памяти.

Последние несколько месяцев Apple тестирует конкурента «Apple GPT», который может составить конкуренцию ChatGPT По словам Марка Гурмана из Bloomberg, работа над искусственным интеллектом является приоритетом для Apple, и компания разрабатывает «Ajax»-фреймворк для больших языковых моделей.

По данным The Information и аналитика Джеффа Пу, Apple получит какую-то функцию генеративного ИИ на iPhone и iPad примерно в конце 2024 года, то есть в момент выхода iOS 18. По словам Гурмана, iOS 18 будет включать в себя улучшенную версию Siri с функцией генеративного ИИ, подобной ChatGPT, и может стать «самым большим» обновлением программного обеспечения в истории iPhone.

Резина Марина Эксперт по Apple

Я люблю iPhone и всю продукцию Apple. Немного понимаю в "железных" делах. Помогаю всем своим родственникам в покупке ноутбуков и телефонов.

Похожие статьи

Комментарии (0)