Корпоративные разработчики регулярно отправляют запросы во внешние крупные языковые модели, которые содержат электронные письма клиентов, стенограммы обращений в службу поддержки и другую идентифицирующую информацию, зачастую без промежуточного уровня очистки данных между приложением и API. Компания Dataiku выпустила Kiji Privacy Proxy — локальный шлюз с открытым исходным кодом, который обнаруживает и маскирует персональные данные до того, как запросы покидают сеть.

Этот инструмент располагается между локальными приложениями и внешними API искусственного интеллекта, такими как OpenAI и Anthropic. Входящие запросы проходят через модель машинного обучения, которая выделяет 16 и более категорий PII, включая адреса электронной почты, номера телефонов, персональные документы, номера кредитных карт и IP-адреса. Она заменяет обнаруженные записи реалистичными фиктивными значениями, пересылает замаскированный запрос к вышестоящему API и восстанавливает исходные значения в ответе, чтобы вызывающее приложение получало вывод, соответствующий его входу.
Локальное вычисление и варианты развертывания
Обнаружение PII выполняется на квантованной модели DistilBERT, запускаемой через ONNX Runtime на компьютере пользователя, без вызовов внешних сервисов на этапе самого обнаружения. Согласно документации проекта, задержка для большинства запросов не превышает 100 миллисекунд. Базовая модель достигла показателя F1 в 94% на отраслевом тестовом наборе данных.
Распространение охватывает три форм-фактора. Пользователи MacOS устанавливают нативное настольное приложение Electron, которое настраивает Proxy Auto-Config, чтобы Safari и Chrome направляли трафик через Kiji на порт 8081 без ручных переменных среды. Пользователи Linux запускают автономный серверный бинарник и устанавливают значения HTTP_PROXY и HTTPS_PROXY. Отдельное расширение для Chrome направляет веб-запросы через прокси для пользователей, которые взаимодействуют с такими сервисами, как ChatGPT, через браузер.
Факторы соответствия
Отправка PII в сторонний API может повлечь за собой обязательства в соответствии с GDPR, HIPAA и CCPA, и многие предприятия ограничивают то, какие данные могут покидать корпоративную сеть. Опрос Dataiku 2026 года, в котором приняли участие 600 ИТ-директоров, показал, что 85 процентов из них сталкивались с задержками или блокировкой проектов ИИ из-за пробелов в отслеживаемости или объясняемости, причем значительным фактором были соображения конфиденциальности.
Kiji Privacy Proxy доступен бесплатно на GitHub.




Комментарии (0)