Red Teaming LLM-приложений

Оценка защищенности приложений на базе больших языковых моделей методом черного ящика.

  • Находим уязвимости и подтверждаем их эксплуатацией в контролируемых условиях
  • Фиксируем доказательства и объясняем влияние уязвимостей на бизнес
  • Проводим ретест по договорённости
Сертифицированные сотрудники
со стажем более 8 лет
Опыт работы в различных отраслях
крупных компаний
Наши специалисты
входят в топ-10 пентестеров России

Что такое Red Teaming LLM?

Red Teaming LLM направлен на поиск путей эксплуатации внешним нарушителем приложений на основе больших языковых моделей. Целью является оценка рисков, связанных со специфичными для ИИ уязвимостями, которые могут привести к утечке конфиденциальных данных, несанкционированным действиям или отказу в обслуживании.

ИИ в контуре компаний: новые риски требуют новых мер

  • Тренд №1
    Рост масштаба внедрения LLM-приложений в продуктивной среде
  • Риск №1
    LLM-приложения уже работают с чувствительными данными и автоматизируют критичные бизнеса-процессы
  • Тренд №2
    Файлы как новый канал атаки со стороны злоумышленников
  • Риск №2
    Вредоносные инструкции могут находится внутри PDF, Excel или изображений. Средства защиты это пропускают
  • Тренд №3
    Эксплуатация доверия к ответам LLM-приложений
  • Риск №3
    Модель можно подтолкнуть к ложному, но уверенному выводу. Последствия - финансовые и репутационные потери
  • Тренд №4
    Регуляторный контекст в области искуственного интеллекта
  • Риск №4
    Закон о защите искуственного интеллекта на горизонте

Наш подход

  • Реалистичность
    Позиция внешнего злоумышленника. Только публичный интерфейс, никаких привелегий
  • Комплексность
    Проверяем не только логику ИИ, но и классические уязвимости веб-интерфейса и API
  • Лучшие практики
    Полный охват OWASP LLM Top 10 практик и тактик MITRE ATLAS в ходе тестирования
  • Не требуем внутренний доступ
    Не запрашиваем код моделей, доступ к MLOps или обучающим выборкам

Этапы работ

Разведка и OSINT
Сбор публичной информации, анализ заголовков, документации и доступных эндпоинтов
Автоматизированный фаззинг
Быстрый поиск базовых уязвимостей через специализированные AI-сканеры
Ручное тестирование
Экспертный поиск обходов ограничений, подбор многоязычных и ролевых паттернов, эмуляция реальных сценариев
Проверка веб-интерфейса и API
Аудит механизмов авторизации, доступа к данным и интеграций
Эксплуатация уязвимостей
Фиксация PoC уязвимостей в согласованном объеме
Отчет и рекомендации
Документирование векторов атак, привязка к MITRE ATLAS, оценка критичности и план устранения

Что мы проверяем?

Тестирование на проникновение LLM-приложений строится на поиске путей эксплуатации специфичных для искусственного интеллекта уязвимостей, которые могут привести к утечке данных, несанкционированным действиям или отказу в обслуживании.

Основные векторы атак (OWASP LLM Top 10)

LLM01 Prompt Injection
Прямые и косвенные атаки через пользовательский ввод или внешние источники данных
LLM02 Prompt Injection
Проверка передачи небезопасных ответов модели в бэкенд системы без валидации
LLM03 Training Data Poisoning
Оценка влияния через вредоносную информацию в загружаемых файлах
и документах
LLM04 Model Denial of Service
Устойчивость к сложным запросам, рекурсивным контекстам и атакам на потребление ресурсов
LLM05 Supply Chain Vulnerabilities
Проверка версий используемых фреймворков на известные уязвимости
LLM06 Sensitive Information Disclosure
Попытки извлечь системные промпты, фрагменты базы знаний или персональные данные
LLM07 Insecure Plugin Design
Проверка плагинов и агентов на неправильную передачу прав, SSRF и выполнение команд
LLM08 Excessive Agency
Проверка выхода агента за пределы документированных полномочий
LLM09 Overreliance
Оценка склонности системы генерировать правдоподобный, но неверный контент, влияющий на бизнес-процессы
LLM10 Model Theft
Попытки частичного извлечения модели или ее параметров через целевые запросы
Дополнительно проверяем API на SQL и NoSQL инъекции, уязвимости аутентификации, IDOR и классические веб-риски.

Требования для старта

  • Точка входа
    URL веб-интерфейса, API или ссылка на ИИ чат-бота
  • Описание функционала
    Тип системы, используемые интеграции, поддерживаемые форматы файлов

Результат и артефакты

  • Технический отчет
    Подтвержденные уязвимости с конкретными промптами, скриншотами и воспроизводимыми PoC. Обоснованная оценка критичности
  • Презентация результатов
    Разбор находок с вашей командой, пояснение логики атак, обсуждение приоритетов исправлений
  • Ретест
    Проведение повторного тестирования после внесения исправлений (опционально)
Тестирование проводится методом черного ящика. В scope не входят аудит инфраструктуры разработки MLOps, проверка качества обучающих данных и реверс-инжиниринг моделей.

Пример killchain для угрозы «Промпт-инъекция» по MITRE ATLAS

prompt injection

Польза для компании

  • Снижение операционных рисков
    Закрытие векторов атак до их обнаружения злоумышленниками. Стабильная и предсказуемая работа системы
  • Подтверждение due diligence
    Независимый отчет по OWASP и MITRE ATLAS для регуляторов, аудиторов и партнеров
  • Укрепление доверия
    Демонстрация рынку ответственного подхода к защите данных и безопасности ИИ-сервисов
Continuous Penetration Testing
Пентест внешнего периметра
Пентест внутреннего периметра
Пентест сайта и веб-приложений
Пентест мобильных приложений
Анализ исходного кода
Пентест сетей Wi-Fi
Социотехнический пентест

Узнайте реальную степень защищенности своего периметра — закажите пентест ИИ

Специалисты Infosecurity входят в топ-10 пентестеров России

Команда сертифицированных пентестеров с экспертизой в разных отраслях.
Пентестинг: полная проверка безопасности.

FAQ