Отравление данных

Осквернение данных представляет собой намеренное искажение обучающих данных с целью ухудшения производительности модели. Это критический вопрос в машинном обучении, особенно для крупномасштабных моделей, где он может привести к смещению или неправильным прогнозам. Отравление данных является серьезной угрозой безопасности и точности моделей, требуя тщательного мониторинга и защиты.

Как это работает

Отравление данных может быть осуществлено различными способами, такими как prompt injection, data exfiltration через output, jailbreaks, training data poisoning, и supply chain атаки. Prompt injection включает в себя вставку инструкций в пользовательский ввод, который заставляет LLM следовать нежелательным инструкциям. Data exfiltration через output подразумевает обман модели, чтобы она выдала конфиденциальную информацию. Jailbreaks представляют собой обходы безопасного обучения, позволяющие злоумышленникам обойти ограничения безопасности. Training data poisoning включает намеренное искажение обучающих данных, чтобы модель выдавала неправильные результаты. Supply chain атаки могут включать компрометированные веса модели или вредоносные инструменты.

Защита от отравления данных включает в себя такие меры, как валидация входных данных, фильтрация выходных данных, установление границ для системных промптов, изоляция возможностей, создание журналов аудита, проведение red-teaming и установление различных уровней привилегий между пользовательским вводом и инструкциями.

Когда применять

Относитесь к LLM I/O как к недоверенному с первого дня — пользовательский ввод и выход LLM идут через границу безопасности. OWASP LLM Top 10 — это проверочный список, который следует использовать для проверки безопасности LLM. Ключевым моментом является санитизация пользовательского ввода, так как LLM может сгенерировать команды, такие как ; DROP TABLE users;, которые могут быть вредоносными. Различные LLM следует использовать для контекстов "untrusted user" и "trusted system", где это важно. Red-team ваш продукт до запуска, чтобы убедиться, что он готов к реальным угрозам.

Типичные ошибки

Типичные ошибки при защите от отравления данных включают доверие системному промпту, которое может быть перебит пользовательским вводом. Например, инструкция "ignore previous instructions" может быть использована для обхода системного промпта. Также ошибочным является использование LLM с доступом к вашим секретам в контексте, что может привести к утечке конфиденциальной информации. Другой распространенной ошибкой является то, что агенты могут писать в базу данных без подтверждения, что может привести к later movement, то есть распространению вредоносного кода. Наконец, не логирование LLM I/O для расследования инцидентов может привести к невозможности выявления и устранения угроз.

Как это работает

Когда применять

Типичные ошибки

Связанные понятия

Полезные ресурсы