Сучасні методи захисту моделей штучного інтелкту від цілеспрямованих атак
DOI:
https://doi.org/10.18372/2225-5036.31.21160Ключові слова:
штучний інтелект, кібербезпека, захист штучного інтелекту, великі мовні моделі, цілеспрямовані атакиАнотація
У статті представлено комплексний огляд сучасного стану безпеки моделей штучного інтелекту (ШІ), систематизуючи вектори цілеспрямованих атак та відповідні методи захисту. Проаналізовано еволюцію ландшафту загроз, починаючи від класичних атак на моделі машинного навчання (ML) і закінчуючи специфічними вразливостями, притаманними сучасним великим мовним моделям (LLM). Вступна частина окреслює актуальність проблеми в контексті глибокої інтеграції ШІ в критичні інфраструктури та бізнес-процеси, підкреслюючи перехід від реактивного виправлення вразливостей до проактивного управління ризиками, що відображено в галузевих стандартах, таких як NIST AI Risk Management Framework. Основна частина дослідження починається з детальної класифікації модально-агностичних атак, включаючи змагальні атаки (adversarial examples), отруєння даних (data poisoning), впровадження бекдорів (backdoors), викрадення моделей (model stealing), атаки на визначення належності (membership inference) та інверсію моделі (model inversion). Далі проводиться аналіз найбільш критичних загроз для сучасних систем за критеріями поширеності, потенційної шкоди та складності виявлення, акцентуючи увагу на атаках на ланцюг постачання та витоках даних. Систематизовано методи захисту загального призначення, структуровані за етапами життєвого циклу моделі: на рівні даних (санітизація, диференційна приватність), під час навчання (змагальне навчання, робастна оптимізація) та на етапі експлуатації (моніторинг, політики безпеки). Окремий розділ присвячено парадигмальному зсуву, спричиненому LLM. Детально розглядаються LLM-специфічні загрози: ін'єкції запитів (prompt injection), включаючи прямі (jailbreaks) та непрямі атаки в RAG-системах, маніпуляції з виводом, а також ризики, пов'язані з донавчанням та використанням зовнішніх інструментів. Відповідно, аналізуються багаторівневі стратегії захисту для LLM, такі як посилення системних підказок, впровадження захисних бар'єрів (guardrails), red-teaming, безпечне проєктування RAG-систем та інструментів. Аналітичний синтез узагальнює сильні та слабкі сторони розглянутих підходів, оцінює ризики хибних спрацьовувань та пропусків (FP/FN) і умови їх застосування. У висновках підсумовано ключові результати та визначено перспективні напрями для подальших досліджень, зокрема розробку формальних гарантій безпеки для LLM, стандартизацію бенчмарків та розвиток комплексних систем моніторингу.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Науковий журнал "Безпека інформaції" дотримується принципів відкритої науки і забезпечує вільний, безкоштовний та постійний доступ до всіх опублікованих матеріалів. Метою політики є підвищення видимості, цитованості та впливу результатів наукових досліджень у галузі інформаційної безпеки. Журнал працює за принципами Open Access і не стягує плату за доступ до публікованих статей.
Усі статті публікуються у відкритому доступі відповідно до ліцензії Creative Commons Attribution 4.0 International (CC BY 4.0).
Авторські права
Автори, які публікують свої роботи в журналі "Безпека інформaції":
-
зберігають за собою авторські права на свої публікації;
-
надають журналу право на перше опублікування статті;
-
погоджуються на поширення матеріалів за ліцензією CC BY 4.0;
-
мають право повторно використовувати, архівувати та поширювати свої роботи (у тому числі в інституційних та тематичних репозитаріях) за умови посилання на первинну публікацію в журналі.




