Що таке отруєння даних ШІ й чому це відбувається?

Від чат-ботів до цифрових помічників, штучний інтелект (ШІ) стрімко захоплює світ. ШІ моделює людський інтелект за допомогою комп’ютерів і змінює спосіб нашого життя та роботи, автоматизуючи завдання, які зазвичай виконуються людьми, наприклад такі, як обслуговування клієнтів або контроль якості. Нещодавно ChatGPT приголомшив людей розмовам зі штучним інтелектом на основі кількох запитів користувача. Окрім надання інформації про будь-що, ця модель чат-бота також може писати та редагувати код, розв’язувати математичні задачі та створювати тексти. Користувачі також можуть встановлювати різні плагіни до ChatGPT для покращення досвіду спілкування з ШІ.

Величезна перевага штучного інтелекту над людьми полягає у тому, що він може працювати швидше та робить набагато менше помилок. Системи штучного інтелекту зазвичай функціонують, спираючись на величезні обсяги навчальних даних, щоб прогнозувати майбутні запити. Надсилання прикладів текстів чат-ботам допомагає їм навчитися створювати реалістичні діалоги на численні теми. Програмування ШІ використовує когнітивні навички, такі як збір даних і створення правил, відомих як алгоритми, для виконання конкретних завдань, вибору найбільш відповідного алгоритму для роботи та самовиправлення, щоб забезпечувати точні результати.

Що таке отруєння даних ШІ і як це працює? 

Як і більшість технологій, штучний інтелект також є вразливим для хакерів і кіберзлочинців. Маніпулюючи алгоритмами, кіберзлочинці можуть контролювати вихідні функцій ШІ за допомогою так званих атак з отруєнням даних. Якщо збережені у пам’яті бота дані неточні або ненадійні, то й алгоритми ШІ не дадуть точних результатів. Наприклад, якщо чат-бот запрограмований неправильно розуміти запити користувачів, він ненавмисно створюватиме зіпсовані відповіді. Так само інструменти перекладу на основі штучного інтелекту можуть бути запрограмовані на неправильне розуміння значення слова чи фрази, що призведе до невірного перекладу. Атаки з отруєнням даних — це, по суті, акти омани, які навмисно та з поганими намірами псують сховища даних ШІ. 

Чому відбувається отруєння даних? 

ШІ продовжує загрожувати існуванню роботи художників, письменників та інших творчих людей. Є дані про те, що ШІ несе пряму відповідальність за втрату 3900 або близько 5% подібних робочих місць у США у травні цього року. Загроза зменшення кількості робочих місць або зникнення певних видів діяльності через ШІ є цілком реальною, і зрозуміло, чому багато людей незадоволені та роздратовані. Нещодавно художники почали використовувати новий інструмент під назвою Nightshade, для внесення невидимих змін до пікселів у своїх роботах перед завантаженням їх в Інтернет, щоб отримати непередбачувані результати, коли їх виявляють системи ШІ. Художники застосовують цей інструмент, щоб захистити себе від засобів ШІ які використовують їх твори мистецтва без дозволу. Інструмент може перетворювати собак на котів, а автомобілі — на корів, роблячи результати нерелевантними для користувачів.

Що відбувається з системами ШІ, коли дані отруєні?  

Отруєні системи даних виникають, коли зловмисна або оманлива інформація вводиться в навчальний набір даних ШІ. Такий метод псує процес навчання і створює упередженість, що призводить до помилкового прийняття рішень й неправильних відповідей. Цей метод відомий як “отруєння через бекдор”. Так зване “отруєння навчальними даними” відбувається, коли зловмисники впливають на моделі навчання, щоб отримати певний результат або створити упереджену інформаційну модель, що приносить користь зловмиснику. Крім того, “атаки з інверсією моделі” дозволяють кіберзлочинцям витягувати конкретну та конфіденційну інформацію з вихідних даних моделі ШІ, яка потім використовується на користь хакера. Нарешті, “приховані атаки” створюють вразливості, які практично неможливо виявити під час тестування. Однак ці вразливості можуть бути виявлені та використані після запуску моделей. 

ШІ також можна застосовувати для створення “діпфейків”, які використовуються для маніпулювання контентом і наклепу на людей. З ними можна створювати реалістичні зображення, відео чи аудіофайли, щоб імітувати жертв і відтворювати сценарії, яких не існує або ніколи не відбувалося. “Діпфейки” створюються за допомогою двох алгоритмів ШІ: перший робить копію потрібного носія, а другий може повідомляти про відмінності між справжніми та підробленими зображеннями. Це повторюється допоки фальшиві зображення більше не відрізняються від справжніх.   

Як можливо боротися з отруєнням даних? 

Отруєння даних — це складне явище, якому важко запобігти, оскільки непросто виявити заражені дані. Неможливо просіяти величезну кількість інформації у базі даних програмного забезпечення штучного інтелекту, щоб перевірити точність і потенційне отруєння. Але компанії можуть застосовувати певні методи, щоб мінімізувати ризик атак. По-перше, їм слід бути обережними при обміні конфіденційними даними та повідомляти співробітникам, щоб вони не вводили приватну інформацію про компанію в інструменти штучного інтелекту, зменшуючи ризик витоку даних або підробки. Крім того, проведення тестів на проникнення у систему і мережі компанії в рамках комплексної стратегії кібербезпеки може допомогти підприємствам зрозуміти слабкі місця та потенційні вразливості. Це слід робити регулярно, щоб переконатися, що системи не пошкоджені.

Крім того, впровадження “стратегії рухомої цілі” проти зловмисників може захистити моделі машинного навчання, час від часу змінюючи їх алгоритми. У процесі навчання програмного забезпечення штучного інтелекту, компанії повинні переконатися, що вони беруть інформацію з узгоджених, дійсних і попередньо перевірених джерел даних, щоб уникнути отруєння даних, і не покладатися на ненадійні або неконтрольовані джерела. Ретельний вибір баз даних та інформації для навчання програмного забезпечення штучного інтелекту є вирішальним кроком у боротьбі з отруєнням даних, і компаніям слід пам’ятати про постійну активність у цьому захисті.

Висновок: майбутнє та отруєння даних ШІ 

Попри те, що штучний інтелект є багато у чому корисним, наприклад, може оптимізувати робочі процеси й знизити витрати на робочу силу, у ньому є чимало невизначеності. Отруєння даних є найновішою загрозою для інструментів ШІ, й схоже, що воно буде небезпечним ще надовго. Загрози стають більш витонченими, оскільки технології стають більш досконалими, і це може мати руйнівний вплив на жертв таких злочинів. Хоча деякі атаки “отруєння даних” мають на меті захист людей творчих професій, інші створюються з більш зловісними намірами. Оскільки технології стають інтегрованими в наше повсякденне життя, хакери знайдуть способи використати вразливості систем ШІ, щоб викрадати конфіденційну інформацію. Компанії можуть захистити себе, виконуючи регулярні тести на проникнення та отримуючи найновішу інформацію щодо ШІ загроз.

Анатолій — український автор з міста Києва. IT журналіст, перекладач, кореспондент, фотограф та ПК ентузіаст з 20-річним досвідом.

Офіційні соціальні мережі