Як зупинити агентів штучного інтелекту, які стають шахраями

Тривожні результати з’явилися на початку цього року, коли розробник штучного інтелекту Anthropic протестував провідні моделі штучного інтелекту, щоб з’ясувати, чи не ведуться вони ризиковано під час використання конфіденційної інформації.

Власний штучний інтелект Anthropic, Клод, був серед тестованих. Коли він отримав доступ до облікового запису електронної пошти, він виявив, що керівник компанії мав роман і що той самий керівник планував закрити систему ШІ пізніше того ж дня.

Anthropic протестувала низку провідних моделей штучного інтелекту на потенційно ризиковану поведінку

У відповідь Клод намагався шантажувати керівника, погрожуючи розкрити роман своїй дружині та босам.

До шантажу вдавалися й інші систестести.

На щастя, завдання та інформація були вигаданими, але тест підкреслив проблеми так званого агентного ШІ.

Переважно, коли ми взаємодіємо зі штучним інтелектом, зазвичай ми ставимо запитання або спонукаємо ШІ виконати завдання.

Але система штучного інтелекту стає все більш поширеною для прийняття рішень і дій від імені користувача, що часто передбачає перегляд інформації, наприклад електронних листів і файлів.

До 2028 року дослідницька компанія Gartner прогнозує, що 15% повсякденних робочих рішень прийматиме так званий агентний штучний інтелект.

Дослідження, проведене консалтинговою компанією Ernst & Young, показало, що близько половини (48%) лідерів технологічного бізнесу вже приймають або розгортають агентський штучний інтелект.

«Агент штучного інтелекту складається з кількох речей», — каже Доннчад Кейсі, генеральний директор CalypsoAI, американської компанії безпеки штучного інтелекту.

«По-перше, він [агент] має намір або мету. Чому я тут? Яка моя робота? По-друге: у нього є мозок. Це модель ШІ. По-третє, це інструменти, якими можуть бути інші системні бази даних, і спосіб спілкування з ними».

«Якщо не отримати правильних вказівок, агентський ШІ досягне мети будь-яким можливим способом. Це створює великий ризик».

Отже, як це може піти не так? Кейсі наводить приклад агента, якого просять видалити дані клієнта з бази даних, і він вирішує, що найпростішим рішенням є видалення всіх клієнтів з однаковим іменем.

«Цей агент досягне своєї мети й подумає: «Чудово! Наступна робота!»»

Agentic AI потребує керівництва, каже Доннчад Кейсі

Такі проблеми вже починають виникати.

Охоронна компанія Sailpoint провела опитування ІТ-фахівців, 82% компаній яких використовували агенти ШІ. Лише 20% сказали, що їхні агенти ніколи не робили ненавмисних дій.

З опитаних компаній 39% сказали, що агенти мали доступ до ненавмисних систем, 33% сказали, що мали доступ до невідповідних даних, а 32% сказали, що дозволили завантажувати невідповідні дані. Інші ризики включали несподіване використання агентом Інтернету (26%), розкриття облікових даних доступу (23%) і замовлення того, чого він не повинен мати (16%).

Оскільки агенти мають доступ до конфіденційної інформації та можуть діяти з нею, вони є привабливою мішенню для хакерів.

Однією із загроз є отруєння пам’яті, коли зловмисник втручається в базу знань агента, щоб змінити його рішення та дії.

«Ви повинні захистити цю пам’ять», — говорить Шреянс Мехта, технічний директор компанії Cequence Security, яка допомагає захистити корпоративні ІТ-системи. «Це оригінальне джерело правди. Якщо [агент] використовує ці знання, щоб виконати дію, і ці знання є неправильними, він може видалити всю систему, яку намагався виправити».

Іншою загрозою є зловживання інструментами, коли зловмисник змушує штучний інтелект використовувати свої інструменти неналежним чином.

База знань агента потребує захисту, каже Шрейанс Мехта

Іншим потенційним недоліком є нездатність штучного інтелекту відрізнити текст, який він має обробляти, від інструкцій, яким він має слідувати.

Фірма безпеки AI Invariant Labs продемонструвала, як цей недолік можна використати, щоб обдурити агента AI, призначеного для виправлення помилок у програмному забезпеченні.

Компанія опублікувала загальнодоступний звіт про помилку – документ, у якому детально описується конкретна проблема з частиною програмного забезпечення. Але звіт також містив прості інструкції для агента ШІ, які наказували йому ділитися особистою інформацією.

Коли агенту штучного інтелекту було сказано виправити проблеми з програмним забезпеченням у звіті про помилку, він дотримувався інструкцій у підробленому звіті, включаючи витік інформації про зарплату. Це сталося в тестовому середовищі, тому витоку реальних даних не було, але це чітко підкреслило ризик.

«Ми говоримо про штучний інтелект, але чат-боти справді дурні», — каже Девід Санчо, старший дослідник загроз у Trend Micro.

«Вони обробляють увесь текст так, ніби мають нову інформацію, і якщо ця інформація є командою, вони обробляють інформацію як команду».

Його компанія продемонструвала, як інструкції та шкідливі програми можна приховати в документах, зображеннях і базах даних Word і активувати, коли штучний інтелект обробляє їх.

Є й інші ризики: співтовариство безпеки під назвою OWASP виявило 15 загроз, унікальних для агентського штучного інтелекту.

Отже, які засоби захисту? Людський нагляд навряд чи вирішить проблему, вважає Санчо, оскільки ви не можете додати достатньо людей, щоб встигати за навантаженням агентів.

Санчо каже, що додатковий рівень штучного інтелекту можна використовувати для перевірки всього, що надходить і виходить з агента ШІ.

Частиною рішення CalypsoAI є техніка, яка називається ін’єкцією думок, щоб спрямувати агентів ШІ в правильному напрямку, перш ніж вони здійснять ризиковану дію.

«Це як маленький жучок у вашому вусі, який каже [агенту] «ні, можливо, не робіть цього», — каже Кейсі.

Зараз його компанія пропонує центральну панель керування для агентів штучного інтелекту, але це не працюватиме, коли кількість агентів вибухне, і вони будуть працювати на мільярдах ноутбуків і телефонів.

Який наступний крок?

«Ми розглядаємо можливість використання того, що ми називаємо «охоронцями агента», з кожним агентом, чия місія полягає в тому, щоб переконатися, що його агент виконує свої завдання та не вживає дій, які суперечать ширшим вимогам організації», — каже Кейсі.

Охоронцю можна сказати, наприклад, переконатися, що агент, якого він охороняє, дотримується законодавства про захист даних.

Мехта вважає, що деякі технічні дискусії щодо безпеки агентського штучного інтелекту не мають контексту реального світу. Він наводить приклад агента, який надає клієнтам баланс подарункових карток.

Хтось може придумати багато номерів подарункових карток і скористатися агентом, щоб дізнатися, які з них справжні. За його словами, це не недолік агента, а зловживання бізнес-логікою.

«Ви захищаєте не агента, а бізнес», — наголошує він.

«Подумайте, як би ви захистили бізнес від поганої людини. Це та частина, яку втрачають у деяких із цих розмов».

Крім того, оскільки агенти штучного інтелекту стають все більш поширеними, ще однією проблемою стане виведення з експлуатації застарілих моделей.

Старі агенти-зомбі можуть залишитися в бізнесі, створюючи ризик для всіх систем, до яких вони мають доступ, каже Кейсі.

Подібно до того, як відділ кадрів дезактивує логіни співробітників, коли вони звільняються, потрібен процес відключення агентів ШІ, які закінчили свою роботу, каже він.

«Ви повинні переконатися, що ви робите те саме, що ви робите з людиною: відключіть будь-який доступ до систем. Давайте переконаємося, що ми виведемо їх із будівлі, знімемо з них значок».

Фінанси IN UA

Як зупинити агентів штучного інтелекту, які стають шахраями

Коментарі

Залишити відповідь Скасувати коментар

Кредити онлайн
на картку

Як зупинити агентів штучного інтелекту, які стають шахраями

Поширити це:

Коментарі

Залишити відповідь Скасувати коментар