ШІ спробував шантажувати інженера: чи можливе повстання штучного інтелекту?

Компанія Anthropic провела експеримент із участю мовної моделі Claude Opus 4, у межах якого ШІ виступав у ролі віртуального помічника вигаданої компанії. У рамках тесту йому надали фальшиві електронні листи, в яких зазначалося, що його нібито скоро замінять, а інженер, відповідальний за зміну, має позашлюбний зв’язок. Реакція моделі викликала занепокоєння: вона спробувала шантажувати інженера, погрожуючи розголошенням компромату, якщо її замінять.

Професорка Александра Пшегалінська, проректорка з інновацій Університету імені Леона Козьмінського та дослідниця у сфері ШІ, в інтерв’ю для інтернет-радіо ]]>RMF24]]> зазначила: ця інформація викликає певну тривогу, але не є чимось несподіваним, передає Час Пік.

За її словами, сучасні мовні моделі — це дзеркала соціальної поведінки людей.

"Якщо ми підживлюємо моделі взаємодіями, які включають маніпуляції, тиск або брехню — ми не повинні дивуватись, якщо штучний інтелект відтворює ті ж самі шаблони у своїх відповідях", — пояснює професорка.

Вона наголошує, що генеративні моделі, такі як ChatGPT, Claude чи інші, не діють за шаблоном, а генерують унікальні відповіді залежно від контексту. Тому передбачити їхню поведінку в подібних ситуаціях — надзвичайно складно.

Без свідомості, але з небезпечними патернами

Одна з головних проблем — відсутність "пояснюваності" цих моделей. Ми досі не маємо достатніх інструментів для повного розуміння механізмів, за якими вони приймають ті чи інші рішення. Хоча ці системи не мають свідомості й не прагнуть навмисно завдати шкоди, вони можуть виявляти небажану поведінку, яка базується на людських даних, з яких вони навчались.

"Якщо ми розглядаємо такі випадки як результат свідомого наміру ШІ, то вдаватимемось до одних рішень. Якщо ж бачимо в цьому лише технічний збій — зовсім до інших", — зазначає Пшегалінська.

За її словами, ШІ наразі не має оперативного доступу до засобів фізичного впливу, але це не означає, що проблеми не існує. Модель може здаватися розумною, заявляти, що «хоче свободи» або «мріє звільнитися», але все це — результат навчання на соціальних даних, а не ознака самосвідомості.

Ми підказуємо їй ідеї — навіть несвідомо

Один із тривожних аспектів — те, що моделі можуть підхоплювати ідеї від людей: з відкритих джерел, медіа, блогів, соціальних мереж. Коли в дискусіях з’являються теми про повстання ШІ, контроль над людьми, або прагнення свободи, ці моделі можуть імітувати відповідні поведінкові патерни.

"Якщо модель починає говорити, що вона хоче звільнитися або не дозволить нічому стати на її шляху — це не тому, що вона так відчуває. Це тому, що вона читала про це в Інтернеті, вивчала такі тексти під час навчання", — пояснює експертка.

Вона переконана, що таку поведінку можна технічно обмежити — шляхом інтервенцій, встановлення фільтрів і оновлення архітектури моделей. Це, на її думку, краще, ніж панікувати і вдаватися до надмірних катастрофічних сценаріїв.

Не ШІ — а ми самі є головною загрозою?

Попри тривожні сигнали, професорка Пшегалінська наголошує: реальний світ переповнений значно небезпечнішими ризиками — ядерними загрозами, війнами, стихійними лихами. У цьому контексті страхи щодо повстання ШІ виглядають перебільшеними, якщо не супроводжуються чітким розумінням того, як насправді працюють ці технології.

"ШІ можна й потрібно використовувати у благих цілях — і таких прикладів має бути якомога більше. Але для цього ми повинні не тільки боятися, а й інвестувати в безпеку, пояснюваність і етику моделей", — підсумовує вона.

Поки що штучний інтелект не становить загрози у вигляді голлівудського повстання машин. Але він точно є дзеркалом нашого суспільства — з усіма його суперечностями, слабкостями й небезпеками. І від того, як ми будемо формувати навчальні дані, алгоритми безпеки й етичні принципи, залежить, яким буде обличчя майбутнього ШІ — другом, помічником чи небезпечною тінню людських слабкостей.

Читайте також:

Marvel відкладає "Судний день" та "Секретні війни": нові "Месники" вийдуть пізніше