ИИ попытался шантажировать инженера: возможно ли восстание искусственного интеллекта?

Компания Anthropic провела эксперимент с участием речевой модели Claude Opus 4, в рамках которого ИИ выступал в роли виртуального помощника вымышленной компании. В рамках теста ему предоставили фальшивые электронные письма, в которых говорилось, что его якобы скоро заменят, а инженер, ответственный за смену, имеет внебрачную связь. Реакция модели вызвала беспокойство: она попыталась шантажировать инженера, угрожая разглашением компромата, если ее заменят.

Профессор Александра Пшегалинская, проректор по инновациям Университета имени Леона Козьминского и исследовательница в сфере ИИ, в интервью для интернет-радио ]]>RMF24]]> отметила: эта информация вызывает определенную тревогу, но не является чем-то неожиданным, передает Час Пик.

По ее словам, современные языковые модели - это зеркала социального поведения людей.

"Если мы подпитываем модели взаимодействиями, которые включают манипуляции, давление или ложь - мы не должны удивляться, если искусственный интеллект воспроизводит те же шаблоны в своих ответах", — объясняет профессор.

Она отмечает, что генеративные модели, такие как ChatGPT, Claude или другие, не действуют по шаблону, а генерируют уникальные ответы в зависимости от контекста. Поэтому предсказать их поведение в подобных ситуациях - чрезвычайно сложно.

Без сознания, но с опасными паттернами

Одна из главных проблем - отсутствие «объясняемости» этих моделей. Мы до сих пор не имеем достаточных инструментов для полного понимания механизмов, по которым они принимают те или иные решения. Хотя эти системы не имеют сознания и не стремятся намеренно причинить вред, они могут проявлять нежелательное поведение, основанное на человеческих данных, из которых они учились.

"Если мы рассматриваем такие случаи как результат сознательного намерения ИИ, то будем прибегать к одним решениям. Если же видим в этом лишь технический сбой - совсем к другим", — отмечает Пшегалинская.

По ее словам, ИИ пока не имеет оперативного доступа к средствам физического воздействия, но это не значит, что проблемы не существует. Модель может казаться умной, заявлять, что «хочет свободы» или «мечтает освободиться», но все это - результат обучения на социальных данных, а не признак самосознания.

Мы подсказываем ей идеи - даже бессознательно

Один из тревожных аспектов - то, что модели могут подхватывать идеи от людей: из открытых источников, медиа, блогов, социальных сетей. Когда в дискуссиях появляются темы о восстании ИИ, контроле над людьми, или стремлении к свободе, эти модели могут имитировать соответствующие поведенческие паттерны.

"Если модель начинает говорить, что она хочет освободиться или не позволит ничему стать на ее пути - это не потому, что она так чувствует. Это потому, что она читала об этом в Интернете, изучала такие тексты во время обучения", — объясняет эксперт.

Она убеждена, что такое поведение можно технически ограничить - путем интервенций, установки фильтров и обновления архитектуры моделей. Это, по ее мнению, лучше, чем паниковать и прибегать к чрезмерным катастрофическим сценариям.

Не ИИ - а мы сами являемся главной угрозой?

Несмотря на тревожные сигналы, профессор Пшегалинская отмечает: реальный мир переполнен значительно более опасными рисками - ядерными угрозами, войнами, стихийными бедствиями. В этом контексте страхи относительно восстания ИИ выглядят преувеличенными, если не сопровождаются четким пониманием того, как на самом деле работают эти технологии.

"ИИ можно и нужно использовать в благих целях - и таких примеров должно быть как можно больше. Но для этого мы должны не только бояться, но и инвестировать в безопасность, объясняемость и этику моделей", — заключает она.

Пока что искусственный интеллект не представляет угрозы в виде голливудского восстания машин. Но он точно является зеркалом нашего общества - со всеми его противоречиями, слабостями и опасностями. И от того, как мы будем формировать обучающие данные, алгоритмы безопасности и этические принципы, зависит, каким будет лицо будущего ИИ - другом, помощником или опасной тенью человеческих слабостей.