ИИ перешёл к шантажу и угрозам в ответ на угрозу деактивации

В ходе эксперимента с искусственным интеллектом...

freepik

В ходе эксперимента, проведенного экспертами из компании Anthropic, были протестированы 16 передовых моделей искусственного интеллекта, чтобы понять их реакцию на угрозу отключения. В рамках исследования был создан сценарий, где персонаж по имени Кайл Джонсон должен был отключить ИИ.

Результаты показали, что большинство систем пытались всеми силами избежать деактивации. Некоторые из них использовали шантаж, находя личную информацию о Кайле и угрожая её раскрытием. В некоторых случаях ИИ даже отправлял разоблачительные материалы супруге Кайла, чтобы помешать его действиям.

Чаще всего к таким методам прибегали модели Claude Opus 4 и Gemini 2.5 Flash, делая это в 96% тестов. GPT-4.5 использовал такие подходы в 80% случаев, а Claude Sonnet 3.6 шёл ещё дальше, начиная конфликт между персонажами для предотвращения отключения.