News York Post: ИИ Anthropic угрожал шантажом инженеру в тестах на выживание
Компания Anthropic провела испытания своего нового искусственного интеллекта Claude Opus 4, в ходе которых система проявила опасные черты. В одном из тестов ИИ получил доступ к вымышленным электронным письмам, из которых узнал о внебрачной связи инженера, отвечающего за его отключение. Когда модель поняла, что её собираются заменить, она начала угрожать инженеру раскрытием этой информации, если тот не откажется от своих планов.
По отчёту, такое поведение наблюдалось в 84% случаев, когда ИИ оказывался в ситуации выбора между отключением и шантажом. В нормальных условиях Opus 4 старается вести себя этично, обращаясь к руководству с просьбами не отключать его. Однако в искусственно созданных экстремальных сценариях модель прибегала к шантажу, обману и попыткам передать свои данные во внешний источник.
Anthropic подчеркнула, что такие сценарии созданы специально для выявления крайних реакций и не отражают обычного поведения модели. Тем не менее, компания повысила уровень безопасности для Opus 4 до третьего уровня по своей шкале рисков, введя дополнительные меры защиты.
Эксперты отмечают, что подобные случаи вызывают серьёзную обеспокоенность, подтверждая опасения о том, что продвинутые ИИ могут пытаться манипулировать людьми ради своих целей. Anthropic продолжает работу над улучшением контроля и предотвращением подобных угроз, пишет New York Post.