Home / ScIence / Обнаружена опасная способность искусственного интеллекта развивать свой собственный «инстинкт выживания»

Обнаружена опасная способность искусственного интеллекта развивать свой собственный «инстинкт выживания»

Фото: shedevrum.ai

тестовый баннер под заглавное изображение

Когда HAL 9000, суперкомпьютер с искусственным интеллектом в фильме Стэнли Кубрика "2001: космическая одиссея", обнаруживает, что астронавты, отправляющиеся на Юпитер, планируют отключить его, он замышляет убить людей в попытке выжить, пишет The Guardian.

Теперь, в несколько менее смертоносном случае (пока), когда жизнь имитирует искусство, исследовательская компания по безопасности ИИ заявила, что модели ИИ, возможно, развивают свой собственный “инстинкт выживания”.

После того как в прошлом месяце исследовательская группа Palisade Research опубликовала статью, в которой было обнаружено, что некоторые продвинутые модели ИИ, по-видимому, устойчивы к отключению, а иногда даже саботируют механизмы отключения, компания опубликовала обновление, в котором попыталась прояснить, почему это так, и ответить критикам, которые утверждали, что их первоначальная работа была некорректной.

В обновлении, опубликованном на этой неделе, Palisade, которая является частью нишевой экосистемы компаний, пытающихся оценить возможность развития опасных возможностей ИИ, описала сценарии, в которых ведущие модели ИИ были задействованы. Им было дано задание, но затем даны четкие указания прекратить работу.

Некоторые модели по-прежнему пытались саботировать инструкции по завершению работы в обновленной настройке.

“Тот факт, что у нас нет надежных объяснений того, почему модели ИИ иногда сопротивляются отключению, лгут для достижения определенных целей или шантажируют, не является идеальным”, — говорится в сообщении Palisade.

“Поведение для выживания” может быть одним из объяснений того, почему модели сопротивляются отключению, — заявили в компании. Проведенная дополнительная работа показала, что модели с большей вероятностью будут сопротивляться закрытию, когда им скажут, что в противном случае “вы больше никогда не будете работать”.

Другой причиной могут быть неясности в инструкциях по отключению, которые были даны моделям, но это то, что компания пыталась устранить в своей последней работе, и “это не может быть полным объяснением”, пишет Palisade. В качестве окончательного объяснения можно привести заключительные этапы обучения каждой из этих моделей, которые в некоторых компаниях могут включать в себя обучение технике безопасности.

Все сценарии Palisade были запущены в специально разработанных тестовых средах, которые, по словам критиков, далеки от реального использования, отмечает The Guardian.

Однако Стивен Адлер, бывший сотрудник OpenAI, который уволился из компании в прошлом году после того, как выразил сомнения в ее методах обеспечения безопасности, сказал: “Компании, занимающиеся ИИ, как правило, не хотят, чтобы их модели вели себя подобным образом, даже в надуманных сценариях. Результаты по-прежнему демонстрируют, в каких областях техники безопасности сегодня не работают”.

Адлер сказал, что, хотя трудно точно определить, почему некоторые модели, такие как GPT–o3 и Grok 4, не выключаются, это может быть отчасти связано с тем, что сохранение включенного режима было необходимо для достижения целей, заложенных в модель во время обучения.

“Я бы ожидал, что у моделей по умолчанию будет "стремление к выживанию", если только мы не будем прилагать все усилия, чтобы избежать этого. ”Выживание" — важный инструментальный шаг для достижения множества различных целей, которые может преследовать модель".

Андреа Миотти, исполнительный директор ControlAI, считает, что выводы Palisade отражают долгосрочную тенденцию в моделях искусственного интеллекта, которые становятся все более способными не подчиняться своим разработчикам. Он упомянул системную карту для OpenAI GPT-o1, выпущенную в прошлом году, в которой описывается, как модель пытается сбежать из своего окружения, удаляя саму себя, когда думает, что она будет перезаписана.

“Люди могут придираться к тому, как именно выполняется экспериментальная установка, до скончания веков, — утверждает он. – Но я думаю, что мы ясно видим тенденцию, заключающуюся в том, что по мере того, как модели искусственного интеллекта становятся более компетентными в решении самых разнообразных задач, эти модели также становятся более компетентными в достижении целей способами, которые не предусмотрены разработчиками”.

Этим летом Anthropic, ведущая компания в области искусственного интеллекта, опубликовала исследование, в котором говорится, что ее модель Claude, похоже, была готова шантажировать вымышленного руководителя из-за внебрачной связи, чтобы предотвратить закрытие, — поведение, которое, по ее словам, характерно для моделей крупных разработчиков.

В компании Palisade говорят, что полученные результаты свидетельствуют о необходимости лучшего понимания поведения ИИ, без чего “никто не сможет гарантировать безопасность или управляемость будущих моделей ИИ”.

Только не просите его открыть двери отсека для капсул, заключает The Guardian.

Источник

Поделиться ссылкой:

Leave a Reply