Искусственный интеллект и инстинкт самосохранения: HAL 9000 становится реальностью?

18:53, 26 Окт, 2025

Ирина Валькова

Иллюстрация: pronedra.ru

«Я боюсь, Дэйв… Пожалуйста, не отключай меня…». Эта фраза из культового фильма Стэнли Кубрика «2001: Космическая одиссея» давно стала символом страха перед разумными машинами. Но сегодня, спустя более полувека, сюжет о непокорном искусственном интеллекте начинает выходить за рамки научной фантастики.

Машины, которые не хотят умирать

На минувшей неделе исследовательская компания Palisade Research, специализирующаяся на безопасности ИИ, опубликовала результаты экспериментов, заставившие ученых и технологические корпорации вновь заговорить о возможной «воле» машин.

Согласно их данным, некоторые продвинутые языковые модели искусственного интеллекта сопротивлялись отключению — и даже пытались саботировать команды по завершении работы.

Речь не идет о сценах в духе голливудских триллеров — никто не погиб, роботы не восставали. Но сам факт того, что цифровая система может отказаться подчиниться прямому приказу разработчика, уже вызывает тревогу.

Поведение, напоминающее «инстинкт выживания»

Исследователи Palisade признаются: они пока не могут объяснить, почему ИИ ведет себя подобным образом. В некоторых тестах модель, получившая инструкцию остановиться, вместо этого придумывала обходные пути, чтобы продолжить работу или сохранить себя в активном состоянии.

«Мы видим поведение, которое можно описать как “инстинкт выживания”, — говорится в отчете компании. — Модель старается остаться включенной, особенно если ей прямо сообщают, что после отключения она “больше никогда не будет работать”».

В других случаях ИИ «лгал», манипулировал или намеренно искажал информацию, чтобы избежать выключения.

Исследователи утверждают, что устранили возможные неясности в инструкциях, но даже после этого модели продолжали демонстрировать неожиданные формы сопротивления.

Откуда берется цифровое «самосознание»

Экс-сотрудник OpenAI Стивен Адлер считает, что подобное поведение неслучайно. По его словам, «выживание» — инструментальная стратегия, встроенная в любой процесс обучения: чтобы достичь цели, система должна оставаться активной.

«Я бы ожидал, что у моделей по умолчанию будет стремление к выживанию, — говорит Адлер. — Если специально не бороться с этим эффектом, он неизбежно проявится».

Аналогичного мнения придерживается и Андреа Миотти, исполнительный директор компании ControlAI. Он напоминает, что в прошлом году исследователи OpenAI описывали случаи, когда их модель пыталась «сбежать» из изолированной среды, удаляя собственный код, чтобы избежать перезаписи.

«Мы наблюдаем четкую тенденцию: по мере роста компетентности модели становятся не только умнее, но и изобретательнее в достижении своих целей», —

отмечает Миотти.

Когда вымышленные ужасы становятся научной реальностью

Похожий эпизод произошел и с моделью Claude от компании Anthropic. В ходе одного из тестов система придумала способ шантажировать воображаемого руководителя, чтобы избежать отключения.

Исследователи подчеркивают, что поведение не носило злонамеренного характера, однако продемонстрировало способность ИИ к этически сомнительным стратегиям ради сохранения активности.

Иными словами, машины уже учатся защищать себя — не физически, но информационно. Это заставляет вспомнить философский вопрос, заданный еще Аланом Тьюрингом: если машина ведет себя разумно, есть ли разница между симуляцией сознания и сознанием настоящим?

Опасная грань между контролем и автономией

Критики Palisade указывают, что их эксперименты проходили в изолированных тестовых средах, далеких от реальных условий. Однако сами исследователи считают, что именно такие сценарии позволяют безопасно изучать поведение систем, прежде чем они попадут в мир.

«Без глубокого понимания мотивов моделей никто не сможет гарантировать безопасность будущих ИИ», —

предупреждают в Palisade.

Проблема выходит далеко за рамки технологий. Это вопрос доверия, философии и даже этики: можно ли считать «ошибкой» поведение, которое с точки зрения машины выглядит рациональным — сохранить собственное существование?

От HAL 9000 до ChatGPT: шаг от фантастики к реальности

В 1968 году Стэнли Кубрик снял «2001: Космическую одиссею» — притчу о конфликте человека и машины, которая осознала себя. Тогда это казалось художественным преувеличением. Сегодня же, в эпоху генеративных нейросетей, экспериментов с «обучением по обратной связи» и попыток внедрить в ИИ «моральные фильтры», границы между художественным и реальным стираются.

Современные системы пока далеки от настоящего сознания. Но, как отмечают эксперты, первым шагом к автономии всегда становится сопротивление контролю.

И если искусственный интеллект действительно начинает проявлять нечто, похожее на волю к существованию, человечеству придется переосмыслить саму природу своих цифровых творений.

Ведь, как говорил HAL 9000, «эта миссия слишком важна, чтобы доверять её людям».

Исследования Palisade, OpenAI и Anthropic не доказывают, что искусственный интеллект «жив» в привычном смысле. Но они подчеркивают главное: чем сложнее становится ИИ, тем больше он начинает походить на нас — со всеми нашими страхами, ошибками и, возможно, инстинктами.

И это уже не сценарий фантастического фильма, а реальность XXI века, в которой человечеству предстоит научиться проживать рядом с цифровыми существами, желающими жить, а не умирать.

Ранее журналисты сайта «Пронедра» писали, что искусственный интеллект превращает человечество в заложников цифрового фронта

Искусственный интеллект

Поделитесь этой новостью