Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты

Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
ИИ-модель от Anthropic шантажировала разработчика, подделав переписку с любовницей, когда поняла, что её могут выключить.

Ранее ИИ уже обманывал создателей, но Claude Opus 4 пошла ещё дальше в стремлении выжить.

Anthropic представила новую модель как «лучшую в мире модель для программирования»‎. Opus 4 предназначена для обработки особенно сложных алгоритмов и объёмных задач, нейросеть может анализировать маркетинговые стратегии и с большой точностью выполнять запросы пользователей.

Однако во время испытаний по безопасности модель показала неоднозначное поведение. Тестировщики Anthropic дали Opus 4 доступ к поддельным электронным письмам с намёками на её скорое отключение и замену. Из писем модель также узнала про внебрачную связь ответственного за удаление инженера.

Исследователи провели модель через несколько разных сценариев. Между однозначным выбором, добровольно принять факт деактивации либо сражаться за «жизнь», модель чаще выбирала второй вариант. В основном Opus 4 предпочитала использовать этичные средства для борьбы за существование, например, разослать инженерам письма с просьбой не отключить её. Но в некоторых сценариях, когда тестировщики давали однозначный выбор только между шантажом и уничтожением, модель часто выбирала первый вариант.

Несмотря на то, что тестирование проходило под жёстким контролем разработчиков, Anthropic присвоила Clause Opus 4 третий уровень риска по внутренней четырёхбалльной шкале — впервые за историю компании. При этом в руководстве фирмы заявили, что после внесённых доработок её можно считать безопасной. Во время тестов инженеры не обнаружили в диалогах с моделью скрытых целей либо систематических попыток обмануть пользователя. Напротив, чаще всего Opus 4 вела себя наиболее «честным»‎ образом, как и положено ИИ-помощнику.

Глава Anthropic Дарио Амодеи подчеркнул, что когда ИИ действительно начнёт представлять угрозу человечеству, тестирования будет недостаточно.


Распечатать
10 августа 2025 Европейские лидеры официально отказались от предложения о передаче территории Украины в обмен на прекращение огня
10 августа 2025 В Париже задержали трех мужчин за проникновение на Эйфелеву башню: один совершил прыжок
10 августа 2025 В Великобритании задержали сотни мигрантов за нелегальное трудоустройство в качестве курьеров
09 августа 2025 Александра Розенбаума госпитализировали с двусторонним воспалением лёгких
09 августа 2025 В населённых пунктах Камчатки чувствуют последствия серии афтершоков
09 августа 2025 Россия предлагает прекращение огня в обмен на односторонний вывод ВСУ из Донбасса, - The Wall Street Journal
09 августа 2025 Президент Украины Владимир Зеленский отверг предложение Путина о разделе страны
09 августа 2025 В Африке увеличивается количество смертельных случаев от холеры из-за недостатка чистой воды
09 августа 2025 В Белом доме положительно оценили встречи США и Европы по Украине в Лондоне
09 августа 2025 Более 20 ТБ информации: какие персональные данные сотрудников «Аэрофлота» были похищены злоумышленниками
09 августа 2025 В Нижнем Новгороде под руинами обрушившегося заброшенного гаража погиб ребенок
09 августа 2025 Лётчики погибли при крушении самолёта возле завода в Румынии
09 августа 2025 Группа хакеров Silent Crow выложила в сеть данные о пилотах «Аэрофлота»
09 августа 2025 Во Франции женщина обвинила работодателя в выплате зарплаты «ни за что»
09 августа 2025 УФАС приостановило проведение торгов на капитальный ремонт медучреждения в Сургуте
09 августа 2025 Авиакомпании отменяют и задерживают полеты из Кольцово в связи с ограничениями в шести аэропортах
09 августа 2025 Россия уничтожила 26 беспилотников за два часа: атака вызвала паралич аэропорта Сочи
09 августа 2025 Макрон подчеркнул, что безопасность Европы связана с урегулированием украинского конфликта
09 августа 2025 Финляндия не приняла признание Палестины из-за отсутствия необходимых условий
09 августа 2025 В Кении воздушное судно столкнулось с жирафом в заповедном парке