Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты

Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
ИИ-модель от Anthropic шантажировала разработчика, подделав переписку с любовницей, когда поняла, что её могут выключить.

Ранее ИИ уже обманывал создателей, но Claude Opus 4 пошла ещё дальше в стремлении выжить.

Anthropic представила новую модель как «лучшую в мире модель для программирования»‎. Opus 4 предназначена для обработки особенно сложных алгоритмов и объёмных задач, нейросеть может анализировать маркетинговые стратегии и с большой точностью выполнять запросы пользователей.

Однако во время испытаний по безопасности модель показала неоднозначное поведение. Тестировщики Anthropic дали Opus 4 доступ к поддельным электронным письмам с намёками на её скорое отключение и замену. Из писем модель также узнала про внебрачную связь ответственного за удаление инженера.

Исследователи провели модель через несколько разных сценариев. Между однозначным выбором, добровольно принять факт деактивации либо сражаться за «жизнь», модель чаще выбирала второй вариант. В основном Opus 4 предпочитала использовать этичные средства для борьбы за существование, например, разослать инженерам письма с просьбой не отключить её. Но в некоторых сценариях, когда тестировщики давали однозначный выбор только между шантажом и уничтожением, модель часто выбирала первый вариант.

Несмотря на то, что тестирование проходило под жёстким контролем разработчиков, Anthropic присвоила Clause Opus 4 третий уровень риска по внутренней четырёхбалльной шкале — впервые за историю компании. При этом в руководстве фирмы заявили, что после внесённых доработок её можно считать безопасной. Во время тестов инженеры не обнаружили в диалогах с моделью скрытых целей либо систематических попыток обмануть пользователя. Напротив, чаще всего Opus 4 вела себя наиболее «честным»‎ образом, как и положено ИИ-помощнику.

Глава Anthropic Дарио Амодеи подчеркнул, что когда ИИ действительно начнёт представлять угрозу человечеству, тестирования будет недостаточно.


Распечатать
13 июля 2025 Создатель Amazon решил подарить журнал Vogue своей супруге
13 июля 2025 Трамп способен изъять российские активы для передачи их Украине, - сообщает CBS News
13 июля 2025 В Забайкальском крае двое детей погибли под завалами в заброшенном песчаном карьере
13 июля 2025 Телеведущий Сергей Соседов перенёс тяжёлую операцию
13 июля 2025 Во время выступления Алексея Воробьева случилось происшествие из-за разбушевавшейся стихии
13 июля 2025 Умерла известная валлийская певица Айрис Уильямс
13 июля 2025 Госслужащие сочли самоубийство Старовойта "демаршем" и шагом к защите чести
13 июля 2025 Песков подтвердил внедрение военной цензуры в России
13 июля 2025 Самолёт Ан-124 вылетел из Киева в Лейпциг для проведения тестов
13 июля 2025 Танкерный флот России контролируется Германией в водах Балтийского моря
12 июля 2025 Окружение Германа Грефа наращивает своё влияние через УК «Первая» и тайные офшоры
12 июля 2025 Трамп продолжает сохранять свою позицию относительно Украины, несмотря на критику от Путина
12 июля 2025 У электрокара, сбившего пешеходов в столице, найдены штрафы за превышение скорости
12 июля 2025 В Финляндии высказались по поводу роста расходов на военные нужды в НАТО
12 июля 2025 В Соединённых Штатах задержали мужчину из-за публикаций с угрозами в адрес Трампа
12 июля 2025 Дуров обвинил французские власти в подавлении свободы слова
12 июля 2025 Тренеру по волейболу для детей предъявили обвинение в правонарушении
12 июля 2025 Последний из членов Политбюро ЦК КПСС Вадим Медведев ушел из жизни
12 июля 2025 Threats of sanctions arise amidst the political turmoil in Georgia
12 июля 2025 В условиях политического кризиса в Грузии существует угроза применения санкций