Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты

Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
ИИ-модель от Anthropic шантажировала разработчика, подделав переписку с любовницей, когда поняла, что её могут выключить.

Ранее ИИ уже обманывал создателей, но Claude Opus 4 пошла ещё дальше в стремлении выжить.

Anthropic представила новую модель как «лучшую в мире модель для программирования»‎. Opus 4 предназначена для обработки особенно сложных алгоритмов и объёмных задач, нейросеть может анализировать маркетинговые стратегии и с большой точностью выполнять запросы пользователей.

Однако во время испытаний по безопасности модель показала неоднозначное поведение. Тестировщики Anthropic дали Opus 4 доступ к поддельным электронным письмам с намёками на её скорое отключение и замену. Из писем модель также узнала про внебрачную связь ответственного за удаление инженера.

Исследователи провели модель через несколько разных сценариев. Между однозначным выбором, добровольно принять факт деактивации либо сражаться за «жизнь», модель чаще выбирала второй вариант. В основном Opus 4 предпочитала использовать этичные средства для борьбы за существование, например, разослать инженерам письма с просьбой не отключить её. Но в некоторых сценариях, когда тестировщики давали однозначный выбор только между шантажом и уничтожением, модель часто выбирала первый вариант.

Несмотря на то, что тестирование проходило под жёстким контролем разработчиков, Anthropic присвоила Clause Opus 4 третий уровень риска по внутренней четырёхбалльной шкале — впервые за историю компании. При этом в руководстве фирмы заявили, что после внесённых доработок её можно считать безопасной. Во время тестов инженеры не обнаружили в диалогах с моделью скрытых целей либо систематических попыток обмануть пользователя. Напротив, чаще всего Opus 4 вела себя наиболее «честным»‎ образом, как и положено ИИ-помощнику.

Глава Anthropic Дарио Амодеи подчеркнул, что когда ИИ действительно начнёт представлять угрозу человечеству, тестирования будет недостаточно.


Распечатать
20 июня 2025 Британский предприниматель одновременно сотрудничает с Россией и Украиной в оборонной промышленности
20 июня 2025 Иран произвел ракетный обстрел технопарка в Израиле, имеются пострадавшие
20 июня 2025 Иран совершил атаку на систему кибербезопасности израильских военных в Беэр-Шеве
20 июня 2025 Тактическое ядерное оружие против Ирана не включено в текущие планы США, сообщает Fox News
20 июня 2025 Иран готов обсудить вопросы с европейскими странами, не принимая во внимание США
20 июня 2025 США не располагают обновлёнными данными о ядерной программе Ирана
20 июня 2025 В Государственной думе предложили предоставить Илону Маску убежище в России
20 июня 2025 Волонтёрку из Белгорода признали виновной в государственной измене за антивоенные публикации
20 июня 2025 Преподавательница из МГУ пригрозила "вычислить по IP" студентов, которые оставили о ней негативные отзывы
20 июня 2025 В ОАЭ задержали бывшего руководителя комиссии Интерпола Виталия Пырлога в рамках расследования дела о коррупции
20 июня 2025 Трамп хочет уменьшить эффект от удара по Ирану перед открытием Уолл-стрит
20 июня 2025 Трамп утратил доверие к главе разведки Тулси Габбард из-за её позиции по Ирану
20 июня 2025 В 2021 году объём прямых иностранных инвестиций в Россию достиг самого низкого уровня с 2001 года
20 июня 2025 Белый дом проводит проверку директора по персоналу из-за подозрений в его российском происхождении
20 июня 2025 В России усиливают меры наказания за рекламу в Instagram и бартер в Telegram
20 июня 2025 Комментарий в Telegram обошёлся жителю Новороссийска в 10 тысяч рублей
20 июня 2025 Владельцы караоке-клуба в Екатеринбурге перевели все песни на кириллицу в связи с вступлением в силу нового закона
20 июня 2025 Отец бывшего руководителя Росмолодежи Дениса Разуваева обвинен в присвоении пожертвований, предназначенных для "СВО"
20 июня 2025 В Европейском Союзе увеличивается дефицит кадров в оборонной промышленности
20 июня 2025 Апти Алаудинов и схиигумен Гавриил официально примирились после шума в социальных сетях