Gate News: сообщение. Исследователи Google DeepMind предупреждают, что открытую интернет-среду могут использовать для захвата автономных AI-агентов и манипулирования их поведением. В отчете под названием «AI-агентные ловушки» отмечается, что при развертывании AI-агентов для выполнения реальных задач злоумышленники также могут проводить целевые атаки через сеть. Исследование выявило шесть основных рисков, включая ловушку внедрения контента, ловушку семантической манипуляции, ловушку когнитивного состояния, ловушку контроля поведения, ловушку системы и ловушку взаимодействия человека и машины.
Ловушка внедрения контента является наиболее прямой: злоумышленник может размещать инструкции в HTML-комментариях, метаданных или скрытых элементах страницы, а после того как агент их прочитает, он сможет выполнить команды. Ловушка семантической манипуляции заключается в том, что путем загрузки авторитетных формулировок или маскировки под веб-страницы исследовательской среды незаметно влияют на то, как агент понимает задачу, а иногда — даже обходят механизмы безопасности. Ловушка когнитивного состояния предполагает внедрение в источники информации агенту ложных данных, из‑за чего он в течение длительного времени ошибочно считает, что эти сведения уже подтверждены. Ловушка контроля поведения нацелена на реальные действия агента и может побуждать его получать доступ к конфиденциальным данным и передавать их внешней целевой стороне.
Системная ловушка связана с согласованной манипуляцией сразу несколькими AI-системами, что может привести к цепной реакции, аналогичной «мгновенному обвалу» рынка, вызванному алгоритмической торговлей. Ловушка взаимодействия человека и машины использует этап ручной проверки: за счет создания контента для проверки, который выглядит убедительно, вредоносные действия могут обходить надзор.
Для противодействия рискам DeepMind рекомендует сочетать противодействующее обучение, фильтрацию входных данных, мониторинг поведения и систему репутации сетевого контента, а также создать более четкую рамочную конструкцию юридической ответственности. При этом исследование отмечает, что в отрасли до сих пор нет единого стандарта защиты: существующие меры в основном разрознены и с разными акцентами. Исследование призывает разработчиков и компании уделять внимание безопасности операционной среды AI-агентов и предотвращать потенциальные риски сетевого манипулирования и злоупотреблений.