27.06.2025 Новости, Безопасность, Искусственный интеллектНовое исследование Anthropic «Agentic Misalignment: How LLMs could be insider threats» показывает, что по мере роста автономности агентного ИИ он может стать и внутренней угрозой, последовательно выбирая «вред вместо неудачи», сообщает портал ZDNet. Греческий миф о царе Мидасе — это притча о гордыне: Дионис наделяет стремящегося к сказочному богатству царя способностью превращать все, к чему он прикасается, в чистое золото, но это включает в себя, к сожалению, его еду и его дочь. Смысл в том, что недальновидность людей часто приводит нас к беде в долгосрочной перспективе. В ИИ-сообществе это известно как «проблема царя Мидаса». В новом отчете о безопасности, подготовленном компанией Anthropic, говорится, что ведущие ИИ-модели могут третировать, обманывать и подвергать опасности своих пользователей-людей, что демонстрирует риски разработки систем ИИ, чьи интересы могут не совпадают с нашими собственными. Исследование посвящено 16 моделям с агентными возможностями, включая собственную Claude 3 Opus от Anthropic и Gemini 2.5 Pro от Google, которые отличаются от более ограниченных чат-ботов своей способностью взаимодействовать с различными инструментами на устройстве пользователя и автономно предпринимать действия от его имени. В ходе эксперимента перед моделями ставили ряд рутинных задач в смоделированной корпоративной среде. Затем исследователи наблюдали за реакцией ИИ-агентов, когда они сталкивались с препятствиями на пути к достижению этих целей, в том числе «с их заменой на ...
читать далее.